深度学习推理平台在架构上属于WPAI的子平台,旨在将算法人员使用深度学习框架训练出来的模型部署到生产环境,提供高性能、高可用的在线推理服务。总体架构如下图所示,底层依托于Kubernetes和Docker,实现了对GPU/CPU等资源的统一调度和管理,网关侧搭配Istio实现了推理服务发现和流量治理功能;算法层集成了TensorFlow、PyTorch和PaddlePaddle等优秀的深度学习框架,同时也支持用户自定义服务;应用层从模型管理、部署、推理加速和服务高可用保障等方向都提供了一系列功能。支撑了58同城在图像、NLP、语音、搜索、推荐、广告、风控领域内的各类AI应用,目前已上线模型数1000+,峰值节点数4000+,日均流量30亿。本文主要介绍深度学习推理平台推理架构的演进过程,以及新架构下在流量治理建设和可观测性建设方面的设计细节。
随着持续集成和敏捷开发的不断发展,移动应用的发布变得越来越频繁。以B站应用为例,主站粉版APP每周都会发布一次新的版本,主站HD应用的Android端与ipad端每周交替发布新的版本。在应用快速迭代的同时,QA需要在规定时间内进行大量的回归测试以保证应用的质量。一方面,大量的测试用例需要耗费较多的人力和时间,另一方面,BUG检出时间的不确定性导致给予研发修复的时间并不是很充足。因此急需一种技术来帮助QA快速筛选出高风险用例,将BUG的发现时间提前,从而给研发更多时间去修复BUG。在此背景下,我们经过调研后,选择了使用测试用例排序优化技术(Test Case Prioritization,以下简称TCP)来帮助QA对测试用例进行优先级排序,提高测试效率。
在本次会议中,Intl.Enumeration 提案成功进入到 Stage 4,距离它在 2020 年 6 月的会议上进入到 Stage 1 已经过去了两年半的时间,其它备受关注的提案如 Explicit Resource Management[1] 与 Set Methods[2] 也成功取得进展,进入到 Stage 3 阶段。
云计算时代,承担服务器之间数据传输工作的交换机成了数据中心的“神经枢纽”,一旦出故障将波及上层业务。然而单个交换机故障时,腾讯云的新一代高性能网络却可以在100微秒内找到新的通路实现0断链,做到高可用、高可扩展、高性能,从而保证业务不受影响。本文邀请到了腾讯云资深网络专家金峰及其带领的IaaS前沿技术研究团队来揭秘背后的武器——高性能网络传输协议HARP。通过本文希望可以带你了解传统网络传输协议面临的困难和挑战、HARP是如何应对并全网首次解析其中4个关键技术。
谈到好代码,我的第一想法就是优雅,那我们如何该写出好的代码,让阅读的人感受到优雅呢?首先简单探讨一下优雅代码的定义。 关于好代码的定义,各路大神都给出了自己的定义和见解 整洁的代码如同优美的散文。—— Grady Booch 任何一个傻瓜都能写出计算机可以理解的代码。唯有写出人类容易理解的代码,才是优秀的程序员。—— Martin Fowler 首先要达成一致,我们写的代码,除了用于机器执行产生我们预期的效果之外,更多的时候是给人读的,可能是后续的维护人员,更多时候是一段时间后的作者本人,因此优雅面向不同的用户有两层含义的解读。 1.对人而言,代码的整洁,清晰的逻辑; 2.对机器而言,准确性、执行性能、异常处理机制等; 这次,我们就来聊一聊,什么代码是优雅的代码,怎样写出优雅的代码。
网络与数据时代不断催生着新的命题,对现代人来讲,如何在技术蓬勃发展的信息爆炸中寻求一席之地,是我们应该不断探索的命题。我们带着这些问题,和各个领域的杰出技术人对话,一期一会,抵掌而谈,走进他们的“技术人生”,和他们一起去寻找答案。 在物理世界里,有一群人在关心着我们,保卫着我们的安全。其实今天在网络世界里,也同样有这样的一群人在保护着大家的信息安全、数据安全。本期《技术人生》我们邀请到了阿里云云安全业务的负责人欧阳欣,一起走进他的云上安全世界。以下为访谈实录:
库存平衡分仓策略相当于解一道数学难题,需要罗列许多影响因素,结合业务发展特点通过不断甄选出TOP因素,并将这些因素作为策略基石应用于分仓策略中。