B站内核隔离技术的应用与实践之大数据混部篇
Source :
mp.weixin.qq.com
Author :
B站SYS团队
随着B站大数据业务的高速发展,各类业务资源需求也随之快速增长。与此同时,大数据集群有效的资源利用率低于预期,究其原因主要有以下两点, 业务出于性能、稳定性考量会向平台申请过量的系统资源,导致平台不会调度更多任务上来运行。 对于高低优任务资源隔离能力不足导致有竞争时,高优任务受影响甚至被误杀。 为了解决业务资源过量,大数据团队在hadoop架构中加入了自研超配组件Amiya。Amiya依据用户申请的资源量一般大于用户真实使用的资源量的基本推论,根据当前机器的实际负载情况,向调度组件虚报一定的资源量,使得更多的任务能够被调度到服务器上。同时,在大部分任务申请量接近其真实使用量时,Amiya需要及时驱逐一定量的任务以保证服务器整体稳定运行,关于Amiya细节信息可参考B站大数据集群混部实践(上)- 资源超配篇。