亿级流量下的故障事前预防:B站如何从0-1构建变更防控体系?
出处:
mp.weixin.qq.com
作者:
哔哩哔哩 刘昊
大约70%的故障都是由变更引起的,B站也深受其害。在经历了多起由变更引发的事故后,B站设计并实施了变更防控平台,从技术支撑能力、技术落地、跨领域赋能、组织文化建设等多方面入手,以期变被动应对为主动防御。目前,该平台已接入60+平台、400+场景,每天执行超过1000次变更检测,日拦截100+次潜在故障。自平台上线后,B站变更类事故占比得到有效下降,实现业务稳定性和效率的双重提升。详细的解决策略和方法,请参阅文章正文。
查看原文
22
技术
lddgo
分享于
2024-08-09