B站面向1-3-5-10的应急响应中心建设
出处:
mp.weixin.qq.com
作者:
通用工程
随着业务规模的不断扩张和日常需求的快速迭代,即使是最优秀的业务架构、最完善的生产体系也无法确保系统100%的可用性,参考墨菲定律,会出错的事总会出错,故障在生产环境中不可避免。为了在故障发生时能够快速定界定位,采取有效措施止损,避免同根因故障重复发生,我们需要对故障全生命周期进行统一管理。 故障应急体系一般包括以下环节,故障预防、故障发现、故障定位、故障恢复、故障复盘及改进,其中故障预防阶段可以参考B站安全生产专项建设实践,这里不再赘述,本文将围绕故障发生后,对稳定性保障带来的挑战,如何去破局,以及如何沉淀建设平台能力,介绍B站面向故障的应急响应中心建设。