B站容器应用安全变更实践
Source :
mp.weixin.qq.com
Author :
张晨铖&李思捷
云原生,以容器、不可变基础设施、声明式API等核心技术,实现了业务与硬件及底层架构的分离,使业务实例具备了可移植性、环境一致性,极大地提升了运维效率,降低了线上运维操作的稳定性风险,同时又基于微服务、分布式技术解决了传统架构的单点可靠性问题,提升了业务稳定性和开发效率。近年来,越来越多的应用完成容器化、微服务化改造,并逐步将发布、运维流程迁移到PaaS,这在释放了云原生红利的同时也不可避免的引入了更高的系统复杂度,对生产环境的稳定性也提出了更高的要求。 生产环境的稳定性,是各个互联网行业相关公司都关注的,尤其是对于大型互联网公司来说,稳定性就显得更为重要。以B站为例,从诱发稳定性问题的原因分析来看,2022年至今变更及编码问题所占据的比例,在70%以上,问题的诱因也多种多样,譬如缺少稳定性相关必要的可观测指标、灰度观察过程缺失、故障处理机制不完善等等。同时,随着业务体量的不断增大,组织划分与团队协作关系也变得日益复杂,加剧了沟通成本,也间接导致了变更问题难以管控。 对于稳定性来说,业界的一个共识是:防控住变更风险,稳定性问题就解决了一半以上。