从监控到稳定性可观测:从问题响应到预防的技术变革
出处:
mp.weixin.qq.com
作者:
汪勋
从单体架构到集群架构再到微服务架构,业务越来越庞大,也越来越复杂。每一次架构的升级,在提升了业务吞吐量的同时,必然会带来更大的复杂度。云原生时代背景下,微服务、Service Mesh、 Serverless 等新技术的出现,业务的复杂度很快就远远超越了个人的人力极限,大规模应用更是需要成千上万专业的人协作才能完成。应用稳定性链路中的因素也越来越多,一个应用相关的稳定性指标从基础设施到中间件,再到应用自身的模块、组件、中间件、基础设施等,每个环节都会有致命的因素导致应用无法正常提供服务。 依赖传统的稳定性体系,通过日志服务查看业务日志,通过各个中间件去感知中间件的运行状态, 再通过网络、存储、操作系统层面的监控来查看基础监控信息, 这些信息每一个都只能片面的代表业务链路中的某一个节点的状态,且每个状态与其他节点之间都是割裂且毫无联系的。最终只能依赖人力投入,汇总分析最终判断,再验证。 在互联网时代, 时间就是金钱这个真理从来都没有像今天这样被深刻的践行着,每一秒的不可用时间里都有可能产生大量的损失。于是,稳定性应急就越来越像是高悬头上的达摩克里斯之剑,成为让运维、研发的睡眠质量急速下降