只需半分钟,ARMS 帮你配置出“高质量”告警
出处:
mp.weixin.qq.com
作者:
图杨
某位资深运维工程师A:“一天不收个几十条告警,我都觉得心里不踏实” 。运维工程师B:“我那几个告警天天告,我的应用一点问题都没有,但是我又不敢关”。运维工程师C:“我每天都要花大量的时间,整理已经发生的告警:查它们是什么原因导致的,是故障还是误报,要不要解决,要不要屏蔽。”运维工程师D:“要不我们给告警数配置一个告警吧,一天收100条告警是正常的,哪天告出来200条估计就是有问题了”。会出现这样的对话不是因为这几位运维工程师不专业,实际上,误告警泛滥,真告警被淹没,就是大多数团队,甚至顶尖的互联网企业的运维团队的现状。想要配置出“系统无异常时不误告,有异常时及时告”的“高质量”的告警规则是非常具有挑战性的。 所以这些告警都是些什么?为了保证系统和应用的稳定性,工程师们会搭建监控系统以实时地采集比如RT(响应时间)、QPS(调用次数)、Error Rate(错误率)、HTTP状态码、Full GC次数等关键指标,并对核心应用的关键指标进行实时地巡检,当检测到指标当前值超出“正常水位”时,相关的工程师就会收到对应的告警。