• 文库
  • 字符
  • 转换
  • 加密
  • 网络
  • 更多
    图表
    数学
    坐标
    图片
    文件
  • 文库
    字符
    转换
    加密
    网络
    更多
    图表
    数学
    坐标
    图片
    文件
logo 在线工具大全

只需半分钟,ARMS 帮你配置出“高质量”告警

出处: mp.weixin.qq.com 作者: 图杨

某位资深运维工程师A:“一天不收个几十条告警,我都觉得心里不踏实” 。运维工程师B:“我那几个告警天天告,我的应用一点问题都没有,但是我又不敢关”。运维工程师C:“我每天都要花大量的时间,整理已经发生的告警:查它们是什么原因导致的,是故障还是误报,要不要解决,要不要屏蔽。”运维工程师D:“要不我们给告警数配置一个告警吧,一天收100条告警是正常的,哪天告出来200条估计就是有问题了”。会出现这样的对话不是因为这几位运维工程师不专业,实际上,误告警泛滥,真告警被淹没,就是大多数团队,甚至顶尖的互联网企业的运维团队的现状。想要配置出“系统无异常时不误告,有异常时及时告”的“高质量”的告警规则是非常具有挑战性的。 所以这些告警都是些什么?为了保证系统和应用的稳定性,工程师们会搭建监控系统以实时地采集比如RT(响应时间)、QPS(调用次数)、Error Rate(错误率)、HTTP状态码、Full GC次数等关键指标,并对核心应用的关键指标进行实时地巡检,当检测到指标当前值超出“正常水位”时,相关的工程师就会收到对应的告警。

查看原文 200 技术 lddgo 分享于 2023-08-10