干货 | 故障召回率提升34%,携程智能异常检测实践
Source :
mp.weixin.qq.com
Author :
零一
携程作为在线旅游公司,对外提供机票、酒店、火车票、度假等丰富的旅游产品,其系统稳定性关乎用户是否具有顺滑的出行体验。然而,流量激增、代码发布、运维变更等都会给系统稳定性带来挑战。 我们在2020年对生产故障的“发现-定位-解决效率”提出了“1-5-10”的目标(即一分钟发现故障,五分钟定位故障,十分钟解决故障),这无疑对监控告警提出了很高的要求。订单量是生产故障异常检测场景中最核心最显性的指标,订单量在自身形态上具有周期性、规律上升和下降、业务高峰和低谷等特点,影响因素包括节假日、促销等。倘若数以万计的业务线通过人工配置规则的方式来覆盖到所有业务场景,并且做到高准确率和召回率,是非常不现实的。因此,迫切需要一套配置费力度低、普适性强、准确率高、时效性强的智能异常检测算法体系来及时发现异常。 指标异常检测是智能运维领域的重要落地场景,携程AIOPS团队致力于提升告警质量,寻找告警效率、准确率和真实故障召回率三者之间的平衡点。我们将统计学方法和机器学习方法结合,根据指标的历史数据,将训练的多个模型组成一套异常检测系统,在覆盖真实故障的基础上,减少告警数量,产生更有价值的告警。