去哪儿网异常统计分析实践——Heimdall
Source :
mp.weixin.qq.com
Author :
沙丹丹
随着业务发展和微服务架构的普及,企业内微服务拆分粒度越来越细,服务间调用关系错综复杂。对于一些复杂的,比如机票和酒店售卖业务场景,可能动辄涉及上百个应用,当某个系统发生异常时会导致多个服务受到影响。此时 APM 系统就派上了用场,监控(Metrics)、调用链(Tracing)、日志(Logging)帮助业务同学快速定位问题。普通的业务监控报警能起到快速发现问题的作用,但具体case的排查还需要研发人员通过异常栈信息来分析,比如数据库连接异常、空指针等等。 去哪儿网很早就有了监控系统 Watcher,能够起到快速提醒业务响应异常的作用,然后开发同学排查是接到报警的系统本身的问题还是下游依赖的系统的问题,如果是下游系统的问题,就要这样一层层地找下去,有时候定位问题时间会比较长。当某个系统出现问题时最根本的表现就是产生异常,如果能直接提示开发同学系统产生了新的异常,或者异常量上涨了,就能够大大缩短开发同学排查问题的时间,做到快速恢复故障。