会员购故障演练平台实践
出处:
mp.weixin.qq.com
作者:
阮仁照
随着公司业务的不断扩张,用户流量不断提升,研发体系的规模和复杂性也随之增加,线上服务的稳定性也越来越重要,因此有必要搭建一个提供安全、高效、基于生产环境的故障演练系统,为线上服务保驾护航。 关于故障演练的建设理念,业界已经有了非常多的文章,但是涉及到具体的技术实现方面与落地,很少介绍。本文将基于故障演练系统,从设计到落地整个实践过程,来详细介绍下故障演练系统是具体如何设计,以及如何落地的。 对于容器级别的故障,我司已经有了较为成熟的产品混沌实验平台,但是针对我们电商事业部(主要语言为 Java),依旧有不少痛点问题无法避免,例如在实验时想对特殊用户产生故障行为,针对自动化测试平台的请求产生故障行为,在使用 RPC 组件调用下游时可以针对具体请求产生故障行为等,基于此我们研发了基于 Java 场景的故障演练平台。