云原生时代怎么应对机房故障
Source :
mp.weixin.qq.com
Author :
林沐
过去几年大规模自研上云实践中,使用 K8s 按集群维度管理遇到一些问题。例如集群资源不足,需要用户手动更换集群;缺少按可用区维度,需要用户手动挑选多个集群组合;机房故障时缺少统一操作的入口,如批量切流、故障迁移。尽管业界内有按条带化规划集群、通过多集群调度组件部署的案例,但都缺少面向应用、屏蔽集群,聚焦多可用区高可用的容器编排。 TKE 应用管理平台(TKE AppFabric)的一个核心特征,就是通过 TAD(Tencent Application Definition)Yaml 声明,简化容器应用的多活容灾编排流程。业务只需按可用区(Availability Zone,AZ)维度声明期望的分布,无需关注集群概念。例如指定多 AZ 按等比例的部署方式,或者指定多 AZ 且单 AZ 占比不超过上限值的部署方式;流量入口支持多集群跨 AZ 访问,以及变更发布按 AZ 维度进行灰度等。