• 文库
  • 字符
  • 转换
  • 加密
  • 网络
  • 更多
    图表
    数学
    坐标
    图片
    文件
  • 文库
    字符
    转换
    加密
    网络
    更多
    图表
    数学
    坐标
    图片
    文件
logo 在线工具大全

OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性

出处: mp.weixin.qq.com 作者: 容器服务&可观测

Kubernetes(K8s)架构已经是当今IT架构的主流与事实标准(CNCF Survey[1])。随着承接的业务规模越来越大,用户也在使用越来越大的K8s集群。Kubernetes官方建议的最大集群规模是5000节点。甚至,如OpenAI通过技术优化,曾将K8s集群扩展至7500节点(Scaling Kubernetes to 7,500 nodes[2])。这种千级别节点的大规模K8s集群,会容易引起分布式系统内部瓶颈,但也增加了系统的脆弱性。

查看原文 20 技术 lddgo 分享于 2025-01-08