一次性讲明白，如何搞定一个可以支持多芯混合训练的 AI 集群

Source : mp.weixin.qq.com Author : YZ & LYS

由于外部环境的变化，适用于大模型训练任务的 GPU 整体规模无法继续增长。这些存量 GPU 组成的集群，仍然是当前加速大模型训练的主要 AI 算力来源。同时，各类国产 AI 芯片开始大规模投入实际生产任务。在未来一段时间内，数据中心的 AI 算力将保持多种芯片并存的现象。但是，当前基础大模型训练所需要的最大 AI 算力集群规模，已经从单一集群千卡逐步提升至万卡量级。同时，很多智算中心已经部署的 GPU 集群，通常是十几台至数百台服务器不等，难以满足未来行业大模型训练的需求。所以，在已有 AI 算力集群的基础上，构建由 GPU、昆仑芯、昇腾等不同芯片混合组成的单一集群，为大模型训练提供更大 AI 算力，成为了一个自然的选择。