B站AI计算网络建设实践
Source :
mp.weixin.qq.com
Author :
通用工程
以ChatGPT为代表的生成式AI大火以来,LLM(Large Language Model)已经成为了各个企业的焦点关注对象。随着AI业务的快速发展,当前LLM训练参数已达万亿级别,而要完成如此量级的参数训练,通常需要拥有千卡、甚至万卡级别的GPU资源。然而只有GPU资源是不够的,更需要有一张零丢包、低时延、高吞吐的AI计算网络将各GPU连接在一起为业务提供高稳定的计算训练服务。 B站网络团队基于业务需求和特性出发,并结合业界对于AI网络的落地实践方案,设计并落地了自己的AI计算网络。本文将简单介绍B站网络团队在建设AI计算网络上的一些设计关键因素和选择。