由于外部环境的变化,适用于大模型训练任务的 GPU 整体规模无法继续增长。这些存量 GPU 组成的集群,仍然是当前加速大模型训练的主要 AI 算力来源。同时,各类国产 AI 芯片开始大规模投入实际生产任务。在未来一段时间内,数据中心的 AI 算力将保持多种芯片并存的现象。 但是,当前基础大模型训练所需要的最大 AI 算力集群规模,已经从单一集群千卡逐步提升至万卡量级。同时,很多智算中心已经部署的 GPU 集群,通常是十几台至数百台服务器不等,难以满足未来行业大模型训练的需求。 所以,在已有 AI 算力集群的基础上,构建由 GPU、昆仑芯、昇腾等不同芯片混合组成的单一集群,为大模型训练提供更大 AI 算力,成为了一个自然的选择。
一条SQL语句的执行究竟经历了哪些过程?作者作为一个刚入职的大数据研发新人对SQL任务执行整个流程进行了整理,本文就作者学习内容和体会供大家参考。
在容器化环境中,有效管理网络是至关重要的。容器网络接口(CNI)是一个标准,定义了容器应如何配置网络。本文将深入探讨 CNI 的基础知识,并带你了解 CNI 与 CRI 的关系。
2024年4月26日是第23个世界知识产权日,每年4月20日-4月26日是全国知识产权宣传周。 在这期间,哔哩哔哩公司内部发起了2024年度哔哩哔哩技术专利投票活动。最终根据票选结果决出10个优秀技术专利。 我们希望可以通过本次活动加强B站同学对于知识产权的认知和投入,同样B站也会在中国向知识产权强国迈进的征程中,勇担使命,发掘潜能,创造不凡。
随着业务的高速发展,针对HDFS元数据的访问请求量呈指数级上升。在之前的工作中,我们已经通过引入HDFS Federation和Router机制实现NameNode的平行扩容,在一定程度上满足了元数据的扩容需求;也通过引入Observer NameNode读写分离架构提升单组NameSpace的读写能力,在一定程度上减缓了读写压力。但随着业务场景的发展变化,NameSpace数量也在上升至30+组后,Active+Standby+Observer NameNode 的架构已经无法满足所有的元数据读写场景,我们必须考虑提升NameNode读写能力,来应对不断上升的元数据读写要求。 如图1-1 所展示的B站离线存储整体架构所示,随着业务的不断增量发展,通过引入HDFS Router机制实现NameNode的平行扩容,目前NameSpace的数量已经超过30+组,总存储量EB级,每日请求访问量超过200亿次。各个NameSpace之间的读写请求更是分布非常不均衡,在一些特殊场景下,部分NameSpace的整体负载更高。
近期,在我们的内容技术灵媒智算平台(MVAP)上部署的服务数量提升迅猛,部分业务场景对SD系列模型的推理速度有着一定的要求。因此,我们对当前较为流行的SD加速方式进行了调研与测试,并以AI试衣业务场景为例,尝试了多种加速方案。下面是对调研结果与实际落地效果的一些总结与分享。