阿里集团基于Fluid+JindoCache加速大模型训练的实践
出处:
mp.weixin.qq.com
作者:
王涛(扬礼) 陈裘凯(求索) 徐之浩(东伝)
时间步入了2024年,新的技术趋势,如大模型/AIGC/多模态等技术,已经开始与实际业务相结合,并开始生产落地。这些新的技术趋势不仅提高了算力的需求,也给底层基础设施带来了更大的挑战。 在计算方面,以GPU和FPGA等异构硬件为例,他们通过短周期的迭代和演进来适应不断变化的需求。阿里集团通过统一调度、统一资源池以及全面弹性等调度手段满足了复杂的计算需求。 在存储方面,经典的微服务应用通过云原生化的方式,兼顾了性能和效率。但对于计算量增量最大的分布式AI训练、大数据等计算密集型应用,data locality直接影响了计算作业的运行效率与吞吐,网络I/O的消耗还间接拉高了带宽成本,且在可预见的场景中,数据集规模的还会以较高的速率保持增长,如何通过合理的数据缓存亲和性技术加速数据访问,将是提升计算任务运行效率的同时降成本的关键。 大模型训练/多媒体等场景的数据集以图片和音频文件为主,天然适合将数据托管在OSS对象存储上,也是目前线上大多数计算作业的存储选型,以训练场景为例,具有以下读数据的特征:1)数据集顺序的随机化处理造成传统的单机缓存策略失效;2) 多个epoch会对