阿里集团基于Fluid+JindoCache加速大模型训练的实践

Source : mp.weixin.qq.com Author : 王涛(扬礼) 陈裘凯(求索) 徐之浩(东伝)

时间步入了2024年，新的技术趋势，如大模型/AIGC/多模态等技术，已经开始与实际业务相结合，并开始生产落地。这些新的技术趋势不仅提高了算力的需求，也给底层基础设施带来了更大的挑战。在计算方面，以GPU和FPGA等异构硬件为例，他们通过短周期的迭代和演进来适应不断变化的需求。阿里集团通过统一调度、统一资源池以及全面弹性等调度手段满足了复杂的计算需求。在存储方面，经典的微服务应用通过云原生化的方式，兼顾了性能和效率。但对于计算量增量最大的分布式AI训练、大数据等计算密集型应用，data locality直接影响了计算作业的运行效率与吞吐，网络I/O的消耗还间接拉高了带宽成本，且在可预见的场景中，数据集规模的还会以较高的速率保持增长，如何通过合理的数据缓存亲和性技术加速数据访问，将是提升计算任务运行效率的同时降成本的关键。大模型训练/多媒体等场景的数据集以图片和音频文件为主，天然适合将数据托管在OSS对象存储上，也是目前线上大多数计算作业的存储选型，以训练场景为例，具有以下读数据的特征：1）数据集顺序的随机化处理造成传统的单机缓存策略失效；2) 多个epoch会对

阿里巴巴技术

View

61 Technology lddgo Shared on 2024-02-06

English