• 文库
  • 字符
  • 转换
  • 加密
  • 网络
  • 更多
    图表
    数学
    坐标
    图片
    文件
  • 文库
    字符
    转换
    加密
    网络
    更多
    图表
    数学
    坐标
    图片
    文件
logo 在线工具大全

阿里集团基于Fluid+JindoCache加速大模型训练的实践

出处: mp.weixin.qq.com 作者: 王涛(扬礼) 陈裘凯(求索) 徐之浩(东伝)

时间步入了2024年,新的技术趋势,如大模型/AIGC/多模态等技术,已经开始与实际业务相结合,并开始生产落地。这些新的技术趋势不仅提高了算力的需求,也给底层基础设施带来了更大的挑战。 在计算方面,以GPU和FPGA等异构硬件为例,他们通过短周期的迭代和演进来适应不断变化的需求。阿里集团通过统一调度、统一资源池以及全面弹性等调度手段满足了复杂的计算需求。 在存储方面,经典的微服务应用通过云原生化的方式,兼顾了性能和效率。但对于计算量增量最大的分布式AI训练、大数据等计算密集型应用,data locality直接影响了计算作业的运行效率与吞吐,网络I/O的消耗还间接拉高了带宽成本,且在可预见的场景中,数据集规模的还会以较高的速率保持增长,如何通过合理的数据缓存亲和性技术加速数据访问,将是提升计算任务运行效率的同时降成本的关键。 大模型训练/多媒体等场景的数据集以图片和音频文件为主,天然适合将数据托管在OSS对象存储上,也是目前线上大多数计算作业的存储选型,以训练场景为例,具有以下读数据的特征:1)数据集顺序的随机化处理造成传统的单机缓存策略失效;2) 多个epoch会对

查看原文 51 技术 lddgo 分享于 2024-02-06