• 文库
  • 字符
  • 转换
  • 加密
  • 网络
  • 更多
    图表
    数学
    坐标
    图片
    文件
  • 文库
    字符
    转换
    加密
    网络
    更多
    图表
    数学
    坐标
    图片
    文件
logo 在线工具大全

LLM推理加速:decode阶段的Attention在GPU上的优化

出处: mp.weixin.qq.com 作者: 董纪莹

随着大语言模型(Large Language Models,LLMs)在各领域的广泛应用,如何以低成本构建高吞吐、低延迟的推理服务成为了一个紧迫的问题。考虑到LLM在GPU上推理时参数量和计算量较大以致于单流执行就可以充分利用GPU资源,我们可以把LLM的推理延时分解到kernel level,因此,进一步的,不考虑时间占比小的kernel计算后,LLM的延时优化也就相应的分解成GEMM和Attention的kernel优化。 RTP-LLM是阿里巴巴智能引擎团队开发的大模型推理加速引擎,作为一个高性能的大模型推理解决方案,它已被广泛应用于阿里内部。在这篇文章里,我们将基于RTP-LLM的实践,介绍decode阶段的Attention在GPU上是如何优化的。

查看原文 52 技术 lddgo 分享于 2024-07-26