在线工具大全

LLM推理加速：decode阶段的Attention在GPU上的优化（二）

出处： mp.weixin.qq.com 作者：董纪莹

随着大语言模型的广泛应用，如何构建低成本高性能的推理服务，越来越成为业界关注的方向。RTP-LLM是阿里巴巴智能引擎团队推出的大模型推理加速引擎，已被广泛应用于阿里内部，积累了一定的实践经验，我们曾在《LLM推理加速：decode阶段的Attention在GPU上的优化》一文中分析了当前MMHA在GPU上的计算：

阿里巴巴技术

查看原文

38 技术 lddgo 分享于 2024-09-09

简体中文