在线工具大全

大模型推理框架RTP-LLM Embedding技术揭秘

出处： mp.weixin.qq.com

Embedding（嵌入）是现代机器学习和深度学习的重要组成部分，通过将离散数据映射到连续向量空间，解决了高维稀疏性和语义表达的问题。它在自然语言处理、推荐系统、计算机视觉等领域有着广泛的应用。RTP-LLM是阿里巴巴智能引擎团队自研的大模型推理加速引擎，作为一个高性能的大模型推理解决方案，它已被广泛应用于阿里内部，本文将介绍项目在Embedding框架上的实践和思考。在我们的生产环境中，主要存在两种使用Transformer模型实时生成Embedding的场景：一类是部署在云服务器或者内部大模型服务平台的Pytorch Huggingface模型，用于计算Embedding或者进行重排/分类；另一类是搜推广场景，使用Tensorflow的Bert模型计算商品和用户的相似度。这两类场景性能表现都一般，因此我们希望能够提供一个解决方案，能够在部署方便的前提下，优化上述两种场景Transformer Embedding计算的耗时和吞吐，减少资源消耗。

阿里巴巴技术

查看原文

62 技术 lddgo 分享于 2025-03-19

简体中文