大模型推理框架RTP-LLM Embedding技术揭秘
出处:
mp.weixin.qq.com
Embedding(嵌入)是现代机器学习和深度学习的重要组成部分,通过将离散数据映射到连续向量空间,解决了高维稀疏性和语义表达的问题。它在自然语言处理、推荐系统、计算机视觉等领域有着广泛的应用。RTP-LLM是阿里巴巴智能引擎团队自研的大模型推理加速引擎,作为一个高性能的大模型推理解决方案,它已被广泛应用于阿里内部,本文将介绍项目在Embedding框架上的实践和思考。 在我们的生产环境中,主要存在两种使用Transformer模型实时生成Embedding的场景:一类是部署在云服务器或者内部大模型服务平台的Pytorch Huggingface模型,用于计算Embedding或者进行重排/分类;另一类是搜推广场景,使用Tensorflow的Bert模型计算商品和用户的相似度。这两类场景性能表现都一般,因此我们希望能够提供一个解决方案,能够在部署方便的前提下,优化上述两种场景Transformer Embedding计算的耗时和吞吐,减少资源消耗。