• 文库
  • 字符
  • 转换
  • 加密
  • 网络
  • 更多
    图表
    数学
    坐标
    图片
    文件
  • 文库
    字符
    转换
    加密
    网络
    更多
    图表
    数学
    坐标
    图片
    文件
logo 在线工具大全

大模型推理框架RTP-LLM Embedding技术揭秘

出处: mp.weixin.qq.com

Embedding(嵌入)是现代机器学习和深度学习的重要组成部分,通过将离散数据映射到连续向量空间,解决了高维稀疏性和语义表达的问题。它在自然语言处理、推荐系统、计算机视觉等领域有着广泛的应用。RTP-LLM是阿里巴巴智能引擎团队自研的大模型推理加速引擎,作为一个高性能的大模型推理解决方案,它已被广泛应用于阿里内部,本文将介绍项目在Embedding框架上的实践和思考。 在我们的生产环境中,主要存在两种使用Transformer模型实时生成Embedding的场景:一类是部署在云服务器或者内部大模型服务平台的Pytorch Huggingface模型,用于计算Embedding或者进行重排/分类;另一类是搜推广场景,使用Tensorflow的Bert模型计算商品和用户的相似度。这两类场景性能表现都一般,因此我们希望能够提供一个解决方案,能够在部署方便的前提下,优化上述两种场景Transformer Embedding计算的耗时和吞吐,减少资源消耗。

查看原文 62 技术 lddgo 分享于 2025-03-19