• 文库
  • 字符
  • 转换
  • 加密
  • 网络
  • 更多
    图表
    数学
    坐标
    图片
    文件
  • 文库
    字符
    转换
    加密
    网络
    更多
    图表
    数学
    坐标
    图片
    文件
logo 在线工具大全

大模型推理框架RTP-LLM架构解析

出处: mp.weixin.qq.com 作者: RTP-LLM团队

RTP-LLM是阿里巴巴智能引擎团队推出的大模型推理框架,支持了包括淘宝、天猫、闲鱼、菜鸟、高德、饿了么、AE、Lazada 等多个业务的大模型推理场景。RTP-LLM与当前广泛使用的多种主流模型兼容,使用高性能的 CUDA kernel, 包括 PagedAttention、FlashAttention、FlashDecoding 等,支持多模态、LoRA、P-Tuning、以及WeightOnly 动态量化等先进功能,已在众多LLM场景中得到实际应用与检验。 本篇文章介绍了RTP-LLM的整体架构,并着重分析了模型加载过程中的核心部分:模型的权重和配置文件。本文主要由社区用户mingming贡献,特此感谢其对项目的支持。

查看原文 41 技术 lddgo 分享于 2024-09-04