在线工具大全

动态量化：大模型在端侧CPU快速推理方案

出处： mp.weixin.qq.com 作者：酒七

作为一款高性能的推理引擎框架，MNN高度关注Transformer模型在移动端的部署并持续探索优化大模型在端侧的推理方案。本文介绍权重量化的模型在MNN CPU后端的推理方案：动态量化。动态量化指在运行时对浮点型feature map数据进行8bit量化，然后与8bit/4bit的权重数据做矩阵乘法并将结果反量化为浮点类型输出。

阿里巴巴技术

查看原文

34 技术 lddgo 分享于 2024-10-16

简体中文