大模型推理框架RTP-LLM对LoRA的支持
出处:
mp.weixin.qq.com
作者:
洛离,文央,李栋瑾,隐智
LoRA(Low-rank Adapter)在大模型(如GPT-3,LLama, Qwen等)中,是一种重要的微调技术。该技术通过在不改变预训练模型参数的同时,添加低阶矩阵,学习新的、特定于任务的参数。这种微调方式不仅维持了模型的高效性能,也显著提升了模型训练和部署的效率。然而当对base model进行规模化多任务微调时,相关部署成本可能会显著增加。基于实际应用场景,成本和效率考虑,我们在RTP-LLM框架上实现了两种LoRA方法:静态LoRA和动态LoRA。
查看原文
40
技术
lddgo
分享于
2024-02-02