在线工具大全

从源码分析 vllm + Ray 的分布式推理流程

出处： mp.weixin.qq.com 作者：子白

随着LLM模型越来越大，单GPU已经无法加载一个模型。以Qwen-14B-Chat模型为例，模型权重大概28GB，但是单个NVIDIA A10仅有24GB显存。如果想要在A10上部署Qwen-14B-Chat模型，我们需要将模型切分后部署到2个A10机器上，每个A10卡加载一半的模型，这种方式称之为分布式推理。社区涌现了很多支持分布式推理的框架如vllm、deepspeed-mii，rtp-llm等。本文选取了vllm框架，从源码角度分析vllm + Ray 如何实现LLM模型的分布式推理。

阿里巴巴技术

查看原文

60 技术 lddgo 分享于 2024-06-12

简体中文