从源码分析 vllm + Ray 的分布式推理流程

Source : mp.weixin.qq.com Author : 子白

随着LLM模型越来越大，单GPU已经无法加载一个模型。以Qwen-14B-Chat模型为例，模型权重大概28GB，但是单个NVIDIA A10仅有24GB显存。如果想要在A10上部署Qwen-14B-Chat模型，我们需要将模型切分后部署到2个A10机器上，每个A10卡加载一半的模型，这种方式称之为分布式推理。社区涌现了很多支持分布式推理的框架如vllm、deepspeed-mii，rtp-llm等。本文选取了vllm框架，从源码角度分析vllm + Ray 如何实现LLM模型的分布式推理。