• ARTICLE
  • STRING
  • CONVERTER
  • ENCRYPT
  • NETWORK
  • MORE
    CHART
    MATH
    COORDINATE
    IMAGE
    FILE
  • ARTICLE
    STRING
    CONVERTER
    ENCRYPT
    NETWORK
    MORE
    CHART
    MATH
    COORDINATE
    IMAGE
    FILE
logo Online Tools

从源码分析 vllm + Ray 的分布式推理流程

Source : mp.weixin.qq.com Author : 子白

随着LLM模型越来越大,单GPU已经无法加载一个模型。以Qwen-14B-Chat模型为例,模型权重大概28GB,但是单个NVIDIA A10仅有24GB显存。如果想要在A10上部署Qwen-14B-Chat模型,我们需要将模型切分后部署到2个A10机器上,每个A10卡加载一半的模型,这种方式称之为分布式推理。 社区涌现了很多支持分布式推理的框架如vllm、deepspeed-mii,rtp-llm等。本文选取了vllm框架,从源码角度分析vllm + Ray 如何实现LLM模型的分布式推理。

View 47 Technology lddgo Shared on 2024-06-12