跳到主要内容

install

原文:https://docs.vllm.ai/en/latest/ (2024-3-8版)

个人翻译,仅供参考。

vLLM 是一个 Python 库,它还包含了预编译的 C++ 和 CUDA (12.1) 二进制文件。

环境依赖

OS: Linux Python: 3.8 – 3.11 GPU: compute capability 7.0 或更高 (例., V100, T4, RTX20xx, A100, L4, H100, etc.) 使用pip安装

你可以使用pip安装vLLM

# (可选) 创建一个 conda 环境.
conda create -n myenv python=3.9 -y
conda activate myenv

# CUDA 12.1 下安装.
pip install vllm
注意

目前为止, vLLM 默认使用 CUDA 12.1 编译。 然而, 你也可以在CUDA 11.8下安装运行

# Install vLLM with CUDA 11.8.
export VLLM_VERSION=0.2.4
export PYTHON_VERSION=39
pip install https://github.com/vllm-project/vllm/releases/download/v${VLLM_VERSION}/vllm-${VLLM_VERSION}+cu118-cp${PYTHON_VERSION}-cp${PYTHON_VERSION}-manylinux1_x86_64.whl

# Re-install PyTorch with CUDA 11.8.
pip uninstall torch -y
pip install torch --upgrade --index-url https://download.pytorch.org/whl/cu118

# Re-install xFormers with CUDA 11.8.
pip uninstall xformers -y
pip install --upgrade xformers --index-url https://download.pytorch.org/whl/cu118

从源码构建

你也可以从源码构建并安装vLLM

git clone https://github.com/vllm-project/vllm.git
cd vllm
pip install -e . # 估计需要3到5分钟
提示

如果你构建 vLLM 过程中遇到麻烦,我们推荐你使用 NVIDIA PyTorch Docker image

# 使用 `--ipc=host` 来确认共享内存足够大.
docker run --gpus all -it --rm --ipc=host nvcr.io/nvidia/pytorch:23.10-py3
提示

如果您正在开发 vLLM 的 C++ 后端,请考虑使用以下方式构建 vLLM:

python setup.py develop

它会为您提供增量构建。这种方法的缺点是已经被 setuptools 弃用了。