跳到主要内容

使用Docker部署

vLLM 提供官方 docker 镜像进行部署。该镜像可用于运行 OpenAI 兼容服务器。该镜像在 Docker Hub 上是 vllm/vllm-openai

docker run --runtime nvidia --gpus all \
-v ~/.cache/huggingface:/root/.cache/huggingface \
--env "HUGGING_FACE_HUB_TOKEN=<secret>" \
-p 8000:8000 \
--ipc=host \
vllm/vllm-openai:latest \
--model mistralai/Mistral-7B-v0.1

::: tip 注意 您可以使用 ipc=host 标志或 --shm-size 标志来允许容器访问主机的共享内存。 vLLM 通过 PyTorch用共享内存在后台进程之间共享数据,特别是对于张量并行推理。 ::: 您可以通过提供的 dockerfile 从源代码构建并运行 vLLM。构建 vLLM:

DOCKER_BUILDKIT=1 docker build . --target vllm-openai --tag vllm/vllm-openai # optionally specifies: --build-arg max_jobs=8 --build-arg nvcc_threads=2

Note

默认情况下,vLLM 将为所有 GPU 类型构建,以实现最广泛的分发。如果您只是针对机器运行的当前 GPU 类型进行构建,则可以为 vLLM 添加参数 --build-arg torch_cuda_arch_list="" 来查找当前 GPU 类型并为其构建。

运行 vLLM:

docker run --runtime nvidia --gpus all \
-v ~/.cache/huggingface:/root/.cache/huggingface \
-p 8000:8000 \
--env "HUGGING_FACE_HUB_TOKEN=<secret>" \
vllm/vllm-openai <args...>