服务 | Open Docs

📄️ 分布式推理和服务

vLLM 支持分布式tensor-parallel推理和服务托管。目前，我们支持Megatron-LM的张量并行算法. 我们用ray管理分布式运行时。要运行分布式推理需要安装Ray:

vLLM可以通过SkyPilot这个开源框架在任何云环境扩展多个GPU运行

vLLM 可以在Kubernetes上用 KServe 部署，实现高度可扩展的分布式模型服务。

Triton Inference Server 有个用vLLM部署facebook/opt-125m 的教程.

vLLM 提供官方 docker 镜像进行部署。该镜像可用于运行 OpenAI 兼容服务器。该镜像在 Docker Hub 上是 vllm/vllm-openai

vLLM 也支持 Langchain 。

vLLM 公开了许多可用于监控系统运行状况的指标。这些指标通过 vLLM OpenAI 兼容 API 服务器上的 /metrics 接口公开。