📄️ 分布式推理和服务
vLLM 支持分布式tensor-parallel推理和服务托管。 目前,我们支持Megatron-LM的张量并行算法. 我们用ray管理分布式运行时。要运行分布式推理需要安装Ray:
📄️ 云端用SkyPilot运行
vLLM可以通过SkyPilot这个开源框架在任何云环境扩展多个GPU运行
📄️ 使用KServe部署
vLLM 可以在Kubernetes上用 KServe 部署,实现高度可扩展的分布式模型服务。
📄️ 使用NVIDIA Triton部署
Triton Inference Server 有个用vLLM部署facebook/opt-125m 的教程.
📄️ 使用Docker部署
vLLM 提供官方 docker 镜像进行部署。该镜像可用于运行 OpenAI 兼容服务器。该镜像在 Docker Hub 上是 vllm/vllm-openai
📄️ 用 Langchain 起服务
vLLM 也支持 Langchain 。
📄️ 生产指标
vLLM 公开了许多可用于监控系统运行状况的指标。这些指标通过 vLLM OpenAI 兼容 API 服务器上的 /metrics 接口公开。