开始 | Open Docs

📄️ 安装

原文：https://docs.vllm.ai/en/latest/ (2024-3-8版)

📄️ 用ROCm安装

vLLM 0.2.4 版本开始，支持在 AMD GPU 下使用 ROCm 进行模型推理和服务，目前ROCm 还不支持 AWQ 量化, 不过 SqueezeLLM 量化已经移植了. ROCm 支持的数据类型有 FP16 和 BF16.

📄️ 用Neuron安装

从 vLLM 0.3.3 版本开始，支持在 AWS Trainium/Inferentia 上使用 Neuron SDK 进行模型推理和服务。目前，Neuron SDK 不支持 Paged Attention，但在 transformers-neuronx 中支持简单的连续批处理。Neuron SDK 当前支持的数据类型是 FP16 和 BF16。

📄️ 快速开始

这份指南展示了如何使用vLLM