📄️ 安装
原文:https://docs.vllm.ai/en/latest/ (2024-3-8版)
📄️ 用ROCm安装
vLLM 0.2.4 版本开始,支持在 AMD GPU 下使用 ROCm 进行模型推理和服务,目前ROCm 还不支持 AWQ 量化, 不过 SqueezeLLM 量化已经移植了. ROCm 支持的数据类型有 FP16 和 BF16.
📄️ 用Neuron安装
从 vLLM 0.3.3 版本开始,支持在 AWS Trainium/Inferentia 上使用 Neuron SDK 进行模型推理和服务。目前,Neuron SDK 不支持 Paged Attention,但在 transformers-neuronx 中支持简单的连续批处理。Neuron SDK 当前支持的数据类型是 FP16 和 BF16。
📄️ 快速开始
这份指南展示了如何使用vLLM