用 Neuron 安装
从 vLLM 0.3.3 版本开始,支持在 AWS Trainium/Inferentia 上使用 Neuron SDK 进行模型推理和服务。目前,Neuron SDK 不支持 Paged Attention,但在 transformers-neuronx 中支持简单的连续批处理。Neuron SDK 当前支持的数据类型是 FP16 和 BF16。
环境依赖
- OS: Linux
- Python: 3.8 – 3.11
- Accelerator: NeuronCore_v2 (in trn1/inf2 instances)
- Pytorch 2.0.1/2.1.1
- AWS Neuron SDK 2.16/2.17 (在python 3.8已验证)