跳到主要内容

引擎参数

下面可以找到 vLLM 每个引擎参数的解释:

--model <model_name_or_path>

huggingface模型名称或路径

--tokenizer <tokenizer_name_or_path>

huggingface tokenizer名称或路径

--revision <revision>

具体使用的模型版本. 可以是分支名, 标记名, 或者一个提交id. 如果不具体提供就使用默认版本.

--tokenizer-revision <revision>

具体的 tokenizer 使用版本。可以是分支名, 标记名, 或者一个提交id. 如果不具体提供就使用默认版本.

--tokenizer-mode |auto,slow|

tokenizer 模式.

“auto” 在可用的情况下使用fast模式

“slow” 使用slow模式

--trust-remote-code

信任huggingface代码.

--download-dir <directory>

权重下载保存目录, 默认是 huggingface的缓存目录

--load-format |auto,pt,safetensors,npcache,dummy|

加载模型权重格式

“auto” 将先加载safetensors格式,如果safetensors无效加载失败,改加载pytorch bin 格式

“pt” pytorch bin 格式权重.

“safetensors” safetensors 格式权重.

“npcache” 加载pytorch 格式并且存储一个numpy 缓存加速加载.

“dummy” 随机值初始化权重,主要用于性能分析。

--dtype |auto,half,float16,bfloat16,float,float32|

Data type for model weights and activations.

“auto” 将使用FP32和FP16模型使用FP16精度,以及为BF16模型使用BF16精度

“half” FP16. 推荐AWQ量化.

“float16” 同 “half”.

“bfloat16” 精度与范围之间的平衡。

“float” FP32 缩写.

“float32” 同 FP32.

--max-model-len <length>

模型上下文长度. 如果未指定,自动使用模型配置.

--worker-use-ray

使用Ray分布式服务 , 当大于1个GPU的时候会自动设置.

--pipeline-parallel-size (-pp) <size>

管道阶段的数量

--tensor-parallel-size (-tp) <size>

tensor parallel 副本的数量.

--max-parallel-loading-workers <workers>

为了在使用张量并行和大型模型时避免RAM内存溢出,可以分多个批次顺序加载模型。

--block-size |8,16,32|

用于连续标记块的Token块大小。

--enable-prefix-caching

启用自动前缀缓存。

--seed <seed>

操作的随机种子。

--swap-space <size>

每个GPU的CPU交换空间大小(以GiB为单位)

--gpu-memory-utilization <fraction>

用于模型执行器的GPU显存比例,范围从0到1。例如,值为0.5意味着使用50%的GPU显存。如果没有指定,将使用默认值0.9。

--max-num-batched-tokens <tokens>

每次迭代中批处理的最大Token数。

--max-num-seqs <sequences>

每次迭代中的最大序列数。

--max-paddings <paddings>

批处理中的最大填充数。

--disable-log-stats

禁用日志统计。

--quantization (-q) awq,squeezellm,None

设置权重量化