引擎参数
下面可以找到 vLLM 每个引擎参数的解释:
--model <model_name_or_path>
huggingface模型名称或路径
--tokenizer <tokenizer_name_or_path>
huggingface tokenizer名称或路径
--revision <revision>
具体使用的模型版本. 可以是分支名, 标记名, 或者一个提交id. 如果不具体提供就使用默认版本.
--tokenizer-revision <revision>
具体的 tokenizer 使用版本。可以是分支名, 标记名, 或者一个提交id. 如果不具体提供就使用默认版本.
--tokenizer-mode |auto,slow|
tokenizer 模式.
“auto” 在可用的情况下使用fast模式
“slow” 使用slow模式
--trust-remote-code
信任huggingface代码.
--download-dir <directory>
权重下载保存目录, 默认是 huggingface的缓存目录
--load-format |auto,pt,safetensors,npcache,dummy|
加载模型权重格式
“auto” 将先加载safetensors格式,如果safetensors无效加载失败,改加载pytorch bin 格式
“pt” pytorch bin 格式权重.
“safetensors” safetensors 格式权重.
“npcache” 加载pytorch 格式并且存储一个numpy 缓存加速加载.
“dummy” 随机值初始化权重,主要用于性能分析。
--dtype |auto,half,float16,bfloat16,float,float32|
Data type for model weights and activations.
“auto” 将使用FP32和FP16模型使用FP16精度,以及为BF16模型使用BF16精度
“half” FP16. 推荐AWQ量化.
“float16” 同 “half”.
“bfloat16” 精度与范围之间的平衡。
“float” FP32 缩写.
“float32” 同 FP32.
--max-model-len <length>
模型上下文长度. 如果未指定,自动使用模型配置.
--worker-use-ray
使用Ray分布式服务 , 当大于1个GPU的时候会自动设置.
--pipeline-parallel-size (-pp) <size>
管道阶段的数量
--tensor-parallel-size (-tp) <size>
tensor parallel 副本的数量.
--max-parallel-loading-workers <workers>
为了在使用张量并行和大型模型时避免RAM内存溢出,可以分多个批次顺序加载模型。
--block-size |8,16,32|
用于连续标记块的Token块大小。
--enable-prefix-caching
启用自动前缀缓存。
--seed <seed>
操作的随机种子。
--swap-space <size>
每个GPU的CPU交换空间大小(以GiB为单位)
--gpu-memory-utilization <fraction>
用于模型执行器的GPU显存比例,范围从0到1。例如,值为0.5意味着使用50%的GPU显存。如果没有指定,将使用默认值0.9。
--max-num-batched-tokens <tokens>
每次迭代中批处理的最大Token数。
--max-num-seqs <sequences>
每次迭代中的最大序列数。
--max-paddings <paddings>
批处理中的最大填充数。