餐饮网站源码,百度推广费用多少,坪山网站建设,wordpress 友情链接 插件以下是 vllm serve 的常见参数说明以及它们的作用#xff1a; 1. 基本参数
model_tag
说明#xff1a;用于指定要加载的模型#xff0c;可以是 Hugging Face 模型仓库中的模型名称#xff0c;也可以是本地路径。示例#xff1a;vllm serve gpt-neo-2.7B--co…以下是 vllm serve 的常见参数说明以及它们的作用 1. 基本参数
model_tag
说明用于指定要加载的模型可以是 Hugging Face 模型仓库中的模型名称也可以是本地路径。示例vllm serve gpt-neo-2.7B--config CONFIG
说明允许从 YAML 配置文件加载参数。适合复杂配置。示例vllm serve gpt-neo-2.7B --config /path/to/config.yaml--host HOST 和 --port PORT
说明设置服务运行的主机地址和端口。默认值host127.0.0.1port8000示例vllm serve gpt-neo-2.7B --host 0.0.0.0 --port 80802. 模型加载与优化
--tensor-parallel-size
说明设置 Tensor 并行的数量多 GPU 分布式推理。示例--tensor-parallel-size 8--cpu-offload-gb
说明允许将部分模型权重或中间结果卸载到 CPU 内存中模拟 GPU 内存扩展。默认值0禁用 CPU 卸载。示例--cpu-offload-gb 128--gpu-memory-utilization
说明指定 GPU 内存利用率值为 0-1 的小数。默认值0.9示例--gpu-memory-utilization 0.8--max-model-len
说明模型的最大上下文长度序列长度。示例--max-model-len 16384--max-num-batched-tokens
说明每批次处理的最大 token 数量。适用于优化吞吐量。示例--max-num-batched-tokens 60000--dtype
说明设置数据类型通常用于控制权重和激活值的精度。 float3232位浮点数精确但消耗内存。float1616位浮点数推荐。bfloat1616位浮点数适合 NVIDIA A100 等设备。 示例--dtype float163. 日志与调试
--uvicorn-log-level
说明控制 uvicorn Web 服务器的日志级别。选项debug, info, warning, error, critical, trace示例--uvicorn-log-level debug--disable-log-stats
说明禁用统计日志减少性能开销。示例--disable-log-stats--disable-log-requests
说明禁用请求的日志记录。示例--disable-log-requests4. 分布式设置
--distributed-executor-backend
说明设置分布式推理的执行后端。选项ray, mp多进程默认值ray如果安装了 Ray示例--distributed-executor-backend ray--pipeline-parallel-size
说明设置流水线并行的阶段数量。示例--pipeline-parallel-size 45. 前端与安全
--api-key
说明启用 API 访问控制客户端需提供此密钥。示例--api-key my_secure_api_key--ssl-keyfile 和 --ssl-certfile
说明配置 HTTPS 证书启用安全通信。示例--ssl-keyfile /path/to/keyfile.pem --ssl-certfile /path/to/certfile.pem--disable-fastapi-docs
说明禁用 FastAPI 的 OpenAPI 文档Swagger UI。示例--disable-fastapi-docs6. 调度与优化
--swap-space
说明每个 GPU 的 CPU 换页空间GiB。示例--swap-space 8--max-num-seqs
说明每次迭代的最大序列数量适合控制吞吐量。示例--max-num-seqs 16--enable-prefix-caching
说明启用前缀缓存以减少重复计算。示例--enable-prefix-caching7. 特殊用途参数
--quantization
说明设置量化方法减少内存占用。选项 bitsandbytes8位量化推荐。fp8FP8需要支持 FP8 的设备。 示例--quantization bitsandbytes--enable-lora
说明启用 LoRA低秩适配器功能。示例--enable-lora示例命令
结合以上参数的一个完整示例
vllm serve defog/sqlcoder-70b-alpha \--tensor-parallel-size 8 \--cpu-offload-gb 128 \--gpu-memory-utilization 0.9 \--max-model-len 16384 \--max-num-batched-tokens 60000 \--uvicorn-log-level debug如需进一步调整请参阅 vLLM 官方文档。