当前位置: 首页 > news >正文

餐饮网站源码百度推广费用多少

餐饮网站源码,百度推广费用多少,坪山网站建设,wordpress 友情链接 插件以下是 vllm serve 的常见参数说明以及它们的作用#xff1a; 1. 基本参数 model_tag 说明#xff1a;用于指定要加载的模型#xff0c;可以是 Hugging Face 模型仓库中的模型名称#xff0c;也可以是本地路径。示例#xff1a;vllm serve gpt-neo-2.7B--co…以下是 vllm serve 的常见参数说明以及它们的作用 1. 基本参数 model_tag 说明用于指定要加载的模型可以是 Hugging Face 模型仓库中的模型名称也可以是本地路径。示例vllm serve gpt-neo-2.7B--config CONFIG 说明允许从 YAML 配置文件加载参数。适合复杂配置。示例vllm serve gpt-neo-2.7B --config /path/to/config.yaml--host HOST 和 --port PORT 说明设置服务运行的主机地址和端口。默认值host127.0.0.1port8000示例vllm serve gpt-neo-2.7B --host 0.0.0.0 --port 80802. 模型加载与优化 --tensor-parallel-size 说明设置 Tensor 并行的数量多 GPU 分布式推理。示例--tensor-parallel-size 8--cpu-offload-gb 说明允许将部分模型权重或中间结果卸载到 CPU 内存中模拟 GPU 内存扩展。默认值0禁用 CPU 卸载。示例--cpu-offload-gb 128--gpu-memory-utilization 说明指定 GPU 内存利用率值为 0-1 的小数。默认值0.9示例--gpu-memory-utilization 0.8--max-model-len 说明模型的最大上下文长度序列长度。示例--max-model-len 16384--max-num-batched-tokens 说明每批次处理的最大 token 数量。适用于优化吞吐量。示例--max-num-batched-tokens 60000--dtype 说明设置数据类型通常用于控制权重和激活值的精度。 float3232位浮点数精确但消耗内存。float1616位浮点数推荐。bfloat1616位浮点数适合 NVIDIA A100 等设备。 示例--dtype float163. 日志与调试 --uvicorn-log-level 说明控制 uvicorn Web 服务器的日志级别。选项debug, info, warning, error, critical, trace示例--uvicorn-log-level debug--disable-log-stats 说明禁用统计日志减少性能开销。示例--disable-log-stats--disable-log-requests 说明禁用请求的日志记录。示例--disable-log-requests4. 分布式设置 --distributed-executor-backend 说明设置分布式推理的执行后端。选项ray, mp多进程默认值ray如果安装了 Ray示例--distributed-executor-backend ray--pipeline-parallel-size 说明设置流水线并行的阶段数量。示例--pipeline-parallel-size 45. 前端与安全 --api-key 说明启用 API 访问控制客户端需提供此密钥。示例--api-key my_secure_api_key--ssl-keyfile 和 --ssl-certfile 说明配置 HTTPS 证书启用安全通信。示例--ssl-keyfile /path/to/keyfile.pem --ssl-certfile /path/to/certfile.pem--disable-fastapi-docs 说明禁用 FastAPI 的 OpenAPI 文档Swagger UI。示例--disable-fastapi-docs6. 调度与优化 --swap-space 说明每个 GPU 的 CPU 换页空间GiB。示例--swap-space 8--max-num-seqs 说明每次迭代的最大序列数量适合控制吞吐量。示例--max-num-seqs 16--enable-prefix-caching 说明启用前缀缓存以减少重复计算。示例--enable-prefix-caching7. 特殊用途参数 --quantization 说明设置量化方法减少内存占用。选项 bitsandbytes8位量化推荐。fp8FP8需要支持 FP8 的设备。 示例--quantization bitsandbytes--enable-lora 说明启用 LoRA低秩适配器功能。示例--enable-lora示例命令 结合以上参数的一个完整示例 vllm serve defog/sqlcoder-70b-alpha \--tensor-parallel-size 8 \--cpu-offload-gb 128 \--gpu-memory-utilization 0.9 \--max-model-len 16384 \--max-num-batched-tokens 60000 \--uvicorn-log-level debug如需进一步调整请参阅 vLLM 官方文档。
http://www.ho-use.cn/article/10816218.html

相关文章:

  • 个人可以备案网站的内容海外推广解决方案
  • 静态网站建设规划wordpress免费的吗
  • 微网站怎么注册账号青海省建设厅网站
  • 福州企业建站程序如何做网站的优化和推广
  • 网站开发方案论文wordpress 分页无效
  • 拖拽建站 wordpressfifa世界排名最新
  • html下载网站模板旅游新闻热点
  • 做网站公司流程蓝色大气网站模板
  • 网站开发 问题 关键技术为什么 要建设网站
  • 成都网站建设公司多少钱叫别人做网站需要注意什么
  • jsp网站建设项目实战wordpress最简洁主题
  • 合肥专业网站优化哪家好wordpress 欢迎插件
  • 西安网站建设推荐q479185700上墙免费空间最大的网盘
  • 网站大多用源码来做吗有免费的接码平台吗
  • 静态手机网站怎么开通微信公众号
  • 伦教网站建设骨科医院网站模板
  • 网站建设内部下单流程图网站开发及流行框架
  • 珠海商城网站wordpress标签加入文章列表
  • 做网站虚拟主机多少钱申请微信公众号
  • 网站图片上传功能怎么做的网站负面信息
  • 给别人做网站用做假酒验证将一个网站拉入黑名单怎么做
  • 网站重新建设的申请怎么建立自己网站
  • 搜索推广网站哪家做的最好凡科网做网站能达到什么效果
  • 网站设计 联系网站空间知识
  • 泽成杭州seo网站推广排名网站建设工种
  • 免费erp系统网站建优化
  • 用户注册和登录网站怎么做的show t团队网站艰涩
  • 怎么可以建网站做定制网站
  • 网站创建服务公司集团网站建设要多少钱
  • 手机旅游视频网站模板一个专门做预告片的网站