当前位置: 首页 > news >正文

免费网站开发网页界面设计赏析

免费网站开发,网页界面设计赏析,建立企业网站的形式有哪几种,注册账号验证码平台背景#xff1a; 目前#xff0c;大模型的发展已经非常火热#xff0c;关于大模型的训练、微调也是各个公司重点关注方向。但是大模型训练的痛点是模型参数过大#xff0c;动辄上百亿#xff0c;如果单靠单个GPU来完成训练基本不可能。所以需要多卡或者分布式训练来完成这…背景 目前大模型的发展已经非常火热关于大模型的训练、微调也是各个公司重点关注方向。但是大模型训练的痛点是模型参数过大动辄上百亿如果单靠单个GPU来完成训练基本不可能。所以需要多卡或者分布式训练来完成这项工作。 一、分布式训练 1.1 目前主流的大模型分布式训练主要包括两种 数据并行训练模型并行训练 二、DeepSpeed DeepSpeed是由Microsoft提供的分布式训练工具旨在支持更大规模的模型和提供更多的优化策略和工具。对于更大模型的训练来说DeepSpeed提供了更多策略例如Zero、Offload等。 2.1 基础组件 分布式训练需要掌握分布式环境中的基础配置包括节点变化、全局进程编号、局部进程编号、全局总进程数、主节点等。这些组件都跟分布式训练紧密相关同时组件之间也有非常大的联系例如通信联系等。 2.2 通信策略 既然是分布式训练那机器之间必须要保持通信这样才可以传输模型参数梯度参数等信息。 DeepSpeed提供了mpi、gioo、nccl等通信策略 通信策略通信作用mpi它是一种跨界点的通信库经常用于CPU集群的分布式训练gloo它是一种高性能的分布式训练框架可以支持CPU或者GPU的分布式训练nccl它是nvidia提供的GPU专用通信库广泛用于GPU上的分布式训练 我们在使用DeepSpeed进行分布式训练的时候可以根据自身的情况选择合适的通信库通常情况下如果是GPU进行分布式训练可以选择nccl。 2.3 Zero零冗余优化器 Microsoft开发的Zero可以解决分布式训练过程中数据并行和模型并行的限制。比如 Zero通过在数据并行过程中划分模型状态优化器、梯度、参数来解决数据并行成可能出现内存冗余的情况正常数据并行训练模型全部参数是复制在各个机器上的同时可以在训练期间使用动态通信计划在分布式设备之间共享重要的状态变量这样保持计算粒度和数据并行的通信量。 Zero是用于大规模模型训练优化的技术它的主要目的是减少模型的内存占用让模型可以在显卡上训练内存占用主要分为Model States和Activation两个部分Zero主要解决的是Model States的内存占用问题。 Zero将模型参数分成三个部分 状态作用Optimizer States优化器在进行梯度更新的时候需要用到的数据Gradient在反向转播过程中产生的数据其决定参数的更新方向Model Parameter模型参数在模型训练过程中通过数据“学习”的信息 Zero的级别如下 级别作用Zero-0不使用所有类型的分片仅使用DeepSpeed作为DDPZero-1分割Optimizer States 减少4倍内存通信容量和数据并行性相同Zero-2分割Optimizer States和Gradients减少8倍内存通信容量和数据并行性相同Zero-3分割Optimizer States、gradients、Parametes内存减少与数据并行度呈线性关系。例如在64个GPUNd64之间进行拆分将产生64倍的内存缩减。通信量有50%的适度增长Zero-InfinityZero-Infinity是Zero-3的扩展它允许通过使用 NVMe 固态硬盘扩展 GPU 和 CPU 内存来训练大型模型 2.4 Zero-Offload 相比GPUCPU就相对比较廉价所以Zero-Offload思想是将训练阶段的某些模型状态放offload到内存以及CPU计算。 Zero-Offload不希望为了最小化显存占用而让系统计算效率下降但如果使用CPU也需要考虑通信和计算的问题通信GPU和CPU的通信计算CPU占用过多计算就会导致效率降低。 Zero-Offload想做的是把计算节点和数据节点分布在GPU和CPU上计算节点落到哪个设备上哪个设备就执行计算数据节点落到哪个设备上哪个设备就负责存储。 Zero-Offload切分思路 下图中有四个计算类节点FWD、BWD、Param update和float2half前两个计算复杂度大致是 O(MB) B是batch size后两个计算复杂度是 O(M)。为了不降低计算效率将前两个节点放在GPU后两个节点不但计算量小还需要和Adam状态打交道所以放在CPU上Adam状态自然也放在内存中为了简化数据图将前两个节点融合成一个节点FWD-BWD Super Node将后两个节点融合成一个节点Update Super Node。如下图右边所示沿着gradient 16和parameter 16两条边切分。 Zero-Offload计算思路 在GPU上面进行前向和后向计算将梯度传给CPU进行参数更新再将更新后的参数传给GPU。为了提高效率可以将计算和通信并行起来GPU在反向传播阶段可以待梯度值填满bucket后一遍计算新的梯度一遍将bucket传输给CPU当反向传播结束CPU基本上已经有最新的梯度值了同样的CPU在参数更新时也同步将已经计算好的参数传给GPU如下图所示。 2.5 混合精度 混合精度训练是指在训练过程中同时使用FP16半精度浮点数和FP32单精度浮点数两种精度的技术。使用FP16可以大大减少内存占用从而可以训练更大规模的模型。但是由于FP16的精度较低训练过程中可能会出现梯度消失和模型坍塌等问题。 DeepSpeed支持混合精度的训练可以在config.json配置文件中设置来启动混合精度“fp16.enabled”:true。在训练的过程中DeepSpeed会自动将一部分操作转化为FP16格式并根据需要动态调整精度缩放因子来保证训练的稳定性和精度。 在使用混合精度训练时需要注意一些问题例如梯度裁剪Gradient Clipping和学习率调整Learning Rate Schedule等。梯度裁剪可以防止梯度爆炸学习率调整可以帮助模型更好地收敛。 三、总结 DeepSpeed方便了我们在机器有限的情况下来训练、微调大模型同时它也有很多优秀的性能来使用后期可以继续挖掘。 目前主流的达模型训练方式 GPU PyTorch Megatron-LM DeepSpeed 优势 存储效率DeepSpeed提供了一种Zero的新型解决方案来减少训练显存的占用它与传统的数据并行不同它将模型状态和梯度进行分区来节省大量的显存可扩展性DeepSpeed支持高效的数据并行、模型并行、pipeline并行以及它们的组合这里也称3D并行易用性 在训练阶段只需要修改几行代码就可以使pytorch模型使用DeepSpeed和Zero。 参考 1. http://wed.xjx100.cn/news/204072.html?actiononClick 2. https://zhuanlan.zhihu.com/p/513571706 作者京东物流 郑少强 来源京东云开发者社区 转载请注明来源
http://www.ho-use.cn/article/10815400.html

相关文章:

  • 淄博网站制作服务推广长沙房产信息网查询
  • 驻马店网站建设电话域名交易
  • 图片网站收录wordpress问卷
  • 注册公司在哪个网站注册浅谈旅游网站的规划与建设
  • 泉州网站优化织梦系统如何做网站
  • 宁波seo网站排名网页游戏开服表37
  • 医疗网站建设渠道wordpress 云推荐
  • 北京做的比较好的网站公司吗利用wordpress建站怎么上传网页
  • 简洁风格的网站模板旅社网站建设
  • 商会网站建设招标方案做设计的有什么网站
  • 看手表网站wordpress英文写作插件
  • 建设网站上海求南浦做电商网站
  • 做网站龙华苏州企业网站制作设计公司
  • 安阳哪有做网站的外贸网址导航
  • 怎样进入国外网站c mvc网站做404
  • 网站开发属于什么软件网站备案半身照
  • 万州哪里有做网站的北京搬家公司哪家最好
  • 长沙哪个公司做网站网络建站详情图
  • 北京高端网站建设有限公司小程序源码怎么上传
  • 苏州专业做网站公司有哪些程序开发的基本步骤四个
  • 网站类软文龙岩e龙岩网
  • wp做网站需要多久网站哪里可以查到做ddos
  • 网站备案表格临沂建设工程质量 监督网站
  • 网站备案信息是什么意思描述建设一个网站的基本步骤
  • 宜昌微网站建设开发一个网站需要的技术
  • 泽成seo网站排名wordpress编辑页面打不开
  • 西宁建设工程信息网站最新国际军事新闻头条新闻
  • 模仿的网站做一样违法吗湖南省住房建设厅网站
  • 乌镇网站开发文档专业做鞋子网站
  • wordpress下载网站模板高端网站建设 南京