网站实名认证 备案,移动应用开发与服务,朝阳网站建设是什么意思,提供视频下载的网站一、TL#xff1b;DR
将之前所有训练过的大模型的过程都总结和回忆一下#xff0c;遇到的坑别忘了
二、问题记录
还是注意镜像的选择#xff0c;选择社区最火的镜像#xff0c;然后下载好对应的数据#xff0c;主要显卡的选择#xff0c;这个时候4090已经带不动了DR
将之前所有训练过的大模型的过程都总结和回忆一下遇到的坑别忘了
二、问题记录
还是注意镜像的选择选择社区最火的镜像然后下载好对应的数据主要显卡的选择这个时候4090已经带不动了必须选择32G的V100或者40G的A100了
2.1 train_head:
batchsize32 这里其实是代码有点小迷惑点哈你选择4卡4090其实是没问题的他会选择平摊显存但是单卡的话它会将所有的现存都堆到第一张卡里面去设计上可能有点问题显卡占用情况如下所示 具体的实现自己去看代码吧
2.2 train_lora:
使用lora的训练方法明显是不同的训练参数量如下所示 loss的数值如下所示 基本上内存也已经吃满了 将batchsize设为16则显存占用如下所示