网站地图导出怎么做,网站代建设费用吗,小米手机如何做游戏视频网站,商用网站开发计划书大白话讲解大模型 大模型的发展重要大模型发展时间线 大模型的简单原理-训练⼤模型是如何训练并应⽤到场景中的#xff1f;如果训练私有化模型 模型#xff1a;model 语料库#xff1a;用于训练模型的数据 大模型的发展
详细信息来源#xff1a;DataLearner
2022年11月底… 大白话讲解大模型 大模型的发展重要大模型发展时间线 大模型的简单原理-训练⼤模型是如何训练并应⽤到场景中的如果训练私有化模型 模型model 语料库用于训练模型的数据 大模型的发展
详细信息来源DataLearner
2022年11月底ChatGPT横空出世全球都被这样一个“好像”有智能的产品吸引。随后工业界、科研机构开始疯狂投入大模型。在2023年这个被称为大模型元年的年份有很多令人瞩目的AI产品与模型发布。
ChatGPT最主要的贡献是证明了大力出奇迹的可能性。在证明了这个理论之后各种AI的发展得以快速推进。 重要大模型发展时间线
二月份
LLaMA第一个开源的重要大模型它推动了整个行业的发展并且促使我国出现了各种各样的大模型。MOSS复旦开源的大模型效果一般。ControlNet在图片的局部重绘方面地位非常高能够保持图片的一致性风格或人物形象。
三月份
Alpaca重要的里程碑首次将大模型微调的概念传递给大众使用简单的方法对LLaMA进行了微调奠定了微调的基础。其他重要模型如ChatGLM、GPT-4、文心一言等。AutoGPT是第一个提出Agent概念的模型能够自动完成任务如创建网站等。MidjourneyV5图片生成的里程碑。
四月份
Stable Diffusion XL 1.0图片生成领域的代表性工作完全开源。Vicuna 13B学习大模型微调的开源代码首选详细说明了transformer模型的搭建。
五月份
QLoRA微调的一种方式。
六月份
Runway Gen2使用AI生成电影的开端。
七月份
Llama 2和Claude 2新鲜出炉。
八月份
没有特别的模型发布。
九月份
Mistral 7B英文开源大模型之前的大部分模型都是基于Llama的。
十月份
没有特别的模型发布。
十一月份
GPTs较为失败的模型。Yi-34B中文开源大模型效果较好许多公司选择它。国内开源大模型如ChatGLM3Yi-34B百川。Pika生成视频当时很火。
十二月份
Mixtral 8×7B MoEMoE模型嵌入了8个Mixtral模型共同决策的方法论。Phi-2用更小的模型完成大模型的任务。
大模型的简单原理-训练
简单来说大模型就是大力出奇迹就是把一堆数据灌进去它就形成了你的大脑
大模型的原理可以简化为“数据灌输形成智能”。目前最常用的模型是transformer神经网络2017年提出解决了seq2seq的问题并适用于更复杂的场景。OpenAI验证了“大力出奇迹”的理论。)
当我们问一句话的时候通过模型进行处理最后输出结果。首先要考虑的上当我们肉眼看到我们问的问题的时候我们是能理解它的意思的那么怎么让机器去理解它的意思就是一个问题。
在12年开始就有人研究这个事情提出词向量world wect使用向量去存储输入的每句话都可以对应在向量上我们可以根据向量的加速度比较两句话的意思是否相近可以在向量空间里表示出来。我们的文字通过transformer能让模型理解我们说的是什么意思。
基于transformer打造的模型例如ChatGpt、文心一言、1000b、2000b等只是区别于他们的大小和transformer每层的参数不一样、层数可能会更多等等宏观的设计上。
我们一般用autoregressive的方式去训练transformer假设我们现在训练的是“我上一段token”这一句话。那么我们假设“上一段“是一个token这一段token进入transformer之后希望他能预测下一个单词—token。假设我先给模型的是上一段t那么我希望模型预测出来接下来的语句是oken。有点像高中初中的完形填空。最后学出来的模型就是大模型。
在这里就有一个问题为什么这样训练出来的模型就是大模型呢
举例我们学习英文一般都是主谓宾宾补等等但是现在还有一种方式就是我们根本不看这些而是去阅读大量的书籍或者看美剧等等看的多了说的多了读的多了当其他人用英文给你聊天的时候你自然而然的就知道他下面要接什么这就是语感。
假设我们现在有已经训练好的模型了
那么假设我现在输入给大模型“大模型简单”那么大模型会根据这几个字往后面跟什么给我做一个补充。它背后会有一个分布就是下一个词的概率例如 吗-70%概率死了-20%概率等等词并且所有单子概率加在一起等于1所以它是具备随机性的。然后还有一个标准比如遇到一个句号停止生成或者到达某个标准停止生成。例如限制它的token等等。
因为我们获取结果的方式上在分布里去采样如果我们想发散率小一点那么我们只需要取前面概率大的如果我们想发散率高一点那么我们可以取概率小的。所以我们可以在文字生成的时候可以对大模型进行控制也就是gpt等AIP中的参数
⼤模型是如何训练并应⽤到场景中的
大模型的构造和应用那个环节上最重要的加粗
1、数据
2、模型数据transformer
3、模型训练大模型微调 deepspeed对齐标准化以后会有一些软件可以直接可视化训练不需要技术
4、benchmark评测标准用来评测模型训练的好坏
5、moeory内存让大模型根据PDF、数据库、企业的数据回答一些问题
6、搜索技术在向量数据库中搜索一些相似的还有一些query优化等等
7、RAG
如果解决企业中遇到的一些问题
基于现有模型如GPT-4、通义千问—缺点大模型越狱可能会胡言乱语 App通过prompt去限制访问GPT4App通过prompt先去向量数据库中做查询然后跟prompt合并在请求GPT4Agent 就是让大模型可以按照我们任务的描述一步步生成我们想要的东西最后合并 训练私有模型
如果训练私有化模型
假设我们现在要构建一个保险领域的大模型–从0开始 预训练Pre-training model Design 确定模型的规模Size设计模型的结构包括层数和每层的架构architecture构建词库尤其是保险领域的术语决定模型是中文模型还是英文模型 确认应用场景 明确模型需要具备的能力目标是垂直领域保险领域而非通用领域设定目标使模型在保险领域的表现超越或达到GPT的水平 设计评测标准Benchmark Design 设计评测标准用于确保和验证模型的能力 数据设计 什么样的数据能够满足模型的应用场景呢学什么的数据 中文占多数英文少量数据量语料库处理完之后剩下大概 1T token— 1000b token —1w亿的token 为了抽取这些token我们要大概多少数据Row-Token100G --理想情况能抽取10B token数据配比 都是玄学必须实战 重要数据比例最大 但是占用到底上多少需要测试垂直数据和通用数据之间的数据配比 一般通用比垂直稍微多一点点数据源配比 金融领域的数据 vertical保险领域的数据 vertical通用领域的数据 --通用的知识 general vertical举例通用数据奠定了基本能力本科专业领域数据奠定了入职前的的能力硕士然后才能开始工作 ----gap 数据清洗 重复数据要干掉符号等等 语料库最后转行为 100B Token模型预训练 使用100B Token进行模型学习得到基础能力模型Pre-trained model例如ChatGLM-7B-Base是一个预训练模型预训练需要至少200-300张GPU卡初步训练后的模型能进行基本对话但效果有限相当于一个刚出学校的大学生什么都会但是有不太会产出不了一些价值 微调FineTune LLM-Base底座 预训练模型 LLM-Chat微调过的模型 金融本科生PreTrain 能力跟客户的沟通能力保险常见问题回答FineTranel-----产出价值 保险领域智能客服FineTranel最主要要了解从PreTrain到保险领域智能客服 到底需要哪些东西 沟通 General 沟通 — 收集大量对话Vertical 沟通 -----保险领域对话 常见问题回答 ----常见问题解决方案将上面的对话–业务场景相关 等等多样化数据 将不同场景都要覆盖到 Diverse数据做成Dateinput,output将Date进行数据清理 然后进行训练使用LoRA的方式用最少的数据出最大的成功进行训练不影响第一次训练instruction following能力 能按照用户的要求完成一些任务 模型的推理inference 对齐Alignment 培养规范人才 -human preference 微调完毕后模型可能仍会产生不符合预期的输出。 Hallucination幻觉模型生成虚假或不相关的内容。 Safety安全性确保模型不会生成有害或不适当的内容。 需要通过对齐技术如SFTSupervised Fine-Tuning即监督微调进一步训练模型使其能够按照预期解决问题。 使用强化学习技术如PPOProximal Policy OptimizationDPO进行对齐确保模型按规范处理问题。 PreTrain本科未毕业----SFT(Superxxxxxx)培训具备能力解决实际问题----Alignment具备了能力但是不按规范办事 得到一个最终的通用金融Model 开发 将公司的专属文档切分为trunk然后存在一个向量数据库为我们的大模型进行服务 产品文档规范文档造价等等 应用
推荐资料
GitHub - HqWu-HITCS/Awesome-Chinese-LLM: 整理开源的中文大语言模型以规模较小、可私有化部署、训练成本较低的模型为主包括底座模型垂直领域微调及应用数据集与教程等。