景区网站建设的好处,工信部网站查询,河北正规网站建设比较,手机百度关键词排名 seo网站优化软件1、大模型
随着ChatGPT流行#xff0c;大模型技术正逐渐成为AI领域的热点。许多行业大佬纷纷投身于这一赛道#xff0c;展示了大模型的独特魅力和广阔前景。 王慧文#xff0c;前美团联合创始人#xff0c;发起“AI英雄帖”。 李志飞#xff0c;出门问问创始人#xff0…1、大模型
随着ChatGPT流行大模型技术正逐渐成为AI领域的热点。许多行业大佬纷纷投身于这一赛道展示了大模型的独特魅力和广阔前景。 王慧文前美团联合创始人发起“AI英雄帖”。 李志飞出门问问创始人打造中国版OpenA。 李沐 和 Alex Smola前亚马逊员工师徒俩携手大模型创业。 周伯文前京东AI部门负责人强调大模型并非大公司专属。 王小川前搜狗CEO认为OpenAI的成功是技术理想主义的胜利。 李岩快手前AI核心成员投身于大模型赛道。 贾扬清阿里巴巴VP专注构建大模型基础设施已完成首轮融资。 1.1、不是“大”的模型就叫大模型
关于大模型部分学者描述它为“大规模预训练模型”large pretrained language model同时还有学者提出了“基础模型”Foundation Models的新概念。为AI技术的发展和应用提供了新的视角和可能性。 在2021年8月李飞飞、Percy Liang以及其他一百多位学者共同发布了一篇名为《On the Opportunities and Risks of Foundation Models》的文章其中引入了“基础模型”Foundation Models这一术语。文章中指出这类基于自监督学习的模型在训练过程中展现出多方面的能力这些能力不仅为各种下游应用提供了动力也奠定了理论基础因此将这类大模型称为“基础模型”。 小模型: 主要是为特定的应用场景设计并训练的能够完成特定的任务。然而当应用到其他场景时这些模型可能无法直接适用需要进行重新训练。目前大多数模型都属于这一类其训练方式类似于“手工作坊式”依赖大量的标注数据。如果应用场景的数据量不足这些模型的精度往往不会达到理想状态。
大模型: 则在大规模的无标注数据上进行训练从而学习到广泛的特征和规则。在使用大模型开发应用时可以通过对大模型进行微调在具体的下游应用中使用小规模的标注数据进行二次训练或者不进行任何微调使其能够适应并完成多种应用场景下的任务展现出其通用的智能能力。
1.2、大模型赛道早已启动 多语言预训练大模型
Facebook推出了M2M-100模型支持100种语言的直接互译无需依赖英语作为中介语言这在机器翻译领域是一个重大突破。谷歌公开了多语言模型MT5该模型基于101种语言训练使用了750GB的文本数据拥有高达130亿个参数。在多种多语言自然语言处理任务的基准测试中MT5表现出色涵盖了机器翻译、阅读理解等领域。
多模态预训练大模型
OpenAI开发了包括DALL·E和CLIP在内的多模态模型这些模型具有120亿参数特别在图像生成等任务上展现出优异的性能。
多任务预训练大模型
在2022年的IO大会上谷歌介绍了多任务统一模型MUM的进展。MUM模型基于大量网页数据进行预训练能够理解75种语言并擅长处理复杂的决策问题通过分析跨语言多模态网页数据来寻找信息。
视觉预训练大模型
如ViTransformer等模型展现了视觉通用能力这在视觉任务中非常关键尤其是在自动驾驶等视觉处理密集的应用领域视觉大模型的应用潜力巨大。
1.3、深度学习范式正在发生变革
AI的研发和应用范式可能将经历巨大变革。许多行业领袖投身于大模型赛道可能是因为他们预见到了深度学习2.0时代的到来。 machine learning homogenizes learning algorithms (e.g., logistic regression), deep learning homogenizes model architectures (e.g., Convolutional Neural Networks), and foundation models homogenizes the model itself (e.g., GPT-3) 正如文章中提到的机器学习中的同质化学习算法如逻辑回归、深度学习中的同质化模型结构如CNN基础模型则是对模型本身的同质化例如GPT-3。 人工智能的发展已经从“大炼模型”逐步迈向了“炼大模型”的阶段。ChatGPT仅是一个开始其背后的基础模型Foundation Module的长远价值更加值得期待。
1.4、大模型是厚积薄发的
大模型不是一蹴而就的发展的早期阶段被称为预训练模型阶段其核心技术是迁移学习。当目标应用场景的数据不足时模型首先在大规模的公开数据集上进行训练然后迁移到特定场景中并通过少量的目标场景数据进行微调以达到所需的性能。这种在公开数据集上训练的深度网络模型被称为“预训练模型”。使用预训练模型可以显著减少下游任务对标注数据的依赖有效处理数据标注困难的新场景。
2018年大规模自监督神经网络的出现标志着一次真正的革命。这类模型的核心在于通过自然语言句子创造预测任务例如预测下一个词或预测被掩码的词或短语。这使得大量高质量的文本语料成为自动获取的海量标注数据源。通过从自身预测错误中学习超过10亿次模型逐渐积累了丰富的语言和世界知识从而在问答、文本分类等更有意义的任务中展现出优异的性能。这正是BERT和GPT-3等大规模预训练语言模型的精髓也是所谓的“大模型”。
1.5、大模型的革命性意义
突破现有模型结构的精度局限
在2020年1月OpenAI发布了一篇论文研究了模型性能与模型规模之间的关系。结论表明模型的表现与其规模之间遵循幂律关系即模型规模的指数级增长会带来模型性能的线性提升。 在2022年8月Google发布了一篇论文重新审视了模型性能与模型规模之间的关系。研究发现当模型规模达到一定的阈值后模型在处理某些问题上的性能会出现快速增长。研究者们将这种现象称为“涌现能力”Emergent Abilities。 预训练大模型与场景微调长尾应用优化
根据斯坦福大学著名NLP学者Chris Manning教授的观点通过在未标注的海量语料上训练大模型可以 Produce one large pretrained model that can be very easily adapted, via fine-tuning or prompting, to give strong results on all sorts of natural language understanding and generation tasks. 通过微调或使用提示大规模预训练模型能够轻松适应各种自然语言理解和生成任务并能产生出色的结果。 大模型的“大道至简”
基于简单的Transformer结构之所以展现出强大的能力关键在于其通用性。预测下一个单词这样的任务既简单又通用几乎所有类型的语言学和世界知识包括句子结构、词义引申、基本事实等都能助力这一任务的成功执行。在训练过程中大模型也学习到了这些信息使得单一模型在接受少量指令后便能解决多种不同的NLP问题。这或许是“大道至简”理念的最佳体现。
在2018年之前基于大模型完成多种NLP任务主要依靠微调fine-tuning即在少量专门为任务构建的有监督数据上继续训练模型。而后来出现了提示学习prompting的方法这种方式仅需用语言描述任务或给出几个示例模型便能有效执行之前未经训练的任务。
1.6、大模型真的理解了人类语言吗
要深入讨论这个问题我们需要探讨“语义”的定义以及语言理解的本质。在语言学和计算机科学领域主流的理论认为一个单词、短语或句子的语义denotational semantics是指它所代表的客观世界中的对象。与此形成对比的是深度学习NLP所遵循的分布式语义distributional semantics单词的语义由其出现的上下文环境决定。
更通俗的说以“你吃饭了吗”“我吃过了”为例“吃饭”的语义是什么呢
主流理论“吃饭”短语表示的是“端着一碗饭用筷子扒拉到嘴里吃掉”或者“手里拿着面包总到嘴里吃掉”这些行为过程客观世界中的对象。
分布式语义“吃饭”这个词从概率统计的角度它有很大的可能出现在“你____了吗我吃过了。”这个句子里面是语言在形式上的一种连接仅此而已。模型并不知道“往嘴里塞东西吃”这个客观世界里可以听见或看见的过程叫“吃饭”。 Meaning arises from understanding the network of connections between a linguistic form and other things, whether they be objects in the world or other linguistic forms. 意义来源于理解语言形式与其他事物之间的连接无论它们是语言形式还是世界上其他的物体。 引用NLP领域权威Chris Manning的话如果用语言形式之间的联系来衡量语义当前的大模型已经在语言理解方面做得相当出色。然而这种理解的局限性在于它仍然缺乏对客观世界知识的深入把握并且需要通过其他模态的感知来进行增强。毕竟用语言来描述图像和声音等远不如直接接收这些信号来得直观和有效。
2、多模态大模型的蓬勃发展
本文专注于图像-文本领域近年来一些经典的视觉语言预训练模型Vision-and-Language Pre-trainingVLP以及当前的一些多模态大语言模型Multimodal Large Language ModelsMLLM。
目前业界尚无一个严格定义的多模态“大”模型。为了明确本文的讨论范围我们将基于transformer或其变体为主要结构能够输入/输出并处理除了人类语言/代码之外的其他非结构化或半结构化模态数据的算法模型定义为多模态模型。
尽管像dense caption这类模型也能从图像生成文本描述但由于它们主要基于R-CNN和LSTM而非transformer结构并且这些模型较早在2019年就已提出因此本文不将其作为主要讨论对象。 2.1、基础模型MoCo2019
Highlight: 在众多经典的多模态预训练算法如ALBEF、MPLUG等中动量蒸馏技术被广泛应用而这一技术的思想源自于MoCoMomentum Contrast算法。 主要创新是提出了动态队列的概念利用momentum encoder通过队列提供负例。 在对比学习中模型的性能与负样本的数量成正比即负样本越多模型的效果越好。负样本的采样方式主要包括以下几种
end2end传统的对比学习方法可以分为两种输入方式。第一种是输入三元组 (x, y, 1/0)在数据集准备阶段完成正负样本的采样第二种是模型仅输入正例 (x, y)并将batch内其余的sample作为负例负样本的数量为 batch size - 1当batch size较小时负样本较少。
memory bank使用memory bank来存储和采样负样本。memory bank中存储的是Encoder编码的特征并在其中采样负样本。由于memory bank的容量远大于batch size这种方式可以显著增加负样本的数量。然而由于memory bank中存储的特征来自不同阶段的Encoder这可能导致采样的特征具有不一致性。
MoCo提出使用一个队列来存储和采样负样本。在memory bank的基础上MoCo引入了一个动量编码器Momentum Encoder该编码器以Encoder的参数为初始化但以较慢的速度更新梯度。队列采用动态更新方式新的batch的特征会替换队列中旧的batch特征以此缓解队列中的特征不一致性问题。
2.2、图像表征模型
图像表征模型的主要功能是将非结构化的图像转换为结构化或半结构化的数据这种数据包含了图像的各种特征信息用于支持下游模型的进一步处理和理解。图像表征模型构成了所有视觉多模态模型的基础。
从定义上看类似于2019年提出的dense caption这类将图像转换为文本描述的模型也可以被视为一种广义上的图像表征模型。尽管在学术界使用这种模型的情况较少它们主要用于生成多模态的图文对齐训练数据。更常见的图像表征模型如经典的R-CNN模型ResNet通常需要移除最后的全连接层以适用于多模态应用。
在当前新兴的多模态大模型中图像表征模型趋向于使用如ViT这样的模型。尽管ResNet和ViT本质上仍是单模态的表征模型它们却构成了绝大多数多模态模型的基础。
2.2.1、Vision Transformer (ViT, 2020)
HighlightTransformer结构被引入到图像领域后成为了一个里程碑式的经典。在此之前图像特征提取主要依赖于ResNet模型。伺候大多数经典的图像模型都开始采用ViTVision Transformer框架作为图像编码器。 谷歌在2020年首次将Transformer结构引入到视觉处理领域提出了这一创新模型。该模型的核心在于将输入的图像转换成一个扁平化的数据序列然后进行Patch Embedding和位置编码之后这些数据被送入一个几乎是标准的Transformer Encoder结构中进行处理。处理后的输出即为图像的表征这些表征可以直接连接到一个多层感知机MLP上用于分类等下游任务。
技术细节不是我们的主要关注点重要的是要了解ViTVision Transformer首次证明了基于Transformer结构处理图像在许多任务上能够超越传统的CNN算法如Yolo、ResNet。特别值得注意的是在训练数据集较小的情况下ViT的性能可能不如ResNet然而一旦训练数据集足够大ViT则展现出更强的识别能力。
基于ViT的发展后续衍生出了如Swin Transformer等模型这些模型甚至被用于自动驾驶车辆的感知模型。严格来说这些都是处理传统图像识别、检测、分割任务的单模态“大模型”并不能单独用于处理VQA视觉问答、多模态图文检索等典型的多模态任务。然而它们为大多数多模态模型提供了基础参考。
2.2.2、Masked Autoencoders (MAE, 2021)
Highlight类似于NLP领域的MLMMasked Language Model任务可以将一张图片按比例进行遮盖Mask通过未被遮盖的区域来预测被遮盖掉的部分从而使模型学习到图像的特征。 主要创新包括模型结构和训练过程
模型结构非对称的encoder、decoder
Encoder部分采用VIT结构。Decoder部分采用轻量级的Transformer结构具体为8层隐藏层大小为512的Transformer。
训练过程
将图片分割成多个patch。对图片中的patch按照一定比例随机进行遮盖Mask。将未被Mask的patch输入到encoder中。在decoder前拼接被Mask的位置信息。使用decoder解码每个patch的结果通过比较复原的图片和原图训练模型以学习图像的表示。
部分复原效果展示 论文中对各种Mask比例进行了实验最终得出最佳的Mask比例为75% 2.2.3、BeiT (2021)
Highlight主要创新点是模型结构是BEIT Encoder dVAE。 2.3、图文对齐模型
在处理多模态数据时常用的方法包括对齐和桥接两种策略
对齐这一策略涉及将不同模态的表征编码器模型例如图像的ViT和语言的Bert通过特定的训练方法使它们的输出向量映射到同一个低维空间中。这通常需要同时训练所有模态的表征编码器。
桥接这种方法使用转换器Adaptor模型将一种模态的表征输出转换成另一种模态的处理模型的输入。这种方法将在文中的3.3部分进一步讨论。
2.3.1、Contrastive Language-Image Pre-Training (CLIP, 2021)
CLIPContrastive Language-Image Pre-Training模型是OpenAI在2021年初发布的用于匹配图像和文本的预训练神经网络模型被认为是近年来多模态研究领域的经典之作。该模型利用大量的互联网数据进行预训练在多种任务上达到了目前最佳的表现SOTA。
CLIP目前仍然是图文对齐模型中的佼佼者之一其结构由一个ResNet构成的图像表征编码器和一个基于Bert结构的文本编码器组成这些编码器可以替换为不同版本包括ViT版本。在训练过程中CLIP通过其特有的ITC Loss损失函数同时输入图文对进行训练采用对比学习方法最终将两个编码器的输出映射到同一个向量空间中。 CLIP具有许多显著的优势
结构简单进行微调时所需的算力相对较小尽管全量训练需要处理4亿图文对耗时较长。 高效的相似度计算输出的特征向量通过点乘方法进行相似度计算这使得在向量数据库中进行跨模态检索变得非常方便。
多任务适用性可以用于执行图片分类、图文检索等多种任务。两个编码器也可以作为单模态编码器单独使用有时候能产生一些意想不到的效果例如在图-图相似度检索中利用CLIP训练好的图像编码器可以检索出语义相似而非像素相似的图片。
高性价比已经展示出Zero-shot和Few-shot的学习能力。目前许多新模型在处理图文匹配任务上的表现仍然不如CLIP。
尽管CLIP的结构简单带来了许多优势它也存在一些局限性例如无法直接基于CLIP进行图片生成文本讲故事以及VQA视觉问答相关任务。BLIP模型的出现部分弥补了这些缺陷。
2.3.2、Align (2021)
Highlight与CLIP类似的结构中Align模型采用了超过10亿的带噪数据集进行训练而且没有进行数据清洗。这种“大力出奇迹”的策略表明通过扩大语料库规模可以弥补数据内部的噪声问题即使是最简单的模型也能达到最佳的状态SOTA效果。这种方法强调了在大规模数据训练中数量往往能够弥补质量的不足。 训练出来的embedding有“图像数学”的搜索特性 2.3.3、Data efficient CLIP (DeClip, 2022)
HighlightData efficient CLIP在原CLIP模型基础上增加了监督任务以提高数据利用效率并减少对大量数据的需求。这种改进使模型在使用较少数据时也能达到较好的性能。
在CLIP的图文对比学习基础上增加的监督任务包括
各模态的自监督self-supervision 跨模态的监督multi-view supervision从一次InfoNCE扩展到四次InfoNCE
相似pair的邻居监督nearest-neighbor (NN) supervision 2.3.4、ALBEF (2021)
Highlight这部经典之作引入了多模态编码器和ITM损失将多模态预训练模型框架从单流模型提升为单流和双流模型结合的框架。
主要创新体现在模型结构、训练目标和优化点上。
模型结构结合单流模型和双流模型 单模态编码器处理各模态信息 图像编码器采用 ViT初始化参数使用 −Clip-ViT参数文本编码器采用 Transformer初始化参数使用 Bert的前六层参数 多模态编码器进行模态交互 采用 Transformer结构增加 Cross-Attention层进行图文交互图片作为 Query文本作为 Key和 Value初始化参数使用 Bert的后六层参数。 训练目标ITC、ITM、MLM ITC图文对比学习将单模态编码器输出的单模态向量映射到相同的低维空间中通过对比损失对其单模态表示进行优化。 ITM图文匹配学习 MLM在下游应用中图文检索单独模态编码器检索 topK粗排 多模态编码器排序精排
优化点hard negatives、Momentum Distillation Hard Negatives Momentum Distillation去除文本中的噪声用动量模型生成多个伪标签动态更新的每次可能都不一样不同视角的伪标签用伪标签监督对比学习和 MLM。 2.3.5、BLIP (2022)
Highlight首次提出了一种既支持多模态理解又支持多模态写作的模型并引入了一种名为 CapFilt的新方法。
Blip 和 ALBEF 有很多相似之处这里主要讨论 Blip1.0因为从 Blip2.0 开始在处理跨模态时已经从对齐变为桥接因此后文将讨论 Blip 的 2.0 版本。 BLIP 由四个部分组成一个视觉编码器官方版本为 ViT、一个文本编码器基于 BERT 架构、一个视觉-文本编码器和一个视觉-文本解码器。在训练过程中BLIP 采用了类似对齐的方法共同训练图像模态和语言模态。然而与 CLIP 不同的是BLIP 不仅使用 ITC Loss 来进行文本和图像的编码对齐还通过一个名为 Cross Attention 的结构实现了在同一个模型中视觉模态与文本模态的融合。通过图文匹配目标函数 ITM 和语言模型目标函数 LM 两个 Loss 目标进行训练使得 BLIP 能够根据给定的图像以自回归方式生成关于文本的描述。
CapFilt 方法通过提取更干净的训练数据知识蒸馏来提升模型效果具体步骤如下
Step 1使用大规模数据集预训练一个 BLIP 模型。
Step 2通过人工少量标注分别 finetune 两个子任务的高精度模型
(1) Filter 模型仅使用 ITC 和 ITM 损失进行训练(2) Captioner 模型仅使用 LM 损失进行训练
Step 3使用 Filter 模型对数据集进行清洗过滤掉其中的噪声。
Step 4使用 Captioner 模型生成图像文本再用 Filter 模型对生成的结果进行清洗。
Step 5使用 Step 3 和 Step 4 得到的新数据集重新训练 BLIP 模型。 BLIP 同样具备 CLIP 的一些基本能力和优势在单独联合使用视觉编码器和文本编码器时同时基于其新的视觉-文本编码器和解码器BLIP 可以实现图片生成文本和 VQA 的相关任务。
整体而言BLIP 是一个多模态大语言模型和图文对齐模型的中间态。在单纯的语言理解能力上BLIP 比大语言模型和后续的 BLIP2.0 要弱很多而如果只是用基本的图文对齐能力BLIP 又显得非常笨重因此在工业界BLIP1.0 的使用并不多。然而Cross Attention 的成功应用和其训练过程中的一些独特技巧使得后续相关模型受益匪浅。
2.4、跨模态桥接模型与多模态大语言模型
随着大语言模型LLM的广泛应用人们开始相信基于大语言模型的路线可以催生出所谓的万用模型OFA。大语言模型的强大能力使得各类智能体agent开始以 LLM 为核心。因此除了对齐方法之外处理跨模态数据的另一种方法是将其他模态的数据表征转换后接入大语言模型这种方法被称为桥接。
在使用桥接方法处理跨模态数据时处理语言模态的 LLM、处理其他模态的表征编码器以及在两者之间起转换作用的桥接器通常不会同时进行训练而是在不同训练阶段冻结其中某一个或一些部分只训练其中一部分。根据桥接器的不同设计这类模型可以分为两类
基于可学习接口Learnable Interface进行桥接这种方法在其他模态的输出和 LLM 的输入之间设置一个可训练的深度学习转换器将其他模态编码器输出的向量转换为大语言模型可以接收的输入。目前大部分多模态大语言模型MLLM都采用这种方法最早由 BLIP2 提出。
基于自然语言文本进行桥接这种方法也被称为专家模型桥接器。它引入一个专家模型将视觉等其他模态输入转换为自然语言或其他结构化文本描述再输入 LLM。这种方式减少了可学习接口的成本开销和训练复杂性。然而人类语言在描述许多内容时会出现信息丢失的问题因此这种方法一般不用于图片生成文本描述的任务。不过如果需要利用 LLM 的思维链CoT能力对图像内容进行推理基于自然语言进行桥接就更加常用。
2.4.1、BLIP2 (2023)
BLIP2 由 Salesforce 于 2023 年 1 月发布。与 BLIP1.0 不同BLIP2 在处理跨模态时采用了桥接的方式将图像输出的表征信息传递给大语言模型。BLIP2 使用了一种名为 Q-Former 的可学习接口Learnable Interface类型的桥接器这个桥接器同时输入文本和图像表征信息并使用 Cross Attention 作为图文融合编码器的基本结构。 Q-Former 桥接器整合了图像和文本两个模态的输入信息后最终会输出一个向量 Z。然后经过一个全连接层对齐下游 LLM 的 token 窗口大小后将 Z 和输入的文本信息一同交给 LLM。这样LLM 就能够理解图像的内容特征与文本之间的对应关系从而实现 VQA 等基于图像和文本的多模态联合推理任务。 左侧展示了 Q-Former 和 BLIP-2 在第一阶段的视觉-语言表示学习目标的模型架构。右侧展示了每个目标的自注意力掩码策略用于控制查询与文本的交互。优化了三个目标这些目标强制一组可学习的查询嵌入提取与文本最相关的视觉表示。
Q-Former 包含两个关键子模块图像变换器Image Transformer和文本变换器Text Transformer
图像变换器与冻结的图像编码器进行交互负责提取视觉特征。
文本变换器既能充当文本编码器也能充当文本解码器处理文本信息。
在表示学习阶段我们将 Q-Former 连接到一个冻结的图像编码器并使用图像-文本对进行预训练。目标是使 Q-Former 学会通过查询提取与文本最相关的视觉表示。受到 BLIPLi 等人2022年的启发我们联合优化了三个预训练目标这些目标共享相同的输入格式和模型参数。每个目标采用不同的注意力掩码策略来控制查询和文本之间的交互。
针对 Q-Former 的三个训练任务分别是 Image-Text Contrastive LearningITCImage-grounded Text GenerationITGImage-Text MatchingITM。
Image-Text Contrastive LearningITC图像-文本对比学习ITC旨在通过最大化图像表示和文本表示之间的交互信息来实现它们的对齐。这一过程通过比较正样本对匹配的图像和文本与负样本对不匹配的图像和文本之间的相似度来完成。
Image-grounded Text GenerationITG图像引导的文本生成ITG通过训练Q-Former模型在给定图像作为条件的情况下生成相关文本。
Image-Text MatchingITM图像-文本匹配ITM的目标是精确地对齐图像与文本的表示。这一任务被视为一个二分类问题其中模型需要判断给定的图像和文本是否相匹配正样本或不匹配负样本。
BLIP2.0继承了BLIP1.0的部分训练技术和优势例如在使用图像表征编码器和Q-Former进行单独操作时它也能有效执行多模态检索任务并展现出良好的性能。此外在视觉问答VQA、图像文本描述等任务中BLIP2.0通过整合大型语言模型LLM在基于视觉输入的语言联合推理方面表现更加出色。因此在多个领域BLIP2.0常被用来为图像生成全面描述例如在使用Stable diffusion进行Lora训练时经常利用BLIP2.0对输入图像进行标注生成图文对。
2.4.2、InstructBLIP (2023)
Highlight把指令加到Q-Former中去让图片也能看到指令。
InstructBLIP致力于解决视觉语言指令微调的挑战并通过对Blip2模型进行微调及将指令集成到Q-Former中不仅提升了指令微调效果还增强了模型对图像内容的解读能力同时系统研究了模型对未见数据和新任务的泛化能力以提高其广泛应用的效率和效果。 视觉编码器首先提取输入图片的特征并喂入Q-Former中其中Q-Former的输入还包括BLIP-2采用的可学习的Queries和指令Instruction。 在Q-Former的内部结构中如黄色部分所示可学习的Queries通过Self-Attention与指令交互并通过Cross-Attention与输入图片的特征交互从而鼓励提取与任务相关的图像特征。
2.4.3、mPLUG (2022)
HighlightmPLUG结构通过cross-model skip-connection解决图文不对称性提升训练速度。 训练任务ITC、ITM、MLM、PrefixLM
预训练数据1400万
域内数据集MS COCO、Visual Genome网络数据集Conceptual Captions、Conceptual 12M、SBU Captions
训练GPU16个A100、30 epochs
初始化配置
ViTClip-VITText-EncoderBert_base前6层Cross Skip ConnectionBert_base后6层
2.4.4、LLaVA
LLaVa是一种基于Learnable Interface的MLLM用于实现图像-文本桥接。与BLIP2不同的是LLaVa使用的桥接器是一个简单的投影层它将视觉编码器的编码结果投影到LLM的token embeddings空间中。因此LLaVa无需使用BLIP2中那样复杂的Q-Former来处理多模态融合表征。 这种多模态LLM通常被称为Projection Based Adaptor MLLM例如minigpt4也采用了类似的架构。这类模型具有多模态层适配训练简单、图像信息保留全面等优点。然而它们的缺点在于仅适用于视觉问答VQA等生成式任务不能用于多模态图文检索等任务。
2.4.5、minigbt-4 (2023)
冻结Vicuna VITBlip2 Q-FormerBlip2
训练Linear Layer 训练分为两个阶段
描述第一阶段第二阶段数据量500万3500个高质量对话数据GPU配置4张A1001张A100训练时长10小时7分钟批处理大小batch_size256batch_size12
在第一阶段中使用的大量数据可能包含脏数据这对大模型可能造成损伤。为了获得高质量的模型必须使用高质量数据集进行微调finetune。
2.4.6、CaFo
CaFO是由上海AI Lab提出的一个多模态大语言模型MLLM任务框架。该模型融合了CLIP、DINO、DALL-E和GPT-3等多个模型的特点旨在通过自然语言输入的方式构建MLLM。CaFO利用了CLIP的语言对比知识、DINO的视觉对比知识、DALL-E的视觉生成能力和GPT-3的语言生成能力。通过“Prompt、Generate、then Cache”的策略CaFO能够实现卓越的few-shot性能。 CaFo模型的一个显著特点是它通过一个缓存模型Cache Model来记录CLIP和DINO的输出。这个缓存模型将CLIP和DINO的预测结果各自转换为两个向量并计算这些向量与两个键keys的相似度。缓存模型采用一个可学习的权重参数自适应地融合这两个键的相似度从而得到最终的预测结果。 2.4.7、Qwen-VL (2023) 模型分为三个部分
LLM7.7B采用预训练的Qwen-7B。Visual Encoder1.9B使用Openclip的Vit-bigG。Position-aware Vision-Language Adapter0.08B结合可学习的Query-emb和位置信息。
模型训练分为三个阶段
训练阶段训练模块数据集大小训练步数第一阶段预训练冻住QwenLM训练ViT、Vision-Language Adapter清洗后的大规模网络数据内部数据77%英文数据22.7%中文数据1.4B50000 step第二阶段多任务训练训练ViT、Vision-Language Adapter、QwenLM高质量、细粒度数据76.8M19000 step第三阶段监督微调Qwen-VL - Qwen-VL-chat冻住VIT训练Vision-Language Adapter、QwenLM35万3000 step
3、多模态大模型让AIGC更给力
视觉大模型提高AIGC感知能力
视觉数据包括图像和视频是当代信息传递的主要载体之一它们实时记录着物理世界的状态反映人类的思想、观念和价值观。在深度学习的背景下传统的基于深度神经网络的模型如深度残差网络ResNet通常针对单一的感知任务设计难以同时处理多种视觉任务。相比之下大模型能够帮助AIGC技术在不同场景、环境和条件下解决视觉感知问题实现鲁棒、准确和高效的视觉理解。近年来基于Transformer的大模型如Swin Transformer和ViTAE Transformer通过无监督预训练和微调策略在多个视觉任务上展现出优越的性能有望成为基础视觉模型Foundation Vision Model显著提升感知能力推动AIGC领域的发展。
语言大模型增强AIGC认知能力
语言和文字是记录人类文明的重要方式它们记录了人类社会的历史变迁、科学文化和知识。基于语言的认知智能有助于加速通用人工智能AGI的发展。在当前信息复杂的环境中数据质量不一、任务种类繁多存在数据孤岛和模型孤岛问题传统深度学习在自然语言处理方面存在明显不足。谷歌和OpenAI提出的大规模预训练模型BERT和GPT在多个自然语言理解和生成任务上取得了突破性进展这已经为大家所熟知。
多模态大模型升级AIGC内容创作能力
在日常生活中视觉和语言是两种最常见且重要的模态。视觉大模型可以构建出更强大的环境感知能力而语言大模型则能学习到人类文明的抽象概念和认知能力。如果AIGC技术只能生成单一模态的内容其应用场景将非常有限不足以推动内容生产方式的革新。多模态大模型的出现使得融合性创新成为可能极大地丰富了AIGC技术的应用广度。多模态大模型通过将不同模态的数据映射到统一或相似的语义空间中实现不同模态信号之间的相互理解和对齐。基于多模态大模型AIGC才能具备更接近人类的创作能力并真正开始展示出替代人类进行内容创作、进一步解放生产力的潜力。
4、大模型不是谁都玩得起的
大模型的门槛较高主要体现在参数量大、数据需求大和算力需求高三个方面
参数 语言大模型的参数规模从亿级到万亿级以BERT为基准而图像大模型的参数规模则在亿级到百亿级之间。模型参数越多所需的存储空间也越大相应的成本也随之增加。 在机器学习中模型参数是定义模型功能的关键元素。以方程 aX1 bX2 Y 为例X1 和 X2 是输入变量Y 是输出结果a 和 b 是模型的参数。这些参数是模型在训练过程中学习的值用于调整模型的行为使其预测结果尽可能接近实际数据。在更复杂的模型如神经网络中参数的数量和复杂度会大幅增加但基本概念相同参数是通过训练数据调整的以优化模型性能。 数据随着模型参数的大幅增长为了避免过拟合需要更大量的数据来进行训练。传统的有监督学习方法由于标注成本高和训练周期长的限制变得不太现实。因此越来越多地采用自监督学习方法来挖掘数据中的信息。从2018年BERT的33亿词符到2019年XLNet的330亿词符再到2020年GPT-3的6800亿词符数据量呈现出十倍的增长速度。到2022年PaLM模型使用了7800亿词符进行训练。 算力在“小模型”阶段尽管对算力的需求已经在增长但使用一张GPU卡通常足以应对这使得许多个人和小企业也能参与其中。然而随着超大规模预训练模型的出现巨大的参数和数据量对算力的需求已经远远超出了普通用户的能力范围。即使一个人构建了网络结构并获取了必要的数据如果没有足够的计算资源也无法进行有效的训练。
从算力需求的角度看GPT的需求是18k petaFLOPsGPT-3的需求增至310M petaFLOPs而PaLM更是高达2.5B petaFLOPs。从成本角度来看GPT-3的训练使用了数千块英伟达V100 GPU总成本高达2760万美元。个人如果想要训练一个类似PaLM的模型成本预计在900万到1700万美元之间这显然是一笔巨大的投资对于大多数个人和小企业来说是难以承担的。 5、未来的多模态发展畅想
5.1、当下检索重构
随着大型语言模型LLM如GPT-4的发展加入多模态信息成为了一种趋势。未来大模型将会整合更多模态的信息使得不同模态的数据能够映射到同一个向量空间中。这将带来一种“All you need is embedding”的新现象即通过统一的嵌入表示来处理和理解多种类型的信息。这种方法预示着信息处理和机器学习领域的一大进步。 一个明显的趋势证明是在2023年5月10日Meta开源了一款多模态大模型ImageBind。ImageBind能够将文本、音频、视觉、热量红外以及IMU数据整合嵌入到同一个向量空间中。这一技术的最大颠覆性创新首先体现在搜索领域跨模态检索不再仅限于文本输入而是支持多种模式的组合输入。随后这还将极大地提升生成式检索的能力能够生成包含多种信息维度的全方位内容。 ImageBind 通过将六种模态的嵌入对齐到一个公共向量空间中支持跨模态检索不同类型的内容并能自然地组合来自不同模态的嵌入以形成统一的语义。此外它还可以利用音频嵌入和预训练的DALLE-2解码器处理CLIP文本嵌入从而生成音频和图像。
“All you need is embedding”这一理念允许之前难以结构化的数据之间建立联系实现万物向量化。这种特性使得不同数据之间可以进行计算、聚类、拓扑分析和检索。
想象以下几种场景
你可以将一个音乐家敲击架子鼓的声音录入到淘宝中然后搜索到相同款式的架子鼓。你可以使用一张包含烟、酒和卷发的照片在搜索引擎中找到郭德纲与于谦的经典相声。你可以用脑海中对小时候和奶奶玩耍的记忆进行文字描述最终在海量视频中找到那短短10秒的录像场景。你可以用AI生成一幅美丽的风景画然后将温度传感器放入冰水中风景随之变为冬天的景象。
这些应用展示了多模态大模型如ImageBind在实际生活中的潜在用途它们不仅增强了内容的创造和检索能力还为人机交互提供了新的可能性。
5.2、未来模态大一统
多模态不仅包括图像、视频和声音还涵盖了多种感官体验如触觉、味觉等。这些多样的感觉模态为我们提供了更全面的世界理解和交互方式。 即使是人与人交流中主要研究的3V模态——Verbal文本、Vocal语音、Visual视觉其中也蕴含了极其丰富的细节。这些细节不仅包括信息的直接表达还涉及到非言语的交流元素如语调、表情和肢体语言这些都极大地丰富了交流的深度和广度。 这些额外的模态和细节目前还因缺乏适配的输入输出设备而难以全面实现。如果存在一种设备能够整合不同模态的输入输出那将真正地颠覆现实。这也许解释了为什么公司如Meta不遗余力地发展多模态技术可能是为了构建那个被广泛讨论的元宇宙。
想象以下场景
你通过脑电波输入设备利用脑海中的想象构建出了属于自己的“我的世界”。在这个世界里你可以以上帝视角操控一切也可以身临其境地进入某个NPC的意识体验他的一天。你通过长时间的文字输入和语音对话构建了一个专属于你的虚拟朋友。这个朋友在各方面都完美地符合你的喜好并且能够在与你相处的过程中进一步学习和适应。在这个设备中你与他的互动就像与现实生活中的人无异能感受到他手掌的温度与他共进晚餐感受他的情绪变化甚至在你遇到困难时给予你倾听和实际的建议。面对这样的虚拟与现实的选择你会倾向于哪一个 这些技术的发展不仅推动了人类交互方式的革新也引发了关于现实与虚拟界限的深刻思考。 1946年诞生了第一台计算机到现在还不到百年时间。 2000年的NNLM到ChatGPT不过23年。