当前位置：首页 > news >正文

西宁网站公司张家界网站制作

news 2025/11/5 3:14:14

西宁网站公司,张家界网站制作,网站有二维码吗,改了网站关键词欢迎关注【youcans的AGI学习笔记】原创作品【微软报告#xff1a;多模态基础模型】#xff08;1#xff09;从专家到通用助手【微软报告#xff1a;多模态基础模型】#xff08;2#xff09;视觉理解【微软报告#xff1a;多模态基础模型】#xff08;3#xff09;… 欢迎关注【youcans的AGI学习笔记】原创作品【微软报告多模态基础模型】1从专家到通用助手【微软报告多模态基础模型】2视觉理解【微软报告多模态基础模型】3视觉生成【微软报告多模态基础模型】2视觉理解 Multimodal Foundation Models: From Specialists to General-Purpose Assistants2. 视觉理解2.1 视觉理解概述2.2 有监督预训练2.3 语言-图像对比学习预训练2.3.1 基本的 CLIP2.3.2 改进的 CLIP 2.4 仅图像的自监督2.4.1 对比学习和非对比学习2.4.2 掩码图像模型 2.5 不同学习方法的协同作用2.6 多模态融合基于区域和像素的预训练2.6.1 从多模态融合到多模态LLM2.6.2 区域级预训练Region-Level Pre-training2.6.3 像素级预训练Pixel-Level Pre-training Multimodal Foundation Models: From Specialists to General-Purpose Assistants 2023 年 6 月微软在 CVPR2023 发表论文「多模态基础模型从专家到通用助手」Multimodal Foundation Models: From Specialists to General-Purpose Assistants 。本文全面综述了多模态基础模型的分类和演化这些模型展示了视觉和视觉语言能力并重点关注了从专家向通用助手的过渡。论文下载地址 https://arxiv.org/abs/2309.10020 https://ar5iv.labs.arxiv.org/html/2309.10020 2. 视觉理解 Chapter 2 Visual Understanding 在过去十年中研究界为研究高质量、通用图像表示付出了巨大的努力。这些图像表示对于构建视觉基础模型至关重要因为预训练一个强大的视觉主干网络来学习图像表示是所有类型的计算机视觉下游任务的基础。这些任务包括图像级别的图像分类(Krizhevsky et al., 2012)、图像-文本检索(Frome et al., 2013)、图像字幕(Chen et al., 2015)区域级的目标检测(Girshick, 2015)、短语定位(Plummer et al., 2015)以及像素级的语义/实例/全景分割(Long et al., 2015; Hafiz and Bhat, 2020; Kirillov et al., 2019)。在本章中我们将介绍如何学习图像表示可以使用图像中挖掘的监督信号也可以使用从 Web 上挖掘的图像-文本数据集的语言监督。第 2.1 节概述了不同的学习范式包括监督预训练、语言-图像对比预训练(CLIP)和仅图像的自我监督学习。第 2.2 节讨论了监督预训练。第 2.3 节介绍了语言-图像对比预训练CLIP。第 2.4 节讨论了仅图像的自我监督学习包括对比学习、非对比学习和掩码图像建模。第 2.5 节综述了如何将这些方法结合在一起以获得更好的性能。第 2.6 节讨论了视觉基础模型如何用于更精细的视觉理解任务例如基于融合编码器的图像字幕和视觉问题回答这些任务需要多模态融合区域级的预训练来进行定位像素级的预训练来进行分割。图2.1第2章的结构。 2.1 视觉理解概述关于学习通用视觉骨干的各种方法有大量的文献。如图2.1所示根据用于训练模型的监督信号的类型我们将这些方法分为三类包括标签监督研究最深入的图像表示学习方法是基于标签监督的通常以图像分类的形式Sun等2017。其中 ImageNetKrizhevsky等2012和 ImageNet21KRidnik等2021等数据集很受欢迎工业实验室也使用了更大规模的专有数据集Sun等2017Singh等2022bZhai等2022aWu等2023d。语言监督另一种流行的学习图像表示的方法是利用来自文本的弱监督信号这很容易大规模获取。例如CLIPRadford等2021和ALIGNJia等2021是使用对比损失和从互联网上挖掘的数十亿个图像文本对进行预训练的。所得到的模型在图像分类和图像-文本检索方面实现了强大的零样本性能并且所学习的图像和文本编码器已被广泛用于各种下游任务并允许传统的计算机视觉模型执行开放词汇的计算机视觉任务Gu 等2021Ghiasi 等2022aQian 等2022Ding 等2022bLiang 等2021 3aZhang 等2023eZou等2023aMinderer等2022。仅图像的自监督也有大量文献探讨了仅图像自监督学习方法来学习图像表示。顾名思义监督信号是从图像本身中挖掘出来的流行的方法包括对比学习Chen等2020aHe等2020、非对比学习Grill等2020Chen2021Caron等2021和掩模图像建模Bao等2022He等2022a。这些学习方法的示例如图2.2所示。除了预训练图像主干的方法外我们还将讨论允许多模态融合如CoCaYu等2022a、FlamingoAlayrac等2022、区域级和像素级图像理解如 GLIPLi等2022e和SAMKirillov等2023的预训练方法。这些方法通常依赖于预训练图像编码器或预训练图像-文本编码器对。图2.3显示了本章所涵盖的主题以及每个主题中的一些代表性作品。图2.2学习一般图像表示的不同方法的概述包括监督学习对比语言图像预训练和仅图像自我监督学习包括对比学习非对比学习和掩模图像建模。图2.3本章涵盖的主题概述以及每个主题的代表性作品。我们从监督学习和CLIP开始然后转向仅图像的自监督学习包括对比学习、非对比学习和掩模图像建模。最后我们讨论了支持多模态融合、区域级和像素级图像理解的预训练方法。 2.2 有监督预训练对大规模人类标记数据集进行监督预训练如 ImageNetKrizhevsky等2012和 ImageNet21KRidnik等2021已成为一种广泛采用的获取可转移视觉表示的方法。它的目的是将图像映射到与视觉概念相关的离散标签上。这种方法极大地促进了各种视觉骨干架构的设计例如 AlexNetKrizhevsky等2012、ResNetHe等2016、视觉TransformerDosovitskiy等2021和 Swin TransformerLiu等2021并成为所有现代视觉主干的测试基准。它还推动了各种计算机视觉任务从图像分类、物体检测/分割、视觉问答、图像字幕到视频动作识别等各种任务。然而由于人工注释成本高昂学习表示的有效性往往受到预训练数据集中监督的规模和多样性的限制。大规模数据集为了进行更大规模的预训练可以从网络上抓取的“图像-文本对”中大量派生出噪声标签。使用噪声标签许多工业实验室已经成功地使用半自动管道例如 JFTSun 等2017Zhai 等2022a和 I2EWu 等2023d或利用诸如 Instagram 哈希标签Singh等2022b这样的专有数据构建了全面的分类数据集。现有大规模图像分类数据集的统计数据如表 2.1所示。标签通常是以具有长尾分布的细粒度图像实体为形式的。尽管这种方法很经典但已经非常有效地用于学习通用图像表示。例如JFT-300MSun 等2017已被用于训练BiT“Big Transfer”模型Kolesnikov 等2020JFT-3BZhai 等2022a被用于将普通视觉Transformer的训练规模扩展到22B。LiTZhai 等2022b提出首先在JFT-3BZhai 等2022a上学习图像主干并将其冻结然后学习另一个文本塔以对齐图像和文本嵌入空间从而使模型具备开放式词汇表并能够执行零样本图像分类。表2.1现有大规模图像分类数据集的统计。模型训练有很多损失函数可以用来提高嵌入属性例如可分离性Musgrave 等2020。例如大边缘损失Wang 等2018用于MOFI 训练Wu 等2023d。此外如果数据集具有大量的标签可能超过200万如在 MOFIWu 等2023d中则预测每批中的所有标签将在计算上变得昂贵。在这种情况下通常每批次使用固定数量的标签类似于抽样的softmaxGutmann2010。 2.3 语言-图像对比学习预训练 2.3.1 基本的 CLIP 语言是传统的封闭集标签更丰富的监督形式。除了从网络爬取的”图像-文本数据集“中派生噪声标签监督之外也可以直接使用替代文本alt-text来学习可转移的图像表示这是 “对比语言-图像预训练CLIP”Radford 等2021的思想。特别是以这种方式训练的模型如ALIGNJia等2021FlorenceYuan等2021BASICPham等2021和OpenCLIPIlharco等2021通过将图像和文本映射到共享嵌入空间展示出了令人印象深刻的零样本图像分类和图像-文本检索能力。下面我们将讨论如何对CLIP模型进行预训练并将其用于零样本预测。训练如图2.4(1)所示CLIP是通过简单的对比学习进行训练的。CLIP是“简单算法具有良好可扩展性”的杰出示例Li等2023m。为了达到令人满意的性能模型训练需要在三个维度上进行扩展批量大小、数据大小和模型大小Pham等2021。具体来说用于CLIP训练的典型批处理大小可以是16k或32k。预训练数据集中的图像文本对数量通常以十亿计而不是百万计。以这种方式训练的视觉 transformer 模型大小通常可以从300M大型到1B巨型。零样本预测如图2.4(2)、(3)所示CLIP 通过将零样本图像分类重新格式化为检索任务并考虑标签背后的语义实现了零样本图像分类。它的设计还可以用于零样本图像-文本检索。之外对齐的图像-文本嵌入空间使得所有传统的视觉模型都可能应用于开放词汇这激发了大量关于开放词汇对象检测和分割的工作Li 等2022eZhang 等2022bZou等2023aZhang 等2023e。图2.3举例说明对比语言图像预训练以及模型如何用于零样本图像分类。。 2.3.2 改进的 CLIP 自CLIP诞生以来已经有大量的后续工作旨在改进CLIP模型下面对此讨论。我们不打算提供所有方法的全面文献综述而是专注于一组特定的主题。数据扩展数据是 CLIP 训练的动力源。例如OpenAI 的 CLIP是在从网络中挖掘的 4亿个图像-文本对上进行训练的而ALIGN使用了包含18亿个图像-文本对的专有数据集。在BASICPham等2021年中作者仔细研究了批大小、数据大小和模型大小之间的缩放关系。然而大多数这些大规模数据集都是不公开的训练这些模型需要大量的计算资源。在学术环境中研究人员Li等2022b年主张使用几百万个图像-文本对进行模型预训练例如CC3MSharma等2018年、CC12MChangpinyo等2021年、YFCCThomee等2016年。一些相对小规模的公开可用的图像-文本数据集包括 SBUOrdonez等2011年、RedCapsDesai等2021年和WITSrinivasan等2021年。大规模公开可用的图像文本数据集包括 ShutterstockNguyen等2022年、LAION-400MSchuhmann等2021年、COYO-700MByeon等2022年等等。例如LAION-2BSchuhmann等2022年已被研究人员用于研究CLIP训练的可重复缩放规律Cherti等2023年。有趣的是在寻找下一代图像文本数据集时在DataCompGadre等2023年中作者不是固定数据集来设计不同的算法而是提出了使用固定的 CLIP训练方法选择和排序数据集。除了从网络上挖掘用于CLIP训练的成对图像文本数据外受FlamingoAlayrac等2022年引入交错图像文本数据集 M3W 的启发最近还有人收集交错的图像文本数据集如MMC4Zhu等2023b年和OBELISCLaurençon 等2023年。模型设计和训练 CLIP 的训练已经取得了显著的改进。以下是一些代表性的工作回顾。图像塔在图像编码器方面FLIPLi 等2023m提出通过掩码来扩展CLIP训练。如 MAEHe等2022a所示通过随机掩码具有高掩码比例的图像块并仅对可见的补丁进行编码作者证明了掩码可以提高训练效率而不影响性能。该方法可以应用于所有的CLIP训练。Cao等2023年发现过滤掉图像中包含文本区域的样本可以提高 CLIP 的训练效率和鲁棒性。语言塔在语言编码器方面K-LiteShen 等2022a提出使用维基百科对实体的定义等外部知识以及原始的alt-text进行对比预训练。根据经验使用丰富的文本描述可以提高CLIP的性能。LaCLIPFan 等2023a表明可以通过使用大型语言模型如ChatGPT重写嘈杂且简短的 alt-text 来改善CLIP。可解释性图像表示通常是一个密集的特征向量。为了提高共享的图像-文本嵌入空间的解释性STAIRChen 等2023a提出将图像和文本映射到一个高维、稀疏的嵌入空间其中稀疏嵌入中的每个维度都是一个大型字典中的子词其中预测的非负标量对应于与标记相关联的权重。STAIR 性能优于普通的CLIP具有更好的可解释性。更多的模态对比学习的思想是通用的不仅仅局限于图像和文本模态。例如如图2.5所示ImageBindGirdhar等2023年提出将 6 种模态编码到一个共同的嵌入空间中包括图像、文本、音频、深度、热像和IMU模态。在实践中使用预训练的CLIP模型并在训练期间保持冻结这意味着其他模态编码器被学习以与CLIP嵌入空间对齐从而训练后的模型可以应用于新的应用例如音频到图像生成和多模态LLM例如PandaGPTSu等2023年。图2.5: ImageBindGirdhar等2023建议通过利用预训练的CLIP模型将 6 种模态链接到一个共同的嵌入空间中从而实现新的对齐和功能。目标函数使用对比损失作为目标函数是强大的尤其是在模型规模扩大时。然而也可以使用其他目标函数。细粒度监督可以通过学习单词-图像块对齐来使监督更加细粒度而不是使用简单的点积来计算图像-文本对的相似性。在FILIPYao等2022b中作者建议首先通过计算标记的相似性来计算损失然后通过最大池化来聚合矩阵以进行单词-图像块的对齐。对比式字幕生成器除了对比学习分支外CoCaYu等2022a图2.6©添加了一个生成损失以改善性能还允许需要多模态融合的新功能例如图像字幕生成和视觉问答。这类似于许多基于融合编码器的视觉-语言模型如 ALBEFLi等2021b但关键的区别在于CoCa 旨在从头开始学习更好的图像编码器。关于多模态融合的详细讨论请见第2.6.1节。仅使用字幕损失进行预训练的图像编码器仅使用字幕生成损失来训练图像编码器怎么样在 CLIP之前VirTexDesai等2021图2.6(b)和 ICMLMSariyildiz等2020尝试了仅适用图像字幕损失来训练编码器但规模非常小仅限于COCO图像且性能较差。CLIP 表明采用对比学习进行预训练是更好的选择。在SimVLMWang等2022g中作者发现仅通过图像字幕生成损失训练的图像编码器性能不及采用对比学习的 CLIP 。然而在最近的 Cap/CapPaTschannen等2023中作者认为图像字幕生成器也是一种具有可扩展性的视觉学习方法当模型和数据规模足够大时也可以表现出与对比学习相似或更好的效果。用于语言-图像预训练的Sigmoid损失在标准对比学习中通常使用带有Softmax归一化的交叉熵损失它需要考虑所有成对的相似性评分。与标准的带 Softmax 标准化的对比学习不同Zhai 等2023使用了简单的成对 Sigmoid损失进行图像-文本预训练Sigmoid 损失直接作用于每个图像-文本对不需要成对相似度的全局视图来进行归一化。作者表明使用简单的Sigmoid损失也可以在零样本图像分类上获得良好的性能。图2.6图像编码器预训练对比损失和字幕损失的高级比较。 a CLIP 仅使用对比损失进行预训练这使得能够进行零样本图像分类并表现出强大的缩放行为。 b VirTex 在赛前训练中仅使用失利字幕。SimVLM 使用前缀语言建模进行更大规模的预训练模型架构类似于多模态语言模型例如 GIT 和 Flamingo但 VirTex 和 SimVLM 从头开始预训练图像编码器。 c CoCa 在预训练中使用对比损失和字幕损失。模型架构类似于 ALBEF但CoCa旨在从头开始预训练图像编码器而不是使用预训练的编码器。 2.4 仅图像的自监督现在我们将重点转移到仅图像的自监督学习上并将讨论分为三个部分1 对比学习2非对比学习以及2掩模图像建模。 2.4.1 对比学习和非对比学习对比学习对比学习的核心思想是促进正样本对并排斥负样本对。除了在CLIP中使用之外对比学习在自我监督的图像表示学习中也是一个流行的概念。已经证明被称为 InfoNCE 损失的对比目标可以解释为最大化不同视图之间数据互信息的下界。简而言之所有仅基于图像的对比学习方法例如SimCLRChen 等2020a图 2.7aMoCoHe 等, 2020SimCLR-v2Chen 等, 2020bMoCo-v2Chen 等, 2020c都遵循相同的高级框架具体如下所述。给定一张图像应用两种不同的数据增强一个基础编码器后是一个投影头目标是通过对比损失来最大化数据的一致性即它们是否来自同一图像在下游任务中不再使用投影头。然而对比学习的一个问题是需要大量负样本。这些样本可以保存在一个内存存储中Wu 等, 2018或者直接从当前批次中获取Chen 等, 2020a这表明需要大的批量大小。MoCoHe 等, 2020维护了一个负样本队列并将其中一个分支转化为动量编码器来提高队列的一致性。最初对比学习主要用于预训练卷积网络。然而随着视觉 TraTsformerViT的日益流行研究人员也开始探索其在 ViT 上下文中的应用Chen 等2021bLi 等2021aXie 等2021。非对比学习最近的自监督学习方法不依赖于负样本。对负样本的使用被不对称架构例如BYOLGrill 等, 2020、SimSiamChen and He, 2021维度去相关例如Barlow twinsZbontar 等, 2021、VICRegBardes 等, 2021、WhiteningErmolov 等, 2021以及聚类例如SWaVDINOCaron等等方法取代。例如如图2.7b所示在SimSiamChen2021中单个图像的两个增强视图由相同的编码器网络处理。随后将一个预测MLP应用于其中一个视图而对另一个视图使用停止梯度操作。该模型的主要目标是最大化两个视图之间的相似性。值得注意的是SimSiam 既不依赖于负样本对也不依赖于动量编码器。另一个值得注意的方法是 DINOCaron等2021如图2.7c所示它采用了不同的方法。DINO 将输入图像的两个不同的随机变换分别输入到学生网络和教师网络中。两个网络具有相同的架构但具有不同的参数。通过对批次进行求均值来以使教师网络的输出居中。每个网络输出一个特征向量通过对特征维度应用温度 softmax 进行归一化。使用交叉熵损失来衡量这些特征之间的相似性。此外还在教师网络上停止梯度操作以确保梯度仅通过学生网络传播。而且DINO 还使用学生参数的指数移动平均值来更新教师的参数。图2.7用于自监督图像表示学习的 SimCLR、SimSiam 和 DINO。SimCLR 使用对比学习进行模型训练而 SimSiam 和 DINO 探索了非对比学习方法。 2.4.2 掩码图像模型掩码语言建模Devlin等2019是一项强大的预训练任务已经彻底改变了 NLP 研究。为了模仿BERT在NLP领域的预训练成功开创性的工作 BEiTBao等2022提出了进行掩码图像建模MIM来预训练图像转换器如图 2.8 所示。具体来说图像标记器为了执行掩盖标记的预测需要一个图像分词器将图像标记化成离散的视觉标记使这些标记可以像一组额外的语言标记一样处理。一些著名的图像标记器学习方法包括 VQ-VAEvan den Oord等2017、VQ-VAE-2Razavi等2019、VQ-GANEsser等2021、ViT-VQGANYu等2021等。这些图像标记器也广泛应用于自回归图像生成例如 DALLERamesh等2021a、Make-A-SceneGafni等2022、PartiYu等2022b等。掩码后预测 MIM 的思想在概念上很简单模型接受被损坏的输入图像例如通过随机掩盖图像块然后预测被掩盖内容的目标例如 BEiT 中的离散视觉标记。正如 iBOTZhou等2021中所讨论的那样这种训练过程可以理解为图像标记器作为教师和 BEiT编码器作为学生之间的知识蒸馏而学生只看到图像的一部分。目标在Peng等2022b的论文中作者提供了一个统一的MIM观点一个教师模型、一个归一化层、一个学生模型、一个MIM头和一个适当的损失函数。所有这些模型之间的最大区别在于重构目标可以是对像素、离散图像标记、预训练模型的特征以及来自动量更新的教师模型的输出进行重构。具体来说目标可以大致分为两类。低层次像素/特征作为目标 MAEHe等2022a、SimMIMXie等2022b、ConvMAEGao等2022、HiViTZhang等2022d和GreenMIMHuang等2022a都使用原始的或归一化的像素值作为MIM的目标。这些方法通常探索使用简单的VisionTransformerDosovitskiy等2021或 SwinTransformerLiu等2021作为主干架构。MaskFeatWei等2021引入了方向梯度直方图HOG特征描述符作为MIM的目标图2.9b。Ge2-AELiu等2023b同时使用像素值和从2D离散傅里叶变换获得的频率信息作为目标。以MAEHe等2022a为例图2.9a作者表明使用像素值作为目标特别有效。具体来说将图像的大部分如75%随机遮盖然后图像编码器只应用于可见的块而在编码器之后引入遮盖标记。这种预训练对于需要更细致理解的图像任务特别有效例如目标检测和分割。高层次特征作为目标 BEiTBao等2022、CAEChen等2022g、SplitMaskEl-Nouby等2021和PeCoDong等2023涉及使用所学图像标记器预测离散标记。MaskFeatWei等2021采用不同的方法提出对DINOCaron等2021和DeiTTouvron等2021等模型提取的高层次特征进行直接回归。由这个想法发展MVPWei等2022b和EVAFang等2023使用来自CLIP 的图像特征作为目标特征进行特征预测。此外其他方法如 data2vecBaevski等2022、MSNAssran等2022、ConMIMYi等2022、SIMTao等2023和 BootMAEDong等2022提出通过利用动量更新的教师模型来构造回归特征目标以增强在线学习。损失函数的选择取决于目标的性质当目标为离散标记时通常使用交叉熵损失而对于像素值或连续值特征通常选择 l1、l2 或余弦相似度损失。图2.8图像 Transformer BEiT预训练概述。图 2.9使用原始像素值进行 MIM训练的掩模自动编码器MAE和使用不同特征作为目标的 MaskFeat。HOG 是一个手工制作的功能描述符在性能和效率方面都表现得特别好。 MIM 用于视频预训练 MIMMasked Image Modeling是一种在图像数据上进行预训练的方法目的是提高模型对图像的理解能力和泛化性能。近期MIM 的思想也被扩展到了视频数据的预训练中。一些突出的例子包括 BEVTWang等2022c、MAE作为空间-时间学习器Feichtenhofer等2022、VideoMAETong等2022和 VideoMAEv2Wang等2023e。以 Feichtenhofer 等2022的工作为例将 MAE 的概念扩展到了视频预训练中通过随机遮蔽视频中的时空区域来学习一个自编码器以在像素级别重构。有趣的是作者发现 MAE 可以学习强大的视频表示几乎没有任何空间-时间的归纳偏差而时空无关的随机遮蔽表现最好最优遮蔽比例高达90%。缺乏学习全局图像表示 MIM是一种有效的预训练方法为后续进一步的模型微调提供了良好的初始化参数。然而原始的MIM预训练模型并没有学习全局图像表示。在iBOTZhou等2021中作者提出通过引入类似于DINO的自我蒸馏损失Caron等2021来增强BEiTBao等2022以强制[CLS]标记学习全局图像表示。同样的想法也被扩展到了DINOv2Oquab等2023。 MIM的可扩展性 MIM在模型大小方面是可收缩的。例如我们可以对拥有数十亿参数的视觉Transformer执行MIM预训练。然而关于数据大小的扩展性并不明确。最近有一些工作旨在理解MIM的数据可扩展性Xie等2023bLu等2023a然而除了Singh等2023研究MAE作为数十亿规模数据所谓的“预预训练”方法的有效性以外其他工作的数据规模都局限于数百万图像而不是数十亿。总的来说MIM 可以被认为是一种有效的正则化方法有助于为下游任务初始化数十亿规模的视觉Transformer然而能否将 MIM 预训练扩展到数十亿规模的图像数据还需要进一步的探索。 2.5 不同学习方法的协同作用到现在为止我们介绍了不同的图像骨干网络预训练方法特别是对于视觉 Transformer。下面我们将以 CLIP 为基准讨论如何将 CLIP 与其它学习方法结合。 CLIP与标签监督相结合噪声标签和文本监督可以联合用于图像骨干网络的预训练。下面讨论了一些具有代表性的工作。 UniCL (Yang等2022a)提出了一种原则性方法将图像标签和图像-文本数据一起用于统一的对比学习将它们融合到图像-文本-标签空间中。FlorenceYuan等2021是UniCL的一个规模扩大版本。该框架的示意图参见图2.10。图 2.10对图像文本和图像标签数据进行统一对比预训练的 UniCL。 LiT (Zhai等2022b使用在JFT-3B数据集上进行有监督预训练学习到的预训练ViT-g/14图像编码器然后通过在图像-文本数据上进行对比预训练学习额外的文本塔从而使图像编码器具有开放式词汇表的能力。本质上LiT教会了一个文本模型从一个预训练的图像模型中提取良好的表示以执行新任务。MOFI (Wu等2023d提出从10亿个带有噪声实体注释的图像中学习图像表示的方法并使用图像分类和对比损失进行模型训练。对于图像分类与每个图像相关联的实体被视为标签并进行大量实体的有监督预训练对于对比预训练实体名被视为自由文本并进一步丰富了实体描述。将 CLIP 与仅图像非对比学习结合 SLIP Mu等2021提出了一种将SimCLR(Chen等2020a)和CLIP结合用于模型训练的概念简单的方法并表明SLIP在零样本迁移和线性探针设置上都优于CLIP。DeCLIP (Li等2022g)挖掘每个模态上的自监督学习信号使CLIP训练数据高效。在图像监督方面使用了SimSam框架(Chen和He2021)。xCLIP (Zhou等2023c通过引入从仅图像非对比学习文献中借用的额外的清晰度和平滑度正则化项使CLIP 变为非对比。然而作者表明仅非对比预训练(nCLIP)不足以在零样本图像分类上实现良好性能需要与原始CLIP结合以增强性能。 CLIP和MIM结合浅层交互事实证明从CLIP中提取的图像特征是MIM训练的良好目标因为CLIP图像特征潜在地捕获了MIM训练中缺失的语义。沿着这一研究方向如图2.11所示MVPWei等2022b提出直接回归CLIP特征而BEiTv2Peng等2022a首先将CLIP特征中的信息压缩成离散的视觉标记然后执行常规的BEiT训练。在MIM训练目标中使用类似CLIP特征的还有EVAFang等2023、CAEv2Zhang等2022c和MaskDistillPeng等2022b。在EVA-02Fang等2023中作者提倡MIM和CLIP表示的交替学习。具体来说使用现成的CLIP模型为MIM训练提供特征目标同时使用MIM预训练的图像主干来初始化CLIP训练。MIM表示被用来微调各种下游任务而学得的冻结CLIP嵌入使零-shot图像分类和其他应用成为可能。图2.11MVP、EVA和BEiTv2 的示意图。 (a) (b) MVP和EVA直接回归CLIP特征进行MIM预训练。© BEiTv2将CLIP特征内的信息压缩成离散的视觉标记然后进行常规的BEiT训练。(d) CLIP和MIM之间的替代学习。深层融合然而与将 CLIP 作为 MIM 训练目标不同如果目标是将CLIP和MIM结合进行联合模型训练MIM似乎在大规模上不会提高CLIP模型的性能Weers等人2023Li等人2023m。 **尽管目前阶段的CLIP和MIM组合结果不太令人满意但 BERT 和BEiT的组合非常有前途。**正如BEiT-3Wang等人2022d所证明的那样图 2.12。在BEiT-3中作者展示了通过设计多路 Transformer在图像/文本和联合图像-文本数据上可以执行遮蔽数据建模并在广泛的视觉和视觉语言任务上实现了最新的性能。图2.12BEiT-3通过多路 Transformer 对图像/文本和联合图像-文本数据进行掩码数据建模。 2.6 多模态融合基于区域和像素的预训练到目前为止我们一直专注于从头开始预训练图像骨干的方法但还没有讨论多模态融合、区域级和像素级图像理解的预训练方法。这些方法通常使用预训练的图像编码器进行第二阶段的预训练。以下我们简要讨论这些主题。 2.6.1 从多模态融合到多模态LLM 对于 CLIPRadford等2021这样的双编码器图像和文本被分别编码模态交互仅通过图像和文本特征向量的简单点积来处理。这在对零样本图像分类和图像-文本检索非常有效。然而由于缺乏深度的多模态融合CLIP 在图像字幕生成Vinyals等2015和视觉问答任务Antol等2015上的表现较差。这需要预训练一个融合编码器通常使用额外的 Transformer 层来建模图像和文本表示之间的深度交互。下面我们回顾这些融合编码器预训练方法是如何随着时间发展的。基于目标检测模型的方法早期的大多数方法使用预训练的目标检测器(OD)来提取视觉特征。其中ViLBERTLu等2019和LXMERTTan和Bansal2019使用协同注意力进行多模态融合而VisualBERTLi等2019b、Unicoder-VLLi等2020a、VL-BERTSu等2019、UNITERChen等2020d、OSCARLi等2020b、VILLAGan等2020和VinVLZhang等2021将图像特征视为要发送到多模态 Transformer中的文本输入的软提示。端到端模型现在端到端的预训练方法成为主流。早期的一些方法使用 CNN来提取图像特征如PixelBERTHuang等2020、SOHOHuang等2021和CLIP-ViLShen等2022b而ViLTKim等2021和ViTCAPFang等2022直接将图像块特征和文本标记嵌入馈送到多模态 Transformer 中。由于视觉Transformer(ViT) 的普及现在大多数方法简单地将 ViT 用作图像编码器例如纯 ViTDosovitskiy等2021和SwinTransformerLiu等2021。突出的例子包括 ALBEFLi等2021b、METERDou等2022b、VLMoWang等2021b、X-VLMZeng等2022、BLIPLi等2022d、SimVLMWang等2022g、FLAVASingh等2022a和CoCaYu等2022a。 UNITERChen等2020d和CoCaYu等2022a的结构如图2.13所示。它们分别作为经典模型和现代模型的两个例子对多模态融合进行预训练。CoCa还直接执行图像骨干预训练因为所有模型组件都是从头开始训练的。请参阅Gan等人2022的第3章了解全面的介绍。图2.13UNITER和CoCa的结构图它们是对多模态融合进行预训练的经典和现代模型。CoCa还从头开始预训练图像骨干。具体而言UNITER通过现成的对象检测器提取图像特征并将图像特征视为要发送到多模式转换器的文本输入的软提示。该模型经过数百万对图像-文本对的预训练。对于CoCa使用图像编码器和文本编码器并在顶部堆叠多模式转换器。对比损失和字幕损失都用于模型训练模型在数十亿个图像文本对和JFT数据上进行训练。走向多模态语言模型与使用遮蔽语言建模、图像-文本匹配和图像-文本对比学习不同SimVLMWang等2022g使用简单的PrefixLM损失进行预训练。从那时起多模态语言模型就变得流行起来。早期的模型侧重于大规模的预训练如FlamingoAlayrac等2022、GITWang等人2022a、PaLIChen等人2022h、PavI-XChen等人2023g而最近的工作侧重于使用预训练的LLM进行指令调优如LLaVALiu等人2023c和MiniGPT-4Zhu等人2023a。第5章对此主题进行了详细讨论。 2.6.2 区域级预训练Region-Level Pre-training CLIP通过对比预训练学习全局图像表示。然而对于需要细粒度图像理解的任务如目标检测CLIP并不足够。目标检测包含两个子任务定位和识别。 (i) 定位的目标是在图像中定位对象的存在并用边界框指示位置而 (ii) 识别确定边界框内存在哪些对象类别。通过遵循将图像分类转化为图像检索的重新表述可以实现通用的开放集目标检测。具体而言ViLDGu等2021和RegionCLIPZhong等2022a使用两阶段检测器从CLIP中提取知识用于零样本目标检测。在MDETRKamath等2021和GLIPLi等2022e图2.14中作者提出将检测重新构建为短语定位问题并进行有依据的语言-图像预训练。GLIPv2Zhang等2022b和FIBERDou等2022a进一步为定位和视觉语言理解任务执行统一的预训练。OVR-CNNZareian等2021对图像-文本模型进行微调以适用于有限词汇量的检测并依靠图像-文本预训练来推广到开放词汇的设置。DeticZhou等2022b通过仅在仅有图像级别注释的示例上训练分类头部来提高弱监督下的长尾检测性能。其他工作包括OV-DETRZang等2022、X-DETRCai等2022、FindITKuo等2022、PromptDetFeng等2022a、OWL-ViTMinderer等2022、GRiTWu等2022b等等。最近有人提出将 Grounding DINOLiu 等2023h与 DINOZhang 等2022a结合并使用基于场景的预训练进行开放集物体检测。有关此主题的详细介绍请参阅第4.2节。图2.14GLIP概述它为开放集对象检测执行基础语言图像预训练。 2.6.3 像素级预训练Pixel-Level Pre-training Segment Anything ModelSAM是一种最新的用于图像分割的视觉基础模型Kirillov等2023年旨在执行像素级预训练。自其诞生以来已经引起了广泛的关注并激发了大量的后续工作和应用。下面我们简要回顾一下SAM作为像素级视觉预训练的代表性工作。如图 2.15 所示Segment Anything 项目的目标是开发用于分割的基础视觉模型。该模型旨在能够容易地适应各种现有的和新颖的分割任务例如边缘检测、对象提案生成、实例分割、开放词汇分割等。这种适应性通过高度有效和用户友好的方式完成得益于三个相互关联组件的集成。任务作者提出了可提示分割任务其目标是在给定任何分割提示如一组点、粗略的框或掩模或自由文本的情况下返回有效的分割掩模。模型 SAM的架构在概念上很简单。它由三个主要组件组成(i) 一个强大的图像编码器MAEHe等人2022a预训练的ViT(ii) 一个提示编码器对于稀疏输入如点、框和自由文本使用CLIP文本编码器对于密集输入如遮罩使用卷积操作(iii) 基于 Transformer 的轻量级遮罩解码器。数据为了获取大规模的预训练数据作者开发了一个数据引擎用于执行与模型相关的数据集标注。图 2.15Segment Anything 项目概述该项目旨在通过引入三个相互关联的组件来构建分割的视觉基础模型可提示的分割任务、分割模型和数据引擎。与SAM并行人们也做出了许多努力来开发通用的分割模型。例如OneFormerJain等2023开发了一个通用的图像分割框架SegGPTWang等2023j提出了统一将不同的分割数据格式的通用上下文学习框架SEEMZou等2023b进一步扩展了单一分割模型可以处理的受支持提示的类型包括点、框、涂鸦、掩模、文本和另一幅图像的引用区域。 SAM的拓展 SAM 已经激发了许多后续工作这些工作将SAM扩展到了广泛的应用领域例如修复任意物体Yu等2023c)、编辑任意对象(Xie等2023a)、任意风格迁移Liu等2023g)、描述任意对象Wang等2023g)、追踪任意对象Yang等2023b)、识别任意对象Zhang等2023nLi等2023f、计算任意对象Ma等2023、3D重建Shen等2023a)、医学图像分析Ma2023Zhou等2023dShi等2023bZhang2023等等。此外最近的工作还尝试开发在开放词汇场景中检测和分割任意对象的模型例如Grounding DINO(Liu等2023h) 和 Grounding-SAM1。如需全面了解请参考Zhang等(2023a)和一些GitHub库https://github.com/Hedlen/awesome-segment-anything。【本节完待续】参考资料 Chuanyuan Li, Zhe Gan, Zhengyuan Yang, 等, Multimodal Foundation Models: From Specialists to General-Purpose Assistants, Microsoft Corporation, arxiv.org/html/2309.10020 v1 版权声明本文是对论文 “Multimodal Foundation Models: From Specialists to General-Purpose Assistants” 的翻译仅供学习使用版权属于论文作者和Microsoft Corporation。 youcansxidian 作品转载必须标注原文链接【微软报告多模态基础模型】2视觉理解 Copyright 2024 youcans, XIDIAN Crated2024-11

查看全文

http://www.ho-use.cn/article/10820251.html