当前位置：首页 > news >正文

海南第六建设工程有限公司网站图片拼接做网站背景

news 2025/11/4 12:16:11

海南第六建设工程有限公司网站,图片拼接做网站背景,wordpress底部自定义,建设银行网站无法访问摘要虽然视觉-语言预训练模型(VLP)在各种视觉-语言(VL)任务上表现出革命性的改进#xff0c;但关于其对抗鲁棒性的研究在很大程度上仍未被探索。本文研究了常用VLP模型和VL任务的对抗性攻击。首先#xff0c;我们分析了不同设置下对抗性攻击的性能。通过研究不同扰动对象和攻…摘要虽然视觉-语言预训练模型(VLP)在各种视觉-语言(VL)任务上表现出革命性的改进但关于其对抗鲁棒性的研究在很大程度上仍未被探索。本文研究了常用VLP模型和VL任务的对抗性攻击。首先我们分析了不同设置下对抗性攻击的性能。通过研究不同扰动对象和攻击目标的影响我们总结出一些关键的观察结果作为设计强健多模态对抗性攻击和构建鲁棒VLP模型的指导。其次我们在VLP模型上提出了一种新的多模态攻击方法称为协同多模态对抗攻击(Co-Attack)它共同对图像模态和文本模态进行攻击。实验结果表明该方法在不同VL下游任务和VLP模型下均能获得较好的攻击性能。本文的分析观察和新的攻击方法有望为VLP模型的对抗鲁棒性提供新的理解从而有助于其在更多现实场景中的安全可靠部署。INTRODUCTION视觉和语言预训练(VLP)最近已经彻底改变了下游的视觉和语言(VL)任务例如图像-文本检索视觉基础和视觉包含。这引起了人们对过去10年多模态神经网络研究的关注。虽然已经进行了广泛的研究以取得显著进展但其中只有少数人研究了对抗鲁棒性问题该问题通常使用标准的对抗攻击方法将扰动的一种模式用于攻击多模态任务。关于多模态预训练特别是VLP模型据我们所知还没有研究系统地分析对抗鲁棒性性能并设计专用的对抗攻击解决方案。由于仍处于非常早期的阶段关于对VLP模型的对抗性攻击许多问题仍未得到探索。其中本文研究了两个关键问题1标准对抗攻击是为仅涉及一种模态的分类任务而设计的。VLP 模型涉及多种模态通常涉及许多非分类任务例如图像-文本跨模态检索因此直接采用标准的对抗性攻击方法不切实际。一个自然的解决方案是对嵌入表示而不是下游任务标签进行对抗性攻击。但是由于VLP嵌入表示的复杂结构问题转向了解不同的攻击设置如何影响攻击性能。2为了攻击VLP模型的嵌入表示应该协作而不是独立地考虑不同模态的对抗性扰动。图1展示了一个关于视觉蕴涵任务对ALBEF [8]的adverial攻击的例子。结果表明只有扰动图像才能成功地将预测从“蕴涵”转变为“矛盾”。然而通过独立扰动图像和文本而不考虑它们的相互作用攻击失败因为两种单模态攻击可能相互冲突并导致抵消 1 1 1 效果。本研究致力于对VLP模型的对抗性攻击通过分析不同设置下的攻击性能并开发协作式多模态对抗攻击解决方案来解决这两个问题。对于第一个问题我们分析了不同设置下对VLP模型的对抗性攻击包括攻击目标和扰动对象两个维度。两种典型的VLP架构融合VLP模型例如ALBEF [8]TCL [27]和对齐的VLP模型例如CLIP [16]通过图像文本检索视觉蕴涵和视觉基础的3个下游V L任务进行了检查。广泛的分析得出了一些关于 VLP 架构和 VL 任务之间不同攻击性能的关键观察结果以及攻击设置对 VLP 鲁棒性的影响。对于第二个问题我们提出了一种针对VLP模型的新型多模态对抗攻击方法称为协作多模态对抗攻击Co-Attack该方法共同对图像模态和文本模态进行攻击。协同攻击适用于融合的 VLP 和对齐的 VLP 模型。前提是鼓励扰动多模态嵌入远离原始多模态嵌入对于融合 VLP 模型或扰动图像模态嵌入远离扰动文本模态嵌入对于对齐的 VLP 模型。实验结果表明所提方法对不同VL下游任务的攻击性能有所提高。本文的贡献可归纳如下。1分析了对抗性攻击对VLP模型的两种典型架构和3个下游VL任务的性能。关于攻击目标和受扰动对象的攻击设置的观察结果有助于理解VLP模型的对抗鲁棒性。2在VLP模型上开发了一种新颖的多模态对抗攻击方法。通过考虑不同方式攻击之间的一致性它协同地将多模式扰动结合起来形成更强的对抗性攻击。PRELIMINARIES AND RELATED WORKVLP models and Downstream VL Tasks大多数早期的视觉语言表示学习工作都需要预先训练的对象检测器例如更快的R-CNN [18]和高分辨率图像[1024]。最近的方法不是依赖于由计算成本高的对象检测器获得的视觉特征而是使用端到端图像编码器(例如ViT[3])来加速推断。在这项工作中我们考虑 CLIP [16]、ALBEF [8] 和 TCL [27] 进行评估它们属于后一类模型。其中ALBEF和TCL对图像和文本模态之间的交互进行建模包含单峰编码器Ei·Et·和多模态编码器Em··如图2a所示。VLP模型架构和攻击设置的说明。(a)融合VLP模型由一个图像编码器、一个文本编码器和一个多模态编码器组成。(b)对齐的VLP模型没有多模态编码器也没有统一的多模态嵌入。两个红色箭头从扰动对象指向攻击目标。输入图像xi由图像编码器Ei·编码到图像嵌入ei中即ei Eixi。输入文本 xt 由文本编码器 Et · 编码到文本嵌入 et 中即 et Et xt。图像嵌入和文本嵌入然后被送入多模式编码器 (·, ·) 以输出统一的多模式嵌入即 (,)。我们将这种具有多模式编码器和统一多模式嵌入的 VLP 模型表示为融合 VLP 模型。相比之下CLIP 专注于学习单峰图像编码器和文本编码器而不考虑多峰编码器。我们将这种只有单独的单峰嵌入的 VLP 模型表示为对齐的 VLP 模型如图 2(b) 所示。2.1.2 下游 VL 任务。图像-文本检索包含两个子任务。Downstream VL Tasks.图像-文本检索包含两个子任务图像到文本检索 TR 和文本到图像检索 IR。对于ALBEF和TCL对于TR和IR首先计算所有图像文本对ei和et之间的特征相似度得分以检索Top-N候选者然后使用em计算的图像-文本匹配得分进行排名。CLIP 上的 TR 和 IR 任务更直接地执行。排名结果仅基于Andet之间的相似性。视觉蕴涵 VE 是一项视觉推理任务用于预测图像和文本之间的关系是蕴涵、中性还是矛盾。ALBEF 和 TCL 都将 VE 视为三向分类问题并使用多模态编码器表示 [CLS] 标记 [8] 的完整层来预测类概率。视觉接地 VG 根据相应输入文本的描述定位输入图像中的区域。ALBEF扩展了Grad-CAM [19]并使用派生的注意力图对检测到的提案进行排名[29]。Adversarial AttackANALYZING ADVERSARIAL ATTACK IN VLP MODEL检查的 VLP 模型。我们评估了两种模型的分析和经验融合VLP模型和对齐VLP模型。融合的VLP模型包含一个图像编码器一个文本编码器和一个多模态编码器在这项工作中我们考虑了ALBEF [8]和TCL。图像编码器由 12 层可视变压器 ViT-B/16 实现。文本编码器和多模态编码器均由 6 层变频器实现。对齐的 VLP 模型仅包含图像编码器和文本编码器在这项工作中我们考虑 CLIP。CLIP的图像编码器有多种选择。我们考虑ViT-B/16和ResNet-101[5]分别表示为CLIPViT和CLIPCNN。下游任务和数据集。本文使用MSCOCO[12]和Flickr30K[15]对TR和IR任务进行评估使用RefCOCO[30]对VG任务进行评估使用SNLI-VE[25]对VE任务进行评估。注意CLIP只能处理IR和TR任务TCL可以处理VE、IR和TR任务ALBEF可以处理以上所有下游任务。对于VE任务由于我们关心对抗性攻击的性能我们只从SNLI-VE测试数据集中选择正面的图像-文本对(带有蕴涵标签)并丢弃负面的图像-文本对(带有中性和矛盾标签)。超参数对于图像模态的对抗性攻击我们使用PGD攻击[13]。最大扰动设为2/255。步长设置1.25。迭代次数设置为10。对于文本模式的对抗性攻击我们使用BERT-Attack[9]。最大扰动epsilon设置为1个标记。所选单词列表的长度设置为10。攻击目标和扰动对象。表1列出了本文所考虑的攻击目标和扰动对象。(1)对于VLP模型的扰动对象我们考虑了三种选择:图像模态输入、文本模态输入和双模态(图像和文本)输入。(2)对于攻击目标大致可以分为多模态编码器输出的多模态嵌入和图像或文本编码器输出的单模态嵌入。在每种受攻击的嵌入类型中又进一步分为完全嵌入和[CLS]嵌入。图2中的红色箭头说明了两个示例攻击设置:BiMultifull同时扰动输入图像和输入文本以攻击完整的多模态入;ImageUniCLS扰动输入图像来攻击单峰嵌入的[CLS]。我们简要讨论了将[CLS]嵌入作为一个攻击目标的动机。在预训练模型中嵌入的[CLS]起着重要的作用例如VLP模型中嵌入的[CLS]直接用于各种下游任务的推理。因此VLP模型内嵌攻击[CLS]的有效性值得研究。注意嵌入和完全嵌入的[CLS]之间的区别不适用于CLIP因为CLIP可以用CNN替换图像编码器的ViT。因此本文仅讨论CLIPViT的嵌入[CLS]其余部分将CNN输出的嵌入作为嵌入的[CLS]。Attack Implementations攻击单峰嵌入。对于干扰图像模态输入大多数典型的针对分类的单模态攻击都是基于梯度的方法.其中我们选择只需要进行一次梯度计算的FGSM[4]来表示这一系列方法:其中C为分类模型Lc为交叉损失函数y^是与原始图像Xi对应的Ground-truth标签.交叉熵损失需要logit-wise表示但许多VL下游任务是非分类任务如图像-文本检索。因此我们使用Zhang等人提出的最大化嵌入表示的KL (Kullback-Leibler)散度损失L的方法[Theoretically Principled Trade-off between Robustness and Accuracy]进行对抗性攻击:对于扰动文本模式输入T(·)表示修改或替换输入文本Xt中的标记即Xt T (Xt).则文本对抗性扰动t可表示为:其中最大扰动t被限制在标记级别即有多少标记被修改/替换为语义一致。在本工作中我们使用BERT-Attack[9]对文本模态进行对抗性攻击。攻击多模态嵌入。对于对输入文本的攻击我们将式(3)中的文本嵌入Et(·)替换为多模态嵌入Em(··):同样对于对输入图像的攻击我们将式(2)中的图像嵌入Ei(·)替换为多模态嵌入Em(··):Observations图像-文本检索的观察。ALBEF在TR和IR任务中的结果如表2所示。在表2中我们有以下主要发现:(1)扰动双模态输入(Bi)始终强于扰动任何单模态输入(Text和Image)。这表明如果允许多模态输入受到干扰预计将出现更强的对抗性攻击。(2)对于扰动图像模态输入攻击全嵌入优于攻击嵌入[CLS]。但是对于扰动文本模式输入我们观察到相反的结果。这表明对于文本编码器来说嵌入的[CLS]代表了句子级的显著性攻击它比攻击完整的嵌入有更大的影响。但是对于图像编码器来说攻击全嵌入的影响更为显著这与[14]中观察到的一致。他们用“全局平均池化”取代了嵌入的[CLS]并发现去除嵌入的[CLS]对准确性和鲁棒性的影响可以忽略不计。(3) BiMultifull的攻击性能明显优于BiMultiCLS。这说明对于扰动双模态输入攻击多模态嵌入嵌入的[CLS]的影响是有限的甚至可以削弱对抗性攻击。(4) BiMulti和BiUni的性能相似。这表明对于TR和IR这样需要中间输出(单峰嵌入)进行推理的任务攻击单峰嵌入和攻击全嵌入的影响是相当的。攻击clipit和CLIPCNN的结果分别如表3和表4所示。主要观察结果包括:(1)发现尽管在结构上存在很大差异但与ALBEF中的观察结果一致扰动双模态输入比扰动任何单模态输入更强。(2)对于扰动图像模态输入和扰动双模态输入CLIPCNN的攻击成功率(表4)高于CLIPViT(表3)。但是对于扰动文本模态输入CLIPCNN和CLIPViT很难区分。这表明ViT在防御图像模态攻击方面比ResNet-101 (CNN)是一种更健壮的图像编码器这也与一些现有的观察结果[21]一致。(3)注意ALBEF(表2)和CLIPViT(表3)的图像编码器是相同的(ViT-B/16)。通过比较两者攻击成功率的差异我们可以观察到攻击ALBEF的单峰嵌入与攻击CLIPViT并没有明显的优劣。这说明对于不同的VLP模型ALBEF(融合VLP模型)和CLIPViT(对齐VLP模型)的不同预训练目标对对抗鲁棒性没有显著影响。视觉蕴涵的观察。ALBEF和TCL在VE任务上的结果如表5所示。我们有以下主要发现:(1)与图像-文本检索任务的结果一致扰动双模态输入比扰动任何单模态输入更强并且攻击全嵌入优于对扰动图像模态输入的嵌入攻击[CLS]。(2) BiUniCLS、BiUnifull、BiMultiCLS、BiMultifull的表现不相上下。这表明对于VE任务[CLS]对扰动双模态输入的攻击性能几乎没有干扰。(3) BiMultiCLS优于BiUniCLS, BiMultifull优于BiUnifull。这表明对于扰动双模态输入攻击多模态嵌入要比攻击单模态嵌入强得多。因此攻击单峰嵌入的影响相对较弱的任务如不需要中间输出(单峰嵌入)涉及推理。观察视觉基础ALBEF对VG任务的结果如表6所示。我们有以下主要发现:(1)与前面任务的结果一致扰动双模态输入比扰动任何单模态输入更强攻击全嵌入优于对扰动图像模态输入的嵌入攻击[CLS]。(2) BiMultifull在所有攻击设置中表现最佳。这进一步证明了攻击多模态嵌入的优越性。总结。我们总结了一些共享的观察结果作为在VLP模型中设计多模态对抗性攻击的指导。(1)对于不同攻击设置的观测扰动双模态输入比扰动单模态输入强。这表明如果允许多模态输入受到干扰预计将出现更强的对抗性攻击。此外对于单模态输入的扰动嵌入的[CLS]对图像模态的影响小于文本模态。对于双模态输入的扰动攻击嵌入的[CLS]是有限的甚至比攻击全嵌入是有害的。(2)对于不同下游VL任务的观察对于推理所涉及的图像-文本检索等需要中间输出(单峰嵌入)的任务攻击全嵌入的结果与攻击嵌入[CLS]的结果一致。但总的来说攻击多模态嵌入在所有任务中都比攻击单模态嵌入具有更好或相当的性能。此外我们还得到了一些关于构建鲁棒VLP模型的见解。对于不同VLP模型的观察ALBEF(融合VLP模型)和CLIPViT(对齐VLP模型)的预训练目标对对抗鲁棒性的影响没有明显不同。对于具有其他图像编码器的模型如CLIP, ViT在精度和鲁棒性方面比CNN更适合作为图像编码器。VLP模型中的协同多模态对抗攻击Methodology尽管上述分析发现同时干扰文本和视觉模式比单独干扰一种模式更有效。然而如图1所示如果单独攻击两种模式就有可能导致1 1 1的抵消效应。我们通过开发一种协作多模态对抗攻击解决方案来解决这个问题称为协作多模态对抗攻击(Co-Attack)。这使我们能够集体地对图像模态和文本模态进行攻击。联合攻击的目的是鼓励扰动多模态嵌入远离原来的多模态嵌入或鼓励扰动图像模态嵌入远离扰动文本模态嵌入。由于联合攻击可以适用于攻击多模态和单模态嵌入因此它适用于融合VLP和对齐VLP模型。攻击多模态嵌入。为了攻击多模态嵌入协同攻击尝试协同扰动输入文本和输入图像这鼓励扰动多模态嵌入远离原来的多模态嵌入。图3(a)显示在不考虑两种攻击之间的一致性的情况下香草攻击产生更小的合成扰动而文本模态扰动和图像模态扰动之间的角度更大。相比之下Co-Attack共同进行了文本模态扰动和图像模态扰动获得了更强的合成扰动和更小的角度。如图4(a)和图4(c)所示vanilla攻击产生的分布在[0,]上Co-Attack缩小了分布范围使主要分布在[0,]附近。接下来我们详细阐述了如何实现协同攻击。实现协同对抗攻击的主要挑战在于连续图像模态和离散文本模态之间的输入表示差距。为了解决这个问题我们使用了一种逐步方案首先扰动离散输入(文本)然后在给定文本扰动的情况下扰动连续输入(图像)。首先扰动文本模态输入的原因是在离散空间中很难优化所设计的目标。因此我们从文本模态扰动开始并将其作为标准然后继续到图像模态扰动。对抗文本xt可由式(4)导出。对图像模态的对抗攻击由:其中第二项对应于图3(A)中的, 是控制第二项贡献的超参数。对的敏感性在4.2.3节中讨论。上述优化问题可以通过类pgd程序轻松解决。攻击单峰嵌入。对于攻击单模态嵌入联合攻击试图鼓励扰动图像模态嵌入远离扰动文本模态嵌入。需要注意的是单模态嵌入空间与多模态嵌入空间略有不同。如图3(b)所示图像-文本样本对对应于单模态嵌入空间中靠近的两个不同表示而不是多模态嵌入空间中的一个共享表示。结果表明在不考虑两种攻击之间的一致性的情况下香草攻击在文本模态扰动和图像模态扰动之间产生了更小的合成扰动和角。相比之下CoAttack共同进行了文本模态扰动和图像模态扰动获得了更大的合成扰动和角。如图4(B)和图4(d)所示与vanilla攻击产生的相比Co-Attack将移到更大的分布。与攻击多模态嵌入类似我们首先扰动输入文本根据式(2)得到对抗文本xt。那么类似于式(6)我们对图像模态进行对抗性攻击如下:其中第二项对应于图3(b)中的, 是控制第二项贡献的超参数。对的敏感性在4.2.3节中讨论。实验在本小节中我们使用了与第3.1节相同的实验设置。MIM的动量项设置为0.9,SI的比例副本数量设置为5。我们把和都设为3。比较的结果。为了证明我们的方法的性能改进我们将提出的联合攻击与5种基线攻击进行了比较如下所示。愚弄VQA是一种针对分类问题(VQA模型)的攻击方法利用ADAM优化器解决交叉熵损失添加图像噪声[26]。Yang等[28]使用单源对抗扰动(SSAP)来评估VLP模型的对抗鲁棒性通过PGD来解决交叉熵损失以添加图像噪声。SSAP-MIM和SSAP-SI是两种基线方法通过分别引入更先进的MIM[2]和SI[11]来取代PGD因为SSAP中的优化算法是可替换的。香草是第3节中分析的最强攻击也作为基线方法介绍例如BiMultifull用于VE任务上的ALBEF模型。同样Co-Attack也可以用SI代替优化算法中的PGD记作Co-Attack-SI。为了公平的比较对于不使用交叉熵的任务即图像-文本检索我们的方法和所有基线方法都将攻击嵌入式表示作为目标。对于使用交叉熵的任务即VE和VG我们的方法和所有基线方法都以逻辑表示为目标。表7显示了图像-文本检索任务的比较结果。VE任务的对比结果如表8所示。我们可以观察到:(1)由于Vanilla采用了从我们在第3节的分析中观察到的最强攻击设置Vanilla基本上获得了优于其他基线的攻击性能。验证了分析结果的可靠性。(2)联合攻击优于所有基线攻击。这说明协同攻击提高了攻击VLP模型的协同性能。可视化的结果。为了更直观地理解Co-Attack我们在图5中为RefCOCO数据集上的ALBEF提供了VG任务的Grad-CAM可视化。Grad-CAM可视化反映了模型在做出决策[19]时所查看的热图。我们注意到扰动单模态输入几乎不会改变热图。香草略微改变了热图但在感兴趣的物体上仍然保持明显的区域。联合攻击使模型聚焦于偏离真实的区域从而误导推理结果。消融实验。我们进行消融实验研究式(6)中和式(7)中的影响。我们将和调整在[0,5]范围内步长为1分别考察了它们对ALBEF和CLIPViT的影响。ALBEF在SNLI-VE数据集上的可视化蕴涵结果如图6(a)所示CLIPViT在COCO上的图文检索结果如图6(b)所示。结果表明当 0和 0时攻击性能增强。由此可见式(6)和式(7)中第二项的重要性。当≥1和≥1时结果具有可比性这表明Co-Attack对超参数不敏感并且不需要对超参数进行详细调优。CONCLUSION在本文中我们研究了VLP模型的对抗性攻击。首先分析了不同攻击设置下对抗性攻击的性能。根据所得的观察结果我们总结了设计多模态对抗攻击和提高VLP模型鲁棒性的见解。其次我们为VLP模型开发了一种新的多模态对抗攻击。我们希望本研究能引起人们对多模态模型对抗鲁棒性的独特性质的关注。

查看全文

http://www.ho-use.cn/article/10818475.html