京东建站模板,动态模板网站建设,做问卷调查的网站挣钱,盐城seo网站优化软件Generalized Decoding for Pixel, Image, and Language
Towards a Generalized Multi-Modal Foundation Model 1、概述
X-Decoder没有为视觉和VL任务开发统一的接口#xff0c;而是建立了一个通用的解码范式#xff0c;该范式可以通过采用共同的#xff08;例如语义#…Generalized Decoding for Pixel, Image, and Language
Towards a Generalized Multi-Modal Foundation Model 1、概述
X-Decoder没有为视觉和VL任务开发统一的接口而是建立了一个通用的解码范式该范式可以通过采用共同的例如语义但尊重自然差异例如空间掩码与序列语言来无缝连接任务从而全面显著改进不同的分割和VL工作。
输入两个查询(i) generic non-semantic queries that aim to decode segmentation masks for universal segmentation(ii) newly introduced textual queries to make the decoder language-aware for a diverse set of language-related vision tasks
输出两种类型像素级别和token级别。 2、X-Decoder
2.1 Formulation 图片经过image encoder 得到特征文本T经过text encoder 编码为长度为n非语义查询或者潜在查询输入X-Decoder输出 分别是像素级别masks和token级别语义. 在许多以前的统一编码器-解码器模型中图像和文本在编码器侧融合。这种设计不仅使全局图像-文本对比学习难以解决而且使生成预训练也难以解决。相反通过完全解耦图像和文本编码器并将输出全部用作查询X-Decoder可以从图像内监督和图像间监督中学习这对于学习更强的像素级表示和支持不同粒度的任务至关重要。
2.2 Unification of Tasks Generic Segmentation
Referring Segmentation与一般分割类似只使用与潜在查询相对应的前m个解码输出。
Image-Text Retrieval Image Captioning and VQA这两个任务有两个不同Captioning遵循因果掩mask策略而VQA则不遵循。其次使用Os中的所有输出作为字幕但仅使用最后一个输出来预测VQA的答案。
之前的一系列工作探索了序列解码接口进行统一。然而在这项工作中我们提倡通过功能而不是接口来实现统一即我们最大限度地共享不同任务的共同部分同时保持单个任务的其余部分不变。 2.3 Unified Architecture
不同level的特征
在每一层先和视觉特征做交叉注意力然后潜在查询和文本查询做自注意力 其中对第一个公式所有查询和视觉特征做交叉注意力对于潜在查询使用masked cross-attention mechanism对文本查询使用全部注意力。
对第二个公式i 我们使用最后一个潜在查询来提取全局图像表示剩余的用于一般分割ii对于图像Caption每个文本查询可以和其自身、前面的文字、所有潜在查询做自注意力iii对于参考分割潜在查询与所有文本查询做注意力。 对m个潜在查询输出mask对于语义输出为潜在查询和文本查询预测输出 2.4 End-to-End Pre-training
两种类型的损失函数Semantic LossMask Loss
1Semantic Loss
三个任务对应三个损失函数
对image-text retrieval计算语言图片相对损失。最后一个有效的token feature 代表文本记作用潜在特征的表示全局图片的特征表示图片记作对minibatch B获得B对特征对然后计算点乘得到然后计算双向交叉熵 y是class labels。
对于mask classification包括“background”在内C个类别编码为C个文本查询提取每个查询最后一个有效特征作为概念表示然后取对应前m-1个潜在查询的decoder输出计算这些输出和概念表示的点乘得到最后计算交叉熵损失。
对于image captioning提取所有词汇向量大小为VX-Decoder最后n个语义输出计算点乘得到和GT的写一个token的id 计算交叉熵。
2Mask Loss
用Hungarian matching找到和前(m − 1)个输出匹配的GT使用BCE和DICE计算损失。 3 实验
100 latent queries and 9 decoder layers for segmentation, and we add one additional latent query for image-level task。
Focal-T and DaViT-B/L as the vision encoder