当前位置: 首页 > news >正文

京东建站模板动态模板网站建设

京东建站模板,动态模板网站建设,做问卷调查的网站挣钱,盐城seo网站优化软件Generalized Decoding for Pixel, Image, and Language Towards a Generalized Multi-Modal Foundation Model 1、概述 X-Decoder没有为视觉和VL任务开发统一的接口#xff0c;而是建立了一个通用的解码范式#xff0c;该范式可以通过采用共同的#xff08;例如语义#…Generalized Decoding for Pixel, Image, and Language Towards a Generalized Multi-Modal Foundation Model 1、概述 X-Decoder没有为视觉和VL任务开发统一的接口而是建立了一个通用的解码范式该范式可以通过采用共同的例如语义但尊重自然差异例如空间掩码与序列语言来无缝连接任务从而全面显著改进不同的分割和VL工作。 输入两个查询(i) generic non-semantic queries that aim to decode segmentation masks for universal segmentation(ii) newly introduced textual queries to make the decoder language-aware for a diverse set of language-related vision tasks 输出两种类型像素级别和token级别。 2、X-Decoder 2.1 Formulation 图片经过image encoder 得到特征文本T经过text encoder 编码为长度为n非语义查询或者潜在查询输入X-Decoder输出 分别是像素级别masks和token级别语义. 在许多以前的统一编码器-解码器模型中图像和文本在编码器侧融合。这种设计不仅使全局图像-文本对比学习难以解决而且使生成预训练也难以解决。相反通过完全解耦图像和文本编码器并将输出全部用作查询X-Decoder可以从图像内监督和图像间监督中学习这对于学习更强的像素级表示和支持不同粒度的任务至关重要。 2.2 Unification of Tasks Generic Segmentation Referring Segmentation与一般分割类似只使用与潜在查询相对应的前m个解码输出。 Image-Text Retrieval Image Captioning and VQA这两个任务有两个不同Captioning遵循因果掩mask策略而VQA则不遵循。其次使用Os中的所有输出作为字幕但仅使用最后一个输出来预测VQA的答案。 之前的一系列工作探索了序列解码接口进行统一。然而在这项工作中我们提倡通过功能而不是接口来实现统一即我们最大限度地共享不同任务的共同部分同时保持单个任务的其余部分不变。 2.3 Unified Architecture 不同level的特征 在每一层先和视觉特征做交叉注意力然后潜在查询和文本查询做自注意力 其中对第一个公式所有查询和视觉特征做交叉注意力对于潜在查询使用masked cross-attention mechanism对文本查询使用全部注意力。 对第二个公式i 我们使用最后一个潜在查询来提取全局图像表示剩余的用于一般分割ii对于图像Caption每个文本查询可以和其自身、前面的文字、所有潜在查询做自注意力iii对于参考分割潜在查询与所有文本查询做注意力。 对m个潜在查询输出mask对于语义输出为潜在查询和文本查询预测输出 2.4  End-to-End Pre-training 两种类型的损失函数Semantic LossMask Loss 1Semantic Loss 三个任务对应三个损失函数 对image-text retrieval计算语言图片相对损失。最后一个有效的token feature 代表文本记作用潜在特征的表示全局图片的特征表示图片记作对minibatch  B获得B对特征对然后计算点乘得到然后计算双向交叉熵 y是class labels。 对于mask classification包括“background”在内C个类别编码为C个文本查询提取每个查询最后一个有效特征作为概念表示然后取对应前m-1个潜在查询的decoder输出计算这些输出和概念表示的点乘得到最后计算交叉熵损失。 对于image captioning提取所有词汇向量大小为VX-Decoder最后n个语义输出计算点乘得到和GT的写一个token的id  计算交叉熵。 2Mask Loss 用Hungarian matching找到和前(m − 1)个输出匹配的GT使用BCE和DICE计算损失。 3  实验 100 latent queries and 9 decoder layers for segmentation, and we add one additional latent query for image-level task。 Focal-T and DaViT-B/L  as the vision encoder
http://www.ho-use.cn/article/10823612.html

相关文章:

  • 南昌网站排名优化报价网站认证必须做吗
  • 网站首页flash制作家装效果图用什么软件哪个好
  • 网站外网怎么做蚌埠市建设银行网站
  • wordpress 网站暂停wordpress 开发飞猪接口
  • 网站 百度搜不到北京朝阳区小区
  • 凡科能上传自己做的网站代运营电商公司
  • 胖哥食品网站建设规范意见上海发布公众号下载安装
  • 网站建设的实施方式关于做网站公司周年大促销
  • 零食网站色调搭配怎麽做wordpress在线生成二维码
  • 怒江北京网站建设网站怎么申请官网
  • 网站开发实验室建设方案德阳网站建设ghxhwl
  • 色91Av做爰网站怎么进wordpress
  • wordpress仿小米主题江门网站建设优化
  • 海淀做网站的网络公司网站建设开票分类编码
  • 网站优化人员如何自己制作二维码
  • 做的比较好的p2p网站如何在wordpress中加备案编号
  • 网站建设目的与作用切片工具做网站怎么做
  • 建设网站平台的章程wordpress 机制
  • 手机可以访问的网站怎么做wordpress drupal 插件
  • 晋州建设规划局网站中小网站建设都有哪些方案
  • 上海建设工程安全监理网站重庆网站制作定制
  • 微信小程序开发和网站开发的区别兰州装饰公司十强
  • discuz论坛建站教程资金盘网站开发价格
  • 网站放到服务器襄樊seo
  • 洛阳制作网站的公司吗公司网站建设一定要求原图吗
  • 第二次全国地名普查网站建设宿州网站建设贰聚思诚信
  • 企业网站建设基本思路私人衣橱网站建设
  • 餐饮vi设计网站上海网站建设 迈若
  • 新建网站霞山手机网站建设公司
  • 廊坊网站排名优化公司织梦末班和dw建设网站哪个方便优化