太原网站建设维护,word文档做网站,铭品装饰公司,做一个网站成本是多少导读 本文提出一种同时利用图像空间和通道特征的 Transformer 模型#xff0c;DAT#xff08;Dual Aggregation Transformer#xff09;#xff0c;用于图像超分辨#xff08;Super-Resolution#xff0c;SR#xff09;任务。DAT 以块间和块内的双重方式#xff0c;在空… 导读 本文提出一种同时利用图像空间和通道特征的 Transformer 模型DATDual Aggregation Transformer用于图像超分辨Super-ResolutionSR任务。DAT 以块间和块内的双重方式在空间和通道维度上实现特征聚合从而具有强大的图像表示能力。具体来说DAT 在连续的 Transformer 块中交替应用空间和通道自注意力以实现块间聚合。同时本文还提出自适应交互模块Adaptive Interaction ModuleAIM和空间门前馈网络Spatial-Gate Feed-forward NetworkSGFN来实现块内特征聚合。AIM 从空间与通道为徒改进现有注意力机制SGFN 在前馈网络中引入了非线性空间信息。实验证明DAT 实现目前最先进的图像超分辨率性能。 论文连接 https://arxiv.org/abs/2308.03364 代码连接 https://github.com/zhengchen1999/DAT 01. 研究问题
图像超分辨率Image Super-Resolution简称图像 SR是一种图像处理技术旨在通过增加图像的细节和清晰度将低分辨率LR图像转换为高分辨率HR图像。简单来说就是将一张小尺寸的模糊图像变成大尺寸的清晰图像。图像超分辨率技术在实际应用中具有广泛的用途包括高清电视、监控摄像头、医学影像、卫星图像等。现如今随着人工智能、机器学习的发展使用深度学习技术的图像超分辨率成为主流。
02. 方法动机
目前Transformer 在 SR 任务中表现出色。其核心是自注意力Self-AttentionSA机制能够建立全局依赖关系。而全局关系的建立对于高分辨率图像的重建尤为重要。然而全局SA的计算复杂度与图像大小成平方比这极大的限制了其在高分辨率图像上的应用这在图像 SR 中很常见。考虑到这个原因一些研究人员提出更加高效的 SA以有效利用 Transformer。总的来说可以分为空间与通道两个方面
空间方面局部空间窗口被提出来限制全局 SA 的应用范围从而提出局部窗口注意力Spatial-Window Self-AttentionSW-SA。如图a空间维度H×W 被划分为多个窗口注意力在每个窗口中被执行。通道方面提出通道自注意力Channel-Wise Self-AttentionCW-SA。如图b注意力沿着通道维度 C 计算。也就是图中每一个独立的块都作为一个 token。 图片1. 不同自注意力机制示意图 这些方法都在降低计算复杂度的同时实现优异的性能。同时这两种方法对于图像特征 H×W×C 的建模是针对不同空间与通道的维度的。那么是否可以同时考虑两个维度在现有方法的基础上进一步提高Transformer的建模能力实现更加出色的超分辨率性能呢
受以上发现的启发我们提出 DATDual Aggregation Transformer通过块间和块内双重方式实现空间和通道特征有效融合。具体来说我们在连续的 Transformer 块中交替应用 SW-SA 和 CW-SA 。通过这在交替的方式DAT 能够同时捕获空间和通道信息实现块间特征聚合。同时为了实现块内特征聚合我们还提出自适应交互模块Adaptive Interaction ModuleAIM和空间门前馈网络Spatial-Gate Feed-forward NetworkSGFN。AIM 对 SW-SA 和 CW-SA 建模单一维度进行改进SGFN 则在前馈网络中引入非线性空间信息。
总体而言我们的贡献可以总结为以下三点
设计了一种新的图像超分辨率模型DAT。该模型以块间和块内双重方式聚合空间和通道特征增强 Transformer 的建模能力。交替应用空间和通道自注意力实现块间特征聚合。此外还提出 AIM 和 SGFN 来实现块内特征聚合。进行了大量实验证明提出的 DAT 实现最先进的图像超分辨率性能同时保持较低的复杂性和模型大小。
03. 方法介绍
在本节中我们首先介绍 DAT 的架构。 随后我们详细阐述自适应交互模块AIM和空间门前馈网络SGFN两个组件。
3.1 模型架构 图片2. 模型架构 正如前文提到在 DAT 中我们以交替的方式同时使用 SW-SA 和 CW-SA 两种注意力模块。这种组合能够对两个维度的特征进行建模并利用它们的优势互补
SW-SA 对空间上下文进行建模增强每个特征图的空间表达。CW-SA 可以更好地构建通道之间的依赖关系扩大感受野从而帮助 SW-SA 捕获空间特征。
因此空间和通道信息在连续的 Transformer 块之间流动以此实现块间特征聚合。
3.2 自适应交互模块AIM 图片3. 自适应交互模块AIM 我们提出的 AIM 对 SW-SA 和 CW-SA 实现进一步改进。首先考虑到自注意力主要是捕获全局特征我们增加了与自注意力模块平行的卷积分支依次引入局部性到 Transformer 中。接着考虑到虽然交替执行 SW-SA 和 CW-SA 可以在块间实现空间与通道的特征聚合但是对于每个自注意力SA而言不同维度的信息仍然无法有效利用。因此我们提出了AIM灰色阴影区作用于两个分支之间并根据分支的类型从空间或通道维度自适应地重新加权特征从而在单个注意力模块中实现空间和通道信息的聚合。 综合上述改进我们在 SW-SA 和 CW-SA 的基础上提出改进版的自适应空间自注意力Adaptive Spatial Self-AttentionAS-SA和 自适应通道自注意力Adaptive Channel Self-AttentionAC-SA。
相比原始自注意力机制我们的方法具有
局部卷积和全局注意力更好的耦合两个分支的输出可以自适应调整以相互适应、融合。更强的建模能力对于 SW-SA互补通道信息提高了其通道建模能力对于 AC-SA通过空间交互额外的空间知识同样增强特征表征能力。
3.3 空间门前馈网络SGFN 图片4. 空间门前馈网络SGFN 传统的前馈网络Feed-Forward NetworkFFN有线性层和非线性激活组成。只能够对特征通道进行建模 但忽略了建模空间信息。 此外FFN会通过线性层在内部对特征通道进行放大这导致通道之间存在冗余从而阻碍了特征表达能力。
为了克服上述问题我们提出了 SGFN将空间门控Spatial-GateSG引入到 FFN 中。SG 是一个简单的门空机制由深度卷积和逐元素乘法组成。同时我们将特征图沿着通道维度均匀的分为两个部分分别送入卷积和乘法旁路中以此来降低通道冗余性。并且该操作也能有效降低计算复杂度。
整体来看AIM 和 SGFN 是 Transformer 块的两个主要组成。通过这个两个模块我们实现块内的特征聚合
AIM 从通道维度增强 SW-SA并从空间维度增强 CW-SA。SGFN 将非线性空间信息引入仅建模通道关系的 FFN 中。
04. 实验结果
消融实验我们对提出方法的各个进行详尽的消融实验证明了方法的有效性。 图片5. 消融实验 定量对比我们提出了2个不同大小的模型变体DAT-S、DAT与目前最先进的图像超分辨率方法在5个基准数据集上进行对比。如下表所示我们的方法取得了最先进的结果。 图片6. 定量对比最优结果着红色次优结果着红色 视觉对比我们在下图中展示了视觉效果的对比结果。可以发现我们的方法在细节的重建上具有明显的优势。 图片7. 视觉对比 模型大小我们还提供了模型大小Params、复杂度FLOPs、性能上的综合对比。我们的方法在实现性能提升的同时也保持了较低的复杂性和模型大小。 图片8. 模型大小 05. 结论
本文提出了 DATDual Aggregation Transformer是一种用于图像超分辨率 Transformer 模型。 DAT 以块间和块内双重方式聚合空间和通道特征实现强大的建模能力。 具体来说连续的 Transformer 块交替应用空间窗口和通道自注意力并实现了空间和通道维度在块间的特征聚合。 此外本文还提出了自适应交互模块Adaptive Interaction ModuleAIM和空间门前馈网络Spatial-Gate Feed-forward NetworkSGFN以在两个维度上实现块内特征聚合从而增强每个 Transformer 块。 AIM从两个维度增强自注意力机制的建模能力。 而 SGFN 用非线性空间信息补充前馈网络。 实验证明DAT 实现目前最先进的图像超分辨率性能。 作者陈铮 关于TechBeat人工智能社区
▼ TechBeat(www.techbeat.net)隶属于将门创投是一个荟聚全球华人AI精英的成长社区。 我们希望为AI人才打造更专业的服务和体验加速并陪伴其学习成长。 期待这里可以成为你学习AI前沿知识的高地分享自己最新工作的沃土在AI进阶之路上的升级打怪的根据地 更多详细介绍TechBeat一个荟聚全球华人AI精英的学习成长社区