结合创新！多尺度特征融合+Transformer，参数和计算成本减半 | 深度之眼

深度之眼

关注(28)粉丝(399)

结合创新！多尺度特征融合+Transformer，参数和计算成本减半

通过多尺度特征融合，模型能够捕捉到不同层次的视觉细节，而Transformer的自注意力机制能够在这些不同层次的特征之间建立联系，有效地整合全局上下文信息，让模型能够应对多样化的视觉场景和变化。

这种结合策略充分利用了二者各自的优势，不仅有助于模型实现更高的识别精度和更好的泛化能力，还能提高模型的性能，因为它可以更好地利用计算资源，通过并行处理不同尺度的特征来提高计算效率。

本文分享8种多尺度特征融合+transformer结合创新方案，包含2024最新的成果。方法和创新点已经帮同学简单罗列，更具体的工作细节建议各位仔细阅读原文。

论文原文以及开源代码需要的同学看文末

SSA

Shunted Self-Attention via Multi-Scale Token Aggregation

方法：论文提出了一种新颖的Shunted Self-Attention (SSA)方案，用于明确考虑多尺度特征。与之前只关注一个注意力层中静态特征图的工作不同，作者保持不同尺度的特征图，这些特征图在一个自注意层中关注多尺度对象。

结合创新！多尺度特征融合+Transformer，参数和计算成本减半-LMLPHP

创新点：

提出了新颖的Shunted Self-Attention (SSA)方案，用于明确考虑多尺度特征。与先前的工作不同，先前的工作只关注一个注意力层中的静态特征图，而作者维持了在一个自注意力层中关注多尺度对象的各种尺度的特征图。广泛的实验证明了该模型作为各种下游任务的骨干的有效性。
将SegFormer作为框架，并将该骨干与SegFormer中的MiT进行了比较。结果在表中报告。作者的方法在参数更少的情况下，比SegFormer的mIoU提高了1.8。
提出了一种新的自注意力机制，即shunted self-attention (SSA)，可以同时保留粗粒度和细粒度的细节，同时对图像令牌进行全局依赖建模。

结合创新！多尺度特征融合+Transformer，参数和计算成本减半-LMLPHP

Pathformer

Pathformer: Multi-scale Transformers with Adaptive Pathways for Time Series Forecasting

方法：论文提出了一种名为Pathformer的多尺度Transformer模型，用于时间序列预测。该模型通过多尺度划分将时间序列划分为不同的时间分辨率，并使用不同尺寸的补丁对这些分辨率进行建模。在每个尺度划分的基础上，通过双重注意力来捕捉补丁之间的全局相关性和补丁内的局部细节。此外，还提出了自适应路径，根据输入数据的时态动态调整多尺度建模过程，提高了模型的准确性和泛化能力。

结合创新！多尺度特征融合+Transformer，参数和计算成本减半-LMLPHP

创新点：

自适应多尺度建模的AMS块：通过多尺度Transformer块和自适应路径组成的AMS块，实现了对多尺度特征进行自适应建模。
路径和专家混合用于实现自适应建模：基于这些概念，作者提出了基于多尺度Transformer的自适应路径，用于建模自适应多尺度特征。多尺度路由器根据输入数据选择特定的补丁尺寸，激活Transformer中的特定部分，并通过加权聚合与多尺度聚合器一起将这些特征组合起来，获得Transformer块的输出。

结合创新！多尺度特征融合+Transformer，参数和计算成本减半-LMLPHP

DilateFormer

DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition

方法：论文提出了一种称为DilateFormer的强大而有效的Vision Transformer，可以为各种视觉任务提供强大且通用的表示。提出的多尺度膨胀注意力（MSDA）同时考虑了浅层自注意机制的局部性和稀疏性，可以有效地聚合语义多尺度信息，并在不增加复杂操作和额外计算成本的情况下有效地减少自注意机制的冗余。

结合创新！多尺度特征融合+Transformer，参数和计算成本减半-LMLPHP

创新点：

利用Multi-Scale Dilated Attention (MSDA)方法，有效聚合语义多尺度信息，并且能够降低自注意机制的冗余性和计算成本。
提出了Sliding Window Dilated Attention (SWDA)操作，通过扩张卷积在特征图中进行长程依赖建模，有效减少自注意机制的冗余性。
通过构建Multi-Scale Dilated Transformer (DilateFormer)模型，结合MSDA块和全局多头自注意块，实现了对多种视觉任务的强大性能和优异结果。

结合创新！多尺度特征融合+Transformer，参数和计算成本减半-LMLPHP

SAM

Scale-Aware Modulation Meet Transformer

方法：论文提出了一种新的卷积调制方法，称为尺度感知调制（SAM），其中包括两个新模块：多头混合卷积（MHMC）和尺度感知聚合（SAA）。MHMC模块旨在增强感受野并同时捕捉多尺度特征。SAA模块旨在有效地聚合不同头部的特征，同时保持轻量级架构。

作者发现SAM在捕捉长程依赖关系方面仍然不及自注意力机制。为了解决这个问题，作者提出了一种新的混合调制-Transformer架构，称为进化混合网络（EHN）。具体而言，作者在前两个阶段中结合SAM块和Transformer块，在倒数第二个阶段中引入了一种新的堆叠策略。

结合创新！多尺度特征融合+Transformer，参数和计算成本减半-LMLPHP

创新点：

提出了一种新的演化混合网络，能够有效地模拟网络从捕捉局部依赖性到全局依赖性的转变，从而提高性能和效率。
引入了新的卷积调制模块，即Scale-Aware Modulation (SAM)，通过 Multi-Head Mixed Convolution (MHMC) 模块和 Scale-Aware Aggregation (SAA) 模块，增强了卷积模块的建模能力。
提出了一种新的混合卷积-Transformer架构，即Evolutionary Hybrid Network (EHN)，在前两个阶段中使用SAM模块，在最后两个阶段中使用Transformer模块，并引入了一种新的堆叠策略，能够更好地匹配各个阶段的计算特性，从而在各种下游任务上实现了更好的性能。

结合创新！多尺度特征融合+Transformer，参数和计算成本减半-LMLPHP

关注下方《学姐带你玩AI》🚀🚀🚀

回复“多尺度结合”获取全部论文+代码

码字不易，欢迎大家点赞评论收藏

04-04 02:43