摘要

https://arxiv.org/pdf/2308.12216.pdf
Vision Transformer在各种视觉任务中取得了令人印象深刻的成功。然而,其繁重的计算成本(计算成本和token序列长度的增长呈二次关系)在很大程度上限制了其处理大型特征图的能力。为降低计算成本,已有工作要么依赖局限于局部小区域的细粒度自注意力,要么依赖于全局自注意力,但却缩短了序列长度ÿ

09-12 20:51