Swin Transformer

视觉 Transformer 面临两大核心挑战:

  1. 视觉实体尺度变化大 (Scale Variation);
  2. 图像像素分辨率远高于文本单词 (High Resolution)。

而现有的解决方法 ViT 存在一下几个问题:

  1. 单一尺度特征图
  2. 全局自注意力计算复杂度随图像尺寸呈平方增长 (Quadratic Complexity)
  3. 难以直接应用于密集预测任务 (Dense Prediction)