Swin Transformer
视觉 Transformer 面临两大核心挑战:
- 视觉实体尺度变化大 (Scale Variation);
- 图像像素分辨率远高于文本单词 (High Resolution)。
而现有的解决方法 ViT 存在一下几个问题:
- 单一尺度特征图
- 全局自注意力计算复杂度随图像尺寸呈平方增长 (Quadratic Complexity)
- 难以直接应用于密集预测任务 (Dense Prediction)
视觉 Transformer 面临两大核心挑战:
而现有的解决方法 ViT 存在一下几个问题: