Posted on: 2025-05-27Updated on: 2025-06-02

Swin Transformer

Swin Transformer

视觉 Transformer 面临两大核心挑战：

视觉实体尺度变化大 (Scale Variation)；
图像像素分辨率远高于文本单词 (High Resolution)。

而现有的解决方法 ViT 存在一下几个问题：

单一尺度特征图
全局自注意力计算复杂度随图像尺寸呈平方增长 (Quadratic Complexity)
难以直接应用于密集预测任务 (Dense Prediction)

本文采用署名-非商业性使用-相同方式共享 4.0 国际许可协议，转载请注明出处。