Vision Transformer (ViT)

ViT 划时代的贡献在于,把图像处理的 baseline 和语言模型的 baseline 统一起来(都使用 Transformer 为底座架构),为后续的多模态大模型奠定了基础.

Vision Transformer