Vision Transformer (ViT) ViT 划时代的贡献在于,把图像处理的 baseline 和语言模型的 baseline 统一起来(都使用 Transformer 为底座架构),为后续的多模态大模型奠定了基础. 2025-10-19 Vision Transformer