Coggle专业的数据科学、大模型和数据竞赛社区
首页竞赛博客教程模型应用
首页竞赛博客教程模型应用常见链接在线工具

内容

  • 竞赛
  • 博客
  • 教程
  • 模型

资源

  • 常见链接
  • 工具
  • 应用

关于

  • 关于 Coggle
  • 隐私政策

© 2026 Coggle Community. All rights reserved.

  1. 模型库
  2. Vision Transformer (ViT)

Vision Transformer (ViT)

将 Transformer 架构应用于图像分类,展示了纯注意力机制在视觉任务上的强大能力。

发布方:Google Research发布日期:2020年10月22日类别:计算机视觉
CVTransformer图像分类
论文代码仓库

Vision Transformer (ViT) 将 Transformer 架构应用于图像分类,展示了纯注意力机制在视觉任务上的强大能力。

核心特性

  • 纯注意力机制:将图像分割为 patches,使用标准 Transformer 编码器处理
  • 全局感受野:自注意力机制天然支持全局特征建模
  • 规模化潜力:随模型规模增大性能持续提升

性能表现

ViT 在 ImageNet 等大规模图像分类数据集上取得了与 CNN 相当甚至更好的性能,特别是在足够大的数据集上预训练时优势明显。

使用方式

from transformers import ViTImageProcessor, ViTForImageClassification

processor = ViTImageProcessor.from_pretrained("google/vit-base-patch16-224")
model = ViTForImageClassification.from_pretrained("google/vit-base-patch16-224")