将 Transformer 架构应用于图像分类,展示了纯注意力机制在视觉任务上的强大能力。
Vision Transformer (ViT) 将 Transformer 架构应用于图像分类,展示了纯注意力机制在视觉任务上的强大能力。
ViT 在 ImageNet 等大规模图像分类数据集上取得了与 CNN 相当甚至更好的性能,特别是在足够大的数据集上预训练时优势明显。
from transformers import ViTImageProcessor, ViTForImageClassification
processor = ViTImageProcessor.from_pretrained("google/vit-base-patch16-224")
model = ViTForImageClassification.from_pretrained("google/vit-base-patch16-224")