600字范文 > 论文笔记33 -- （细粒度识别）【CVPR】TransFG: A Transformer Architecture for Fine-grained Recognition

论文笔记33 -- （细粒度识别）【CVPR】TransFG: A Transformer Architecture for Fine-grained Recognition

时间：2024-06-13 06:20:03

Transformer在细粒度领域的应用

论文：点这里

代码：点这里

Ju He，Jie-Neng Chen，Shuai Liu，Adam Kortylewski，Cheng Yang，Yutong Bai，Changhu Wang，Alan Yuille
Johns Hopkins University，ByteDance Inc.

Abstract

细粒度视觉分类（FGVC）的目的是从子类别中识别目标，因为类间存在着固有的细微差异，因此是一项非常具有挑战性的任务。最近的工作主要是通过定位最具辨别力的图像区域并依靠它们来提高网络捕捉细微差异的能力来解决这个问题。这些工作大多通过重用主干网络来提取选定区域的特征来实现这一目标。然而，这种策略不可避免地使 pipeline 复杂化，并推动提议的区域包含目标的大部分（… and pushes the proposed regions to contain most parts of the objects.）。最近，vision transformer（ViT）在传统的分类任务中表现出了强大的性能。transformer 的self-attention 机制将每个 patch token 链接到 classification token。可以直观地将 attention 链接的强度视为 tokens 重要性的指标。在这项工作中，我们提出了一种新的基于 transformer 的框架 TransFG，我们将 transformer 的所有原始 attention 权重整合到一个 attention map 中，以指导网络有效、准确地选择判别图像 patches 并计算它们之间的关系。为了进一步扩大相似子类特征表示之间的距离，采用了 contrastive loss。我们通过在五个流行的细粒度基准测试上进行实验来证明TransFG的价值：CUB-200-、Stanford Cars、Stanford Dogs、NABirds 和 iNat，在这些基准测试中我们实现了最先进的性能。

1. Introduction

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。