600字范文,内容丰富有趣,生活中的好帮手!
600字范文 > Token Contrast for Weakly-Supervised Semantic Segmentation

Token Contrast for Weakly-Supervised Semantic Segmentation

时间:2020-08-25 04:49:48

相关推荐

Token Contrast for Weakly-Supervised Semantic Segmentation

文章来源:[CVPR]

Keywords:Weakly-Supervised Semantic Segmentation(WSSS);over-smoothing; ViT

一、本文提出的问题以及解决方案:

本文解决了over-smoothing问题,该问题其实是在之前的GCN网络中提出。

提出了Patch Token Contrast (PTC),通过中间知识来监督最后的tokens,PTC可以对抗patch uniformity和提高弱监督语义分割(WSSS)伪标签的质量。

提出了Class Token Contrast (CTC),对比了全局前景和局部不确定区域(背景)的表示,并促进了CAM中对象活动的完整性。

二、方法

本文提出的ToCo在ViT encoder中使用一个辅助的分类层来产生辅助的CAM,辅助CAM生成生成伪标签并指导PTC模块。同时,它还为CTC模块生成proposals来裁剪正负局部图像。最终的CAM来自于一个分类层并用于生成最后的伪标签。

1、Patch Token Contrast

生成token label Y m Y^m Ym用于导出可靠的成对关系,用于设计可靠的pairwise关系来监督最后的patch tokens。

如果两个tokens共享相同的语义标签,它们被标记为positive pairs,否则被标记为negative pairs。同时,为了保证可靠性,只考虑两个tokens属于前景或背景区域而忽略不确定区域。

为了解决over-smoothing问题,两个最后的patch tokens属于positive pairs则最大化相似性,否则最小化。

2、Class Token Contrast

用PTC解决过over-smoothing问题可以驱动ViT以生成显著的CAM和伪标签。然而,仍然有一些判别力较弱的对象区域在CAM中很难区分。受ViT中提出的class tokens能聚合高层语义的启发,设计了CTC模块促进局部非显著区域和全局对象之间的表示一致性,这可以进一步强制CAM中激活更多的对象区域。

通过辅助CAM从不确定区域随机crop local images(固定数量)。通过最小化global和local class tokens之间的差异,整个object regions的表示可以更加一致。

为了抵消裁剪的局部图像可能包含很少/不包含前景对象,最大化全局图像和局部背景区域的class tokens之间的差异,也可以促进前景-背景的差异。

然后,将global and local class tokens 通过projection head P g 和 P l P^g和P^l Pg和Pl 。

3、Training Objective

三、实验

1、实验设置

(1)数据集:

PASCAL VOC(augmented with SBD dataset) 和 MS COCO。

在训练阶段,只使用image-level标签。评估指标使用mIoU。

(2)网络结构:

backbone使用ViT-base(ViT- B),初始化为ImageNet数据集上的预训练权重。这里的pos_embedding通过双线性插值的方法进行resize。

(3)实验细则:

crop size的大小:global view为 44 8 2 448^2 4482,local view为 9 6 2 96^2 962。除此之外,使用multi-crop和data augmentation策略。

2、实验结果

(1)Pseudo Labels的质量

可视化CAM:

评估Pseudo labels:

(3)消融实验分析:

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。