600字范文 > Token Contrast for Weakly-Supervised Semantic Segmentation

Token Contrast for Weakly-Supervised Semantic Segmentation

时间：2020-08-25 04:49:48

文章来源：[CVPR]

Keywords：Weakly-Supervised Semantic Segmentation（WSSS）；over-smoothing; ViT

一、本文提出的问题以及解决方案:

本文解决了over-smoothing问题，该问题其实是在之前的GCN网络中提出。

提出了Patch Token Contrast (PTC)，通过中间知识来监督最后的tokens，PTC可以对抗patch uniformity和提高弱监督语义分割（WSSS）伪标签的质量。

提出了Class Token Contrast (CTC)，对比了全局前景和局部不确定区域（背景）的表示，并促进了CAM中对象活动的完整性。

二、方法

本文提出的ToCo在ViT encoder中使用一个辅助的分类层来产生辅助的CAM，辅助CAM生成生成伪标签并指导PTC模块。同时，它还为CTC模块生成proposals来裁剪正负局部图像。最终的CAM来自于一个分类层并用于生成最后的伪标签。

1、Patch Token Contrast

生成token label Y m Y^m Ym用于导出可靠的成对关系，用于设计可靠的pairwise关系来监督最后的patch tokens。

如果两个tokens共享相同的语义标签，它们被标记为positive pairs，否则被标记为negative pairs。同时，为了保证可靠性，只考虑两个tokens属于前景或背景区域而忽略不确定区域。

为了解决over-smoothing问题，两个最后的patch tokens属于positive pairs则最大化相似性，否则最小化。

2、Class Token Contrast

用PTC解决过over-smoothing问题可以驱动ViT以生成显著的CAM和伪标签。然而，仍然有一些判别力较弱的对象区域在CAM中很难区分。受ViT中提出的class tokens能聚合高层语义的启发，设计了CTC模块促进局部非显著区域和全局对象之间的表示一致性，这可以进一步强制CAM中激活更多的对象区域。

通过辅助CAM从不确定区域随机crop local images（固定数量）。通过最小化global和local class tokens之间的差异，整个object regions的表示可以更加一致。

为了抵消裁剪的局部图像可能包含很少/不包含前景对象，最大化全局图像和局部背景区域的class tokens之间的差异，也可以促进前景-背景的差异。

然后，将global and local class tokens 通过projection head P g 和 P l P^g和P^l Pg和Pl 。