600字范文 > 《Matrix Nets：A New Deep Architecture for Object Detection》论文笔记

《Matrix Nets：A New Deep Architecture for Object Detection》论文笔记

时间：2019-02-01 00:47:17

相关推荐

【RDSNet】《RDSNet：A New Deep Architecture for Reciprocal Object Detection and Instance Segmentation》
【论文笔记】Deep Neural Networks for Object Detection
A Unified Multi-scale Deep Convolutional_Neural Network for Fast Object Detection 论文笔记
论文笔记-DeepLung: Deep 3D Dual Path Nets for Automated Pulmonary Nodule Detection and Classification

代码地址：暂无

1. 概述

导读：这篇文章提出的新的目标检测网络叫做Matrix Nets（该方法是基于关键点的检测算法），这篇文章比较有意思的一点是充分考虑了CNN特征size与aspect对目标检测带来的影响，因而扩大了特征空间使得检测网络的性能得以提升。该网络通过在网络结构的不同层中找到匹配目标的不同size与aspect ratio从而提升检测性能，而这些单独的网络层中size与aspect ratio是统一的，也就是检测网络会选择最适合目标的特征层来检测目标，这样就具有了很好的尺度与长宽比例鲁棒性。使用这个机制这篇文章的算法在MS COCO数据集上获得了47.8%的mAP，而且参数量自由一半，训练速度快了3倍。

这篇文章在FPN对尺度鲁棒（特征 size）的基础上使用MatrixNets增加对于长宽比例（特征 aspect ratio）的鲁棒，文章这样的网络结构能够迁移到其它的backbone网络结构上去，其性能与当前的一阶段检测算法相比见图1所示：

2. 方法设计

2.1 网络结构

这篇文章的算法其结构大致如图2中（b）图所示，对角线上的部分组成的是网络其结构就是FPN结构，在多角线的每个节点上回横向和纵向延伸（分别对应不同的宽高比例），从而构建了一了类似矩形的结构。

2.2 层的生成

在矩阵结构的网络层中，其在横向和纵向方向的延伸是通过一系列的3∗33*33∗3的卷积实现的，横向与纵向不同的是其stride参数，一个是1∗21*21∗2另外一个是2∗12*12∗1，分别对应两个方向上，而且这些卷积参数在每次下采样的过程中是共享的，这样可能减少引入的参数量。

网络层的感受野：

矩阵型的网络结构中的每一层是有其固有的目标尺度映射范围的，这个范围是与层的感受野大小相关的。当层l1,1l_{1,1}l1,1的范围被确定之后，后面的层就可以通过层之间的采样关系推算得到，比如l1,1l_{1,1}l1,1层，其高度上的范围是H∈[24px,48px]H\in [24px,48px]H∈[24px,48px]，宽度上的范围是W∈[24px,48px]W\in [24px,48px]W∈[24px,48px]，则对应的层l1,2l_{1,2}l1,2对应的表示范围是W∈[48px,96px]W\in [48px,96px]W∈[48px,96px]，H∈[24px,48px]H\in [24px,48px]H∈[24px,48px]。

由于位于边界上的目标其目标大小会由于分配的层变化导致训练不稳定，这里通过给范围的上下限设置缩放，文章中将其设置为0.8与1.3。

2.3 使用xNets的目标检测网络设计

文章首先分析了一下CornerNet，CornerNet是无anchor机制的检测算法，省掉了很多anchor设计上的trick，但是也存在如下的一下缺点：

1）CornerNet使用单个输出层去检测多种大小和长宽的目标。这就会导致对于大的目标，网络是不能使用常规卷积操作获取目标角点位置的有效信息的，为了解决这个问题，CornerNet引入了corner pooling操作（也就是水平与垂直方向的最大池化操作），这样虽然是的网络得以稳定，但是却因为池化操作了丢失信息。文中指出其在两个目标的一个边界上重叠的时候，梯度只会考虑最大的那个，这就会带来检测问题（使用xNets）；2）通过feature embedding完成左上与右下角点的匹配。在图片中目标较多的时候会使得计算量变大；由于embedding学习自身的原因使得检测大与具有相似外观的目标变得困难（取而预测中心解决）；3）由于上面两点的原因使得网络训练过程缓慢且不稳定，且为了稳定收敛需要大的batch，这就使得占用的显存很大；

基于Matrix Nets的角点目标检测：

在图3中展示了文章提出的基于角点的目标检测算法结构。

在上图中使用上一节中介绍的xNet作为backbone，对于每个matrix层都使用相同的输出子网络预测目标的左上角与右下角的heatmap与corner offset，以及目标的中心预测。对于每一层的预测结果使用中心预测结果进行角点的匹配，最后所有层的结果经过soft nms过程之后生成最后的检测结果。

Corner Heatmaps：

使用xNets保证了目标所需的感受野都在该层的表示范围内，因而这就不需要corner pooling操作了，直接常规卷积预测角点的heatmap，与CornerNet相同这里也是使用focal loss去实现类别均衡。

Corner Regression：

这里对于角点的坐标回归是映射到原始图像的尺寸上进行的，是使用的损失函数是L1损失函数。

Center Regression：

由于目标的宽高在xNets层中已经匹配到了，则目标中心的范围变小，这就使得目标中心的回归变得相对容易。当中心获得之后，则角点借由回归中心之间的关系实现角点之间的匹配，这里使用的回归损失函数是Smooth L1损失。