& 论文概述
论文地址: https://arxiv.org/abs/1711.06897
代码地址: https://github.com/sfzhang15/RefineDet
& 总结与个人观点
本文提出基于 single-shot refinement neural network 的检测器, 由 ARM 与 ODM 组成. ARM 用于过滤负 anchor 以减少分类器的搜索空间, 同时对粗略地调整 anchor 的位置以及大小为后续的回归器提供更好的初始化; ODM 将从前面的 ARM 得到的精修的 anchor 作为输入来回归精确的目标位置以及大小, 同时预测多响应的多类别标签. 整个网络使用多任务损失进行端到端的训练. RefineDet 在 PASCAL VOC 2007, PASCAL VOC 2012 以及 MS COCO 数据集上均取得了最优的检测精度同时高效. 之后计划使用 RefineDet 来检测其他特定的目标, 如行人, 车辆以及面部, 同时引入注意力机制获得更好的效果.
通过对整体结构的观察, 本文提出的 RefineDet 与 FPN 的结构相似, 与 FPN 的主要区别在于, FPN 在 bottom-top 方向的特征图中没有进入分类以及回归的子网, 而 RefineDet 则通过这种方式得到了 Refined anchor, 此外则是 TCB 模块的使用与 FPN 中的特征融合过程有些差别.
& 贡献
1, 提出使用 ARM 以及 ODM 的 one-stage 目标检测框架;
2, 设计 TCB 将 ARM 中的特征传递到 ODM 中, 以解决预测精确的目标定位, 大小以及类别标签等挑战性任务;
3, RefineDet 在 PASCAL VOC2007,PASCAL VOC2012 以及 MS COCO 数据集中取得了最优的性能.
& 拟解决的问题
问题: 实现优于 two-stage 方法的精度以及保持 one-stage 方法相较的效率.
分析:
One-stage 方法的检测精度普遍低于 two-stage 方法, 其中一个主要的原因是类别不平衡问题.
而近期用于解决该问题的方法诸如: Kong 等人在卷积特征上使用目标先验限制来减少目标的搜索空间; Lin 等重定义标准交叉熵损失使得训练更注重难例同时降低能够很好分类的样本的权重; Zhang 等设计 max-out 标签机制来减少样本不平衡带来的 false positive.
本文观点认为 two-stage 方法相比于 one-stage 方法主要有 3 个优势:
使用带有启发式采样的 two-stage 结构来解决类别不平衡问题
使用两步级联回归目标 box 参数
使用 two-stage 特征描述目标
& 框架及主要方法
1, Main Architecture:
整个网络主要有两个部分组成, ARM 以及 ODM, 其中 ARM 通过前景背景的得分过滤一些 negative anchor 以及使用回归损失粗略调整 anchor 的位置以及大小, 得到相对 refined anchor.ODM 将 refined anchor 作为输入进行精确的分类与回归操作. 其中使用到 TCB 将 ARM 中的特征传递到 ODM 中.
2, TCB(Transfer Connection Block)
主要是为了将上层特征融合到当前层中, 对 high_level 特征使用 deconv 得到与当前层相同的维度, 使用 element-wise sum 方法, 之后将结果输入到一个卷积层中 (文中提到: 此卷积层的作用是为了确保用于检测的特征的分辨力?).
3, Two-step Cascade Regression
当前的 one-stage 方法使用的都是一步回归, 即基于不同尺度的不同特征层来预测目标的 location 以及 size, 而这种方式在挑战性场景中尤其是检测小目标时是不精确的. 本文提出 two-step 级联回归策略: 在 ARM 中初次对 anchor 的 location 以及 size 进行调整, 以对 ODM 的回归进行更好的初始化.
每个特征图 cell 上定义 n 个 anchor boxes, 对每个特征图 cell 预测 refined anchor 相对于原始 anchor 的 4 个偏移以及 2 个置信得分用于表示前景类的概率. 在获得 refined anchor 后, 将其传入 ODM 的对应响应特征图中以进行分类以及精确定位.
4, Loss Function
其中 i 表示 anchor 的下标, pi 以及 xi 分别是第 i 个 anchor 是目标的概率以及 ARM 中该 anchor 的 refined 坐标, ci 以及 ti 分别是 ODM 中预测的类别以及对应坐标. li * 是 ground truth 类别, gi * 是其 location 以及 size.Narm 与 Nodm 分别是 ARM 与 ODM 中正 anchor 的数量. Lb 是交叉熵损失或 log 损失, Lm 是 softmax 损失. 当 Narm 或 Nodm 为 0 时, 对应的项为 0.
5, Experiment
(1) RefineDet 在 PASCAL VOC 2007,PASCAL VOC 2012 以及 MS COCO 数据集上与其他方法的对比.
结果显示 RefineDet 的最优性能超过表中枚举的方法.
(2) 消融实验: 对文中提到的三个方法分别是 negative anchor filtering,two-step cascade regression,transfer connection block 的作用对比.
& 思考与启发
整体说来, 这篇论文的主要创新点在前向传播的阶段使用了 two-step cascade regression 方法, 能够对原始的 anchor 进行 refine 操作. 整体结构还是与 FPN 神似.
来源: http://www.bubuko.com/infodetail-3287985.html