目标跟踪的相关滤波方向, Martin Danelljan 4 月底在 arXiv 上挂出来的最新论文:
Bhat G, Johnander J, Danelljan M, et al. Unveiling the Power of Deep Tracking [J]. arXiv preprint arXiv:1804.06833, 2018.
https://arxiv.org/pdf/1804.06833.pdf
这次 MD 大神不是一作, 看论文排版应该是投 ECCV 2018 的, 目前没有开源代码, 论文方法没有命名, 这里用 ECO + 代表.
简单概要
论文是对 ECO 的改进, deep tracker 无法受益于更好更深 CNN 的深度特征, 针对这一反常现象, 实验和分析表明这主要是由于浅层特征 (shollow feature) 和深度特征 (deep feature) 的特性差异, 两种特征分而治之, 深度特征部分加入了数据增强 (data augmentation) 增加训练样本数量, 用不同 label function, 浅层特征正样本更少, 深度特征正样本更多. 两部分响应图自适应融合, 提出了可以同时反映准确性 accuracy 和鲁棒性 robustness 的检测质量估计方法, 基于这个质量评估, 最优化方法自适应融合两部分的响应图, 得到最优的目标定位结果. 实验结果在各个测试集上都是目前最好.
问题分析
性能: 自从 MD 大神的 C-COT 和 ECO 出现之后, 相关滤波最近一年半没有较大突破, VOT2017 前十名中, 有一半以上都是在 C-COT 和 ECO 的基础上改进的, 即使 CVPR 2018 也没有看到能全面超过 ECO 的论文, ECO 到目前依然是难以逾越的高峰, 这个方向是不是已经做到头了?
复杂: 相比最初的 KCF 简洁明快, 几行代码做到 SOTA, 如今的 ECO 已经复杂庞大到难以置信, 各种优化和 trick 堆积, MD 大神的码力和数学功底让人叹服, 菜鸡如我已经看不懂 ECO 的源码, 在深度学习提倡 END2END, 训练解决一切问题的年代, ECO 确实做不到简单高效, 这种框架是不是该抛弃?
速度: VGGNet 作为 backbone 的深度特征, GPU 上无法实时, 换 backbone 或许可以缓解, 但相比 Staple,ECO-HC 和 CSR-DCF, 仅 hand-craft feature(HOG+CN) 的相关滤波也能做到 SOTA, 超过绝大多数深度学习的 tracker, 还能保持在 CPU 上实时速度, 深度特征 + 相关滤波是否有实用价值?
时隔一年半, 这篇论文告诉我们 MD 大神还在坚持, 还有的做, 发现问题解决问题.
ECO 还存在哪些问题呢?
昂贵的深度特征与廉价的手工特征, 性能上没有拉开差距, 速度却被碾压, 深度特征的能力好像没有发挥出来
VOT2017 中有人尝试了 VGGNet 换成更好的 GoogLeNet 和 ResNet, 但没有像其他方向一样带来性能方面的巨大提升, 这违背了深度学习领域网络越大越深性能越好的基本法则, deep tracker 无法从更深的 CNN 中获益
论文对比分析了深度特征和浅层特征:
深度特征 Deep Feature: 主要是 CNN 的高层激活, 典型 VGGNet 的 layer 5. 优点是包含高层语义, 对旋转和变形等外观变化具有不变性, 何时何地都能找到目标, 即鲁棒性很强; 缺点是空间分辨率低, 对平移和尺度都有不变性, 无法精确定位目标, 会造成目标漂移和跟踪失败, 即准确性很差.
浅层特征 Shollow Feature: 主要是手工特征如 RGB raw-pixel, HOG, CN, 和 CNN 的低层激活, 典型 VGGNet 的 Layer 1. 优点是主要包含纹理和颜色信息, 空间分辨率高, 适合高精度定位目标, 即准确性很强; 缺点是不变性很差, 目标稍微形变就不认识了, 尤其是旋转, 一转就傻逼, 即鲁棒性很差.
ECO + 对 ECO 的核心改进是两种特征区别对待, 分而治之, 深度特征负责鲁棒性, 浅层特征负责准确性, 两种检测响应图在最后阶段自适应融合, 目标定位最优化, 兼具两者的优势.
如下图, ECO 无法获益于更深更好的 CNN, 但新论文方法 ECO + 可以.
具体方法 -- 分
数据增强 Data Augmentation: 通用目标跟踪的难点在于需要跟踪各种各样的目标, 而且仅第一帧是 ground truth, 其他训练样本都是 tracker 自己产生的, 训练样本严重匮乏 data-hungry, 尤其是在深度学习需要大数据支撑. 在 CNN 训练中, 解决训练样本不足问题常用 Data Augmentation 方法扩充训练集, 如多尺度的随机裁切, 随机翻转, 颜色抖动等.
ECO + 测试了几种 Data Augmentation 方法在 ECO 框架中的作用, 包括:
Flip: 水平翻转
Rotation: 从 - 60° 到 60° 的固定 12 个角度旋转
Shift: 水平和竖直平移 n 像素再提取特征, 等价于 feature map 平移 n/s 像素, s 是步进
Blur: 高斯滤波模糊, 模拟跟踪场景中常见的运动模型和尺度变化
Dropout: 通道级的 dropout, 随机 20% 的 feature channel 置为 0, 其余通道放大以保持样本能量
以上 Data Augmentation 分别用于浅层特征和深度特征, 结果如图 (a):
用于深度特征都有明显提升, Blur 提升最多 4%, 除了 Shift 其他都在 1% 以上, 而用于浅层特征全都下降了, 也是 Blur 最多, 论文解释是: 深度特征反映的语义信息, 对这些 Data Augmentation 都有不变性, 能从增加的样本获益, 而浅层特征反映的纹理信息会剧变, 扰乱 tracker 伤害性能.
标签函数 Label Function: 相关滤波的训练样本来自目标扩展区域, ground truth 是高斯分布, 中心部分接近 1 是正样本, 边缘部分接近 0 是负样本, 正负样本比例通过高斯函数的标准差 delta 控制, 标准差越大正样本越多.
在 ECO 中, 深度特征和浅层特征的高斯标签函数相同, ECO + 提出要区别对待, 实验结果如上图 (b), 深度特征标准差 1/4 最好, 浅层特征标准差 1/16 最好. 通过标签函数增加的正样本等价于平移数据增强, 所以论文解释是: 深度特征对小平移的不变性, 同上从增加的正样本获益, 深度特征更应该关注鲁棒性; 小平移会使 feature map 差异巨大, tracker 无法处理大量有差异的正样本, 浅层特征更应该关注准确性.
深度特征和浅层特征的区别对待, 论文中就用了 Data Augmentation 和 Label Function 两种方法, 以 ResNet-50 + ECO 为例, 加入数据增强 Aug 提升 5.3%, 加入宽标签函数 sigma 提升 4.3%, 两者结合提升 5.8%, 非常明显, 证明深度特征可以受益于数据增强和宽标签函数.
不同 CNN 架构下 ECO 与 ECO + 的对比, ECO + 提升明显, 测试的 CNN 架构包括最常用的 VGG-M, 更好的 GoogLeNet 和更好更深的 ResNet-50:
具体方法 -- 合
预测质量评估 Prediction Quality Measure: 响应图能反映目标定位的准确性和鲁棒性, 准确性与预测目标周围的响应锐利程度有关, 主峰越尖表示准确性越高; 鲁棒性与主峰到干扰峰 (次峰) 的间隔有关, 主峰到次峰的距离越大表示鲁棒性越高. 论文提出了能同时反映准确性和鲁棒性的响应图质量评估方法:
t 表示响应位置, y(t) 表示响应值, t * 是主峰, t 是干扰峰. 分子部分表示尖锐程度, 主峰与次峰峰值差越大质量越高; 分母部分表示位置间隔, delta 是二次连续可微函数, 间隔很近是 0, 间隔很远是 1. 论文分别就 t * 和 t 位置接近和远离两种情况做了分析, 都表明这个质量评估都可以同时反映准确性和鲁棒性.
自适应融合的目标定位: ys 和 yd 分别表示浅层和深度特征的响应分数, 加权融合:
基于前面提出的预测质量评估方法, 以最大化预测质量为目标, 联合优化加权系数 beta 和目标状态 t*, 最小化 loss:
加入正则项, 引入松弛变量:
求解该问题, 采样有限组候选状态, 每个都是三个变量的 QP 问题, 计算量增加很少.
实验对比 ECO 响应图融合方法, 固定权重求和的融合方法和论文提出的自适应融合方法对比:
自适应融合效果最好, 深度特征部分的权重在形变和模糊时变高, 与预期一致.
实验结果
所有超参数都是在 OTB-2015 的 23 个难例子集构成的验证集 OTB-H 上调参得到的, 其余 73 个较简单的序列构成 OTB-E, 其他所有实验用固定参数, 没有调参和过拟合.
在 NFS, Temple128 和 UAV123 上的结果, 都是最好:
在 VOT-2017 上的结果, 对比了榜单前十, 超过最好的 LSART 17%,LSART 发表在 CVPR 2018, 是目前所能看到的 VOT-2017 最好结果, 大部分 CVPR 2018 论文没有跑 VOT-2017:
在 VOT-2016 上的结果, 对比了所有已发表结果, 包括所有 SOTA 结果, 甚至目前能看到的 CVPR 2018 的 SA-Siam, VITAL, LSART, FlowTrack, 超过目前最好结果 ECO 18%:
最后是 OTB-2017 剩余测试集 OTB-E 的结果:
总结
ECO + 从研究 deep tracker 为什么无法从更好更深的 CNN 获益这一问题开始, 研究发现深度特征和浅层特征表现出截然不同的特性, 先分后合的处理方法:
分, 区别对待, 深度特征负责鲁棒性, 浅层特征负责准确性, 数据增强和宽标签函数对深度特征提升巨大
合, 自适应融合, 提出质量评估方法, 以最大化融合质量为目标函数, 最优化方法同时获得深度特征的鲁棒性和浅层特征的准确性
ECO + 基本跑了所有的测试库, 全都做到了最好结果, 比较了包括 CVPR 2018 在内的所有 SOTA 结果, 无疑这是一篇刷新目标跟踪新高度的论文, 期待 ECO + 在 VOT-2018 的表现.
目前没看到代码, 有几个疑问点:
速度方面没有提, 论文仅提了质量评估和自适应融合部分计算增加不大, 但数据增强会严重增加提取深度特征的负担, 每个扩展样本都要一次 CNN forword, 应该会非常非常慢, 不知道有没有做相应优化
ECO + 可以从更好更深的 CNN 获益, 最多测试了 ResNet-50, 不知道更深更好的 ResNet-100,ResNet-152 甚至 Inception-ResNetV2 会不会带来进一步提升
深度特征最大的问题是空间分辨率太小, 是否可以自己搭个 stride=4 或 stride=1 的 CNN, 保持深层激活图的 feature map 不要太小, 但通道数适当减少以保证速度, 是否更有利于检测和跟踪问题
没有代码加强行翻译, 如有理解偏差欢迎指出
END
来源: http://www.bubuko.com/infodetail-2734655.html