RePr 展示一种周期性移除与取回卷积滤波器的训练策略, 通过减少冗余的学习特征, 改进模型的泛化能力. 对常规卷积网络和更复杂的现代深度学习网络架构都很有效, 在多种任务上的准确率都有所提升, 甚至小模型也有不错的效果.
论文地址:
https://arxiv.org/pdf/1811.07275.pdf
正交特征
卷积特征是多个独立卷积核激活的线性组合, 如果一个卷积特征能改善模型的泛化能力, 可以认为这个卷积特征是有效的. 卷积特征的有效方向越多, 对特征空间的表达能力就越强, 泛化能力就越好. 在过去, 我们都尝试使用正则化减少激活特征的相关性, 但是效果的改进很有限.
最近的研究成果表明, 权重的正交性可以改善模型训练收敛的稳定程度, 并有效加速模型的训练速度. 本文在卷积网络 (ConvNet) 引入正交特征, 并初步形成特征正交性排名的准则. 实验表明, 通过正则化代价函数项, 对权重正交性改善有限, 卷积特征不足以表达整个输入数据的流形空间. 提出临时移除重复滤波器策略作为一种类似正则化的方法, 在不影响模型收敛的情况下, 带来很好的特征正交性.
模型大小与特征相关性
过去我们认为小模型精度不足的原因是权值参数过少, 导致卷积特征少无法表达特征空间. 因此 VGG-16 网络在 CIFAR-10 数据集上训练形成的相关冗余特征应该远多于 ConvNet 等小模型. RePr 利用典型相关分析 (CCA) 研究 ConvNet 卷积层的特征相关性, 发现任何滤波器间的相关是训练方法效率不够, 而不是过参数化导致的. 通过移去特定滤波器, 验证此滤波器对模型效果的贡献, 在测试集上考察该情况模型的精度来评估.
CCA 分析 ConvNet 的卷积滤波器相关性
训练策略
RePr 的训练流程比较简单, 训练整个网络后根据内部滤波器正交性 (Inter-Filter Orthogonality) 暂时屏蔽 30% 的滤波器, 继续调优网络参数. 把屏蔽掉的滤波器取回再次训练剩下的网络, 与现有滤波器组合正交方式实现重新初始化, 迭代重复该过程多次.
RePr 训练策略
Inter-Filter Orthogonality
Greedy Oracle 不一定是寻找最差的滤波器度量最好的标准, 而且在大型网络中计算存在困难. 因此 RePr 设计了内部滤波器正交性, 作为滤波器相关性排名的度量. 公式如下:
上式是一个层的多个卷积核的组合, 用矩阵表示为 . 对 归一化后, 与其转置相乘得到(大小为). 第 i 行是其他滤波器对第 i 个滤波器的投影, 即相关性, 正交性越大值就越小, 此行的总和亦越小, 因此可以用于滤波器的排名.
实验结果
标准训练方案和 RePr 的性能对比
上图是标准训练方案和 RePr 方法在三层 ConvNet 网络上, CIFAR-10 数据集中的性能对比. 图中 A 点进行第一次重复滤波器移除. C 点表示此时模型在测试集的准确率, 测试集的准确率下降幅度, 比在训练集的下降幅度要小, 毕竟训练集具有过拟合现象. D 点上测试集准确率已经基本和 C 点相近, 但此时的滤波器只有原来的 70%, 这与最近剪枝工作成果结论一致. 取回 30% 的滤波器进行正交重初始化并训练到 E 点时, 测试准确率已经远超标准训练方案的效果.
RePr 在目标检测的效果
RePr 在 VQA 任务的效果
作者在其他任务上对 RePr 进行对比实验, 发现效果都有所提高.
结论
RePr 训练策略周期性地移除和取回表达力过低的滤波器, 移除低质量的滤波器, 有利于 RePr 在剩余滤波器中重新发现新的特征. 当重新取回低质量滤波器, 并进行正交重初始化和继续训练后, RePr 能使模型容量的分配更加稳定有效.
来源: http://www.jianshu.com/p/087192516e9e