ICLR 2018 年的接收的论文已经 release 出来很久了, 链接: chillee.github.io/OpenReviewE
最近整理了其中一些论文的摘要和官方评价做了翻译整理和分类, 涉及分布式训练模型压缩模型训练优化生成式模型等, 分享给大家, 感兴趣的可以看看, 了解下学术界前沿的研究热点
分布式训练
Deep Gradient Compression: Reducing the Communication Bandwidth for Distributed Training
摘要: 大规模分布式训练需要大量的通信带宽用于梯度交换, 这限制了多节点训练的可扩展性, 并且需要昂贵的高带宽网络基础设施在移动设备上进行分布式训练 (联合学习, federated learning) 时, 情况会变得更糟, 这种情况会导致延迟更高吞吐量更低以及间歇性连接不良等问题本文发现分布式 SGD 中 99.9 % 的梯度交换是冗余的, 并提出了深度梯度压缩 ( DGC ) 来大大降低通信带宽为了在压缩过程中保持精度, DGC 采用了四种方法: 动量修正局部梯度裁剪动量因子掩蔽和预热训练在 cifar 10ImageNetPenn Treebank 和 Librispeech 语料库等多个数据集上, 我们将深度梯度压缩应用于图像分类语音识别和语言建模在这些场景中, 深度梯度压缩实现了从 270 到 600 倍的梯度压缩比而不损失精度, 将 ResNet-50 的梯度大小从 97MB 减少到 0.35 MB, 将深度语音的梯度大小从 480 MB 减少到 0.74 MB 深度梯度压缩实现了在廉价的商用 1Gbps 以太网上的大规模分布式训练, 并有助于移动设备上的分布式训练
ICLR 官方评价: 本文提出了一种面向大规模分布式联合训练的深度网络混合训练系统这一问题引起了广泛的兴趣, 这些方法有可能产生重大影响, 对这项工作的积极和有趣的讨论证明了这一点起初有人质疑这项研究的原创性, 但似乎作者现在增加了额外的参考和比较
评审人对论文本身的清晰度意见不一有人指出, 总的来说很清楚, 但另一个人认为它过于密集杂乱无章, 需要更清楚的解释评审人员还担心, 这些方法有点启发式, 可以从更多细节中获益论坛上也有很多关于这些细节的问题, 这些问题应该会在下一个版本中得到解决这项工作的主要亮点是实验结果, 评审人称之为彻底, 并指出它们令人信服
模型压缩
Model compression via distillation and quantization
摘要: 深层神经网络 ( DNNs ) 在解决图像分类翻译和强化学习等问题上不断取得重大进展受到相当关注的领域的一个方面是在诸如移动或嵌入式设备等资源受限环境中高效地运行深度学习模型本文针对这一问题, 提出了两种新的压缩方法, 将较大的教师网络的权重量化和抽取联合应用到较小的学生网络中我们提出的第一种方法称为量化抽取 (quantized distillation), 在训练过程中利用抽取, 将抽取损失(相对于教师网络表示) 结合到学生网络的训练中, 该学生网络的权重被量化到有限的一组水平第二种方法是可微量化, 通过随机梯度下降发优化量化点的位置, 以更好地拟合教师网络模型的行为通过卷积和递归结构的实验验证了这两种方法的有效性实验结果表明, 量化后的浅层学生网络可以达到与全精度教师网络模型相似的精度水平, 同时实现了数量级的压缩和深度网络推理呈线性加速总之, 我们的结果使资源受限环境的 DNNs 能够利用在功能更强大的设备上开发的体系结构和准确性改进
ICLR 官方评价: 该论文提出了一种新的量化方法该方法相当简单, 并总结在算法 1 中更有趣的是, 分析表明量化与加高斯噪声 (附录 B ) 之间的关系激励量化作为正则化
该论文具有经验和理论结果的合理混合, 激励了一种易于实现的算法所有三名审查人员都建议接受
Apprentice: Using Knowledge Distillation Techniques To Improve Low-Precision Network Accuracy
摘要: 深度学习网络在图像分类和目标检测等计算机视觉工作应用方面已经取得了最优的精度然而, 性能系统通常涉及具有许多参数的大模型一旦训练完毕, 这种性能最好的模型的一个具有挑战性的方面是在资源受限的推理系统上进行部署 - 这些模型 (通常是较深的网络或较宽网络或两者都具备) 是计算和内存密集型的低精度数值计算和使用知识抽取的模型压缩是降低这些需要部署的模型的计算要求和内存占用的常用技术本文对这两种技术的结合进行了研究, 结果表明利用知识抽取技术可以显著提高低精度网络的性能我们将我们的方法称为学徒(Apprentice), 并在 ImageNet 数据集上使用三进制精度和 4 位精度来显示最先进的精度我们研究了三种方案, 在这三种方案中, 人们可以将知识抽取技术应用于训练和部署 pipeline 的各个阶段
ICLR 官方评价: 本文将低精度计算与不同的 teacher-student 知识抽取方法相结合实验结果良好, 实验分析良好写得很清楚其主要贡献在于不同形式的 teacher-student 知识抽取方法与低精度 quantization 方法相结合
专业人士:
- 良好的实际贡献
- 好的实验
- 很好的分析
- 写得好
缺点:
- 创意有限
Alternating Multi-bit Quantization for Recurrent Neural Networks
摘要: 递归神经网络在许多应用中取得了良好的性能但是, 在资源有限的便携式设备上, 模型通常太大而无法部署对于服务器上具有大规模并发请求的应用程序, reference 期间的延迟对于昂贵的计算资源也可能非常关键在本工作中, 我们通过将网络的权重和 activation 量化为多个二进制码 { -1,+1}, 来解决这些问题我们把量化表述为一个优化问题在量化系数固定的情况下, 通过二进制搜索树可以有效地导出二进制码, 然后采用交替最小化方法我们在语言模型上测试了两个著名的 rnn 模型的量化, 即长短期记忆单元( LSTM ) 和门限递归单元 ( GRU ) 与全精度计数器部分相比, 通过 2 位量化, 在 CPU 上实现了约 16x 的内存节省和约 6x 的实际推理加速, 精度损失较小通过 3 位量化, 我们可以获得几乎没有损失的精度, 甚至超过原来的模型, 节省了约 10.5 倍的内存和约 3 倍的实际推理加速这两个结果都以较大的倍数击败了现有的量化工作我们将交替量化扩展到图像分类任务在 RNNs 和前馈神经网络中, 该方法也取得了良好的性能
ICLR 官方评价: 评审人员一致认为, 这篇文章值得在 ICLR 上发表请回答评审人员的反馈, 并在附录中详细讨论如何计算潜在的加速率我加快了不同设备的速率
Variational Network Quantization
摘要: 本文将剪枝和少比特量化神经网络的构造问题归结为一个变分推理问题为此, 引入了一种量化先验, 该先验导致多模态稀疏的权值后验分布, 并导出了该先验的可微 Kullback - Leibler 散度近似经过变分网络量化训练后, 权重可以被确定性量化值代替, 相关任务精度损失很小或可以忽略 (包括通过将权重设置为 0 进行修剪) 该方法不需要在量化之后进行微调给出了 LeNet - 5 ( MNIST )和 Densent ( CIFAR - 10 )的三值量化结果
ICLR 官方评价: 本文提出了一种变分贝叶斯方法来量化神经网络权值, 并在现在日益流行的深度学习领域中提出了有趣而有用的步骤
模型优化
On the Convergence of Adam and Beyond
摘要: 最近提出的几种随机优化方法已经成功地用于训练深层网络, 例如 RMSPropAdamAdadeltaNadam, 这些方法基于梯度进行更新, 梯度更新的幅度由过去梯度平方的指数移动平均值控制在许多应用中, 例如针对具有大输出空间的学习任务, 经验上观察到这些算法未能收敛到最优解 (或非凸场景下的临界点) 我们证明了这种失败的原因之一是算法中使用的指数移动平均本文给出了一个 Adam 不收敛于最优解的简单凸优化场景的例子, 并通过前面对 Adam 算法的分析, 准确的描述了这个问题我们的分析表明, 可以通过赋予这类算法过去梯度的长期记忆来解决收敛问题, 并提出了 Adam 算法的新变型, 这种新变型不仅解决了收敛问题, 而且使得性能得到很大的提升
ICLR 官方评价: 本文分析了 Adam 的收敛性问题, 并给出了一个解决方案本文指出了 Adam 收敛问题中的一个错误(也适用于相关方法, 如 RMSProp ), 并给出了一个无法收敛的简单示例然后, 在不引入大量计算或内存开销的情况下, 在保证收敛的条件下修复该算法本文中有很多有趣的地方: Adam 是一个被广泛使用的算法, 但有时在某些问题上表现不如 SGD, 这可能是解释的一部分解决办法既有原则, 又切合实际总的来说, 这是一篇很强的论文, 我建议接受
SGD Learns Over-parameterized Networks that Provably Generalize on Linearly Separable Data
摘要: 当网络参数超过观测值时, 神经网络具有良好的泛化性能然而, 目前神经网络的泛化边界无法解释这一现象为了弥补这一不足, 我们研究了当数据由线性可分函数生成时, 两层超参数神经网络的学习问题在网络存在 Leaky ReLU 激活的情况下, 我们为参数化网络提供了优化和泛化保证具体地说, 我们证明了 SGD 的收敛速度是全局最小值, 并为这个全局最小值提供了与网络规模无关的泛化保证因此, 我们的结果清楚地表明, 使用 SGD 进行优化既能找到全局最小值, 又能避免模型容量过大时的过拟合这是 SGD 在学习过指定的神经网络分类器时, 能够避免过拟合的首次理论证明
ICLR 官方评价: 这是一份高质量的论文, 字迹清楚, 高度原创, 意义明确本文对二层网络中的 SGD 进行了完整的分析, 其中的第二层网络不进行训练, 数据是线性可分的实验结果验证了理论假设, 即只要权值符号不改变并保持有界, 就可以训练第二层网络作者讨论了审评员的主要关切的点 (即, 假设这些结果是否具有指示性) 这一系列的工作似乎很有希望
Fraternal Dropout
摘要: 递归神经网络 ( RNNs ) 是用于语言建模和序列预测的一类重要的神经网络模型然而, 优化 RNNs 比优化前馈神经网络更难文献中已经提出了许多技术来解决这个问题本文提出了一种简单的技术, 称为 Fraternal Dropout, 利用 dropout 来实现这一目标特别是, 我们建议训练具有不同 dropout 值的 RNN (共享参数)的两个相同副本, 同时最小化它们 (进行 softmax 操作之前的) 预测值之间的差异通过这种方式, 我们的正则化操作鼓励 RNNs 的表示对于不同的 dropout 值是不变的, 因此是鲁棒的我们证明了我们正则化项的上界是期望线性 (expectation-linear)dropout 目标函数, 这种期望线性 dropout 目标(object) 解决了由于 dropout 在训练阶段和推理阶段的不同而产生的差距我们对我们的模型进行了评估, 并在两个基准数据集 ( Penn Treebank 和 Wikitext - 2 ) 上, 取得了序列建模任务的最优结果我们还证明, 我们的方法可以显著提高图像标注 ( Microsoft COCO ) 和半监督 ( CIFAR - 10 ) 任务的性能
ICLR 官方评价: 本文研究了一种 dropout 的变体, 称为 fraternal dropout 该方法与期望线性 dropout 密切相关, 因此具有一定的增量性尽管如此, fraternal dropout 确实将 PTB 和 wikitext 2 上语言模型最优结果提高了约 0.5 - 1.7 个 perplexity 这篇论文写得很好, 技术上看起来很好
一些评审员抱怨说, 作者可以对 fraternal dropout 模型进行更仔细的超参数搜索作者似乎已经部分解决了这些问题, 坦率地说, 我也不太同意通过只进行有限的超参数优化, 作者将他们自己的方法置于不利地位如果有的话, 他们的方法尽管有这种缺点 (与非常强的 base 模型相比) 却获得了很强的性能, 这是一个支持 fraternal dropout 的理由
Adaptive Dropout with Rademacher Complexity Regularization
摘要: 我们提出了一种基于 Rademacher complexity bound 的深度神经网络 dropout 自适应调整框架现有的深度学习算法采用 dropout 来防止特征学习过拟合情况然而, dropout 的选择仍然是启发式的方式, 或者依赖于对某些超参数空间的经验的网格搜索本文证明了网络的 Rademacher complexity 是由一个与 dropout rate 和权重系数矩阵 (weight coefficient metrics) 相关的函数来定义的随后, 我们将这一约束作为正则化项, 并提供了一种在模型复杂性和表达能力 (representation power) 之间进行权衡的理论上合理的方法因此, dropout 和经验损失被统一为相同的目标函数, 然后使用块坐标下降算法 (block coordinate descent algorithm) 进行优化我们发现自适应调整的 dropout 会收敛到一些有趣的分布, 这些分布揭示了一些有意义的模式 (pattern) 在图像和文档分类相关的实验也表明, 与现有的 dropout 算法相比, 该方法具有更好的性能
来源: https://juejin.im/entry/5aa0ad08518825557b4c49ee