历时九天,我们收到了近千份有效读者投票,2017 年度最值得读的 AI 论文评选也正式结束.我们根据读者的投票情况,选出了 自然语言处理 和计算机视觉领域 "2017 年最值得读的十大论文".让我们一起来看看过去一整年,在 PaperWeekly 读者心中排名前十的计算机视觉论文都有哪些?还有给我们留言的读者,在表达对这十篇论文的喜爱之情时都说了些什么?此外,小编也在所有留言中选出了自己最钟意的五条,还在所有成功参与投票的读者中随机抽取了 13 位,他们都将获得 PaperWeekly 精心准备的新年礼物.
论文 | Mask R-CNN
链接 | https://www.paperweekly.site/papers/672
源码 | https://github.com/CharlesShang/FastMaskRCNN
Mask R-CNN 是 ICCV 2017 的最佳论文.Faster R-CNN 用于目标检测,FCN 用于物体分割,概念基本深入人心.本文提出一个高效实体分割 + 目标检测 + 关键点检测框架,各任务之间并行实现,速率 5fps(在单 GPU 运行时间是 200ms / 帧,使用 8 GPU 卡,在 COCO 数据集训练只需要 2 天时间),模型简洁,没有靠 trick 提升性能,网络框架主体就是 Faster R-CNN+FCN.实体分割需要正确检测图片所有的物体并实现像素级分割.在论文之前的实现方式是分割之后做分类,而 Mask-RCNN 的检测和分割是并行出结果.该网络还很容易扩展到其他领域,像目标检测,分割和人物关键点检测等任务.
site/
Mask R-CNN 阅读笔记
https://www.paperweekly.papers/notes/222
论文 | Image-to-Image Translation with Conditional Adversarial Networks
链接 | https://www.paperweekly.site/papers/1401
源码 | https://github.com/phillipi/pix2pix
将 GAN 的对抗 loss 引入有监督图像转换任务的经典之作.原有的传统图像转换任务中 L1,L2 等人工设计的损失函数并不能产生令人满意的视觉效果,本文提出的 pix2pix 模型则借助了条件判别网络来充当一个隐式的损失函数,让它在与生成网络对抗的过程中超越人工设计的损失函数,取得良好的视觉效果.本文提出的 PatchGAN 要求判别网络只对图像的一小块区域进行判别,专注捕捉高频信息,这也成为后续很多图像转换论文的常见做法.
论文 | A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection
链接 | https://www.paperweekly.site/papers/314
源码 | https://github.com/xiaolonw/adversarial-frcnn
遮挡和形变在物体检测中是很难的一类样本,而它们又具有长尾性,即使收集一个很大的数据集也很难涵盖不常见的情况.本文提出用 GAN 来生成遮挡和形变的样本,这是第一篇将 GAN 引入物体检测的文章.这两类样本的生成都是在特征层面,而不是在图片层面.对于遮挡,作者采用一个 ASDN 网络,它的目标是对 ROI-pooling 的特征生成一个 mask,通过 mask 遮挡掉部分特征,以骗过分类器.类似的,对于形变,通过 STN 网络在一定范围内生成一组旋转,缩放,平移的参数,再作用到特征上,使得分类器分错.而分类器的目标是尽可能地避免被这两类生成样本欺骗.ASDN,ASTN 和 Fast-RCNN 可以联合训练,以避免在某些固定的生成模式下过拟合.实验表明,A-Fast-RCNN 在 VOC07 和 12 的数据上都有 2% 以上的 mAP 提升.
论文 | Bayesian GAN
链接 | https://www.paperweekly.site/papers/1102
源码 | https://github.com/andrewgordonwilson/bayesgan/
本文将贝叶斯公式引入到做无监督和半监督学习的 GAN 模型中,采用哈密顿蒙特卡罗随机梯度算法优化生成器和判别器.作者指出,在不需要 feature matching 和 mini-batch discrimination 等 tricks 的情况下,能够取得不错的分类性能.此外,Bayesian GAN 还能避免模式坍塌(mode collapse).文章在 SVHN,CelebA 和 CIFAR-10 等数据集上取得了 state-of-the-art 的半监督分类效果.
论文 | Interpretable R-CNN
链接 | https://www.paperweekly.site/papers/1215
源码 | 暂无
本文使用 R-CNN 展示了一种学习定性可解释模型的方法.R-CNN 由一个区域建议网络和一个感兴趣区域预测网络(RoI,Region of interest)组成.通过使用可解释的模型,可在检测中(对任何部分都不使用监督的情况下)自动地,同步地学习展开目标实例的隐藏部分结构.本文还提出了一种 AOG 解析算子来取代 R-CNN 中常用的 RoI 池化算子,因此该方法可以适用于很多基于卷积神经网络的顶尖目标检测系统.在实验中,作者在 R-FCN 之上创建模型并在 PASCAL VOC 2007, PASCAL VOC 2012 数据集上进行测试,最终的性能与目前最先进的方法具有可比性.
论文 | Learning Feature Pyramids for Human Pose Estimation
链接 | https://www.paperweekly.site/papers/1325
源码 | https://github.com/bearpaw/PyraNet
本文是香港中文科技大学王晓刚教授团队之作,目前在 MPII 官网 Single Person 领域,PCKh @ 0.5 evaluation measure,取得 state-of-the-art 水平. 论文在 Stacked Hourglass 基础上,提出 Pyramid Residual Module,金字塔残差模块,通过学习 DCNNs 中的特征金字塔来增强深度模型的尺度的不变性,而模型复杂度只有很小的增加.本文针对具有多个输入或多个输出分支图层的 DCNNs 初始化问题,提出了有效的初始化方案,可用于 inception 和 ResNets 等模型.此外,本文还解决了由 identity mapping 引起的激活方差积累的问题.
来源: https://yq.aliyun.com/articles/419557