去年, 我们决定深入了解 Faster R-CNN, 阅读原始论文以及其中引用到的其他论文, 现在我们对其工作方式和实现方法有了清晰的理解.
我们最终在 Luminoth 中实现了 Faster R-CNN,Luminoth 是基于 TensorFlow 的计算机视觉工具包, 易于训练和监控, 支持多种不同的模型. 到目前为止, Luminoth 已经吸引了很大的关注, 我们在 ODSC Europe 和 ODSC West 的论坛中也介绍过这个项目.(ODSC,Open Data Science Conference, 专注于开源数据科学的会议).
基于开发 Luminoth 的工作和过去的报告, 我们认为把所有实现 Faster RCNN 的细节和相关链接整合到一篇博客中是一个不错的点子, 这对未来其他对此领域感兴趣的人会很有意义.
背景
Faster R-CNN 最早在 2015 年的 NIPS 发布. 其在发布后经历了几次修改, 这在之后博文中会有讨论. Faster-RCNN 是 RCNN 系列论文的第三次迭代, 这一系列论文的一作和联合作者是 Ross Girshick.
这一切始于 2014 年的一篇论文Rich feature hierarchies for accurate object detection and semantic segmentation(R-CNN), 其使用了称为 Selective Search 的算法用来提取感兴趣候选区域, 并用一个标准的卷积神经网络 (CNN) 去分类和调整这些区域. Fast R-CNN 从 R-CNN 演变优化而来, Fast R-CNN 发布于 2015 年上半年, 其中一种称为感兴趣区域池化的技术, 使得网络可以共享计算结果, 从而让模型提速. 这一系列算法最终被优化为 Faster R-CNN, 这是第一个完全可微分的模型.
框架
Faster R-CNN 的框架由几个模块部件组成, 所以其框架有些复杂. 我们将从高层次的概述开始, 之后会介绍不同组成部分的具体细节.
从一张图片开始, 我们将会得到:
一个边框列表
每个边框会被分配一个标签
每对标签和边框所对应的概率
来源: https://www.cnblogs.com/guoyaohua/p/9488119.html