卷积神经网络初探

前言

目前为止我已经完整地学完了三个机器学习教程：包括“Stanford CS229”，”Machine Learning on Coursrea” 和 “Stanford UFLDL”，卷积神经网络是其中最抽象的概念。

维基百科对卷积的数学定义为：

由于卷积常用与信号处理，很多人基于“输入->系统->响应”这一模型来解释卷积的物理意义，这里转载一个非常通俗的版本：

这是一些尝试解释卷积的文章：

而在图像处理中通常使用离散形式的卷积，在下一节中介绍。

卷积特征提取（convolution）

卷积特征提取的过程

假设有一个稀疏自编码器 SAE，训练使用的是 3×3 的小图。将 SAE 用作深度网络的隐藏层时，它依然只接受 3×3 的数据作为输入，且假设这个隐藏层有 k 个单元（每个单元也被称为一个卷积核 – Convolution Kernel，由对应的权值向量 W 和 b 来体现）。

每个隐藏单元的输入是用自己的权值向量 W 与 3×3 的小图做内积，再与截距项相加得到的：

假如深度网络的输入是 5×5 的大图，SAE 要从中提取特征，必须将 5×5 的大图分解成若干 3×3 的小图并分别提取它们的特征。分解方法就是：从大图的（1, 1）、（1, 2）、（1, 3）、… 、（3, 3）等 9 个点开始分别作为小图的左上角起点，依次截取 9 张带有重合区域的小图，然后分别提取这 9 张小图的特征：

所以，每个隐藏单元将有 9 个输入，不同于之前的 1 个。然后将所有输入分别导入激活函数计算相应的输出，卷积特征提取的工作就完成了。

对于本例，隐藏层所提取的特征共有 9×k 个；更一般化地，如果大图尺寸是 r×c，小图尺寸是 a×b，那么所提取特征的个数为：

卷积特征提取的原理

卷积特征提取利用了自然图像的统计平稳性（Stationary）:

池化（Pooling）

池化过程

在完成卷积特征提取之后，对于每一个隐藏单元，它都提取到 (r-a+1)×(c-b+1)个特征，把它看做一个矩阵，并在这个矩阵上划分出几个不重合的区域，然后在每个区域上计算该区域内特征的均值或最大值，然后用这些均值或最大值参与后续的训练，这个过程就是【池化】。

池化的优点

显著减少了参数数量
池化单元具有平移不变性 (translation invariant)有一个 12×12 的 feature map (隐藏层的一个单元提取到的卷积特征矩阵)，池化区域的大小为 6×6，那么池化后，feature map 的维度变为 2×2。

假设原 feature map 中灰色元素的值为 1，白色元素的值为 0。如果采用 max pooling，那么池化后左上角窗口的值为 1。如果将图像向右平移一个像素：

池化后左上角窗口的值还是 1。如果将图像缩小：

池化后左上角窗口的值依然是 1。

通常我们认为图像经过有限的平移、缩放、旋转，不应改变其识别结果，这就要求经过平移、缩放、旋转的图片所提取的特征与原图所提取的特征相同或相似，因此分类器才能把它们识别成同一类。

几种池化方式

比较主流的池化方式有如下几种：

一般池化（General Pooling）: max pooling 和 average pooling现在已经知道了 max pooling 与 average pooling 的几何意义，还有一个问题需要思考：它们分别适用于那些场合？在不同的场合下，它们的表现有什么不一样？为什么不一样？
网络上有人这样区分 max pooling 和 average pooling：

“average对背景保留更好，max对纹理提取更好”。

限于篇幅以及我的理解还不深，就不展开讨论了，如果以后需要，我会深入研究一下。
重叠池化（Overlapping Pooling）重叠池化的相邻池化窗口之间会有重叠区域。
空间金字塔池化（Spatial Pyramid Pooling）空间金字塔池化拓展了卷积神经网络的实用性，使它能够以任意尺寸的图片作为输入。
下面列出一些研究池化的论文：
{aa9aa}

{aa8aa}

{aa7aa}

汇总

有 m 张彩色自然图片拿来训练一个神经网络，使它能够对图片中的物体做分类。训练过程可以大致分为以下几步：

从图片库中随机裁剪出相同尺寸的小图若干张，用来训练一个稀疏自编码器 C1；
以 C1 作为第一个卷积层，从原图中做卷积特征提取；
在 C1 下游添加一个池化层 S1，对 C1 所提取的特征做池化计算；
如果需要提取更加抽象的特征，在 S1 之后添加卷积层 C2，C2 是一个使用 S1 的数据进行训练的稀疏自编码器；
在 C2 下游添加一个池化层 S2，如果需要提取进一步抽象的特征，重复添加卷积层与池化层即可；
以最后一个池化层的输出作为数据训练分类器。

课后作业（Convolution and Pooling）

这次作业依赖上一次“linear decoders”作业的代码，使用的数据是 STL-10 的一个子集，用来识别四种图像：飞机、汽车、猫和狗。

，由于 GIthub 有文件大小限制，所以这次没有上传数据文件。

Pooling 的代码比较简单，所以这里把计算卷积的代码详细注释后贴出来：

cnnConvolve.m

运行结果（识别的正确率）：

使用 average pooling:
使用 max pooling:

1 赞 1 收藏 {aa4aa} {aa3aa} {aa2aa} {aa1aa} {aa0aa}

来源: http://blog.jobbole.com/110692/

与本文相关文章

暂无,快来抢沙发吧！