这篇博客介绍的是深度神经网络中常用在图像处理的模型卷积神经网络 (CNN),CNN 在图像分类中 (如 kaggle 的猫狗大战) 大显身手这篇博客将带你了解图像在计算机中是如何存储的, 什么是卷积, 卷积神经网络的四个重要环节 (局部感知参数共享多卷积核池化), 不会涉及复杂的公式
计算机是怎么存储图片的
为了更好的理解计算机对图片的存储, 我找了一个非常简单的图片, 是一个 385*385(像素) 的 jpg 格式的图片, 如图 1 所示, 这个图片就是一个白色为底色, 数字为黑色的数字 2, 也就是说, 图片中只涉及两种颜色黑与白 (实际上并不是, 因为图片在显示器中显示是一个像素一个像素的, 黑白相间的地方其实并不是纯黑或者纯白的, 将图片经过稍后描述的处理后也可以看出来, 不过简单起见, 我们就当它是黑白两色的)
图 1
可以使用 scipy 包中的 imread 函数将图片转换为数值型矩阵
from scipy.misc import imreadimport pandas as pd
img = imread('2.jpg')
print(img.shape)
img_df=pd.DataFrame(img)
img_df.to_csv('2.csv')
上面的代码不用太过研究, 能实现这个过程的方法很多其实图片在计算机中就是数字, 385*385=148225, 图片中有 148225 个数字, 每个数字其实就是该像素的颜色对应的数值 (如白色是 255), 那么我们来看一下图片转换成为的矩阵是什么样子, 如图 2 所示 (我把 csv 按比例缩放了一下, 看的比较清楚)
图 2
是不是惊艳到了!!! 原来这个 2 在计算机中是这么存储的, 好, 我把局部放大一下, 如图 3 所示, 图 3 这个区域放大了, 所以你可能看不太出来这是个啥, 其实就是图 4 中红色圆圈的部分
图 3
图 4
现在你可能明白了, 其实每个图片都由若干像素点构成, 每个像素点存储了该位置的颜色, 其实还隐藏存储了另一个信息, 就是位置每一个像素点都有一对索引元组, 例如 (1,1) 就是第一行第一列的像素点, 如果写作 (1,1,255), 就是说第一行第一列的像素点是黑色, 以此类推, 也就是这样一个矩阵就完整的记录着图片的所有信息
好, 到了这里, 聪明的你应该已经知道图片在计算机中的存储方式了那么正式开始讲解 CNN
卷及神经网络
卷积
在开篇的部分, 先简单给大家介绍一下什么叫做卷积, 学过概率论的同学一定不陌生, 那么白话解释一下啥叫卷积, 很形象, 就是卷, 你假象一下, 你把擦脸毛巾卷起来, 成为一个圆柱体的卷, 就是这个意思, 抽象的说, 就是将原来的对象变小一些, 但又能保证原来图像中的信息尽量多的保留下来, 可以看看下面这个卷积过程图后面会有针对 CNN 卷积过程的详细解释, 看看这个图, 大概理解卷积是一个什么样子的过程就可以了, 用映射两个字我认为是比较恰当的
卷积过程图
图像到神经网络
这里的全部讲解基于大家了解了最简单的感知机, 单层神经网络, 多隐藏层神经网络的结构和参数估计方法 (反向传播算法, 具体可参见我博客中转载的文章一文弄懂神经网络中的反向传播法 BackPropagation)
为了更简单的理解 CNN, 我们先关注多隐藏层的输入层和第一个隐藏层 (其实后面层数有多少都无所谓, 一模一样的模式, 大家假装 CNN 就是个单隐藏层的神经网络就好, 不然多隐藏层画起来也麻烦, 讲起来也麻烦) 网络结构如图 6 所示
图 5
这里, 选取了两张比较直观和经典的图来展示个大家, 如图 6 所示
图 6
现实中的图片可没有我例子这么简单, 将它存成矩阵恐怕各位也看不出来他是个什么鬼, 除非你能把每个位置的数字在脑海中脑部成颜色, 然后将数万甚至数百万的像素粒按照矩阵在脑海中拼凑在一起
好, 我们关注图 6 的左图假设我们输入的图片是 1000*1000 维的图像, 在图像处理中, 通常不使用这样的二维形式存储, 而是将后一行拼接到前一行的最后, 构成一个向量, 对于这个 1000*1000 的图像, 就构成了一个 1×1000000, 即长度一百万的一个数组, 换句话说, 神经网络的输入层 (图 5 最左侧) 有 1000000 个元素, 假设 (第一个) 隐藏层, 即图 5 中间的层的神经元个数与输入层相同, 也是 1000000, 且输入层与第一隐藏层是全连接的, 如图 6 中左图所示, 那么我们就需要训练一个
10000001000000=
10
12
个参数, 及图 5 的输入层和隐藏层之间有 1 万亿个连接线, 这样去进行训练, 哪怕对计算机而言, 都无疑是个灾难
第一法宝: 局部感知
现在我们优化一下, 假设图 5 的隐藏层中的每个神经元只与输入层的 10*10 个输入 (即 10*10 个像素点) 相连,(也就意味着每个隐藏层神经元不是和图片的全部像素都连接, 而只是和图片的某一个区域的全部像素连接), 那么两层之间连接线的个数, 即参数的个数就变成了
1000000(1010)=
108
个, 比起原来的
10
12
个参数, 已经缩小了 10000 倍, 但参数还是太多了, 需要进一步的优化
第二法宝: 参数共享 (以及卷积过程讲解)
既然参数太多了, 每个神经元对应了 100 个参数, 每个神经元对应的 100 个参数我们姑且叫它
Pi
参数组, 我们就会有
P1
,
P2
,,
P
100000
这些参数组, 假设
P1
=
P2
==
P
100000
, 也就是说每个神经元对应的参数组是相同的, 那么我们其实就只有一个含有 100 个未知参数的参数组, 瞬间, 参数数量就成为了 100, 是一个可以轻易进行训练的数量级
你可能要问, 这样的假设合理么, 答案是: 从理论和思想上来说, 是合理的, 从实践结果的证明来看, 是非常好的这个假设意味着什么呢? 这 100 个参数 (就是卷积操作) 是一种特征提取, 该方式与位置无关这其中隐含的原理则是: 图像的一部分的统计特性与其他部分是一样的这也意味着我们在这一部分学习的特征也能用在另一部分上, 所以对于这个图像上的所有位置, 我们都能使用同样的学习特征再说白一点儿, 一张图片, 左半边和右半边的特点, 风格一般情况下是一样的, 哪怕毕加索这种抽象派大师, 喜欢画左右脸不一样的抽象人物, 其左右脸的风格也是相同的, 找一个毕加索的画作, 让你看, 你可能一眼就看出来作者十有八九是毕加索, 遮住图片的左侧, 你可能也比较确认是毕加索的画作, 遮住右边也是一样的, 这个说法不太严谨, 这个风格其实就是图像中的各种统计特征 (图像编程了数值, 那么任何位置都会有一些统计指标, 比如极值, 均值等)
这个 10*10 的参数矩阵, 就是所谓的卷积核!!!
卷积的过程可以参考图 7 所示 (动图来源于 http://www.cnblogs.com/nsnow/p/4562308.html , 不要怪我懒, 我是真的不太擅长搞一些特别清楚明白的动图, 所以只能看到好的就拿过来借鉴一下)
图 7
我来详细解释一下, 图 7 的左图是一个 5*5 的图片, 转换为了其对应的像素矩阵图 7 右侧是一个使用 3*3 的卷积核进行卷积后得到的结果, 卷积核心作用在图像上的过程是这样的: 用一个 3*3 的窗口去挨个遍历左图的 5*5 的矩阵, 可以得到 9 个 3*3 的矩阵 (这个理解吧, 小学生应该也能算出来), 用这 9 个矩阵分别与图 7 右侧的卷积核做对应相乘再求和, 就是卷积打个比方, 左图第一个 3*3 矩阵应当为
(1)
假设我们的卷积核就是图 7 左图中给出的卷积核 (图 7 每个小方块右下角的元素构成的军镇就是卷积核), 即:
(2)
矩阵 (1) 与卷积核进行对应元素相乘再求和, 即:
11+10+11+00+11+10+01+01+11=4
, 因此图 7 右侧左上角的元素即为 4, 依次类推, 得到了一个 3*3 的映射结果也就是说, 假设我的图像是 M*M 维的, 而卷积核是 N 维的, 那么卷积操作后会得到一个 (M-N+1)*(M-N+1) 的矩阵
有人又要问了, 这个卷积核怎么定呢?
CNN 的目的就是通过反向传播算法, 训练出最好的卷积核, 这个卷积核就是我们的参数
初始的卷积核可以使用平均矩阵, 对于一个 3*3 的卷积核而言, 大可使用 (3) 中的矩阵:
(2)
好了, 参数已经优化到了很成功的量级, 接下来, 还有什么可以优化的么?
第三法宝: 多核卷积
上面所述只有一个 10*10 的卷积核, 有 100 个参数, 显然, 特征提取是不充分的, 我们可以添加多个卷积核, 比如 32 个卷积核, 可以学习 32 种特征在有多个卷积核时, 如图 8 右侧所示:
图 8
每一个局部感知野不止像图 8 左侧那样, 只由一个卷积核进行卷积操作, 而是对应多个这个过对应到网络可能比较难想想, 我也想了很久怎么能把这个过程展示清楚, 所以想引用 LeCun 的 LeNet-5 网络结构, 即图 9 所示的网络结构来给大家看看看图 9 左起第二个层, 里面有很多个正方形 (即矩阵, 每个矩阵都是通过不同卷积核进行卷积后得到的结果), 也就是说这个隐藏层是有厚度的, 一个卷积核就可以得到一个正方形, 6 个卷积和就得到 6 个正方形, 构成了一个有厚度的层, 这里的结构大家把它想成 3D 立体的, 有厚度这个概念, 就可能好理解一些了
这样, 通过多个卷积核的操作, 对图像的特征提取就更加充分了
图 9
第四法宝: 池化 - Down-pooling(下采样)
有时图像太大, 即使我们参数不太多, 但图像的像素实在太多, 导致卷积操作后, 我们得到的结果 (图 9 中左起第二个层中的每一个正方形中的元素数量太多) 仍然过大我们需要减少训练参数的数量, 它被要求在随后的卷积层之间周期性地引进池化层池化的一个目的是减少图像的空间大小池化在每一个纵深维度上独自完成, 因此图像的纵深保持不变池化层的最常见形式是最大池化
还有一个目的是保持平移不变性 卷积对输入有平移不变性, 池化对特征有平移不变性平移不变性是什么呢? 因为卷积核是在输入图或者 feature maps 上滑动, 或者说平移, 每次平移时, 因此假设使用 max pooling, 会过滤掉那些不明显未被激活的特征
深度学习, 自然有多个隐藏层, 对应到 CNN 中, 就是有多个卷积层, 且有多个卷积核, 那么原始图像的过大会导致卷积后的结果过大其实我们可以对卷积后的结果进行一个缩小的过程, 使下一次卷积更加轻松这个缩小过程就是池化
为了解决这个问题, 首先回忆一下, 我们之所以决定使用卷积后的特征是因为图像具有一种静态性的属性, 这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样适用因此, 为了描述大的图像, 一个很自然的想法就是对不同位置的特征进行聚合统计, 例如, 人们可以计算图像一个区域上的某个特定特征的平均值 (或最大值) 这些概要统计特征不仅具有低得多的维度 (相比使用所有提取得到的特征), 同时还会改善结果 (不容易过拟合) 这种聚合的操作就叫做池化 (pooling), 有时也称为平均池化或者最大池化 (取决于计算池化的方法)
池化的过程如图 10 所示
图 10
在这里, 我们把步幅定为 2, 池化尺寸也为 2 也就是对图 10 左侧 4*4 的矩阵, 用一个 2*2 的窗口去以 2 为步长去遍历, 再直观的说, 我们按照横向和纵向两条中轴线将他切成 4 个 2*2 的矩阵, 然后取每个矩阵的最大值, 作为池化后的结果, 就得到了图 10 右侧的池化结果最大化执行也应用在每个卷机输出的深度尺寸中正如你所看到的, 最大池化操作后, 4*4 卷积的输出变成了 2*2
除去最大池化, 有平均池化, L2 池化等等
输出
其实深层的 CNN 和上述过程一样, 首先有输入层 A, 初始化一个卷积核, 然后进行卷积, 得到了第一个卷积层 B(如果有 i 个卷积核, 就会在同一层中得到
B1
,
B2
,,
Bi
), 然后进行池化, 得到一个池化层 C(
C1
,
C2
,,
Ci
), 然后进行下一次卷积一个卷积层, 一个池化层, 重复下去, 假如是做分类任务, 那么当层数到达了我们指定的层数, 然后到达了输出层, CNN 中的输出层是全连接层, 其中来自其他层的输入在这里被平化和发送, 以便将输出转换为网络所需的参数通过前向传播过程到达 label, 然后进行反向传播, 进行参数的计算
再多说一些
之前说的多个卷积核, 必然得到多个输出, 这些输出就是一个个的矩阵, 而这个矩阵本身其实也是图片 (就像原始图像一样), 这些图片叫做 feature maps, 由于 feature maps 是由不同卷积和得到的, 卷积和是一种特征提取, 与输入的图像进行卷积后, 相当于再做激活动作, 激活后得到的 feature maps 就是具有对应卷积核特征的图片, 卷积核其实就是滤波器, 符合我特征的, 激活, 不符合的, 死着呆着, 换做另一个卷积核, 可能之前被激活的这次就没有, 而之前死的这次被激活了, 所以 feature maps 是被卷积核过滤出来的具有不同特征的图片, 最后的输出层就是汇总了这些特征的图片, 也就是说, 到达输出层这里的图片, 具有前面每个卷积核的特征, 或者可以理解为, 到达输出层的图片是输入图片的最明显的特征的集合体, 就像人类对一个图片做判断, 一个小狗在草地上, 另一个图片是一个小猫在水里, 那么你判断图中的动物是猫还是狗, 几乎不会受到草坪或者水面的影响, 而是基于图片主体本身, 或者说基于猫和狗的不同特征, 这就是 CNN 在模仿人类的判断方式
本文参考了以下地址的讲解, 万分感谢:
1. http://www.cnblogs.com/nsnow/p/4562308.html
2. https://www.zhihu.com/question/39022858
3. http://blog.csdn.net/u014365862/article/details/54865609
4. http://blog.csdn.net/hjimce/article/details/47323463
via https://www.zhihu.com/question/39022858
来源: http://blog.csdn.net/meyh0x5vDTk48P2/article/details/79050148