当前位置：

首页
/
IT
/
数据库
/
Objective-C
/
利用Pytorch进行CNN详细剖析

利用Pytorch进行CNN详细剖析

作者： whatbeg

本文缘起于一次 CNN 作业中的一道题，这道题涉及到了基本的 CNN 网络搭建，在 MNIST 数据集上的分类结果，Batch Normalization 的影响，Dropout 的影响，卷积核大小的影响，数据集大小的影响，不同部分数据集的影响，随机数种子的影响，以及不同激活单元的影响等，能够让人比较全面地对 CNN 有一个了解，所以想做一下，于是有了本文。

工具

开源深度学习库： PyTorch
数据集：MNIST

实现

初始要求

首先建立基本的 BASE 网络，在 Pytorch 中有如下 code：

class Net(nn.Module):
 def __init__(self):
 super(Net, self).__init__()
 self.conv1 = nn.Conv2d(1, 20, kernel_size=(5, 5), stride=(1, 1), padding=0)
 self.conv2 = nn.Conv2d(20, 50, kernel_size=(5, 5), stride=(1, 1), padding=0)
 self.fc1 = nn.Linear(4*4*50, 500)
 self.fc2 = nn.Linear(500, 10)
 
def forward(self, x):
 x = F.max_pool2d(self.conv1(x), 2)
 x = F.max_pool2d(self.conv2(x), 2)
 x = x.view(-1, 4*4*50)
 x = F.relu(self.fc1(x))
 x = self.fc2(x)
 return F.log_softmax(x)

这部分代码见 base.py。

问题 A：预处理

即要求将 MNIST 数据集按照规则读取并且 tranform 到适合处理的格式。这里读取的代码沿用了 BigDL Python Support 的读取方式，无需细说，根据 MNIST 主页上的数据格式可以很快读出，关键 block 有读取 32 位比特的函数：

def _read32(bytestream):
 dt = numpy.dtype(numpy.uint32).newbyteorder('>') # 大端模式读取，最高字节在前(MSB first)
 return numpy.frombuffer(bytestream.read(4), dtype=dt)[0]
 读出后是(N, 1, 28, 28)的tensor，每个像素是0-255的值，首先做一下归一化，将所有值除以255，得到一个0-1的值，然后再Normalize，训练集和测试集的均值方差都已知，直接做即可。由于训练集和测试集的均值方差都是针对归一化后的数据来说的，所以刚开始没做归一化，所以forward输出和grad很离谱，后来才发现是这里出了问题。

这部分代码见 preprocessing.py。

问题 B：BASE 模型

将 random seed 设置为 0，在前 10000 个训练样本上学习参数，最后看 20 个 epochs 之后的测试集错误率。最后结果为：

Test set: Average loss: 0.0014, Accuracy: 9732/10000 (97.3%)

可以看到，BASE 模型准确率并不是那么的高。

问题 C：Batch Normalization v.s BASE

在前三个 block 的卷积层之后加上 Batch Normalization 层，简单修改网络结构如下即可：

class Net(nn.Module):
 def __init__(self):
 super(Net, self).__init__()
 self.conv1 = nn.Conv2d(1, 20, kernel_size=(5, 5), stride=(1, 1), padding=0)
 self.conv2 = nn.Conv2d(20, 50, kernel_size=(5, 5), stride=(1, 1), padding=0)
 self.fc1 = nn.Linear(4*4*50, 500)
 self.fc2 = nn.Linear(500, 10)
 self.bn1 = nn.BatchNorm2d(20)
 self.bn2 = nn.BatchNorm2d(50)
 self.bn3 = nn.BatchNorm1d(500)
 
def forward(self, x):
 x = self.conv1(x)
 x = F.max_pool2d(self.bn1(x), 2)
 x = self.conv2(x)
 x = F.max_pool2d(self.bn2(x), 2)
 x = x.view(-1, 4*4*50)
 x = self.fc1(x)
 x = F.relu(self.bn3(x))
 x = self.fc2(x)
 return F.log_softmax(x)

同样的参数 run 一下，得出加了 BN 的结果为：

Test set: Average loss: 0.0009, Accuracy: 9817/10000 (98.2%)

由此可见，有明显的效果提升。
关于 Batch Normalization 的更多资料参见 [2],[5]。

问题 D： Dropout Layer

在最后一层即 fc2 层后加一个 Dropout(p=0.5) 后，在 BASE 和 BN 上的结果分别为：

BASE：Test set: Average loss: 0.0011, Accuracy: 9769/10000 (97.7%)
BN： Test set: Average loss: 0.0014, Accuracy: 9789/10000 (97.9%)

观察得知，dropout 能够对 BASE 模型起到一定提升作用，但是对 BN 模型却效果不明显反而降低了。
原因可能在于，BN 模型中本身即包含了正则化的效果，再加一层 Dropout 显得没有必要反而可能影响结果。

问题 E：SK model

SK model: Stacking two 3×3 conv. layers to replace 5×5 conv. layer

如此一番改动后，搭建的 SK 模型如下：

class Net(nn.Module):
 def __init__(self):
 super(Net, self).__init__()
 self.conv1_1 = nn.Conv2d(1, 20, kernel_size=(3, 3), stride=(1, 1), padding=0)
 self.conv1_2 = nn.Conv2d(20, 20, kernel_size=(3, 3), stride=(1, 1), padding=0)
 self.conv2 = nn.Conv2d(20, 50, kernel_size=(3, 3), stride=(1, 1), padding=0)
 self.fc1 = nn.Linear(5*5*50, 500)
 self.fc2 = nn.Linear(500, 10)
 self.bn1_1 = nn.BatchNorm2d(20)
 self.bn1_2 = nn.BatchNorm2d(20)
 self.bn2 = nn.BatchNorm2d(50)
 self.bn3 = nn.BatchNorm1d(500)
 self.drop = nn.Dropout(p=0.5)
 
def forward(self, x):
 x = F.relu(self.bn1_1(self.conv1_1(x)))
 x = F.relu(self.bn1_2(self.conv1_2(x)))
 x = F.max_pool2d(x, 2)
 x = self.conv2(x)
 x = F.max_pool2d(self.bn2(x), 2)
 x = x.view(-1, 5*5*50)
 x = self.fc1(x)
 x = F.relu(self.bn3(x))
 x = self.fc2(x)
 return F.log_softmax(x)

在 20 个 epoch 后，结果如下，

SK： Test set: Average loss: 0.0008, Accuracy: 9848/10000 (98.5%)

测试集准确率得到了少许的提高。
这里利用 2 个 3×3 的卷积核来代替大的 5×5 卷积核，参数个数由 5×5=25 变为了 2x3x3=18。实践表明，这样使得计算更快了，并且小的卷积层之间的 ReLU 也很有帮助。
VGG 中就使用了这种方法。

问题 F：Change Number of channels

通过将特征图大小乘上一个倍数，再通过 shell 程序执行，得到如下结果：

SK0.2： 97.7%
SK0.5： 98.2%
SK1： 98.5%
SK1.5： 98.6%
SK2： 98.5% (max 98.7%)

在特征图分别为 4，10, 30, 40 时，最终的准确度基本是往上提升的。这在一定程度上说明，在没有达到过拟合前，增大特征图的个数，即相当于提取了更多的特征，提取特征数的增加有助于精度的提高。
这部分代码见

SK_s.py

和

runSK.sh

。

问题 G：Use different training set sizes

同样通过脚本运行，增加参数

parser.add_argument('--usedatasize', type = int,
default = 60000, metavar = 'SZ', help = 'use how many training data to train network')

表示使用的数据大小，从前往后取 usebatchsize 个数据。
这部分程序见 SK_s.py 和 runTrainingSize.sh。
运行的结果如下：

500： 84.2%
1000： 92.0%
2000： 94.3%
5000： 95.5%
10000： 96.6%
20000： 98.4%
60000： 99.1%

由此可以明显地看出，数据越多，结果的精度越大。
太少的数据无法准确反映数据的整体分布情况，而且容易过拟合，数据多到一定程度效果也会不明显，不过，大多数时候我们总还是嫌数据太少，而且更多的数据获取起来也有一定难度。

问题 H：Use different training sets

采用脚本完成，这部分程序见 SK_0.2.py 和 diffTrainingSets.sh。
运行结果如下：

 0-10000： 98.0%
10000-20000： 97.8%
20000-30000： 97.8%
30000-40000： 97.4%
40000-50000： 97.5%
50000-60000： 97.7%

由此可见，采用不同的训练样本集合训练出来的网络有一定的差异，虽不是很大，但是毕竟显示出了不稳定的结果。

问题 I：Random Seed's effects

采用 runSeed.sh 脚本完成，用到了全部 60000 个训练集。
运行的结果如下：

Seed 0： 98.9%
Seed 1： 99.0%
Seed 12： 99.1%
Seed 123： 99.0%
Seed 1234： 99.1%
Seed 12345： 99.0%
Seed 123456： 98.9%

事实上在用上整个训练集的时候，随机数生成器的种子设置对于最后结果的影响不大。

问题 J：ReLU or Sigmoid?

将 ReLU 全部换成 Sigmoid 后，用全部 60000 个训练集训练，有对比结果如下：

 ReLU SK_0.2: 99.0%
Sigmoid SK_0.2: 98.6%

由此可以看出，在训练 CNN 时，使用 ReLU 激活单元比 Sigmoid 激活单元要更好一些。原因可能在于二者机制的差别，sigmoid 在神经元输入值较大或者较小时，输出值会近乎 0 或者 1，这使得许多地方的梯度几乎为 0，权重几乎得不到更新。而 ReLU 虽然增加了计算的负担，但是它能够显著加速收敛过程，并且也不会有梯度饱和问题。

总结

本文利用 PyTorch 对几个 CNN 模型在 MNIST 数据集上的比较，以及一些参数的设置对模型效果的影响，从而对 CNN 的许多方面进行了一些详细的评估。
用过这么一次觉得 PyTorch 还是挺好用的，比较简单，其他模型不知道，反正卷积神经网络模型是如此。
项目具体代码见 [7]。
由于笔者对 CNN（卷积神经网络）研究不太深入，所以每个结果后的解释或有失偏颇，读者批判阅读即可。

End.

来源: http://www.36dsj.com/archives/92612

与本文相关文章

暂无,快来抢沙发吧！