[深度学习] 论文: AlexNet

有个写的很好的文章: https://zhuanlan.zhihu.com/p/80087776

[一]

网络结构很重要, 一层都不能少

如果算力提升, 效果很显然可以继续提升.

防止过拟合很重要

[二] 数据集

train 120w valid 5w test 15w,

报告两个错误率 top1 - top5

预处理: 裁剪成 256 x 256, 每张照片 demean

[三] 网络结构

3.1 Relu

速度快很多, 防止过拟合?

3.2 双 GPU 并行跑: 提升 1.7% 1.2% (比较单 GPU, 一半神经元)

3.3 局部标准化: 提升泛化能力

3.4 overlap pooling:

传统 pooling 2x2, new pooling 步长 2 邻域 3,

[四] 防止过拟合

6000w 个参数

4.1 数据增强: 反射平移 , 改变 RGB 的强度,

4.2 dropout: 0.5 的概率为 0, 只在两层全连接. 最后用所有的, 只是输出乘以 0.5

[五] 学习细节

sgd 0.9 momentum 0.0005 weight decay, 这个 decay 是施加在 momentum 上的

weight decay 十分重要!

w 为 std 为 0.01 的正态分布, b 有一些为 1, 有一些为 0, 为了加速

lr 相同 0.01, 当不会更好的时候 lr 除以 10, 一共做了三次

训练了 90 个循环.

待填坑:

1,local normalize 具体实现

2, 模型效果与 evaluation

来源: http://www.bubuko.com/infodetail-3519833.html

暂无,快来抢沙发吧！