有个写的很好的文章: https://zhuanlan.zhihu.com/p/80087776
[一]
网络结构很重要, 一层都不能少
如果算力提升, 效果很显然可以继续提升.
防止过拟合很重要
[二] 数据集
train 120w valid 5w test 15w,
报告两个错误率 top1 - top5
预处理: 裁剪成 256 x 256, 每张照片 demean
[三] 网络结构
3.1 Relu
速度快很多, 防止过拟合?
3.2 双 GPU 并行跑: 提升 1.7% 1.2% (比较单 GPU, 一半神经元)
3.3 局部标准化: 提升泛化能力
3.4 overlap pooling:
传统 pooling 2x2, new pooling 步长 2 邻域 3,
[四] 防止过拟合
6000w 个参数
4.1 数据增强: 反射 平移 , 改变 RGB 的强度,
4.2 dropout: 0.5 的概率为 0, 只在两层全连接. 最后用所有的, 只是输出乘以 0.5
[五] 学习细节
sgd 0.9 momentum 0.0005 weight decay, 这个 decay 是施加在 momentum 上的
weight decay 十分重要!
w 为 std 为 0.01 的正态分布, b 有一些为 1, 有一些为 0, 为了加速
lr 相同 0.01, 当不会更好的时候 lr 除以 10, 一共做了三次
训练了 90 个循环.
待填坑:
1,local normalize 具体实现
2, 模型效果与 evaluation
来源: http://www.bubuko.com/infodetail-3519833.html