之前训练模型, 认为网络图构建完成, Loss 肯定是呈现下降的, 就没有太留心, 知识关注 F1 的变化情况, 找到最优的 F1 训练就停止了, 认为模型就 ok.
但实际中发现, 我们要时刻关注网络的损失变化情况, batch size 过小 (6,8) 都会导致模型不收敛, 此时你就看不到损失的变化, 只能根据 F1 优劣判断模型.
那么, 我们可以将 batc size 调的大一些(128), 可以观察到损失是平滑降低的, F1 的性能也在慢慢变好. 这就是通常大家用 128 的原因. 关于迭代停止条件,
一般选 20 个 epochs 的迭代, 每一次迭代后保存模型, 最终你可以选择你 Loss 最小的那个模型作为后期使用.
来源: http://www.bubuko.com/infodetail-2987817.html