随机梯度下降法 (Stochastic gradient descent, SGD)

BGD(Batch gradient descent) 批量梯度下降法: 每次迭代使用所有的样本 (样本量小) Mold 一直在更新

SGD(Stochastic gradientdescent) 随机梯度下降法: 每次迭代使用一组样本 (样本量大)Mold 把一批数据过完才更新一次

针对 BGD 算法训练速度过慢的缺点, 提出了 SGD 算法, 普通的 BGD 算法是每次迭代把所有样本都过一遍, 每训练一组样本就把梯度更新一次. 而 SGD 算法是从样本中随机抽出一组, 训练后按梯度更新一次, 然后再抽取一组, 再更新一次, 在样本量及其大的情况下, 可能不用训练完所有的样本就可以获得一个损失值在可接受范围之内的模型了.