随机梯度下降的优缺点 梯度下降法和随机梯度下降法的区别?
梯度下降法和随机梯度下降法的区别?
梯度下降算法是一个宽泛的概念,意思是:当你优化一个函数/分类器时,如何减少它的误差?你不妨选择梯度下降的方向,这很可能是最好的方向。既然你知道方向是梯度,你要走多久?答案是:随机的。因此,梯度下降算法包括随机梯度下降算法。
随机梯度下降为什么比梯度下降快?
从理论上讲,随机梯度比梯度下降得快有两个原因。
由于初始化设置中的参数是随机的,通常远离最佳结果,因此在初始阶段快速离开初始区域并向前移动到最佳区域非常重要。随机梯度下降算法每次迭代只有一个样本。与梯度下降算法相比,只要学习速率正确,随机梯度下降算法可以更快地离开初始区域,并且在初始阶段所花费的时间远远大于随机梯度下降算法面对噪声时在后期所浪费的时间。
在梯度下降算法的计算中,所有的数据都是同时计算的,所有的数据通常都包含相似的数据,构成冗余。因此,在实际应用中,即使使用少量的随机数据,随机梯度下降算法的结果也与梯度下降算法的结果基本相同。当数据集非常大时,很可能会出现类似的函数。新加坡元的优势在这个时候更加明显。梯度下降将在每次参数更新之前计算相似样本的梯度。SGD更新一个样本的方法使得无需遍历就可以很容易地得到最优解。虽然会损失一些精度,但很幸运是的,当我们做机器学习训练任务时,大多数时候我们并不追求最优解,而是往往提前结束,所以精度的小缺陷在这里并不那么重要。
逻辑斯蒂映射原理?
Logistic映射原理:每次更新都使用所有样本,因此此优化算法为普通梯度下降法。如果每次更新只使用一部分样本甚至一个样本,那就是随机梯度下降法SGD。
随机梯度下降的优缺点 随机梯度下降法原理和步骤 梯度下降法原理
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。