2016 - 2024

感恩一路有你

随机梯度下降SGD算法原理 梯度下降法和随机梯度下降法的区别?

浏览量:1707 时间:2021-03-11 14:33:13 作者:admin

梯度下降法和随机梯度下降法的区别?

梯度下降算法是一个宽泛的概念,意思是:当你优化一个函数/分类器时,如何减少它的误差?你不妨选择梯度下降的方向,这很可能是最好的方向。既然你知道方向是梯度,你要走多久?答案是:随机的。因此,梯度下降算法包括随机梯度下降算法。

随机梯度下降为什么比梯度下降快?

从理论上讲,随机梯度比梯度下降得快有两个原因。

由于初始化设置中的参数是随机的,通常远离最佳结果,因此在初始阶段快速离开初始区域并向前移动到最佳区域非常重要。随机梯度下降算法每次迭代只有一个样本。与梯度下降算法相比,只要学习速率正确,随机梯度下降算法可以更快地离开初始区域,并且在初始阶段所花费的时间远远大于随机梯度下降算法面对噪声时在后期所浪费的时间。

在梯度下降算法的计算中,所有的数据都是同时计算的,所有的数据通常都包含相似的数据,构成冗余。因此,在实际应用中,即使使用少量的随机数据,随机梯度下降算法的结果也与梯度下降算法的结果基本相同。当数据集非常大时,很可能会出现类似的函数。新加坡元的优势在这个时候更加明显。梯度下降将在每次参数更新之前计算相似样本的梯度。SGD更新一个样本的方法使得无需遍历就可以很容易地得到最优解。虽然会损失一些精度,但很幸运是的,当我们做机器学习训练任务时,大多数时候我们并不追求最优解,而是往往提前结束,所以精度的小缺陷在这里并不那么重要。

机器学习为什么会使用梯度下降法?

另外,在神经网络(非凸问题)的训练中,大多采用梯度下降法。梯度下降法和拟牛顿法可以用来训练logistic回归(凸问题)模型。

在机器学习任务中,必须最小化损失函数L(θ)Lleft(thetaright)L(θ),其中θthetaθ是要求解的模型参数。梯度下降法和牛顿/拟牛顿法都是迭代法。梯度下降法是梯度法,而牛顿法/拟牛顿法是由二阶Hessian矩阵的逆矩阵或伪逆矩阵求解的。

比较了梯度下降法和牛顿法。因为微积分的本质是研究“量”与“量变”的关系。我们感兴趣的大多数数量,比如位置和速度,比如GDP、人口和寿命,都是不断变化的。为了研究它们之间的关系,我们经常使用一些数学模型,其中包含了大量的微分方程,自然是微积分学的重要基础。

没有微积分,世界仍然是黑暗的。

具体来说,微积分广泛应用于各行各业。

物理学不言而喻,牛顿发明微积分是为了用微分方程来描述物理世界的现象。微积分必须应用于任何工程领域。通常,你需要计算体积,面积和压力。

在经济学中,各种预测模型都是微分方程。还有著名的博弈论,它运用了大量的高等数学,远远超过微积分。

在金融领域,现在很多人从事“数量交易”,他们不得不用微积分来计算期权定价和各种衍生金融产品。光靠微积分是不够的。我们需要添加更先进的工具,如“随机过程”来处理可变的“风险”。

保险。计算人们的预期寿命,各种事故发生的概率,从而计算出应该设定多少保费。太高了,买不起。太低了,卖不出去。微积分和概率论是标准的。

在过去两年中,“机器学习”或“人工智能”(事实上,它们都是类似的东西),比如alphago,它在下棋方面非常强大,它包含了一个很深的神经网络(40层)。这个网络是一个非常复杂的函数,其中有许多参数(数亿),需要对这些参数进行训练。训练的方法本质上是梯度下降法,这也是微积分中的一种方法。

你有没有注意到上面提到的行业实际上是非常有利可图的。

有些人可能会认为微积分和《天书》一样,是关于现实世界中不存在的东西,而只存在于理论世界中的东西。在学习和考试之后,他们都把它还给了老师。但这是完全错误的。世界上有许多抽象而乏味的行业,但它们可能是有利可图的行业。有很多微积分,概率论和高等代数。在一些更复杂的行业,数学可能更先进。学习微积分、概率论等高级知识,再加上应用领域的知识(如经济学、程序设计等),绝对是踏入小康、甚至致富的非常可靠的手段!

随机梯度下降SGD算法原理 梯度下降算法过程详细解读 随机梯度下降法应用

版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。