逻辑回归的损失函数及梯度 机器学习为什么会使用梯度下降法?
机器学习为什么会使用梯度下降法?
另外,在神经网络(非凸问题)的训练中,大多采用梯度下降法。梯度下降法和拟牛顿法可以用来训练logistic回归(凸问题)模型。
在机器学习任务中,必须最小化损失函数L(θ)Lleft(thetaright)L(θ),其中θthetaθ是要求解的模型参数。梯度下降法和牛顿/拟牛顿法都是迭代法。梯度下降法是梯度法,而牛顿法/拟牛顿法是由二阶Hessian矩阵的逆矩阵或伪逆矩阵求解的。
比较了梯度下降法和牛顿法。
现在最流行的机器学习模型,神经网络基本上有很多向量、矩阵、张量。从激活函数到损失函数,从反向传播到梯度下降,都是对这些向量、矩阵和张量的运算和操作。
其他“传统”机器学习算法也使用大量线性代数。例如,线性回归与线性代数密切相关。
从线性代数的观点来看,主成分分析是对协方差矩阵进行对角化。
尤其是当你读论文或想更深入的时候,概率论的知识是非常有用的。
它包括边缘概率、链式规则、期望、贝叶斯推理、最大似然、最大后验概率、自信息、香农熵、KL散度等。
神经网络非常讲究“可微性”,因为可微模型可以用梯度下降法优化。梯度下降和导数是分不开的。所以多元微积分也需要。另外,由于机器学习是以统计方法为基础的,因此统计知识是必不可少的。但是,大多数理工科专业学生都应该学过这两部分内容,所以这可能不属于需要补充的内容。
机器学习需要哪些数学基础?
首先,我可以肯定地告诉你,是的!但也许问题会出现。在机器学习算法中,很多算法采用梯度下降法。梯度下降法似乎是机器学习算法中一种通用的优化算法。为什么不用呢?
其实正是因为梯度下降算法是一种通用的优化算法,所以它有自己的缺点,否则就没有其他算法存在的理由。那么梯度下降算法的缺点是什么呢?也就是说,它的效率相对较低,求解速度相对较慢。其求解速度和收敛性取决于步长参数的合理设计。如果步长太小,算法需要迭代太多次才能收敛;如果步长太大,算法可能无法在最优解附近收敛。
因此,一般选择梯度下降作为机器学习算法的优化方法,因为机器学习算法的目标函数不容易求解:要么目标函数不凸,要么目标函数没有解析解。
岭回归是一种非常简单的算法,它可以用正态方程直接求解模型的最优参数,而不用用梯度下降法来慢慢迭代求解。因此,梯度下降算法可以用来求解岭回归,但由于岭回归比较简单,且其目标函数有解析解,所以没有使用梯度下降算法。在这种情况下,梯度下降算法的速度不如常规方程。
逻辑回归的损失函数及梯度 logistic回归代价函数 逻辑回归代价函数
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。