1200字范文 > 机器学习最常用的优化算法 — 梯度下降法

机器学习最常用的优化算法 — 梯度下降法

时间：2021-01-23 10:19:33

1. 学习目标

每一个机器学习模型都有一个目标函数，而学习的目标，就是最小化目标函数。直观而言，当我们已经获得了一个函数，最小化该函数其实就是，在其自变量取值范围内，找到使得因变量最小的那个自变量取值点。

经典机器学习模型的目标函数都是凸函数，函数的凸性保证了其有最小值。

2. 凸函数

什么叫做凸函数？这个有一套严格的数学定义：某个向量空间的凸子集（区间）上的实值函数，如果在其定义域上的任意两点，有 f(tx + (1-t)y) <= tf(x) + (1-t)f(y)，则称其为该区间上的凸函数。

将这一定义用一元函数的形式，在二维坐标轴里表现出来，是这样的：

直观的理解，就是二维空间中的一条曲线，有个“弯儿”冲下，那个弯儿里面的最低点，就是该函数在自变量取值区间内的最小值。

如果自变量取值区间是整个实数域的话，那么可以想象这条曲线所有向下的弯儿里面有一个低到最低的，叫全局最小，而其他的弯儿，就叫做局部最小。

如果自变量本身是二维的（二元函数），则凸函数在三维空间中的图像是这样的：

同样有个“弯儿”，只不过这个弯儿不再是一段曲线，而是成了一个碗状的曲面，“碗底儿”就是区域内的极值点。在三维空间中，我们要找的最小值就是最深的那个碗底儿（如果不止一个的话）。

3. 梯度下降法

既然已经知道了学习的目标就是最小化目标函数的取值，而目标函数又是凸函数，那么学习的目标自然转化成了寻找某个凸函数的最小值。

判定一个给定函数是否是凸函数是一件比较复杂的事情，我们在此不多讲。

因为本课都是讲解经典机器学习模型，所以，前人的工作已经保证我们用到的目标函数都是凸函数。如果未来在应用中构建自己的目标函数，那么千万记得在直接应用任何优化算法之前，应该先确定它是凸函数。

最常用的一种方法，叫做梯度下降法。

这种方法从直观来看，非常容易理解。我们还是先以一元函数为例。假设我们的目标函数是一个一元凸函数。

这个函数本身我们已经知道了，那么只要给定一个自变量的取值，就一定能够得到相应的因变量的取值。

那么我们可以采用如下步骤来获得其最小值：

随机取一个自变量的值 x对应该自变量算出对应点的因变量值：f(x)；计算 f( x) 处目标函数 f(x) 的导数；从 f( x) 开始，沿着该处目标函数导数的反方向，按一个指定的步长 α，向前“走一步”，走到的位置对应自变量取值为 x继续重复 2-4，直至退出迭代（达到指定迭代次数，或 f(x) 近似收敛到最优解）。

对应三维的情况，可以想像在一个很大的碗的内壁上放上一个小球，每次，我们都沿着当时所在点的切线方向（此处的切线方向是一个二维向量）向前走一步，直到走到碗底为止。