一、模型描述
上一章已经通过卖房价格的模型简单介绍了什么是回归:我们尝试将变量映射到某一个连续函数上。
这章我们将这个问题简单地量化为单变量线性回归模型(Univariate linear regression)来理解它。
PS:监督学习最常见的两类问题:
1、回归:预测一个具体的数值输出
2、分类:预测离散值输出
先来看这个过程是如何进行的:
其中,h表示假设函数:
θ是参数,下一节我们谈谈如何选择这两个参数值。
二、代价函数(Cost function)
我们现在有了数据集,并且可以通过改变参数来调整h函数,那么,我们如何定义什么是“更好”的h函数呢?
一般而言,我们通过调整θ,使得所有训练集数据与其拟合数据的差的平方和更小,即认为得到了拟合度更好的函数。
我们引入了代价函数:
当代价函数J最小的时候(minimize J(θ0,θ1)),即找到了对于当前训练集来说拟合度最高的函数h。
对于单变量线性回归而言,J关于θ的函数如下:
当我们找到了这些同心椭圆的中心点时,就找到了J函数的最小值,此时拟合度更好。
三、梯度下降基本概念(Gradient descent)
现在我们得到了代价函数J,那么我们如何求出J的最小值呢?
这一章我们使用数值计算(numerical calculation)的方法(后面我们会学习解析解法):
从某一对θ0,θ1出发
不断尝试改变θ0,θ1,使得J(θ0,θ1) 减小,逐步逼近最小值(迭代)
改变的策略:每一次改变的方向,取当前位置梯度下降的方向:
梯度下降算法的定义如下。我们将会反复重复这一步骤,直至收敛。其中的α是学习率(learning rate)控制下降速度。
(for j=0 and j=1)
迭代步骤如下:
特别需要注意的是,在这个迭代算法中,参数θ是计算完当前迭代轮次所有的θ后才统一更新,而不是算出一个更新一个(若算出一个更新一个,那么方向就不是当前点的梯度方向了)
四、线性回归的梯度下降
将线性回归的代价函数代入梯度下降方程中,得到:
线性回归的代价函数是一个凸函数,局部最优解就是全局最优解。因此迭代完成后就可以得到最优解。
PS.
1、
2、矩阵相乘没有交换律,但有结合律