1200字范文 > 从线性到非线性模型-线性回归岭回归 Lasso回归局部加权线性回

从线性到非线性模型-线性回归岭回归 Lasso回归局部加权线性回

时间：2021-08-12 10:16:30

从线性到非线性模型

1、线性回归，岭回归，Lasso回归，局部加权线性回归

2、logistic回归，softmax回归，最大熵模型

3、广义线性模型

4、Fisher线性判别和线性感知机

5、三层神经网络

6、支持向量机

code:/myazi/myLearn

一、线性回归

假设有数据有T={(x(1),y(1)),...,(x(i),y(i)),...,(x(m),y(m))}T=\left \{ \left ( x^{(1)},y^{(1)} \right ) ,...,\left ( x^{(i)},y^{(i)} \right ) ,..., \left ( x^{(m)},y^{(m)} \right ) \right \}T={(x(1),y(1)),...,(x(i),y(i)),...,(x(m),y(m))}其中x(i)={x1(i),..,xj(i),...,xn(i)}x^{(i)}=\left \{ x_{1}^{(i)},..,x_{j}^{(i)},...,x_{n}^{(i)} \right \}x(i)={x1(i),..,xj(i),...,xn(i)}, yi∈Ry^{i}\in \mathbf{R}yi∈R。其中m为训练集样本数，n为样本维度，y是样本的真实值。线性回归采用一个高维的线性函数来尽可能的拟合所有的数据点，最简单的想法就是最小化函数值与真实值误差的平方（概率解释-高斯分布加最大似然估计）。即有如下目标函数：

J(θ)=12∑i=1m(hθ(x(i))−y(i))2min⁡θJ(θ)J\left ( \theta \right )=\frac{1}{2}\sum_{i=1}^{m}\left ( h_{\theta }\left ( x^{(i)} \right )-y^{(i)} \right )^{2}\\ \min_{\theta }J\left ( \theta \right ) J(θ)=21i=1∑m(hθ(x(i))−y(i))2θminJ(θ)

其中线性函数如下：

hθ(x(i))=θ0+θ1x1(i)+θ2x2(i)+..+θnxn(i)=∑j=1nθjxj(i)=θTx(i)h_{\theta }\left ( x^{(i)}\right )=\theta _{0} + \theta _{1}x_{1}^{\left (i \right )}+ \theta _{2}x_{2}^{\left (i \right )}+..+ \theta _{n}x_{n}^{\left (i \right )}\\ =\sum_{j=1}^{n}\theta _{j}x_{j}^{\left (i \right )}\\ =\mathbf{\theta}^{T} \mathbf{x}^{(i)} hθ(x(i))=θ0+θ1x1(i)+θ2x2(i)+..+θnxn(i)=j=1∑nθjxj(i)=θTx(i)

构建好线性回归模型的目标函数之后，接下来就是求解目标函数的最优解，即一个优化问题。常用的梯度优化方法都可以拿来用，这里以梯度下降法来求解目标函数。

θj：=θj−α∂∂θjJ(θ)=θj−α∂∂θj12∑i=1m(hθ(x(i))−y(i))2=θj−α∑i=1m(hθ(x(i))−y(i))∂∂θj=θj−α∑i=1m(hθ(x(i))−y(i))xj(i)\theta _{j}：=\theta _{j}-\alpha \frac{\partial }{\partial\theta _{j}}J(\theta )\\ =\theta _{j}-\alpha \frac{\partial }{\partial\theta _{j}}\frac{1}{2}\sum_{i=1}^{m}\left (h_{\theta }\left ( x^{(i)}\right )-y^{(i)} \right )^2\\ =\theta _{j}-\alpha \sum_{i=1}^{m}\left (h_{\theta }\left ( x^{(i)}\right )-y^{(i)} \right )\frac{\partial }{\partial\theta _{j}}\\ =\theta _{j}-\alpha \sum_{i=1}^{m}\left (h_{\theta }\left ( x^{(i)}\right )-y^{(i)} \right )x_{j}^{(i)} θj：=θj−α∂θj∂J(θ)=θj−α∂θj∂21i=1∑m(hθ(x(i))−y(i))2=θj−αi=1∑m(hθ(x(i))−y(i))∂θj∂=θj−αi=1∑m(hθ(x(i))−y(i))xj(i)

另外，线性回归也可以从最小二乘法的角度来看，下面先将样本表示向量化，X∈Rn×mX\in R^{n \times m}X∈Rn×m，Y∈RmY \in R^{m}Y∈Rm，构成如下数据矩阵。

\begin{equation}

\begin{split}

\begin{bmatrix}

& (x{1}，y{1})^{T} & -\

-& (x{2}，y{2})^{T} & -\

-& . & -\

-& (x{m}，y{m})^{T} &-

\end{bmatrix}_{(n+1)\times m}

\end{split}

\end{equation}

那么目标函数向量化形式如下：那么目标函数向量化形式如下：那么目标函数向量化形式如下：

J(\theta )=\frac{1}{2}\left ( \theta {T}X-y{T} \right )\left ( \theta {T}X-y{T} \right )^{T}

可以看出目标函数是一个凸二次规划问题，其最优解在导数为0处取到，矩阵导数详细参考（）。

▽θJ(θ)=XXT−XY=0⇒θ=(XXT)−1XY\triangledown_{\theta } J(\theta )=XX^{T}-XY =0\\ \Rightarrow \theta =\left (XX^{T} \right )^{-1}XY ▽θJ(θ)=XXT−XY=0⇒θ=(XXT)−1XY

值得注意的上式中存在计算矩阵的逆，一般来讲当样本数大于数据维度时，矩阵可逆，可以采用最小二乘法求得目标函数的闭式解。当数据维度大于样本数时，矩阵线性相关，不可逆。此时最小化目标函数解不唯一，且非常多，出于这样一种情况，我们可以考虑奥卡姆剃刀准则来简化模型复杂度，使其不必要的特征对应的w为0。所以引入正则项使得模型中w非0个数最少。当然，岭回归，lasso回归的最根本的目的不是解决不可逆问题，而是防止过拟合。

概率解释

损失函数与最小二乘法采用最小化平方和的概率解释。假设模型预测值与真实值的误差为 $\epsilon^{(i)} $，那么预测值 hθ(x(i))h_{\theta}(x^{(i)})hθ(x(i))与真实值y(i)y^{(i)}y(i)之间有如下关系：

y(i)=hθ(x(i))+ϵ(i)y^{(i)}=h_{\theta}(x^{(i)})+\epsilon^{(i)} y(i)=hθ(x(i))+ϵ(i)

根据中心极限定理，当一个事件与很多独立随机变量有关，该事件服从正态分布。一般来说，连续值我们都倾向于假设服从正态分布。假设每个样本的误差$\epsilon^{(i)} 独立同分布均值为0，方差为独立同分布均值为0，方差为独立同分布均值为0，方差为\sigma 的高斯分布的高斯分布的高斯分布\epsilon ^{(i)}-N(0,\sigma ^{2})$,所以有：

p(ϵ(i))=12πexp(−(ϵ(i))22σ2)p\left ( \epsilon ^{(i)} \right )=\frac{1}{\sqrt{2\pi} }exp\left ( -\frac{\left ( \epsilon ^{(i)} \right )^{2}}{2\sigma ^{2}} \right ) p(ϵ(i))=2π1exp(−2σ2(ϵ(i))2)

即表示 y(i)y^{(i)}y(i)满足以均值为 hθ(x(i))h_{\theta}(x^{(i)})hθ(x(i)),方差为$\epsilon^{(i)} $的高斯分布。

p(y(i)∣x(i);θ)=12πexp(−(y(i)−θTx(i))22σ2)p\left ( y ^{(i)} | x^{(i)};\theta\right )=\frac{1}{\sqrt{2\pi} }exp\left ( -\frac{\left ( y ^{(i)} -\theta^{T}x^{(i)} \right )^{2}}{2\sigma ^{2}} \right ) p(y(i)∣x(i);θ)=2π1exp(−2σ2(y(i)−θTx(i))2)

由最大似然估计有：

KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{split}…

二、岭回归和Lasso回归

岭回归的目标函数在一般的线性回归的基础上加入了正则项，在保证最佳拟合误差的同时，使得参数尽可能的“简单”，使得模型的泛化能力强（即不过分相信从训练数据中学到的知识）。正则项一般采用一，二范数，使得模型更具有泛化性，同时可以解决线性回归中不可逆情况。

min⁡θ12∑i=1m(hθ(x(i))−y(i))2+λ∥θ∥2\min_{\theta}\frac{1}{2}\sum_{i=1}^{m}\left ( h_{\theta }\left ( x^{(i)} \right )-y^{(i)} \right )^{2} + \lambda \left \| \theta \right \|^{2} θmin21i=1∑m(hθ(x(i))−y(i))2+λ∥θ∥2

其迭代优化函数如下：

θj：=θj−α∑i=1m(hθ(x(i))−y(i))xj(i)−λθj\theta _{j}：=\theta _{j}-\alpha \sum_{i=1}^{m}\left (h_{\theta }\left ( x^{(i)}\right )-y^{(i)} \right )x_{j}^{(i)}-\lambda \theta_{j} θj：=θj−αi=1∑m(hθ(x(i))−y(i))xj(i)−λθj

另外从最小二乘的角度来看，通过引入二范正则项，使其主对角线元素来强制矩阵可逆。

▽θJ(θ)=XXTθ−XY+λθ=0⇒θ=(XXT+λI)−1XY\triangledown_{\theta } J(\theta )=XX^{T}\theta-XY +\lambda \theta=0\\ \Rightarrow \theta =\left (XX^{T} + \lambda I \right )^{-1}XY ▽θJ(θ)=XXTθ−XY+λθ=0⇒θ=(XXT+λI)−1XY

Lasso回归采用一范数来约束，使参数非零个数最少，至于为何不用零范数可以参考（）。而Lasso和岭回归的区别很好理解，在优化过程中，最优解为函数等值线与约束空间的交集，正则项可以看作是约束空间。可以看出二范的约束空间是一个球形，而一范的约束空间是一个方形，这也就是二范会得到很多参数接近0的值，而一范则尽可能非零参数最少。

值得注意的是线性模型的表示能力有限，但是并不一定表示线性模型只能处理线性分布的数据。这里有两种常用的线性模型非线性化。对于上面的线性函数的构造，我们可以看出模型在以x0,x1,..,xn{x_{0},x_{1},..,x_{n}}x0,x1,..,xn的坐标上是线性的，但是并不表示线性的模型就一定只能用于线性分布问题上。假如我们只有一个特征x0{x_{0}}x0，而实际上回归值是y=x02y=x_{0}^{2}y=x02等，我们同样可以采用线性模型，因为我们完全可以把输入空间映射到高维空间(x13,x12,x11)(x_{1}^{3},x_{1}^{2},x_{1}^{1})(x13,x12,x11)，其实这也是核方法以及PCA空间变换的一种思想，凡是对输入空间进行线性，非线性的变换，都是把输入空间映射到特征空间的思想，所以只需要把非线性问题转化为线性问题即可。另外一种是局部线性思想，即对每一个样本构建一个加权的线性模型。

三、局部加权线性回归

考虑到线性回归的表示能力有限，可能出现欠拟合现象。局部加权线性回归为每一个待预测的点构建一个加权的线性模型。其加权的方式是根据预测点与数据集中点的距离来为数据集中的点赋权重，当某点距离预测点较远时，其权重较小，反之较大。由于这种权重的机制引入使得局部加权线性回归产生了一种局部分段拟合的效果。由于该方法对于每一个预测点构建一个加权线性模型，都要重新计算与数据集中所有点的距离来确定权重值，进而确定针对该预测点的线性模型，计算成本高，同时为了实现无参估计来计算权重，需要存储整个数据集。

局部加权线性回归，在线性回归基础上引入权重，其目标函数（下面的目标函数是针对一个预测样本的）如下：

J(θ)=12∑i=1mw(i)(hθ(x(i))−y(i))2min⁡θJ(θ)J\left ( \theta \right )=\frac{1}{2}\sum_{i=1}^{m}w^{(i)}\left ( h_{\theta }\left ( x^{(i)} \right )-y^{(i)} \right )^{2}\\ \min_{\theta }J\left ( \theta \right ) J(θ)=21i=1∑mw(i)(hθ(x(i))−y(i))2θminJ(θ)

一般选择下面的权重函数，权重函数选择并非因为其类似于高斯函数，而是根据数据分布的特性，但权重函数的选取并不一定依赖于数据特性。

w(i)=exp(−x(i)−x2σ2)w^{(i)}=exp\left ( -\frac{x^{(i)}-x}{2\sigma ^{2}} \right ) w(i)=exp(−2σ2x(i)−x)

其中xxx是待预测的一个数据点。

对于上面的目标函数，我们的目标同样是求解使得损失函数最小化，同样局部加权线性回归可以采用梯度的方法，也可以从最小二乘法的角度给出闭式解。

▽θJ(θ)=XWXTθ−XWY=0⇒θ=(XWXTI)−1XWY\triangledown_{\theta } J(\theta )=XWX^{T}\theta-XWY =0\\ \Rightarrow \theta =\left (XWX^{T} I \right )^{-1}XWY ▽θJ(θ)=XWXTθ−XWY=0⇒θ=(XWXTI)−1XWY

其中WWW是对角矩阵，Wii=w(i)W_{ii}=w^{(i)}Wii=w(i)。

线性回归核心思想最小化平方误差，可以从最小化损失函数和最小二乘角度来看，优化过程可以采用梯度方法和闭式解。在闭式解问题中需要注意矩阵可逆问题。考虑到过拟合和欠拟合问题，有岭回归和lasso回归来防止过拟合，局部加权线性回归通过加权实现非线性表示。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。