Regularized linear regression
1.引入1.1梯度下降法1.2正规方程法1.引入
接着上一篇文章的讲述,在上一篇文章中,我们将代价函数变为J(θ)=12m[∑i=1m(hθ(x)−y)2+λ∑i=1nθj2]J(\theta)=\frac{1}{2m}[\sum_{i=1}^m(h_{\theta}(x)-y)^2+\lambda \sum_{i=1}^n\theta_j^2]J(θ)=2m1[i=1∑m(hθ(x)−y)2+λi=1∑nθj2]接下来,我们将分别讨论梯度下降法和直接使用矩阵求逆方法在J(θ)J(\theta)J(θ)改变之后发生的变化。
1.1梯度下降法
梯度下降法需要更新的θj\theta_jθj如下所示:θj=θj−α∂∂θjJ(θ)\theta_j=\theta_j-\alpha \frac{\partial}{\partial{\theta_j}}J(\theta)θj=θj−α∂θj∂J(θ)对J(θ)J(\theta)J(θ)求导后我们可以发现θj\theta_jθj的更新由原来的θj=θj−α1m∑i=1m(hθ(xi)−yi)xji\theta_j=\theta_j-\alpha \frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^i)-y^i)x^i_jθj=θj−αm1i=1∑m(hθ(xi)−yi)xji变成了θ0=θ0−α1m∑i=1m(hθ(xi)−yi)xji(θ0不参与更新)\theta_0=\theta_0-\alpha \frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^i)-y^i)x^i_j(\theta_0 不参与更新)θ0=θ0−αm1i=1∑m(hθ(xi)−yi)xji(θ0不参与更新)
θj=θj−α[1m∑i=1m(hθ(xi)−yi)xji+λmθj]\theta_j=\theta_j-\alpha[ \frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^i)-y^i)x^i_j+\frac{\lambda}{m}\theta_j]θj=θj−α[m1i=1∑m(hθ(xi)−yi)xji+mλθj]将第二个式子化简,我们可以得到θj=θj(1−αλm)−α1m∑i=1m(hθ(xi)−yi)xji\theta_j=\theta_j(1-\alpha\frac{\lambda}{m})-\alpha \frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^i)-y^i)x^i_jθj=θj(1−αmλ)−αm1i=1∑m(hθ(xi)−yi)xji其中,1−αλm1-\alpha\frac{\lambda}{m}1−αmλ是一个小于一但是很接近1的值
1.2正规方程法
之前我们有θ=(XTX)−1XTy\theta=(X^TX)^{-1}X^Tyθ=(XTX)−1XTy J(θ)J(\theta)J(θ)正则化后,变成了
这样做还有一个好处是,括号里的这一项一定可逆。
下节课我们将讲logistic regression的正则化对方法的具体改变。