1200字范文 > 决定系数均方误差mse_回归模型评价指标 SSE MSE RMSE MAE R-SQUARED

决定系数均方误差mse_回归模型评价指标 SSE MSE RMSE MAE R-SQUARED

时间：2021-12-12 15:54:06

分类问题的评价指标是准确率，

常见回归算法的评价指标有SSE, MSE，RMSE，MAE、R-Squared。

误差平方和 SSE(Sum of Squares due to Error)

该统计参数计算的是拟合数据和原始数据对应点的误差的平方和

公式如下：

SSE越接近于0，说明模型选择和拟合更好，数据预测也越成功。接下来的MSE和RMSE因为和SSE是同出一宗，所以效果一样

补充：

计算公式如下：

同样的数据集的情况下，SSE越小，误差越小，模型效果越好

缺点：

SSE数值大小本身没有意义，随着样本增加，SSE必然增加，也就是说，不同的数据集的情况下，SSE比较没有意义

均方误差 MSE(Mean Squared Error)

公式如下：

该统计参数是预测数据和原始数据对应点误差的平方和的均值，也就是SSE/n，和SSE没有太大的区别

均方根误差 RMSE(Root Mean Squard Error)

公式如下：

回归系统的拟合标准差，是MSE的平方根，用于数据更好的描述。

例如：要做房价预测，每平方是万元(真贵)，我们预测结果也是万元。那么差值的平方单位应该是千万级别的。那我们不太好描述自己做的模型效果。怎么说呢？我们的模型误差是多少千万？。。。。。。于是干脆就开个根号就好了。我们误差的结果就跟我们数据是一个级别的可，在描述模型的时候就说，我们模型的误差是多少万元。

平均绝对误差 MAE(Mean Absolute Error)

上面公式为了避免误差出现正负抵消的情况，采用计算差值的平方。还有一种公式也可以起到同样效果，就是计算差值的绝对值：

公式如下：

上面几个模型解决了样本数量 n 和量纲的影响。但是它们都存在一个相同的问题：当量纲不同时，难以衡量模型效果好坏。

举个例子，模型在一份房价数据集上预测得到的误差 RMSE 是 5 万元，在另一份学生成绩数据集上得到误差是 10 分。凭这两个值，很难知道模型到底在哪个数据集上效果好。

那如何比较不同量纲下模型的效果好坏呢？这就需要用到回归模型的第四个评价指标：R-平方。它的含义就是，既然不同数据集的量纲不同，很难通过上面的三种方式去比较，那么不妨找一个第三者作为参照，根据参照计算 R方值，就可以比较模型的好坏了。

这个参照是什么呢，就是均值模型。我们知道一份数据集是有均值的，房价数据集有房价均值，学生成绩有成绩均值。现在我们把这个均值当成一个基准参照模型，也叫 baseline model。这个均值模型对任何数据的预测值都是一样的，可以想象该模型效果自然很差。基于此我们才会想从数据集中寻找规律，建立更好的模型。

R-平方 R Squared

在讲确定系数之前，我们需要介绍另外两个参数SSR和SST，因为确定系数就是由它们两个决定的

(1)SSR：Sum of squares of the regression

即预测数据与原始数据均值之差的平方和，公式如下:

(2)SST：Total sum of squares

即原始数据和均值之差的平方和，公式如下:

我们的“确定系数”是定义为SSR和SST的比值，故

其实“确定系数”是通过数据的变化来表征一个拟合的好坏。由上面的表达式可以知道“确定系数”的正常取值范围为[0 1]，越接近1，表明方程的变量对y的解释能力越强，这个模型对数据拟合的也较好

————————————————————————————————————————

对于回归模型效果的判断指标经过了几个过程，从SSE到R-square再到Ajusted R-square, 是一个完善的过程：

SSE(误差平方和)：The sum of squares due to error

R-square(决定系数)：Coefficient of determination