均方误差MSE(Mean Square Error)
MSE=1m∑i=1m(hi(x)−yi)2MSE = \frac{1}{m}\sum_{i=1}^m (h_i(x) - y_i)^2MSE=m1i=1∑m(hi(x)−yi)2
比如两组样本:
第一组有以下三个样本:3,4,5
第二组有以下三个样本:2,4,6
这两组的平均值都是4,但是第一组的三个数值相对更靠近平均值,也就是离散程度小,均方差就是表示这个的。
同样,方差、标准差(方差开根,因为单位不统一)都是表示数据的离散程度的。
在机器学习中,真实值与预测值的差值的平方和求平均,常被用做线性回归损失函数。
均方根误差RMSE(Root Mean Square Error)
RMSE=1m∑i=1m(hi(x)−yi)2RMSE = \sqrt{\frac{1}{m}\sum_{i=1}^m (h_i(x) - y_i)^2}RMSE=m1i=1∑m(hi(x)−yi)2
均方根误差是用来衡量观测值同真值之间的偏差,均方根误差是预测值与真实值偏差的平方与观测次数n比值的平方根,在实际测量中,观测次数n总是有限的,真值只能用最可信赖(最佳)值来代替。
常用来作为机器学习模型预测结果衡量的标准。
平均绝对误差MAE(Mean Absolute Error)or MAD
MAE=1m∑i=1m∣hi(x)−yi∣MAE= \frac{1}{m}\sum_{i=1}^m |h_i(x) - y_i|MAE=m1i=1∑m∣hi(x)−yi∣
平均绝对误差是所有单个观测值与算术平均值的偏差的绝对值的平均。平均绝对误差由于离差被绝对值化,可以避免误差相互抵消的问题,因而可以准确反映实际预测误差的大小。可以更好地反映预测值误差的实际情况。
方差(variance/deviation Var)
D=1m∑i=1m(xi−avg(x))2D = \frac{1}{m}\sum_{i=1}^m(x_i - avg(x))^2D=m1i=1∑m(xi−avg(x))2
标准差SD(Standard Deviation)
由于方差是数据的平方,与检测值本身相差太大,人们难以直观的衡量,所以常用方差开根号换算回来这就是我们要说的标准差。标准差是方差的算术平方根。标准差是用来衡量一组数自身的离散程度,是表示精确度的重要指标。一般用σ\sigmaσ表示。
SD=1m∑i=1m(xi−avg(x))2SD = \sqrt{\frac{1}{m}\sum_{i=1}^m(x_i - avg(x))^2}SD=m1i=1∑m(xi−avg(x))2
avg(x)是平均值avg(x)是平均值avg(x)是平均值
协方差(Covariance)
Cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY]−2E[Y]E[X]+E[X]E[Y]=E[XY]−E[X]E[Y]\begin{aligned} Cov(X,Y)&=E[(X-E[X])(Y-E[Y])] \\ &= E[XY]-2E[Y]E[X]+E[X]E[Y]\\ &= E[XY]-E[X]E[Y] \end{aligned}Cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY]−2E[Y]E[X]+E[X]E[Y]=E[XY]−E[X]E[Y]
协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
如果X与Y是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足E[XY]=E[X]E[Y]E[XY]=E[X]E[Y]E[XY]=E[X]E[Y]。
但是,反过来并不成立。即如果X与Y的协方差为0,二者并不一定是统计独立的。