1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 线性回归相关系数c语言 线性回归方程和线性相关系数计算实例

线性回归相关系数c语言 线性回归方程和线性相关系数计算实例

时间:2021-02-10 12:24:21

相关推荐

线性回归相关系数c语言 线性回归方程和线性相关系数计算实例

回归分析是一种统计分析方法,用于研究多个统计量之间的关系,并利用关系进行预测。线性回归模型是最简单的回归分析模型,下面我们应用线性回归来预测票房。

图8-5是计算机模拟生成的500个数据点,每个点表示一部电影,横坐标是预告片搜索量,纵坐标是票房。图8-5称为散点图,是统计分析中最简单、最常用的图,用于对数据的规律做初步观察。观察图8-5可以发现,这些数据点大多分布在一条直线附近,这条直线代表了这些数据的分布规律,线性回归要做的就是根据散点图找到这条直线,这一过程也称为线性拟合。

图8-5首周票房和预告片搜索量的散点图

设拟合直线的方程是y=ax+b,x表示预告片搜索量,y表示首周票房。线性回归的目标是找到最能体现数据特征的直线,也就是说,这条直线需要尽可能地“接近”所有数据。衡量多个点和一条直线之间的“接近程度”,最常用的指标是误差平方和。图8-6是误差平方和的一个示意图,基础数据包含4个点(图中的空心圆圈),这四个点的X坐标分别对应拟合直线上的四个Y坐标,图中四条虚线的长度的平方和就是误差平方和,使误差平方和最小的那条直线就是最佳拟合直线,这种求解方法也称为最小二乘回归法。

图8-6误差平方和示意图

当误差平方和达到最小值时,可以计算出a和b的值为

至此便计算出了最佳拟合直线的表达式。

在处理线性回归问题时,我们可以把数据代入公式中进行计算,也可以使用统计软件,如Excel、R、SPSS等常用统计软件都有线性回归函数,我们只需要做少量的操作或编码就可以计算出线性回归的结果。

经计算,票房和搜索量的线性回归直线方程是:

y=3.5x+13.6

这条直线代表了票房和搜索量之间的关系,如图8-7所示。我们可以使用这条直线来预测票房,比如,某部即将上映的影片,预告片搜索量是12万次,即x=12,根据直线方程可以计算出y=55.6,因此我们预测这部影片的首周票房是55.6万美元。

图8-7线性回归结果

除了直线方程,我们还可以计算另一个量化指标——相关系数。相关系数可以帮助我们判断两个变量的线性相关关系。此前,我们观察散点图,已经发现票房和搜索量之间近似存在线性相关关系,这只是感性判断,相关系数是对线性相关关系的理性判断。

相关系数r的计算公式为

r=a×Sx/Sy

式中,a是直线方程中的a,Sx表示X的标准差,Sy表示Y的标准差。如图8-8所示,r可以是-1~1的任意数值,其中最特别的三个数值是-1、1和0,含义如下:

r=-1表示y和x存在负相关关系,即a是负数;

r=1表示y和x存在正相关关系,即a是正数;

r=0表示y和x不存在任何线性相关关系,即a=0,不存在拟合直线。

图8-8线性相关系数r的示意图

在实际问题中,r的值大多不会是-1、1或0,但我们可以借助它们的含义来判断线性相关关系。比如,当r=0.9时,我们认为r的值接近1,y和x存在近似的正相关关系;当r=-0.9时,我们认为r的值接近-1,y和x存在近似的负相关关系;当r=0.05时,我们认为r的值接近0,y和x几乎不存在线性相关关系。

至此,我们计算出了线性回归方程和线性相关系数。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。