1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 统计学——一元线性回归与多元线性回归

统计学——一元线性回归与多元线性回归

时间:2024-03-01 12:44:50

相关推荐

统计学——一元线性回归与多元线性回归

统计学(第6版) 贾俊平 读书笔记

第11章 一元线性回归

11.1 变量间关系的度量

变量之间的关系可分为两种类型,即函数关系和相关关系。其中,函数关系是一一确定的关系,给定一个自变量x,因变量y依确定的关系取相应的值;变量之间存在的不确定性的数量关系,则称为相关关系

相关系数

相关关系可以通过散点图和相关系数来反映。相关系数是根据样本数据计算的度量两个变量之间线性关系强度的统计量,其计算公式为:

按照上述公式计算的相关系数也称为线性相关系数,或称为Pearson相关系数

r的取值范围是[-1, 1]。若0 < r ≤ 1,表明x与y之间存在正线性相关关系;若-1 ≤ r < 0,表明x与y之间存在负线性相关关系。

r具有对称性,rxy = ryx。

11.2 一元线性回归

描述因变量y如何依赖自变量x和误差项ε的方程称为回归模型。只涉及一个自变量的一元线性回归模型可表示为:

回归模型中,假定ε的期望值等于0,因此y的期望值E(y) = β0 + β1x,也就是说,y的期望值是x的线性函数。描述因变量y的期望值如何依赖于自变量x的方程称为回归方程

若总体回归参数 β0和 β1是未知的,必须利用样本去估计它们。用样本统计量去代替回归方程中的未知参数 β0和 β1,这时就得到了估计的回归方程。对于一元线性回归,估计的回归方程形式为:

最小二乘法就是通过使因变量的观测值yi与估计值之间的离差平方和最小来估计β0和 β1。

回归直线与各观测点的接近程度称为回归直线对数据的拟合优度。因变量y的取值是不同的,y取值的这种波动称为变差。n次观测值的总变差可由这些离差的平方和来表示,称为总平方和(SST)

总平方和可以分解为两部分:回归值与均值的离差平方和称为回归平方和(SSR);实际观测点与回归值的残差的平方和称为残差平方和或误差平方和(SSE)。回归平方和占总平方和的比例称为判定系数(R2)

判定系数R2测度了回归直线对观测数据的拟合程度。R2的取值范围是[0, 1],R2越接近1,回归的拟合度就越好。相关系数r实际上是判定系数的平方根。

判定系数可用于度量回归直线的拟合程度,而残差平方和则可以说明实际观测值与回归估计值之间的差异程度。估计标准误差就是度量各实际观测点在直线周围的散布状况的一个统计量,它是均方残差的平方根,用se来表示,其计算公式为:

估计标准误差是对误差项ε的标准差σ的估计,反映了用估计的回归方程预测因变量y时预测误差的大小。

11.3 利用回归方程进行预测

利用估计的回归方程,对于x的一个特定值x0,求出y的一个估计值的区间就是区间估计。区间估计包括置信区间估计和预测区间估计。

置信区间估计

置信区间估计是对x的一个给定值x0,求出y的平均值的区间估计。设x0为自变量x的一个特定值或给定值;E(y0)为给定x0时因变量y的平均值或期望值。一般来说,估计值不能精确地等于E(y0)。对于给定的x0,可以使用以下公式计算估计值标准差:

有了估计值的标准差之后,对于给定的x0,E(y0)在1-α置信水平下的置信区间可以表示为:

当x0=x均值时,估计值y的标准差的估计量最小,估计是最准确的。x0偏离均值越远,y的平均值的置信区间就变得越宽,估计效果越不好。

预测区间估计

预测区间估计是对x的一个给定值x0,求出y的一个个别值的区间估计。

为求出预测区间,首先必须知道用于估计的标准差,y的一个个别值y0的标准差的估计量sind计算公式如下:

对于给定的x0,y0在1-α置信水平下的预测区间可表示为:

和置信区间相比,预测区间的根号内多了一个1。因此,即使是对同一个x0,置信区间和预测区间的宽度也是不一样的,预测区间要比置信区间宽一些。两者的差别表明,估计y的平均值比预测y的一个特定值更精确

第12章 多元线性回归

12.1 多元回归模型

在实际问题中,影响因变量的因素往往有多个,这种一个因变量同多个自变量的回归问题就是多元回归。

设因变量为y,k个自变量分别为x1,x2,…,xk,描述因变量y如何依赖自变量x1,x2,…,xk和误差项ε的方程称为多元回归模型

与一元线性回归类似,多元线性回归模型的ε项有以下基本假定:误差项ε是一个期望为0的随机变量;对于自变量的所有值,ε的方差σ2都相同;误差项ε是一个服从正态分布的随机变量,且相互独立,ε~N(0, σ2)。

根据回归模型的假定,有:

上式称为多元回归方程,它描述了因变量y的期望值与自变量之间的关系。

回归方程中的参数β是未知的,需要利用样本数据去估计它们,当用样本统计量去估计回归方程中的位置参数时,就得到了估计的多元回归方程:

回归方程中样本统计量也可以根据最小二乘法求得,也就是使残差平方和最小,让残差平方和关于参数的偏导数为零可以求解。

12.2 显著性检验

线性关系检验是检验因变量y与k个自变量之间的关系是否显著,也称为总体显著性检验。检验的具体步骤如下:

提出假设。

H0:β1=β2=…=βk=0

H1:β1,β2,…,βk至少有一个不等于0计算检验系数的统计量F。

回归平方和SSR和残差平方和SSE的计算方式同一元回归。

作出统计决策。

给定显著性水平α, 根据分子自由度=k, 分母自由度 = n - k - 1查F分布表得Fα。若F > Fα,则拒绝原假设,即自变量与因变量的线性关系是显著的。

在回归方程通过线性关系检验后,还要对各个回归系数βi有选择地进行一次或多次检验。回归系数检验的具体步骤如下:

提出假设。对于任意参数βi( i = 1, 2, …, k )有

H0:βi = 0

H1:βi ≠ 0计算检验的统计量t

作出统计决策。给定显著性水平α, 根据自由度 = n - k - 1查t分布表,得tα/2的值。若 | t | > tα/2,则拒绝原假设,自变量对因变量的影响是显著的。

12.3 多重共线性与变量选择

当回归模型中使用两个或两个以上的自变量彼此相关时,则称回归模型中存在多重共线性

当出现下列情况,暗示存在多重共线性:

模型中各对自变量之间显著相关;当模型的线性关系显著时,几乎所有回归系数βi的t检验却不显著;回归系数的正负号与预期的相反。

当回归模型存在多重共线性时,可以将相关的自变量进行剔除。

变量选择与逐步回归

在建立回归模型时,希望尽可能用最少的变量来建立模型。选择自变量的原则通常是对统计量进行显著性检验:讲一个或一个以上的自变量引入回归模型时, 是否使残差平方和(SSE)显著减少。如果增加一个自变量使SSE显著减少,则说明有必要将这个自变量引入回归模型,否则就没有必要将这个自变量引入。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。