1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 多元线性回归分析spss结果解读_SPSS案例实践笔记:多重线性回归分析

多元线性回归分析spss结果解读_SPSS案例实践笔记:多重线性回归分析

时间:2024-03-14 20:14:35

相关推荐

多元线性回归分析spss结果解读_SPSS案例实践笔记:多重线性回归分析

当只考察一个自变量对因变量的影响时,我们称之为简单一元线性回归,如果要多考察一些自变量,此时许多人习惯性将之称为多元线性回归,统计学上建议称之为多重线性回归,避免和多元统计方法冲突。

案例背景介绍

这是mei国50个州关于犯罪率的一组数据,包括人口、面积、收入、文盲率、高中毕业率、霜冻天数、犯罪率共7个指标,现在我们想考察一下州犯罪率和其他因素间的关系。SPSS变量视图如下:

研究目标是各州的犯罪率(因变量),可能的因素(自变量)是人口、面积、收入、文盲率、高中毕业率、霜冻天数。因变量犯罪率连续数值变量,有多个自变量,从研究目标和数据类型来看,可选用多重线性回归分析。

线性关系初步判断

线性回归要求每个自变量和因变量之间存在线性关系,可以依靠相关分析和散点图来初步判断。

犯罪率与文盲率、霜冻天数、高中毕业率、人口存在较为明显的线性关系,面积和其他变量普遍无关,越冷的地方文盲率越低、高中毕业率越高。

有统计学意义的相关系数依次为:0.703(文盲率)、-0.539(霜冻天数)、-0.488(高中毕业率)、0.344(人口)。除因变量外其他因素两两间相关系数均在0.7以下,因素间没有强相关关系存在,初步提示共线性问题较弱。

以上分析表明,并不是所有因素都有犯罪率存在明显线性关系,如果我们构建多重线性回归,这可能涉及到自变量筛选的问题,可优先选择逐步回归的方法。

共线性问题是由于自变量间存在强相关关系造成的,它的存在对回归是有影响的,现在我们需要观察6个自变量间的共线性问题,最为常见的依据则是关注容忍度Tol和方差膨胀因子VIF。

SPSS在线性回归中可以是输出这两个指标,来看一下具体情况:

VIF是Tol的倒数,所以它们两个其实是一回事,我们只需要解读其一即可。一般认为如果某个自变量的容忍度Tol<0.1,则可能存在严重共线性问题。反过来就是VIF>10提示存在较为严重共线性问题。

本例中所有自变量的Tol值大于0.2,提示没有特别严重的共线性问题,综合相关系数的表现我们说这组数据自变量间共线性问题并不严重可忽略。

开始逐步线性回归

线性回归还要求残差独立、残差正态性、残差方差齐次,这些内容我们可以在回归后做残差诊断,异常值影响也放在回归后进行检查判断。

现在,我们开始逐步回归。

在【统计】按钮对话框中,建议在默认选项上新增【共线性诊断】、残差【德宾沃森】、残差【个案诊断】(3倍标准差)。德宾沃森检验残差独立性,残差个案诊断排查离群点。

除了考虑残差标准差检查离群点外,建议新增【库克距离】(它综合残差和杠杆值)来诊断强影响点。

除了【残差直方图】【残差正态图】外,增加绘制一个以标准化预测值为横轴,标准化残差为纵轴的散点图,主要用来判断残差正态性、残差方差齐次基本条件。

好了,其他参数默认设置。执行。

回归分析结果解读

逐步回归显示,6个自变量中的文盲率和人口数依次被纳入模型,其他自变量没有进入模型。前后两个模型我们依据调整后的R方,认为模型2更优秀,此时模型可解释因变量总变异的54.8%。不算高也不算低,还有待继续提升。

德宾沃森统计量值为2.18,接近2,认为残差具有独立性,满足条件。

此后我们就只读取模型2的结果。模型显著性检验,P<0.05,说明模型中人口数、文盲率至少有一个是有统计学意义的。模型有统计学意义。

两个自变量对犯罪率影响均有统计学意义。共线性问题可忽略。先不着急写出方程式。

标准化残差正态PP图,大多数点落在对角线直线上,可认为残差正态,满足条件。

标准化残差散点图,各点分布相对均匀,没有发现可循规律变化 。可认为残差方差齐次。

以上我们就残差独立性、残差正态性、残差方差齐次均作出诊断,认为均满足条件。

接下来看看有没有异常值对模型拟合产生影响。

首先看看标准化残差离群点。残差个案诊断表明Nevada州标化残差3.094>3,可能是一个离群点,可考虑处理。

再看一下强影响点,最大COOK距离0.196<0.5,基本认为没有强影响点。

回归分析结果优化

我们现在尝试剔除Nevada州的个案数据,看看新的回归模型表现如何。

调整后R方值=0.636,和上一个模型(0.548)相比,提升是明显的,即新模型拟合质量明显提升。

现在写出多重线性回归方程式:

Y=4.359*文盲率+0.000251*人口数+1.052

本例中,文盲率的回归系数4.4,表示控制其他因素不变时,文盲率上升1%,犯罪率将会上升4.4%。总体来看,我们所得模型可解释各州犯罪率64%的方差(变异)。

全文完

图/文=数据小兵

参考自:《R语言实战》第2版。

好文推荐阅读

本文配套案例数据下载

加入博客配套知识星球,下载本案例数据文件,对照练习,有问题请在知识星球内讨论。

数据小兵坚持写博客已经

坚持写微信公号文章6年

坚持更新SPSS视频课程2年

坚持一对一答疑讨论2年

欢迎加入SPSS视频课程

竭诚服务

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。