1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 利用SPSS实现逻辑回归 树模型 以及广义线性模型

利用SPSS实现逻辑回归 树模型 以及广义线性模型

时间:2021-10-12 21:40:38

相关推荐

利用SPSS实现逻辑回归 树模型 以及广义线性模型

本案例是IBM SPSS数据分析与挖掘实战案例精粹----第九章的学习记录

案例背景:分析出导致急救后迟发性颅脑损伤的主要影响因素,共有201项案例:

分析思路:先使用logistic回归模型进行影响因素筛选,然后利用分类树探索自变量中是否存在交互作用,最后利用广义线性模型过程拟合带交互项的Logistic回归模型

字段:性别,年龄,收缩压,舒张压,血小板,脑挫伤,中线位移,脑肿胀,入院意识,是否手术急救,其余急救措施,是否出现迟发性脑损伤;(数据无缺失)

1、对于数值型的因变量,可以通过查看因变量情况自变量分布情况,或者比较均值等查看其相关性

2、对于分类型变量,可以使用卡方检验

卡方检验:在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

a,pearson卡方:最标准,最常用,样本充足时使用;

b,连续性校正卡方检验:当样本n≥40时,如果只有1/5以下单元格期望频数1≤T ≤5。

c,Fisher确切概率法;d,似然比卡方;e,线性卡方:

可以通过分析----描述统计----交叉表来实现卡方检验,但是检验结果会分成多个表,阅读较困难;

也可以 通过 :分析---表---设定表,然后将自变量和因变量分别拖到行列框,在检验统计量中选择卡方检验,结果如下:

从经验上讲,P值小于0.2的变量可以考虑随后的建模中继续探索,P值大于0.2的(除非专业上有很明确的意义),否则不做重点考察;

对连续变量进行t检验:

分析---表---设定表,然后将自变量和因变量分别拖到行列框,在检验统计量中选择t检验,结果如下:

构建二分类logistic回归模型:

适用条件:1)因变量为二分类的分类变量,或某事件的发生率;2)自变量与logit(p)之间为线性相关;3)残差合计为0,且服从二项分布;4)各观测对象间相互独立;

建立模型:

分析----回归----二元logistic

将所有相关的自变量全部拖到协变量(连续变量)列表框;选择“分类“按钮,将意识程度选入“分类协变量”(将自动进行编码,转化为二元分类变量--哑变量(同进同出,哑变量本身是一个分类变量按其n个水平值拆出来的n-1个变量,所以要么一起进入模型要么一起不进入模型。);

上图结果解读,表示当某个参数引入时,对模型的改善程度(score),sig<0.05的变量才有引入的价值,结果仅供参考;

上图结果解读,可以看到各个变量的相关统计量,一般认为sig>0.05的变量没有纳入的价值;

、构建最终模型(变量筛选):只使用舒张压,使用激素,ln血小板三个自变量;

和全模型相比,只增加了两个错误的案例,可以认为效果相差不大;

结果解读,激素的影响最大,最终的回归方程logit(p) = 44.575-1.211*舒张压-9.998*使用激素-5.497*ln(血小板)

利用树模型发现交互项:

问题:1、自变量与因变量之间是简单的线性关系吗?2、对迟发性颅脑损伤,各变量之间是否有相互左右?

CHAID:用卡方检验作为树分类的基本方法,因此只适用于分类变量,其次为多叉树

CRT:分类树与回归树,当为连续型变量时,为回归树,适用于分类变量和连续变量,二叉树

QUEST?:二叉树

建模:分析----分类----树;因变量与自变量选择;增长方法:CRT;“输出”---树---输出方向---从左自右---树节点内容:表和图表

“输出”---“统计量”---自变量---对模型的重要性(继续);

“条件”---增长限制---最小个案数:父节点:30,子节点:5(继续);确定;

构建树如下:

重要性排在前三的自变量分别是舒张压,血小板自然对数,和是否使用激素;与logistic分析结论完全一致;

使用广义线性过程进行分析

广义线性模型组成部分:

1、因变量:不同取值间相互独立,服从指数簇概率分布,它可能不具有稳定的方差,但方差必须能够表达为依赖于均数的函数;

2、线性部分:和传统线性模型没什么区别

3、连接函数:用于描述因变量的期望值如何与线性预测值相关联

广义线性模型扩展了传统线性模型:

1、将因变量的分布范围从正态分布扩展到二项分布,Poission分布,负二项分布等指数分布簇

2、通过连接函数,把因变量取值变换到自变量的线性预测的取值范围

建立模型:“分析”----“广义线性模型”----“广义线性模型”

“模型类型”----连接函数选“二元logistic”

“响应”----“迟发脑损伤”放入“因变量”,“二元响应”----参考类别----第一个值

“预测”----“激素”选入“因子”,“舒张压”和“血小板自然对数”选入“协变量”

“模型”----将“构建项模型”----“交互”----“舒张压”和“ln血小板”的交互项选入模型

在最后的结果中:会出现“舒张压”*“ln血小板”项的检验;

总结:

1、对预防迟发性脑损伤作用最大的指标是在急救中使用激素,结果显示使用激素之后迟发性脑损伤的风险会下降至原先的1/200000

2、相比之下,舒张压和血小板对数值虽然有作用,但其作用明显弱于激素

3、其他因素对迟发性脑损伤均无作用

4、血小板与舒张压对数值间存在协同性的正向交互作用

模型总结:

1、logistic回归可以给出的简单的明确的回归方程,清晰易懂的结果解释,但是它明确地将自变量和logit P的关系定位线性,在进行交互项和检验方面比较笨拙;

2、树模型长于预测,发现变量间潜在的交互作用,但无法给出明确的模型表达式,且在分析中需要较大的样本量,否则很有可能有价值的信息,当样本量充足时,它可能给出太多的信息以至分析者无法从中理清各影响因素的主次关系;

3、模型过于复杂,难以理解,但是可以探索模型因子的交互作用

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。