多元线性回归SPSS

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

19
3.逐步回归法 (stepwise regression)
双向筛选 ;引入有意义的变量(前进法),剔除无
意义变量(后退法)
“先剔除后选入”原则
2014-11-12
20
逐步回归法

是进行双向筛选的一种方法。
自变量回归平方和最大的Xi首先进入方程,在Xi进入方程的基础
上计算其余m-1个自变量分别进入回归方程时的偏回归平方和, 其中最大者记为SSj,对Xj进行基于偏回归平方和的F检验,若有 意义则进入方程,并重新对Xi进行检验。若Xi退化为无意义,则 剔除Xi,同时再对Xj进行检验。若Xj依然有意义则继续选择下一
脑皮质毁损半径(Y)
=b0+b1射频温度(X1)+ b2照射时间(X2)
2014-11-12
27
二、多元线性回归应用的注意事项
1.指标的数量化
应变量Y为连续变量
自变量X可为连续、有序分类或无序分类变量
(1)连续变量:X
(2)有序分类变量: 1 X= 2 3
2014-11-12
轻 中 重
28
(3)无序分类变量:化为n-1个哑变量
4
5
2014-11-12
0
1 0
70
35 29

中西 西
4
5 6
0
1 0
70
35 29
0
0 1
0
1 0
32
6
数据格式回归方程
血 型 O A B AB X1 X2 X3
0 1 0 0
0 0 1 0
0 0 0 1
编号 1 2 3
X1
1 0 0 0
X2
0 0 1 0
X3
0 0 0 1
Y
n
建立回归方程
ˆ b b X b X b X Y 0 1 1 2 2 3 3
31
2014-11-12
无序多分类自变量的哑变量化
西、中西、中三种疗法
疗法 西 中西 中 X1 1 0 0 X2 0 1 0
1西 X1 0 其它
1 中西 X2 0 其它
疗法 中西 西 中
原资料
姓名 1 2 3 性别 年龄 1 1 0 50 20 18
哑变量化
序号 性别 年龄 X1 1 2 3 1 1 0 50 20 18 0 1 0 X2 1 0 0
500元)。表示中学文化较小学收入多500,大学较中学多500,
余类推。
2014-11-12
34
也可将K个等级转换为K-1个(0,1)变量
哑变量 小学 中学 大学 大学以上 X1 0 1 0 0 X2 0 0 1 0 X3 0 0 0 1
b1,b2,b3分别反映中学、大学、大学以上相对于 小学文化程度者经济收入差别的大小
多元线性回归分析 SPSS
方法:是简单直线回归的推广,研究一个应变量
与多个自变量之间的数量依存关系。 。
资料:应变量(Y)为定量指标;自变量(xi)全部
或大部分为定量指标,若有少量定性或等级指标 需作转换。
2014-11-12
2
多元线性回归模型的应用条件:
1.线性趋势(linear):自变量与因变量的关系是线性的,即Y与 Xi间具有线性关系 2.独立性(independence):应变量Y的取值相互独立,Cov(ei, ej )= 0 3.正态性(normality):对任意一组自变量取值,因变量Y服从正 态分布,ei~N(0,σ 2), 4.方差齐性(homogeneity):对任意一组自变量取值,因变量y的 方差相同,Var(ei)=σ 2 后两个条件等价于:残差ε 服从均数为0、方差为σ 2的正态 分布 这些条件缩写为LINE,是线性回归方程的核心。
Fj
SS l 回 X j / 1 SS残 (n p 1)
; 1 1; 2 n p 1
1.前进法 (forward selection)
自变量从无到有、从少到多
1. Y对每一个自变量作直线回归,对回归平方和最大的自变量 作F 检验,有意义(P小)则引入。 2. 在此基础上,计算其它自变量的偏回归平方和,选取偏回 归平方和最大者作F 检验,…。 局限性:即后续变量的引入可能会使先进入方程的自变量变得 不重要。
2014-11-12
4
方程的求解过程复杂,可借助于SPSS等统计软 件来完成

SPSS:分析→回归→线性→因变量:Y 自变量:x1-x4
2014-11-12
5
SPSS的操作界面
2014-11-12
6
SPSS结果
系数(a) 标准化系 数 Beta .078 .309 -.339 .398 t 2.101 .390 1.721 -2.229 2.623 显著性 .047 .701 .099 .036 .016

新生儿体重(Y)=b0+b1胎儿孕龄(X1)+ b2 胎儿头径 (X2)+ b3胎儿胸径(X3)+ b4胎儿腹径(X4)

心脏表面积(Y)=b0+b1心脏横径(X1)+ b2心脏纵径 (X2)+ b3心脏宽径(X3)
2014-11-12
26
3.统计控制:
利用回归方程进行逆估计,确定Y后控制X。
采用射频治疗仪治疗脑肿瘤:
何为哑变量 ?
在用某些统计方法(如回归分析)时,象治疗方式和疾病的严
重程度等多分类变量或有序变量是无法进行统计的。为了能将这类
变量进行分析(如回归分析),必须进行数量化处理,哑变量就
是把定性资料(如多分类变量和等级变量)数量化后转化
为定量资料的一种方法。因为如果将分类指标直接量化,这时
所以不能直接量化。哑变量的引入,扩大了统计分析方法(如回归 分析)的应用范围,但是在建立回归方程时一定要把它们作为一个
的数值是没有意义的:不能这样做,因为各类间你不能说谁大谁小,
整体来考虑是否引入方程。
2014-11-12
29
多分类变量定量化一般采用哑变量(dummy,又称 指示变量)表示(即0-1法):
x1 x2
1, 0, 0, 0, 0, 1, 0, 0,
x3
0 0 1 0 表示 I 组 表示II组 表示III组 表示Ⅳ组
2014-11-12
35
2.样本含量
n至少是X个数m的5~10倍
3.关于逐步回归
对逐步回归得到的结果不要盲目的信任,结合
专业知识。所谓的“最优”回归方程并不一定是最
好的,没有选入方程的变量也未必没有统计学意义。
2014-11-12
36
4.变量间的交互作用
是否考虑交互作用主要靠专业知识。为了检验两个自变量是 否具有交互作用,普遍的做法是在方程中加入它们的乘积项。
2014-11-12
18
2.后退法(backward elimination)
先将全部自变量放入方程,然后逐步剔除
1. 偏回归平方和最小的变量,作F 检验及相应的P值,
决定它是否剔除(P大) 。
2. 建立新的回归方程。重复上述过程。 局限性:自变量高度相关时,可能得不出正确的结果。
2014-11-12
模型适用条件的检验

方差齐性:即残差的大小不随所有变量取 值水平的改变而改变,上面的plot子对话 框提供两绘制反应变量与各种残差的残差 图,以标准化残差为Y轴,已标准化预测值 为X轴
2014-11-12
16
二、逐步选择法
从少到多逐个引入回归方程。此法已基本淘汰。
1. 前进法(forward selection):回归方程中的自变量从无到有、
非标准化系数 模型 1 (常量) x1 x2 x3 x4 a 因变量: y B 5.943 .142 .351 -.271 .638 标准误 2.829 .366 .204 .121 .243
2014-11-12
7
模型适用条件的检验
用张文彤SPSS高级篇中的数据reg为例 一、线性趋势 (1)散点图矩阵 (2)未标准化残差与该自变量(x1、x2) 的散点图
2014-11-12
3
例题1 :有学者认为糖尿病人的血糖变化可能受胰岛素、糖化血红蛋白、血清
总胆固醇、甘油三脂等多种生化指标的影响,现测量了27名糖尿病人的相关指
标,资料如下表所示,请对此作分析。
表2 27名糖尿病人的血糖及有关变量的测量结果
总胆固醇 序号 (mmol/L) i X1 1 2 3 27 5.68 3.79 6.02 3.84 X2 1.90 1.64 3.56 1.20 X3 4.53 7.32 6.95 6.45 X4 8.2 6.9 10.8 9.6 Y 11.2 8.8 12.3 10.4 (mmol/L) (U/ml) (%) (mmol/L) 甘油三酯 胰岛素 糖化血红蛋白 血糖

2014-11-12
8
模型适用条件的检验

二、各观测间相互独立:即任两个观测残 差的协方差为0,可利用残差图提供直观的 信息,对于残差间是否相互独立可通过线 性回归中统计量按钮中提供的DurbinWatson检验进行判断
2014-11-12
9
模型适用条件的检验
2014-11-12
10
ቤተ መጻሕፍቲ ባይዱ
模型适用条件的检验
估计参数。若经检验,拒绝
H0
X : z 0 ,便可认为除3
和4
X
的主效应
外还有交互作用。本例结果为
ˆ 0.7898 0.3690 X 1.2267 X 1.5097 X 0.1785 Z Y 2 3 4
经检验Z 的作用显著(P <0.01) ,说明糖尿病患者体内胰岛素对血糖 的影响依赖于糖化血红蛋白的含量。
作为基准
ˆ 1.77 2.89x1 0.73x2 0.69x3 y
2014-11-12
30
无序分类变量

当自变量为分类变量时的赋值方法

自变量为二分类变量时
X=
0男
1 女

自变量为多分类变量时:假定有k类,则k-1个取 值为0或1的哑变量(dummy variables)完整地 标记出这些类别。
2. 后退法(backward elimination):先将全部自变量选入方程,
然后逐步剔除无统计学意义的自变量。
3. 逐步回归法(stepwise regression):是在前述两种方法的基 础上,进行双向筛选的一种方法。该方法本质上是前进法。 它们的共同特点是每一步只引入或剔除一个自变量。决定其 取舍则基于对偏回归平方和的F 检验。
个偏回归平方和最大者并进行检验。重复此过程,直到既没有自
变量需要引入方程,也没有自变量从方程中剔除为止,从而得到 一个局部最优的回归方程。
2014-11-12
21
逐步回归法

每引入或剔除一个自变量后都要重新对已进入方程
中的自变量进行检验,直到方程外没有有意义的自
变量可引入、方程内也没有无意义的自变量可剔除
2014-11-12
24
多元线性回归的应用及其注意事项
一、多元线性回归的应用 1.影响因素分析:控制混杂因素
年龄(X1)
饮食习惯(X2)
吸烟状况(X3)
工作紧张度(X4)
家族史(X5)
2014-11-12
高血压(Y)

25
2.估计与预测:
预测:由自变量值推出因变量Y的值、容许区间和总 体均数的可信区间。
(X 2 ) 如对表 15- 2 数据的分析, 已经选出甘油三酯 (X3 ) 、 胰岛素

糖化血红蛋白( X 4 ) 三个变量,在方程中加入 X 3 X 4 项,如果这一乘积 项显著, 则说明胰岛素和糖化血红蛋白之间有交互作用。 为此需要定 义一个新的变量Z X 3 X 4 ,按方程
ˆ b b X b X b X b Z Y 0 2 2 3 3 4 4 Z
三、残差ei服从正态分布 可以通过绘制标准化残差的直方图、PP图(正 态概率图)和茎叶图进行。

2014-11-12
11
模型适用条件的检验
2014-11-12
12
模型适用条件的检验
2014-11-12
13
模型适用条件的检验
2014-11-12
14
模型适用条件的检验
2014-11-12
15
为止。
2014-11-12
22
逐步回归法

“先剔除后选入”原则 α入≤α出引入变量的检验水准要小于或等于 剔除变量的检验水准。
小样本检验水准a定为0.10或0.15,大样 本把a定为0.05。 a值越小表示选取自变量的
标准越严。
2014-11-12
23
逐步回归法实例(令α入=0.10,α出=0.15)
b1 :相当A 型相对于O 型的差别
2014-11-12
b2 :相当B 型相对于O 型的差别 b3 :相当AB 型相对于O 型的差别
33
(3)等级
定量。
一般是将等级从弱到强转换为
X 1,2,3, 或 X 0,1,2, )
如文化程度分为小学、中学、大学、大学以上四个等级。Y为经济
收入。
小学 1 中学 2 ˆ b b X Y X1 0 1 1 3 大学 大学以上 4 ˆ 增加b个单位(如: 解释:b(b1)反映X(X1) 增加1个单位,Y
相关文档
最新文档