卫生统计学:12多重线性回归分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
.3 42 .4 44 .2 60
t -2.09 1 2.182 2.889 1.406
Si g . .0 53 .0 44 .0 11 .1 79
为什么要筛选自变量?
变量多增加了模型的复杂度 计算量增大 估计和预测的精度下降 模型应用费用增加
筛选自变量的常用方法:
全局择优法
Model 1
(Const ant )
B -2262.081
St d. Error 1081 .870
X1
48.135
22.058
X2
38.550
13.346
X3
104.585
74.361
a. Dependent Variable: Y
St andardized Co effi ci ents
Bet a
情况下,自变Hale Waihona Puke BaiduXj每改变一个单位时,单独引 起应变量 y 的平均改变量
参数估计
求参数估计值的常用方法是最小二乘法,即使残差平 方和达到最小的方法
假设检验
• 对整个回归方程进行假设检验
F
SS回归 /回归
MS回归
SS误差 /(n 回归 1) MS误差
• 对偏回归系数进行假设检验
t(bj)=bj/s(bj)
说明所有自变量与Y间的线性相关程度。
如果只有一个自变量,此时 R | r |

校正决定系数(Adjusted
determination coefficient)
Rc2
1 (1
R2)
n 1 (n 1)
p
1
SS残 /(n 1 p) SS总 /(n 1)
=1- MS残 =1 746890.506 /16 0.740
可以是分类变量,但分类变量的个数不宜超过自 变量个数的1/3
• 各自变量彼此独立 • 各个自变量取不同值的组合时应变量服从正态分
布且方差齐
模型的构造
yˆ b0 b1x1 … bmxm
式中,b0 为截距,bj ( j=1,2,…,m )为偏回归系数
• 偏回归系数 bj :表示在其他自变量固定不变的
第 十 五 章
流行病与卫生统计学教研室 胡利人
引言
多因素分析是研究多种因素互相联系、互相制约 的规律性的一个重要而活跃的统计学分支。70年 代后在医学领域应用广泛,常用的方法有:
多重线性回归(多元线性回归) logistic 回归 Cox 回归 判别分析、聚类分析 主成分分析、因子分析
Model
B
Std. Error
1
(Constant) -2262.081 1081 .870
X1
48.135 22.058
X2
38.550 13.346
X3
104.585 74.361
a. Dependent Variable: Y
St an d ard ized Co efficients
Bet a
216.0570680
Std.Error of the Estimate (剩余标准差)
SY ,12...m
(Y Yˆ)2 /(n m 1)
SS残(n m 1) MS残
46680.657 216.057
反映了回归方程的精度,其值越小说明回归 效果越好
决定系数(determination coefficient)
df 1
18 19
2 17 19
3 16 19
2 17 19
Mean Sq uare 2042 821.830
7603 0.73 2
1221 095.274 5701 0.85 0
8881 61.4 98 4668 0.65 7
1286 073.226 4936 6.38 5
Si g . .0 53 .0 44 .0 11 .1 79
标准化回归系数(可说明各自变量相对贡献大小)
bj b j
l jj lYY

bj
C
l jj oelfYfYi
/(n 1)
/(n
ci e n
tas 1)
bj
Sj SY
Unstand ardized Co efficients
Model
多重线性回归分析
用途
探讨多个自变量与应变量之间的依存关系以及各 个自变量对应变量的相对贡献大小,从而探讨应 变量的主要影响因素
人的体重与身高、胸围 血压值与年龄、性别、劳动强度、饮食习惯、
吸烟状况、家族史 糖尿病人的血糖与胰岛素、糖化血红蛋白、血清 总胆固醇、甘油三脂
应用条件
• 应变量为定量变量,自变量可以是定量变量,也
ANO VAe
Model 1
Sum of Sq uares Regressi on 2042 821.830
Resi dual
1368 553.170
Tot al
3411 375.000
2
Regressi on 2442 190.549
Resi dual
9691 84.4 51
Tot al
3411 375.000
【例15-1】 为探讨女大学生的体重、胸围 与胸围呼吸差对肺活量的影响,某研究者调 查了20名女大学生的相关资料,见表15-1, 并分别用体重、胸围与胸围呼吸差对肺活量 进行线性回归分析
多重线性回归分析的步骤
(一)估计各项参数,建立多重线性回归方程模型 (二)对整个模型进行假设检验,模型有意义的前提 下,再分别对各偏回归系数进行假设检验。 (三)计算相应指标,对模型的拟合效果进行评价。
SS回( j) (n p 1)
;1
1; 2

n

p
1
向后剔除法:先建立一个包含全部自变量的回归 方程,然后每次剔除一个无统计学意义的自变量, 直到不能剔除时为止。此法计算量大,有时不能 实现
向前引入法:由一个自变量开始,每次引入一个 有统计学意义的自变量,由少到多,直到无自变 量可以引入为止。此法建立的方程有时不够精炼
Model
B
Std. Error
Bet a
1
(Constant) -2262.081 1081 .870
t -2.09 1
X1
48.135 22.058
.3 42 2.182
X2
38.550 13.346
.4 44 2.889
X3
104.585 74.361
.2 60 1.406
a. Dependent Variable: Y
逐步筛选法:取上述两种方法的优点,引入和剔 除交替进行,直到无变量可以引入,同时也无自 变量可以剔除为止。目前比较常用
SPSS操作
Analyze→Regression→Linear Dependent :Y Independent(s):X1、X2、X3 Method:Stepwise OK
MS总
3411375.000 /19
Rc2 R2,考虑了自变量个数的影响
Rc2 0.4, 方程拟合效果较差 0.4 Rc2 0.7, 拟合效果一般 Rc2 0.7, 拟合效果好
多重线性回归自变量的选择
C oe fficien tas
Unstand ardized Co efficients
t -2.09 1 2.182 2.889 1.406
Si g . .0 53 .0 44 .0 11 .1 79
(三)有关评价指标
R (复相关系数)
0.884
R Square (决定系数)
0.781
Adj R-Sq (校正决定系数)
0.740
Std.Error of the Estimate (剩余标准差)
ANO VAb
Model 1
Sum of Squ ares Regressi on 2664 484.4 94
Resi dual
7468 90.50 6
Tot al
3411 375.0 00
a. Predictors: (Constant), X3, X2, X1 b. Dependent Variable: Y
.8 84a
.7 81
.7 40 216.0570 680
a. Predictors: (Constant), X3, X2, X1
R (复相关系数)
0.884
R Square (决定系数)
0.781
Adj R-Sq (校正决定系数)
0.740
Std.Error of the Estimate (剩余标准差)
3
Regressi on 2664 484.494
Resi dual
7468 90.5 06
Tot al
3411 375.000
4
Regressi on 2572 146.452
Resi dual
8392 28.5 48
Tot al
3411 375.000
a. Predictors: (Constant), X 3 b. Predictors: (Constant), X 3, X2 c. Predictors: (Constant), X 3, X2, X1 d. Predictors: (Constant), X 2, X1 e. Dependent Variable: Y
216.0570680
Yˆ 2262.081 48.135X1 38.550X2 104.585X3
ANO VAb
Model
Sum of Squ ares
1
Regression 2664 484.4 94
df Mean Sq uare 3 8881 61.49 8
Res i d u al
7468 90.50 6
16 4668 0.657
To t al
3411 375.0 00
19
a. Predictors: (Constant), X3, X2, X1
b. Dependent Variable: Y
C oe ffi ci e n tas
F 19.026
U nstand ardi zed Co effi ci ents
校正决定系数、Cp准则、AIC准则
逐步选择法
后退法 前进法 逐步回归法
(一)全局择优法
根据一些准则建立 “最优”回归模型
校正决定系数(考虑了自变量的个数) Cp准则(C即criterion,p为所选模型中变量的个 数;Cp接近(p+1)模型为最优) AIC (Akaike’s Information Criterion)准则;
B
Std. Error
1
(Constant) -2262.081 1081 .870
X1
48.135 22.058
X2
38.550 13.346
X3
104.585 74.361
a. Dependent Variable: Y
St an d ard ized Co efficients
Bet a
.3 42 .4 44 .2 60
多重线性回归方程的建立
Analyze→Regression→Linear Dependent :Y Independent(s):X1、X2、X3 Method:Enter OK
Mo del S um mary
Model 1
Std. Error of
R R Square Adju sted R Square the E stimate
AIC越小越好
(二)逐步选择法
1. 前进法(forward selection) 2. 后退法(backward elimination) 3. 逐步回归法(stepwise regression)
它们的共同特点是每一步只引入或剔除一 个自变量。决定其取舍则基于对偏回归平
方和的F 检验
Fj

SS回 SS残
R2 SS回 1 SS残
SS总
SS总
2664484.494=0.781 3411375.000
说明所有自变量能解释Y变化的百分比。取 值(0,1),越接近1模型拟合越好

复相关系数(multiple correlation coefficient)
R R2 0.781 0.884
.3 42 .4 44 .2 60
t -2.09 1 2.182 2.889 1.406
Si g . .0 00a
Si g. .0 53 .0 44 .0 11 .1 79
回归方程的假设检验与评价
(一)回归方程的假设检验 (二)偏回归系数的假设检验 (三)有关评价指标
(一)回归方程的方差分析
H0:所有回归系数为0 H1:至少有一个回归系数不为0
df 3
16 19
Mean Sq uare 8881 61.49 8
4668 0.657
F 19.026
Si g. .0 00a
(二)偏回归系数的假设检验及其评价
各偏回归系数的t检验
C oe fficien tas
Unstand ardized Co efficients
St an d ard ized Co efficients
相关文档
最新文档