多重线性回归
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
a. Predic to rs: (Cons tant), 糖 化血 红 蛋 白 , 甘 油三 脂 , 胰 岛素 , 总 胆固 醇 b. Dep endent Variable: 血 糖
(二)多元线性回归方程的评价
软件有关结果
复相关系数:应变量与多个自变量间的线性相关程度
决定系数:自变量能够解释Y变化的百分比 校正决定系数:反映模型的拟合优度,考虑了自变量的个数
目的:作出以多个自变量估计应变量的 多元线性回归方程 资料:
应变量为定量指标 自变量最好全部或大部分是定量指标,如有 少数定性或等级指标要转换成定量
用途:解释和预报
多元回归分析数据格式
一、回归模型简介
(一)多元线性回归模型的一般形式
(二)多元线性回归分析的一般步骤
二、多元线性回归方程的建立
例15-3逐步回归的方差分析结果
ANOVAf Model 1 Sum of Squares 82.714 139.837 222.552 107.790 114.762 222.552 121.748 100.804 222.552 133.711 88.841 222.552 133.098 89.454 222.552 df 1 25 26 2 24 26 3 23 26 4 22 26 3 23 26 Mean Square 82.714 5.593 53.895 4.782 40.583 4.383 33.428 4.038 44.366 3.889 F 14.788 Sig . .001a Reg ression Residual Total Reg ression Residual Total Reg ression Residual Total Reg ression Residual Total Reg ression Residual Total
(Constant) 总 胆 固醇 甘 油 三脂 胰岛素 糖 化 血红 蛋 白
a. Dep endent V ariable: 血 糖
bj b j
l jj lYY
bj
ຫໍສະໝຸດ Baidu
l jj /( n 1) lYY /( n 1)
bj
Sj SY
自变量的选择
1. 2. 3. 4. 变量多增加了模型的复杂度 计算量增大 估计和预测的精度下降 模型应用费用增加
2
4.校正决定系数( Adjusted determination coefficient)
88 .8412 / 22 =1- =1 0.5282 MS总 222 .5519 / 26
2 Rc
MS 残
R , 考虑了自变量个数的影 响
2
四、各自变量贡献大小的 假设检验及其评价
(一)各回归系数的t检验
Coefficientsa Unstandardized Coefficients B Std. Error 5.943 2.829 .142 .366 .351 .204 -.271 .121 .638 .243 Standardized Coefficients Beta .078 .309 -.339 .398 Model 1 t 2.101 .390 1.721 -2.229 2.623 Sig . .047 .701 .099 .036 .016
2 “最优”回归方程指Rc 最大者,此时MS残最小
(一) Cp准则的计算公式
1964年CL Mallows 提出 ( SS 残 ) p Cp ( n 2 p) ( MS 残 ) m ( n p 1)( MS 残 ) p ( MS 残 ) m ( n 2 p)
C p 接近(p 1)的模型为最佳
如果自变量个数为4,则所有的回归 有24-1= 15个;当自变量数个数为10时, 所有可能的回归为 210-1= 1023个;。。 。。。。;当自变量数个数为50时,所有 可能的回归为250-1≈1015个。
二、逐步选择法
1. 前进法(forward selection) 2. 后退法(backward elimination) 3. 逐步回归法(stepwise regression)。 它们的共同特点是每一步只引入或剔除一 个自变量。决定其取舍则基于对偏回归平 方和的F 检验
2
11.271
.000b
3
9.260
.000c
4
8.278
.000d
5
11.407
.000e
a. Predic t o rs: (Cons tant), 糖 化血 红 蛋 白 b. Predic t o rs: (Cons tant), 糖 化血 红 蛋 白 , 总 胆固 醇 c. Predic t o rs: (Cons tant), 糖 化血 红 蛋 白 , 总 胆固 醇 , 胰 岛素 d. Predic t o rs: (Cons tant), 糖 化血 红 蛋 白 , 总 胆固 醇 , 胰 岛素 , 甘 油三 脂 e. Predic t o rs: (Cons tant), 糖 化血 红 蛋 白 , 胰 岛素 , 甘 油三 脂 f. Dep endent Variable: 血 糖
建立多元回归方程
三、多元线性回归方程的 假设检验及其评价
(一)回归方程的方差分析
方差分析的假设为 一元线性回归:H0: =0 H1: 0 多元线性回归: H0: 1= 2=…= m=0 H1: 1, 2,…, m中至少有一个不等于零 因此方差分析的结论是线性回归方程是否显 著,是否有意义。
结果:预报效果好,但不能保证每个X对Y 的作用都显著
校正决定系数( Adjusted determination coefficient)
SS 残 /( n 1 p) n1 R 1 (1 R ) 1 ( n 1) p SS总 /( n 1)
2 c 2
MS 残 88.8412 / 22 =1- =1 0.5282 MS 总 222.5519 / 26
多元线性回归方差分析表及例15-1的方差分析表
ANOVAb Model 1 Sum of Squares 133.711 88.841 222.552 df 4 22 26 Mean Square 33.428 4.038 F 8.278 Sig . .000a
Reg ression Residual Total
Coefficientsa Unstandardized Coefficients B Std. Error 3.006 2.364 .978 .254 1.310 2.308 .732 .259 .678 .296 4.309 2.776 .635 .253 .545 .293 -.219 .122 5.943 2.829 .638 .243 .142 .366 -.271 .121 .351 .204 6.500 2.396 .663 .230 -.287 .112 .402 .154 Standardized Coefficients Beta .610 .456 .369 .396 .297 -.274 .398 .078 -.339 .309 .413 -.360 .354
R
2
SS回 SS总
1
SS残 SS总
133 .7107 88 .8412 = 1 0.6008 222 .5519 222 .5519
说明所有自变量能解释Y变化的百分比。取 值(0,1),越接近1模型拟合越好
3.复相关系数 ( multiple correlation coefficient)
一、全局择优法
根据一些准则(criterion)建立“最优” 回归模型
校正决定系数(考虑了自变量的个数) Cp准则(C即criterion,p为所选模型中变量 的个数;Cp接近(p+1)模型为最优) AIC(Akaike’s Information Criterion)准则; AIC越小越好
R R 0.6008 0.7751
说明所有自变量与Y间的线性相关程度。 即观察值Y与估计值 ˆ之间的相关程度。 Y 如果只有一个自变量,此时 R | r |
2
ˆ Y
2 Rc
SS残 /(n 1 p) n 1 1 (1 R ) 1 (n 1) p SS总 /(n 1)
Fj SS回 SS回( j ) SS 残 ( n p 1) ; 1 1; 2 n p 1
(一) 前进法
自变量从无到有、从少到多 Y对每一个自变量作直线回归,对回归平方和 最大的自变量作F检验,有意义(P小)则引 入。
在此基础上,计算其它自变量的偏回归平方 和,选取偏回归平方和最大者作F检验,…。 局限性:即后续变量的引入可能会使先进入方 程的自变量变得不重要。
(二) AIC准则的计算公式
1973年由日本学者赤池提出 AIC n ln[( n p) / n S (最小二乘法) AIC越小越好
2 y .12 p
] 2 p
应用以上准则如何选择模型?
求出所有可能的回归模型( 共有2m-1个)对应的准则值; 按上述准则选择最优模型
全局择优法的局限性
Model 1 2
3
4
5
(Constant) 糖 化 血红 蛋 白 (Constant) 糖 化 血红 蛋 白 总 胆 固醇 (Constant) 糖 化 血红 蛋 白 总 胆 固醇 胰岛素 (Constant) 糖 化 血红 蛋 白 总 胆 固醇 胰岛素 甘 油 三脂 (Constant) 糖 化 血红 蛋 白 胰岛素 甘 油 三脂
a. Dep endent V ariable: 血 糖
例15-3逐步回归的回归系数及其检验
多元回归SPSS计算程序
结果变量Y
多个自变量
系统默认
统计
图形
存储
其他
自变量的选入方法
t 1.272 3.845 .568 2.833 2.290 1.552 2.507 1.861 -1.785 2.101 2.623 .390 -2.229 1.721 2.713 2.880 -2.570 2.612
Sig . .215 .001 .576 .009 .031 .134 .020 .076 .088 .047 .016 .701 .036 .099 .012 .008 .017 .016
(二)后退法
先将全部自变量放入方程,然后逐步剔除 偏回归平方和最小的变量,作F检验及相应 的P值,决定它是否剔除(P大) 。
建立新的回归方程。重复上述过程。
局限性:自变量高度相关时,可能得不出正确 的结果 。
(三)逐步回归法
双向筛选 ;引入有意义的变量(前进法),剔 除无意义变量(后退法) 小样本检验水准α定为0.10或0.15,大样本把α 值定为0.05。值越小表示选取自变量的标准越严 注意,引入变量的检验水准要小于或等于剔除变 量的检验水准,即α 入≤ α出
多元线性回归分析
Multiple linear regression
例
人的体重与身高、胸围
子
血压值与年龄、性别、劳动强度、饮食 习惯、吸烟状况、家族史 糖尿病人的血糖与胰岛素、糖化血红蛋 白、血清总胆固醇、甘油三脂
射频治疗仪定向治疗脑肿瘤过程中,脑 皮质的毁损半径与辐射的温度、与照射的 时间
Model Summary Model 1 R .775a R Sq uare .601 Adjusted R Sq uare .528 Std. Error of the Estimate 2.00954
a. Predic t o rs: (Cons t a nt), 糖 化 血红 蛋 白 , 甘 油 三脂 , 胰 岛 素 , 总 胆 固醇
1.残差标准差( Root MSE )
SY ,12... m
2 ˆ (Y Y ) /(n m 1)
SS残 (n m 1 ) MS 残 4.0382 2.0095
反映了回归方程的精度,其值越小说明回归 效果越好
2.决定系数 ( determination coefficient)