第11章-多元线性回归与多元逐步回归
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
除水准为0.15,SAS 软件计算过程及相应结果见表11-8至
表11-11。
模型 第一步 第二步
第三步
变量 常数 x3 常数 x3 x2 常数 x3 x2 x4
表11-8 多元逐步回归结果
偏回归系数 标准误 标准化偏回归系数
6.774
0.156
-
0.110
0.027
0.693
6.040
0.432
-
0.111
4. 筛选自变量的检验水平 要考虑入选变量的实际意义。
5. 多重共线性 可采用主成分分析或因子分析等方法构建新
第二步 x1 x4 x5
第三步 x1 x5
未进入方程的自变量
标准化系数
t
-0.154 0.289 0.298 0.174 -0.128 0.341 0.191 -0.043 0.232
-0.889 1.805 1.803 0.987 -0.775 2.285 1.161 -0.274 1.626
多元逐步回归方程为:
(2) 正态性 应变量原则上是连续型可测正态 变量,其预测值与实际观测值的差值(即残差)服从 正态分布,当样本量较大时可以忽略正态性的要求。
(3)独立性 观察单位之间是独立的,即应变量 的观测值相互独立。
2. 样本含量 一般应使样本量是自变量个数的 5 倍以上。
3.自变量的数量化 注意名义变量的数量化。
有三种筛选自变量的方法 : 1.向后法(Backward selection) 先建立一个全因素的回归方程,
然后每次剔除一个偏回归平方和最小且无统计学意义的自变量,直到不能 剔除时为止,此法的计算量大,有时不能实现。
2.向前法(forward selection) 方程由一个自变量开始,每次引 入一个偏回归平方和最大,且具有统计学意义的自变量,由少到多,直到 无具有统计意义的因素可以引入为止。用此法建立的方程有时不够精炼。
变量 X共 同对应变量Y的相关密切程度。复相关系数取值总 为正值,在0与1之间,简记为R。如果只有一个自变量,此时
R|r|
R SS回归 1SS残差
SS总
SS总
2.决定系数(coefficient of determination)
复相关系数的平方又称决定系数,记为 R 2,用以反映 线性回归方程能在多大程度上解释应变量Y的变异性。
RR 2 2 SS回归1SS残差
SS总
SS总
回归方程的拟合程度越好,残差平方和就越小,决定系数R 2 越接近
1 ,决定系数 R 2 越接近1
第二节 多元逐步回归 (multiple stepwise regression)
1. 多元逐步回归的基本思想
多元逐步回归(multiple stepwise regression)
P
0.386 0.089 0.089 0.337 0.450 0.036 0.263 0.788 0.125
Y ˆ 4 . 7 9 9 + 0 . 0 3 1 X 2 + 0 . 0 9 7 X 3 + 0 . 0 0 8 X 4
第三节 多元线性回归的注意事项
1. 应用条件
(1) 线性依存关系 应变量与自变量间具有线 性依存关系。
定,一般可将 F 值定在 为0.05、0.10或0.20水平
上。对于回归方程的选入和剔除水平往往选择
选入≤剔除。 选择不同的F 值(或水平),其回归方程的结果可 能不一致,一般可选不同的F 值(或值) 作调试。至
于何种结果是正确的,必须结合医学的实际意义来确定。
4.多元逐步回归事例
对例11.2采用逐步法筛选自变量,选入水准为 0.10,剔
0.334
16
0.031
19
F 16.640
10.993
10.889
P 0.001
0.001
0.000
表11-10 多元逐步回归的复相关系数和决定系数表
模型
复相关系数
决定系数
第一步
0.693
0.480
第二步
0.751
0.564
第三步
0.819
0.671
表11-11
模 型 变量
第一步 x1 x2 x4 x5
bj为偏回归系数(partial regression coefficient)
常数项,表示当所有自变量为0时 应变量Y的总体平均值的估计值
表示除以外的其它自变量固定不变 的情况下,每改变一个测量单位时
所引起的应变量Y的平均改变量
两个自变量与应变量的散点图
两个自变量与应变量的拟合面
bj 为 xj方向的斜率
三、标准化回归系数
(standardized partial regression coefficient)
可以利用标准化偏回归系数的大小 来反映各自变量的贡献大小。
b'j bjSj /Sy
式中,Sj及Sy 分别为自变量Xj 及因变量Y 的标准差。
四、复相关系数与决定系数
1.复相关系数( multiple correlation coefficient) 又称多元相关系数或全相关系数,表示回归方程中的全部自
对表11-3的数据资料,由SAS统计软件可得到如下表11-4
的模型检验结果。
变异来 源 回归 残差
总变异
表 11-4 回归方程的方差分析表
SS
MS
F
116.626
2
46.025
17
162.651 19
58.313 21.539 2.707
P 0.000
由表11-4可知,F=21.54,P<0.05。从而,拒绝H0,可以认为β1 和β2不全为0,即所求回归方程有统计学意义。
3. 逐步法(stepwise selecfion) 取上述两种方法的优点,在向前 引入每一个新自变量之后都要重新对前已选入的自变量进行检查,以评价 其有无继续保留在方程中的价值。为此引入和剔除交替进行,直到无具有 统计学意义的新变量可以引入也无失去其统计学意义的自变量可以剔除时 为止。
2.多元逐步回归的基本原理
的线性回归方程。
(2) t 检验
H 0: j0 ; H 1: j0 j=1,2,…,k
tb j
bj Sbj
tb1 4.31 ,P=0.0005; tb2 0.84 ,P=0.4110。
在α=0.05水平下,认为血糖与胰岛素的线性回归关系
有统计学意义,而与生长素的线性回归关系无统计学意义。
结论与 F 检验一致。
0.025
0.697
0.027
0.015
0.289
4.799
0.667
-
0.097
0.024
0.611
0.031
0.014
0.330
0.008
0.004
0.341
t 43.545 4.079 13.967 4.350 1.805 7.193 4.125 2.287 2.285
P 0.000 0.001 0.000 0.000 0.089 0.000 0.001 0.036 0.036
二、回归方程的假设检验
1.模型检验
F=
SS回归 / k
MS回归
SS残差 /(n k 1) MS残差
其中:
SS 总=
n
n
Yi2 ( Yi ) 2 / n
i 1
i 1
n
n
SS = 回归 (Yˆi Y )2 bi LiY
i 1
i 1
n
SS = 残差 (Yi Yˆi )2 SS总 SS回归 i1
对于本例有:
S S 残 差 nY i Y ˆ i2 nY i ( b 0 b 1 x 1 b 2 x 2 )2
i 1
i 1
采用最小二乘法即可求出常数项b0和偏回归系数b1、b2。
其中
b 0Y(b 1x1b 2x2)
对表11-2的数据资料由SAS统计软件可得到如下
表11-3的主要结果。
表 11-1 多元线性回归原始观察数据
例号 i
X1
X2
……
Xk
Y
1
X11
X21
……
Xk1
Y1
2
X12
X22
……
Xk2
Y2
3
X13
X23
……
Xk3
Y3
……
……
n
X1n
X2n
……
Xkn
Yn
Yˆ
一 、多元线性回归方程 (multiple linear regression equation)
Y ˆ b 0 b 1 X 1 b 2 X 2 b k X k
统计量为:
Fj=
SS残差
U /1 ( / n
m
1)
Fj 服从F (1 ,n - m - 1) 分布
如果Fj>F(1 ,n - m - 1),则 Xj选入方程;否则,不入选。
从方程中剔除无统计学作用的自变量,过程则相反,但检验一样。
3. 多元逐步回归的检验水平
在进行逐步回归前,首先应确定检验水平,以作为 引入或剔除变量的标准。检验水平可以根据具体情况而
2.偏回归系数的检验
(1)F 检验
H 0: j 0 ; H 1: j 0 j=1,2,…,k
Fj=
U /1 SS残差 ( / n
k
1)
Fj服从F(1 ,n - k - 1)分布
之中,U 为Xj 的偏回归平方和, 即U= SS回归-SS回归(-j)
表11-5 例11.1数据的偏回归系数F检验表
方程内 自变量
X1,X2 X2 X1
平方和
SS回归
SS回归-SS回归(-j)
116.626
66.275
50.352
114.703
1.924
SS残差 46.025
F
18.598 0.710
P
<0.05 >0.05
在=0.05水平上,可以认为胰岛素对血糖的线性回归关系有统计学意义, 而生长素对血糖的线性回归关系无统计学意义。所以应剔除X2,只建立X1与Y
8
13.32
10.3
9
19.59
5.9
10
9.05
18.7
11
6.44
25.1
ຫໍສະໝຸດ Baidu
12
9.49
16.4
13
10.16
22.0
14
8.38
23.1
15
8.49
23.2
16
7.71
25.0
17
11.38
16.8
18
10.82
11.2
19
12.49
13.7
20
9.21
24.4
9.51 11.43 7.53 12.17 2.33 13.52 10.07 18.89 13.14 9.63 5.10 4.53 2.16 4.26 3.42 7.34 12.75 10.88 11.06 9.16
自由度为 总=n-1, 回归=k, 剩余=n-k-1
N
SSTotal (Yi Y)2
i1
SSmodel N(YiY)2
i1
SSerror N(Yi Yi)2
i1
Y X2
X1
Total SS Model SS Residual SS
对于例11.1的模型检验
H0: β1=β2=0
=0.05
H1:β1和β2不全为0
病例号 i
表 11-2 糖尿病人的血糖、胰岛素及生长素的测定值
血糖 y ( mmol / L )
胰岛素( x1, mu / L )
生长素( x2 , g / L )
1
12.21
15.2
2
14.54
16.7
3
12.27
11.9
4
12.04
14.0
5
7.88
19.8
6
11.10
16.2
7
10.43
17.0
例子
儿童身高与年龄、性别的关系
肺活量与年龄、性别、身高、体重 以及胸围的呼吸差等因素的关系
多元线性回归
一个应变量与多个自变量间的关系
第一节 多元线性回归 第二节 多元逐步回归 第三节 多元线性回归的注意事项
第一节 多元线性回归
(multiple linear regression )
多元线性回归的数据格式
每一步只引入或剔除一个自变量。自变量是否被引入或剔除则取
决于其偏回归平方和的F检验或校正决定系数。
如方程中已引入了(m-1)个自变量,在此基础上考虑再引入变量
Xj 。记引入Xj 后方程(即含m个自变量)的回归平方和为SS回归,残 差为SS残差;之前含(m-1)个自变量(不包含Xj )方程的回归平方和 为SS回归(-j) ,则Xj 的偏回归平方和为 U = SS回归-SS回归(-j),检验
1. 求偏回归系数bj及b0
• 根据最小二乘法(method of least square)原理求出bj ,
即
n
SS残差
Yi Yˆi 2
i1
得到bj
b 0 y (b 1 x 1 b 2 x 2 … … b p x p )
2.例 子
例11.1 20名糖尿病人的血糖、胰岛素及生长素的测定值列于下表 中,试建立血糖对于胰岛素及生长素的二元线性回归方程。
表 11-3 偏回归系数估计结果
偏回归系
变量
标准误
t
P
数
常数项 17.011 2.472 6.880 0.000
X1
-0.406 0.094 -4.313 0.000
X2
0.098
0.116 0.843 0.411
由此得到回归方程为
Y ˆ 1 7 .0 1 1 0 .4 0 6 X 1 0 .0 9 8 X 2
模型 第一步
第二步
第三步
变异来源
回归 误差 总变异 回归 误差 总变异 回归 误差 总变异
表11-9 SS
0.717
0.775 1.492 0.841 0.651 1.492 1.001 0.491 1.492
多元逐步回归方差分析表
MS
1
0.717
18
0.043
19
2
0.421
17
0.038
19
3