多元线性回归与多元逐步回归
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Yi Yˆi 2
i1
得到bj
b 0y (b 1x 1 b 2x 2… … b pxp)
2.例 子
例11.1 20名糖尿病人的血糖、胰岛素及生长素的测定值列于下表 中,试建立血糖对于胰岛素及生长素的二元线性回归方程。
病例号 i
表 11-2 糖尿病人的血糖、胰岛素及生长素的测定值
血糖 y ( mmol / L )
表示除以外的其它自变量固定不变 的情况下,每改变一个测量单位时
所引起的应变量Y的平均改变量
两个自变量与应变量的散点图
两个自变量与应变量的拟合面
bj 为 xj方向的斜率
1. 求偏回归系数bj及b0
• 根据最小二乘法(method of least square)原理求出bj ,
即
n
SS残差
之中,U 为Xj 的偏回归平方和, 即U= SS回归-SS回归(-j)
表11-5 例11.1数据的偏回归系数F检验表
方程内 自变量
X1,X2 X2 X1
平方和
SS回归
SS回归-SS回归(-j)
116.626
66.275
50.352
114.703
1.924
SS残差 46.025
F
18.598 0.710
,P=0.4110。
在α =0.05水平下,认为血糖与胰岛素的线性回归关系
有统计学意义,而与生长素的线性回归关系无统计学意义。
表11-3的主要结果。
表 11-3 偏回归系数估计结果
偏回归系
变量
标准误
t
P
数
常数项 17.011 2.472 6.880 0.000
X1
-0.406 0.094 -4.313 0.000
X2
0.098
0.116 0.843 0.411
由此得到回归方程为
Y ˆ 1 7 .0 1 1 0 .4 0 6 X 1 0 .0 9 8 X 2
H0: β 1=β 2=0
=0.05
H1:β 1和β 2不全为0
对表11-3的数据资料,由SAS统计软件可得到如下表11-4
的模型检验结果。
变异来 源 回归 残差
总变异
表 11-4 回归方程的方差分析表
SS
MS
F
116.626
2
46.025
17
162.651 19
58.313 21.539 2.707
13
10.16
22.0
14
8.38
23.1
15
8.49
23.2
16
7.71
25.0
17
11.38
16.8
18
10.82
11.2
19
12.49
13.7
20
9.21
24.4
9.51 11.43 7.53 12.17 2.33 13.52 10.07 18.89 13.14 9.63 5.10 4.53 2.16 4.26 3.42 7.34 12.75 10.88 11.06 9.16
第十一章 多元线性回归与多元逐步回归 (Multiple Linear Regression and Multiple Stepwise Regression)
例子
儿童身高与年龄、性别的关系
肺活量与年龄、性别、身高、体重 以及胸围的呼吸差等因素的关系
多元线性回归
一个应变量与多个自变量间的关系
第一节 多元线性回归 第二节 多元逐步回归 第三节 多元线性回归的注意事项
胰岛素( x1, mu / L )
生长素( x2 , g / L )
1
12.21
15.2
2
14.54
16.7
3
12.27
11.9
4
12.04
14.0
5
7.88
19.8
6
11.10
16.2
7
10.43
17.0
8
13.32
10.3
9
19.59
5.9
10
9.05
18.7
11
6.44
25.1
12
9.49
16.4
自由度为 总=n-1, 回归=k, 剩余=n-k-1
N
SSTotal (Yi Y)2
i1
SSmodel N(Yi Y)2
i1
SSerror N(Yi Yi)2
i1
Y X2
X1
Total SS Model SS Residual SS
对于例11.1的模型检验
P 0.000
由表11-4可知,F=21.54,P<0.05。从而,拒绝H0,可以认为β1 和β2不全为0,即所求回归方程有统计学意义。
2.偏回归系数的检验
(1)F 检验 H 0:j 0 ; H 1:j 0 j=1,2,…,k
Fj=
U /1 SS残差 ( / n
k
1)
Fj服从F(1 ,n - k - 1)分布
P
<0.05 >0.05
在=0.05水平上,可以认为胰岛素对血糖的线性回归关系有统计学意义, 而生长素对血糖的线性回归关系无统计学意义。所以应剔除X2,只建立X1与Y
的线性回归方程。
(2) t 检验
H 0:j 0 ; H 1:j 0 j=1,2,…,k
tb j
bj Sbj
tb1 4.31 ,P=0.0005; tb2 0.84
Yn
Yˆ
一 、多元线性回归方程 (multiple linear regression equation)
Y ˆ b 0 b 1 X 1 b 2 X 2 b k X k
bj为偏回归系数(partial regression coefficient)
常数项,表示当所有自变量为0时 应变量Y的总体平均值的估计值
二、回归方程的假设检验
1.模型检验
F=
SS回归 / k
MS回归
SS残差 /(n k 1) MS残差
其中:
SS 总=
n
n
Yi2 ( Yi ) 2 / n
i 1
i 1
n
n
SS = 回归 (Yˆi Y )2 bi LiY
i 1
i 1
n
SS = 残差 (Yi Yˆi )2 SS总 SS回归 i1
第一节 多元线性回归
(multiple linear regression )
多元线性回归的数据格式
表 11-1 多元线性回归原始观察数据
例号 i
X1
X2
……
Xk
Y
1
X11
X21
……
Xk1
Y1
2
X12
X22
……
Xk2
Y2
3
X13
X23
……
Xk3
Y3
……
Байду номын сангаас
……
n
X1n
X2n
……
Xkn
对于本例有:
n
S S 残 差
Y i Y ˆi 2nY i (b 0 b 1 x 1 b 2 x 2 )2
i 1
i 1
采用最小二乘法即可求出常数项b0和偏回归系数b1、b2。
其中
b0Y(b1x1b2x2)
对表11-2的数据资料由SAS统计软件可得到如下