第十章:多元线性回归
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
t
1
2 ( x x ) i
~ t ( n 2)
其中, S y
2 ˆ ( y y ) i i
n2
对于多元线性回归方程,检验统计量为:
i
2 ( x x ) ij i
ti
~ t (n p 1)
其中, S y
2 ˆ ( y y ) i i
胰岛素 (μU/ml) X3
4.53 7.32 6.95 5.88 4.05 1.42 12.60 6.75 16.28 6.59 3.61 6.61 7.57 1.42 10.35 8.53 4.53 12.79 2.53 5.28 2.96 4.31 3.47 3.37 1.20 8.61 6.45
2 ( e e ) t t 1 t 2 n
et
t 2
n
2(1 )
2
DW=2表示无自相关,在0-2之间说明存在正自相 关,在2-4之间说明存在负的自相关。一般情况下, DW值在1.5-2.5之间即可说明无自相关现象。
多重共线性分析
多重共线性是指解释变量之间存在线性相关关系 的现象。测度多重共线性一般有以下方式: 1、容忍度: 2 Toli 1 Ri
甘油三脂 (mmol/L) X2
1.90 1.64 3.56 1.07 2.32 0.64 8.50 3.00 2.11 0.63 1.97 1.97 1.93 1.18 2.06 1.78 2.40 3.67 1.03 1.71 3.36 1.13 6.21 7.92 10.89 0.92 1.20
b bj
' j
l jj lYY
Sj bj S Y
标准化回归系数没有单位,可以用来比较各个自变 量 X j 对 Y 的影响强度,通常在有统计学意义的前提下, 标准化回归系数的绝对值愈大说明相应自变量对 Y 的作 用愈大。
1.5934 b 0.1424 0.0776 2.9257
多元线性回归
多元线性回归模型
多元线性回归方程: y=β0+β1x1+β2x2+...+βkxk
– β1、β2、βk为偏回归系数。 – β1表示在其他自变量保持不变的情况下,自变 量x1变动一个单位所引起的因变量y的平均变动。
线性回归方程的统计检验
回归方程的拟合优度
回归直线与各观测点的接近程度称为回归方程的拟合优度, 也就是样本观测值聚集在回归线周围的紧密程度 。 1、离差平方和的分解:
2 来反映,称为总变差。引起总变差的 ( y y )
建立直线回归方程可知:y的观测值的总变动
可由
原因有两个:
由于x的取值不同,使得与x有线性关系的y值不同;
随机因素的影响。
总离差平方和可分解为
y y
2
2 y y y y
2
即:总离差平方和(SST)=剩余离差平方和(SSE) +回归 离差平方和(SSR)
1、对于残差均值和方差齐性检验可以利用残差图进行 分析。如果残差均值为零,残差图的点应该在纵坐标 为0的中心的带状区域中随机散落。如果残差的方差 随着解释变量值(或被解释变量值)的增加呈有规律 的变化趋势,则出现了异方差现象。 2、DW检验。 DW检验用来检验残差的自相关。检验统 计量为:
DW
总胆固醇 (mmol/L) X1
5.68 3.79 6.02 4.85 4.60 6.05 4.90 7.08 3.85 4.65 4.59 4.29 7.97 6.19 6.13 5.71 6.40 6.06 5.09 6.13 5.78 5.43 6.50 7.98 11.54 5.84 3.84
• 回归方程的显著性检验(方差分析F检验)
回归方程的显著性检验是要检验被解释变量与所有 的解释变量之间的线性关系是否显著。 对于一元线性回归方程,检验统计量为:
SSR/ 1 F SSE /(n 2)
2 ˆ ( y y ) /1 ~ F( 1,n 2) 2 ˆ ) /(n 2) (y y
变异来源 总变异 回 归 残 差
自由度 26 4 22
SS 222.5519 133.7107 88.8412
33.4277 4.0382
P 0.01 , 查 F 界值表得 F0.01( 4, 22) 4.31 ,F 4.31 , 在 0.05
水平上拒绝 H0,接受 H1 认为所建回归方程具有统计学意义。
值均小于 0.05,说明 b3 和 b4 有统计学意 义,而 b1 和 b2 则没有统计学意义。
3.标准化回归系数 变量标准化是将原始数据减去相应变量的均数, 然后再除以该变量的标准差。
X
' j
(X j X j ) Sj
计算得到的回归方程称作标准化回归方程, 相应的回归系数即为标准化回归系数。
n p 1
• 残差分析
残差是指由回归方程计算得到的预测值与实际样本 值之间的差距,定义为:
ˆi yi (0 1x1 2 x2 ... p x p ) ei yi y
对于线性回归分析来讲,如果方程能够较好的反 映被解释变量的特征和规律性,那么残差序列中应不 包含明显的规律性。残差分析包括以下内容:残差服 从正态分布,其平均值等于0;残差取值与X的取值无 关;残差不存在自相关;残差方差相等。
2. 决定系数R 2: SS回 SS残 2 R 1 SS总 SS总
0 R 2 1 ,说明自变量 X 1 , X 2 ,, X m 能够
解释Y 变化的百分比,其值愈接近于 1,说明 模型对数据的拟合程度愈好。本例
133.7107 R 0.6008 222.5519
2
表明血糖含量变异的 60%可由总胆固醇、 甘油 三脂、胰岛素和糖化血红蛋白的变化来解释。
假设检验及其评价
(一)对回归方程
1. 方差分析法: H 0 : 1 2 m 0 ,
H1 : 各(j=1,2, ,m)不全为 j
0,
0.05
SS总 SS回 SS残
SS回 / m MS 回 F SS 残 ( / n m 1) MS 残 F ~ F (m,n m 1)
结果
0.1424 t1 0.390 0.3656 0.2706 t3 2.229 0.1214 0.3515 t2 1.721 0.2042 0.6382 t4 2.623 0.2433
结论
t 0.05 / 2 ,22 2.074 , t 4 | t 3 | 2.074 , P
在多元线性回归分析中,引起判定系数增加的原因有两个:一 个是方程中的解释变量个数增多,另一个是方程中引入了对被解释 变量有重要影响的解释变量。如果某个自变量引入方程后对因变量 的线性解释有重要贡献,那么必然会使误差平方和显著减小,并使 平均的误差平方和也显著减小,从而使调整的判定系数提高。所以 在多元线性回归分析中,调整的判定系数比判定系数更能准确的反 映回归方程的拟合优度。
lij ( X i X i )( X j X j ) X i X j l jY ( X j X j )(Y Y ) X jY
X X
i
j
X Y ,
j
n
, i , j=1,2, ,m j 1, 2, m
n
ˆ 5.943பைடு நூலகம் 0.1424X 0.3515X 0.2706X 0.6382X Y 1 2 3 4
对于多元线性回归方程,检验统计量为:
SSR/ p F SSE /(n p 1)
2 ˆ ( y y ) /(n p 1)
ˆ y) (y
2
/p
~ F(p,n p 1 )
• 回归系数的显著性检验(t检验)
回归系数的显著性检验是要检验回归方程中被解 释变量与每一个解释变量之间的线性关系是否显著。 对于一元线性回归方程,检验统计量为:
3.复相关系数
可用来度量应变量 Y 与多个自变量间的线性相
ˆ 之间的相关程度。 关程度,亦即观察值 Y 与估计值Y
计算公式: R R 2 ,本例 R 0.6008 0.7751 若 m=1 自变量,则有 R | r | ,r 为简单相关系数。
2. t 检验法 是一种与偏回归平方和检验完全等 价的一种方法。计算公式为
2 i
例:多元线性回归方程的建立
27名糖尿病人的血清总胆固醇、甘油三 脂、空腹胰岛素、糖化血红蛋白、空腹 血糖的测量值列于表1中,试建立血糖与
其它几项指标关系的多元线性回归方程。
表1 27名糖尿病人的血糖及有关变量的测量结果
序号 i
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
对于一元线性回归方程:
SSR SST SSE R 1 SST SST 2 y y y 2 R 1 2 y y y
2
SSE SST 2 y y
2
对于多元线性回归方程:
R
2
R2
SSE 1 SST SSE/ n p 1 1 SST / n 1
' 1
结 论
2.5748 b 0.3515 0.3093 2.9257
表2 多元线性回归方差分析表
变异来源 总变异 回 归 残 差 自由度 n-1 m n-m-1 SS SS 总 SS 回 SS 残 MS SS 回 /m SS 残 /(n-m-1)
( 0.05)
F MS 回/MS 残 P
表3 例15-1的方差分析表
( 0.05)
MS F 8.28 P <0.01
糖化血 红蛋白(%) X4
8.2 6.9 10.8 8.3 7.5 13.6 8.5 11.5 7.9 7.1 8.7 7.8 9.9 6.9 10.5 8.0 10.3 7.1 8.9 9.9 8.0 11.3 12.3 9.8 10.5 6.4 9.6
血糖 (mmol/L) Y
11.2 8.8 12.3 11.6 13.4 18.3 11.1 12.1 9.6 8.4 9.3 10.6 8.4 9.6 10.9 10.1 14.8 9.1 10.8 10.2 13.6 14.9 16.0 13.2 20.0 13.3 10.4
其中;SSR是由x和y的直线回归关系引起的,可以由回归
直线做出解释;SSE是除了x对y的线性影响之外的随机因素所 引起的Y的变动,是回归直线所不能解释的。
可决系数(判定系数、决定系数)
回归平方和在总离差平方和中所占的比例可以作为一个统 计指标,用来衡量X与Y 的关系密切程度以及回归直线的代表
性好坏,称为可决系数。
ˆ ) 2 [Y (b b X b X b X )]2 Q (Y Y 0 1 1 2 2 m m
求偏导数
原
理
最小二乘法
l11b1 l12b2 l1m bm l1Y l b l b l b l 21 1 22 2 2m m 2Y l m1b1 l m 2 b2 l mm bm l mY b0 Y (b1 X 1b2 X 2 bm X m )
tj
bj Sb
j
j
b j 为偏回归系数的估计值, S b 是 b j 的标准误。
检验假设: H0: j 0 , t j 服从自由度为 n m 1 的 t 分 布。如果| t j | t / 2 ,n m 1 ,则在 (0.05)水平上拒 绝 H0,接受 H1,说明 X j 与 Y 有线性回归关系。
其中, 是第i个解释变量与方程中其他解释变量 R 间的复相关系数的平方,表示解释变量之间的线性相 关程度。容忍度的取值范围在0-1之间,越接近0表示 多重共线性越强,越接近1表示多重共线性越弱。 2、方差膨胀因子VIF。方差膨胀因子是容忍度的倒数。 VIF越大多重共线性越强,当VIF大于等于10时,说明 存在严重的多重共线性。
1
2 ( x x ) i
~ t ( n 2)
其中, S y
2 ˆ ( y y ) i i
n2
对于多元线性回归方程,检验统计量为:
i
2 ( x x ) ij i
ti
~ t (n p 1)
其中, S y
2 ˆ ( y y ) i i
胰岛素 (μU/ml) X3
4.53 7.32 6.95 5.88 4.05 1.42 12.60 6.75 16.28 6.59 3.61 6.61 7.57 1.42 10.35 8.53 4.53 12.79 2.53 5.28 2.96 4.31 3.47 3.37 1.20 8.61 6.45
2 ( e e ) t t 1 t 2 n
et
t 2
n
2(1 )
2
DW=2表示无自相关,在0-2之间说明存在正自相 关,在2-4之间说明存在负的自相关。一般情况下, DW值在1.5-2.5之间即可说明无自相关现象。
多重共线性分析
多重共线性是指解释变量之间存在线性相关关系 的现象。测度多重共线性一般有以下方式: 1、容忍度: 2 Toli 1 Ri
甘油三脂 (mmol/L) X2
1.90 1.64 3.56 1.07 2.32 0.64 8.50 3.00 2.11 0.63 1.97 1.97 1.93 1.18 2.06 1.78 2.40 3.67 1.03 1.71 3.36 1.13 6.21 7.92 10.89 0.92 1.20
b bj
' j
l jj lYY
Sj bj S Y
标准化回归系数没有单位,可以用来比较各个自变 量 X j 对 Y 的影响强度,通常在有统计学意义的前提下, 标准化回归系数的绝对值愈大说明相应自变量对 Y 的作 用愈大。
1.5934 b 0.1424 0.0776 2.9257
多元线性回归
多元线性回归模型
多元线性回归方程: y=β0+β1x1+β2x2+...+βkxk
– β1、β2、βk为偏回归系数。 – β1表示在其他自变量保持不变的情况下,自变 量x1变动一个单位所引起的因变量y的平均变动。
线性回归方程的统计检验
回归方程的拟合优度
回归直线与各观测点的接近程度称为回归方程的拟合优度, 也就是样本观测值聚集在回归线周围的紧密程度 。 1、离差平方和的分解:
2 来反映,称为总变差。引起总变差的 ( y y )
建立直线回归方程可知:y的观测值的总变动
可由
原因有两个:
由于x的取值不同,使得与x有线性关系的y值不同;
随机因素的影响。
总离差平方和可分解为
y y
2
2 y y y y
2
即:总离差平方和(SST)=剩余离差平方和(SSE) +回归 离差平方和(SSR)
1、对于残差均值和方差齐性检验可以利用残差图进行 分析。如果残差均值为零,残差图的点应该在纵坐标 为0的中心的带状区域中随机散落。如果残差的方差 随着解释变量值(或被解释变量值)的增加呈有规律 的变化趋势,则出现了异方差现象。 2、DW检验。 DW检验用来检验残差的自相关。检验统 计量为:
DW
总胆固醇 (mmol/L) X1
5.68 3.79 6.02 4.85 4.60 6.05 4.90 7.08 3.85 4.65 4.59 4.29 7.97 6.19 6.13 5.71 6.40 6.06 5.09 6.13 5.78 5.43 6.50 7.98 11.54 5.84 3.84
• 回归方程的显著性检验(方差分析F检验)
回归方程的显著性检验是要检验被解释变量与所有 的解释变量之间的线性关系是否显著。 对于一元线性回归方程,检验统计量为:
SSR/ 1 F SSE /(n 2)
2 ˆ ( y y ) /1 ~ F( 1,n 2) 2 ˆ ) /(n 2) (y y
变异来源 总变异 回 归 残 差
自由度 26 4 22
SS 222.5519 133.7107 88.8412
33.4277 4.0382
P 0.01 , 查 F 界值表得 F0.01( 4, 22) 4.31 ,F 4.31 , 在 0.05
水平上拒绝 H0,接受 H1 认为所建回归方程具有统计学意义。
值均小于 0.05,说明 b3 和 b4 有统计学意 义,而 b1 和 b2 则没有统计学意义。
3.标准化回归系数 变量标准化是将原始数据减去相应变量的均数, 然后再除以该变量的标准差。
X
' j
(X j X j ) Sj
计算得到的回归方程称作标准化回归方程, 相应的回归系数即为标准化回归系数。
n p 1
• 残差分析
残差是指由回归方程计算得到的预测值与实际样本 值之间的差距,定义为:
ˆi yi (0 1x1 2 x2 ... p x p ) ei yi y
对于线性回归分析来讲,如果方程能够较好的反 映被解释变量的特征和规律性,那么残差序列中应不 包含明显的规律性。残差分析包括以下内容:残差服 从正态分布,其平均值等于0;残差取值与X的取值无 关;残差不存在自相关;残差方差相等。
2. 决定系数R 2: SS回 SS残 2 R 1 SS总 SS总
0 R 2 1 ,说明自变量 X 1 , X 2 ,, X m 能够
解释Y 变化的百分比,其值愈接近于 1,说明 模型对数据的拟合程度愈好。本例
133.7107 R 0.6008 222.5519
2
表明血糖含量变异的 60%可由总胆固醇、 甘油 三脂、胰岛素和糖化血红蛋白的变化来解释。
假设检验及其评价
(一)对回归方程
1. 方差分析法: H 0 : 1 2 m 0 ,
H1 : 各(j=1,2, ,m)不全为 j
0,
0.05
SS总 SS回 SS残
SS回 / m MS 回 F SS 残 ( / n m 1) MS 残 F ~ F (m,n m 1)
结果
0.1424 t1 0.390 0.3656 0.2706 t3 2.229 0.1214 0.3515 t2 1.721 0.2042 0.6382 t4 2.623 0.2433
结论
t 0.05 / 2 ,22 2.074 , t 4 | t 3 | 2.074 , P
在多元线性回归分析中,引起判定系数增加的原因有两个:一 个是方程中的解释变量个数增多,另一个是方程中引入了对被解释 变量有重要影响的解释变量。如果某个自变量引入方程后对因变量 的线性解释有重要贡献,那么必然会使误差平方和显著减小,并使 平均的误差平方和也显著减小,从而使调整的判定系数提高。所以 在多元线性回归分析中,调整的判定系数比判定系数更能准确的反 映回归方程的拟合优度。
lij ( X i X i )( X j X j ) X i X j l jY ( X j X j )(Y Y ) X jY
X X
i
j
X Y ,
j
n
, i , j=1,2, ,m j 1, 2, m
n
ˆ 5.943பைடு நூலகம் 0.1424X 0.3515X 0.2706X 0.6382X Y 1 2 3 4
对于多元线性回归方程,检验统计量为:
SSR/ p F SSE /(n p 1)
2 ˆ ( y y ) /(n p 1)
ˆ y) (y
2
/p
~ F(p,n p 1 )
• 回归系数的显著性检验(t检验)
回归系数的显著性检验是要检验回归方程中被解 释变量与每一个解释变量之间的线性关系是否显著。 对于一元线性回归方程,检验统计量为:
3.复相关系数
可用来度量应变量 Y 与多个自变量间的线性相
ˆ 之间的相关程度。 关程度,亦即观察值 Y 与估计值Y
计算公式: R R 2 ,本例 R 0.6008 0.7751 若 m=1 自变量,则有 R | r | ,r 为简单相关系数。
2. t 检验法 是一种与偏回归平方和检验完全等 价的一种方法。计算公式为
2 i
例:多元线性回归方程的建立
27名糖尿病人的血清总胆固醇、甘油三 脂、空腹胰岛素、糖化血红蛋白、空腹 血糖的测量值列于表1中,试建立血糖与
其它几项指标关系的多元线性回归方程。
表1 27名糖尿病人的血糖及有关变量的测量结果
序号 i
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
对于一元线性回归方程:
SSR SST SSE R 1 SST SST 2 y y y 2 R 1 2 y y y
2
SSE SST 2 y y
2
对于多元线性回归方程:
R
2
R2
SSE 1 SST SSE/ n p 1 1 SST / n 1
' 1
结 论
2.5748 b 0.3515 0.3093 2.9257
表2 多元线性回归方差分析表
变异来源 总变异 回 归 残 差 自由度 n-1 m n-m-1 SS SS 总 SS 回 SS 残 MS SS 回 /m SS 残 /(n-m-1)
( 0.05)
F MS 回/MS 残 P
表3 例15-1的方差分析表
( 0.05)
MS F 8.28 P <0.01
糖化血 红蛋白(%) X4
8.2 6.9 10.8 8.3 7.5 13.6 8.5 11.5 7.9 7.1 8.7 7.8 9.9 6.9 10.5 8.0 10.3 7.1 8.9 9.9 8.0 11.3 12.3 9.8 10.5 6.4 9.6
血糖 (mmol/L) Y
11.2 8.8 12.3 11.6 13.4 18.3 11.1 12.1 9.6 8.4 9.3 10.6 8.4 9.6 10.9 10.1 14.8 9.1 10.8 10.2 13.6 14.9 16.0 13.2 20.0 13.3 10.4
其中;SSR是由x和y的直线回归关系引起的,可以由回归
直线做出解释;SSE是除了x对y的线性影响之外的随机因素所 引起的Y的变动,是回归直线所不能解释的。
可决系数(判定系数、决定系数)
回归平方和在总离差平方和中所占的比例可以作为一个统 计指标,用来衡量X与Y 的关系密切程度以及回归直线的代表
性好坏,称为可决系数。
ˆ ) 2 [Y (b b X b X b X )]2 Q (Y Y 0 1 1 2 2 m m
求偏导数
原
理
最小二乘法
l11b1 l12b2 l1m bm l1Y l b l b l b l 21 1 22 2 2m m 2Y l m1b1 l m 2 b2 l mm bm l mY b0 Y (b1 X 1b2 X 2 bm X m )
tj
bj Sb
j
j
b j 为偏回归系数的估计值, S b 是 b j 的标准误。
检验假设: H0: j 0 , t j 服从自由度为 n m 1 的 t 分 布。如果| t j | t / 2 ,n m 1 ,则在 (0.05)水平上拒 绝 H0,接受 H1,说明 X j 与 Y 有线性回归关系。
其中, 是第i个解释变量与方程中其他解释变量 R 间的复相关系数的平方,表示解释变量之间的线性相 关程度。容忍度的取值范围在0-1之间,越接近0表示 多重共线性越强,越接近1表示多重共线性越弱。 2、方差膨胀因子VIF。方差膨胀因子是容忍度的倒数。 VIF越大多重共线性越强,当VIF大于等于10时,说明 存在严重的多重共线性。