第十三章 多重线性回归与相关
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十三章 多重线性回归与相关
➢多重线性回归的概念及其统计描述 ➢多重线性回归的假设检验 ➢复相关系数与偏相关系数 ➢自变量筛选 ➢关于多重线性回归的应用
多重线性回归的概念及其统计描述
在医学现象中,影响人的生理、病理现象及疾病 的因素很多,疾病的发生发展往往是多因素作用的结 果,且各因素之间不独立,存在相关性,仅仅进行单 因素研究结果不理想。需进行多因素分析。
i1
N
SSmodel (Yi Y )2
i1
N
SSerror (Yi Yi )2
i1
有关计算公式
Y
X1
X2
Total SS
Model SS
Residual SS
多重线性回归的假设检验
多重线性回归的假设检验
表 15-2 27 名糖尿病人的血糖及有关变量的测量结果
序号 i
总胆固醇 甘油三酯 胰岛素 糖化血红蛋白 血糖
-
142.4347
31.3687 26.7286 - 57.3863 86.4407 84.5570
67.6962
89.8025 -142.4347 84.5570
222.5519
66.0103b1 67.3608b2 - 53.9523b3 31.3687b4 67.6962 67.3608b1 172.3648b2 - 9.4929b3 26.7286b4 89.8025 - 53.9523b1 - 9.4929b2 350.3106b3 - 57.3863b4 - 142.4347 31.3687b1 26.7286b2 - 57.3863 b3 86.4407b4 84.5570
因变量Y 和多个自变量X1,X2,…,Xi ,…,Xp实施标准化变换后的直
线回归方程中,bi 为(样本)标准偏回归系数。
Yˆ a b1X1 b2 X2 biX bp Xp
复相关系数与偏相关系数
简单相关系数
单纯考虑因变量Y和自变量Xi的直线相关关系,ri为简单相关系数。
复相关系数
刻画因变量Y(随机变量)和一组自变量X1,X2,…,Xi ,…,Xp的线性
应用多元线性回归的目的
✓考察几个地位平等的影响因素对应变量的影响,如上例 ✓根据X前系数考察主要因素扣除其他干扰因素(不易做 到均衡可比)后的效应,如在研究新药作用时,可将一些 干扰因素纳入多元回归方程。
多元线性回归方程的形式及建立过程
多元线性回归方程的形式及建立过程
多元线性回归方程的形式及建立过程
3.标准化回归系数
X 'j
Xj Xj Sj
标准化回归方程
标准化回归系数bj’ 的绝对值用来比较各个自变量
Xj 对Y的影响程度大小;绝对值越大影响越大。
标准化回归方程的截距为0。
标准化回归系数与一般回归方程的回归系
数的关系:
b'j b j
l jj l YY
b j
Sj SY
b1'
0.1424
Ra2
R2
k(1 R2 ) n k 1
第二节 自变量选择方法
自变量的筛选
选择适当的自变量使得建立的回归模型达到较好的回归 效果。
若将对反映变量无影响或影响很小的自变量引入方程, 会加大计算量并使回归参数的估计和预测精度降低。
若未将对反映变量影响大的自变量包含在模型中,则回 归参数的估计往往是有偏的。
2.决定系数R2
R2 SS回 133.7107 0.6008 SS总 222.5519
血糖含量变异的60%可由总胆固醇、甘油三酯、 胰岛素和糖化血红蛋白的变异解释。
多重线性回归的假设检验
当只有一个自变量时(直线回归)除了t检验,也 可用方差分析对回归系数进行假设检验
因此有: F ~ F(1,n 2)
b1 0.1424 b2 0.3515 b3 0.2706 b4 0.6382
b1 0.1424 b2 0.3515 b3 0.2706 b4 0.6382 X1 5.8126 X2 2.8407 X3 6.1467 X4 9.1185 Y 11.9259
b0 Y (b1X1 b2X2 bmXm) 5.9433
多重线性回归和相关是一个应变量与多个自变量 间联系的线性回归模型和相关关系。是简单线性回归 与相关延续。
多重线性回归的概念及其统计描述
例子 人的体重与身高、胸围 血压值与年龄、性别、劳动强度、饮食习惯、吸烟 状况、家族史 糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总 胆固醇、甘油三脂 射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损 半径与辐射的温度、与照射的时间
1.5934 2.9257
0.0776
b'2
0.3515
2.5748 2.9257
0.3093
b'3
0.2706
3.6706 2.9257
0.3395
b'4
0.6382
1.8234 2.9257
0.3977
对血糖影响大小的顺序依次为糖化血红蛋白(X4)、 胰岛素(X3)、甘油三酯(X2)与总胆固醇 (X1)。胰 岛素为负向影响。
复相关系数与偏相关系数
一、决定系数、复相关系数、调整确定系数 1、决定系数
复相关系数与偏相关系数
2、复相关系数
Hale Waihona Puke Baidu
复相关系数与偏相关系数
3、调整决定系数
复相关系数与偏相关系数
二、偏相关系数 复相关系数反映了Y与所有自变量之间的密切程度,但
往往需要了解Y与自变量两两之间的关系或两个自变量间的关系。 每两个变量间都可能存在相关,因此计算每两个变量间
(mmol/L) (mmol/L) (U/ml)
(%)
(mmol/L)
X1
X2
X3
X4
Y
1
5.68
1.90
4.53
8.2
11.2
2
3.79
1.64
7.32
6.9
8.8
3
6.02
3.56
6.95
10.8
12.3
27
3.84
1.20
6.45
9.6
10.4
Yˆ 5.9433 0.1424X1 0.3515X2 0.2706X3 0.6382X4
2. Cp选择法
Cp ((MSSS残残))pm n 2p 1
pm
P为方程中自变量个数。 最优方程的Cp期望值是p+1。
应选择Cp最接近P+1的回归方程为最优。
的简单相关系数不能反映两变量间的真正关系。
为了反映两变量间的真正关系,在保证其他变量保持不 变的情况下,计算其相关系数(称为偏相关系数)。
(冷饮销售、游泳人数、气温)
复相关系数与偏相关系数
就下表资料讨论:在分析肺活量与体重、身高 的关系时,为什么身高与肺活量的简单相关系数有统 计学意义,而偏相关系数却没有统计学意义?
复相关系数与偏相关系数
简单回归系数
因变量Y 和自变量Xi的直线回归方程中,b为简单回归系数。
偏回归系数
Y a bXi
因变量Y 和多个自变量X1,X2,…,Xi ,…,Xp的直线回归方程中,bi为
(样本)偏回归系数。
Yˆ a b1X1 b2 X2 bi X bp X p
标准偏回归系数
自变量的筛选
一、自变量筛选的标准与原则
2、残差均方(MSE)缩小与调整确定系数(Ra2)增大 MSE=SSE/n-k-1考虑了自变量个数的影响
当自变量个数增加,而MSE减少,则该增加变量对Y 是有 作用的,MSE越小越好。 调整决定系数Ra2=1-MSE/MST,它也同样考虑了自变量个数的 影响, Ra2越大越好与MSE越小越好等价。
回归模型的正确选择在根本上是依赖与研究问题本身的 专业问题
自变量的筛选
一、自变量筛选的标准与原则 1、残差平方和(SSE)缩小与确定系数(R2)增大
若某一自变量的引入使得SSE缩小很多,说明该变量对Y 的作用大,则引入;否则不被引入。
若某一变量从模型中被剔除后使得SSE增加很多,说明 该变量对Y的作用大,不应剔除;否则剔除。 决定系数R2=1-SSE/SST,它增大与SSE缩小完全等价
H0 : 1 2 m 0 H1 : j( j 1,2, , m)不全为0。
SS回 b1l1Y b2l 2Y bmlmY
SS残 SS总 SS回
F
SS残
SS回 /(n
/m m
1)
MS 回 MS 残
表 15-3 多元线性回归方差分析表
变异来源 自由度 SS
MS
F
P
总变异 回归 残差
方程的评价
1、剩余标准差 反映了回归方程的精度,其值越小说明回归效果越好
S Y|12 k
SSE SST
MS E
方程的评价
2、决定系数
说明所有自变量能解释Y变异的百分比。取值(0,1)
越接近1模型拟合越好
R2 SSR 1 SSE
SST
SST
方程的评价
3、校正决定系数 考虑了自变量个数的影响
联系的程度,
偏相关系数(以Y与X1为例) 扣除自变量X2,…,Xi ,…,Xp的影响后,刻画因变量Y与自变量X1的
线性联系的程度
复相关系数与偏相关系数
判断 偏相关是一个变量与另一些变量的线性组合的相关; 偏相关系数的符号与其对应的偏回归系数的符号一致; 偏相关系数的符号,说明该变量对因变量的作用方向; 复相关系数一定是正值;
多重线性回归的假设检验
二、偏回归系数的假设检验 在回归方程具有统计学意义的情况下,检验某个
总体偏回归系数是否等于零,据以判断其对应的自变量对 回归是否有贡献。
使用t检验
多重线性回归的假设检验
tj
bj Sbj
b1 0.1424 b2 0.3515 b3 0.2706 b4 0.6382 Sb1 0.3656 Sb2 0.2042 Sb3 0.1214 Sb4 0.2433
序号 i
总胆固醇 甘油三酯 胰岛素 糖化血红蛋白 血糖
(mmol/L) (mmol/L) (U/ml)
(%)
(mmol/L)
X1
X2
X3
X4
Y
1
5.68
1.90
4.53
8.2
11.2
2
3.79
1.64
7.32
6.9
8.8
3
6.02
3.56
6.95
10.8
12.3
27
3.84
1.20
6.45
9.6
10.4
穷举法,该法仅适用于自变量个数不多的情况。
1.校正决定系数 Rc2选择法
R c2
1 (1
R2) n 1 np1
1
MS 残 MS 总
R2可用来评价回归方程优劣。 随着自变量增加,R2不断增大,对两个不
同个数自变量回归方程比较,须考虑方程 包含自变量个数影响,应对R2进行校正。 所谓“最优”回归方程指Rc2 最大者。
Yˆ 5.9433 0.1424X1 0.3515X2 0.2706X3 0.6382X4
多元线性回归方程的形式及建立过程
通过解上述方程得到各个偏回归系数以及截距。 由于计算量相当大,一般都是依靠软件包来完成。
多重线性回归的假设检验
多重线性回归的假设检验
N
SSTotal (Yi Y )2
二、回归参数的估计
多元线性回归方程的形式及建立过程
66.0103 67.3608 - 53.9523 31.3687 67.6962
67.3608 172.3648 - 9.4929 26.7286 89.8025
lij
-
53.9523
- 9.4929
350.3106
-
57.3863
n-1 m
n-m-1
SS 总 SS 回 SS 残
SS 回/m
MS 回/MS 残
SS 残/(n-m-1)
表 15-4 多元线性回归方差分析表
变异来源 自由度 SS
MS
F
总变异
26 222.5519
回归
4 133.7107 33.4277 8.28
残差
22
88.8412 4.0382
P <0.01
F0.01(4,22)=4.31
多重线性回归的概念及其统计描述
应用场合:
定量地刻画一个因变量Y与多个自变量X1,X2,……间
的线性依存关系。
资料要求: 因变量一定是随机变量(LINE); 自变量可以是随机变量,也可以是人为给定的。
多重线性回归的概念及其统计描述
一、数据与模型
表 15-2 27 名糖尿病人的血糖及有关变量的测量结果
0.1424 t1 0.3656 0.390 P 0.05
0.3515 t2 0.2042 1.721 P 0.05
0.2706 t3 0.1214 2.229 P 0.05
0.6382 t4 0.2433 2.623
P 0.05
t 0.05/ 2,22 2.074
胰岛素(X3)与糖化血红蛋白(X4)与血糖(Y)有 线性回归关系。
自变量的筛选
一、自变量筛选的标准与原则 3、CP统计量 该统计量是从预测出发,基于残差平方和的一个准则。 该统计量越接近方程中自变量个数越好。
➢Cp接近(p+1)模型为最优
自变量的筛选
二、自变量筛选的常用方法 1、全局择优法 求出所有可能的回归模型(共有2k-1个)对应的准则值, 按不同准则选择最优模型。
➢多重线性回归的概念及其统计描述 ➢多重线性回归的假设检验 ➢复相关系数与偏相关系数 ➢自变量筛选 ➢关于多重线性回归的应用
多重线性回归的概念及其统计描述
在医学现象中,影响人的生理、病理现象及疾病 的因素很多,疾病的发生发展往往是多因素作用的结 果,且各因素之间不独立,存在相关性,仅仅进行单 因素研究结果不理想。需进行多因素分析。
i1
N
SSmodel (Yi Y )2
i1
N
SSerror (Yi Yi )2
i1
有关计算公式
Y
X1
X2
Total SS
Model SS
Residual SS
多重线性回归的假设检验
多重线性回归的假设检验
表 15-2 27 名糖尿病人的血糖及有关变量的测量结果
序号 i
总胆固醇 甘油三酯 胰岛素 糖化血红蛋白 血糖
-
142.4347
31.3687 26.7286 - 57.3863 86.4407 84.5570
67.6962
89.8025 -142.4347 84.5570
222.5519
66.0103b1 67.3608b2 - 53.9523b3 31.3687b4 67.6962 67.3608b1 172.3648b2 - 9.4929b3 26.7286b4 89.8025 - 53.9523b1 - 9.4929b2 350.3106b3 - 57.3863b4 - 142.4347 31.3687b1 26.7286b2 - 57.3863 b3 86.4407b4 84.5570
因变量Y 和多个自变量X1,X2,…,Xi ,…,Xp实施标准化变换后的直
线回归方程中,bi 为(样本)标准偏回归系数。
Yˆ a b1X1 b2 X2 biX bp Xp
复相关系数与偏相关系数
简单相关系数
单纯考虑因变量Y和自变量Xi的直线相关关系,ri为简单相关系数。
复相关系数
刻画因变量Y(随机变量)和一组自变量X1,X2,…,Xi ,…,Xp的线性
应用多元线性回归的目的
✓考察几个地位平等的影响因素对应变量的影响,如上例 ✓根据X前系数考察主要因素扣除其他干扰因素(不易做 到均衡可比)后的效应,如在研究新药作用时,可将一些 干扰因素纳入多元回归方程。
多元线性回归方程的形式及建立过程
多元线性回归方程的形式及建立过程
多元线性回归方程的形式及建立过程
3.标准化回归系数
X 'j
Xj Xj Sj
标准化回归方程
标准化回归系数bj’ 的绝对值用来比较各个自变量
Xj 对Y的影响程度大小;绝对值越大影响越大。
标准化回归方程的截距为0。
标准化回归系数与一般回归方程的回归系
数的关系:
b'j b j
l jj l YY
b j
Sj SY
b1'
0.1424
Ra2
R2
k(1 R2 ) n k 1
第二节 自变量选择方法
自变量的筛选
选择适当的自变量使得建立的回归模型达到较好的回归 效果。
若将对反映变量无影响或影响很小的自变量引入方程, 会加大计算量并使回归参数的估计和预测精度降低。
若未将对反映变量影响大的自变量包含在模型中,则回 归参数的估计往往是有偏的。
2.决定系数R2
R2 SS回 133.7107 0.6008 SS总 222.5519
血糖含量变异的60%可由总胆固醇、甘油三酯、 胰岛素和糖化血红蛋白的变异解释。
多重线性回归的假设检验
当只有一个自变量时(直线回归)除了t检验,也 可用方差分析对回归系数进行假设检验
因此有: F ~ F(1,n 2)
b1 0.1424 b2 0.3515 b3 0.2706 b4 0.6382
b1 0.1424 b2 0.3515 b3 0.2706 b4 0.6382 X1 5.8126 X2 2.8407 X3 6.1467 X4 9.1185 Y 11.9259
b0 Y (b1X1 b2X2 bmXm) 5.9433
多重线性回归和相关是一个应变量与多个自变量 间联系的线性回归模型和相关关系。是简单线性回归 与相关延续。
多重线性回归的概念及其统计描述
例子 人的体重与身高、胸围 血压值与年龄、性别、劳动强度、饮食习惯、吸烟 状况、家族史 糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总 胆固醇、甘油三脂 射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损 半径与辐射的温度、与照射的时间
1.5934 2.9257
0.0776
b'2
0.3515
2.5748 2.9257
0.3093
b'3
0.2706
3.6706 2.9257
0.3395
b'4
0.6382
1.8234 2.9257
0.3977
对血糖影响大小的顺序依次为糖化血红蛋白(X4)、 胰岛素(X3)、甘油三酯(X2)与总胆固醇 (X1)。胰 岛素为负向影响。
复相关系数与偏相关系数
一、决定系数、复相关系数、调整确定系数 1、决定系数
复相关系数与偏相关系数
2、复相关系数
Hale Waihona Puke Baidu
复相关系数与偏相关系数
3、调整决定系数
复相关系数与偏相关系数
二、偏相关系数 复相关系数反映了Y与所有自变量之间的密切程度,但
往往需要了解Y与自变量两两之间的关系或两个自变量间的关系。 每两个变量间都可能存在相关,因此计算每两个变量间
(mmol/L) (mmol/L) (U/ml)
(%)
(mmol/L)
X1
X2
X3
X4
Y
1
5.68
1.90
4.53
8.2
11.2
2
3.79
1.64
7.32
6.9
8.8
3
6.02
3.56
6.95
10.8
12.3
27
3.84
1.20
6.45
9.6
10.4
Yˆ 5.9433 0.1424X1 0.3515X2 0.2706X3 0.6382X4
2. Cp选择法
Cp ((MSSS残残))pm n 2p 1
pm
P为方程中自变量个数。 最优方程的Cp期望值是p+1。
应选择Cp最接近P+1的回归方程为最优。
的简单相关系数不能反映两变量间的真正关系。
为了反映两变量间的真正关系,在保证其他变量保持不 变的情况下,计算其相关系数(称为偏相关系数)。
(冷饮销售、游泳人数、气温)
复相关系数与偏相关系数
就下表资料讨论:在分析肺活量与体重、身高 的关系时,为什么身高与肺活量的简单相关系数有统 计学意义,而偏相关系数却没有统计学意义?
复相关系数与偏相关系数
简单回归系数
因变量Y 和自变量Xi的直线回归方程中,b为简单回归系数。
偏回归系数
Y a bXi
因变量Y 和多个自变量X1,X2,…,Xi ,…,Xp的直线回归方程中,bi为
(样本)偏回归系数。
Yˆ a b1X1 b2 X2 bi X bp X p
标准偏回归系数
自变量的筛选
一、自变量筛选的标准与原则
2、残差均方(MSE)缩小与调整确定系数(Ra2)增大 MSE=SSE/n-k-1考虑了自变量个数的影响
当自变量个数增加,而MSE减少,则该增加变量对Y 是有 作用的,MSE越小越好。 调整决定系数Ra2=1-MSE/MST,它也同样考虑了自变量个数的 影响, Ra2越大越好与MSE越小越好等价。
回归模型的正确选择在根本上是依赖与研究问题本身的 专业问题
自变量的筛选
一、自变量筛选的标准与原则 1、残差平方和(SSE)缩小与确定系数(R2)增大
若某一自变量的引入使得SSE缩小很多,说明该变量对Y 的作用大,则引入;否则不被引入。
若某一变量从模型中被剔除后使得SSE增加很多,说明 该变量对Y的作用大,不应剔除;否则剔除。 决定系数R2=1-SSE/SST,它增大与SSE缩小完全等价
H0 : 1 2 m 0 H1 : j( j 1,2, , m)不全为0。
SS回 b1l1Y b2l 2Y bmlmY
SS残 SS总 SS回
F
SS残
SS回 /(n
/m m
1)
MS 回 MS 残
表 15-3 多元线性回归方差分析表
变异来源 自由度 SS
MS
F
P
总变异 回归 残差
方程的评价
1、剩余标准差 反映了回归方程的精度,其值越小说明回归效果越好
S Y|12 k
SSE SST
MS E
方程的评价
2、决定系数
说明所有自变量能解释Y变异的百分比。取值(0,1)
越接近1模型拟合越好
R2 SSR 1 SSE
SST
SST
方程的评价
3、校正决定系数 考虑了自变量个数的影响
联系的程度,
偏相关系数(以Y与X1为例) 扣除自变量X2,…,Xi ,…,Xp的影响后,刻画因变量Y与自变量X1的
线性联系的程度
复相关系数与偏相关系数
判断 偏相关是一个变量与另一些变量的线性组合的相关; 偏相关系数的符号与其对应的偏回归系数的符号一致; 偏相关系数的符号,说明该变量对因变量的作用方向; 复相关系数一定是正值;
多重线性回归的假设检验
二、偏回归系数的假设检验 在回归方程具有统计学意义的情况下,检验某个
总体偏回归系数是否等于零,据以判断其对应的自变量对 回归是否有贡献。
使用t检验
多重线性回归的假设检验
tj
bj Sbj
b1 0.1424 b2 0.3515 b3 0.2706 b4 0.6382 Sb1 0.3656 Sb2 0.2042 Sb3 0.1214 Sb4 0.2433
序号 i
总胆固醇 甘油三酯 胰岛素 糖化血红蛋白 血糖
(mmol/L) (mmol/L) (U/ml)
(%)
(mmol/L)
X1
X2
X3
X4
Y
1
5.68
1.90
4.53
8.2
11.2
2
3.79
1.64
7.32
6.9
8.8
3
6.02
3.56
6.95
10.8
12.3
27
3.84
1.20
6.45
9.6
10.4
穷举法,该法仅适用于自变量个数不多的情况。
1.校正决定系数 Rc2选择法
R c2
1 (1
R2) n 1 np1
1
MS 残 MS 总
R2可用来评价回归方程优劣。 随着自变量增加,R2不断增大,对两个不
同个数自变量回归方程比较,须考虑方程 包含自变量个数影响,应对R2进行校正。 所谓“最优”回归方程指Rc2 最大者。
Yˆ 5.9433 0.1424X1 0.3515X2 0.2706X3 0.6382X4
多元线性回归方程的形式及建立过程
通过解上述方程得到各个偏回归系数以及截距。 由于计算量相当大,一般都是依靠软件包来完成。
多重线性回归的假设检验
多重线性回归的假设检验
N
SSTotal (Yi Y )2
二、回归参数的估计
多元线性回归方程的形式及建立过程
66.0103 67.3608 - 53.9523 31.3687 67.6962
67.3608 172.3648 - 9.4929 26.7286 89.8025
lij
-
53.9523
- 9.4929
350.3106
-
57.3863
n-1 m
n-m-1
SS 总 SS 回 SS 残
SS 回/m
MS 回/MS 残
SS 残/(n-m-1)
表 15-4 多元线性回归方差分析表
变异来源 自由度 SS
MS
F
总变异
26 222.5519
回归
4 133.7107 33.4277 8.28
残差
22
88.8412 4.0382
P <0.01
F0.01(4,22)=4.31
多重线性回归的概念及其统计描述
应用场合:
定量地刻画一个因变量Y与多个自变量X1,X2,……间
的线性依存关系。
资料要求: 因变量一定是随机变量(LINE); 自变量可以是随机变量,也可以是人为给定的。
多重线性回归的概念及其统计描述
一、数据与模型
表 15-2 27 名糖尿病人的血糖及有关变量的测量结果
0.1424 t1 0.3656 0.390 P 0.05
0.3515 t2 0.2042 1.721 P 0.05
0.2706 t3 0.1214 2.229 P 0.05
0.6382 t4 0.2433 2.623
P 0.05
t 0.05/ 2,22 2.074
胰岛素(X3)与糖化血红蛋白(X4)与血糖(Y)有 线性回归关系。
自变量的筛选
一、自变量筛选的标准与原则 3、CP统计量 该统计量是从预测出发,基于残差平方和的一个准则。 该统计量越接近方程中自变量个数越好。
➢Cp接近(p+1)模型为最优
自变量的筛选
二、自变量筛选的常用方法 1、全局择优法 求出所有可能的回归模型(共有2k-1个)对应的准则值, 按不同准则选择最优模型。