第六讲-常用多因素回归分析方法简介
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 量纲不同的两个自变量的偏回归系数可否直接比较?
• 不能!需计算标准化偏回归系数b’i(standardized
partial regression coefficient) 自变量标准化变换(P195,公式11-3)
2013/9/4 常用多因素回归分析方法 - 多重线性回归 11
1.3回归系数的估计
偏回归系数(partial regression coefficient),当方程中
其他自变量保持常量时,自变量Xi每增加(或减少)一个单
位,Y平均变化 i 个单位。
2013/9/4 常用多因素回归分析方法 - 多重线性回归 10
1.2样本回归方程
ˆ b b X b X ... b X Y 0 1 1 2 2 p p
R
SS回归 SS总
随机变量Y与一组随机变量(X1、X2、X3…、Xp) 之间线性相关的程度。
2013/9/4 常用多因素回归分析方法 - 多重线性回归 17
1.8回归系数的假设检验
假设检验方法:t 检验
H 0 : i 0 H1 : i 0
0.05
表11-3
变量 车流量 X 1 气温 X 2 气湿 X 3 风速 X 4 2013/9/4 自由度 1 1 1 1
0.45 0.50 1.50 0.40 0.90 0.80 1.80 0.60 1.70 0.65 0.40 2.00
常用多因素回归分析方法 - 多重线性回归
问题
• 单位时间内过往的汽车数(千辆)、气温(℃)、 空气湿度(%)、风速(m/s)这四个因素是否都对 空气中一氧化氮(NO)的浓度(ppm)有影响? • 如何定量地描述这些因素对一氧化氮浓度的影响?
2013/9/4 常用多因素回归分析方法 - 多重线性回归 7
表11-1 24个城市交通点空气中NO浓度监测数据
一氧化氮 车流量 气温 气湿 风速 (Y ) ( X1 ) ( X 2 ) ( X 3 ) ( X 4 ) 0.066 0.076 0.001 0.170 0.156 0.120 0.040 0.120 0.100 0.129 0.135 0.099
2013/9/4 常用多因素回归分析方法 - 多重线性回归 15
1.6调整的确定系数
调整的确定系数(adjusted coefficient of determination)
MS残差 SS残差 / n p 1 n 1 2 R 1 1 1 1 R MS总 SS总 / n 1 n p 1
筛选的统计学标准
• 残差平方和(SS残差)缩小或确定系数(R2)增大
• 残差的均方(MS残差)缩小或调整确定系数(Rad2) 增大 • Cp统计量缩小 • 赤池信息准则(Akaike’s information criterion, AIC)
• 贝叶斯信息量(Bayesian information criterion, BIC)
2013/9/4
常用多因素回归分析方法 - 多重线性回归
25
1.10哑变量的设置
表11-5 用二分类哑变量描述血型
变量 血型
X1
1 0 0 0
X2
0 1 0 0
X3
0 0 1 0
A
B
AB
O
参考变量
0 非A X1 1 A型
0 非B X2 1 B型
0 非A B X3 1 AB型
2Baidu Nhomakorabeaad
优点:方程中增加对因变量贡献很小或没贡献的自 变量时,调整的确定系数不会增大,还可能变小。 R2=0.79 Rad2=0.74
2013/9/4 常用多因素回归分析方法 - 多重线性回归 16
1.7复相关系数
复相关系数(multiple correlation coefficient)
结论
• 车流量、气温、风速对一氧化氮浓度的影响有统计
学意义,气湿的影响没有统计学意义。
• 上述三个自变量可以解释一氧化氮浓度的约80%的
变异。 • 从标准化偏回归系数的大小发现,车流量的影响最 大,其次为风速,气温。
2013/9/4 常用多因素回归分析方法 - 多重线性回归 19
1.9自变量的筛选
8
1.300 1.444 0.786 1.652 1.756 1.754 1.200 1.500 1.200 1.476 1.820 1.436
20.0 23.0 26.5 23.0 29.5 30.0 22.5 21.8 27.0 27.0 22.0 28.0
80 57 64 84 72 76 69 77 58 65 83 68
偏回归平方和
2013/9/4 常用多因素回归分析方法 - 多重线性回归 21
1.9自变量的筛选
表11-4 两个回归模型的参数估计与统计量
模型参数估计
R2
0.787 0.787
Rad
2
Cp
3.00 5.00
MS残差
.0008 .0009
Intercept
-0.142 -0.142
X1
0.116 0.116
偏回归系数的t检验与标准化偏回归系数
回归系数 0.116 0.004 -6.5510-6 -0.035 标准误 0.027 0.002 0.001 0.011
t
4.23 2.36 -0.01 -3.21
P
0.0005 0.0289 0.9925 0.0050
标准化偏 回归系数 0.592 0.273 -0.001 -0.448 18
MS
0.016 0.001
F
17.59
P
<.001
常用多因素回归分析方法 - 多重线性回归
14
1.5确定系数
确定系数(coefficient of determination)
R
2
SS回归 SS总
反映回归方程的效果 R2=0.79 缺点:回归方程增加自变量时,不管自变量对因变量 的贡献大小,确定系数只增不减。
• Y:结局是否发生+发生的快慢
两组肝癌患者治疗后复发时间(月)
2013/9/4 常用多因素回归分析方法
4
多重线性回归
2013/9/4
常用多因素回归分析方法 - 多重线性回归
5
基本概念
多重线性回归(multiple linear regression) 是简单线性回归方法的拓展,它采用回归
方程的方式定量地描述一个因变量Y 和多
2013/9/4 常用多因素回归分析方法 2
前情提要
(b) • Y随X的变化的程度:
• X对Y影响的大小: R 2
2013/9/4
常用多因素回归分析方法
3
• 多个X对1个Y的影响
?
血压值受年龄、性别、饮食习惯、吸烟状况、家族史 等的影响
• Y为分类变量
? ?
医院抢救急性心肌梗塞患者能否成功(是/否)
13
1.4回归方程的假设检验
假设检验方法:方差分析
H 0:1 = 2 =3 = 4 =0 H1:1 , 2 ,3 , 4不全为0
=0.05
表11-2 检验回归方程整体意义的方差分析表
变异来源 回归 残差 总
2013/9/4
自由度 4 19 23
SS
0.064 0.017 0.081
变量的过程常被称为“哑元化(dummying)”,得
到的多个二分类变量称为“哑变量(dummy
variable)”
2013/9/4
常用多因素回归分析方法 - 多重线性回归
24
1.10哑变量的设置
例11-3 血型是一个无序多分类变量,它的取
“值”是A、B、AB、O四种,可以用3个二
分类变量来描述。见表11-5:
22logistic常用多因素回归分析方法logistic回归22logistic出血例数y155a46981b47136ab未用该药96c44538d44634cd常用多因素回归分析方法logistic回归表181上消化道出血症状与非甾体抗炎药物的关系?服用该药品人群中不发生上消化道出血症状的条件概率?服用该药品人群中发生上消化道出血症状的条件概率22logistic优势与优势比上述两个条件概率之比称为发生出血症状比不发生出血症状的优势oddsoddsab服药odds之比称优势比oddsratioadbc22logistic单自变量logistic方程常用多因素回归分析方法logitlnoddsodds22logistic参数估计极大似然法maximumlikelihoodml确定回归模型确定似然函数和对数似然函数求似然函数或对数似然函数达到极大时参数估计logistic回归22logistic回归系数的解释在未服用该药品条件下x上消化道出血与不出血的对数优势在服用该药品条件下x上消化道出血与不出血的对数优势常用多因素回归分析方法22logistic回归系数的解释大于危险因素小于保护因素常用多因素回归分析方法23logistic回归方程参数估计方法与回归系数的解释与单自变量模型相同标准化回归系数
X2
0.004 0.004
X3
-6.6E-6
X4
-0.035 -0.035
0.755 0.743
只需要车流量、气温和风速三个变量就可以较好地预测 空气中一氧化氮浓度。
ˆ 0.142 0.116 X 0.004 X 0.035 X Y 1 2 4
2013/9/4 常用多因素回归分析方法 - 多重线性回归 22
1.10哑变量的设置
多重线性回归分析中的自变量:
• 连续型的变量(如年龄、血压等) • 二分类的变量(如性别) • 有序变量(如肿瘤的分期、疗效的分级等) • 无序多分类变量(如血型等)
2013/9/4
常用多因素回归分析方法 - 多重线性回归
23
1.10哑变量的设置
概念
将有序变量或无序多分类变量转换成为多个二分类
• 哪个因素对一氧化氮浓度的影响最大?哪个因素的
影响最小?
2013/9/4 常用多因素回归分析方法 - 多重线性回归 9
1.1回归模型
截距:所有自变量为0时反应变量Y的 总体平均值 。
Y | x1 , x2 ,..., x p 0 1 X 1 2 X 2 p X p
2013/9/4 常用多因素回归分析方法 - 多重线性回归 20
1.9自变量的筛选
筛选的常用方法
• 前进法(forward regression)
• 后退法(backward regression)
• 逐步回归法(stepwise regression)
• 最优子集回归法(optimum subsets regression)
常用多因素回归分析方法简介
陈 雯 中山大学公共卫生学院 医学统计与流行病学系
2013/9/4 常用多因素回归分析方法 1
前情提要
简单线性回归(§10)
• 变量数:2( X & Y )
• 变量间的关系:依存关系 X:自变量(independent variable)
Y :因变量(dependent variable)
2013/9/4 常用多因素回归分析方法 - 多重线性回归 12
新问题
• 回归方程是否有意义?即在所有自变量中,是否
至少存在一个自变量与Y的总体均数呈线性关系?
• 回归方程的效果如何?也即是这四个自变量能够
解释反应变量的变异的百分比是多少? • 四个自变量是否都对反应变量有影响?
2013/9/4
常用多因素回归分析方法 - 多重线性回归
26
二分类变量的个数=有序变量或无序分类变量的类别数-1
2013/9/4 常用多因素回归分析方法 - 多重线性回归
1.11交互效应
概念
如果某个自变量与因变量的线性关系随着另外一个自 变量的取值的改变而改变,我们就说这两个自变量之 间存在交互作用或交互效应(interaction),又称为 效应修正(effect modification)。
2013/9/4
一氧化氮 车流量 气温 气湿 风速 (Y ) ( X1 ) ( X 2 ) ( X 3 ) ( X 4 ) 0.005 0.011 0.003 0.140 0.039 0.059 0.087 0.039 0.222 0.145 0.029 0.099 0.948 1.440 1.084 1.844 1.116 1.656 1.536 0.960 1.784 1.496 1.060 1.436 22.5 21.5 28.5 26.0 35.0 20.0 23.0 24.8 23.3 27.0 26.0 28.0 69 79 59 73 92 83 57 67 83 65 58 68 2.00 2.40 3.00 1.00 2.80 1.45 1.50 1.50 0.90 0.65 1.83 2.00
最小二乘估计(least square estimation,LSE)
寻找一套适宜的偏回归系数(b0,b1,b2…bp )建立
多重线性回归方程,使得反应变量的观测值与回归
方程的估计值之间的残差平方和最小。
(同“简单线性回归”)
ˆ 0.142 0.116 X 0.004 X 6.55 10 6 X 0.035 X Y 1 2 3 4
个自变量X之间的线性依存关系。
2013/9/4
常用多因素回归分析方法 - 多重线性回归
6
例11-1 某研究预分析大气污染物一氧化氮(
NO)的浓度(ppm)与汽车流量(千辆)、
气温(℃)、空气湿度(%)、风速(m/s)
等因素的关系。研究者选择了24个工业水平
相近的城市,每个城市选择一个交通点,测量 了上述资料。数据如表11-1所示。
2013/9/4
常用多因素回归分析方法 - 多重线性回归
27
1.11交互效应
例11-4 某项研究调查了3334名有心脏疾患的妇女,
了解血清高密度脂蛋白胆固醇( HDL cholesterol , mg/dl)与体质指数(body mass index, BMI, kg/m2) 的关系,考虑到是否患糖尿病( DIABETES )也是影 响 HDL 水平的因素,因此建立了一个以体质指数、是 否患糖尿病为自变量, HDL 为反应变量的线性回归方 程。
• 不能!需计算标准化偏回归系数b’i(standardized
partial regression coefficient) 自变量标准化变换(P195,公式11-3)
2013/9/4 常用多因素回归分析方法 - 多重线性回归 11
1.3回归系数的估计
偏回归系数(partial regression coefficient),当方程中
其他自变量保持常量时,自变量Xi每增加(或减少)一个单
位,Y平均变化 i 个单位。
2013/9/4 常用多因素回归分析方法 - 多重线性回归 10
1.2样本回归方程
ˆ b b X b X ... b X Y 0 1 1 2 2 p p
R
SS回归 SS总
随机变量Y与一组随机变量(X1、X2、X3…、Xp) 之间线性相关的程度。
2013/9/4 常用多因素回归分析方法 - 多重线性回归 17
1.8回归系数的假设检验
假设检验方法:t 检验
H 0 : i 0 H1 : i 0
0.05
表11-3
变量 车流量 X 1 气温 X 2 气湿 X 3 风速 X 4 2013/9/4 自由度 1 1 1 1
0.45 0.50 1.50 0.40 0.90 0.80 1.80 0.60 1.70 0.65 0.40 2.00
常用多因素回归分析方法 - 多重线性回归
问题
• 单位时间内过往的汽车数(千辆)、气温(℃)、 空气湿度(%)、风速(m/s)这四个因素是否都对 空气中一氧化氮(NO)的浓度(ppm)有影响? • 如何定量地描述这些因素对一氧化氮浓度的影响?
2013/9/4 常用多因素回归分析方法 - 多重线性回归 7
表11-1 24个城市交通点空气中NO浓度监测数据
一氧化氮 车流量 气温 气湿 风速 (Y ) ( X1 ) ( X 2 ) ( X 3 ) ( X 4 ) 0.066 0.076 0.001 0.170 0.156 0.120 0.040 0.120 0.100 0.129 0.135 0.099
2013/9/4 常用多因素回归分析方法 - 多重线性回归 15
1.6调整的确定系数
调整的确定系数(adjusted coefficient of determination)
MS残差 SS残差 / n p 1 n 1 2 R 1 1 1 1 R MS总 SS总 / n 1 n p 1
筛选的统计学标准
• 残差平方和(SS残差)缩小或确定系数(R2)增大
• 残差的均方(MS残差)缩小或调整确定系数(Rad2) 增大 • Cp统计量缩小 • 赤池信息准则(Akaike’s information criterion, AIC)
• 贝叶斯信息量(Bayesian information criterion, BIC)
2013/9/4
常用多因素回归分析方法 - 多重线性回归
25
1.10哑变量的设置
表11-5 用二分类哑变量描述血型
变量 血型
X1
1 0 0 0
X2
0 1 0 0
X3
0 0 1 0
A
B
AB
O
参考变量
0 非A X1 1 A型
0 非B X2 1 B型
0 非A B X3 1 AB型
2Baidu Nhomakorabeaad
优点:方程中增加对因变量贡献很小或没贡献的自 变量时,调整的确定系数不会增大,还可能变小。 R2=0.79 Rad2=0.74
2013/9/4 常用多因素回归分析方法 - 多重线性回归 16
1.7复相关系数
复相关系数(multiple correlation coefficient)
结论
• 车流量、气温、风速对一氧化氮浓度的影响有统计
学意义,气湿的影响没有统计学意义。
• 上述三个自变量可以解释一氧化氮浓度的约80%的
变异。 • 从标准化偏回归系数的大小发现,车流量的影响最 大,其次为风速,气温。
2013/9/4 常用多因素回归分析方法 - 多重线性回归 19
1.9自变量的筛选
8
1.300 1.444 0.786 1.652 1.756 1.754 1.200 1.500 1.200 1.476 1.820 1.436
20.0 23.0 26.5 23.0 29.5 30.0 22.5 21.8 27.0 27.0 22.0 28.0
80 57 64 84 72 76 69 77 58 65 83 68
偏回归平方和
2013/9/4 常用多因素回归分析方法 - 多重线性回归 21
1.9自变量的筛选
表11-4 两个回归模型的参数估计与统计量
模型参数估计
R2
0.787 0.787
Rad
2
Cp
3.00 5.00
MS残差
.0008 .0009
Intercept
-0.142 -0.142
X1
0.116 0.116
偏回归系数的t检验与标准化偏回归系数
回归系数 0.116 0.004 -6.5510-6 -0.035 标准误 0.027 0.002 0.001 0.011
t
4.23 2.36 -0.01 -3.21
P
0.0005 0.0289 0.9925 0.0050
标准化偏 回归系数 0.592 0.273 -0.001 -0.448 18
MS
0.016 0.001
F
17.59
P
<.001
常用多因素回归分析方法 - 多重线性回归
14
1.5确定系数
确定系数(coefficient of determination)
R
2
SS回归 SS总
反映回归方程的效果 R2=0.79 缺点:回归方程增加自变量时,不管自变量对因变量 的贡献大小,确定系数只增不减。
• Y:结局是否发生+发生的快慢
两组肝癌患者治疗后复发时间(月)
2013/9/4 常用多因素回归分析方法
4
多重线性回归
2013/9/4
常用多因素回归分析方法 - 多重线性回归
5
基本概念
多重线性回归(multiple linear regression) 是简单线性回归方法的拓展,它采用回归
方程的方式定量地描述一个因变量Y 和多
2013/9/4 常用多因素回归分析方法 2
前情提要
(b) • Y随X的变化的程度:
• X对Y影响的大小: R 2
2013/9/4
常用多因素回归分析方法
3
• 多个X对1个Y的影响
?
血压值受年龄、性别、饮食习惯、吸烟状况、家族史 等的影响
• Y为分类变量
? ?
医院抢救急性心肌梗塞患者能否成功(是/否)
13
1.4回归方程的假设检验
假设检验方法:方差分析
H 0:1 = 2 =3 = 4 =0 H1:1 , 2 ,3 , 4不全为0
=0.05
表11-2 检验回归方程整体意义的方差分析表
变异来源 回归 残差 总
2013/9/4
自由度 4 19 23
SS
0.064 0.017 0.081
变量的过程常被称为“哑元化(dummying)”,得
到的多个二分类变量称为“哑变量(dummy
variable)”
2013/9/4
常用多因素回归分析方法 - 多重线性回归
24
1.10哑变量的设置
例11-3 血型是一个无序多分类变量,它的取
“值”是A、B、AB、O四种,可以用3个二
分类变量来描述。见表11-5:
22logistic常用多因素回归分析方法logistic回归22logistic出血例数y155a46981b47136ab未用该药96c44538d44634cd常用多因素回归分析方法logistic回归表181上消化道出血症状与非甾体抗炎药物的关系?服用该药品人群中不发生上消化道出血症状的条件概率?服用该药品人群中发生上消化道出血症状的条件概率22logistic优势与优势比上述两个条件概率之比称为发生出血症状比不发生出血症状的优势oddsoddsab服药odds之比称优势比oddsratioadbc22logistic单自变量logistic方程常用多因素回归分析方法logitlnoddsodds22logistic参数估计极大似然法maximumlikelihoodml确定回归模型确定似然函数和对数似然函数求似然函数或对数似然函数达到极大时参数估计logistic回归22logistic回归系数的解释在未服用该药品条件下x上消化道出血与不出血的对数优势在服用该药品条件下x上消化道出血与不出血的对数优势常用多因素回归分析方法22logistic回归系数的解释大于危险因素小于保护因素常用多因素回归分析方法23logistic回归方程参数估计方法与回归系数的解释与单自变量模型相同标准化回归系数
X2
0.004 0.004
X3
-6.6E-6
X4
-0.035 -0.035
0.755 0.743
只需要车流量、气温和风速三个变量就可以较好地预测 空气中一氧化氮浓度。
ˆ 0.142 0.116 X 0.004 X 0.035 X Y 1 2 4
2013/9/4 常用多因素回归分析方法 - 多重线性回归 22
1.10哑变量的设置
多重线性回归分析中的自变量:
• 连续型的变量(如年龄、血压等) • 二分类的变量(如性别) • 有序变量(如肿瘤的分期、疗效的分级等) • 无序多分类变量(如血型等)
2013/9/4
常用多因素回归分析方法 - 多重线性回归
23
1.10哑变量的设置
概念
将有序变量或无序多分类变量转换成为多个二分类
• 哪个因素对一氧化氮浓度的影响最大?哪个因素的
影响最小?
2013/9/4 常用多因素回归分析方法 - 多重线性回归 9
1.1回归模型
截距:所有自变量为0时反应变量Y的 总体平均值 。
Y | x1 , x2 ,..., x p 0 1 X 1 2 X 2 p X p
2013/9/4 常用多因素回归分析方法 - 多重线性回归 20
1.9自变量的筛选
筛选的常用方法
• 前进法(forward regression)
• 后退法(backward regression)
• 逐步回归法(stepwise regression)
• 最优子集回归法(optimum subsets regression)
常用多因素回归分析方法简介
陈 雯 中山大学公共卫生学院 医学统计与流行病学系
2013/9/4 常用多因素回归分析方法 1
前情提要
简单线性回归(§10)
• 变量数:2( X & Y )
• 变量间的关系:依存关系 X:自变量(independent variable)
Y :因变量(dependent variable)
2013/9/4 常用多因素回归分析方法 - 多重线性回归 12
新问题
• 回归方程是否有意义?即在所有自变量中,是否
至少存在一个自变量与Y的总体均数呈线性关系?
• 回归方程的效果如何?也即是这四个自变量能够
解释反应变量的变异的百分比是多少? • 四个自变量是否都对反应变量有影响?
2013/9/4
常用多因素回归分析方法 - 多重线性回归
26
二分类变量的个数=有序变量或无序分类变量的类别数-1
2013/9/4 常用多因素回归分析方法 - 多重线性回归
1.11交互效应
概念
如果某个自变量与因变量的线性关系随着另外一个自 变量的取值的改变而改变,我们就说这两个自变量之 间存在交互作用或交互效应(interaction),又称为 效应修正(effect modification)。
2013/9/4
一氧化氮 车流量 气温 气湿 风速 (Y ) ( X1 ) ( X 2 ) ( X 3 ) ( X 4 ) 0.005 0.011 0.003 0.140 0.039 0.059 0.087 0.039 0.222 0.145 0.029 0.099 0.948 1.440 1.084 1.844 1.116 1.656 1.536 0.960 1.784 1.496 1.060 1.436 22.5 21.5 28.5 26.0 35.0 20.0 23.0 24.8 23.3 27.0 26.0 28.0 69 79 59 73 92 83 57 67 83 65 58 68 2.00 2.40 3.00 1.00 2.80 1.45 1.50 1.50 0.90 0.65 1.83 2.00
最小二乘估计(least square estimation,LSE)
寻找一套适宜的偏回归系数(b0,b1,b2…bp )建立
多重线性回归方程,使得反应变量的观测值与回归
方程的估计值之间的残差平方和最小。
(同“简单线性回归”)
ˆ 0.142 0.116 X 0.004 X 6.55 10 6 X 0.035 X Y 1 2 3 4
个自变量X之间的线性依存关系。
2013/9/4
常用多因素回归分析方法 - 多重线性回归
6
例11-1 某研究预分析大气污染物一氧化氮(
NO)的浓度(ppm)与汽车流量(千辆)、
气温(℃)、空气湿度(%)、风速(m/s)
等因素的关系。研究者选择了24个工业水平
相近的城市,每个城市选择一个交通点,测量 了上述资料。数据如表11-1所示。
2013/9/4
常用多因素回归分析方法 - 多重线性回归
27
1.11交互效应
例11-4 某项研究调查了3334名有心脏疾患的妇女,
了解血清高密度脂蛋白胆固醇( HDL cholesterol , mg/dl)与体质指数(body mass index, BMI, kg/m2) 的关系,考虑到是否患糖尿病( DIABETES )也是影 响 HDL 水平的因素,因此建立了一个以体质指数、是 否患糖尿病为自变量, HDL 为反应变量的线性回归方 程。