多重线性回归分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多重线性回归分析
例:由于改革开放政策,深圳特区中外来人口大幅度增加, 为了考察特区中外来人口对本地经济发展的贡献,深圳特 区统计局收集了所属的宝安县在1987年末18个镇的人口 与工农业总产值数据(见数据文件reg.sav)。此处把工 农业总产值当作因变量(W),而把外地及本地人口数当 作两个自变量(Z1,Z2)。 (有关统计方法的原理及计算参见孙尚拱,《医学多变 量统计与统计软件》,北京医科大学出版社,2000)
练习1
以下实例摘自 Hosmer, David W . (2000). Applied logistic regression . John Wiley, New York. 研究目的是考察与婴儿低出生体重有关的可能危险因素(当体重低于 2500g时,认为是低出生体重婴儿)。研究收集了189例妇女的数据,其中 59例分娩低出生体重婴儿,130例分娩正常体重婴儿(数据见文件 data1.sav)。
2.Logistic模型
g ( x) 0 1 x1 2 x2 .... i xi .... m xm
g(x)是对P的变换,称为logit变换:
P g ( x) ln 1 P
可以得到:
P exp[ g ( x)] 1 exp[ g ( x)]
Logistic回归分析
(一)Logistic回归分析的任务
影响因素分析 logistic回归常用于疾病的危险因素分析,logistic回归 分析可以提供一个重要的指标:OR。
(二)Logistic回归分析的基本原理
1.变量特点 因变量:二分类变量,若令因变量为y,则常用y=1表 示“发病”,y=0表示“不发病”(在病例对照研究中, 分别表示病例组和对照组)。 自变量:可以为分类变量,也可以为连续变量。
共线性诊断
特征根 条件指数, CI
方差比例
共线性诊断:两个自变量之间不存在共线性。
残差统计量
标准化残差 学生化残差
因为标准化残差、学生化残差的绝对值小于3,所以从统计学上 认为样本不存在强影响点。
直方图及P-P图
从残差直方图及P-P图可见:残差正态性不太好, 可能与样本量太小有关。
通过绘制y与X1的偏相关散点图,可以判断y与X1之间存 在线性关系。
这些指标越接近于1,说明回归模型拟合越好。
2.哪些自变量对因变量有影响?(影响因素分析) 对回归模型的统计检验
n m 1 SSreg F m SSE
当P<0.05,则认为此回归模型有显著性。 对自变量的统计检验
t bi / se(bi )
当P<0.05,则认为此自变量对因变量有影响。
模型拟和的优良性指标
R:复相关系数,反映了Y与M个自变量的总体相关系数;
R2:决定系数(R Square) R2c:调整决定系数(Adjusted R square ),是对决定系 数的修正,是更客观的指标。 (若要做预测分析的话,R值的要求
较高,应>0.75。0.6凑活,0.3.,0.4预测效果很差。若只是做影响因素分析的 话0.5之类都还好)
数据文件reg.sav
(一)多重回归分析的任务
1.如何估计自变量与因变量之间的相互关系?(估计回归方程)
2.哪些自变量对因变量有影响?(影响因素分析) 3.哪一个自变量对因变量的影响更重要?(自变量的相对重要性 分析) 4.如何用自变量预测因变量?(预测分析)
(二)多重回归分析的适用条件
1.自变量与因变量之间存在线性关系 2.残差的正态性 3.残差的等方差性 4.剔除强影响点(突出点,outliers) 5.自变量之间不应存在共线性 6.独立性
删除强影响点应该慎重,需要结合专业知识。以下两种情 况可以考虑删除强影响点:1.强影响点是由于数据记录错 误造成的;2.强影响点来自不同的总体。
5.自变量之间不应存在共线性(Collinear) (可以有一定的相关性,
因为如果完全不相关,相关系数为0,那么就和单变量分析一样。)
当一个(或几个)自变量可以由其他自变量线性表示时,称 该自变量与其他自变量间存在共线性关系。常见于:1.一个 变量是由其他变量派生出来的,如:BMI由身高和体重计算 得出 ;2.一个变量与其他变量存在很强的相关性。 当自变量之间存在共线性时,会使回归系数的估计不确定、 预测值的精度降低以及对y有影响的重要自变量不能选入模 型。
模型拟和
统计描述
共线性诊断 部分相关与偏相关系数
Plots对话框
标准化 残差图 直方图 正态概率图,P-P图
绘制所有的 偏相关图
Save对话框
3.输出结果解释
分别给出Y、X1、 X2的均数与标 准差 相关系数阵 简单相关系数 (Pearson相关) P值
从简单相关系数可见:Y与X1、X2存在较强相关性,X1、X2 存在中等相关性。
复相关系数 决定系数 调整决定系数
F值
P值
此模型的复相关系数为0.857,调整决定=20.738,P<0.05,说明此多元回归 模型有显著性。
非标准化系数
标准化系数 t值
P值
简单相关 偏相关 部分相关
Tol
VIF
经统计学检验,X1与X2均有显著性,因此回归模型为 ˆ y 6.889 0.695 X1 0.838 X 2 ;根据偏回归系数的大小, 可以认为X2对Y的影响比X1大。
标准化偏回归系数:对自变量、因变量作标准化处理后计 算的回归系数。 偏相关系数:因变量与自变量均扣除其他自变量影响之后, 二者之间的相关系数。与简单相关系数(Pearson相关系数) 不同;例如:考察因变量Y与自变量X1 、X2的多元回归分 析,Y与X1的偏相关系数为扣除X2影响后的Y与X1的相关性。 Y与X1的简单相关系数为忽略X2影响后的Y与X1的相关性。 部分相关系数:自变量扣除其他自变量影响之后,因变量 与自变量之间的相关系数。与偏相关系数不同,部分相关 系数中因变量未扣除其他自变量的影响。
3.哪一个自变量对因变量的影响更重要?(自变量的相对重要 性分析) 当自变量的量纲相同时,衡量自变量相对重要性的指标: 偏回归系数;若偏回归系数的绝对值越大,则相应自变 量对因变量的影响就越大。
当自变量的量纲不同时,衡量自变量相对重要性的指标:(偏回 归系数有量纲,以下指标无,故可用来衡量)
标准化偏回归系数(Standardized regression coefficient)、 偏相关系数(Partial Correlation)和部分相关系数(Part Correlation)。上述指标的绝对值越大,则相应自变量对因变 量的影响就越大。
估计模型中系数的方法:最小二乘方法(Least Square, LS),即残差平方和最小。
b1, b2….. bm称为偏回归系数(partial regression coefficient) :当固定其他变量时(扣除其他自变量的影响,即 Bm就是已经调整了其他影响因素后的回归系数,故名偏~ ),xm每增加一 个单位,y的增加值都是bm。
P=P(y=1|x),为发病概率;1-P=P(y=0|x),为不发病概率。
0为常数项, 1 , 2 ….. m分别为m个自变量的回归系数。
模型估计方法: 最大似然法(Maximum Likelihood Method):构造似然 函数( Likelihood function )L= P(y=1|x) P(y=0|x),通 过迭代法(默认20次以内)估计一组参数(0, 1 ,
4.如何用自变量预测因变量?(预测分析) 当自变量取某个数值时,y的预测值为
0 0 ˆ y0 b0 b1 x10 b2 x2 .... bm xm
Y的均数的95%置信区间 个体Y值的95%容许区间
预测分析时,(x10,x20…… xm0)应该在样本的自变 量取值范围内。
(二)多重回归分析的适用条件
自变量的筛选 实际应用中,通常从专业知识出发,建立一个简约 (parsimonious)的回归模型,即用尽可能少的自变量拟 合模型。
常用方法(最常用的是2和3,1仍然是单变量思想。注意,选入标准0.05, 剔除标准宽些0.10)
1.前进法(Forward):逐步增加变量到模型中(由少到 多),对已经进入的变量不再剔除;SPSS中默认的选入自 变量的检验水准为0.05。 2.后退法(Backward):从模型中逐步剔除变量(由多到 少),对已经剔除的变量不再进入;SPSS中默认的剔除自 变量的检验水准为0.10。 3.逐步法(Stepwise):结合了前进法和后退法,变量边进 入边剔除。
通过绘制y与X2的偏相关散点图,可以判断y与X1之间存 在线性关系。
检查残差的等方差性:
由图可见:残差满足等方差性。
提示:
多重线性回归分析允许自变量为分类变量,但当自变量为 多分类变量时,需要以“哑变量(dummy variables)”的 方式引入模型。 如:某个自变量为“文化程度”:1=文盲,2=小学,3= 中学,4=大学及以上。若以“大学及以上”为参照,关心文 盲、小学、中学分别与大学及以上的比较,则进行回归分析 时,此自变量须用3个哑变量表达:x1: 1=文盲,0=其他;x2: 1=小学,0=其他;x3: 1=中学,0=其他。
4.CI(条件指数,Condition Index)法:CI越大,共线性越 大。
(三)多重线性回归:实例分析
1. 数据预处理:根据经济学专业知识,需要先对Z1、Z2、 W作对数变换,分别记为X1、X2、Y。
变换后的数据
2.多重回归分析
回归
线性
因变量
自变量
Statistics对话框
回归系数 的估计
残差:实际测量值和预测值之间的差异
关于独立性:
所有的观测值是相互独立的。如果受试对象仅被随机 观测一次,那么一般都会满足独立性的假定。但是出 现下列情况时,观测值不是相互独立的:时间序列、 重复测量(某种药物使用后1个月两个月三个月的疗效)等情况。
SPSS软件在“Linear Regression:Statistics”对话 框中,提供了Durbin-Watson统计量d,以检验自相 关系数是否为0。当d值接近于2,则残差之间是不相 关的(此指标仅作参考。是否可使用多元分析主要依 据实验设计)。
共线性诊断方法: 1.TOL(容许度,Tolerance)法:TOL越接近零,共线性越 大。 2.VIF(方差膨胀因子,Variance Inflation Factor,VIF )法: VIF越大,共线性越大。 3.特征根(Eigenvalue)法:如果自变量相关矩阵的特征根近 似于零,则自变量之间存在共线性。
4.剔除强影响点(Influential cases;或称为突出点, outliers) 通过标准化残差(Standardized Residuals) (服从T分布)、 学生氏残差(Studentlized Residuals) (服从Z分布)来判断 强影响点 。当指标的绝对值大于3时,可以认为样本存在 强影响点。
2 ….. m)使L达到最大。
3.模型及自变量的统计检验 模型检验: H0:1=2=…=i=…=m H1:至少有一个i0
采用似然比检验(the likelihood ratio test),当P0.05
1.自变量与因变量之间存在线性关系 通过绘制y与每个自变量的偏相关散点图,可以判断y与 自变量之间是否存在线性关系。 2.残差的正态性 通过绘制标准化残差的直方图以及正态概率图(P-P图),可以 判断是否服从正态分布。此条件可以放宽,只要不是严重偏离正 态即可。 3.残差的等方差性 通过绘制标准化残差与预测值的散点图,若标准化残差在零 水平线上下波动,无明显的规律性,则可以判断满足等方差 的假定。
为残差
(一)多重回归分析的任务
1.如何估计自变量与因变量之间的相互关系?(估计回归方程)
y b0 b1 x1 b2 x2 .... bm xm
ˆ y b0 b1 x1 b2 x2 .... bm xm
ˆ 其中y为实测值, y 为预测值(predicted value)
例:由于改革开放政策,深圳特区中外来人口大幅度增加, 为了考察特区中外来人口对本地经济发展的贡献,深圳特 区统计局收集了所属的宝安县在1987年末18个镇的人口 与工农业总产值数据(见数据文件reg.sav)。此处把工 农业总产值当作因变量(W),而把外地及本地人口数当 作两个自变量(Z1,Z2)。 (有关统计方法的原理及计算参见孙尚拱,《医学多变 量统计与统计软件》,北京医科大学出版社,2000)
练习1
以下实例摘自 Hosmer, David W . (2000). Applied logistic regression . John Wiley, New York. 研究目的是考察与婴儿低出生体重有关的可能危险因素(当体重低于 2500g时,认为是低出生体重婴儿)。研究收集了189例妇女的数据,其中 59例分娩低出生体重婴儿,130例分娩正常体重婴儿(数据见文件 data1.sav)。
2.Logistic模型
g ( x) 0 1 x1 2 x2 .... i xi .... m xm
g(x)是对P的变换,称为logit变换:
P g ( x) ln 1 P
可以得到:
P exp[ g ( x)] 1 exp[ g ( x)]
Logistic回归分析
(一)Logistic回归分析的任务
影响因素分析 logistic回归常用于疾病的危险因素分析,logistic回归 分析可以提供一个重要的指标:OR。
(二)Logistic回归分析的基本原理
1.变量特点 因变量:二分类变量,若令因变量为y,则常用y=1表 示“发病”,y=0表示“不发病”(在病例对照研究中, 分别表示病例组和对照组)。 自变量:可以为分类变量,也可以为连续变量。
共线性诊断
特征根 条件指数, CI
方差比例
共线性诊断:两个自变量之间不存在共线性。
残差统计量
标准化残差 学生化残差
因为标准化残差、学生化残差的绝对值小于3,所以从统计学上 认为样本不存在强影响点。
直方图及P-P图
从残差直方图及P-P图可见:残差正态性不太好, 可能与样本量太小有关。
通过绘制y与X1的偏相关散点图,可以判断y与X1之间存 在线性关系。
这些指标越接近于1,说明回归模型拟合越好。
2.哪些自变量对因变量有影响?(影响因素分析) 对回归模型的统计检验
n m 1 SSreg F m SSE
当P<0.05,则认为此回归模型有显著性。 对自变量的统计检验
t bi / se(bi )
当P<0.05,则认为此自变量对因变量有影响。
模型拟和的优良性指标
R:复相关系数,反映了Y与M个自变量的总体相关系数;
R2:决定系数(R Square) R2c:调整决定系数(Adjusted R square ),是对决定系 数的修正,是更客观的指标。 (若要做预测分析的话,R值的要求
较高,应>0.75。0.6凑活,0.3.,0.4预测效果很差。若只是做影响因素分析的 话0.5之类都还好)
数据文件reg.sav
(一)多重回归分析的任务
1.如何估计自变量与因变量之间的相互关系?(估计回归方程)
2.哪些自变量对因变量有影响?(影响因素分析) 3.哪一个自变量对因变量的影响更重要?(自变量的相对重要性 分析) 4.如何用自变量预测因变量?(预测分析)
(二)多重回归分析的适用条件
1.自变量与因变量之间存在线性关系 2.残差的正态性 3.残差的等方差性 4.剔除强影响点(突出点,outliers) 5.自变量之间不应存在共线性 6.独立性
删除强影响点应该慎重,需要结合专业知识。以下两种情 况可以考虑删除强影响点:1.强影响点是由于数据记录错 误造成的;2.强影响点来自不同的总体。
5.自变量之间不应存在共线性(Collinear) (可以有一定的相关性,
因为如果完全不相关,相关系数为0,那么就和单变量分析一样。)
当一个(或几个)自变量可以由其他自变量线性表示时,称 该自变量与其他自变量间存在共线性关系。常见于:1.一个 变量是由其他变量派生出来的,如:BMI由身高和体重计算 得出 ;2.一个变量与其他变量存在很强的相关性。 当自变量之间存在共线性时,会使回归系数的估计不确定、 预测值的精度降低以及对y有影响的重要自变量不能选入模 型。
模型拟和
统计描述
共线性诊断 部分相关与偏相关系数
Plots对话框
标准化 残差图 直方图 正态概率图,P-P图
绘制所有的 偏相关图
Save对话框
3.输出结果解释
分别给出Y、X1、 X2的均数与标 准差 相关系数阵 简单相关系数 (Pearson相关) P值
从简单相关系数可见:Y与X1、X2存在较强相关性,X1、X2 存在中等相关性。
复相关系数 决定系数 调整决定系数
F值
P值
此模型的复相关系数为0.857,调整决定=20.738,P<0.05,说明此多元回归 模型有显著性。
非标准化系数
标准化系数 t值
P值
简单相关 偏相关 部分相关
Tol
VIF
经统计学检验,X1与X2均有显著性,因此回归模型为 ˆ y 6.889 0.695 X1 0.838 X 2 ;根据偏回归系数的大小, 可以认为X2对Y的影响比X1大。
标准化偏回归系数:对自变量、因变量作标准化处理后计 算的回归系数。 偏相关系数:因变量与自变量均扣除其他自变量影响之后, 二者之间的相关系数。与简单相关系数(Pearson相关系数) 不同;例如:考察因变量Y与自变量X1 、X2的多元回归分 析,Y与X1的偏相关系数为扣除X2影响后的Y与X1的相关性。 Y与X1的简单相关系数为忽略X2影响后的Y与X1的相关性。 部分相关系数:自变量扣除其他自变量影响之后,因变量 与自变量之间的相关系数。与偏相关系数不同,部分相关 系数中因变量未扣除其他自变量的影响。
3.哪一个自变量对因变量的影响更重要?(自变量的相对重要 性分析) 当自变量的量纲相同时,衡量自变量相对重要性的指标: 偏回归系数;若偏回归系数的绝对值越大,则相应自变 量对因变量的影响就越大。
当自变量的量纲不同时,衡量自变量相对重要性的指标:(偏回 归系数有量纲,以下指标无,故可用来衡量)
标准化偏回归系数(Standardized regression coefficient)、 偏相关系数(Partial Correlation)和部分相关系数(Part Correlation)。上述指标的绝对值越大,则相应自变量对因变 量的影响就越大。
估计模型中系数的方法:最小二乘方法(Least Square, LS),即残差平方和最小。
b1, b2….. bm称为偏回归系数(partial regression coefficient) :当固定其他变量时(扣除其他自变量的影响,即 Bm就是已经调整了其他影响因素后的回归系数,故名偏~ ),xm每增加一 个单位,y的增加值都是bm。
P=P(y=1|x),为发病概率;1-P=P(y=0|x),为不发病概率。
0为常数项, 1 , 2 ….. m分别为m个自变量的回归系数。
模型估计方法: 最大似然法(Maximum Likelihood Method):构造似然 函数( Likelihood function )L= P(y=1|x) P(y=0|x),通 过迭代法(默认20次以内)估计一组参数(0, 1 ,
4.如何用自变量预测因变量?(预测分析) 当自变量取某个数值时,y的预测值为
0 0 ˆ y0 b0 b1 x10 b2 x2 .... bm xm
Y的均数的95%置信区间 个体Y值的95%容许区间
预测分析时,(x10,x20…… xm0)应该在样本的自变 量取值范围内。
(二)多重回归分析的适用条件
自变量的筛选 实际应用中,通常从专业知识出发,建立一个简约 (parsimonious)的回归模型,即用尽可能少的自变量拟 合模型。
常用方法(最常用的是2和3,1仍然是单变量思想。注意,选入标准0.05, 剔除标准宽些0.10)
1.前进法(Forward):逐步增加变量到模型中(由少到 多),对已经进入的变量不再剔除;SPSS中默认的选入自 变量的检验水准为0.05。 2.后退法(Backward):从模型中逐步剔除变量(由多到 少),对已经剔除的变量不再进入;SPSS中默认的剔除自 变量的检验水准为0.10。 3.逐步法(Stepwise):结合了前进法和后退法,变量边进 入边剔除。
通过绘制y与X2的偏相关散点图,可以判断y与X1之间存 在线性关系。
检查残差的等方差性:
由图可见:残差满足等方差性。
提示:
多重线性回归分析允许自变量为分类变量,但当自变量为 多分类变量时,需要以“哑变量(dummy variables)”的 方式引入模型。 如:某个自变量为“文化程度”:1=文盲,2=小学,3= 中学,4=大学及以上。若以“大学及以上”为参照,关心文 盲、小学、中学分别与大学及以上的比较,则进行回归分析 时,此自变量须用3个哑变量表达:x1: 1=文盲,0=其他;x2: 1=小学,0=其他;x3: 1=中学,0=其他。
4.CI(条件指数,Condition Index)法:CI越大,共线性越 大。
(三)多重线性回归:实例分析
1. 数据预处理:根据经济学专业知识,需要先对Z1、Z2、 W作对数变换,分别记为X1、X2、Y。
变换后的数据
2.多重回归分析
回归
线性
因变量
自变量
Statistics对话框
回归系数 的估计
残差:实际测量值和预测值之间的差异
关于独立性:
所有的观测值是相互独立的。如果受试对象仅被随机 观测一次,那么一般都会满足独立性的假定。但是出 现下列情况时,观测值不是相互独立的:时间序列、 重复测量(某种药物使用后1个月两个月三个月的疗效)等情况。
SPSS软件在“Linear Regression:Statistics”对话 框中,提供了Durbin-Watson统计量d,以检验自相 关系数是否为0。当d值接近于2,则残差之间是不相 关的(此指标仅作参考。是否可使用多元分析主要依 据实验设计)。
共线性诊断方法: 1.TOL(容许度,Tolerance)法:TOL越接近零,共线性越 大。 2.VIF(方差膨胀因子,Variance Inflation Factor,VIF )法: VIF越大,共线性越大。 3.特征根(Eigenvalue)法:如果自变量相关矩阵的特征根近 似于零,则自变量之间存在共线性。
4.剔除强影响点(Influential cases;或称为突出点, outliers) 通过标准化残差(Standardized Residuals) (服从T分布)、 学生氏残差(Studentlized Residuals) (服从Z分布)来判断 强影响点 。当指标的绝对值大于3时,可以认为样本存在 强影响点。
2 ….. m)使L达到最大。
3.模型及自变量的统计检验 模型检验: H0:1=2=…=i=…=m H1:至少有一个i0
采用似然比检验(the likelihood ratio test),当P0.05
1.自变量与因变量之间存在线性关系 通过绘制y与每个自变量的偏相关散点图,可以判断y与 自变量之间是否存在线性关系。 2.残差的正态性 通过绘制标准化残差的直方图以及正态概率图(P-P图),可以 判断是否服从正态分布。此条件可以放宽,只要不是严重偏离正 态即可。 3.残差的等方差性 通过绘制标准化残差与预测值的散点图,若标准化残差在零 水平线上下波动,无明显的规律性,则可以判断满足等方差 的假定。
为残差
(一)多重回归分析的任务
1.如何估计自变量与因变量之间的相互关系?(估计回归方程)
y b0 b1 x1 b2 x2 .... bm xm
ˆ y b0 b1 x1 b2 x2 .... bm xm
ˆ 其中y为实测值, y 为预测值(predicted value)