线性相关与回归(简单线性相关与回归、多重线性回归、Spearman等级相关)
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4.剔除强影响点(Influential cases;或称为突出点, outliers)
通过标准化残差(Standardized Residuals)、学生氏残 差(Studentlized Residuals)来判断强影响点 。当指标 的绝对值大于3时,可以认为样本存在强影响点。
删除强影响点应该慎重,需要结合专业知识。以下两种情 况可以考虑删除强影响点:1.强影响点是由于数据记录错 误造成的;2.强影响点来自不同的总体。
r r t sr 1 r2 n2
只有当0时,才能根据|r|的大小判断相关 的密切程度。
4.相关与回归的区别和联系 (1)相关与回归的意义不同 相关表达两个变量 之间相互关系的密切程度和方向。回归表达两个变 量之间的数量关系,已知X值可以预测Y值。从散点 图上,散点围绕回归直线的分布越密集,则两变量 相关系数越大;回归直线的斜率越大,则回归系数 越大。 (2)r与b的符号一致 同正同负。
5.自变量之间不应存在共线性(Collinear)
当一个(或几个)自变量可以由其他自变量线性表示时,称 该自变量与其他自变量间存在共线性关系。常见于:1.一个 变量是由其他变量派生出来的,如:BMI由身高和体重计算 得出 ;2.一个变量与其他变量存在很强的相关性。 当自变量之间存在共线性时,会使回归系数的估计不确定、 预测值的精度降低以及对y有影响的重要自变量不能选入模 型。
P值
截距a 回归系数b sb 标准化回归系数 t值 P值
3.直线回归的预测及置信区间估计
给定X=X0, 预测Y
3.直线回归的预测及置信区间估计
因变量
自变量
保存(产生新变量,保 存在当前数据库) 统计
3.直线回归的预测及置信区间估计
总体回归系 数的置信区 间估计
3.直线回归的预测及置信区间估计
3.哪一个自变量对因变量的影响更重要?(自变量的相对重要 性分析) 当自变量的量纲相同时,衡量自变量相对重要性的指标: 偏回归系数;若偏回归系数的绝对值越大,则相应自变 量对因变量的影响就越大。
当自变量的量纲不同时,衡量自变量相对重要性的指标:
标准化偏回归系数(Standardized regression coefficient)、 偏相关系数(Partial Correlation)和部分相关系数(Part Correlation)。上述指标的绝对值越大,则相应自变量对因变 量的影响就越大。
R2:决定系数(R Square) R2c:调整决定系数(Adjusted R square ),是对决定系 数的修正,是更客观的指标。 这些指标越接近于1,说明回归模型拟合越好。
除了上述指标,还有残差标准误s,残差标准差越小,说 明回归模型拟合越好。
2.哪些自变量对因变量有影响?(影响因素分析) 对回归模型的统计检验
1.自变量与因变量之间存在线性关系 通过绘制y与每个自变量的偏相关散点图,可以判断y与 自变量之间是否存在线性关系。 2.残差的正态性 通过绘制标准化残差的直方图以及正态概率图(P-P图),可以 判断y是否服从正态分布。此条件可以放宽,只要不是严重偏离 正态即可。
3.残差的等方差性 通过绘制标准化残差与预测值的散点图,若标准化残差在零 水平线上下波动,无明显的规律性,则可以判断y满足等方差 的假定。
关于独立性:
所有的观测值是相互独立的。如果受试对象仅被随机 观测一次,那么一般都会满足独立性的假定。但是出 现下列三种情况时,观测值不是相互独立的:时间序 列、重复测量等情况。
SPSS软件在“Linear Regression:Statistics”对话 框中,提供了Durbin-Watson统计量d,以检验自相 关系数是否为0。当d值接近于2,则残差之间是不相 关的。
4.b的假设检验: b为样本回归系数,由于抽样误差, 实际工作中b一般都不为0。要判断直线回归方程是否成 立,需要检验总体回归系数是否为0。 H0:=0 H1:0 方法一:t检验
b t Sb
F MS回归 MS剩余
两种方法等价,
方法二:F检验
F t
只有当0时,才能认为直线回归方程成立(具有统计 学意义)。
(3)r与b的假设检验等价
4.相关与回归的区别和联系
(4) 可以用回归解释相关
r
2
SS回归 SS总
r2称为决定系数(coefficient of determination), 其越接近于1,回归直线拟和的效果越好。
例1 为研究中年女性体重指数和收缩压的关系,随机测量 了16名40岁以上的女性的体重指数和收缩压(见数据文件 p237.sav)。
线性相关与回归
内容:
多重线性回归分析 简单线性相关与回归
特例
Spearman等级相关
一、简单线性相关与回归 (一)直线回归(linear regression)
1.定义:用直线方程表达X(自变量,independent variable;解释变量,explanatory variable;预测变量, predictor variable )和Y (因变量,dependent variable;响应变量,response variable;结局变量, outcome variable )之间的数量关系。
(一)多重回归分析的任务
1.如何估计自变量与因变量之间的相互关系?(估计回归方程)
y b0 b1x1 b2 x2 .... bm xm
ˆ b0 b1x1 b2 x2 .... bm xm y
ˆ 为预测值(predicted value) 其中y为实测值, y
标准化偏回归系数:对自变量、因变量作标准化处理后计算的 回归系数。
偏相关系数:因变量与自变量均扣除其他自变量影响之后,二 者之间的相关系数。与简单相关系数(Pearson相关系数)不同; 例如:考察因变量Y与自变量X1 、X2的多元回归分析,Y与X1的 偏相关系数为扣除X2影响后的Y与X1的相关性。 Y与X1的简单相 关系数为忽略X2影响后的Y与X1的相关性。 部分相关系数:自变量扣除其他自变量影响之后,因变量与自 变量之间的相关系数。与偏相关系数不同,部分相关系数中因 变量未扣除其他自变量的影响。
预测值 非标准化
预测区间 Y的均数 个体Y值
3.直线回归的预测及置信区间估计
总体回归系数的 95%置信区间 预测值 残差
的预测 值
Y的均数的置信区 间的下限及上限
个体Y值的容许区 间的下限及上限
二、多重线性回归分析
(有关统计方法的原理及计算参见孙尚拱,《医学多变 量统计与统计软件》,北京医科大学出版社,2000) 例2:由于改革开放政策,深圳特区中外来人口大幅度增 加,为了考察特区中外来人口对本地经济发展的贡献,深 圳特区统计局收集了所属的宝安县在1987年末18个镇的 人口与工农业总产值数据(见数据文件reg.sav)。此处 把工农业总产值当作因变量(W),而把外地及本地人口 数当作两个自变量(Z1,Z2)。
常用方法:
1.前进法(Forward):逐步增加变量到模型中(由少到 多),对已经进入的变量不再剔除;SPSS中默认的选入自 变量的检验水准为0.05。 2.后退法(Backward):从模型中逐步剔除变量(由多到 少),对已经剔除的变量不再进入;SPSS中默认的剔除自 变量的检验水准为0.10。 3.逐步法(Stepwise):结合了前进法和后退法,变量边进 入边剔除。
4.如何用自变量预测因变量?(预测分析) 当自变量取某个数值时,y的预测值为
0 0 ˆ0 b0 b1x10 b2 x2 y .... bm xm
Y的均数的95%置信区间 个体Y值的95%容许区间 预测分析时,(x10,x20…… xm0)应该在样本的自变 量取值范围内。
(二)多重回归分析的适用条件
n m 1 SSreg F m SSE
当P<0.05,则认为此回归模型有显著性。 对自变量的统计检验
t bi / se(bi )
当P<0.05,则认为此自变量对因变量有影响。
自变量的筛选 实际应用中,通常从专业知识出发,建立一个简约 (parsimonious)的回归模型,即用尽可能少的自变量拟 合模型。
共线性诊断方法: 1.TOL(容许度,Tolerance)法:TOL越接近零,共线性越大。 2.VIF(方差膨胀因子,Variance Inflation Factor,VIF )法: VIF越大,共线性越大。
3.特征根(Eigenvalue)法:如果自变量相关矩阵的特征根近似 于零,则自变量之间存在共线性。
|r|越大,两变量相关越密切(前提:r有统计学意义)
2.相关类型 正相关:0<r1
负相关-1r<0
2.相关类型 零相关 r =0
曲线相关
3.r的假设检验 r为样本相关系数,由于抽样误差,实际工作中r一般都 不为0。要判断两变量之间是否存在相关性,需要检验 总体相关系数是否为0。 H0:=0 H1: 0
估计模型中系数的方法:最小二乘方法(Least Square, LS),即残差平方和最小。 b1, b2….. bm称为偏回归系数(partial regression coefficient) :当固定其他变量时,xm每增加一个单位, y的增加值都是bm。
模型拟和的优良性指标
R:复相关系数,反映了Y与M个自变量的总体相关系数;
5.直线回归方程的置信区间估计 (1)总体回归系数的95%置信区间估计
b t0.05/ 2,n2 sb
(2) Y的均数的95%置信区间估计 当X=X0时,以95%的概率估计Y的均数的置信区间为
ˆ t Y ˆ 0.05/ 2, n 2 sY
(3)个体Y值的95%容许区间估计 当X=X0时,以95%的概率估计个体Y值的波动范围为 ˆ t Y s
ˆ 0.05/ 2, n 2 Y Y
(二)直线相关(linear correlation)
1.定义
描述具有直线关系的两个变量之间的相互关系。 r:相关系数,correlation coefficient 用来衡量有直线关系的两个变量之间相关的密切程度和 方向。-1r1 r>0,正相关;r=1为完全正相关 r <0,负相关;r=-1为完全负相关
4.CI(条件指数,Condition Index)法:CI越大,共线性越大。
当自变量之间存在共线性时,可以剔除某个自变量或者采用岭回 归分析(Ridge Regression Analysis)。
数据文件reg.sav
(一)多重回归分析的任务
1.如何估计自变量与因变量之间的相互关系?(估计回归 方程)
2.哪些自变量对因变量有影响?(影响因素分析)
3.哪一个自变量对因变量的影响更重要?(自变量的相对 重要性分析)
4.如何用自变量预测因变量?(预测分析)
(二)多重回归分析的适用条件
1.自变量与因变量之间存在线性关系 2.残差的正态性 3.残差的等方差性 4.剔除强影响点(突出点,outliers) 5.自变量之间不应存在共线性 6.独立性
ˆ a bX Y
ˆ :是Y(实测值)的预测值(predicted value), Y
是直线上点的纵坐标。对于每一个X值,根据直线 回归方程都可以计算出相应的Y预测值。
(具体计算过程参见《卫生统计学》第4版)。
2.b和a的意义 a:是回归直线在Y轴上的截距,即X=0时Y的预测值。 b:是回归直线的斜率,又称为回归系数。 表示当X改变一个单位时,Y的预测值平均改变|b| 个单位。 3.b和a的估计 最小二乘方法(the method of least squares): 各实测点到直线的纵向距离的平方和最小。
多重回归分析因变量自变量statistics对话框回归系数的估计模型拟和共线性诊断部分相关与偏相关系数统计描述plots对话框标准化直方图正态概率图pp图绘制所有的偏相关图save对话框分别给出yx1相关系数阵简单相关系数pearson相关从简单相关系数可见
SPSS软件在医学科研中的应用
何平平
北大医学部流行病与卫生统计学系 Tel:82801619
变量说明:X:体重指数;Y:收缩压(mmHg)。 1.绘制散点图
散点图显示:收 缩压与体重指数 之间有线性相关 趋势,因此可以 进一步做直线回 归与相关
2.直线回归与相关分析
Regression, 回归
Linear, 线性
2.直线回归与相关分析
因变量
自变量
相关 系数r
调整r2 决定 系数r2
F值