线性相关与回归(简单线性相关与回归、多重线性回归、Spearman等级相关)_图文
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
预测值 非标准化
预测区间 Y的均数
个体Y值
3.直线回归的预测及置信区间估计
预测值 残差
总体回归系数的 95%置信区间
3.直线回归的预测及置信区间估计
X0
Y的预测 值
Y的均数的置信区 间的下限及上限
个体Y值的容许区 间的下限及上限
二、多重线性回归分析
(有关统计方法的原理及计算参见孙尚拱,《医学多变 量统计与统计软件》,北京医科大学出版社,2000)
相关系数阵
从简单相关系数可见:Y与X1、X2存在较强相关性,X1、X2 存在中等相关性。
复相关系数 决定系数 调整决定系数
F值 P值
此模型的复相关系数为0.857,调整决定系数为0.699,反映此模型拟 和较好;模型经统计学检验,F=20.738,P<0.05,说明此多元回归 模型有显著性。
个单位。
3.b和a的估计
最小二乘方法(the method of least squares): 各实测点到直线的纵向距离的平方和最小。
4.b的假设检验: b为样本回归系数,由于抽样误差, 实际工作中b一般都不为0。要判断直线回归方程是否成
立,需要检验总体回归系数是否为0。
H0:=0 H1:0
(一)多重回归分析的任务
1.如何估计自变量与因变量之间的相互关系?(估计回归方程)
其中y为实测值, 为预测值(predicted value) 估计模型中系数的方法:最小二乘方法(Least Square, LS),即残差平方和最小。 b1, b2….. bm称为偏回归系数(partial regression coefficient) :当固定其他变量时,xm每增加一个单位 ,y的增加值都是bm。
方法一:t检验
两种方法等价,
方法二:F检验
只有当0时,才能认为直线回归方程成立(具有统计
学意义)。
5.直线回归方程的置信区间估计
(1)总体回归系数的95%置信区间估计
(2) Y的均数的95%置信区间估计 当X=X0时,以95%的概率估计Y的均数的置信区间为
(3)个体Y值的95%容许区间估计 当X=X0时,以95%的概率估计个体Y值的波动范围为
共线性诊断方法:
1.TOL(容许度,Tolerance)法:TOL越接近零,共线性越大 。
2.VIF(方差膨胀因子,Variance Inflation Factor,VIF )法: VIF越大,共线性越大。
3.特征根(Eigenvalue)法:如果自变量相关矩阵的特征根近似 于零,则自变量之间存在共线性。
例2:由于改革开放政策,深圳特区中外来人口大幅度增 加,为了考察特区中外来人口对本地经济发展的贡献,深 圳特区统计局收集了所属的宝安县在1987年末18个镇的 人口与工农业总产值数据(见数据文件reg.sav)。此处 把工农业总产值当作因变量(W),而把外地及本地人口 数当作两个自变量(Z1,Z2)。
2.哪些自变量对因变量有影响?(影响因素分析) 对回归模型的统计检验
当P<0.05,则认为此回归模型有显著性。 对自变量的统计检验 当P<0.05,则认为此自变量对因变量有影响。
自变量的筛选
实际应用中,通常从专业知识出发,建立一个简约( parsimonious)的回归模型,即用尽可能少的自变量拟合 模型。
标准化偏回归系数:对自变量、因变量作标准化处理后计算的 回归系数。
偏相关系数:因变量与自变量均扣除其他自变量影响之后,二 者之间的相关系数。与简单相关系数(Pearson相关系数)不同 ;例如:考察因变量Y与自变量X1 、X2的多元回归分析,Y与X1 的偏相关系数为扣除X2影响后的Y与X1的相关性。 Y与X1的简单 相关系数为忽略X2影响后的Y与X1的相关性。
常用方法:
1.前进法(Forward):逐步增加变量到模型中(由少到多 ),对已经进入的变量不再剔除;SPSS中默认的选入自变 量的检验水准为0.05。
2.后退法(Backward):从模型中逐步剔除变量(由多到 少),对已经剔除的变量不再进入;SPSS中默认的剔除自 变量的检验水准为0.10。
3.逐步法(Stepwise):结合了前进法和后退法,变量边进 入边剔除。
4.CI(条件指数,Condition Index)法:CI越大,共线性越大 。
当自变量之间存在共线性时,可以剔除某个自变量或者采用岭回 归分析(Ridge Regression Analysis)。
(三)多重线性回归:实例分析
1. 数据预处理:根据经济学专业知识,需要先对Z1、Z2、 W作对数变换,分别记为X1、X2、Y。
(二)多重回归分析的适用条件
1.自变量与因变量之间存在线性关系
通过绘制y与每个自变量的偏相关散点图,可以判断y与 自变量之间是否存在线性关系。
2.残差的正态性 通过绘制标准化残差的直方图以及正态概率图(P-P图),可以 判断y是否服从正态分布。此条件可以放宽,只要不是严重偏离 正态即可。
3.残差的等方差性 通过绘制标准化残差与预测值的散点图,若标准化残差在零 水平线上下波动,无明显的规律性,则可以判断y满足等方差 的假定。
:是Y(实测值)的预测值(predicted value), 是直线上点的纵坐标。对于每一个X值,根据直线 回归方程都可以计算出相应的Y预测值。
(具体计算过程参见《卫生统计学》第4版)。
2.b和a的意义
a:是回归直线在Y轴上的截距,即X=0时Y的预测值。
b:是回归直线的斜率,又称为回归系数。 表示当X改变一个单位时,Y的预测值平均改变|b|
截距a 回归系数b
F值 P值 sb 标准化回归系数 t值 P值
3.直线回归的预测及置信区间估计
给定X=X0, 预测Y
3.直线回归的预测及置信区间估计
因变量 自变量
统计
保存(产生新变量,保 存在当前数据库)
3.直线回归的预测及置信区间估计
总体回归系 数的置信区 间估计
3.直线回归的预测及置信区间估计
关于独立性:
所有的观测值是相互独立的。如果受试对象仅被随机 观测一次,那么一般都会满足独立性的假定。但是出 现下列三种情况时,观测值不是相互独立的:时间序 列、重复测量等情况。
SPSS软件在“Linear Regression:Statistics”对话 框中,提供了Durbin-Watson统计量d,以检验自相 关系数是否为0。当d值接近于2,则残差之间是不相 关的。
变换后的数据
2.多重回归分析
回归
线性
因变量 自变量
Statistics对话框
回归系数 的估计
模型拟和
统计描述
共线性诊断 部分相关与偏相关系数
Plots对话框
标准化 残差图
直方图 正态概率图,P-P图
绘制所有的 偏相关图
Save对earson相关
)
P值
分别给出Y、X1 、X2的均数与 标准差
2.相关类型 正相关:0<r1
负相关-1r<0
2.相关类型 零相关 r =0
曲线相关
3.r的假设检验 r为样本相关系数,由于抽样误差,实际工作中r一般都 不为0。要判断两变量之间是否存在相关性,需要检验
总体相关系数是否为0。 H0:=0 H1: 0
只有当0时,才能根据|r|的大小判断相关
数据文件reg.sav
(一)多重回归分析的任务
1.如何估计自变量与因变量之间的相互关系?(估计回归 方程) 2.哪些自变量对因变量有影响?(影响因素分析) 3.哪一个自变量对因变量的影响更重要?(自变量的相对 重要性分析) 4.如何用自变量预测因变量?(预测分析)
(二)多重回归分析的适用条件
1.自变量与因变量之间存在线性关系 2.残差的正态性 3.残差的等方差性 4.剔除强影响点(突出点,outliers) 5.自变量之间不应存在共线性 6.独立性
5.自变量之间不应存在共线性(Collinear)
当一个(或几个)自变量可以由其他自变量线性表示时,称 该自变量与其他自变量间存在共线性关系。常见于:1.一个 变量是由其他变量派生出来的,如:BMI由身高和体重计算 得出 ;2.一个变量与其他变量存在很强的相关性。
当自变量之间存在共线性时,会使回归系数的估计不确定、 预测值的精度降低以及对y有影响的重要自变量不能选入模型 。
的密切程度。
4.相关与回归的区别和联系
(1)相关与回归的意义不同 相关表达两个变量 之间相互关系的密切程度和方向。回归表达两个变 量之间的数量关系,已知X值可以预测Y值。从散点 图上,散点围绕回归直线的分布越密集,则两变量 相关系数越大;回归直线的斜率越大,则回归系数 越大。
(2)r与b的符号一致 同正同负。
(3)r与b的假设检验等价
4.相关与回归的区别和联系 (4) 可以用回归解释相关
r2称为决定系数(coefficient of determination), 其越接近于1,回归直线拟和的效果越好。
例1 为研究中年女性体重指数和收缩压的关系,随机测量 了16名40岁以上的女性的体重指数和收缩压(见数据文件 p237.sav)。
部分相关系数:自变量扣除其他自变量影响之后,因变量与自 变量之间的相关系数。与偏相关系数不同,部分相关系数中因 变量未扣除其他自变量的影响。
4.如何用自变量预测因变量?(预测分析) 当自变量取某个数值时,y的预测值为
Y的均数的95%置信区间 个体Y值的95%容许区间 预测分析时,(x10,x20…… xm0)应该在样本的自变 量取值范围内。
线性相关与回归(简单线性相关与回归、多重 线性回归、Spearman等级相关)_图文.ppt
线性相关与回归
内容:
多重线性回归分析
特例
简单线性相关与回归
Spearman等级相关
一、简单线性相关与回归
(一)直线回归(linear regression)
1.定义:用直线方程表达X(自变量,independent variable;解释变量,explanatory variable;预测变量 ,predictor variable )和Y (因变量,dependent variable;响应变量,response variable;结局变量, outcome variable )之间的数量关系。
4.剔除强影响点(Influential cases;或称为突出点, outliers)
通过标准化残差(Standardized Residuals)、学生氏残 差(Studentlized Residuals)来判断强影响点 。当指标 的绝对值大于3时,可以认为样本存在强影响点。
删除强影响点应该慎重,需要结合专业知识。以下两种情 况可以考虑删除强影响点:1.强影响点是由于数据记录错 误造成的;2.强影响点来自不同的总体。
变量说明:X:体重指数;Y:收缩压(mmHg)。
1.绘制散点图
散点图显示:收 缩压与体重指数 之间有线性相关 趋势,因此可以 进一步做直线回 归与相关
2.直线回归与相关分析
Regression, 回归 Linear, 线性
2.直线回归与相关分析
因变量 自变量
相关 决定 调整r2 系数r 系数r2
模型拟和的优良性指标
R:复相关系数,反映了Y与M个自变量的总体相关系数; R2:决定系数(R Square) R2c:调整决定系数(Adjusted R square ),是对决定系 数的修正,是更客观的指标。 这些指标越接近于1,说明回归模型拟合越好。 除了上述指标,还有残差标准误s,残差标准差越小,说 明回归模型拟合越好。
(二)直线相关(linear correlation)
1.定义 描述具有直线关系的两个变量之间的相互关系。
r:相关系数,correlation coefficient 用来衡量有直线关系的两个变量之间相关的密切程度和 方向。-1r1 r>0,正相关;r=1为完全正相关 r <0,负相关;r=-1为完全负相关 |r|越大,两变量相关越密切(前提:r有统计学意义)
3.哪一个自变量对因变量的影响更重要?(自变量的相对重要 性分析)
当自变量的量纲相同时,衡量自变量相对重要性的指标: 偏回归系数;若偏回归系数的绝对值越大,则相应自变
量对因变量的影响就越大。
当自变量的量纲不同时,衡量自变量相对重要性的指标:
标准化偏回归系数(Standardized regression coefficient)、 偏相关系数(Partial Correlation)和部分相关系数(Part Correlation)。上述指标的绝对值越大,则相应自变量对因变 量的影响就越大。
预测区间 Y的均数
个体Y值
3.直线回归的预测及置信区间估计
预测值 残差
总体回归系数的 95%置信区间
3.直线回归的预测及置信区间估计
X0
Y的预测 值
Y的均数的置信区 间的下限及上限
个体Y值的容许区 间的下限及上限
二、多重线性回归分析
(有关统计方法的原理及计算参见孙尚拱,《医学多变 量统计与统计软件》,北京医科大学出版社,2000)
相关系数阵
从简单相关系数可见:Y与X1、X2存在较强相关性,X1、X2 存在中等相关性。
复相关系数 决定系数 调整决定系数
F值 P值
此模型的复相关系数为0.857,调整决定系数为0.699,反映此模型拟 和较好;模型经统计学检验,F=20.738,P<0.05,说明此多元回归 模型有显著性。
个单位。
3.b和a的估计
最小二乘方法(the method of least squares): 各实测点到直线的纵向距离的平方和最小。
4.b的假设检验: b为样本回归系数,由于抽样误差, 实际工作中b一般都不为0。要判断直线回归方程是否成
立,需要检验总体回归系数是否为0。
H0:=0 H1:0
(一)多重回归分析的任务
1.如何估计自变量与因变量之间的相互关系?(估计回归方程)
其中y为实测值, 为预测值(predicted value) 估计模型中系数的方法:最小二乘方法(Least Square, LS),即残差平方和最小。 b1, b2….. bm称为偏回归系数(partial regression coefficient) :当固定其他变量时,xm每增加一个单位 ,y的增加值都是bm。
方法一:t检验
两种方法等价,
方法二:F检验
只有当0时,才能认为直线回归方程成立(具有统计
学意义)。
5.直线回归方程的置信区间估计
(1)总体回归系数的95%置信区间估计
(2) Y的均数的95%置信区间估计 当X=X0时,以95%的概率估计Y的均数的置信区间为
(3)个体Y值的95%容许区间估计 当X=X0时,以95%的概率估计个体Y值的波动范围为
共线性诊断方法:
1.TOL(容许度,Tolerance)法:TOL越接近零,共线性越大 。
2.VIF(方差膨胀因子,Variance Inflation Factor,VIF )法: VIF越大,共线性越大。
3.特征根(Eigenvalue)法:如果自变量相关矩阵的特征根近似 于零,则自变量之间存在共线性。
例2:由于改革开放政策,深圳特区中外来人口大幅度增 加,为了考察特区中外来人口对本地经济发展的贡献,深 圳特区统计局收集了所属的宝安县在1987年末18个镇的 人口与工农业总产值数据(见数据文件reg.sav)。此处 把工农业总产值当作因变量(W),而把外地及本地人口 数当作两个自变量(Z1,Z2)。
2.哪些自变量对因变量有影响?(影响因素分析) 对回归模型的统计检验
当P<0.05,则认为此回归模型有显著性。 对自变量的统计检验 当P<0.05,则认为此自变量对因变量有影响。
自变量的筛选
实际应用中,通常从专业知识出发,建立一个简约( parsimonious)的回归模型,即用尽可能少的自变量拟合 模型。
标准化偏回归系数:对自变量、因变量作标准化处理后计算的 回归系数。
偏相关系数:因变量与自变量均扣除其他自变量影响之后,二 者之间的相关系数。与简单相关系数(Pearson相关系数)不同 ;例如:考察因变量Y与自变量X1 、X2的多元回归分析,Y与X1 的偏相关系数为扣除X2影响后的Y与X1的相关性。 Y与X1的简单 相关系数为忽略X2影响后的Y与X1的相关性。
常用方法:
1.前进法(Forward):逐步增加变量到模型中(由少到多 ),对已经进入的变量不再剔除;SPSS中默认的选入自变 量的检验水准为0.05。
2.后退法(Backward):从模型中逐步剔除变量(由多到 少),对已经剔除的变量不再进入;SPSS中默认的剔除自 变量的检验水准为0.10。
3.逐步法(Stepwise):结合了前进法和后退法,变量边进 入边剔除。
4.CI(条件指数,Condition Index)法:CI越大,共线性越大 。
当自变量之间存在共线性时,可以剔除某个自变量或者采用岭回 归分析(Ridge Regression Analysis)。
(三)多重线性回归:实例分析
1. 数据预处理:根据经济学专业知识,需要先对Z1、Z2、 W作对数变换,分别记为X1、X2、Y。
(二)多重回归分析的适用条件
1.自变量与因变量之间存在线性关系
通过绘制y与每个自变量的偏相关散点图,可以判断y与 自变量之间是否存在线性关系。
2.残差的正态性 通过绘制标准化残差的直方图以及正态概率图(P-P图),可以 判断y是否服从正态分布。此条件可以放宽,只要不是严重偏离 正态即可。
3.残差的等方差性 通过绘制标准化残差与预测值的散点图,若标准化残差在零 水平线上下波动,无明显的规律性,则可以判断y满足等方差 的假定。
:是Y(实测值)的预测值(predicted value), 是直线上点的纵坐标。对于每一个X值,根据直线 回归方程都可以计算出相应的Y预测值。
(具体计算过程参见《卫生统计学》第4版)。
2.b和a的意义
a:是回归直线在Y轴上的截距,即X=0时Y的预测值。
b:是回归直线的斜率,又称为回归系数。 表示当X改变一个单位时,Y的预测值平均改变|b|
截距a 回归系数b
F值 P值 sb 标准化回归系数 t值 P值
3.直线回归的预测及置信区间估计
给定X=X0, 预测Y
3.直线回归的预测及置信区间估计
因变量 自变量
统计
保存(产生新变量,保 存在当前数据库)
3.直线回归的预测及置信区间估计
总体回归系 数的置信区 间估计
3.直线回归的预测及置信区间估计
关于独立性:
所有的观测值是相互独立的。如果受试对象仅被随机 观测一次,那么一般都会满足独立性的假定。但是出 现下列三种情况时,观测值不是相互独立的:时间序 列、重复测量等情况。
SPSS软件在“Linear Regression:Statistics”对话 框中,提供了Durbin-Watson统计量d,以检验自相 关系数是否为0。当d值接近于2,则残差之间是不相 关的。
变换后的数据
2.多重回归分析
回归
线性
因变量 自变量
Statistics对话框
回归系数 的估计
模型拟和
统计描述
共线性诊断 部分相关与偏相关系数
Plots对话框
标准化 残差图
直方图 正态概率图,P-P图
绘制所有的 偏相关图
Save对earson相关
)
P值
分别给出Y、X1 、X2的均数与 标准差
2.相关类型 正相关:0<r1
负相关-1r<0
2.相关类型 零相关 r =0
曲线相关
3.r的假设检验 r为样本相关系数,由于抽样误差,实际工作中r一般都 不为0。要判断两变量之间是否存在相关性,需要检验
总体相关系数是否为0。 H0:=0 H1: 0
只有当0时,才能根据|r|的大小判断相关
数据文件reg.sav
(一)多重回归分析的任务
1.如何估计自变量与因变量之间的相互关系?(估计回归 方程) 2.哪些自变量对因变量有影响?(影响因素分析) 3.哪一个自变量对因变量的影响更重要?(自变量的相对 重要性分析) 4.如何用自变量预测因变量?(预测分析)
(二)多重回归分析的适用条件
1.自变量与因变量之间存在线性关系 2.残差的正态性 3.残差的等方差性 4.剔除强影响点(突出点,outliers) 5.自变量之间不应存在共线性 6.独立性
5.自变量之间不应存在共线性(Collinear)
当一个(或几个)自变量可以由其他自变量线性表示时,称 该自变量与其他自变量间存在共线性关系。常见于:1.一个 变量是由其他变量派生出来的,如:BMI由身高和体重计算 得出 ;2.一个变量与其他变量存在很强的相关性。
当自变量之间存在共线性时,会使回归系数的估计不确定、 预测值的精度降低以及对y有影响的重要自变量不能选入模型 。
的密切程度。
4.相关与回归的区别和联系
(1)相关与回归的意义不同 相关表达两个变量 之间相互关系的密切程度和方向。回归表达两个变 量之间的数量关系,已知X值可以预测Y值。从散点 图上,散点围绕回归直线的分布越密集,则两变量 相关系数越大;回归直线的斜率越大,则回归系数 越大。
(2)r与b的符号一致 同正同负。
(3)r与b的假设检验等价
4.相关与回归的区别和联系 (4) 可以用回归解释相关
r2称为决定系数(coefficient of determination), 其越接近于1,回归直线拟和的效果越好。
例1 为研究中年女性体重指数和收缩压的关系,随机测量 了16名40岁以上的女性的体重指数和收缩压(见数据文件 p237.sav)。
部分相关系数:自变量扣除其他自变量影响之后,因变量与自 变量之间的相关系数。与偏相关系数不同,部分相关系数中因 变量未扣除其他自变量的影响。
4.如何用自变量预测因变量?(预测分析) 当自变量取某个数值时,y的预测值为
Y的均数的95%置信区间 个体Y值的95%容许区间 预测分析时,(x10,x20…… xm0)应该在样本的自变 量取值范围内。
线性相关与回归(简单线性相关与回归、多重 线性回归、Spearman等级相关)_图文.ppt
线性相关与回归
内容:
多重线性回归分析
特例
简单线性相关与回归
Spearman等级相关
一、简单线性相关与回归
(一)直线回归(linear regression)
1.定义:用直线方程表达X(自变量,independent variable;解释变量,explanatory variable;预测变量 ,predictor variable )和Y (因变量,dependent variable;响应变量,response variable;结局变量, outcome variable )之间的数量关系。
4.剔除强影响点(Influential cases;或称为突出点, outliers)
通过标准化残差(Standardized Residuals)、学生氏残 差(Studentlized Residuals)来判断强影响点 。当指标 的绝对值大于3时,可以认为样本存在强影响点。
删除强影响点应该慎重,需要结合专业知识。以下两种情 况可以考虑删除强影响点:1.强影响点是由于数据记录错 误造成的;2.强影响点来自不同的总体。
变量说明:X:体重指数;Y:收缩压(mmHg)。
1.绘制散点图
散点图显示:收 缩压与体重指数 之间有线性相关 趋势,因此可以 进一步做直线回 归与相关
2.直线回归与相关分析
Regression, 回归 Linear, 线性
2.直线回归与相关分析
因变量 自变量
相关 决定 调整r2 系数r 系数r2
模型拟和的优良性指标
R:复相关系数,反映了Y与M个自变量的总体相关系数; R2:决定系数(R Square) R2c:调整决定系数(Adjusted R square ),是对决定系 数的修正,是更客观的指标。 这些指标越接近于1,说明回归模型拟合越好。 除了上述指标,还有残差标准误s,残差标准差越小,说 明回归模型拟合越好。
(二)直线相关(linear correlation)
1.定义 描述具有直线关系的两个变量之间的相互关系。
r:相关系数,correlation coefficient 用来衡量有直线关系的两个变量之间相关的密切程度和 方向。-1r1 r>0,正相关;r=1为完全正相关 r <0,负相关;r=-1为完全负相关 |r|越大,两变量相关越密切(前提:r有统计学意义)
3.哪一个自变量对因变量的影响更重要?(自变量的相对重要 性分析)
当自变量的量纲相同时,衡量自变量相对重要性的指标: 偏回归系数;若偏回归系数的绝对值越大,则相应自变
量对因变量的影响就越大。
当自变量的量纲不同时,衡量自变量相对重要性的指标:
标准化偏回归系数(Standardized regression coefficient)、 偏相关系数(Partial Correlation)和部分相关系数(Part Correlation)。上述指标的绝对值越大,则相应自变量对因变 量的影响就越大。