线性相关与回归(简单线性相关与回归、多重线性回归、Spearman等级相关)_图文

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

预测值非标准化
预测区间 Y的均数
个体Y值
3.直线回归的预测及置信区间估计
预测值残差
总体回归系数的 95％置信区间
3.直线回归的预测及置信区间估计
X0
Y的预测值
Y的均数的置信区间的下限及上限
个体Y值的容许区间的下限及上限
二、多重线性回归分析
（有关统计方法的原理及计算参见孙尚拱，《医学多变量统计与统计软件》，北京医科大学出版社，2000）
相关系数阵
从简单相关系数可见：Y与X1、X2存在较强相关性，X1、X2 存在中等相关性。
复相关系数决定系数调整决定系数
F值 P值
此模型的复相关系数为0.857，调整决定系数为0.699，反映此模型拟和较好；模型经统计学检验，F=20.738，P<0.05，说明此多元回归模型有显著性。
个单位。
3.b和a的估计
最小二乘方法（the method of least squares）: 各实测点到直线的纵向距离的平方和最小。
4.b的假设检验： b为样本回归系数，由于抽样误差，实际工作中b一般都不为0。要判断直线回归方程是否成
立，需要检验总体回归系数是否为0。
H0：=0 H1：0
（一）多重回归分析的任务
1.如何估计自变量与因变量之间的相互关系？（估计回归方程）
其中y为实测值，为预测值（predicted value）估计模型中系数的方法：最小二乘方法（Least Square， LS），即残差平方和最小。 b1， b2….. bm称为偏回归系数（partial regression coefficient）：当固定其他变量时，xm每增加一个单位，y的增加值都是bm。
方法一：t检验
两种方法等价，
方法二：F检验
只有当0时，才能认为直线回归方程成立（具有统计
学意义）。
5.直线回归方程的置信区间估计
(1)总体回归系数的95％置信区间估计
(2) Y的均数的95％置信区间估计当X＝X0时，以95％的概率估计Y的均数的置信区间为
(3)个体Y值的95％容许区间估计当X＝X0时，以95％的概率估计个体Y值的波动范围为
共线性诊断方法：
1.TOL（容许度，Tolerance）法：TOL越接近零，共线性越大。
2.VIF（方差膨胀因子，Variance Inflation Factor，VIF ）法： VIF越大，共线性越大。
3.特征根（Eigenvalue）法：如果自变量相关矩阵的特征根近似于零，则自变量之间存在共线性。
例2：由于改革开放政策，深圳特区中外来人口大幅度增加，为了考察特区中外来人口对本地经济发展的贡献，深圳特区统计局收集了所属的宝安县在1987年末18个镇的人口与工农业总产值数据（见数据文件reg.sav）。此处把工农业总产值当作因变量（W），而把外地及本地人口数当作两个自变量（Z1，Z2）。
2.哪些自变量对因变量有影响？（影响因素分析）对回归模型的统计检验
当P<0.05,则认为此回归模型有显著性。对自变量的统计检验当P<0.05,则认为此自变量对因变量有影响。
自变量的筛选
实际应用中，通常从专业知识出发，建立一个简约（ parsimonious）的回归模型，即用尽可能少的自变量拟合模型。
标准化偏回归系数：对自变量、因变量作标准化处理后计算的回归系数。
偏相关系数：因变量与自变量均扣除其他自变量影响之后，二者之间的相关系数。与简单相关系数（Pearson相关系数）不同；例如：考察因变量Y与自变量X1 、X2的多元回归分析，Y与X1 的偏相关系数为扣除X2影响后的Y与X1的相关性。 Y与X1的简单相关系数为忽略X2影响后的Y与X1的相关性。
常用方法：
1.前进法（Forward）：逐步增加变量到模型中（由少到多），对已经进入的变量不再剔除；SPSS中默认的选入自变量的检验水准为0.05。
2.后退法（Backward）：从模型中逐步剔除变量（由多到少），对已经剔除的变量不再进入；SPSS中默认的剔除自变量的检验水准为0.10。
3.逐步法（Stepwise）：结合了前进法和后退法，变量边进入边剔除。
4.CI（条件指数，Condition Index）法：CI越大，共线性越大。
当自变量之间存在共线性时，可以剔除某个自变量或者采用岭回归分析（Ridge Regression Analysis）。
（三）多重线性回归：实例分析
1. 数据预处理：根据经济学专业知识，需要先对Z1、Z2、 W作对数变换，分别记为X1、X2、Y。
（二）多重回归分析的适用条件
1.自变量与因变量之间存在线性关系
通过绘制y与每个自变量的偏相关散点图，可以判断y与自变量之间是否存在线性关系。
2.残差的正态性通过绘制标准化残差的直方图以及正态概率图（P-P图），可以判断y是否服从正态分布。此条件可以放宽，只要不是严重偏离正态即可。
3.残差的等方差性通过绘制标准化残差与预测值的散点图，若标准化残差在零水平线上下波动，无明显的规律性，则可以判断y满足等方差的假定。
：是Y（实测值）的预测值（predicted value），是直线上点的纵坐标。对于每一个X值，根据直线回归方程都可以计算出相应的Y预测值。
（具体计算过程参见《卫生统计学》第4版）。
2.b和a的意义
a：是回归直线在Y轴上的截距，即X＝0时Y的预测值。
b：是回归直线的斜率，又称为回归系数。表示当X改变一个单位时，Y的预测值平均改变|b|
截距a 回归系数b
F值 P值 sb 标准化回归系数 t值 P值
3.直线回归的预测及置信区间估计
给定X＝X0，预测Y
3.直线回归的预测及置信区间估计
因变量自变量
统计
保存（产生新变量，保存在当前数据库）
3.直线回归的预测及置信区间估计
总体回归系数的置信区间估计
3.直线回归的预测及置信区间估计
关于独立性：
所有的观测值是相互独立的。如果受试对象仅被随机观测一次，那么一般都会满足独立性的假定。但是出现下列三种情况时，观测值不是相互独立的：时间序列、重复测量等情况。
SPSS软件在“Linear Regression：Statistics”对话框中，提供了Durbin-Watson统计量d，以检验自相关系数是否为0。当d值接近于2，则残差之间是不相关的。
变换后的数据
2.多重回归分析
回归
线性
因变量自变量
Statistics对话框
回归系数的估计
模型拟和
统计描述
共线性诊断部分相关与偏相关系数
Plots对话框
标准化残差图
直方图正态概率图，P-P图
绘制所有的偏相关图
Save对earson相关
)
P值
分别给出Y、X1 、X2的均数与标准差
2.相关类型正相关：0<r1
负相关-1r<0
2.相关类型零相关 r =0
曲线相关
3.r的假设检验 r为样本相关系数，由于抽样误差，实际工作中r一般都不为0。要判断两变量之间是否存在相关性，需要检验
总体相关系数是否为0。 H0：=0 H1： 0
只有当0时，才能根据|r|的大小判断相关
数据文件reg.sav
（一）多重回归分析的任务
1.如何估计自变量与因变量之间的相互关系？（估计回归方程） 2.哪些自变量对因变量有影响？（影响因素分析） 3.哪一个自变量对因变量的影响更重要？（自变量的相对重要性分析） 4.如何用自变量预测因变量？（预测分析）
（二）多重回归分析的适用条件
1.自变量与因变量之间存在线性关系 2.残差的正态性 3.残差的等方差性 4.剔除强影响点（突出点，outliers） 5.自变量之间不应存在共线性 6.独立性
5.自变量之间不应存在共线性（Collinear）
当一个（或几个）自变量可以由其他自变量线性表示时，称该自变量与其他自变量间存在共线性关系。常见于：1.一个变量是由其他变量派生出来的，如：BMI由身高和体重计算得出；2.一个变量与其他变量存在很强的相关性。
当自变量之间存在共线性时，会使回归系数的估计不确定、预测值的精度降低以及对y有影响的重要自变量不能选入模型。
的密切程度。
4.相关与回归的区别和联系
（1）相关与回归的意义不同相关表达两个变量之间相互关系的密切程度和方向。回归表达两个变量之间的数量关系，已知X值可以预测Y值。从散点图上，散点围绕回归直线的分布越密集，则两变量相关系数越大；回归直线的斜率越大，则回归系数越大。
（2）r与b的符号一致同正同负。
（3）r与b的假设检验等价
4.相关与回归的区别和联系（4）可以用回归解释相关
r2称为决定系数（coefficient of determination）, 其越接近于1，回归直线拟和的效果越好。
例1 为研究中年女性体重指数和收缩压的关系，随机测量了16名40岁以上的女性的体重指数和收缩压（见数据文件 p237.sav）。
部分相关系数：自变量扣除其他自变量影响之后，因变量与自变量之间的相关系数。与偏相关系数不同，部分相关系数中因变量未扣除其他自变量的影响。
4.如何用自变量预测因变量？（预测分析）当自变量取某个数值时，y的预测值为
Y的均数的95％置信区间个体Y值的95％容许区间预测分析时，（x10，x20…… xm0）应该在样本的自变量取值范围内。
线性相关与回归(简单线性相关与回归、多重线性回归、Spearman等级相关)_图文.ppt
线性相关与回归
内容：
多重线性回归分析
特例
简单线性相关与回归
Spearman等级相关
一、简单线性相关与回归
（一）直线回归（linear regression）
1.定义：用直线方程表达X（自变量，independent variable；解释变量，explanatory variable；预测变量，predictor variable ）和Y （因变量，dependent variable；响应变量，response variable；结局变量， outcome variable ）之间的数量关系。
4.剔除强影响点（Influential cases；或称为突出点， outliers）
通过标准化残差（Standardized Residuals）、学生氏残差（Studentlized Residuals）来判断强影响点。当指标的绝对值大于3时，可以认为样本存在强影响点。
删除强影响点应该慎重，需要结合专业知识。以下两种情况可以考虑删除强影响点：1.强影响点是由于数据记录错误造成的；2.强影响点来自不同的总体。
变量说明：X:体重指数；Y:收缩压（mmHg）。
1.绘制散点图
散点图显示：收缩压与体重指数之间有线性相关趋势，因此可以进一步做直线回归与相关
2.直线回归与相关分析
Regression, 回归 Linear, 线性
2.直线回归与相关分析
因变量自变量
相关决定调整r2 系数r 系数r2
模型拟和的优良性指标
R：复相关系数，反映了Y与M个自变量的总体相关系数； R2：决定系数（R Square） R2c：调整决定系数（Adjusted R square ），是对决定系数的修正，是更客观的指标。这些指标越接近于1，说明回归模型拟合越好。除了上述指标，还有残差标准误s，残差标准差越小，说明回归模型拟合越好。
（二）直线相关（linear correlation）
1.定义描述具有直线关系的两个变量之间的相互关系。
r：相关系数，correlation coefficient 用来衡量有直线关系的两个变量之间相关的密切程度和方向。-1r1 r>0，正相关；r=1为完全正相关 r <0，负相关；r=-1为完全负相关 |r|越大，两变量相关越密切（前提：r有统计学意义）
3.哪一个自变量对因变量的影响更重要？（自变量的相对重要性分析）
当自变量的量纲相同时，衡量自变量相对重要性的指标：偏回归系数；若偏回归系数的绝对值越大，则相应自变
量对因变量的影响就越大。
当自变量的量纲不同时，衡量自变量相对重要性的指标：
标准化偏回归系数（Standardized regression coefficient）、偏相关系数（Partial Correlation）和部分相关系数（Part Correlation）。上述指标的绝对值越大，则相应自变量对因变量的影响就越大。