spss5线性相关与回归

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(三)多元线性回归:实例分析
1. 数据预处理:根据经济学专业知识,需要先对Z1、Z2、 W作对数变换。
计算
X1=Ln(Z1),同理,计算X2=Ln(Z2),Y =Ln(W)。
变换后的数据
2.考察自变量与因变量之间是否存在线性关系
3.多元回归分析
回归
线性
因变量
自变量
Statistics对话框
附录: Spearman等级相关
Spearman等级相关是基于秩次的非参数相关分析。 主要适用于以下情况: 1.对于数值型变量,X及Y严重偏离正态分布; 2.等级资料的相关分析。
例 为探讨硒与大骨节病之间的关系,分别检测了1990~ 1999年某地7~12岁儿童中大骨节病X线阳性率和发硒的平均 水平(见数据文件P249.sav),试对其进行等级相关分析。 变量说明:X:大骨节病阳性率;Y:发硒。
4.剔除强影响点(突出点,outliers)
ˆ ˆ 学生化残差(Studentized Residual): ε / se(ε )
服从标准化正态分布。当此指标的绝对值大于3时,可以 认为样本存在强影响点。
5.自变量之间不应存在共线性 当一个(或几个)自变量可以由其他自变量线性表示时,称 该自变量与其他自变量间存在共线性关系。常见于:1.一个 变量是由其他变量派生出来的;2.一个变量与其他变量存在 很强的相关性。 共线性诊断方法: 1.TOL(容许度,Tolerance)法:TOL越接近零,共线性越大。 2.VIF(方差膨胀因子,Variance Inflation Factor)法:VIF越 大,共线性越大。 3.特征根(Eigenvalue)法:越接近零,共线性越大。 4.CI(条件指数,Condition Index)法:CI越大,共线性越大。
(一)多元回归分析的任务
4.如何用自变量预测因变量?(预测分析) 当自变量取某个数值时,y的预测值为
0 0 ˆ y0 = b0 + b1 x10 + b2 x2 + .... + bm xm
Y的均数的95%置信区间:反映当自变量取某个数值时, Y的均数的波动范围 个体Y值的95%容许区间:反映当自变量取某个数值 时,Y的波动范围
(二)相关类型 正相关:0<r≤1
(二)相关类型 负相关-1≤r<0
(二)相关类型 零相关 r =0
(二)相关类型 零相关 r =0
曲线相关
(三)r计算
r=
∑ ( X − X )(Y − Y ) ∑ ( X − X ) ∑ (Y − Y )
2
2
l XY = l XX lYY
(三)r的假设检验 r为样本相关系数,由于抽样误差,实际工作中r一般都 不为0。要判断两变量之间是否存在相关性,需要检验 总体相关系数ρ是否为0。 H0:ρ=0 H1: ρ ≠0
(三)b和a的估计 最小二乘方法(the method of least squares): 各实测点到直线的纵向距离的平方和最小。
∑( X − X )(Y − Y ) l XY b= = 2 l XX ∑( X − X )
a = Y − bX
(四)b的假设检验: b为样本回归系数,由于抽样误 差,实际工作中b一般都不为0。要判断直线回归方程是 否成立,需要检验总体回归系数β是否为0。 H0:β=0 H1:β≠0 方法一:t检验
(一)定义 描述具有直线关系的两个变量之间的相互关系。 r:相关系数,correlation coefficient 用来衡量有直线关系的两个变量之间相关的密切程度和 方向。-1≤r≤1 r>0,正相关;r=1为完全正相关 r <0,负相关;r=-1为完全负相关 |r|越大,两变量相关越密切(前提:r有统计学意义)
(二)多元回归分析的适用条件
1.自变量与因变量之间存在线性关系 作自变量与因变量的散点图,观察是否存在线性趋势。
2.残差的正态性 对残差作直方图或者正态概率图(P-P图),检验残差正态性。 此条件可以放宽,只要不是严重偏离正态即可。 3.残差的等方差性 以预测值为X,残差为Y,作散点图。当残差在零水平线上下 波动时,认为残差等方差。
估计模型中系数的方法:最小二乘方法(Least Square, LS),即残差平方和最小。 b1, b2….. bm称为偏回归系数:当固定其他变量时,xm 每增加一个单位,y的增加值都是bm。
模型拟和的优良性指标 R:复相关系数,反映了Y与M个自变量的总体 相关系数; R2:决定系数(R Square) R2c:调整决定系数 当R、 R2、 R2c越大(尤其是R2c ),则模型拟和越好。
sYX称为剩余标准差或者残差标准差 (the standard deviation of residual)
(五)直线回归方程的置信区间估计 2. μYˆ 的95%置信区间估计 当X=X0时,以95%的概率估计Y的均数的置信区间为
ˆ Y ± t0.05/ 2,n − 2 sYˆ
sYˆ = sYX 1 ( X 0 − X )2 + n l XX
P值
简单相关 偏相关 部分相关
Tol
VIF
经统计学检验,X1与X2均有显著性,因此回归模型为 ˆ y = −6.889 + 0.695 X 1 + 0.838 X 2 ;根据偏回归系数的大小, 可以认为X1对Y的影响比X2大。
共线性诊断
特征根 条件指数, CI
方差比例
共线性诊断:TOL不接近于零,VIF与CI均不太大;尽管有两个 特征根接近于零,但是相应的方差比例主要来自常数项和某个 自变量;因此两个自变量之间不存在共线性。
r r t= = sr 1− r2 n−2
只有当ρ≠0时,才能根据|r|的大小判断相关 的密切程度。
(四)相关与回归的区别和联系 1.相关与回归的意义不同 相关表达两个变量之间 相互关系的密切程度和方向。回归表达两个变量之 间的数量关系,已知X值可以预测Y值。从散点图 上,散点围绕回归直线的分布越密集,则两变量相 关系数越大;回归直线的斜率越大,则回归系数越 大。 2.r与b的符号一致 根据公式:
回归系数 的估计
模型拟和
统计描述
共线性诊断 部分相关与偏相关系数
Plots对话框
标准化 残差图 直方图
正态概率图,P-P图
Save对话框
非标准化 预测值 非标准化残差
学生化Fra Baidu bibliotek差
预测区间 Y的均数 个体Y值
4.输出结果解释
分别给出Y、 X1、X2的均数 与标准差 相关系数阵 简单相关系数 (Pearson相关) P值
ˆ Y = a + bX
ˆ Y
:是Y(实测值)的预测值(predicted value), 是直线上点的纵坐标。对于每一个X值,根据直线 回归方程都可以计算出相应的Y预测值。
(二)b和a的意义 a:是回归直线在Y轴上的截距,即X=0时Y的预测值。 b:是回归直线的斜率,又称为回归系数。 表示当X改变一个单位时,Y的预测值平均改变|b|个 单位。
(一)多元回归分析的任务
1.如何估计自变量与因变量之间的相互关系?(估计回归方程)
y = b0 + b1 x1 + b2 x2 + .... + bm xm + ε
ˆ y = b0 + b1 x1 + b2 x2 + .... + bm xm
ˆ 其中y为实测值, y 为预测值(predicted value)
(五)直线回归方程的置信区间估计 3.个体Y值的95%容许区间估计 当X=X0时,以95%的概率估计个体Y值的波动范围为
ˆ Y ± t0.05/ 2,n − 2 sY −Yˆ
sY −Yˆ = sYX 1 ( X 0 − X )2 1+ + n l XX
二、直线相关(linear correlation)
SPSS软件在医学科研中的应用
计算机实习(SPSS10.0)
何平平
北大医学部流行病与卫生统计学系 Tel:82801619
实习五
线性相关与回归
内容:
多元线性回归分析 简单线性相关与回归 Spearman等级相关
特例
多元线性回归分析
例:由于改革开放政策,深圳特区中外来人口大幅度增 加,为了考察特区中外来人口对本地经济发展的贡献,深 圳特区统计局收集了所属的宝安县在1987年末18个镇的人 口与工农业总产值数据(见数据文件reg.sav)。此处把 工农业总产值当作因变量(W),而把外地及本地人口数 当作两个自变量(Z1,Z2)(摘自:孙尚拱,《医学多变 量统计与统计软件》,北京医科大学出版社,2000)。
相关
两变量

Pearson 相关系数 (r)
Spearman 等级相关系 数

Pearson相关系数(r) P值
Spearman相关系数 P值
附录:简单线性相关与回归
一、直线回归(linear regression) (一)定义:用直线方程表达X(自变量,independent variable)和Y (应变量,dependent variable)之间的数 量关系。
(一)多元回归分析的任务
2.哪些自变量对因变量有影响?(影响因素分析) 对回归模型的统计检验
n − m − 1 SS reg F= • m SSE
当P<0.05,则认为此回归模型有显著性。 对自变量的统计检验
t = bi / se(bi )
当P<0.05,则认为此自变量对因变量有影响。
自变量的筛选 常用方法: 1.前进法(Forward):逐步增加变量到模型中(由少 到多),对已经进入的变量不再剔除; 2.后退法(Backward):从模型中逐步剔除变量(由 多到少),对已经剔除的变量不再进入; 3.逐步法(Stepwise):结合了前进法和后退法,变 量边进入边剔除。
残差统计量
学生化 残差
因为学生化残差的绝对值小于3,所以从统计学上认为 样本不存在强影响点。
直方图
从残差直方图及P-P图可见:残差正态性不太 好,可能与样本量太小有关。
P-P图
从残差直方图及P-P图可见:残差正态性不太 好,可能与样本量太小有关。
数据窗口中产生的新变量:
Y的预 残差 学生化 Y的均数的置信区 个体Y值的容许区 残差 间的下限及上限 间的下限及上限 测值
t=
F=
b Sb
两种方法等价,
方法二:F检验
MS回归 MS剩余
F =t
只有当β≠0时,才能认为直线回归方程成立(具有统计 学意义)。
(五)直线回归方程的置信区间估计 1.总体回归系数β的95%置信区间估计
b ± t0.05 / 2,n − 2 sb
sb = sYX / lxx
sYX ˆ ∑(Y − Y ) 2 = = n−2 SS剩余 n−2
从简单相关系数可见:Y与X1、X2存在较强相关性,X1、X2存 在中等相关性。
复相关系数 决定系数 调整决定系数
F值
P值
此模型的复相关系数为0.857,调整决定系数为0.699,反映此模型拟 和较好;模型经统计学检验,F=20.738,P<0.05,说明此多元回归模 型有显著性。
非标准化系数
标准化系数 t值
(一)多元回归分析的任务
3.哪一个自变量对因变量的影响更重要?(自变量的相对重要性 分析) 当自变量的量纲相同时,衡量自变量相对重要性的指标: 偏回归系数 当自变量的量纲不同时,衡量自变量相对重要性的指标: 标准化偏回归系数:对自变量、因变量作标准化处理后计 算的回归系数。 偏相关系数:与简单相关系数(Pearson相关系数)不 同;例如:考察因变量Y与自变量X1 、X2的多元回归分析,Y 与X1的偏相关系数为扣除X2影响后的Y与X1的相关性。 Y与X1 的简单相关系数为忽略X2影响后的Y与X1的相关性。
检查残差的等方差性:
散点图
检查残差的等方差性:
检查残差的等方差性:
残差 预测值
由图可见:残差满足等方差性。
重要提示:
经典的多元线性回归:自变量和因变量均为连续变量。 多元线性回归分析允许自变量为分类变量,但引入模型时, 需要以“哑变量(dummy variables)”的方式。 如:某个自变量为“文化程度”:1=文盲,2=小学,3=中 学,4=大学及以上。进行回归分析时,此自变量须用3个哑变 量表达:x1: 1=文盲,0=其他;x2: 1=小学,0=其他; x3: 1=中学,0=其他。
数据文件reg.sav
(一)多元回归分析的任务
1.如何估计自变量与因变量之间的相互关系?(估计回归 方程) 2.哪些自变量对因变量有影响?(影响因素分析) 3.哪一个自变量对因变量的影响更重要?(自变量的相对 重要性分析) 4.如何用自变量预测因变量?(预测分析)
(二)多元回归分析的适用条件
1.自变量与因变量之间存在线性关系 2.残差的正态性 3.残差的等方差性 4.剔除强影响点(突出点,outliers) 5.自变量之间不应存在共线性
相关文档
最新文档