10.相关与回归分析概述.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
10 相关与回归分析
研究两个或多个变量之间的关系时,常常用到相关分析和回归分析。本章介绍在SPSS中进行相关分析和回归分析的计算方法。
10.1 双变量相关分析
若两变量是计量资料且均服从正态分布,其相关密切程度可用Pearson积差相关系数(简单相关系数)描述,而等级资料或不满足正态性的计量资料相关性研究是使用Spearman和Kendall相关系数。在SPSS中,先对两变量作正态性检验,再选择菜单Analyze→Correlate(相关)→Bivariate(两两相关),进行相关分析。
例10-1某研究所研究某种代乳粉的营养价值时,用10只大白鼠作试验,得到大白鼠进食量(g)和增加体重(g)的数据如表10-1,试研究进食量与增加体重的相关关系。
表10-1 大白鼠进食量与增加体重
编号 1 2 3 4 5 6 7 8 9 10
进食量820 780 720 867 690 787 934 679 639 820
增重165 158 130 180 134 167 186 145 120 158
解:首先建立配对格式数据文件如图10-1。
经检验两变量均服从正态分布;选择菜单Analyze→Correlate→Bivariate,弹出Bivariate Correlations对话框,见图10-2;将左边框中的变量x、y送入Variables框中;单击OK。
图10-1 例10-1数据文件图10-2 Bivariate Correlations对话框
图10-2对话框中,Correlation Coefficients(相关系数)框中,Pearson:皮尔逊积差相关系数,系统默认;Kendall’s tau-b:肯德尔等级相关系数;Spearman:斯皮尔曼等级相关系数。若选择Flag significance Correlations (标记显著性),则用“**”、“*”分别表示P≤0.01、0.01<P≤0.05。
主要结果见图10-3,Pearson相关系数r=0.940、P=0.000<0.001,可以认为大白鼠进食量与增加体重呈正向直线相关。
图10-3 例10-1计算结果图10-4 例10-2计算结果
例10-2测得2~7岁急性白血病患儿的血小板数x与出血症状y资料如表10-2所示。研究血小板数x 与出血症状y之间有无联系。
表10-2 血小板数x与出血症状y资料
x 54270 13790 16500 31050 42600 12160 74240 106400 126170 129000 143880 200400
y +++++-+++++----+++-解y是等级资料,将等级-、+、++、+++分别用0、1、2、3表示,将表10-2中数据建立成2列12行的数据文件。仿例10-1操作,在图10-2所示Bivariate Correlations对话框中选中Kendall’s tau-b和Spearman。
运行结果见图10-4。Kendall相关系数=-0.377、P=0.117>0.05,Spearman相关系数=-0.422、P=0.172
>0.05,不能认为2~7岁急性白血病患儿的血小板数与出血症状之间有直线关系。
10.2 偏相关分析
多变量相关分析时,有时需要在剔除其它变量影响的情况下,研究两个变量之间的相关关系,这就是偏相关分析。经偏相关分析计算出的相关系数为偏相关系数。偏相关系数在原始数据是随机的多元正态分布时才是有效的,在计算偏相关系数前应该先检验各变量的正态性。偏相关分析不分自变量和因变量。在SPSS中选择菜单Analyze →Correlate→ Partial(偏相关)命令,可以完成偏相关分析的计算。
例10-310名17岁女生的体重x1(kg)、胸围x2(cm)、胸围的呼吸差x3(cm)、肺活量y(ml)的数据如表10-3所示。试分析y与x1、x2、x3的关系。
表10-3 女中学生的数据
编号 1 2 3 4 5 6 7 8 9 10
x135 40 40 42 37 45 43 37 44 42
x 2 69 74 64 74 72 68 78 66 70 65 x 3
0.7
2.5
2
3
1.1
1.5
4.3
2
3.2
3
y
1600 2600 2100 2650 2400 2200 2750 1600 2750 2500
解 将表10-3中数据建立成10行4列的数据文件,如图10-5。
经检验四个变量均服从正态分布;选择菜单Analyze →Correlate →Partial (偏相关),弹出Partial Correlations 对话框,见图10-6;将计算偏相关系数的变量(y 、x 3)送入Variables (检验变量)框中、扣除影响的变量(x 1、x 2)送入Controlling (控制变量)框中;单击Options 按钮,选中Zero-order correlations (零阶相关系数),则可以输出简单相关系数,单击Continue ;单击OK 。
图10-5 例10-3数据文件 图10-6 Partial Correlations 对话框
图10-7 例10-3计算结果
输出结果见图10-7。y 与x 3的简单相关系数为0.729,在剔除x 1、x 2影响后,y 与x 3的偏相关系数是0.321。 再选择Partial 命令,这次将y 、x 2送入Variables 框,x 1、x 3送入Controlling 框,单击Options 按钮,取消Zero-order correlations 。可得剔除x 1、x 3影响后y 与x 2的偏相关系数为0.558,y 与x 2的简单相关系数为0.586(见图10-7)。类似计算,剔除x 2、x 3影响后y 与x 1的偏相关系数为0.565,y 与x 1简单相关系数为0.695。
在3个简单相关系数中y 与x 3的最大(0.729),而剔除其它变量的影响后,在3个偏相关系数中y 与x 3的最小(0.321),y 与x 1、y 与x 2的偏相关系数接近(0.565、0.558),说明y 与x 1、x 2的相关关系接近,y 与x 3的相关关系最不密切。
10.3 一元线性回归
一元线性回归分析研究一个自变量和一个因变量之间是否存在线性关系以及存在什么样的线性关系,建立一
元线性回归方程:ˆy
a bx =+。在SPSS 中选择菜单Analyze →Regression (回归)→Linear (线性回归)命令可以完成一元线性回归的计算。
例10-4 对例10-1中大白鼠的进食量与增加体重进行回归分析。
解:数据文件同例10-1。选择菜单Analyze →Regression →Linear ,弹出Linear Regression (线性回归)主对话框,将因变量y 送入Dependent (因变量)框中,自变量x 送入Independent (s )(自变量)框中,如图10-8所示;单击OK 。
图10-8 Linear Regression 主对话框
主要输出结果见图10-9、10、11。图10-9输出回归模型摘要,相关系数r =0.940,决定系数r 2=0.883,调整的决定系数r 2=0.868,剩余标准差=7.879。图10-10输出回归方程的方差分析,F =60.197,P =0.000<0.001,回归方程有高度统计学意义。
图10-11输出回归方程的参数估计,回归方程的常数项(Constant )是-17.357,回归方程的斜率(回归系数)
是0.222,据此可以写出回归方程:ˆ17.3570.222y
x =-+。表中还用t 检验对截距和回归系数进行了检验,其中对截距的检验中,t =-0.780,P =0.458,不能拒绝“截距为0”的原假设。对回归系数的检验中,t =7.759,P =0.000,
拒绝“回归系数为0”的原假设,t =7.759的平方就等于方差分析中的F 值,在一元线性回归中,对回归系数的t 检验、方差分析以及例10-1中的相关性检验完全等价。表中还给出标准化的回归系数(Standardized Coefficients )为0.940。
图10-9 例10-4回归模型摘要 图10-10 例10-4回归方程的方差分析
图10-11 例10-4回归方程的参数估计
图10-8所示Linear Regression 主对话框其他选项的说明:
单击Statistics 按钮,弹出如图10-12所示的线性回归统计量对话框,可以选择输出的统计量。单击Save 按钮,弹出如图10-13所示的线性回归保存对话框,可以选择要保存为新变量的统计量。单击Plots 按钮,弹出线性回归绘图对话框,可指定绘制残差图、正态概率图等。单击Options 按钮,弹出的线性回归选项对话框将在后面的逐步回归中讲解。