第十一章线性相关分析与线性回归分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十一章线性相关分析与线性回归分析
11.1 两个变量之间的线性相关分析
相关分析是在分析两个变量之间关系的密切程度时常用的统计分析方法。最简单的相关分析是线性相关分析,即两个变量之间是一种直线相关的关系。相关分析的方法有很多,根据变量的测量层次不同,可以选择不同的相关分析方法。总的来说,变量之间的线性相关关系分为三种。一是正相关,即两个变量的变化方向一致。二是负相关,即两个变量的变化方向相反。三是无相关,即两个变量的变化趋势没有明显的依存关系。两个变量之间的相关程度一般用相关系数r 来表示。r 的取值范围是:-1≤r≤1。∣r∣越接近1,说明两个变量之间的相关性越强。∣r∣越接近0,说明两个变量之间的相关性越弱。相关分析可以通过下述过程来实现:
11.1.1 两个变量之间的线性相关分析过程
1.打开双变量相关分析对话框
执行下述操作:
Analyze→Correlate(相关)→Bivariate(双变量)打开双变量相关分析对话框,如图11-1 所示。
图11-1 双变量相关分析对话框
2.选择进行相关分析的变量
从左侧的源变量窗口中选择两个要进行相关分析的变量进入Variable 窗口。
3.选择相关系数。
Correlation Coefficient 是相关系数的选项栏。栏中提供了三个相关系数的选项:(1)Pearson:皮尔逊相关,即积差相关系数。适用于两个变量都为定距以上变量,且两个
变量都服从正态分布的情况。这是系统默认的选项。
(2)Kendall:肯德尔相关系数。它表示的是等级相关,适用于两个变量都为定序变量的情况。
(3)Spearman:斯皮尔曼等级相关。它表示的也是等级相关,也适用于两个变量都为定序变量的情况。
4.确定显著性检验的类型。
Test of Significance 是显著性检验类型的选项栏,栏中包括两个选项:
(1)Two-tailed:双尾检验。这是系统默认的选项。
(2)One-tailed:单尾检验。
5.确定是否输出相关系数的显著性水平
Flag significant Correlations:是标出相关系数的显著性选项。如果选中此项,系统在输出结果时,在相关系数的右上方使用“*”表示显著性水平为0.05;用“**”表示显著性水平为0.01。
6. 选择输出的统计量
单击Options 打开对话框,如图11-2 所示。
图11-2 相关分析选项对话框
(1)Statistics 是输出统计量的选项栏。
1)Means and standard deviations 是均值与标准差选项。选择此项,系统将在输出文件中输出均值与标准差。
2)Cross- product deviations and covariances 是叉积离差与协方差选项。选择此项,系统将在输出文件中输出每个变量的离差平方和与两个变量的协方差。
上述两项选择只有在主对话框中选择了Pearson:皮尔逊相关后,计算结果才有价值。
(2)缺失值的处理办法
Missing Valuess 是处理缺失值的选项栏。
1)Exclude cases pairwise 是成对剔除参与相关系数计算的两个变量中有缺失值的个案。2)Exclude cases listwise 是剔除带有缺失值的所有个案。
上述选项做完以后,单击Continue 按钮,返回双变量相关分析对话框。
8.单击OK 按钮,提交运行。系统在输出文件窗口中输出相关分析的结果。
11.1.2 两个变量之间的线性相关分析实例分析
实例:在“休闲调查1”中,对被调查者的“住房面积”和“家月收入”作相关分析
打开数据文件“休闲调查1”后,执行下述操作:
1.Analyze→Correlate→Bivariate 打开双变量相关分析对话框。
2.从左侧的源变量中选择“住房面积”和“家月收入”进入Variable 窗口。其它选项采用系统默认状态。
3.单击Options 按钮,打开对话框。
选择Means and standard deviations 选项和Cross- product deviations and covariances 选项。
单击Continue 按钮,返回双变量相关分析对话框。
4.单击OK 按钮,提交运行。可以在输出文件中看到相关分析的结果如表11-1、表11-2 所示
表11-1 变量的描述统计
表11-2相关分析表
由于在选项中选择了Means and standard deviations选项。所以在输出文件中出现了表11-1,表中的内容就是两个变量的平均值、标准差和个案数。
表11-2是以交叉表的形式表现的相关分析的结果。下面将表的内容作如下解释:Pearson Correlation是皮尔逊相关系数。在它右侧“住房使用面积”一列中对应的数据为1.000,这是“住房使用面积”与“住房使用面积”的相关系数。由于使用同一个变量计算相关,数据完全一一对应,所以计算的相关系数为1。在“家月收入”下面对应的数据为0.393,这是“住房使用面积”与“家月收入”的皮尔逊相关系数。
Sig. (2-tailed)是双端检验的显著性水平。可以看出,相关系数0.393 的显著性水平为0.000,表明总体中两个变量的相关是显著的。0.393 的“**”和表下面的英文说明Correlation is significant at the 0.05 level (2-tailed) (相关系数在0.01 的水平
上显著)即说明了这一点。Sum of Squares and Cross-products 是离差平方和与叉积和。如果以“家月收入”为X 变量,“住房使用面积”为Y 变量的话,离差平方和是指
()2∑-X X 或()2∑-Y Y 。差积和是指Σ(x − x )(y − y )。表11-2 中“家月收入”一列下面所对应的94462797 是“家月收入”变量的离差平方和。而879447.51 则是差积和。Covariance 是协方差。表11-2 中“家月收入”一列下面所对应的3118.608 是“家月收入”的方差。“住房使用面积”一列下面所对应的187.904 是“家月收入”变量与“住房使用面积”变量的协方差。从输出的情况来看,“住房面积”和“家月收入”呈正相关,其相关系数为0.393,在总体中这个相关系数在0.01 的水平上是显著的。
11.2 线性回归分析
回归分析是用确定性的方法来研究变量之间的非确定性关系的最重要的方法之一。非确定性关系是指变量在变化过程中表现出来的数量上具有一定的依存性,但并非象函数关系那样一一对应的关系。如果把其中的一个或几个变量作为自变量,把另一个随着自变量的变化而变化的变量作为因变量,通过建立线性关系的数学模型来研究它们之间的非确定性的关系的方法就是回归分析的方法。由于回归分析中表现的是自变量和因变量之间的关系,所以这种方法也多用于研究因果关系的数量表现。在SPSS 中的回归分析方法有七种,本节只介绍最简单、最常用的线性回归分析。
回归分析在Analyze 的下拉菜单中,如图11-3 所示。
图11-3 回归分析的指令菜单
图中的主菜单中Regression 是回归,二级菜单中的Linear 是线性。
11.2.1 一元线性回归