简单线性相关(一元线性回归分析)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十三讲 简单线性相关(一元线性回归分析)
对于两个或更多变量之间的关系,相关分析考虑的只是变量之间是否相关、相关的程度,而回归分析关心的问题是:变量之间的因果关系如何。回归分析是处理一个或多个自变量与因变量间线性因果关系的统计方法。如婚姻状况与子女生育数量,相关分析可以求出两者的相关强度以及是否具有统计学意义,但不对谁决定谁作出预设,即可以相互解释,回归分析则必须预先假定谁是因谁是果,谁明确谁为因与谁为果的前提下展开进一步的分析。
一、一元线性回归模型及其对变量的要求 (一)一元线性回归模型 1、一元线性回归模型示例
两个变量之间的真实关系一般可以用以下方程来表示: Y=A + BX + ε
方程中的A 、B 是待定的常数,称为模型系数,ε是残差,是以X 预测Y 产生的误差。
两个变量之间拟合的直线是:
y a bx ∧
=+
y ∧是 y 的拟合值或预测值,它是在X 条件下Y 条件均值的估计
a 、
b 是回归直线的系数,是总体真实直线A 、B 的估计值,a 即 constant 是截距,当自变量的值为0时,因变量的值。 b 称为回归系数,指在其他所有的因素不变时,每一单位自变量的变化引起的因变量的变化。
可以对回归方程进行标准化,得到标准回归方程:
y x ∧
=β
β 为标准回归系数,表示其他变量不变时,自变量变化一个标准差单位(Z X X S j j
j
=
-),因变量Y 的标准差的平均变化。
由于标准化消除了原来自变量不同的测量单位,标准回归系数之间是可以比较的,绝对值的大小代表了对因变量作用的大小,反映自变量对Y的重要性。
(二)对变量的要求:回归分析的假定条件
回归分析对变量的要求是:
自变量可以是随机变量,也可以是非随机变量。自变量X值的测量可以认为是没有误差的,或者说误差可以忽略不计。
回归分析对于因变量有较多的要求,这些要求与其它的因素一起,构成了回归分析的基本条件:独立、线性、正态、等方差。
(三)数据要求
模型中要求一个因变量,一个或多个自变量(一元时为1个自变量)。
因变量:要求间距测度,即定距变量。
自变量:间距测度(或虚拟变量)。
二、在对话框中做一元线性回归模型
例1:试用一元线性回归模型,分析大专及以上人口占6岁及以上人口的比例(edudazh)与人均国内生产总值(agdp)之间的关系。
本例使用的数据为st2004.sav,操作步骤及其解释如下:
(一)对两个变量进行描述性分析
在进行回归分析以前,一个比较好的习惯是看一下两个变量的均值、标准差、最大值、最小值和正态分布情况,观察数据的质量、缺少值和异常值等,缺少值和异常值经常对线性回归分析产生重要影响。最简单的,我们可以先做出散点图,观察变量之间的趋势及其特征。通过散点图,考察是否存在线性关系,如果不是,看是否通过变量处理使得能够进行回归分析。如果进行了变量转换,那么应当重新绘制散点图,以确保在变量转换以后,线性趋势依然存在。
打开st2004.sav数据→单击Graphs → S catter →打开Scatterplot
对话框→单击Simple →单击 Define →打开 Simple Scatterplot对话框→点选 agdp到 Y Axis框→点选 edudazh到 X Aaxis框内→单击 OK 按钮→在SPSS的Output窗口输出所需图形。
图12-1 大专及以上人口占6岁及以上人口比例与人均国内生产总值的散点图
判断:线性趋势较明显。
(二)SPSS线性回归主对话框介绍
打开线性回归主对话框的操作方法是:
在st2004.sav数据界面上单击Analyze → Regression→Linear→打开Linear Regression主对话框
图12-2 Linear Regression 命令位置
图12-3 Linear Regression主对话框
Linear Regression 主对话框的功能有:
1、选择因变量
Dependent框:放置因变量,一次只能放一个因变量。本例点选agdp进入Dependent框。
2、选择自变量
Independent框:放置自变量,可以放置多个自变量。本例点选edudazh 进入Independent框。
3、对自变量进行分组
Block按钮组:由Previous 和Next两个按钮组成,用来对自变量框中的自变量进行分组,在多元回归时会用到。
4、变量进入方式
Method框:
Enter:一元回归时,只选择这种方法,强行进入。所有变量依次进入。Stepwise:逐步回归,将所有满足条件的都进入方程,不满足的剔除。Remove:强行移出法,这一方法必须在这一组自变量在前面一步已经纳入到回归时才用,否则没有可以剔除的。
Backward:自后消除法,将满足剔除标准的剔除
Forward:向前加入法,所有满足进入回归方程的变量都可以进入。
在一元回归时,只用Enter即可。本例选择变量进入的方式为Enter。
5、选择筛选变量
Selection Variable框:选入一个筛选变量,并利用右侧的Rules建立条件,这样,只有满足这个条件的记录才会进入回归分析,当然,我们也可
以用Data菜单中的Select Case过程来做,效果相同。
6、个案标签
Case Labels 选择一个变量,其取值作为每条记录的标签,最典型的是使用记录ID个案号的变量。
7、加权最小二乘法计算
WLS Weight框;利用该按钮可进行加权最小二乘法的计算。选入权重变量进入该框即可。使用条件:当应变量的变异程度具有某种趋势,即不是等方差时,通过加权,进行分析,是一种有偏估计。
8、选择统计量
Statistics框:可以选择回归系数、残差诊断、模型拟合度等多种回归分析非常重要的统计量,在下文将详细介绍。
9、输出图形
Plots框:可输出多种用于检验回归分析假定条件的图形,在下文将将详细介绍。
10、保存回归分析结果
Save框:可以把回归分析的结果存起来,然后用得到的残差、预测值等做进一步的分析。单击图12-3中的Save…按钮,打开Linear Regression的Save 对话框(见图12-4),研究者可以根据自己的需要进行选择。
图12-4 Linear Regression的Save对话框