第十章:回归分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十章:回归分析Regression(上)
在进行数据分析时往往会看到变量之间存在着一定的相关关系。变量之间相关密切程度的分析,我们称之为相关分析,上一节已讲述了。如果在研究变量之间的相关关系时,把其中的一些因素作为控制变量,而另一些随机变量作为它们的因变量,这种关系分析就称为回归分析。
regression菜单项包括如下内容:
linear 线性回归
curve estimation 曲线估计
binary logistic 二分量逻辑分析
Multinomial Logistic 多项式逻辑分析
Ordinal 标称变量分析
Probit 概率分析
Nonlinear 非线性回归
Weight Estimation 加权估计
2-Stage Least Squares 最小二乘法
10.1 Linear过程
10.1.1 一元线性回归
10.1.1.1 界面详解
10.1.1.2 输出结果解释
10.1.2 多元线性回归
10.1.2.1 分析实例
10.1.2.2 结果解释
10.2 Curve Estimation过程
10.2.1 界面详解
10.2.2 实例操作
10.3 Binary Logistic过程
10.3.1 界面详解与实例
10.3.2 结果解释
10.3.3 模型的进一步优化与简单诊断
10.3.3.1 模型的进一步优化
10.3.3.2 模型的简单诊断
§10.1Linear过程
10.1.1 一元线性回归
一般线性回归分析的基本步骤为:
1、确定回归方程中的自变量和因变量;
2、从搜集到的样本数据出发确定自变量和因变量之间的数学关系式,即建立回归方程;
3、对回归方程进行各种统计检验(回归方程拟合优度检验R2;回归方程的显著性检验F;回归系数显著性检验t;回归方程的残差分析等)
4、利用回归方程进行预测。
利用spss进行回归分析时,这四个基本步骤中的第一步由用户给定的。第二步和第三步是由spss自动完成。第四步的预测工作,用户可以利用Compute命令,在相应的算术表达式框中输入回归方程公式,spss将依据公式自动计算出预测结果。
例10.1:请分析在数据集Fat surfactant.sav中变量fat对变量spovl的大小有无影响?
变量分析:这里spovl是模型中的因变量,根据回归模型的要求,它必须是正态分布的变量才可以,我们可以用直方图来大致看一下,可以看到基本服从正态,因此不再检验其正态性,继续往下做。
10.1.1.1 界面解释
在菜单中选择Regression==>liner,系统弹出线性回归对话框如下:
【Dependent框】
用于选入回归分析的应变量。
【Block按钮组】
由Previous和Next两个按钮组成,用于将下面Independent框中选入的自变量分组。由于多元回归分析中自变量的选入方式有前进、后退、逐步等方法,如果对不同的自变量选入的方法不同,则用该按钮组将自变量分组选入即可。在多元回归分析的例子会讲解其用法。
【Independent框】
用于选入回归分析的自变量,一元回归时为一个变量;多元回归时可输入多个变量。
【Method下拉列表】
用于选择对自变量的选入方法,有Enter(强行进入法)、Stepwise(逐步法)、Remove(强制剔除法)、Backward(向后法)、Forward(向前法)五种。该选项对当前Independent框中的所有变量均有效。其中三种基本方法为:
Forward(向前法):该法是变量不断进人回归方程的过程。首先选择与因变量具有最高相关系数的自变量进入方程,并对它进行回归系数显著性检验。然后,在剩余的变量中寻找与因变量偏相关系数最高并通过检验的自变量进人回归方程,并对方程中所有的自变量进行显著性检验。这样一直下去,直到再也没
有可进人方程的变量为止。
向后筛选法(Backward)。该法是变量不断剔除回归方程的过程。首先将所有变量全部引入回归方程。然后,进行回归系数显著性检验,在一个或多个t检验值不显著的变量中,将t值最小的那个变量剔除,然后再重新拟合回归方程,并进行各种检验。如果新方程中所有变量的回归系数的t值都是显著的,则变量筛选过程结束。否则,按照上述方法再剔除最不显著的一个自变量,直到再也没有自变量可剔除为止。
逐步筛选法(Stepwise)。该法是向前筛选法和向后筛选法的综合。由于向前筛选法是自变量不断进入回归方程的过程,变量一旦进入回归方程就不会再被剔除出去。但是应注意到,随着自变量的逐个引进,由于自变量之间总存在一定程度的相关性(多重共线性),使得某些已经进入回归方程的自变量的回归系数不再显著,这样造成最终的回归方程可能包含一些不显著的自变量。逐步筛选法是在向前筛选法的基础之上,结合向后筛选法,在每个自变量进入方程后,都判断是否存在应剔除出方程的自变量。如果有则将其剔出。因此,逐步筛选法在选择变量的每一个阶段,都考虑了剔除一个不显著自变量的可能。
【Selection Variable框】
选入一个筛选变量,对样本数据进行筛选,并利用右侧的Rules钮建立一个选择条件,只有满足该条件的样本数据才会进入回归分析。
【Case Labels框】
选择一个变量,他的取值将作为每条记录的标签。最典型的情况是使用记录ID号的变量。
【WLS>>钮】
可利用该按钮进行权重最小二乘法的回归分析。单击该按钮会扩展当前对话框,出现WLS Weight框,在该框内选入权重变量即可。
【Statistics钮】
弹出Statistics对话框,用于选择所需要的描述统计量。有如下选项:
o Regression Coefficients复选框组:定义回归系数的输出情况,选中Estimates可输出回归系数B 及其标准误,t值和p值,还有标准化的回归系数beta;选中Confidence intervals则输出每个回归系数的95%可信区间;选中covariance matrix则会输出各个自变量的相关矩阵和方差、协方差矩阵。以上选项默认只选中Estimates。
o Residuals复选框组:用于选择输出残差诊断的信息,可选的有Durbin-Watson残差序列相关性检验、超出规定的n倍标准误的残差列表。
o Model fit复选框:模型拟合过程中进入、退出的变量的列表,以及一些有关拟合优度的检验:,R,R2和调整的R2, 标准误及方差分析表。
o R squared change复选框:显示模型拟合过程中R2、F值和p值的改变情况。
o Descriptives复选框:提供一些变量描述,如有效例数、均数、标准差等,同时还给出一个自变量间的相关矩阵。
o Part and partial correlations复选框:显示自变量间的相关、部分相关和偏相关系数。
o Collinearity diagnostics复选框:给出一些用于共线性诊断的统计量,如特征根(Eigenvalues)、