SPSS实验报告_线性回归_曲线估计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《数据分析实务与案例实验报告》
曲线估计
学号:****************
班级:2013 应用统计
姓名:
日期: 2 0 1 4 – 12 – 7
数学与统计学学院
一、实验目的
1. 准确理解曲线回归分析的方法原理。
2. 了解如何将本质线性关系模型转化为线性关系模型进行回归分析。
3. 熟练掌握曲线估计的SPSS 操作。
4. 掌握建立合适曲线模型的判断依据。
5. 掌握如何利用曲线回归方程进行预测。
6. 培养运用多曲线估计解决身边实际问题的能力。
二、准备知识
1. 非线性模型的基本内容
变量之间的非线性关系可以划分为 本质线性关系和本质非线性关系。所谓本质线性关系是指变量关系形式上虽然呈非线性关系,但可以通过变量转化为线性关系,并可最终进行线性回归分析,建立线性模型。本质非线性关系是指变量之间不仅形式上呈现非线性关系,而且也无法通过变量转化为线性关系,最终无法进行线性回归分析,建立线性模型。本实验针对本质线性模型进行。 下面介绍本次实验涉及到的可线性化的非线性模型,所用的变换既有自变量的变换,也有因变量的变换。
乘法模型:
123y x x x βγδαε=
其中α,β,γ,δ 都是未知参数,ε是乘积随机误差。对上式两边取自然对数得到
123ln ln ln ln ln ln y x x x αβγδε=++++
上式具有一般线性回归方程的形式,因而用多元线性回归的方法来处理。然而,必须强调指出的是,在求置信区间和做有关试验时,必须是2ln (0,)n N I εδ ,而不是2n N I εδ(0,) ,因此检验之前,要先检验ln ε 是否满足这个假设。
三、实验内容
已有很多学者验证了能源消费与经济增长的因果关系,证明了能源消费是促进经济增长的原因之一。也有众多学者利用C-D 生产函数验证了劳动和资本对经济增长的影响机理。所有这些研究都极少将劳动、资本、和能源建立在一个模型中来研究三个因素对经济增长的作用方向和作用大小。
现从我国能源消费、全社会固定资产投资和就业人员的实际出发,假定生产技术水平在短期能不会发生较大变化,经济增长、全社会固定资产投资、就业人员、能源消费可以分别采用国内生产总值、全社会固定资产投资总量、就业总人数、能源消费总量进行衡量,并假定经济增长与能源消费、资本和劳动力的关系均满足C-D 生产函数。
问题中的C-D 生产函数为:
Y AK L E αβγ=
式中:Y 为GDP ,衡量总产出;K 为全社会固定资产投资,衡量资本投入量;L 为就业人数,衡量劳动投入量;E 为能源消费总量,衡量能源投入量;A,α,β, γ 为未知参数。根据C-D 函数的假定,一般情形α,β,γ均在0和1之间,但当α,β,γ中有负数时,说明这种投入量的增长,反而会引起GDP 的下降,当α,β,γ中出现大于1的值时,说明这种投入量的增加会引起GDP 成倍增加,这在经济学现象中都是存在的。
以我国1985—2004年的有关数据建立了SPSS 数据集,参见
“data16-2.sav ”。请以此数据集为基础估计生产函数中的未知参数。
四、实验步骤及结果分析
1. 确定非线性回归模型的类型
有上述分析过程确定要建立的回归模型为:
Y AK L E αβγ=
式中,Y 为自变量,K,L,E 为解释变量,A 为常数项。
2. 通过变换将非线性方程转化为线性方程
将原回归模型两遍同时取对数:
ln ln ln ln ln Y A K L E αβγ=+++
得:
123y c x x x αβγ=+++
式中,123ln ,ln ,ln ,ln ,ln y Y c A x K x L x E ===== 。
选择【转换】—【计算变量】,对所有数据取对数完成数据的处理,过程及结果如下图:
3.进行初步线性回归分析(选入所有变量)
用最小二乘法建立回归方程
由非线性模型转化为线性模型后,即可按照建立多元线性回归模型的步骤进行操作,求得回归方程表达式。
(1)选择【分析】→【回归】→【线性】,弹出“线性回归”对话框。将lnY 选入“因变量”框,lnk到lnE选入“自变量”框。注意,可以通过点击“上一张”与“下一张”按钮切换,选择不同的自变量构建模型,每个模型中可以对不同的自变量采用不同的方法进行回归。“方法”下拉框中有5个选项,此处先选择“进入”,即所选变量全部强行进入回归模型。
(2)点击“统计量”按钮,选择输出各种常用判别统计量,本案例选择“估计”、“模型拟合度”、“描述性”、“共线性诊断”,以及残差中的“Durbin-Watson”检验和“个案诊断”。
得到如下结果:
由模型汇总表,20.991
R=,拟合优度很强。
R=,20.989
统计量DW=0.763,该检验用于判断相邻残差序列的相关性,其判断标准
如下:
DW 本例中,k=4,n=21(k 为解释变量的数目,包括常数项,n 是观察值的数目)时,5%的上下界:dL=1.03,dU=1.67。有l DW d < ,认为残差序列存 在一阶自相关。 由方差分析表,统计量F=594.101,p 值小于0.05,认为方程在95%的置信水平下是显著的。 但是,0.025(2131) 2.110t --= 变量lnK 、lnL 、常量lnA 的t 值均大于2.110,所以这几个变量对方程的影响都很显著,而变量lnE 的t 值很小且p 值明显大于0.05且回归系数为零,说明该变量对方程影响不显著,回归模型是无效的。 4. 消除模型中变量的共线性(逐步回归) “共线性统计量”中,容忍度Tolerance 越接近于0,表示复共线性越强,越接近于1,复共线性越弱。而方差膨胀因子VIF 的值越接近于1,解释变量间的多重共线性越弱,如果VIF 的值大于或等于10,说明一个解释变量与其他解释变量之间有严重的多重共线性。本例中,变量lnK 和lnE 的VIF 值都大于10,说明它们与其他解释变量之间有严重的多重共线性,不符合经典假设,需要修正。 通过以上结果分析,采用逐步回归的方法来消除变量之间的多重共线性。重复以上步骤从新建立回归方程,将【进入】替换为【逐步】如下图所示: