回归模型拟合精度分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
应用回归分析例库封面
一、案例背景
文章通过分阶段建立多元线性回归模型,分析了改革开放32年来民航客运量与相关因素之间的关系。结果表明:在不同历史阶段影响民航客运量的因素有所不同,并且从经济学角度对所建立的模型给出了合理的解释。
二、数据介绍
数据来自《新中国五十五年统计资料汇编》和《中国统计年鉴2010》。
三、分析过程
根据以上的分析,自改革开放以来,将中国民航客运量的增长趋势分为三个阶段,这里还有一个问题,就是年段的划分选在何处会更合理呢?对于这个问题,我们主要依据表2中分段回归拟合的残差平方和的大小,同时结合自变量选择时考虑的诸多因素做适当调整。
下面分阶段建立因变量y 关于自变量的各种组合的回归方程,这种组合方程共有 12552131555
C C C +++=-=个,根据自变量的选择准则,从中选择最优回归方程。 3.1 第一阶段:1978~1988年最优回归模型
经过比较,在通过回归方程和回归系数的显著性检验的方程中(取显著性水平0.05α=),发现表3中的两个模型最优。
由表3可见,模型一的各项指标都优于模型二,但是模型一中2x 的系数-0.290602β=<, 与实际意义不符,最终消费与民航客运量应该正相关。模型二中3x 的系数-0.008703β=<,与实际意义相符合,铁路客运量与民航客运量应该负相关,出现与实际意义不符的情况可能是由变量间的多重共线性造成的,为此考察其它几项指标,见表4.
表3 两个最优回归模型比较
模型 1978~1988年拟合回归方程 标准残差 复相关系数 PRESS AIC 模型一 721.0010-0.29060.690225
y x x =+ 41.91 0.9920 26372.68 111.0539 模型二 837.1212-0.00870.517435
y x x =+ 46.03 0.9904 52010.33 113.1177
表4 多重共线性、异常值诊断
模型 方差扩大因子 绝对值最大的删除学生化残差SRE 最大库克距离 最大杠杆值 模型一 27.9371025VIF VIF ==> 2.60473< 0.57970.5> 0.45162ch > 模型二 4.9581035VIF VIF ==< 2.6833< 0.42700.5< 0.33642ch <
从表4可见,模型一的自变量间存在严重的多重共线性,而且存在异常值点,模型二的自变量间不存在多重共线性,而且没有异常值点。为了进一步考察模型二的拟合效果,做残
差图4和拟合图5。
图4 1978~1988年的拟合-残差图 图5 1978~1988年的最优回归拟合图
由图4可见,残差波动较小,介于-80~60之间,且无规律。图5表明模型二的拟合效果
相当好,最优回归方程837.1212-0.00870.517435y x x =+对变量间的描绘是理想的。
3.2 第二阶段最优回归模型的确立
自变量的选择方法同上。
第二阶段:1989~2002年间,选入最优回归模型的变量是45,x x 。
第三阶段:2003~2009年间,选入最优回归模型的变量是25,x x 。
值得注意的是,在第三阶段,2009年对应的第七组数据,绝对值最大的删除学生化残差
4.32073(7)SRE =>,位于第一大,中心化杠杆值0.589520.571477
ch ch =>=,位于第二大,库克距离 3.142817D =>,位于第一大,可见2009年的数据为异常值的原因是自变量异常和因变量异常两个原因共同引起的。为了确定年段划分,分别考虑了以下几种情形:
第二阶段:1989~2001年和1989~2002年两种情形。
第三阶段:2002~2009年、2003~2009年以及2002~2008年三种情形。
计算方法同上,具体结果见表5:
表5 第二阶段两个最优回归模型比较
以上两个模型均通过了回归方程和回归系数的显著性检验,回归系数也很接近,总体来说,第一个模型好于第二个模型。针对模型一,利用SPSS 软件计算:
6.57610,max 2.38133,max 0.43870.5VIF SRE D =<=<=<
模型 拟合回归方程 标准残差 复相关系数 PRESS AIC 1989~2001 855.245632.68930.335645
y x x =-++ 455.1 0.9576 3166450 195.0669 1989~2002 962.063928.03330.461245
y x x =-++ 470.5 0.9624 3725234 211.8764
说明变量间不存在多重共线性和异常值。最终取那个模型,还需视第三阶段模型而定。
3.3 第三阶段最优回归模型的确立
第三阶段最优回归模型见表6,三个回归方程都通过了显著性检验。T 统计量的概率值见表7。
从表6可见,2002~2009年、2003~2009年的回归结果很接近,说明2002年的数据对回归结果影响不大,而删除2009年数据后的2002~2008年的回归结果明显好于前两者,说明2009年的数据作为异常值对回归结果有较大影响。从表7可见,2002~2009年、2003~2009年回归方程中5x 的回归系数均没有通过显著性检验,2002~2008年回归方程中的回归系数都通过了显著性检验,利用SPSS 软件计算:
6.09710,max 1.48893,max 0.565920.5714VIF SRE ch ch =<=<=<= 说明2002~2008年回归方程中变量间不存在多重共线性和异常值。
表6 第三阶段三个最优回归模型比较
模型 拟合回归方程 标准残差 复相关系数 PRESS AIC 2002~2009 13082.2726 1.19120.689625
y x x =-++ 644.6 0.9888 9803150 122.3745 2003~2009 13188.9552 1.19350.694425
y x x =-++ 720 0.9851 12946644 107.8129 2002~2008 13839.85830.8249 1.257325
y x x =-++ 290.5 0.997 1203304 95.1043
表7 第三阶段三个最优回归模型中T 统计量的概率值比较
模型 常数 2x 5x
2002~2009 0.0014 0.0003 0.0709
2003~2009 0.0067 0.0013 0.1113
2002~2008 0.0001 0.0012 0.0024
综合以上分析,我们将第二阶段和第三阶段确定为:
第二阶段:1989~2001年,最优回归方程为
45855.245632.68930.3356y x x =-++。
第三阶段:2002~2008年,最优回归方程为
2513839.85830.8249 1.2573y x x =-++。