关于一般线性回归方法的计量分析

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

关于一般线性回归方法的计量分析案例

摘要:线性回归方法是用来研究两个或两个以上的随机变量之间的相互依存关系的紧密程度。一般采用普通最小二乘法使样本各组数据的残差平方和极小，其前提条件符合高斯5点基本假设。然而，在研究实际问题中，采用的样本数据违反了高斯-马尔柯夫定理的条件，经常存在多重共线性，异方差性，自相关性问题，这些问题的出现导致了在进行数据预测过程中结果出现极大的偏差。本文旨在通过研究影响国内生产总值（GDP ）的几个因素，以及其之间的相关关系对这些问题进行检验以及消除，使得实际问题的预测更加准确。

关键词：回归分析，相关分析，高斯假设，普通最小二乘法，统计学检验，计量经济学检验

引言

1.回归分析与相关分析

相关分析是研究两个或两个以上随即变量之间相互依存关系的紧密程度。不

分自变量与因变量。现象间数量的依存关系不是确定的，有一定随机性。回归分析是研究某一随机变量与其他一个或几个普通变量之间的数量变动的关系。要定出自变量与因变量，且自变量是确定的普遍变量，几个变量间存在相关关系。

2.回归分析的一般步骤

（1）确定解释变量和被解释变量，数据录入；

（2）画回归模型类型：散点图；

（3）建立回归方程：

（4）检验；

（5）预测。

3.高斯假设假设1 零均值假设2 同方差假设3 无自相关假设4 x t 与u t 不相关假设5 正态性

4.最小二乘法（OLS ）

图1

残差e i =预测值与样本值y 之差（y i -y i ’）

当样本各组数据的残差平方和最小时，此线性函数最接近样本中变量关系。按此

222var ()=E[-E()]=E()=t t t t u u u u σ

cov (u ,u )=0

t s cov(x ,u )=0

t t 2~(0,)

t u N σ212=, =0t t t t y y b x x ∂∂∂∂

求出待定系数b 0和b 1：

一、问题提出

国内生产总值（GDP ）指一个国家或地区所有常住单位在一定时期内（通常

是一年）生产活动的最终成果，即所有常住机构单位或产业部门一定时期内生产

的可供最终使用的产品和劳务的价值，包括全本生产活动的成果，是一个颇为全

面的经济指标。对国内生产总值的分析研究，可以充分体现出一个国家的综合实

力和竞争力。因此，运用计量经济学的研究方法具体分析国内生产总值和其他经

济指标的相关关系，对国民经济的发展态势，制定国家宏观经济政策，保持国民

经济平稳地发展具有重要的意义。

二、模型变量的选择

模型中的被解释变量为国内生产总值Y 。影响国内生产总值的因素比较多，

根据其影响因素的大小和资料的可比以及预测模型的要求等方面原因, 文章选

择以下指标作为模型的解释变量：固定资产投资总量(X1 ) 、财政支出总量(X2 )、

城乡居民储蓄存款年末余额(X3 )、进出口总额(X4 )、上一期国内生产总值(X5)、

职工工资总额(X6)。其中，固定资产投资的增长是国内生产总值增长的重要保障，

影响效果显著；财政支出是扩大内需的保证，有利于国内生产总值的增长；城乡

居民储蓄能够促进国内生产总值的增长，是扩大投资的重要因素，但是过多的储

蓄也会减缓经济的发展；进出口总额反映了一个国家或地区的经济实力；上期

国内生产总值是下期国内生产总值增长的基础；职工工资总额是国内生产总值规

模的表现。

三、数据选择

年 GDP(y) 固定资产投资总量（x1) 财政支出总量（x2) 城乡居民储蓄存款年末余额（x3)

进出口总额（x4) 上一期GDP （x5）职工工资总额（x6） 1991 21781.99 5595.5 3386.62 9241.6 7225.8 18667.82 3323.9 1992 26823.476 8080.1 3742.2 11758.4 9119.6 21781.5 3939.2 1993 35333.925 13073.3 4642.3 15203.5 11271 26923.48 4916.2 1994 48197.856 17042.1 5792.62 21518.8 20381.9 35333.92 6656.4 1995 60793.729 20019.27 6823.72 29662.3 23499.9 48197.86 8100

1996 71176.592 22913.5 7937.55 38520.84 24133.8 60793.73 9080

1997 78973.035 24941.12 9233.56 46279.8 26967.2 71176.59 9405.3 1998 84402.28 28406.18 10798.18 53407.47 26849.7 78973.03 9296.5 1999 89677.055 29854.72 13187.67 59621.8 29896.2 84402.28 9875.45 2000 99214.554. 32917.74 15886.5 64332.4 39273.2 89677.05 10656.19 2001 109655.17 37213.49 18902.58 73762.4 42183.6 99214.55 11830.85 2002 120332.69 43499.91 22053.15 86910.6 51378.2 109655.2 13161.07

2min t e

2003 135822.76 55566.62 24649.95 103617.3 70483.5 120332.7 14743.51 2004 159878.34 70477.45 28486.89 119555.5 95539.1 135822.8 16900.17 2005 183084.8 88773.61 33930.28 141051 116921.8 159878.3 19789.86

表1 模型样本观测数据资料来源于2006年《中国统计年鉴》

四、模型的建立

如下所示散点图：

图2

通过散点图可以发现，被解释变量Y与解释变量：X1、X2、X3、X4、X5、X6

之间大致存在线性相关关系。于是可以设该模型的理论方程：

Y =b0 +b1X1 +b2 X2 +b3 X3 +b4 X4+b5 X5 +b6X6+u (1)

五、模型的参数估计

对于理论模型运用OLS进行参数估计，结果如下：

图3

Y=-2415.668-0.23.43.x1+0.287070x2-0.091536x3+0.264022x4+0.653959x

5+3.823169x6 (2)

T=(-0.892040) (-0.656763) (0.570569) (-0.299800) (1.135115) (3.043956) (3.745742)