实验六多元线性回归和多重共线性
多元线性回归中多重共线问题的解决方法综述
多元线性回归中多重共线问题的解决方法综述摘 要在回归分析中,当自变量之间出现多重共线性现象时,常会严重影响到参数估计,扩大模型误差,并破坏模型的稳健性,因此消除多重共线性成为回归分析中参数估计的一个重要环节。
现在常用的解决多元线性回归中多重共线性的回归模型有岭回归(Ridge Regression )、主成分回归(Principal Component Regression 简记为PCR)和偏最小二乘回归(Partial Least Square Regression 简记为PLS)。
关键词:多重共线性;岭回归;主成分回归;偏最小二乘回归引言在多元线性回归分析中,变量的多重相关性会严重影响到参数估计,增大模型误差,并破坏模型的稳健性 由于多重共线性问题在实际应用中普遍存在,并且危害严重,因此设法消除多重性的不良影响无疑具有巨大的价值常用的解决多元线性回归中多重共线问题的回归模型主要有主成分回归岭回归以及偏最小二乘回归。
1、 多元线性回归模型1.1 回归模型的建立设Y 是一个可观测的随机变量,它受m 个非随机因素X 1,X 2,…,X p-1和随机因素ε的影响, 若有如下线性关系我们对变量进行了n 次观察,得到n 组观察数据(如下),对回归系数 进行估计一般要求n>P 。
于是回归关系可写为采用矩阵形式来表示0112211p p Y X X X ββββε--=+++++n i X X X Y p i i i i ,,1,,,,)1(2,1⋅⋅⋅=⋅⋅⋅-1011121211(1)12012122212(1)2011221(1)p p p p n n n p n p n Y X X X Y X X X Y X X X ββββεββββεββββε------=+++++⎧⎪=+++++⎪⎨⎪⎪=+++++⎩11121,(1)121222,(1)212,(1)111, 1 p p n n n n p n n pX X X Y X X X Y Y X Y X X X ---⨯⨯⎡⎤⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦)1(10,,,p -⋅⋅⋅βββY 称为观测向量,X 称为设计矩阵,ε称为误差向量,β称为回归参数。
多元线性回归中多重共线性的处理
假定名称 正态性 对扰动项 的假定 零均值 同方差 互独立 非随机 对自变量 X 的假定 对 X 与 的假定 不相关 不相关
假定条件
N 0, 2 且
Cov i , j 0
i j
解释是确定型变量 解释变量间不存在 线性相关关系
姓 班 学
名: 级: 号:
指导老师:
liuwenying 2011/1/12
中南大学数学院统计系
目录
多元线性回归中多重共线性的处理 ................................................................................................... 3 1. 引言 ........................................................................................................................................... 3 2. 多元线性回归 ........................................................................................................................... 3 2.1 2.2 2.3 多元线性回归分析的基本假定 ........................................................................................ 4 回归参数的最小二乘估计及其性质 ................................................................................ 4 上海市全社会固定投资影响因素分析 ............................................................................ 4
多元回归模型和多重共线性实验报告
《计量经济学》上机实验报告一题目:多元回归模型和多重共线性实验日期和时间:2013年4月18日班级:学号:姓名:实验室:实验楼104实验环境:Windows XP ; EViews 3.1实验目的:利用相关数据建立多元回归模型,分析在不同的经济条件下一定的要素对某个经济体发展的影响程度并建立一定的关系模型。
检验设定的模型是否存在多重共线性,分析产生多重共线性的原因及作用因素,并对存在多重共线性的模型进行必要的修正。
实验内容:1、中国进出口额Y、国内生产总值GDP、居民消费价格指数CPI,根据提供的模型估计参数,判断多重共线性是否存在,表述多重共线性的性质。
2、检验能源消费需求总量Y的影响因素,选取国民总收入X1、国内生产总值X2、工业增加值X3、建筑业增加值X4、交通运输邮电业增加值X5、人均生活电力消费X6和能源加工转换效率X7七个变量,模拟回归,检验修正多重共线性。
3、为什么会产生“农业的发展反而会减少财政收入”的异常结果,如何解决这种异常。
实验步骤:一、中国进出口额Y、国内生产总值GDP、居民消费价格指数CPI(一)建立多元回归模型,估计参数在命令窗口依次键入以下命令:1、建立工作文件:CREATE A 1985 20072:输入统计资料:DATA Y GDP CPI3、生成变量:GENR LNY=LOG(Y)GENR LNGDP=LOG(GDP)GENR LNCPI=LOG(CPI)4、建立回归模型:LS LNY C LNGDP LNCPI得出回归结果为:由此可见,该模型的参数形式为:LNŶt=-3.06+1.66LNGDP t-1.06LNCPI t,其中该模型R2=0.9922,R2=0.9914可决系数很高,F检验值1275.093,明显显著,且T检验的临界概率均非常小,回归效果较好。
(二)检验多重共线性利用简单相关系数法进行检验,输入命令COR LNY LNGDP LNCPI,得到相关系数矩阵:由相关系数矩阵可以看出,各解释变量相互之间的相关系数均很高,说明数据中存在严重的多重共线性。
计量经济学多元线性回归多重共线性异方差实验报告
计量经济学实验报告多元线性回归、多重共线性、异方差实验报告一、研究目的和要求:随着经济的发展,人们生活水平的提高,旅游业已经成为中国社会新的经济增长点。
旅游产业是一个关联性很强的综合产业,一次完整的旅游活动包括吃、住、行、游、购、娱六大要素,旅游产业的发展可以直接或者间接推动第三产业、第二产业和第一产业的发展。
尤其是假日旅游,有力刺激了居民消费而拉动内需。
2012年,我国全年国内旅游人数达到亿人次,同比增长%,国内旅游收入万亿元,同比增长%。
旅游业的发展不仅对增加就业和扩大内需起到重要的推动作用,优化产业结构,而且可以增加国家外汇收入,促进国际收支平衡,加强国家、地区间的文化交流。
为了研究影响旅游景区收入增长的主要原因,分析旅游收入增长规律,需要建立计量经济模型。
影响旅游业发展的因素很多,但据分析主要因素可能有国内和国际两个方面,因此在进行旅游景区收入分析模型设定时,引入城镇居民可支配收入和旅游外汇收入为解释变量。
旅游业很大程度上受其产业本身的发展水平和从业人数影响,固定资产和从业人数体现了旅游产业发展规模的内在影响因素,因此引入旅游景区固定资产和旅游业从业人数作为解释变量。
因此选取我国31个省市地区的旅游业相关数据进行定量分析我国旅游业发展的影响因素。
二、模型设定根据以上的分析,建立以下模型Y=β0+β1X1+β2X2+β3X3+β4X4+Ut参数说明:Y ——旅游景区营业收入/万元X1——旅游业从业人员/人X2——旅游景区固定资产/万元X3——旅游外汇收入/万美元X4——城镇居民可支配收入/元收集到的数据如下(见表):表 2011年全国旅游景区营业收入及相关数据(按地区分)数据来源:1.中国统计年鉴2012,2.中国旅游年鉴2012。
三、参数估计利用做多元线性回归分析步骤如下:1、创建工作文件双击图标,进入其主页。
在主菜单中依次点击“File\New\Workfile”,出现对话框“Workfile Range”。
多重共线性回归分析及其实验报告
实验报告实验题目:多重共线性的研究指导老师:学生一:学生二:实验时间:2011年10月多重线性回归分析及其实验报告实验目的:为了更好地了解财政收入构成,需要定量地分析影响财政收入的因素模型设定及其估计:经分析,影响财政收入的主要因素,农业增加值X1,工业增加值X2,建筑业增加值X3,总人口X4,受灾面积X5.为此设定了如下形式的计量经济模型:Y=β1+β2X1+β3X2+β4X3+β5X4+β6X5+u0其中,Y为财政收入(元),X1农业增加值(元),X2为工业增加值(元),X3为建筑业增加值(元),X4为总人口(万人),X5为受灾面积(千公顷)为估计模型参数,收集1978~2007年财政收入及其影响因素数据,如图:1978~2007年财政收入及其影响因素数据年份财政收入CS/亿元农业增加值NZ/亿元工业增加值GZ/亿元建筑业增加值JZZ/亿元总人口TPOP/万人受灾面积SZM/千公顷1978 1132.3 1027.5 1607 138.2 96259 50790 1979 1146.6 1270.2 1769.7 143.8 97542 39370 1980 1159.9 1371.4 1996.5 195.5 98705 44526 1981 1175.8 1559.5 2048.5 207.1 100072 39790 1982 1212.3 1777.4 2162.3 220.7 101654 33130 1983 1367 1978.5 2375.8 270.6 103008 34710 1984 1642.5 2316.1 2789 316.7 104357 31890 1985 2004.6 2564.3 3448.5 417.9 105851 44365 1986 2122 2788.7 3987.5 525.7 107507 47170 1987 2199.4 3233 4565.9 665.8 109300 42090 1988 2357.6 3865.4 5062 810 111026 50870 1989 2664.5 5062 8087.3 794 112704 46991 1990 2937.4 5342.3 10284.5 859.4 114333 384741991 3149.48 5866.8 14188 1015.1 115823 55472 1992 3483.48 6963.6 19480.5 1415 117171 51333 1993 4348.95 9572.7 19480.4 2266.5 118517 48829 1994 5218.1 12315.7 24950.7 2964.7 119850 55043 1995 6242.2 14015.8 29447.6 3728.8 121121 45821 1996 7407.99 14441.8 32921.4 4387.4 122389 46898 1997 8615.14 14917.6 34018.4 4985.8 123626 53429 1998 9875.95 14944.5 40036 5172.1 124761 59145 1999 11444.08 15871.8 43580.6 5522.3 125786 49981 2000 13395.23 16537 47431.6 5913.7 126743 54688 2001 16386.04 17381.8 54945.5 6465.5 127627 52215 2002 18903.64 21412.7 65210 7490.8 128453 47119 2003 21715.25 22420 76912.6 8694.3 129227 54506 2004 26396.47 21224 87632.4 8967.8 129988 37106 2005 31649.29 22420 89834.5 10133.8 130756 38818 2006 38760.2 24040.9 91310.9 11851.1 131448 41091 2007 51321.45 28095 107367.2 14014.1 132129 48992利用Eviews软件,生成Y、X1、X2、X3、X4、X5等数据,采用这些数据进行OLS回归,结果如下Dependent Variable: YMethod: Least SquaresDate: 10/24/11 Time: 22:49Sample: 1978 2007Included observations: 30Variable Coefficient Std. Error t-Statistic Prob.C -6734.394 11259.37 -0.598115 0.5554X1 -1.678611 0.328371 -5.111937 0.0000X2 0.071078 0.081171 0.875666 0.3899X3 5.699199 0.745591 7.643870 0.0000X4 0.101481 0.114244 0.888277 0.3832X5 -0.010922 0.057578 -0.189691 0.8511R-squared 0.983660 Mean dependent var 10047.83Adjusted R-squared 0.980255 S.D. dependent var 12585.61S.E. of regression 1768.473 Akaike info criterion 17.97048Sum squared resid 75059958 Schwarz criterion 18.25072Log likelihood -263.5572 F-statistic 288.9512Durbin-Watson stat 0.898668 Prob(F-statistic) 0.000000由此可见,该模型R2=0.983660,R2=0.980255可决系数很高,F检验值为288.9512,明显显著。
实验报告6-多重共线性
2014-2015学年第 一 学期实 验 报 告实验课程名称 多重共线性的检验与修正专 业 班 级 金融1204学生 学号 31205382学 生 姓 名 黄聪聪实验指导教师 董美双编号:实验名称多重共线性检验与修正指导老师董美双成绩专业金融班级金融1204 姓名黄聪聪学号 31205382一、实验目的目的:通过实验,理解并掌握多重共线性的原理,熟悉掌握对多元模型的多重共线性问题进行检验和修正的方法与步骤。
要求:熟练掌握检验多重共线性检验的不显著系数法、系数符号判断法、相关系数矩阵法、拟合优度法、Frisch综合分析法;消除多重共线性:可以综合应用各种方法。
验证性部分用教材中的例题7.6的数据,按步骤做。
或者自己收集数据按上面的步骤做一遍,把结果输出到word文档中。
步骤: 1.模型的参数估计(至少有3个解释变量);2.检验是否存在多重共线性;方法一:不显著系数法;方法二:系数符号法方法三:相关系数矩阵法方法四:Frish综合分析法——逐步回归法3.多重共线性的修正:差分法、取对数法、逐步回归法等。
4.得出修正后的模型。
1.模型的参数估计(至少有3个解释变量)Dependent Variable: BUSTRAVLMethod: Least SquaresDate: 07/26/14 Time: 10:09Sample: 1 40C 2744.680 2641.672 1.038994 0.3064FARE -238.6544 451.7281 -0.528314 0.6008 GASPRICE 522.1132 2658.228 0.196414 0.8455 INC -0.194744 0.064887 -3.001294 0.0051POP 1.711442 0.231364 7.397176 0.0000 DENSITY 0.116415 0.059570 1.954253 0.0592R-squared 0.921026 Mean dependent var 1933.175 Adjusted R-squared 0.906667 S.D. dependent var 2431.757 S.E. of regression 742.9113 Akaike info criterion 16.21666 Sum squared resid 18213267 Schwarz criterion 16.51221 Log likelihood -317.3332 F-statistic 64.14338估计方程为:LANDAREA DENSITYPOPINC GASPRICEFARE SBU16.112.071.119.011.52265.23868.2744ˆ-++-+-=2.检验是否存在多重共线性方法一:不显著系数法Dependent Variable: BUSTRAVLMethod: Least SquaresDate: 07/26/14 Time: 10:09Sample: 1 40C 2744.680 2641.672 1.038994 0.3064FARE -238.6544 451.7281 -0.528314 0.6008GASPRICE 522.1132 2658.228 0.196414 0.8455INC -0.194744 0.064887 -3.001294 0.0051POP 1.711442 0.231364 7.397176 0.0000DENSITY 0.116415 0.059570 1.954253 0.0592LANDAREA -1.155230 1.802638 -0.640855 0.5260R-squared 0.921026 Mean dependent var 1933.175Adjusted R-squared 0.906667 S.D. dependent var 2431.757S.E. of regression 742.9113 Akaike info criterion 16.21666Sum squared resid 18213267 Schwarz criterion 16.51221Log likelihood -317.3332 F-statistic 64.14338Durbin-Watson stat 2.082671 Prob(F-statistic) 0.000000由表格可知,样本整体拟合优度达到92.1%,意味着模型解释变量整理能够解释因变量的92.1%,即说服力相对较强。
多元线性回归——多重共线性
不可区分)
0 ˆ β = ▲ 从OLS估计式看:可以证明此时 2 0
2)参数估计值的方差无限大
OLS估计式的方差成为无穷大: Var( ˆ ) 2
16
2、不完全多重共线性产生的后果
1 ˆ X X 0则 (X X) X Y
ˆ仍满足线性,无偏性和 最小方差性。
2 1 ˆ) 而 X X 0,Var Cov( ( X X)
二、 多重共线性产生的后果
基本内容: ●完全多重共线性产生的后果 ●不完全多重共线性产生的后果
14
1、完全多重共线性产生的后果
X X 0即 X X 不存在
1 1 ˆ 而 (X X) X Y ˆ无法估计 导致
15
1)参数的估计值不确定
当解释变量完全线性相关时 ——OLS 估计式不确定 ▲ 从偏回归系数意义看:在 X 2 和 X 3完全共线性时,无法保 持 X 3 不变,去单独考虑 X 2 对Y 的影响( X 2 和 X 3 的影响
建筑业增加值JZZ
总人口TPOP 最终消费CUM 受灾面积SZM
-1.527089
0.151160 0.101514 -0.036836
1.206242
0.033759 0.105329 0.018460
-1.265989
4.477646 0.963783 -1.995382
0.2208
0.0003 0.3473 0.0605
截距项
R-squared Adjusted R-squared S.E. of regression Sum squared resid
-11793.34
0.995015 0.993441 481.5380 4405699.
多元线性回归实验报告
实验题目:多元线性回归、异方差、多重共线性实验目的:掌握多元线性回归的最小二乘法,熟练运用Eviews软件的多元线性回归、异方差、多重共线性的操作,并能够对结果进行相应的分析。
实验内容:习题3.2,分析1994-2011年中国的出口货物总额(Y)、工业增加值(X2)、人民币汇率(X3),之间的相关性和差异性,并修正。
实验步骤:1.建立出口货物总额计量经济模型:(3.1)1.1建立工作文件并录入数据,得到图1图1在“workfile"中按住”ctrl"键,点击“Y、X2、X3”,在双击菜单中点“open group”,出现数据表。
点”view/graph/line/ok”,形成线性图2。
图21.2对(3.1)采用OLS估计参数在主界面命令框栏中输入ls y c x2 x3,然后回车,即可得到参数的估计结果,如图3所示。
图 3根据图3中的数据,得到模型(3.1)的估计结果为(8638.216)(0.012799)(9.776181)t=(-2.110573) (10.58454) (1.928512)F=522.0976从上回归结果可以看出,拟合优度很高,整体效果的F检验通过。
但当=0.05时,= 2.131.有重要变量X3的t检验不显著,可能存在严重的多重共线性。
2.多重共线性模型的识别2.1计算解释变量x2、x3的简单相关系数矩阵。
点击Eviews主画面的顶部的Quick/Group Statistics/Correlatios弹出对话框在对话框中输入解释变量x2、x3,点击OK,即可得出相关系数矩阵(同图4)。
相关系数矩阵图4由图4相关系数矩阵可以看出,各解释变量相互之间的相关系数较高,证实解释变量之间存在多重共线性。
2.2多重共线性模型的修正将各变量进行对数变换,在对以下模型进行估计。
利用eviews软件,对、X2、X3分别取对数,分别生成lnY、lnX2、lnX3的数据,采用OLS方法估计模型参数,得到回归结果,如图:图5图6模型估计结果为:ln=-20.52+1.5642lnX2+1.7607lnX3(5.4325) (0.0890) (0.6821)t =-3.778 17.578 2.581F=539.736该模型可决系数很高,F检验值,明显显著。
实验六多元线性回归和多重共线性
实验六多元线性回归和多重共线性姓名:何健华 学号:201330110203 班级:13金融数学2班一 实验目的:掌握多元线性回归模型的估计方法、掌握多重共线性模型的识别和修正。
二 实验要求:应用教材P140例子4.3.1案例做多元线性回归模型,并识别和修正多重共线性。
三 实验原理:普通最小二乘法、简单相关系数检验法、综合判断法、逐步回归法。
四 预备知识:最小二乘法估计的原理、t 检验、F 检验、R 2值。
五 实验步骤:有关的研究分析表明,影响国内旅游市场收入的主要因素,除了国内旅游人数和旅游支出外,还可能与基础设施有关。
因此考虑影响国内旅游收入Y (单位为亿元)的以下几个因素:国内旅游人数X1、城镇居民人均旅游支出X2(单位为元)、农村居民人均旅游支出X3(单位为元)、并以公路里程X4(单位为万公里)和铁路里程X5(单位为万公里)作为相关设施的代表,根据这些变量建立如下的计量经济模型:01122334455y x x x x x ββββββμ=++++++为了估计上述模型,从《中国统计年鉴》收集到1994年到2003年的有关统计数据。
Year Y X1 X2 X3 X4 X51994 1023.5 52400 414.7 54.9 111.78 5.91995 1375.7 62900 464 61.5 115.7 5.971996 1638.4 63900 534.1 70.5 118.58 6.491997 2112.7 64400 599.8 145.7 122.64 6.61998 2391.2 69450 607 197 127.85 6.641999 2831.9 71900 614.8 249.5 135.17 6.742000 3175.5 74400 678.6 226.6 140.27 6.872001 3522.4 78400 708.3 212.7 169.8 7.012002 3878.4 87800 739.7 209.1 176.52 7.192003 3442.3 87000 684.9 200 180.98 7.31、 请用普通最小二乘方法估计模型参数;2、 检验模型是否存在多重共线性,如果存在共线性,试采用适当的方法消除共线性。
多元线性回归分析与多重共线性检1
多元线性回归分析与多重共线性检验一、多元线性回归分析多元线性回归模型,即存在多个解释变量,一般形式如下:j β被称为偏回归系数,表示在其他解释变量保持不变的情况下,j X 每变化1个单位时,Y 的均值)(Y E 的变化量;或者说,j β给出了j X 的单位变化对Y 均值的“直接”或“净”(不含其他变量)影响。
这里往往将其他解释变量视作“控制变量”,即控制了其他变量之后,来分析j X 对Y 均值的影响。
(1)假设1,解释变量是非随机的或固定的,且各X 之间互不相关(无多重共线性);(2)假设2,随机误差项具有零均值、同方差及不序列相关性; (3)解释变量与随机项不相关; (4)随机项满足正态分布。
注意点:(1)同样采用最小二乘法;(2)样本数量不能太少;30≥n 或)1(3+≥k n(3)统计检验:拟合优度检验(一般用调整后的2R ) 参数显著性检验(t 检验) 方程显著性检验(F 检验) (4)运用AIC 和SC 的值来判断变量的取舍iki k i i i X X X Y μββββ++⋅⋅⋅+++=22110AIC 、SC 越小越好。
(5)参数的稳定性检验(Chow 检验) 例题示范:江苏省服务业发展趋势的分析被解释变量:服务业增加值占地区生产总值的比重service ; 分析影响服务业发展的主要因素:(选择并确定解释变量) (1)经济发展水平(人均GDP ,PGDP ):产业经济学中关于产业结构的一般规律指出,随着经济发展水平的提高,产业结构将从第一产业向第二产业、再向第三产业(服务业)发展(经济学中的“克拉克法则”);(2)其他因素:对外开放水平(trade )、城市化(city )、消费率(consume )。
这些因素属于一个区域经济发展特征的描述性因素。
其中:对外开放水平以外贸依存度指标衡量。
GDP进出口总额外贸依存度=城市化即城镇居民人口占全部人口的比重; 消费率是GDP 中最终消费的比率。
计量经济学试验完整版--李子奈
计量经济学试验完整版--李子奈计量经济学试验??李子奈目录实验一一元线性回归5一实验目的 5二实验要求 5三实验原理 5四预备知识 5五实验内容 5六实验步骤 51.建立工作文件并录入数据 52.数据的描述性统计和图形统计: 73.设定模型,用最小二乘法估计参数: 84.模型检验: 85.应用:回归预测: 9实验二可化为线性的非线性回归模型估计、受约束回归检验及参数稳定性检验12一实验目的: 12二实验要求12三实验原理12四预备知识12五实验内容12六实验步骤13实验三多元线性回归14一实验目的14三实验原理15四预备知识15五实验内容15六实验步骤156.1 建立工作文件并录入全部数据 15 6.2 建立二元线性回归模型156.3 结果的分析与检验166.4 参数的置信区间166.5 回归预测176.6 置信区间的预测18实验四异方差性20一实验目的20二实验要求20三实验原理20四预备知识20五实验内容20六实验步骤206.1 建立对象: 206.2 用普通最小二乘法建立线性模型216.3 检验模型的异方差性216.4 异方差性的修正24实验五自相关性28一实验目地28二实验要求28三实验原理28四预备知识28五实验内容28六实验步骤286.1 建立Workfile和对象 296.2 参数估计、检验模型的自相关性296.3 使用广义最小二乘法估计模型 336.4 采用差分形式作为新数据,估计模型并检验相关性35 实验六多元线性回归和多重共线性37一实验目的37二实验要求37三实验原理37四预备知识37五实验内容37六实验步骤376.1 建立工作文件并录入数据386.2 用OLS估计模型386.3 多重共线性模型的识别386.4 多重共线性模型的修正39实验七分布滞后模型与自回归模型及格兰杰因果关系检验 41 一实验目的41二实验要求41三实验原理41四预备知识41五实验内容41六实验步骤426.1 建立工作文件并录入数据426.2 使用4期滞后2次多项式估计模型426.3 格兰杰因果关系检验45实验八联立方程计量经济学模型49一实验目的49二实验要求49三实验原理49四预备知识49五实验内容49六实验步骤506.1 分析联立方程模型。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验六多元线性回归和多重共线性姓名:何健华 学号:201330110203 班级:13金融数学2班一 实验目的:掌握多元线性回归模型的估计方法、掌握多重共线性模型的识别和修正。
二 实验要求:应用教材P140例子4.3.1案例做多元线性回归模型,并识别和修正多重共线性。
三 实验原理:普通最小二乘法、简单相关系数检验法、综合判断法、逐步回归法。
四 预备知识:最小二乘法估计的原理、t 检验、F 检验、R 2值。
五 实验步骤:有关的研究分析表明,影响国内旅游市场收入的主要因素,除了国内旅游人数和旅游支出外,还可能与基础设施有关。
因此考虑影响国内旅游收入Y (单位为亿元)的以下几个因素:国内旅游人数X1、城镇居民人均旅游支出X2(单位为元)、农村居民人均旅游支出X3(单位为元)、并以公路里程X4(单位为万公里)和铁路里程X5(单位为万公里)作为相关设施的代表,根据这些变量建立如下的计量经济模型:01122334455y x x x x x ββββββμ=++++++为了估计上述模型,从《中国统计年鉴》收集到1994年到2003年的有关统计数据。
Year Y X1 X2 X3 X4 X51994 1023.5 52400 414.7 54.9 111.78 5.91995 1375.7 62900 464 61.5 115.7 5.971996 1638.4 63900 534.1 70.5 118.58 6.491997 2112.7 64400 599.8 145.7 122.64 6.61998 2391.2 69450 607 197 127.85 6.641999 2831.9 71900 614.8 249.5 135.17 6.742000 3175.5 74400 678.6 226.6 140.27 6.872001 3522.4 78400 708.3 212.7 169.8 7.012002 3878.4 87800 739.7 209.1 176.52 7.192003 3442.3 87000 684.9 200 180.98 7.31、 请用普通最小二乘方法估计模型参数;2、 检验模型是否存在多重共线性,如果存在共线性,试采用适当的方法消除共线性。
1. 用普通最小二乘方法估计模型参数1.1设定并估计多元线性回归模型01122334455y x x x x x ββββββμ=++++++ ------- (1-1)1.2建立工作工作文件并录入数据,得到图1.1。
图1.1点击主界面菜单Quick\Estimate Equation ,在弹出的对话框中输入Y C X1 X2 X3 X4 X5,点击确定即可得到回归结果图1.2。
图1.2由图1.2数据结果,可得到模型(1-1)的估计结果为12345274.37730.013088 5.438193 3.27177312.98624563.1077y x x x x x =-++++- (-0.208384) (1.031172) (3.939591) (3.465073) (3.108296) (-1.752685) ()220.995406,0.989664,.. 2.311565,173.3525,5,4R R DW F df ===== 其中,括号内的数为相应的t 检验值。
从以上回归结果可以看出,拟合优度很高,整体效果的F 检验通过,但有重要变量X1、X5的t 检验不显著,而且符合的经济意义也不合理,故认为解释变量之间存在多重共线性。
2.检验模型是否存在多重共线性,如果存在共线性,试采用适当的方法消除共线性。
2.1多重共线性模型的识别2.1.1综合判断法由模型(1-1)的估计结果可以看出,220.995406,0.989664R R ==,可决系数很高,说明模型对样本的拟合很好;173.3525F =检验值很大,相应的0.00092p =,说明回归方程显著,即各自变量联合起来确实对因变量“国内旅游收入”有显著影响;给定显著性水平0.05,α=但变量X1、X5系数的t 统计量分别为1.031172、-1.752685,相应的p 值分别为0.8451、0.1545,说明变量X1、X5对因变量影响不显著,而且符号的经济意义也不合理。
综合上述分析,表明模型(1-1)存在严重的多重共线性。
2.1.2简单相关系数检验法计算解释变量X1、X2、X3、X4、X5的简单相关系数矩阵。
将解释变量X1、X2、X3、X4、X5选中,双击Open Group (或点击右键,选择Open\as Group ),然后再点击View\Covariance analysis\仅勾选Correlation ,点击OK 即可得出相关系数矩阵(图2.1.1)。
再点击顶部的Freeze 按钮,可以得到一个Table 类型独立的Object (图2.1.2)。
图2.1.1图2.1.2由图2.1.1相关系数矩阵可以看出,各解释变量之间的相关系数较高,特别是X2和X5之间的高度相关,证实解释变量之间存在多重共线性。
根据综合判别法与简单相关系数法分析的结果可以知道,回归变量间确实存在多重共线性。
注意,多重共线性是一个程度问题而不是存在与否的问题。
下面我们将采用逐步回归法来减少共线性的严重程度而不是彻底地消除它。
2.2多重共线性模型的修正这里仅用向前逐步回归法,来减少共线性的严重程度。
第一步:运用OLS方法分别求Y对各解释变量X1、X2、X3、X4、X5进行一元回归。
五个方程的回归结果详见图2.2.1——图2.2.5,再结合经济意义和统计检验选出拟合效果好的一元线性回归方程。
图2.2.1 图2.2.2图2.2.3 图2.2.4图2.2.5通过一元回归结果图2.2.1——2.2.5进行对比分析,依据调整可决系数2R最大原则,选择X2作为进入回归模型的第一个解释变量,形成一元回归模型。
第二步:逐步回归。
将剩余解释变量分别加入模型,得到分别如图2.2.6——图2.2.9所示的二元回归结果。
图2.2.6 图2.2.7图2.2.8 图2.2.9通过观察比较图2.2.6——图2.2.9所示结果,并根据逐步回归的思想,我们可以看到,新加入变量X4的二元回归方程971751.02=R 最大,并且各参数的检验显著,参数符号也符合经济意义,因此,保留变量X4。
第三步:在保留变量X2、X4的基础上,继续进行逐步回归,分别得到图2.2.10——2.2.12所示的回归结果。
图2.2.10 图2.2.11图2.2.12结果分析:观察图 2.2.11,我们可以看到,在X2、X4的基础上加入X3后的方程987168.02=R 明显增大,F 统计量也很大,说明模型对样本的拟合很好并且回归方程显著;同时各解释变量的系数所对应的t 值较大,相应的p<0.05,说明各解释变量对因变量的影响显著,并且参数的符号也符合经济意义,只是DW 值落入了无法判断的区域,但由LM 检验知仍不存在一阶自相关性。
因此,根据逐步回归的思想,模型应保留自变量X2、X3、X4。
进行拉格朗日乘数检验(LM 检验):在图6.14中,点击:View\Residual Diagnostics\Serial Correlation LM Test …,在弹出对话框中输入:1,点击OK ,得到图2.2.11.2所示结果。
图2.2.11.2由图 2.2.11.2中数据得到123212.02=nR 其所对应的伴随概率为7256.0=P 说明在5%的显著性水平下不存在1阶序列相关性。
但通过图2.2.10,我们可以看到,在X2、X4基础上加入X1后,方程的修正拟合优度971751.0957998.02<=R ,度略有提下降,但变量X1系数的t 值很小,相应的p 值大于显著性水平0.05,没有通过显著性检验,说明自变量X1对因变量的影响不显著;同样,由图2.2.12可知,加入X5后拟合优度虽有所提高,但X5参数的t 值很小,相应的p 值远大于显著性水平0.05,说明X5对因变量的影响不显著。
因此,根据逐步回归的思想,说明X1、 X5的出现引起严重的多重共线性。
第四步:在保留变量X2、X3、X4的基础上,继续进行逐步回归,分别得到如图2.2.13、图2.2.14所示的回归结果。
图2.2.13 图2.2.14类似第三步的结果分析,由图2.2.13,我们可以看到,在X2、X3、X4的基础上加入X1后2R 略有降低,而且X1参数的t 检验变得不显著。
由图2.2.14,我们可以看到,在X2、X3、X4的基础上加入X5后2R 略有改进,但X5参数的t 检验变得不显著,而且参数符号不符合经济意义。
这说明X1、 X5引起多重共线性,应当予以剔除。
因此,本案例最后应保留的变量是X2、X3、X4,相应的回归结果为:43262909.13221965.3215884.4161.2441x x x y +++-=(-8.246086) (3.944983) (3.06767) (4.692961) 991445.02=R 987168.02=R 7935.231=F 952587.1..=W D由综合判断法知,上述回归结果基本上消除了多重共线性。
此题存在的问题是样本容量过小,其可靠性受到影响,如果增大样本容量,效果将会好一些。
对《计量经济学》的感想与建议:经过快一个学期对计量经济学的学习,我收获了很多,也懂得了很多。
最初接触计量经济学时,一点头绪也没有,随着学习的深入,联系其他学科如统计学,数学,经济学等学,以及对一些软件的应用,我对计量经济学有了更深刻的认识。
计量经济学是一门涉及很多学科的科学,但并不晦涩难懂,相反运用它可以分析很多经济现象,而这些经济现象就在我们身边。
比如计量经济学可以分析学校数量与经济发展的关系,私家车拥有量与国民收入的关系。
这种神奇的经济分析方法有助于我们更好的了解一些现象并进行预测。
学习计量经济学给我印象和帮助最大的就是对Eviews 软件的熟练操作与应用,Eviews 软件是属于那种有价无市的软件,如果没有老师的传授我不可能从市场上或是从思想上认识到它;虽然这个课堂已经让人向往了,但是美中不足的地方也还有。
我的建议就是在以后的讲课中间更多的是要着手分析案例,给大家的运用指点一下;应该分组进行实验汇报,让大家在聆听与汇报中发现自己的不足,并加以学习进步。