实验六多元线性回归和多重共线性

合集下载

计量经济学多元线性回归、多重共线性、异方差实验报告(推荐文档)

计量经济学多元线性回归、多重共线性、异方差实验报告(推荐文档)

计量经济学实验报告多元线性回归、多重共线性、异方差实验报告、研究目的和要求:随着经济的发展,人们生活水平的提高,旅游业已经成为中国社会新的经济增长点。

旅游产业是一个关联性很强的综合产业,一次完整的旅游活动包括吃、住、行、游、购、娱六大要素,旅游产业的发展可以直接或者间接推动第三产业、第二产业和第一产业的发展。

尤其是假日旅游,有力刺激了居民消费而拉动内需。

2012年,我国全年国内旅游人数达到30.0亿人次,同比增长13.6%,国内旅游收入2.3万亿元,同比增长19.1%。

旅游业的发展不仅对增加就业和扩大内需起到重要的推动作用,优化产业结构,而且可以增加国家外汇收入,促进国际收支平衡,加强国家、地区间的文化交流。

为了研究影响旅游景区收入增长的主要原因,分析旅游收入增长规律,需要建立计量经济模型。

影响旅游业发展的因素很多,但据分析主要因素可能有国内和国际两个方面,因此在进行旅游景区收入分析模型设定时,引入城镇居民可支配收入和旅游外汇收入为解释变量。

旅游业很大程度上受其产业本身的发展水平和从业人数影响,固定资产和从业人数体现了旅游产业发展规模的内在影响因素,因此引入旅游景区固定资产和旅游业从业人数作为解释变量。

因此选取我国31个省市地区的旅游业相关数据进行定量分析我国旅游业发展的影响因素。

二、模型设定根据以上的分析,建立以下模型57丫=仇+ B1X 1+ 伍X 2+ B 3X 3+ 34 X 4 +Ut参数说明:旅游景区营业收入/万元X 1 旅游业从业人员/人 X 2 旅游景区固定资产/万元 X 3 旅游外汇收入/万美元 X 4城镇居民可支配收入/元收集到的数据如下(见表 2.1):表2.1 2011年全国旅游景区营业收入及相关数据(按地区分) 地区 北 京 天 津 河 北 山 西内蒙 古辽 丿jA吉营业收入145249.0148712.3182226.8729465.0 70313.0 25665.3 20389.3 从业人 数1454 66 247879645771 3626 64812906 固定资产694252.393529.67 420342.7121809.7206819.146573.27 87827.16外汇收入可支配 收入5416017555 447655671967097 2713138528 32903. 0326920. 8618292. 2318123. 8720407.20466. 8417796.林0 6 57 黑龙38367.8 3034 137426.215696.91762江 1 1 7 18 上194762. 9110 563007.4 57511 36230. 海 3 6 4 8 48 江316051. 1401 1195000. 56529 26340. 苏65 54 60 7 73 浙385976. 1324 1110975. 45417 30970. 江92 59 20 3 68 安79562.7 5584 139769.0 11791 18606. 徽 5 0 2 8 13 福155378. 8030 151897.6 36344 24907. 建95 3 9 4 40 江54961.6 4179 17494.85528.05 41500西 6 1 87 山116995. 1430 327733.2 25507 22791. 东67 26 9 6 84 河222108. 7016 482005.3 18194.54903南33 4 2 80 湖104565. 6276 243794.618373.94018北58 7 2 87 湖118180. 806110143 18844.257226.7南87 5 4 05 广476345. 2265 1160675. 13906 26897. 东50 39 4 19 48 广66195.5 4987 143982.0 10518 18854. 西 5 6 3 8 06 海29081.6 3075 18368.70386.55 37615南0 9 95 重86713.6 5016 230124.0 96806 20249.庆7 0 0 70 四218624. 7075 464763.5 17899.59383川03 6 2 12 贵42214.1 2768 16495.62415.21 13507州 4 3 01 云135897. 6267 348426.0 16086 18575. 南97 9 4 1 62 西30406.7 462971.0 16195.6023 12963藏 3 3 56 陕48692.1 5707 154529.1 12950 18245. 西7 7 9 5 23 —30949.0 3128 14988.56684.68 1740肃0 0 68 青15603.1 -J 638.43 8741 9851.28 2659海31 /宁49509.8 1219 17578.23149.90 620夏 6 6 92 新28993.1 4045 15513.52280.36 46519疆 1 1 62 数据来源:1.中国统计年鉴2012,2.中国旅游年鉴2012。

多元线性回归中多重共线问题的解决方法综述

多元线性回归中多重共线问题的解决方法综述

多元线性回归中多重共线问题的解决方法综述摘 要在回归分析中,当自变量之间出现多重共线性现象时,常会严重影响到参数估计,扩大模型误差,并破坏模型的稳健性,因此消除多重共线性成为回归分析中参数估计的一个重要环节。

现在常用的解决多元线性回归中多重共线性的回归模型有岭回归(Ridge Regression )、主成分回归(Principal Component Regression 简记为PCR)和偏最小二乘回归(Partial Least Square Regression 简记为PLS)。

关键词:多重共线性;岭回归;主成分回归;偏最小二乘回归引言在多元线性回归分析中,变量的多重相关性会严重影响到参数估计,增大模型误差,并破坏模型的稳健性 由于多重共线性问题在实际应用中普遍存在,并且危害严重,因此设法消除多重性的不良影响无疑具有巨大的价值常用的解决多元线性回归中多重共线问题的回归模型主要有主成分回归岭回归以及偏最小二乘回归。

1、 多元线性回归模型1.1 回归模型的建立设Y 是一个可观测的随机变量,它受m 个非随机因素X 1,X 2,…,X p-1和随机因素ε的影响, 若有如下线性关系我们对变量进行了n 次观察,得到n 组观察数据(如下),对回归系数 进行估计一般要求n>P 。

于是回归关系可写为采用矩阵形式来表示0112211p p Y X X X ββββε--=+++++n i X X X Y p i i i i ,,1,,,,)1(2,1⋅⋅⋅=⋅⋅⋅-1011121211(1)12012122212(1)2011221(1)p p p p n n n p n p n Y X X X Y X X X Y X X X ββββεββββεββββε------=+++++⎧⎪=+++++⎪⎨⎪⎪=+++++⎩11121,(1)121222,(1)212,(1)111, 1 p p n n n n p n n pX X X Y X X X Y Y X Y X X X ---⨯⨯⎡⎤⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦)1(10,,,p -⋅⋅⋅βββY 称为观测向量,X 称为设计矩阵,ε称为误差向量,β称为回归参数。

多元线性回归中多重共线性的处理

多元线性回归中多重共线性的处理
表格 1 多元线性回归基本假定
假定名称 正态性 对扰动项 的假定 零均值 同方差 互独立 非随机 对自变量 X 的假定 对 X 与 的假定 不相关 不相关
假定条件

N 0, 2 且
Cov i , j 0
i j
解释是确定型变量 解释变量间不存在 线性相关关系
姓 班 学
名: 级: 号:
指导老师:
liuwenying 2011/1/12
中南大学数学院统计系
目录
多元线性回归中多重共线性的处理 ................................................................................................... 3 1. 引言 ........................................................................................................................................... 3 2. 多元线性回归 ........................................................................................................................... 3 2.1 2.2 2.3 多元线性回归分析的基本假定 ........................................................................................ 4 回归参数的最小二乘估计及其性质 ................................................................................ 4 上海市全社会固定投资影响因素分析 ............................................................................ 4

多元回归模型和多重共线性实验报告

多元回归模型和多重共线性实验报告

《计量经济学》上机实验报告一题目:多元回归模型和多重共线性实验日期和时间:2013年4月18日班级:学号:姓名:实验室:实验楼104实验环境:Windows XP ; EViews 3.1实验目的:利用相关数据建立多元回归模型,分析在不同的经济条件下一定的要素对某个经济体发展的影响程度并建立一定的关系模型。

检验设定的模型是否存在多重共线性,分析产生多重共线性的原因及作用因素,并对存在多重共线性的模型进行必要的修正。

实验内容:1、中国进出口额Y、国内生产总值GDP、居民消费价格指数CPI,根据提供的模型估计参数,判断多重共线性是否存在,表述多重共线性的性质。

2、检验能源消费需求总量Y的影响因素,选取国民总收入X1、国内生产总值X2、工业增加值X3、建筑业增加值X4、交通运输邮电业增加值X5、人均生活电力消费X6和能源加工转换效率X7七个变量,模拟回归,检验修正多重共线性。

3、为什么会产生“农业的发展反而会减少财政收入”的异常结果,如何解决这种异常。

实验步骤:一、中国进出口额Y、国内生产总值GDP、居民消费价格指数CPI(一)建立多元回归模型,估计参数在命令窗口依次键入以下命令:1、建立工作文件:CREATE A 1985 20072:输入统计资料:DATA Y GDP CPI3、生成变量:GENR LNY=LOG(Y)GENR LNGDP=LOG(GDP)GENR LNCPI=LOG(CPI)4、建立回归模型:LS LNY C LNGDP LNCPI得出回归结果为:由此可见,该模型的参数形式为:LNŶt=-3.06+1.66LNGDP t-1.06LNCPI t,其中该模型R2=0.9922,R2=0.9914可决系数很高,F检验值1275.093,明显显著,且T检验的临界概率均非常小,回归效果较好。

(二)检验多重共线性利用简单相关系数法进行检验,输入命令COR LNY LNGDP LNCPI,得到相关系数矩阵:由相关系数矩阵可以看出,各解释变量相互之间的相关系数均很高,说明数据中存在严重的多重共线性。

多元回归公式多重共线性变量选择的计算方法

多元回归公式多重共线性变量选择的计算方法

多元回归公式多重共线性变量选择的计算方法多元回归分析是一种常用的统计分析方法,用于研究多个自变量对因变量的影响关系。

然而,在多元回归分析中,可能会存在多个自变量之间的共线性问题,即自变量之间存在较高的线性相关性。

共线性会导致回归系数估计不准确,难以解释自变量的独立作用。

因此,选择合适的变量和解决多重共线性问题是进行多元回归分析的重要步骤。

为了解决多重共线性问题,研究者可以借助各种方法进行变量选择。

下面将介绍几种常用的计算方法。

1. 方差膨胀因子(VIF)法方差膨胀因子是用于判断多重共线性的常用指标。

它反映了每个自变量与其他自变量的线性关系程度。

计算VIF的方法是,对于第i个自变量,回归模型中除了自己以外的其他自变量作为解释变量进行回归分析,计算对应的R^2值。

然后,使用VIF=1/(1-R^2)计算方差膨胀因子。

通常,如果某个自变量的VIF值大于10,就表明存在高度共线性。

2. 特征值法特征值法是基于自变量矩阵的特征值和特征向量进行计算的方法。

首先,计算自变量矩阵的相关系数矩阵,然后对该矩阵进行特征值分解。

根据特征值的大小,可以判断出存在共线性的自变量。

如果某个特征值远大于其他特征值,就表明对应的自变量存在共线性。

3. 逐步回归法逐步回归法是一种逐步选择自变量的方法。

该方法分为前向选择和后向删除两个阶段。

在前向选择阶段,逐步添加自变量,每次选择与残差最相关的自变量加入模型。

在后向删除阶段,逐步删除对残差影响最小的自变量,直到模型中的自变量都显著。

4. 岭回归法岭回归法是一种通过加入正则化项来解决多重共线性问题的方法。

它通过控制正则化参数的大小,提高对共线性的抵抗能力。

岭回归法的核心是对回归系数进行缩减,使其趋近于零。

使用岭回归可以有效剔除共线性变量,得到更稳定的回归结果。

综上所述,多元回归公式多重共线性变量选择的计算方法有方差膨胀因子法、特征值法、逐步回归法和岭回归法等。

每种方法都有其特点和适用范围,研究者可以根据具体问题选择合适的方法进行变量选择,以获得可靠的回归结果。

计量经济学实验六 多重共线性

计量经济学实验六 多重共线性

计量经济学实验报告学院:信管学院专业:实验编号:实验六实验题目:多重共线性姓名:学号:指导老师:实验六多重共线性【实验目的】掌握多重共线性的检验及处理方法【实验内容】建立并检验我国钢材产量预测模型【实验步骤】数据来源:国家统计局→国家统计年鉴2012数据(/tjsj/ndsj/2012/indexch.htm)→1、工业(各地区工业产品产量Y/X1/X2)2、固定资产投资(全社会固定资产投资X3)3、国民经济核算(国内生产总值X4)4、运输和邮电(货运量X5)【例1】表1是1995-2011年我国钢材产量(万吨)、生铁产量(万吨)、发电量(亿千瓦时)、固定资产投资(亿元)、国内生产总值(亿元)、铁路运输量(万吨)的统计资料。

一、检验多重共线性⒈相关系数检验利用相关系数可以分析解释变量之间的两两相关情况。

在Eviews软件中可以直接计算相关系数矩阵。

本例中,在Eviews软件命令窗口中键入:COR Y X1 X2 X3 X4 X5或在包含所有解释变量的数组窗口中点击View\Correlations,其结果如图1所示。

由相关系数矩阵可以看出,解释变量之间的相关系数均为0.95以上,即解释变量之间时高度相关的。

图1 解释变量相关系数矩阵⒉辅助回归方程检验当解释变量多余两个且变量之间呈现出较复杂的相关关系时,可以通过建立辅助回归模型来检验多重共线性。

本例中,在Eviews软件命令窗口中键入:LS X1 C X2 X3 X4 X5LS X2 C X1 X3 X4 X5LS X3 C X1 X2 X4 X5LS X4 C X1 X2 X3 X5LS X5 C X1 X2 X3 X4对应的回归结果如图2-6所示。

图2图3图4图5图6上述每个回归方程的F检验值都非常显著,方程回归系数的T检验值表明:X1与X5、X2与X3、X3与X5、X4与X5、X5与X1、X3、X4的T检验值较小,这些变量之间可能不相关或相关程度较小。

实验报告6-多重共线性

实验报告6-多重共线性

2014-2015学年第 一 学期实 验 报 告实验课程名称 多重共线性的检验与修正专 业 班 级 金融1204学生 学号 31205382学 生 姓 名 黄聪聪实验指导教师 董美双编号:实验名称多重共线性检验与修正指导老师董美双成绩专业金融班级金融1204 姓名黄聪聪学号 31205382一、实验目的目的:通过实验,理解并掌握多重共线性的原理,熟悉掌握对多元模型的多重共线性问题进行检验和修正的方法与步骤。

要求:熟练掌握检验多重共线性检验的不显著系数法、系数符号判断法、相关系数矩阵法、拟合优度法、Frisch综合分析法;消除多重共线性:可以综合应用各种方法。

验证性部分用教材中的例题7.6的数据,按步骤做。

或者自己收集数据按上面的步骤做一遍,把结果输出到word文档中。

步骤: 1.模型的参数估计(至少有3个解释变量);2.检验是否存在多重共线性;方法一:不显著系数法;方法二:系数符号法方法三:相关系数矩阵法方法四:Frish综合分析法——逐步回归法3.多重共线性的修正:差分法、取对数法、逐步回归法等。

4.得出修正后的模型。

1.模型的参数估计(至少有3个解释变量)Dependent Variable: BUSTRAVLMethod: Least SquaresDate: 07/26/14 Time: 10:09Sample: 1 40C 2744.680 2641.672 1.038994 0.3064FARE -238.6544 451.7281 -0.528314 0.6008 GASPRICE 522.1132 2658.228 0.196414 0.8455 INC -0.194744 0.064887 -3.001294 0.0051POP 1.711442 0.231364 7.397176 0.0000 DENSITY 0.116415 0.059570 1.954253 0.0592R-squared 0.921026 Mean dependent var 1933.175 Adjusted R-squared 0.906667 S.D. dependent var 2431.757 S.E. of regression 742.9113 Akaike info criterion 16.21666 Sum squared resid 18213267 Schwarz criterion 16.51221 Log likelihood -317.3332 F-statistic 64.14338估计方程为:LANDAREA DENSITYPOPINC GASPRICEFARE SBU16.112.071.119.011.52265.23868.2744ˆ-++-+-=2.检验是否存在多重共线性方法一:不显著系数法Dependent Variable: BUSTRAVLMethod: Least SquaresDate: 07/26/14 Time: 10:09Sample: 1 40C 2744.680 2641.672 1.038994 0.3064FARE -238.6544 451.7281 -0.528314 0.6008GASPRICE 522.1132 2658.228 0.196414 0.8455INC -0.194744 0.064887 -3.001294 0.0051POP 1.711442 0.231364 7.397176 0.0000DENSITY 0.116415 0.059570 1.954253 0.0592LANDAREA -1.155230 1.802638 -0.640855 0.5260R-squared 0.921026 Mean dependent var 1933.175Adjusted R-squared 0.906667 S.D. dependent var 2431.757S.E. of regression 742.9113 Akaike info criterion 16.21666Sum squared resid 18213267 Schwarz criterion 16.51221Log likelihood -317.3332 F-statistic 64.14338Durbin-Watson stat 2.082671 Prob(F-statistic) 0.000000由表格可知,样本整体拟合优度达到92.1%,意味着模型解释变量整理能够解释因变量的92.1%,即说服力相对较强。

多元线性回归——多重共线性

多元线性回归——多重共线性

不可区分)
0 ˆ β = ▲ 从OLS估计式看:可以证明此时 2 0
2)参数估计值的方差无限大
OLS估计式的方差成为无穷大: Var( ˆ ) 2
16
2、不完全多重共线性产生的后果
1 ˆ X X 0则 (X X) X Y
ˆ仍满足线性,无偏性和 最小方差性。
2 1 ˆ) 而 X X 0,Var Cov( ( X X)
二、 多重共线性产生的后果
基本内容: ●完全多重共线性产生的后果 ●不完全多重共线性产生的后果
14
1、完全多重共线性产生的后果
X X 0即 X X 不存在
1 1 ˆ 而 (X X) X Y ˆ无法估计 导致
15
1)参数的估计值不确定
当解释变量完全线性相关时 ——OLS 估计式不确定 ▲ 从偏回归系数意义看:在 X 2 和 X 3完全共线性时,无法保 持 X 3 不变,去单独考虑 X 2 对Y 的影响( X 2 和 X 3 的影响
建筑业增加值JZZ
总人口TPOP 最终消费CUM 受灾面积SZM
-1.527089
0.151160 0.101514 -0.036836
1.206242
0.033759 0.105329 0.018460
-1.265989
4.477646 0.963783 -1.995382
0.2208
0.0003 0.3473 0.0605
截距项
R-squared Adjusted R-squared S.E. of regression Sum squared resid
-11793.34
0.995015 0.993441 481.5380 4405699.

多元线性回归实验报告

多元线性回归实验报告

实验题目:多元线性回归、异方差、多重共线性实验目的:掌握多元线性回归的最小二乘法,熟练运用Eviews软件的多元线性回归、异方差、多重共线性的操作,并能够对结果进行相应的分析。

实验内容:习题3.2,分析1994-2011年中国的出口货物总额(Y)、工业增加值(X2)、人民币汇率(X3),之间的相关性和差异性,并修正。

实验步骤:1.建立出口货物总额计量经济模型:(3.1)1.1建立工作文件并录入数据,得到图1图1在“workfile"中按住”ctrl"键,点击“Y、X2、X3”,在双击菜单中点“open group”,出现数据表。

点”view/graph/line/ok”,形成线性图2。

图21.2对(3.1)采用OLS估计参数在主界面命令框栏中输入ls y c x2 x3,然后回车,即可得到参数的估计结果,如图3所示。

图 3根据图3中的数据,得到模型(3.1)的估计结果为(8638.216)(0.012799)(9.776181)t=(-2.110573) (10.58454) (1.928512)F=522.0976从上回归结果可以看出,拟合优度很高,整体效果的F检验通过。

但当=0.05时,= 2.131.有重要变量X3的t检验不显著,可能存在严重的多重共线性。

2.多重共线性模型的识别2.1计算解释变量x2、x3的简单相关系数矩阵。

点击Eviews主画面的顶部的Quick/Group Statistics/Correlatios弹出对话框在对话框中输入解释变量x2、x3,点击OK,即可得出相关系数矩阵(同图4)。

相关系数矩阵图4由图4相关系数矩阵可以看出,各解释变量相互之间的相关系数较高,证实解释变量之间存在多重共线性。

2.2多重共线性模型的修正将各变量进行对数变换,在对以下模型进行估计。

利用eviews软件,对、X2、X3分别取对数,分别生成lnY、lnX2、lnX3的数据,采用OLS方法估计模型参数,得到回归结果,如图:图5图6模型估计结果为:ln=-20.52+1.5642lnX2+1.7607lnX3(5.4325) (0.0890) (0.6821)t =-3.778 17.578 2.581F=539.736该模型可决系数很高,F检验值,明显显著。

多元线性回归分析与多重共线性检1

多元线性回归分析与多重共线性检1

多元线性回归分析与多重共线性检验一、多元线性回归分析多元线性回归模型,即存在多个解释变量,一般形式如下:j β被称为偏回归系数,表示在其他解释变量保持不变的情况下,j X 每变化1个单位时,Y 的均值)(Y E 的变化量;或者说,j β给出了j X 的单位变化对Y 均值的“直接”或“净”(不含其他变量)影响。

这里往往将其他解释变量视作“控制变量”,即控制了其他变量之后,来分析j X 对Y 均值的影响。

(1)假设1,解释变量是非随机的或固定的,且各X 之间互不相关(无多重共线性);(2)假设2,随机误差项具有零均值、同方差及不序列相关性; (3)解释变量与随机项不相关; (4)随机项满足正态分布。

注意点:(1)同样采用最小二乘法;(2)样本数量不能太少;30≥n 或)1(3+≥k n(3)统计检验:拟合优度检验(一般用调整后的2R ) 参数显著性检验(t 检验) 方程显著性检验(F 检验) (4)运用AIC 和SC 的值来判断变量的取舍iki k i i i X X X Y μββββ++⋅⋅⋅+++=22110AIC 、SC 越小越好。

(5)参数的稳定性检验(Chow 检验) 例题示范:江苏省服务业发展趋势的分析被解释变量:服务业增加值占地区生产总值的比重service ; 分析影响服务业发展的主要因素:(选择并确定解释变量) (1)经济发展水平(人均GDP ,PGDP ):产业经济学中关于产业结构的一般规律指出,随着经济发展水平的提高,产业结构将从第一产业向第二产业、再向第三产业(服务业)发展(经济学中的“克拉克法则”);(2)其他因素:对外开放水平(trade )、城市化(city )、消费率(consume )。

这些因素属于一个区域经济发展特征的描述性因素。

其中:对外开放水平以外贸依存度指标衡量。

GDP进出口总额外贸依存度=城市化即城镇居民人口占全部人口的比重; 消费率是GDP 中最终消费的比率。

多元线性回归中多重共线性的研究

多元线性回归中多重共线性的研究

多元线性回归中多重共线性的研究□赵玉新【内容摘要】在实际应用中,消除多重共线性对线性回归分析中的参数估计以及模型影响,主要是采用成分回归、岭回归以及对偏最小二乘回归这三种解决方法,本文将针对这三种研究方法对多重共线性的影响进行深入分析,在已有的文献研究基础之上,对三种方法的理论以及性质进行整理和扩充,结合相应的实际情况,探究这三种研究方法的优劣,提高多元线性回归中多重共线性研究的深入以及实际应用价值。

【关键词】多元线性回归;多重共线性;对偏最小二乘回归【作者简介】赵玉新,女,辽宁人;北京信息职业技术学院讲师,硕士;研究方向:计算机软件与理论近年来不少学者都在积极探索解决多元线性回归中的多重共线性研究,对三种解决方法进行深入探讨,针对每种解决方法的优劣以及实际应用效果进行深入分析,探讨每种解决方法的实际应用情景,从而提高多元线性回归的统计分析有效性以及预测准确性。

三种方法的适用对象以及使用机理,本文研究的中心,其目的是为了提高实际问题中多元线性回归的分析效果,降低多重共线性对分析结果及预测结果的影响,明确这些解决方法的实用情景以及模型预测分析是多元线性回归应用继续解决的问题。

一、多元线性回归中多重共线性的研究意义多重共线性问题是多元线性回归中自变量由于线性关系或者是近似线性关系,导致变量的显著性更加隐蔽,不利于察觉,所以增加了强参数估计的方差,导致模型的构建更加复杂、不稳定,不利于多元线性回归分析。

若是多元线性回归中多重共线性存在于自变量系统之中,依旧是采用最小二乘拟合回归系数,就会降低模型的精确度以及可靠性,原因如下:一是当自变量完全相关时,最小二乘回归系数难以估计;二是自变量之间若是存在不完全共线线性,虽然回归系数可以估计但是估计方差会与自变量共线性成正比例关系;三是高度相关条件下,回归系数的估计值会与样本数据的微小变化的波动性大,导致回归系数估计值稳定性下降;四是所示多重共线性影响较为严重,则回归系数统计检验就难以顺利进行;五是当自变量高度相关下,最小二乘法得到的回归模型中的回归系数难以解释物理含义,所以导致回归系数的取值价值下降,严重会导致回归系数符号与实际情况相反;六是回归模型基于样本,多重线性也是抽样数据所以建立的回归模型若是用于预测,就难以保证预测期间数据不会受到多重共线问题影响,相对的共线性问题对预测结果虽然不会造成严重影响,但是预测结果却难以确定;七是多重共线一旦出现,回归系数就难以用一般解释方法进行解释。

计量经济学试验完整版--李子奈

计量经济学试验完整版--李子奈

计量经济学试验完整版--李子奈计量经济学试验??李子奈目录实验一一元线性回归5一实验目的 5二实验要求 5三实验原理 5四预备知识 5五实验内容 5六实验步骤 51.建立工作文件并录入数据 52.数据的描述性统计和图形统计: 73.设定模型,用最小二乘法估计参数: 84.模型检验: 85.应用:回归预测: 9实验二可化为线性的非线性回归模型估计、受约束回归检验及参数稳定性检验12一实验目的: 12二实验要求12三实验原理12四预备知识12五实验内容12六实验步骤13实验三多元线性回归14一实验目的14三实验原理15四预备知识15五实验内容15六实验步骤156.1 建立工作文件并录入全部数据 15 6.2 建立二元线性回归模型156.3 结果的分析与检验166.4 参数的置信区间166.5 回归预测176.6 置信区间的预测18实验四异方差性20一实验目的20二实验要求20三实验原理20四预备知识20五实验内容20六实验步骤206.1 建立对象: 206.2 用普通最小二乘法建立线性模型216.3 检验模型的异方差性216.4 异方差性的修正24实验五自相关性28一实验目地28二实验要求28三实验原理28四预备知识28五实验内容28六实验步骤286.1 建立Workfile和对象 296.2 参数估计、检验模型的自相关性296.3 使用广义最小二乘法估计模型 336.4 采用差分形式作为新数据,估计模型并检验相关性35 实验六多元线性回归和多重共线性37一实验目的37二实验要求37三实验原理37四预备知识37五实验内容37六实验步骤376.1 建立工作文件并录入数据386.2 用OLS估计模型386.3 多重共线性模型的识别386.4 多重共线性模型的修正39实验七分布滞后模型与自回归模型及格兰杰因果关系检验 41 一实验目的41二实验要求41三实验原理41四预备知识41五实验内容41六实验步骤426.1 建立工作文件并录入数据426.2 使用4期滞后2次多项式估计模型426.3 格兰杰因果关系检验45实验八联立方程计量经济学模型49一实验目的49二实验要求49三实验原理49四预备知识49五实验内容49六实验步骤506.1 分析联立方程模型。

解决多元线性回归中多重共线性问题的方法分析

解决多元线性回归中多重共线性问题的方法分析

解决多元线性回归中多重共线性问题的方法分析谢小韦,印凡成河海大学理学院,南京 (210098)E-mail :xiexiaowei@摘 要:为了解决多元线性回归中自变量之间的多重共线性问题,常用的有三种方法: 岭回归、主成分回归和偏最小二乘回归。

本文以考察职工平均货币工资为例,利用三种方法的SAS 程序进行了回归分析,根据分析结果总结出三种方法的优缺点,结果表明如果能够使用定性分析和定量分析结合的方法确定一个合适的k 值,则岭回归可以很好地消除共线性影响;主成分回归和偏最小二乘回归采用成份提取的方法进行回归建模,由于偏最小二乘回归考虑到与因变量的关系,因而比主成分回归更具优越性。

关键词:多重共线性;岭回归;主成分回归;偏最小二乘回归1. 引言现代化的工农业生产、社会经济生活、科学研究等各个领域中,经常要对数据进行分析、拟合及预测,多元线性回归是常用的方法之一。

多元线性回归是研究多个自变量与一个因变量间是否存在线性关系,并用多元线性回归方程来表达这种关系,或者定量地刻画一个因变量与多个自变量间的线性依存关系。

在对实际问题的回归分析中,分析人员为避免遗漏重要的系统特征往往倾向于较周到地选取有关指标,但这些指标之间常有高度相关的现象,这便是多变量系统中的多重共线性现象。

在多元线性回归分析中,这种变量的多重相关性常会严重影响参数估计,扩大模型误差,破坏模型的稳健性,从而导致整体的拟合度很大,但个体参数估计值的t 统计量却很小,并且无法通过检验。

由于它的危害十分严重,存在却又十分的普遍,因此就要设法消除多重线性的不良影响。

常用的解决多元线性回归中多重共线性问题的模型主要有主成分回归、岭回归以及偏最小二乘回归。

三种方法采用不同的方法进行回归建模,决定了它们会产生不同的效果。

本文以统计职工平均货币工资为例,考察一组存在共线性的数据,运用SAS 程序对三种回归进行建模分析,并对结果进行比较,总结出它们的优势与局限,从而更好地指导我们解决实际问题。

实验六多元线性回归和多重共线性

实验六多元线性回归和多重共线性

实验六多元线性回归和多重共线性姓名:何健华 学号:201330110203 班级:13金融数学2班一 实验目的:掌握多元线性回归模型的估计方法、掌握多重共线性模型的识别和修正。

二 实验要求:应用教材P140例子4.3.1案例做多元线性回归模型,并识别和修正多重共线性。

三 实验原理:普通最小二乘法、简单相关系数检验法、综合判断法、逐步回归法。

四 预备知识:最小二乘法估计的原理、t 检验、F 检验、R 2值。

五 实验步骤:有关的研究分析表明,影响国内旅游市场收入的主要因素,除了国内旅游人数和旅游支出外,还可能与基础设施有关。

因此考虑影响国内旅游收入Y (单位为亿元)的以下几个因素:国内旅游人数X1、城镇居民人均旅游支出X2(单位为元)、农村居民人均旅游支出X3(单位为元)、并以公路里程X4(单位为万公里)和铁路里程X5(单位为万公里)作为相关设施的代表,根据这些变量建立如下的计量经济模型:01122334455y x x x x x ββββββμ=++++++为了估计上述模型,从《中国统计年鉴》收集到1994年到2003年的有关统计数据。

Year Y X1 X2 X3 X4 X51994 1023.5 52400 414.7 54.9 111.78 5.91995 1375.7 62900 464 61.5 115.7 5.971996 1638.4 63900 534.1 70.5 118.58 6.491997 2112.7 64400 599.8 145.7 122.64 6.61998 2391.2 69450 607 197 127.85 6.641999 2831.9 71900 614.8 249.5 135.17 6.742000 3175.5 74400 678.6 226.6 140.27 6.872001 3522.4 78400 708.3 212.7 169.8 7.012002 3878.4 87800 739.7 209.1 176.52 7.192003 3442.3 87000 684.9 200 180.98 7.31、 请用普通最小二乘方法估计模型参数;2、 检验模型是否存在多重共线性,如果存在共线性,试采用适当的方法消除共线性。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

实验六多元线性回归和多重共线性
姓名:何健华 学号:201330110203 班级:13金融数学2班
一 实验目的:
掌握多元线性回归模型的估计方法、掌握多重共线性模型的识别和修正。

二 实验要求:
应用教材P140例子4.3.1案例做多元线性回归模型,并识别和修正多重共线性。

三 实验原理:
普通最小二乘法、简单相关系数检验法、综合判断法、逐步回归法。

四 预备知识:
最小二乘法估计的原理、t 检验、F 检验、R 2值。

五 实验步骤:
有关的研究分析表明,影响国内旅游市场收入的主要因素,除了国内旅游人数和旅游支出外,还可能与基础设施有关。

因此考虑影响国内旅游收入Y (单位为亿元)的以下几个因素:国内旅游人数X1、城镇居民人均旅游支出X2(单位为元)、农村居民人均旅游支出X3(单位为元)、并以公路里程X4(单位为万公里)和铁路里程X5(单位为万公里)作为相关设施的代表,根据这些变量建立如下的计量经济模型:
01122334455y x x x x x ββββββμ=++++++
为了估计上述模型,从《中国统计年鉴》收集到1994年到2003年的有关统计数据。

1、 请用普通最小二乘方法估计模型参数;
2、 检验模型是否存在多重共线性,如果存在共线性,试采用适当的方法消除共线性。

1. 用普通最小二乘方法估计模型参数
1.1设定并估计多元线性回归模型
01122334455y x x x x x ββββββμ=++++++ ------- (1-1)
1.2建立工作工作文件并录入数据,得到图1.1。

图1.1
点击主界面菜单Quick\Estimate Equation ,在弹出的对话框中输入Y C X1 X2 X3 X4 X5,点击确定即可得到回归结果图1.2。

图1.2
由图1.2数据结果,可得到模型(1-1)的估计结果为
12345274.37730.013088 5.438193 3.27177312.98624563.1077y x x x x x =-++++- (-0.208384) (1.031172) (3.939591) (3.465073) (3.108296) (-1.752685) ()220.995406,0.989664,.. 2.311565,173.3525,5,4R R DW F df ===== 其中,括号内的数为相应的t 检验值。

从以上回归结果可以看出,拟合优度很高,整体效果的F 检验通过,但有重要变量X1、X5的t 检验不显著,而且符合的经济意义也不合理,故认为解释变量之间存在多重共线性。

2.检验模型是否存在多重共线性,如果存在共线性,试采用适当的方法消除共线性。

2.1多重共线性模型的识别
2.1.1综合判断法
由模型(1-1)的估计结果可以看出,220.995406,0.989664R R ==,可决系数很高,说明模型对样本的拟合很好;173.3525F =检验值很大,相应的0.00092p =,说明回归方程显著,即各自变量联合起来确实对因变量“国内旅游收入”有显著影响;给定显著性水平0.05,α=但变量X1、X5系数的t 统计量分别为1.031172、-1.752685,相应的p 值分别为0.8451、0.1545,说明变量X1、X5对因变量影响不显著,而且符号的经济意义也不合理。

综合上述分析,表明模型(1-1)存在严重的多重共线性。

2.1.2简单相关系数检验法
计算解释变量X1、X2、X3、X4、X5的简单相关系数矩阵。

将解释变量X1、X2、X3、X4、X5选中,双击Open Group (或点击右键,选择Open\as Group ),然后再点击View\Covariance analysis\仅勾选Correlation ,点击OK 即可得出相关系数矩阵(图2.1.1)。

再点击顶部的Freeze 按钮,可以得到一个Table 类型独立的Object (图2.1.2)。

图2.1.1
图2.1.2
由图2.1.1相关系数矩阵可以看出,各解释变量之间的相关系数较高,特别是X2和X5之间的高度相关,证实解释变量之间存在多重共线性。

根据综合判别法与简单相关系数法分析的结果可以知道,回归变量间确实存在多重共线性。

注意,多重共线性是一个程度问题而不是存在与否的问题。

下面我们将采用逐步回归法来减少共线性的严重程度而不是彻底地消除它。

2.2多重共线性模型的修正
这里仅用向前逐步回归法,来减少共线性的严重程度。

第一步:运用OLS方法分别求Y对各解释变量X1、X2、X3、X4、X5进行一元回归。

五个方程的回归结果详见图2.2.1——图2.2.5,再结合经济意义和统计检验选出拟合效果好的一元线性回归方程。

图2.2.1 图2.2.2
图2.2.3 图2.2.4
图2.2.5
通过一元回归结果图2.2.1——2.2.5进行对比分析,依据调整可决系数2R
最大原则,选择X2作为进入回归模型的第一个解释变量,形成一元回归模型。

第二步:逐步回归。

将剩余解释变量分别加入模型,得到分别如图2.2.6——图2.2.9所示的二元回归结果。

图2.2.6 图2.2.7
图2.2.8 图2.2.9
通过观察比较图2.2.6——图2.2.9所示结果,并根据逐步回归的思想,我们可以看到,新加入变量X4的二元回归方程971751.02
=R 最大,并且各参数的检验显著,参数符号也符合经济意义,因此,保留变量X4。

第三步:在保留变量X2、X4的基础上,继续进行逐步回归,分别得到图2.2.10——2.2.12所示的回归结果。

图2.2.10 图2.2.11
图2.2.12
结果分析:
观察图 2.2.11,我们可以看到,在X2、X4的基础上加入X3后的方程987168.02
=R 明显增大,F 统计量也很大,说明模型对样本的拟合很好并且回归方程显著;同时各解释变量的系数所对应的t 值较大,相应的p<0.05,说明各解释变量对因变量的影响显著,并且参数的符号也符合经济意义,只是DW 值落入了无法判断的区域,但由LM 检验知仍不存在一阶自相关性。

因此,根据逐步回归的思想,模型应保留自变量X2、X3、X4。

进行拉格朗日乘数检验(LM 检验):
在图6.14中,点击:View\Residual Diagnostics\Serial Correlation LM Test …,在弹出对话框中输入:1,点击OK ,得到图2.2.11.2所示结果。

图2.2.11.2
由图 2.2.11.2中数据得到123212.02=nR 其所对应的伴随概率为7256.0=P 说明在5%的显著性水平下不存在1阶序列相关性。

但通过图2.2.10,我们可以看到,在X2、X4基础上加入X1后,方程的修正拟合优度971751.0957998.02
<=R ,度略有提下降,但变量X1系数的t 值很小,相应的p 值大于显著性水平0.05,没有通过显著性检验,说明自变量X1对因变量的影响不显著;
同样,由图2.2.12可知,加入X5后拟合优度虽有所提高,但X5参数的t 值很小,相应的p 值远大于显著性水平0.05,说明X5对因变量的影响不显著。

因此,根据逐步回归的思想,说明X1、 X5的出现引起严重的多重共线性。

第四步:在保留变量X2、X3、X4的基础上,继续进行逐步回归,分别得到如图2.2.13、图2.2.14所示的回归结果。

图2.2.13 图2.2.14
类似第三步的结果分析,由图2.2.13,我们可以看到,在X2、X3、X4的基础上加入X1后2R 略有降低,而且X1参数的t 检验变得不显著。

由图2.2.14,我们可以看到,在X2、X3、X4的基础上加入X5后2R 略有改进,但X5参数的t 检验变得不显著,而且参数符号不符合经济意义。

这说明X1、 X5引起多重共线性,应当予以剔除。

因此,本案例最后应保留的变量是X2、X3、X4,相应的回归结果为:
43262909.13221965.3215884.4161.2441x x x y +++-=
(-8.246086) (3.944983) (3.06767) (4.692961) 991445.02=R 987168.02=R 7935.231=F 952587.1..=W D
由综合判断法知,上述回归结果基本上消除了多重共线性。

此题存在的问题是样本容量过小,其可靠性受到影响,如果增大样本容量,效果将会好一些。

对《计量经济学》的感想与建议:
经过快一个学期对计量经济学的学习,我收获了很多,也懂得了很多。

最初接触计量经济学时,一点头绪也没有,随着学习的深入,联系其他学科如统计学,数学,经济学等学,以及对一些软件的应用,我对计量经济学有了更深刻的认识。

计量经济学是一门涉及很多学科的科学,但并不晦涩难懂,相反运用它可以分析很多经济现象,而这些经济现象就在我们身边。

比如计量经济学可以分析学校数量与经济发展的关系,私家车拥有量与国民收入的关系。

这种神奇的经济分析方法有助于我们更好的了解一些现象并进行预测。

学习计量经济学给我印象和帮助最大的就是对Eviews 软件的熟练操作与应用,Eviews 软件是属于那种有价无市的软件,如果没有老师的传授我不可能从市场上或是从思想上认识到它;
虽然这个课堂已经让人向往了,但是美中不足的地方也还有。

我的建议就是在以后的讲课中间更多的是要着手分析案例,给大家的运用指点一下;应该分组进行实验汇报,让大家在聆听与汇报中发现自己的不足,并加以学习进步。

相关文档
最新文档