3案例分析(多重共线性)
第五章 多重共线性的概念
σ2
恰为X1与X2的线性相关系数的平方r2 ∑x ∑x
2 1i 2 2i
(∑ x1i x 2i ) 2
由于 r2 ≤1,故 1/(1- r2 )≥1
完全不共线时, 当完全不共线 完全不共线
r2
=0
ˆ var( β 1 ) = σ 2 / ∑ x12i
1 σ2 ˆ ⋅ > var(β 1 ) = 2 2 x1i 1 − r x12i ∑ ∑
1.
检验多重共线性是否存在
(1)对两个解释变量的模型,采用简单相关系数法 (1)对两个解释变量的模型,采用简单相关系数法 对两个解释变量的模型 求出X1与X2的简单相关系数r,若|r|接近1,则 说明两变量存在较强的多重共线性。 (2)对多个解释变量的模型,采用综合统计检验法 (2)对多个解释变量的模型, 对多个解释变量的模型 若在OLS法下:R2与F值较大,但t检验值较小,说明 各解释变量对Y的联合线性作用显著,但各解释变量间存 在共线性而使得它们对Y的独立作用不能分辨,故t检验不 显著。即R2较大但t值显著的不多。另外判断参数估计值 的符号,如果不符合经济理论或实际情况,可能存在多重 共线性。
ˆ Y = 7.29 + 27.58X2 −15161.5X3
SE =(121.50) t =(0.06) ( ) (28.79) (0.958) ) (21.41) (- 7.06) )
R 2 = 0.946
我们发现: 值小。 我们发现:例1中X2、X3的 t 值小。且X3的系数符号 中 的系数符号 与经济意义不符和。原因? 与经济意义不符和。原因? 值大, 的系数符号与经济意义不符合。 例2中X3的 t 值大,但X3的系数符号与经济意义不符合。 原因? 原因?
回归分析中的多重共线性问题及解决方法(Ⅲ)
回归分析是统计学中常用的一种分析方法,它用于研究一个或多个自变量与一个因变量之间的关系。
然而,在进行回归分析时,经常会面临一个多重共线性的问题。
多重共线性是指在回归模型中,自变量之间存在高度相关性的情况。
当自变量之间存在多重共线性时,就会导致回归系数估计不准确,增加了回归模型的不稳定性。
这对于研究者来说是一个很大的困扰,因为他们很难判断自变量之间到底是有关系还是无关系,从而无法准确地分析自变量对因变量的影响。
多重共线性问题的存在会使得回归系数的估计值变得不稳定,回归系数的符号可能会与理论上相悖,使得回归模型的解释性大大降低。
同时,多重共线性还会增加回归系数的标准误差,导致对回归系数的假设检验结果不可信。
那么,如何解决多重共线性问题呢?首先,我们可以通过计算自变量之间的相关系数来判断是否存在多重共线性。
如果自变量之间的相关系数较高,就需要考虑采取一些措施来解决多重共线性问题。
一种解决方法是通过方差膨胀因子(VIF)来检验多重共线性。
VIF是用来判断自变量之间存在多重共线性的一个指标,通常VIF大于10就表示存在多重共线性。
其次,我们可以采取一些方法来解决多重共线性问题。
一种解决方法是通过主成分分析(PCA)来降维。
主成分分析是一种常用的降维方法,它可以将原始的自变量通过线性变换转换为一组新的主成分,从而减少自变量之间的相关性。
通过主成分分析,可以将原始的自变量转换为一组新的主成分,从而减少自变量之间的相关性,解决多重共线性问题。
另一种解决多重共线性问题的方法是通过岭回归(Ridge Regression)。
岭回归是一种常用的回归分析方法,它通过对回归系数进行惩罚,可以减少自变量之间的相关性,从而解决多重共线性问题。
通过岭回归,可以对自变量的回归系数进行缩减,从而减少多重共线性对回归系数估计的影响。
此外,我们还可以通过逐步回归法(Stepwise Regression)来解决多重共线性问题。
逐步回归法是一种常用的变量选择方法,它可以通过逐步添加或删除自变量来选择最优的回归模型。
多元线性回归模型案例(DOC)
多元线性回归模型案例分析——中国人口自然增长分析一·研究目的要求中国从1971年开始全面开展了计划生育,使中国总和生育率很快从1970年的5.8降到1980年2.24,接近世代更替水平。
此后,人口自然增长率(即人口的生育率)很大程度上与经济的发展等各方面的因素相联系,与经济生活息息相关,为了研究此后影响中国人口自然增长的主要原因,分析全国人口增长规律,与猜测中国未来的增长趋势,需要建立计量经济学模型。
影响中国人口自然增长率的因素有很多,但据分析主要因素可能有:(1)从宏观经济上看,经济整体增长是人口自然增长的基本源泉;(2)居民消费水平,它的高低可能会间接影响人口增长率。
(3)文化程度,由于教育年限的高低,相应会转变人的传统观念,可能会间接影响人口自然增长率(4)人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响。
二·模型设定为了全面反映中国“人口自然增长率”的全貌,选择人口增长率作为被解释变量,以反映中国人口的增长;选择“国名收入”及“人均GDP”作为经济整体增长的代表;选择“居民消费价格指数增长率”作为居民消费水平的代表。
暂不考虑文化程度及人口分布的影响。
从《中国统计年鉴》收集到以下数据(见表1):表1 中国人口增长率及相关数据设定的线性回归模型为:1222334t t t t t Y X X X u ββββ=++++三、估计参数利用EViews 估计模型的参数,方法是:1、建立工作文件:启动EViews ,点击File\New\Workfile ,在对话框“Workfile Range ”。
在“Workfile frequency ”中选择“Annual ” (年度),并在“Start date ”中输入开始时间“1988”,在“end date ”中输入最后时间“2005”,点击“ok ”,出现“Workfile UNTITLED ”工作框。
其中已有变量:“c ”—截距项 “resid ”—剩余项。
4.3多重共线性
5.模型的预测功能受到限制
变大的方差容易使区间预测的 “区间”变大,使区间预测可靠性降 低。 在解释变量之间的相关结构得以 保持的条件下,模型仍可用于预测。
综上所述
严重的多重共线性常常会导致下列情形出现: 使得用普通最小二乘法得到的回归参数估计值很 不稳定,回归系数的方差随着多重共线性强度的增加 而加速增长,对参数难以做出精确的估计;造成回归 方程高度显著的情况下,有些回归系数通不过显著性 检验;甚至可能出现回归系数的正负号得不到合理的 经济解释。 但是应注意,如果研究的目的仅在于预测被解释 变量Y,而各个解释变量X之间的多重共线性关系的性 质在未来将继续保持,这时虽然无法精确估计个别的 回归系数,但可估计这些系数的某些线性组合,因此 多重共线性可能并不是严重问题。
当不完全共线(近似共线)时,
ˆ ) = var( β 1
3.参数估计量经济含义不合理
,
如果模型中两个解释变量具有线性相关 性,例如X1 和X2 ,那么它们中的一个变量可以由 另一个变量近似表征。 这时,X1和X2前的参数估计并不反映各自与 被解释变量之间的结构关系,而是反映它们对被 解释变量的共同影响。 所以各自的参数估计可能已经失去了应有的 经济含义,于是经常表现出似乎反常的现象,例 如本来应该是正的,结果却是负的。(137)
0 < r2 <1
∑
σ
2
x 12i
•
1 > 1− r2
∑
σ
2
x 12i
βˆ = ( X ′X ) − 1 X ′Y
如果存在完全共线性,则(X’X) -1 不存在,无法得到参数唯一的估计量。 即:多重共线性使参数估计值的方差增大
2
4.变量的显著性检验可靠性差
第四章多重共线性实例
表 4.3.3 中国粮食生产与相关投入资料
农业化肥施 粮食播种面 受灾面积 农业机械总
用量 X 1
(万公斤)
积X 2
(千公顷)
X3
(公顷)
动力X 4
(万千瓦)
1659.8
114047 16209.3
18022
1739.8
112884 15264.0
19497
1775.8
108845 22705.3
20913
Yˆ 28259.19 2.240X5
(-1.04) (2.66) R2=0.3064 F=7.07 DW=0.36
• 可见,应选第1个式子为初始的回归模型。
4、逐步回归
将其他解释变量分别导入上述初始回归模型,寻 找最佳回归方程。
C
X1 X2 X3
X4
X5
R2
DW
Y=f(X1)
30868 4.23
0.8852 1.56
t值
25.58 11.49
Y=f(X1,X2)
-43871 4.65 0.67
0.9558 2.01
t值
-3.02 18.47 5.16
Y=f(X1,X2,X3)
-11978 5.26 0.41 -0.19
0.9752 1.53
t值
0.85
19.6 3.35 -3.57
Y=f(X1,X2,X3,X4) -13056 6.17 0.42 -0.17 -0.09
1930.6
110933 23656.0
22950
1999.3
111268 20392.7
24836
2141.5
110123 23944.7
多元线性回归模型案例分析报告
多元线性回归模型案例分析——中国人口自然增长分析一·研究目的要求中国从1971年开始全面开展了计划生育,使中国总和生育率很快从1970年的5.8降到1980年2.24,接近世代更替水平.此后,人口自然增长率<即人口的生育率>很大程度上与经济的发展等各方面的因素相联系,与经济生活息息相关,为了研究此后影响中国人口自然增长的主要原因,分析全国人口增长规律,与猜测中国未来的增长趋势,需要建立计量经济学模型.影响中国人口自然增长率的因素有很多,但据分析主要因素可能有:<1>从宏观经济上看,经济整体增长是人口自然增长的基本源泉;<2>居民消费水平,它的高低可能会间接影响人口增长率.〕3〔文化程度,由于教育年限的高低,相应会转变人的传统观念,可能会间接影响人口自然增长率<4>人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响.二·模型设定为了全面反映中国"人口自然增长率"的全貌,选择人口增长率作为被解释变量,以反映中国人口的增长;选择"国名收入"及"人均GDP"作为经济整体增长的代表;选择"居民消费价格指数增长率"作为居民消费水平的代表.暂不考虑文化程度及人口分布的影响.从《中国统计年鉴》收集到以下数据<见表1>:表1中国人口增长率及相关数据设定的线性回归模型为: 三、估计参数利用EViews 估计模型的参数,方法是:1、建立工作文件:启动EViews,点击File\New\Workfile,在对话框"Workfile Range".在"Workfile frequency"中选择"Annual" 〕年度〔,并在"Start date"中输入开始时间"1988",在"end date"中输入最后时间"2005",点击"ok",出现"Workfile UNTITLED"工作框.其中已有变量:"c"—截距项"resid"—剩余项.在"Objects"菜单中点击"New Objects",在"New Objects"对话框中选"Group",并在"Name for Objects"上定义文件名,点击"OK"出现数据编辑窗口.2、输入数据:点击"Quik"下拉菜单中的"Empty Group",出现"Group"窗口数据编辑框,点第一列与"obs"对应的格,在命令栏输入"Y",点下行键"↓",即将该序列命名为Y,并依此输入Y 的数据.用同年份 人口自然增长率<%.> 国民总收入<亿元> 居民消费价格指数增长率<CPI>% 人均GDP<元> 1988 15.73 15037 18.8 1366 1989 15.04 17001 18 1519 1990 14.39 18718 3.1 1644 1991 12.98 21826 3.4 1893 1992 11.6 26937 6.4 2311 1993 11.45 35260 14.7 2998 1994 11.21 48108 24.1 4044 1995 10.55 59811 17.1 5046 1996 10.42 70142 8.3 5846 1997 10.06 78061 2.8 6420 1998 9.14 83024 -0.8 6796 1999 8.18 88479 -1.4 7159 2000 7.58 98000 0.4 7858 2001 6.95 108068 0.7 8622 2002 6.45 119096 -0.8 9398 2003 6.01 135174 1.2 10542 2004 5.87 159587 3.9 12336 2005 5.89 184089 1.8 14040 20065.38 213132 1.5 16024样方法在对应的列命名X 2、X 3、X 4,并输入相应的数据.或者在EViews 命令框直接键入"data Y 2X X 3 X 4… ",回车出现"Group"窗口数据编辑框,在对应的Y 、X 2、X 3、X 4下输入响应的数据.3、估计参数:点击"Procs"下拉菜单中的"Make Equation",在出现的对话框的"Equation Specification"栏中键入"Y C X 2 X 3 X 4",在"Estimation Settings"栏中选择"Least Sqares"〕最小二乘法〔,点"ok",即出现回归结果: 表3.4根据表3.4中数据,模型估计的结果为:〕0.913842〔 〕0.000134〔 〕0.033919〔 〕0.001771〔t= 〕17.08010〔 〕2.482857〔 〕1.412721〔 〕-2.884953〔930526.02=R 915638.02=R F=62.50441四、模型检验1、经济意义检验模型估计结果说明,在假定其它变量不变的情况下,当年国民总收入每增长1亿元,人口增长率增长0.000332%;在假定其它变量不变的情况下,当年居民消费价格指数增长率每增长 1%,人口增长率增长0.047918%;在假定其它变量不变的情况下,当年人均GDP 没增加一元,人口增长率就会降低0.005109%.这与理论分析和经验判断相一致.2、统计检验<1>拟合优度:由表3.4中数据可以得到:930526.02=R ,修正的可决系数为915638.02=R,这说明模型对样本的拟合很好.<2>F 检验:针对0234:0H βββ===,给定显著性水平0.05α=,在F 分布表中查出自由度为k-1=3和n-k=14的临界值34.3)14,3(=αF .由表3.4中得到F=62.50441,由于F=62.50441 >(3,21) 3.075F α=,应拒绝原假设0234:0H βββ===,说明回归方程显著,即"国民总收入"、"居民消费价格指数增长率"、"人均GDP"等变量联合起来确实对"人口自然增长率"有显著影响.<3>t 检验:分别针对0H :0(1,2,3,4)j j β==,给定显著性水平0.05α=,查t 分布表得自由度为n-k=14临界值145.2)(2/=-k n t α.由表3.4中数据可得,与^1β、^2β、^3β、^4β对应的t 统计量分别为17.08010、2.482857、1.412721、-2.884953除^3β,其绝对值均大于145.2)(2/=-k n t α,这说明分别都应当拒绝0H :)4,2,1(0==j j β,也就是说,当在其它解释变量不变的情况下,解释变量"国民总收入"、"人均GDP"分别对被解释变量"人口自然增长率"Y 都有显著的影响.^3β的绝对值小于145.2)(2/=-k n t α,:这说明接受0H :03=β,X3系数对t 检验不显著,这表明很可能存在多重共线性.所以计算各解释变量的相关系数,选择X2、X3、X4数据,点"view/correlations"得相关系数矩阵<如表4.4>:表4.4由相关系数矩阵可以看出:各解释变量相互之间的相关系数较高,证实确实存在严重多重共线性. 五、消除多重共线性采用逐步回归的办法,去检验和解决多重共线性问题.分别作Y 对X2、X3、X4的一元回归,结果如表4.5所示:表4.5按2R 的大小排序为:X4、X2、X3以X2为基础,顺次加入其他变量逐步回归.首先加入X2回归结果为:t=〕2.542529〔 〕-2.970874〔 920622.02=R当取05.0=α时,131.2)318(025.0)(2/=-=-tt k n α,X2参数的t 检验显著,加入X3回归得t= 〕17.08010〔 〕2.482857〔〕1.412721〔 〕-2.884953〔930526.02=R 915638.02=R F=62.50441当取05.0=α时,145.2)418(2/=-αt ,X3参数的t 检验不显著,予以剔除即40005397.02000350.035540.16ˆX X Y -+=,这是最后消除多重共线性的结果.在假定其它变量不变的情况下,当年国民总收入每增长1亿元,人口增长率增长0.000332%;在假定其它变量不变的情况下,在假定其它变量不变的情况下,当年人均GDP 没增加一元,人口增长率就会降低0.005109%.金服131 王亚平13019122。
多重共线性案例
多重共线性案例:变量Y,X1,X2,X3,X4,X5的数据年Y X1X2X3X4X51974 98.45 560.2 153.20 6.53 1.23 1.891975 100.70 603.11 190.00 9.12 1.30 2.031976 102.80 668.05 240.30 8.10 1.80 2.711977 133.95 715.47 301.12 10.10 2.09 3.001978 140.13 724.27 361.00 10.93 2.39 3.291979 143.11 736.13 420.00 11.85 3.90 5.241980 146.15 748.91 491.76 12.28 5.13 6.831981 144.60 760.32 501.00 13.50 5.47 8.361982 148.94 774.92 529.20 15.29 6.09 10.071983 158.55 785.30 552.72 18.10 7.97 12.571984 169.68 795.50 771.16 19.61 10.18 15.121985 162.14 804.80 811.80 17.22 11.79 18.251986 170.09 814.94 988.43 18.60 11.54 20.591987 178.69 828.73 1094.65 23.53 11.68 23.37资料来源:《天津统计年鉴》1988.用1974-1987年数据建立天津市粮食需求模型如下,Y = -3.49 + 0.13 X1 + 0.07 X2 + 2.67 X3 + 3.44 X4– 4.49 X5(-0.11) (2.12) (1.95) (2.13) (1.41) (-2.03)R2 = 0.97, F = 52.59, T = 14, t0.05(8) = 2.31, (1974-1987)其中Y:粮食销售量(万吨/ 年),X1:市常住人口数(万人),X2:人均收入(元/ 年),X3:肉销售量(万吨/ 年),X4:蛋销售量(万吨/ 年),X5:鱼虾销售量(万吨/ 年)。
计量经济学 第3章 多重共线性
剔除P值大的自变量
和前面的回归结果比较,收入弹性增 大了,但是价格弹性的绝对值却下降 了。不过需要注意的是,简化了的模 型的系数估计是有偏的
程序(gretl)
• • • • • • • • • • • open E:\data\data31.xls setobs 1 1962 --time-series ly=log(y) lx1=log(x1) lx2=log(x2) lx3=log(x3) lx4=log(x4) model1 <- ols ly 0 lx1 lx2 lx3 lx4 corr lx1 lx2 lx3 lx4 vif model2 <- ols ly 0 lx1 lx2
程序(EViews)
• • • • • • • • • • • • wfopen E:\data\data31.xls @freq A 1962 genr ly=log(y) genr lx1=log(x1) genr lx2=log(x2) genr lx3=log(x3) genr lx4=log(x4) equation eq1.ls ly c lx1 lx2 lx3 lx4 freeze eq1.results cor lx1 lx2 lx3 lx4 eq1.varinf equation eq2.ls ly c lx1 lx2 freeze eq2.results
第3章 多重共线性
学习目标 案例简介 案例分析 问题探讨与思考 练习
学习目标
• 理解多重共线性定义及存在多重共线性所带来的影响 • 掌握如何辨别模型中是否存在多重共线性现象 • 能够对多重共线性加以处理
案例简介
通过对人均鸡肉消费量和人均实际可支配收入、鸡肉的实际零售价格、猪肉的实际零售价格 及牛肉的实际零售价格之间的关系进行分析,以验证鸡肉的需求价格弹性及相关的交叉弹性 等。
实验五__多重共线性检验参考案例共16页word资料
实验五 多重共线性检验实验时间: 姓名:学号: 成绩:【实验目的】1、掌握多元线性回归模型的估计、检验和预测;2、掌握多重共线性问题的检验方法3、掌握多重共线性问题的修正方法 【实验内容】1、数据的读取和编辑;2、多元回归模型的估计、检验、预测;3、多重共线性问题的检验4、多重共线性问题的修正 【实验背景】为了评价报账最低工资(负收入税)政策的可行性,兰德公司进行了一项研究,以评价劳动供给(平均工作小时数)对小时工资提高的反应,词研究中的数据取自6000户男户主收入低于15000美元的一个国民样本,这些数据分成39个人口组,并放在表1中,由于4个人口组中的某些变量确实,所以只给出了35个组的数据,用于分析的各个变量的定义如下:Y 表示该年度平均工作小时数;X1表示平均小时工资(美元);X2表示配偶平均收入(美元);X3表示其他家庭成员的平均收入(美元);X4表示年均非劳动收入(美元);X5表示平均家庭资产拥有量;X6表示被调查者的平均年龄;X7表示平均赡养人数;X8表示平均受教育年限。
μ为随机干扰项,考虑一下回归模型:μβββββββββ+++++++++=87654321876543210X X X X X X X X Y(1) 将该年度平均工作小时数Y 对X 进行回归,并对模型进行简单分析; (2) 计算各变量之间的相关系数矩阵,利用相关系数法分析变量间是否具有多重共线性;(3) 利用逐步回归方法检验并修正回归模型,最后再对模型进行经济意义检验、统计检验。
表5观测组Y X1 X2 X3 X4 X5 X6 X7 X81 2157 2.905 1121 291 380 7250 38.5 2.34 10.52 2174 2.97 1128 301 398 7744 39.3 2.335 10.53 2062 2.35 1214 326 185 3068 40.1 2.851 8.94 2111 2.511 1203 49 117 1632 22.4 1.159 11.55 2134 2.791 1013 594 730 12710 57.7 1.229 8.86 2185 3.04 1135 287 382 776 38.6 2.602 10.77 2210 3.222 1100 295 474 9338 39 2.187 1128 2105 2.495 1180 310 255 4730 39.9 2.616 9.39 2267 2.838 1298 252 431 8317 38.9 2.024 11.110 2205 2.356 885 264 373 6489 38.8 2.662 9.511 2121 2.922 1251 328 312 5907 39.8 2.287 10.312 2109 2.499 1207 347 271 5069 39.7 3.193 8.913 2108 2.796 1036 300 259 4614 38.2 2.4 9.214 2047 2.453 1213 397 139 1987 40.3 2.545 9.115 2174 3.582 1141 414 498 10239 40 2.064 11.716 2067 2.909 1805 290 239 4439 39.1 2.301 10.517 2159 2.511 1075 289 308 5621 39.3 2.486 9.518 2257 2.516 1093 176 392 7293 37.9 2.042 10.119 1985 1.423 553 381 146 1866 40.6 3.833 6.620 2184 3.636 1091 291 560 11240 39.1 2.328 11.621 2084 2.983 1327 331 296 5653 39.8 2.208 10.222 2051 2.573 1197 279 172 2806 40 2.362 9.123 2127 3.263 1226 314 408 8042 39.5 2.259 10.824 2102 3.234 1188 414 352 7557 39.8 2.019 10.725 2098 2.28 973 364 272 4400 40.6 2.661 8.426 2042 2.304 1085 328 140 1739 41.8 2.444 8.227 2181 2.912 1072 304 383 9340 39 2.337 10.228 2186 3.015 1122 30 352 7292 37.2 2.046 10.929 2188 3.01 990 366 374 7325 38.4 2.847 10.630 2077 1.901 350 209 95 1370 37.4 4.158 8.231 2196 3.009 947 294 342 6888 37.5 3.047 10.632 2093 1.899 342 311 120 1425 37.5 4.512 8.133 2173 2.959 1116 296 387 7625 39.2 2.342 10.534 2179 2.959 1116 296 387 7625 39.2 2.342 10.535 2200 2.98 1126 204 393 7885 39.2 2.341 10.6 【实验过程】一、利用Eviews软件建立年度平均工作小时数y的回归模型。
计量经济学 第七章 多重共线性
第七章 多重共线性“多重共线性”一词由R. Frisch 1934年提出,它原指模型的解释变量间存在线性关系。
7.1多重共线性及产生的原因 7.1.1.非多重共线性假定111211212221121111k k T T Tk x x xx xx X x x x ---=如果rk (X 'X ) = rk (X ) < k 或`0X X =称解释变量是完全共线性相关。
在实际经济问题中,完全多重共线性和完全无多重共线性两种极端情况都是极少的,大多数情况是解释变量存在不完全的多重共线性,或者近似的多重共线性,可一表示为:1122110k k x x x u λλλ--++++= 7.1.2.多重共线性的经济解释(1)经济变量在时间上有共同变化的趋势。
如在经济上升时期,收入、消费、就业率等都增长,当经济收缩期,收入、消费、就业率等又都下降。
当这些变量同时进入模型后就会带来多重共线性问题。
0.E+001.E+112.E+113.E+114.E+11808284868890929496980002GDPCONS0.E +001.E +112.E +113.E +114.E +110.0E +005.0E +101.0E +111.5E +112.0E +112.5E +11C O N SG D P o f H o n g K o n g(2)解释变量与其滞后变量同作解释变量。
滞后变量与原因变量在经济意义上没有本质区别,只是时间上的差异,原因变量与解释变量有相关关系,滞后变量也会有相关关系。
(见下图) (3)解释变量之间往往存在密切的关联度。
对同一经济现象的解释变量,往往存在密切的相关关系,如生产函数,资本大,需投入的劳动力也应趆多。
0.E+001.E+112.E+113.E+114.E+11GDP0.E+001.E+112.E+113.E+114.E+110.E+001.E+112.E+113.E+114.E+11GDP(-1)GDP7.2.多重共线性的后果(1) 当 `0X X =,X 为降秩矩阵,则 (X 'X ) -1不存在,βˆ= (X 'X )-1 X 'Y 不可计算。
《多重共线性》课件
诊断方法比较
检验统计量
检验统计量提供量化指标,可以 明确指出多重共线性的程度,但 其依赖于样本数据,稳定性相对
较差。
图形化诊断
图形化诊断直观易理解,但可能存 在主观性,并且难以量化多重共线 性的程度。
综合运用
在实际应用中,应综合运用多种方 法进行多重共线性的诊断,以确保 诊断结果的准确性和可靠性。
Condition Index
Condition Index是诊断多重共线性的另一种统计量,当某些Condition Index值特别 大时,可能存在多重共线性问题。
图形化诊断
散点图
通过绘制自变量间的散点图,可以直 观地观察到是否存在线性关系,从而 初步判断是否存在多重共线性问题。
相关系数矩阵
通过绘制相关系数矩阵,可以观察到 自变量间的相关系数,当某两个自变 量的相关系数接近1或-1时,可能存 在多重共线性问题。
多重共线性的影响
参数估计值不稳定
01
模型中的参数估计值会随着样本的微小变化而发生较大的变化
,导致模型预测的不稳定性。
模型预测精度降低
02
由于参数估计值的不准确,会导致模型的预测精度降低,预测
结果的可信度下降。
模型解释性差
03
由于解释变量之间的高度相关关系,使得模型难以解释各个解
释变量对因变量的影响程度,降低了模型的解释性。
多重共线性PPT课件
目 录
• 多重共线性的定义 • 多重共线性的成因 • 多重共线性的诊断 • 多重共线性的处理 • 案例分析
01
多重共线性的定义
什么是多重共线性
1
共线性是指解释变量之间存在高度相关性的现象 。
2
在多元线性回归模型中,如果解释变量之间存在 高度相关关系,会导致模型估计的参数不准确, 甚至出现完全错误的结论。
实验五__多重共线性检验参考案例
实验五__多重共线性检验参考案例多重共线性检验是用来检验自变量之间是否存在高度相关性的一种方法。
在回归分析中,如果自变量之间存在高度相关性,会导致回归方程中的相关系数估计值不稳定,难以准确地解释自变量对因变量的影响。
因此,进行多重共线性检验是非常重要的。
下面将以一个案例来说明如何进行多重共线性检验。
假设我们想研究一些城市的房价与以下自变量相关性的影响:房屋面积、房间数量、距离市中心的距离。
我们采集了100个样本,并进行了回归分析。
首先,我们可以查看自变量之间的相关系数矩阵,以判断是否存在高度相关性。
下面是自变量之间的相关系数矩阵:房屋面积房间数量距离市中心的距离房屋面积10.80.2房间数量0.810.1距离市中心的距离0.20.11从相关系数矩阵可以看出,房屋面积和房间数量之间存在高度相关性,相关系数为0.8、这可能意味着两个自变量提供了类似的信息,在回归分析中可能会造成多重共线性的问题。
接下来,我们可以计算自变量的方差膨胀因子(VIF)来进一步检验多重共线性。
VIF是用来度量自变量之间相关度的指标,VIF值越大,说明自变量之间的共线性越强。
计算VIF的公式如下:VIF_i=1/(1-R_i^2)其中,VIF_i表示自变量i的VIF值,R_i^2表示通过其他自变量对自变量i进行回归分析得到的决定系数。
下面是计算三个自变量的VIF值:VIF_房屋面积=1/(1-0.8^2)=1.67VIF_房间数量=1/(1-0.8^2)=1.67VIF_距离市中心的距离=1/(1-0.1^2)=1.01从计算结果可以看出,三个自变量的VIF值都在可接受的范围内,说明它们之间并不存在严重的多重共线性问题。
最后,我们可以绘制自变量对因变量的散点图,以观察它们之间的关系。
如果自变量之间存在高度相关性,会导致散点图中观测点呈现出一种线性的形态。
综上所述,通过相关系数矩阵、VIF值以及散点图的分析,我们可以得出结论:在这个案例中,房屋面积、房间数量和距离市中心的距离之间不存在严重的多重共线性问题,可以继续进行回归分析。
第四章 多重共线性
多重共线性的定义 产生多重共线性的背景 多重共线性产生的后果 多重共线性的检验 多重共线性的补救措施
第四章 多重共线性
一、多重共线性的定义:案例1 能源消费 多重共线性的定义:案例1
1、完全多重共线性: 、完全多重共线性: 对于 变 量 X 2 , X 3 ,L, X k ,如 果 存在 不全 为零 的数 λ2,λ3, ,λk , 使 L
年份 财政收 农业增 工业增 建筑业 总人口/ 最终消 入CS 加值NZ 加值GZ 增加值 万人 费CUM
1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1132.3 1146.4 1159.9 1175.8 1212.3 1367 1642.9 2004.8 2122 2199.4 2357.2 2664.9 2937.1 3149.48 3483.37 1018.4 1258.9 1359.4 1545.6 1761.6 1960.8 2295.5 2541.6 2763.9 3204.3 3831 4228 5017 5288.6 5800 1607 1769.7 1996.5 2048.4 2162.3 2375.6 2789 3448.7 3967 4585.8 5777.2 6484 6858 8087.1 10284 138.2 143.8 195.5 207.1 220.7 270.6 316.7 417.9 525.7 665.8 810 794 859.4 1015.1 1415 96259 97542 98705 100072 101654 103008 104357 105851 107507 109300 111026 112704 114333 115823 117171 2239.1 2619.4 2976.1 3309.1 3637.9 4020.5 4694.5 5773 6542 7451.2 9360.1 10556.5 11365.2 13145.9 15952.1
多重共线性的含义多重共线性产生的原因多重共...
注意: 完全共线性的情况并不多见,一般出现 的是在一定程度上的共线性,即近似共线 性。
二、多重共线性产生的原因
一般地,产生多重共线性的主要原因有以下四 个方面:
(1)经济变量相关的共同趋势
时间序列样本:经济繁荣时期,各基本经济 变量(收入、消费、投资、价格)都趋于增长; 衰退时期,又同时趋于下降。 横截面数据:生产函数中,资本投入与劳动 力投入往往出现高度相关情况,大企业二者都大, 小企业都小。
六、案例一——中国粮食生产函数
根据理论和经验分析,影响粮食生产(Y)的 主要因素有: 农业化肥施用量(X1);粮食播种面积(X2) 成灾面积(X3); 农业机械总动力(X4); 农业劳动力(X5) 已知中国粮食生产的相关数据,建立中国粮食 生产函数: Y=0+1 X1 +2 X2 +3 X3 +4 X4 +4 X5 +
Y
1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 (万吨) 38728 40731 37911 39151 40208 39408 40755 44624 43529 44264 45649 44510 46662 50454 49417 51230 50839 46218
(4)样本资料的限制,数据收集范围 过窄,有时会造成变量间存在多重共线性 问题
由于完全符合理论模型所要求的样本数据较难 收集,特定样本可能存在某种程度的多重共线性。 一般经验:
时间序列数据样本:简单线性模型,往往存在 多重共线性。
截面数据样本:问题不那么严重,但多重共线 性仍然是存在的。
(完整版)多重共线性检验与修正
问题:选取粮食生产为例,由经济学理论和实际可以知道,影响粮食生产y的因素有:农业化肥施用量x1,粮食播种面积x2,成灾面积x3,农业机械总动力x4,农业劳动力x5,由此建立以下方程:y=β0+β1x1+β2x2+β3x3+β4x4+β5x5,相关数据如下:解:1、检验多重共线性(1)在命令栏中输入:ls y c x1 x2 x3 x4 x5,则有;可以看到,可决系数R2和F值都很高,二自变量x1到x5的t值均较小,并且x4和x5的t检验不显著,说明方程很可能存在多重共线性。
(2)对自变量做相关性分析:将x1——x5作为组打开,view——covariance analysis——correlation,结果如下:可以看到x1和x4的相关系数为0.96,非常高,说明原模型存在多重共线性2、多重共线性的修正 (1)逐步回归法第一步:首先确定一个基准的解释变量,即从x1,x2,x3,x4,x5中选择解释y 的最好的一个建立基准模型。
分别用x1,x2,x3,x4,x5对y 求回归,结果如下:在基准模型的基础上,逐步将x2,x3等加入到模型中, 加入x2,结果:从上面5个输出结果可以知道,y 对x1的可决系数R2=0.89(最高),因此选择第一个方程作为基准回归模型。
即: Y = 30867.31062 + 4.576114592* x1再加入x3,结果:再加入x4,结果:拟合优度R2=0.961395,显著提高;并且参数符号符合经济常识,且均显著。
所以将模型修改为:Y= -44174.52+ 4.576460*x1+ 0.672680*x2拟合优度R2=0.984174,显著提高;并且参数符号符合经济常识(成灾面积越大,粮食产量越低),且均显著。
所以将模型修改为:Y=-12559.35+5.271306*x1+0.417257*x2-0.212103*x3拟合优度R2=0.987158,虽然比上一次拟合提高了;但是变量x4的系数为-0.091271,符号不符合经济常识(农业机械总动力越高,粮食产量越高),并且x4的t检验不显著。
多重共线性实验报告
多重共线性实验报告多重共线性实验报告导言多重共线性是统计学中一个重要的问题,它指的是自变量之间存在高度相关性,从而导致回归模型的不稳定性和不可靠性。
本实验旨在通过构建多重共线性模型,探讨其对回归分析结果的影响,并提出相应的解决方案。
实验设计本实验采用了一个虚拟数据集,包含了10个自变量和一个因变量。
首先,我们通过计算自变量之间的相关系数矩阵,判断是否存在多重共线性。
然后,我们构建了一个多重共线性模型,并对其进行回归分析。
最后,我们比较了多重共线性模型和无多重共线性模型的结果,以及采取不同解决方案对结果的影响。
多重共线性检验通过计算自变量之间的相关系数矩阵,我们发现其中存在一些高度相关的自变量。
例如,自变量A和自变量B之间的相关系数为0.8,自变量C和自变量D之间的相关系数为0.7。
这些高度相关的自变量可能会导致多重共线性问题。
多重共线性模型为了模拟多重共线性的情况,我们构建了一个多重共线性模型。
该模型包含了自变量A、B、C和D,并假设它们之间存在高度相关性。
我们使用最小二乘法进行回归分析,并得到了模型的回归系数和显著性检验结果。
多重共线性模型的结果通过对多重共线性模型进行回归分析,我们发现自变量A和自变量B的回归系数都显著为0,而自变量C和自变量D的回归系数都显著为1。
这表明多重共线性模型无法准确估计自变量的影响。
此外,模型的显著性检验结果也不可靠,因为多重共线性导致了回归系数的不稳定性。
解决方案一:剔除相关性较高的自变量为了解决多重共线性问题,我们可以考虑剔除相关性较高的自变量。
在本实验中,我们选择剔除自变量B和自变量D,因为它们与其他自变量的相关系数较高。
重新进行回归分析后,我们发现模型的回归系数和显著性检验结果都变得更加稳定和可靠。
解决方案二:主成分分析另一个常用的解决多重共线性问题的方法是主成分分析。
主成分分析可以将原始自变量转换为一组无关的主成分,从而降低自变量之间的相关性。
在本实验中,我们对自变量进行主成分分析,并选择前两个主成分进行回归分析。
多重共线性(Multi-Collinearity)
i 0 1 1i 2 2i
k ki i
(i=1,2,…,n)
其基本假设之一是解释变量
X,
1
X2,,
X
k
互相独立 。
如果某两个或多个解释变量之间出现了相关性, 则称为多重共线性。
如果存在
c1X1i+c2X2i+…+ckXki=0
i=1,2,…,n
其中: ci不全为0,即某一个解释变量可以用其它解释 变量的线性组合表示,则称为解释变量间存在完全
2
1
x12i 1 r 2
2
x12i
所以,多重共线性使参数估计量的方差增大。
方差扩大因子(Variance Inflation Factor)为1/(1-r2), 其增大趋势见下表:
相关系 0 0.5 0.8 0.9 0.95 0.96 0.97 0.98 0.99 0.999 数平方 方差扩 1 2 5 10 20 25 33 50 100 1000 大因子
多重共线性(Multi-Collinearity)
§2.8 多重共线性
Multi-Collinearity
一、多重共线性的概念 二、多重共线性的后果 三、多重共线性的检验 四、克服多重共线性的方法 五、案例
一、多重共线性的概念
1、多重共线性
• 对于模型
Y X X X
以二元回归模型中的参数估计量ˆ 为例,ˆ 的方差为
1
1
Var(ˆ )
1
ˆ 2
(X X
)1
22
(
ˆ
2
(
x2
2i
)
x2 )( x2 ) ( x
多重共线性分析案例
多重共线性分析案例例用1974-1987年数据建立天津市粮食需求模型如下:表1 变量y,x1,x2,x3,x4,x5的数据年y x1x2x3x4x51974 98.45 560.2 153.20 6.53 1.23 1.891975 100.70 603.11 190.00 9.12 1.30 2.031976 102.80 668.05 240.30 8.10 1.80 2.711977 133.95 715.47 301.12 10.10 2.09 3.001978 140.13 724.27 361.00 10.93 2.39 3.291979 143.11 736.13 420.00 11.85 3.90 5.241980 146.15 748.91 491.76 12.28 5.13 6.831981 144.60 760.32 501.00 13.50 5.47 8.361982 148.94 774.92 529.20 15.29 6.09 10.071983 158.55 785.30 552.72 18.10 7.97 12.571984 169.68 795.50 771.16 19.61 10.18 15.121985 162.14 804.80 811.80 17.22 11.79 18.251986 170.09 814.94 988.43 18.60 11.54 20.591987 178.69 828.73 1094.65 23.53 11.68 23.37资料来源:《天津统计年鉴》1988.设回归模型:Y=β0+β1X1+β2X2+β3X3+β4X4+β5X5+ε利用spss统计软件进行线性回归(点选Statistics选项框中Collinearity共线性诊断选项),设显著性水平0.05,输出结果如下:从回归方程的P检验结果看出Sig=0,整体通过显著性检验。
从输出结果看,在0.05的显著性水平下,βi的t统计量单独对因变量y都无显著性影响(P 值都大于0.05)。
多重共线性逐步回归案例分析
多重共线性的估计和消除一,研究对象影响中国旅游市场发展的主要因素。
二、模型设定及其估计经分析,影响国内旅游市场收入的主要因素,除了国内旅游人数和旅游支出以外,还可能与相关基础设施有关。
为此,考虑的影响因素主要有国内旅游人数X2,城镇居民人均旅游支出X3,农村居民人均旅游支出X4,并以公路里程X5和铁路里程X6作为相关基础设施的代表。
为此设定了如下对数形式的计量经济模型:Y t 二 + • \X2t「3X3t「4X4t」X5t「6X6t • u t其中:Y i —第t年全国旅游收入X2 -一国内旅游人数(万人)X3—城镇居民人均旅游支出(元)X4 -农村居民人均旅游支出(元)X5 -一公路里程(万公里)X6 -一铁路里程(万公里)为估计模型参数,收集旅游事业发展最快的1994—2003年的统计数据,如表4.2所示:表4.2 1994 年一2003年中国旅游收入及相关数据Array数据来源《中国统计年鉴2004》利用Eviews软件,输入Y、X2、X3、X4 X5、X6等数据,采用这些数据对模型进行OLS回归,结果如表4.3 :表4.3Dependent variable: Y Method : Least Squares Date: 07/18<J5 Time: 16:16 Sample: 1994 2003Included observations: 10VariableCoefficient Std Error t-Statistic Prob.R-squared0.995406 Mean dependent var 2539.200 Adjusted R-squared 0.989664 S.D. dependeni var 935.0327 S.E. of regression 100 1433 Akaike info criterion 1233479 Sum squared resid 40114.74 Schwarz criterion 1251634 Log likelihood-55.67396 F- statistic 1733625 Durbin-Watson st st2 311565 Prob(F-statistic) 0.0000922 — 2 由此可见,该模型R=0.9954 , R =0.9897可决系数很高,F 检验值173.3525,明显显著。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多重共线性的案例分析
一、研究的目的要求
近年来,中国旅游业一直保持高速发展,旅游业作为国民经济新的增长点,在整个社会经济发展中的作用日益显现。
中国的旅游业分为国内旅游和入境旅游两大市场,入境旅游外汇收入年均增长22.6%,与此同时国内旅游也迅速增长。
改革开放20多年来,特别是进入90年代后,中国的国内旅游收入年均增长14.4%,远高于同期GDP 9.76%的增长率。
为了规划中国未来旅游产业的发展,需要定量地分析影响中国旅游市场发展的主要因素。
二、模型设定及其估计
经分析,影响国内旅游市场收入的主要因素,除了国内旅游人数和旅游支出以外,还可能与相关基础设施有关。
为此,考虑的影响因素主要有国内旅游人数2X ,城镇居民人均旅游支出3X ,农村居民人均旅游支出4X ,并以公路里程5X 和铁路里程6X 作为相关基础设
施的代表。
为此设定了如下对数形式的计量经济模型: 23456123456t t t t t t t Y X X X X X u ββββββ=++++++
其中 :t Y ——第t 年全国旅游收入
2X ——国内旅游人数 (万人)
3X ——城镇居民人均旅游支出 (元) 4X ——农村居民人均旅游支出 (元)
5X ——公路里程(万公里) 6X ——铁路里程(万公里)
为估计模型参数,收集旅游事业发展最快的1994—2003年的统计数据,如表4.1所示:
利用Eviews 软件,输入Y 、X2、X3、X4、X5、X6等数据,采用这些数据对模型进行OLS 回归,结果如表4.2:
表4.2
由此可见,该模型9954.02=R ,9897.02
=R 可决系数很高,F 检验值173.3525,明
显显著。
但是当05.0=α时776
.2)610()(025.02=-=-t k n t α,不仅2X 、6X 系数的t 检
验不显著,而且6X 系数的符号与预期的相反,这表明很可能存在严重的多重共线性。
计算各解释变量的相关系数,选择X2、X3、X4、X5、X6数据,点”Quick/Group statistics/correlations ”得相关系数矩阵(如表4.3):
表4.3
由相关系数矩阵可以看出:各解释变量相互之间的相关系数较高,证实确实存在严重多重共线性。
三、消除多重共线性
采用逐步回归的办法,去检验和解决多重共线性问题。
分别作Y 对X2、X3、X4、X5、X6的一元回归,结果如表4.4所示:
表4.4
变量 X2 X3 X4 X5 X6 参数估计值
0.084
9.0523
11.667
34.33
2014.14
按2
R 的大小排序为:X3、X6、X2、X5、X4。
以X3为基础,顺次加入其他变量逐步回归。
首先加入X6回归结果为:
631784.285850632.7639.4109ˆX X Y t ++-=
t=(2.9086) (0.46214) 957152.02
=R
当取05.0=α时,365
.2)310()(025.02
=-=-t k n t
α,X6参数的t 检验不显著,予以剔除,
加入X2回归得
23029761.0194241.6393.3326ˆX X Y t ++-=
t=(4.2839) (2.1512) 973418.02
=R
X2参数的t 检验不显著,予以剔除,加入X5回归得
5390789.10736535.6972.3059ˆX X Y t ++-=
t=(6.6446) (2.6584) 978028.02
=R
X3、X5参数的t 检验显著,保留X5,再加入X4回归得
453221965.362909.13215884.4161.2441ˆX X X Y t +++-=
t=(3.944983) (4.692961) (3.06767)
991445.02=R 987186.02=R F=231.7935 DW=1.952587
当取05.0=α时,447
.2)410()(025.02=-=-t k n t α,X3、X4、X5系数的t 检验都显著,
这是最后消除多重共线性的结果。
这说明,在其他因素不变的情况下,当城镇居民人均旅游支出
3X 和农村居民人均旅游支出
4X 分别增长1元时,国内旅游收入t Y 将分别增长4.21亿元和3.22亿元。
在其他因素不变
的情况下,作为旅游设施的代表,公路里程5X 每增加1万公里时, 国内旅游收入t Y 将增长
13.63亿元。