多重共线性案例分析
第五章 多重共线性的概念
σ2
恰为X1与X2的线性相关系数的平方r2 ∑x ∑x
2 1i 2 2i
(∑ x1i x 2i ) 2
由于 r2 ≤1,故 1/(1- r2 )≥1
完全不共线时, 当完全不共线 完全不共线
r2
=0
ˆ var( β 1 ) = σ 2 / ∑ x12i
1 σ2 ˆ ⋅ > var(β 1 ) = 2 2 x1i 1 − r x12i ∑ ∑
1.
检验多重共线性是否存在
(1)对两个解释变量的模型,采用简单相关系数法 (1)对两个解释变量的模型,采用简单相关系数法 对两个解释变量的模型 求出X1与X2的简单相关系数r,若|r|接近1,则 说明两变量存在较强的多重共线性。 (2)对多个解释变量的模型,采用综合统计检验法 (2)对多个解释变量的模型, 对多个解释变量的模型 若在OLS法下:R2与F值较大,但t检验值较小,说明 各解释变量对Y的联合线性作用显著,但各解释变量间存 在共线性而使得它们对Y的独立作用不能分辨,故t检验不 显著。即R2较大但t值显著的不多。另外判断参数估计值 的符号,如果不符合经济理论或实际情况,可能存在多重 共线性。
ˆ Y = 7.29 + 27.58X2 −15161.5X3
SE =(121.50) t =(0.06) ( ) (28.79) (0.958) ) (21.41) (- 7.06) )
R 2 = 0.946
我们发现: 值小。 我们发现:例1中X2、X3的 t 值小。且X3的系数符号 中 的系数符号 与经济意义不符和。原因? 与经济意义不符和。原因? 值大, 的系数符号与经济意义不符合。 例2中X3的 t 值大,但X3的系数符号与经济意义不符合。 原因? 原因?
实验五多重共线性检验参考案例
实验五 多重共线性检验实验时间: 姓名:学号: 成绩:【实验目的】1、掌握多元线性回归模型的估计、检验和预测;2、掌握多重共线性问题的检验方法3、掌握多重共线性问题的修正方法 【实验内容】1、数据的读取和编辑;2、多元回归模型的估计、检验、预测;3、多重共线性问题的检验4、多重共线性问题的修正 【实验背景】为了评价报账最低工资(负收入税)政策的可行性,兰德公司进行了一项研究,以评价劳动供给(平均工作小时数)对小时工资提高的反应,词研究中的数据取自6000户男户主收入低于15000美元的一个国民样本,这些数据分成39个人口组,并放在表1中,由于4个人口组中的某些变量确实,所以只给出了35个组的数据,用于分析的各个变量的定义如下:Y 表示该年度平均工作小时数;X1表示平均小时工资(美元);X2表示配偶平均收入(美元);X3表示其他家庭成员的平均收入(美元);X4表示年均非劳动收入(美元);X5表示平均家庭资产拥有量;X6表示被调查者的平均年龄;X7表示平均赡养人数;X 8表示平均受教育年限。
μ为随机干扰项,考虑一下回归模型:μβββββββββ+++++++++=87654321876543210X X X X X X X X Y (1) 将该年度平均工作小时数Y 对X 进行回归,并对模型进行简单分析; (2) 计算各变量之间的相关系数矩阵,利用相关系数法分析变量间是否具有多重共线性;(3) 利用逐步回归方法检验并修正回归模型,最后再对模型进行经济意义检验、统计检验。
表5观测组Y X1 X2 X3 X4 X5 X6 X7 X81 2157 2.905 1121 291 380 7250 38.5 2.34 10.52 2174 2.97 1128 301 398 7744 39.3 2.335 10.53 2062 2.35 1214 326 185 3068 40.1 2.851 8.94 2111 2.511 1203 49 117 1632 22.4 1.159 11.55 2134 2.791 1013 594 730 1271057.7 1.229 8.86 2185 3.04 1135 287 382 776 38.6 2.602 10.77 2210 3.222 1100 295 474 9338 39 2.187 1128 2105 2.495 1180 310 255 4730 39.9 2.616 9.39 2267 2.838 1298 252 431 8317 38.9 2.024 11.110 2205 2.356 885 264 373 6489 38.8 2.662 9.511 2121 2.922 1251 328 312 5907 39.8 2.287 10.312 2109 2.499 1207 347 271 5069 39.7 3.193 8.913 2108 2.796 1036 300 259 4614 38.2 2.4 9.214 2047 2.453 1213 397 139 1987 40.3 2.545 9.115 2174 3.582 1141 414 498 1023940 2.064 11.716 2067 2.909 1805 290 239 4439 39.1 2.301 10.517 2159 2.511 1075 289 308 5621 39.3 2.486 9.518 2257 2.516 1093 176 392 7293 37.9 2.042 10.119 1985 1.423 553 381 146 1866 40.6 3.833 6.620 2184 3.636 1091 291 560 1124039.1 2.328 11.621 2084 2.983 1327 331 296 5653 39.8 2.208 10.222 2051 2.573 1197 279 172 2806 40 2.362 9.123 2127 3.263 1226 314 408 8042 39.5 2.259 10.824 2102 3.234 1188 414 352 7557 39.8 2.019 10.725 2098 2.28 973 364 272 4400 40.6 2.661 8.426 2042 2.304 1085 328 140 1739 41.8 2.444 8.227 2181 2.912 1072 304 383 9340 39 2.337 10.228 2186 3.015 1122 30 352 7292 37.2 2.046 10.929 2188 3.01 990 366 374 7325 38.4 2.847 10.630 2077 1.901 350 209 95 1370 37.4 4.158 8.231 2196 3.009 947 294 342 6888 37.5 3.047 10.632 2093 1.899 342 311 120 1425 37.5 4.512 8.133 2173 2.959 1116 296 387 7625 39.2 2.342 10.534 2179 2.959 1116 296 387 7625 39.2 2.342 10.535 2200 2.98 1126 204 393 7885 39.2 2.341 10.6 【实验过程】一、利用Evie ws软件建立年度平均工作小时数y的回归模型。
多重共线性案例分析实验报告
《多重共线性案例分析》实验报告表2由此可见,该模型,可决系数很高,F 检验值173.3525,明显显著。
但是当时,不仅、系数的t 检验不显著,而且系数的符号与预期的相反,这表明很可能存在严重的多重共线性。
9954.02=R 9897.02=R 05.0=α776.2)610()(025.02=-=-t k n t α2X 6X 6X②.计算各解释变量的相关系数,选择X2、X3、X4、X5、X6数据,点”view/correlations ”得相关系数矩阵表3由关系数矩阵可以看出:各解释变量相互之间的相关系数较高,证实确实存在严重多重共线性相。
4.消除多重共线性①采用逐步回归的办法,去检验和解决多重共线性问题。
分别作Y 对X2、X3、X4、X5、X6的一元回归 如下图所示变量 X2 X3 X4 X5 X6 参数估计值0.08429.0523 11.6673 34.3324 2014.146 t 统计量8.665913.1598 5.1967 6.4675 8.74870.90370.95580.77150.83940.9054表4 按的大小排序为:X3、X6、X2、X5、X4。
以X3为基础,顺次加入其他变量逐步回归。
首先加入X6回归结果为:t=(2.9086) (0.46214)2R 2R 631784.285850632.7639.4109ˆX X Y t ++-=957152.02=R1995 1375.7 62900 464.0 61.5 115.70 5.97 1996 1638.4 63900 534.1 70.5 118.58 6.49 1997 2112.7 64400 599.8 145.7 122.64 6.60 1998 2391.2 69450 607.0 197.0 127.85 6.64 1999 2831.9 71900 614.8 249.5 135.17 6.74 2000 3175.5 74400 678.6 226.6 140.27 6.87 2001 3522.4 78400 708.3 212.7 169.80 7.01 2002 3878.4 87800 739.7 209.1 176.52 7.19 2003 3442.3 87000 684.9 200.0 180.98 7.30表1:1994年—2003年中国游旅收入及相关数据表2:OLS 回归表3:关系数矩阵变量 X2 X3 X4 X5 X6 参数估计值0.08429.0523 11.6673 34.3324 2014.146 t 统计量8.665913.1598 5.1967 6.4675 8.74870.90370.95580.77150.83940.9054表4:Y 对X2、X3、X4、X5、X6的一元回归六、实验结果及分析1. 在参数估计模型和关系数矩阵中, ,可决系数很高,F 检验值173.3525,明显显著。
多重共线性-例题
2.多重共线性的经济解释(1)经济变量在时间上有共同变化的趋势。
如在经济上升时期,收入、消费、就业率等都增长,当经济收缩期,收入、消费、就业率等又都下降。
当这些变量同时进入模型后就会带来多重共线性问题。
0.E+001.E+112.E+113.E+114.E+11808284868890929496980002GDPCONS0.E+001.E+112.E+113.E+114.E+110.0E+005.0E+101.0E+111.5E+112.0E+112.5E+11CONSGDP of HongKong(2)解释变量与其滞后变量同作解释变量。
0.E+001.E+112.E+113.E+114.E+11808284868890929496980002GDP0.E+001.E+112.E+113.E+114.E+110.E+001.E+112.E+113.E+114.E+11GDP(-1)GDP3.多重共线性的后果(1)当 | r x i x j | = 1,X 为降秩矩阵,则 (X 'X ) -1不存在,βˆ= (X 'X )-1 X 'Y 不可计算。
(2)若 | r x i x j | ≠1,即使 | r x i x j | →1,βˆ仍具有无偏性。
E(βˆ) = E[(X 'X )-1 X 'Y ] = E[(X 'X ) -1X '(X β + u )] = β + (X 'X )-1X ' E(u ) = β. (3)当 | r x i x j | →1时,X 'X 接近降秩矩阵,即 | X 'X | →0,V ar(βˆ) = σ 2 (X 'X )-1变得很大。
所以βˆ丧失有效性。
以二解释变量线性模型为例,当r x i x j = 0.8时,Var(βˆ)为r x i x j = 0时的Var(βˆ)的2.78倍。
计量经济学中多重共线性案例问题研究
计量经济学中多重共线性案例问题研究摘要:本论文主要通过案例来研究计量经济学中的多重共线性的问题,对案例进行EVIEWS分析,并利用诊断共线性的经验方法及修正共线性的经验方法和通过EVIEWS分析对案例中的多重共线性进行诊断与修正,以能够完成减弱多重共线性的目标。
关键字:多重共线性诊断共线性的经验方法修正共线性的经验方法经典的线性回归模型的假定之一是各解释变量X之间不存在多重共线性。
然而,在计量经济学中所说的多重共线性(mnlti-collinearity),不仅包含解释变量之间精确的线性关系,还包含解释变量之间近似的线性关系。
下面来通过研究国内生产总值的增加会影响财政收入的增加还是减少的案例对多重共线性进行研究。
一、研究的目的和要求国内生产总值GDP按照支出法的公式为:国内生产总值=消费+投资+政府购买支出+净出口,而财政收入的主要来源为各项税收收入如增值税等。
只有经济持续的增长,才能提供稳定的税收来源。
所以,影响财政收入的主要因素是税收收入。
但是,税收收入还影响着国内生产总值。
因此,为了中国未来经济的发展,需要定量的分析影响中国财政收入的因素。
二、模型设定及其估计经过研究与分析,影响财政收入的主要因素,除了税收收入以外,还有与一些其他因素有关。
为此,考虑的影响因素主要有财政支出CZZC/亿元用X2表示,国内生产总值GDP/亿元用X3表示,税收总额SSZE/亿元用X4表示。
各影响变量与财政收入之间呈现正相关。
因此设定了如下形式的计量经济模型来研究“国内生产总值的增加会减少财政收入吗”这个问题:Y t=β1+β2X2t+β3X3t+β4X4t+μt式中,Yt为第t年国内财政收入(亿元);X2为财政支出(亿元);X3为国内生产总值(亿元);X4为税收总额(亿元)。
各解释变量前的回归系数预期都大于0.为估计模型参数,1985~2011年阶段财政收入的统计数据,如下表:运用EVIEWS软件,生成Y、X2、X3、X4数据,采用OLS方法估计模型参数,得到的回归结果如下图所示:该模型R²=0.999857,Rˉ²=0.999838,可决系数非常高,F的检验值为53488.54,明显很显著。
4.3多重共线性
5.模型的预测功能受到限制
变大的方差容易使区间预测的 “区间”变大,使区间预测可靠性降 低。 在解释变量之间的相关结构得以 保持的条件下,模型仍可用于预测。
综上所述
严重的多重共线性常常会导致下列情形出现: 使得用普通最小二乘法得到的回归参数估计值很 不稳定,回归系数的方差随着多重共线性强度的增加 而加速增长,对参数难以做出精确的估计;造成回归 方程高度显著的情况下,有些回归系数通不过显著性 检验;甚至可能出现回归系数的正负号得不到合理的 经济解释。 但是应注意,如果研究的目的仅在于预测被解释 变量Y,而各个解释变量X之间的多重共线性关系的性 质在未来将继续保持,这时虽然无法精确估计个别的 回归系数,但可估计这些系数的某些线性组合,因此 多重共线性可能并不是严重问题。
当不完全共线(近似共线)时,
ˆ ) = var( β 1
3.参数估计量经济含义不合理
,
如果模型中两个解释变量具有线性相关 性,例如X1 和X2 ,那么它们中的一个变量可以由 另一个变量近似表征。 这时,X1和X2前的参数估计并不反映各自与 被解释变量之间的结构关系,而是反映它们对被 解释变量的共同影响。 所以各自的参数估计可能已经失去了应有的 经济含义,于是经常表现出似乎反常的现象,例 如本来应该是正的,结果却是负的。(137)
0 < r2 <1
∑
σ
2
x 12i
•
1 > 1− r2
∑
σ
2
x 12i
βˆ = ( X ′X ) − 1 X ′Y
如果存在完全共线性,则(X’X) -1 不存在,无法得到参数唯一的估计量。 即:多重共线性使参数估计值的方差增大
2
4.变量的显著性检验可靠性差
第6章(多重共线性)-案例
3.基础解系及其求法 基础解系及其求法
3.1. 基础解系 3.1.2. 基础解系的求法
x1 = − b1, r +1k1 L − b 1 n k n− r x = −b k L − b k 2 ,r +1 1 2n n− r 2 L L L L L L L xr = − br ,r +1k1 L − br n k n− r x r +1 = k 1 k2 xr + 2 = L LLLLL x = k n− r n
在进行经济计量分析时,如果模型地设定出现失误, 在进行经济计量分析时,如果模型地设定出现失误,则容易导 致完全共线性 例如:设定居民消费对工资收入 工资收入S和非劳动收入N及总收入T 例如:设定居民消费对工资收入 和非劳动收入 及总收入 的回 归模型为
C = β 0 + β 1 S + β 2 N + β 3T + ε
§6.1 多重共线性的定义
从数学意义上解释变量之间存在共线性, 从数学意义上解释变量之间存在共线性,就是对于变 量x1,x2,…,xk,如果存在不全为零的数λ1,λ2,…, , 如果存在不全为零的数λ , 使得下式成立: λk,使得下式成立: λ1x1+λ2x2+…+λkxk=0 +λ (*) 则称变量x 则称变量x1,x2,…,xk之间存在一种完全的共线性。 , 在计量经济学中, 在计量经济学中,一个具有两个以上解释变量的线性 回归模型里,如果解释变量之间存在式( 那样的关系, 回归模型里,如果解释变量之间存在式(*)那样的关系, 则称这些解释变量之间存在完全的多重共线性。
设解释变量矩阵为: 设解释变量矩阵为:
1 x 11 1 x 21 X= M M 1 x n1 x 12 x 22 M x n2 L x 1k L x 2k M L x nk
第四章多重共线性实例
表 4.3.3 中国粮食生产与相关投入资料
农业化肥施 粮食播种面 受灾面积 农业机械总
用量 X 1
(万公斤)
积X 2
(千公顷)
X3
(公顷)
动力X 4
(万千瓦)
1659.8
114047 16209.3
18022
1739.8
112884 15264.0
19497
1775.8
108845 22705.3
20913
Yˆ 28259.19 2.240X5
(-1.04) (2.66) R2=0.3064 F=7.07 DW=0.36
• 可见,应选第1个式子为初始的回归模型。
4、逐步回归
将其他解释变量分别导入上述初始回归模型,寻 找最佳回归方程。
C
X1 X2 X3
X4
X5
R2
DW
Y=f(X1)
30868 4.23
0.8852 1.56
t值
25.58 11.49
Y=f(X1,X2)
-43871 4.65 0.67
0.9558 2.01
t值
-3.02 18.47 5.16
Y=f(X1,X2,X3)
-11978 5.26 0.41 -0.19
0.9752 1.53
t值
0.85
19.6 3.35 -3.57
Y=f(X1,X2,X3,X4) -13056 6.17 0.42 -0.17 -0.09
1930.6
110933 23656.0
22950
1999.3
111268 20392.7
24836
2141.5
110123 23944.7
计量经济学第四章 多重共线性
x2i
3 2
x3i
x3i
参数的估计值为:
ˆ2
x32i x2i yi x2i x3i x3i yi
(
x22i )(
x32i ) (
x2i
x 3i
)2
x32i
2
x3i yi x32i 2 2
x32i x32i
x2i x3i x22i
x2i x3i
ˆ1 Y ˆ2 X 2 ˆ3 X 3
ˆ2
x32i x2i yi x2i x3i x3i yi ( x22i )( x32i ) ( x2i x3i )2
ˆ3
x22i x3i yi x2i x3i x2i yi •
(
x22i )(
x32i ) (
x2i
x 3i
)
2
x2i yi x3i yi
x2i x3i x32i
4.2多重共线性的后果
如果X1和X2完全线性相关,则存在非0的λ使得:
1 2 X 2i 3 X 3i 0
则有:
1 2 X 2 3 X 3 0
2 X 2i X 2 3 X3i X3 0
X 2i X3i X 2iYi
X
2 3i
X
3iYi
VAR
COV
(βˆ )
2
(XX)1
2
N X 2i
X 3i
X2i
X
2 2i
X 2i X 3i
Eviews:多重共线性
判定系数法
综合统计检验法
修正法
增加样本额 略去不重要的解释变量 用被解释变量的滞后值代替解释变量的滞后值
案例分析
选取粮食生产为例,由经济学理论和
实际可以知道,影响粮食生产Y的因 素有:农业化肥施用量x1、粮食播种 面积x2、成灾面积x3、农业机械总动 力x4、农业劳动力x5,由此建立以下 方程:
案例修正结果分析:
从去掉x4、x5解释变量后分析的结果来看, R、F值都很显著,因此,模型拟合优度较 高,方程整体上是显著的。 再分析各解释变量前的系数,他们都是显 著的,因此,模型得到很好修正。
判定系数法
我们依次分别以农业化肥施用量、粮食播种面积、 成灾面积、农业机械总动力、农业劳动力作为被 解释变量,以余下的作为解释变量做最小二乘回 归得到结果如下:
x1
分析回归结果,我们发现常数项系数非显著,因此,去掉c再做回归。
X1与x4显著相关
分析上面的回归结果,我们可以看出,在 5%的置信水平下,x4前的系数是显著的, x1与x4之间存在线性关系。也即农业化肥 施用量与农业机械总动力之间存在线性关 系。
多重共线性的检验
相关系数法
计算解释变量之间的相关系数,相关系数高的替代性也相应高。 在有K个解释变量的模型中,分别用一个解释变量对其他所有 解释变量进行线性回归。其中R值大的说明该解释变量可以用 其它的解释变量的线性组合代替。 此方法适用于多个解释变量情形。利用判定系数R、T、F等统 计检验结果进行综合分析,判明系统多重共线必是否存在。如 果R、F统计值很大,但T检验值大多数偏小,则 可以认定出现 了多重共线性程进行最小二乘估计得如下结果:
多重共线性的检验与处理
实验名称:多重共线性的检验与处理实验时间:2011.12.10实验要求:主要是学习多重共线性的检验与处理,主要是研究解释变量与其余解释变量之间有严重多重共线性的模型,分析变量之间的相关系数。
通过具体案例建立模型,然后估计参数,求出相关的数据。
再对模型进行检验,看数据之间是否存在多重共线性。
最后利用所求出的模型来进行修正。
实验内容:实例:我国钢材供应量分析通过分析我国改革开放以来(1978-1997)钢材供应量的历史资料,可以建立一个单一方程模型。
根据理论及对现实情况的认识,影响我国钢材供应量 Y(万吨)的主要因素有:原油产量X1(万吨),生铁产量X2(万吨),原煤产量X3(万吨),电力产量X4(亿千瓦小时),固定资产投资X5(亿元),国内生产总值X6(亿元),铁路运输量X7(万吨)。
(一)建立我国钢材供应量的计量经济模型:(二)估计模型参数,结果为:Dependent Variable: YMethod: Least SquaresDate: 11/02/09 Time: 16:09Sample: 1978 1997Included observations: 20Variable Coefficient Std. Error t-Statistic Prob.C 139.2362 718.2493 0.193855 0.8495X1 -0.051954 0.090753 -0.572483 0.5776X2 0.127532 0.132466 0.962751 0.3547X3 -24.29427 97.48792 -0.249203 0.8074X4 0.863283 0.186798 4.621475 0.0006X5 0.330914 0.105592 3.133889 0.0086X6 -0.070015 0.025490 -2.746755 0.0177X7 0.002305 0.019087 0.120780 0.9059R-squared 0.999222 Mean dependent var 5153.350Adjusted R-squared 0.998768 S.D. dependent var 2511.950S.E. of regression 88.17626 Akaike info criterion 12.08573Sum squared resid 93300.63 Schwarz criterion 12.48402Log likelihood -112.8573 F-statistic 2201.081Durbin-Watson stat 1.703427 Prob(F-statistic) 0.000000由此可见,该模型可绝系数很高,F检验值2201.081,明显显著。
201005多重共线性案例贵州旅游收入
影响贵州省旅游业收入的分析-----多重共线性问题的处理案例一.问题的提出近年来,由于中国经济的稳定高速增长,人们的消费水平和收入水平逐步提高,可支配人均收入的增加使得人们有更多的机会和经济基础出门旅游。
因此旅游业的发展逐渐成为一个重要的产业,所以,有必要对影响旅游业发展的因素进行分析,抓住主要因素更好的发展旅游业。
贵州省地处西南,旅游线路和资源相当丰富。
但是,经济却处于欠发达状态,如何有效地开发利用旅游资源发展旅游产业将对贵州经济增长是值得深入研究的问题。
众所周知,推动贵州旅游业发展的因素众多,如交通运输条件的改善、信息技术的发展、居民收入水平的提高等。
2008年,贵州省旅游总收入创下了653.13亿元的好成绩,较2007年净增140亿元,增长27.50%,旅游总收入在全国的排名由18位上升至17位;接待总人数8190.23万人次,同比增长30.77%。
2009年,贵州省全年共接待游客1.043亿人次,同比增长27.46%,旅游总收入805.23亿元,同比增长23.29%,远远超过了预期的780亿和20%的增长率。
本文主要对五个方面的因素进行多重共线性的分析,剔除具有严重共线性的解释变量,改善计量模型。
并最终确定影响贵州旅游发展的重要因素。
二. 模型设定1. 旅游影响因素的选择影响旅游市场收入的主要因素,除了国内旅游人数和居民消费外还有很多,但是应该挑选在长期内具有较稳定的变动趋势的因素、剔除随机性较强的因素如:自然灾害的发生;国内外突发事件或重大活动,如2008年的凝冻灾害、农运会的举办等。
此外还可能与基础设施建设有关,由于发达的交通方便了人们出门旅游,而收入的增加提供了经济支持。
综合上述分析,我们选取五个解释变量如下:X1:国内旅游人数(万人次); X2:城镇居民人均消费性支出(元); X3:农村居民人均消费性支出(元); X4:公路里程数(公里); X5:铁路旅程(公里); 2.模型形式的设计由于是根据实际数据进行实证分析,所以将被解释变量(Y )与五个解释变量进行回归分析,形式为 γγγγγγββββββ55443322110XXXXX +++++=Y三. 数据的收集本文收集了贵州省从1984年-2007年的24组数据。
实验五__多重共线性检验参考案例
实验五__多重共线性检验参考案例多重共线性检验是用来检验自变量之间是否存在高度相关性的一种方法。
在回归分析中,如果自变量之间存在高度相关性,会导致回归方程中的相关系数估计值不稳定,难以准确地解释自变量对因变量的影响。
因此,进行多重共线性检验是非常重要的。
下面将以一个案例来说明如何进行多重共线性检验。
假设我们想研究一些城市的房价与以下自变量相关性的影响:房屋面积、房间数量、距离市中心的距离。
我们采集了100个样本,并进行了回归分析。
首先,我们可以查看自变量之间的相关系数矩阵,以判断是否存在高度相关性。
下面是自变量之间的相关系数矩阵:房屋面积房间数量距离市中心的距离房屋面积10.80.2房间数量0.810.1距离市中心的距离0.20.11从相关系数矩阵可以看出,房屋面积和房间数量之间存在高度相关性,相关系数为0.8、这可能意味着两个自变量提供了类似的信息,在回归分析中可能会造成多重共线性的问题。
接下来,我们可以计算自变量的方差膨胀因子(VIF)来进一步检验多重共线性。
VIF是用来度量自变量之间相关度的指标,VIF值越大,说明自变量之间的共线性越强。
计算VIF的公式如下:VIF_i=1/(1-R_i^2)其中,VIF_i表示自变量i的VIF值,R_i^2表示通过其他自变量对自变量i进行回归分析得到的决定系数。
下面是计算三个自变量的VIF值:VIF_房屋面积=1/(1-0.8^2)=1.67VIF_房间数量=1/(1-0.8^2)=1.67VIF_距离市中心的距离=1/(1-0.1^2)=1.01从计算结果可以看出,三个自变量的VIF值都在可接受的范围内,说明它们之间并不存在严重的多重共线性问题。
最后,我们可以绘制自变量对因变量的散点图,以观察它们之间的关系。
如果自变量之间存在高度相关性,会导致散点图中观测点呈现出一种线性的形态。
综上所述,通过相关系数矩阵、VIF值以及散点图的分析,我们可以得出结论:在这个案例中,房屋面积、房间数量和距离市中心的距离之间不存在严重的多重共线性问题,可以继续进行回归分析。
多重共线性案例分析
第10章 案例分析
一、研究的目的要求
近年来,中国旅游业一直保持高速发展,旅游业作为国民经济新的增长点,在整个社会经济发展中的作用日益显现。
中国的旅游业分为国内旅游和入境旅游两大市场,入境旅游外汇收入年均增长22.6%,与此同时国内旅游也迅速增长。
改革开放20多年来,特别是进入90年代后,中国的国内旅游收入年均增长14.4%,远高于同期GDP 9.76%的增长率。
为了规划中国未来旅游产业的发展,需要定量地分析影响中国旅游市场发展的主要因素。
二、模型设定及其估计
经分析,影响国内旅游市场收入的主要因素,除了国内旅游人数和旅游支出以外,还可能与相关基础设施有关。
为此,考虑的影响因素主要有国内旅游人数2X ,城镇居民人均旅游支出3X ,农村居民人均旅游支出4X ,并以公路里程5X 和铁路里程6X 作为相关基础设
施的代表。
为此设定了如下对数形式的计量经济模型: 23456123456t t t t t t t Y X X X X X u ββββββ=++++++
其中 :t Y ——第t 年全国旅游收入
2X ——国内旅游人数 (万人)
3X ——城镇居民人均旅游支出 (元) 4X ——农村居民人均旅游支出 (元) 5X ——公路里程(万公里) 6X ——铁路里程(万公里)
为估计模型参数,收集旅游事业发展最快的1994—2003年的统计数据,如表4.2所示:
三、消除多重共线性
采用逐步回归的办法,去检验和解决多重共线性问题。
多重共线性案例
多重共线性案例:变量Y,X1,X2,X3,X4,X5的数据年Y X1X2X3X4X51974 98.45 560.2 153.20 6.53 1.23 1.891975 100.70 603.11 190.00 9.12 1.30 2.031976 102.80 668.05 240.30 8.10 1.80 2.711977 133.95 715.47 301.12 10.10 2.09 3.001978 140.13 724.27 361.00 10.93 2.39 3.291979 143.11 736.13 420.00 11.85 3.90 5.241980 146.15 748.91 491.76 12.28 5.13 6.831981 144.60 760.32 501.00 13.50 5.47 8.361982 148.94 774.92 529.20 15.29 6.09 10.071983 158.55 785.30 552.72 18.10 7.97 12.571984 169.68 795.50 771.16 19.61 10.18 15.121985 162.14 804.80 811.80 17.22 11.79 18.251986 170.09 814.94 988.43 18.60 11.54 20.591987 178.69 828.73 1094.65 23.53 11.68 23.37资料来源:《天津统计年鉴》1988.用1974-1987年数据建立天津市粮食需求模型如下,Y = -3.49 + 0.13 X1 + 0.07 X2 + 2.67 X3 + 3.44 X4– 4.49 X5(-0.11) (2.12) (1.95) (2.13) (1.41) (-2.03)R2 = 0.97, F = 52.59, T = 14, t0.05(8) = 2.31, (1974-1987)其中Y:粮食销售量(万吨/ 年),X1:市常住人口数(万人),X2:人均收入(元/ 年),X3:肉销售量(万吨/ 年),X4:蛋销售量(万吨/ 年),X5:鱼虾销售量(万吨/ 年)。
多重共线性案例分析
ln Y = 2.1898 + 0.3426ln X1 − 0.5046ln X 2 + 0.1485ln X3 + 0.0911ln X 4 se = ( 0.1557) ( 0.0833) ( 0.1109 ) ( 0.0997 ) ( 0.1007 ) (1.49 ) ( 0.90 ) ( −4.55) t = (14.06 ) ( 4.11)
ln Y = 2.1255 + 0.4059 ln X 1 − 0.4388ln X 2 + 0.1067 ln X 3 ( 0.0878) ( 0.0833) se = ( 0.1379 ) ( 0.0448) t = (15.4153) ( 9.0625) ( −5.2660 ) (1.2142 ) ( 0.0000 ) ( 0.2395) ( 0.0000 ) p值 = ( 0.0000 )
回归元之间的相关系数均大于0.8, 回归元之间的相关系数均大于 ,表明多重共线性是 严重的
(3)辅助回归
① ln( X 1 ) = 0.9461 − 0.8324 ln( X 2 ) + 0.9483ln( X 3 ) + 1.0176 ln( X 4 )
R 2 = 0.9846
R 2 = 0.9822 F = 406.0592 p值 = 0.0000 R 2 = 0.9428 F = 104.41
14.06283 0.0007 0.0002 0.1535 0.3776
0.0000
R-squared 0.982313 Adjusted R-squared 0.978383 S.E. of regression 0.027591 Sum squared resid 0.013703 Log likelihood 52.75935 F-statistic 249.9282 Prob(F-statistic) 0.000000
第5章多重共线性的情形及其处理
记
C=(cij)=(X*′X*)-1 称其主对角线元素VIFj=cjj为自变量xj的方差扩大因子(Variance Inflation Factor,简记为VIF)。根据OLS性质3可知,
var(ˆ j ) cjj 2 / Ljj , j 1,, p
外,除非我们修改容忍度的默认值。
§5.2 多重共线性的诊断
以下用SPSS软件诊断例3.2中国民航客运量一例中的多重共线性问题。
Coeffi ci entsa
Unst andardized Coef f icients
Std.
B
Error
(C onstant ) 450. 909 178. 078
X1
每个数值平方后再除以特征值,然后再把每列数据 除以列数据之和,使得每列数据之和为1,这样就 得到了输出结果6.2的方差比。
再次强调的是线性回归分析共线性诊断中设计 阵X包含代表常数项的一列1,而因子分析模块中 给出的特征向量是对标准化的设计阵给出的,两者 之间有一些差异。
三、 等级相关系数法 (Spearman Rank Correlation )
根据矩阵行列式的性质,矩阵的行列式等于其 特征根的连乘积。因而,当行列式|X′X|≈0时, 矩 阵X′X至少有一个特征根近似为零。反之可以证明, 当矩阵X′X至少有一个特征根近似为零时,X 的列 向量间必存在复共线性,证明如下:
记X =(X0 ,X1,…,Xp),其中 Xi为X 的列向量, X0 =(1,1,…,1)′是元素全为1的n维列向量。 λ是矩阵X′X的一个近似为零的特征根,λ≈0 c=(c0,c1, …,cp)′是对应于特征根λ的单位特征向量,则
多重共线性(Multi-Collinearity)
i 0 1 1i 2 2i
k ki i
(i=1,2,…,n)
其基本假设之一是解释变量
X,
1
X2,,
X
k
互相独立 。
如果某两个或多个解释变量之间出现了相关性, 则称为多重共线性。
如果存在
c1X1i+c2X2i+…+ckXki=0
i=1,2,…,n
其中: ci不全为0,即某一个解释变量可以用其它解释 变量的线性组合表示,则称为解释变量间存在完全
2
1
x12i 1 r 2
2
x12i
所以,多重共线性使参数估计量的方差增大。
方差扩大因子(Variance Inflation Factor)为1/(1-r2), 其增大趋势见下表:
相关系 0 0.5 0.8 0.9 0.95 0.96 0.97 0.98 0.99 0.999 数平方 方差扩 1 2 5 10 20 25 33 50 100 1000 大因子
多重共线性(Multi-Collinearity)
§2.8 多重共线性
Multi-Collinearity
一、多重共线性的概念 二、多重共线性的后果 三、多重共线性的检验 四、克服多重共线性的方法 五、案例
一、多重共线性的概念
1、多重共线性
• 对于模型
Y X X X
以二元回归模型中的参数估计量ˆ 为例,ˆ 的方差为
1
1
Var(ˆ )
1
ˆ 2
(X X
)1
22
(
ˆ
2
(
x2
2i
)
x2 )( x2 ) ( x
多重共线性分析案例
多重共线性分析案例例用1974-1987年数据建立天津市粮食需求模型如下:表1 变量y,x1,x2,x3,x4,x5的数据年y x1x2x3x4x51974 98.45 560.2 153.20 6.53 1.23 1.891975 100.70 603.11 190.00 9.12 1.30 2.031976 102.80 668.05 240.30 8.10 1.80 2.711977 133.95 715.47 301.12 10.10 2.09 3.001978 140.13 724.27 361.00 10.93 2.39 3.291979 143.11 736.13 420.00 11.85 3.90 5.241980 146.15 748.91 491.76 12.28 5.13 6.831981 144.60 760.32 501.00 13.50 5.47 8.361982 148.94 774.92 529.20 15.29 6.09 10.071983 158.55 785.30 552.72 18.10 7.97 12.571984 169.68 795.50 771.16 19.61 10.18 15.121985 162.14 804.80 811.80 17.22 11.79 18.251986 170.09 814.94 988.43 18.60 11.54 20.591987 178.69 828.73 1094.65 23.53 11.68 23.37资料来源:《天津统计年鉴》1988.设回归模型:Y=β0+β1X1+β2X2+β3X3+β4X4+β5X5+ε利用spss统计软件进行线性回归(点选Statistics选项框中Collinearity共线性诊断选项),设显著性水平0.05,输出结果如下:从回归方程的P检验结果看出Sig=0,整体通过显著性检验。
从输出结果看,在0.05的显著性水平下,βi的t统计量单独对因变量y都无显著性影响(P 值都大于0.05)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第10章 案例分析
一、研究的目的要求
近年来,中国旅游业一直保持高速发展,旅游业作为国民经济新的增长点,在整个社会经济发展中的作用日益显现。
中国的旅游业分为国内旅游和入境旅游两大市场,入境旅游外汇收入年均增长22.6%,与此同时国内旅游也迅速增长。
改革开放20多年来,特别是进入90年代后,中国的国内旅游收入年均增长14.4%,远高于同期GDP 9.76%的增长率。
为了规划中国未来旅游产业的发展,需要定量地分析影响中国旅游市场发展的主要因素。
二、模型设定及其估计
经分析,影响国内旅游市场收入的主要因素,除了国内旅游人数和旅游支出以外,还可能与相关基础设施有关。
为此,考虑的影响因素主要有国内旅游人数2X ,城镇居民人均旅游支出3X ,农村居民人均旅游支出4X ,并以公路里程5X 和铁路里程6X 作为相关基础设
施的代表。
为此设定了如下对数形式的计量经济模型: 23456123456t t t t t t t Y X X X X X u ββββββ=++++++
其中 :t Y ——第t 年全国旅游收入
2X ——国内旅游人数 (万人)
3X ——城镇居民人均旅游支出 (元) 4X ——农村居民人均旅游支出 (元) 5X ——公路里程(万公里) 6X ——铁路里程(万公里)
为估计模型参数,收集旅游事业发展最快的1994—2003年的统计数据,如表4.2所示:
三、消除多重共线性
采用逐步回归的办法,去检验和解决多重共线性问题。