第6章 多重共线性
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
6.3.1 相关系数检验法(Klein判别法)
EViews软件中可以直接计算(解释)变量的相关 系数矩阵: [命令方式] COR 解释变量名 [菜单方式] 将所有解释变量设置成一个数组, 并 在 数 组 窗 口 中 点 击 View \ Covariance Analysis…\Correlations 。
表6.3.2
回归结果
住房面积的系数在方程(6.3.7)中是显著的,在方程(6.3.8)中不 显著;从F统计量值可以看出,收入和住房面积对电力消费量的共同影响 是显著的。
(1)相关系数检验:数组窗口中点击View\Correlations,结果如表
6.3.3所示: 表6.3.3 相关系数
X1与X2相关系数高达0.963124,两者高度正相关。
量之间的多重共线性
6.2 多重共线性造成的影响
以二元线性回归模型为例:
由此可知,参数估计量经济含义不合理。当解
释变量存在多重共线性时,虽然可以得到参数的最
小二乘估计值,但估计值很不稳定,即使样本观测 数据发生微小变化,都会造成模型参数估计值的很 大变化。
6.3
多重共线性的检验
1996 1997 1998
57494.9
66850.5 73142.7 78017.8
11048.1
11557.4 11806.5 11622.4
302.9
328.0 337.2 334.5
根据表6.4.2中的数据,回归结果如表6.4.3所示。
表6.4.3 回归结果
回归结果表明,在 5% 的显著性水平下,收入和 价格的系数各自均不是统计显著的。模型通过F检验
年人均可支配收入 指数(1978=100) 243.17 254.28 265.39 277.61
1989
1990 1991 1992 1993 1994 1995 1996 1997
35.3
42.4 46.9 54.6 61.2 72.7 83.5 93.1 101.8
14.42
14.87 15.44 15.64 16.99 16.65 17.25 17.82 18.33
440
400
360
X2
320 280 240 12 13 14 15 X1 16 17 18 19
图6.3.1 住房面积与收入之间的关系图 (2)辅助回归模型检验:将住房面积对收入进行回归,住房面积与收入之
间存在显著的线性关系。
(3)方差膨胀因子检验:
6.4 多重共线性的解决方法
6.4.1 6.4.2 保留重要的解释变量,去掉次要的 利用先验信息改变参数的约束形式
第6章 多重共线性
6.1 多重共线性及其产生的原因
6.1.1 多重共线性(Multicollinearity)的定义
6.1.2 多重共线性产生的原因
根据经验,多重共线性产生的经济背景和原因有以下
几个方面: 1.经济变量之间往往存在同方向的变化趋势
2.经济变量之间往往存在着密切的关联度
3.在模型中引入滞后变量也容易产生多重共线性 4 .在建模过程中由于解释变量选择不当,引起了变
6.3.2 法勒—格劳伯(Farrar—Glauber)检验
6.3.3
方差膨胀因子检验
6.3.4 特征值检验
考察解释变量的样本数据矩阵:
利用特征值还可以构造两个用于检验多重共线性的指标:条件数(或病态 数) CN ( Condition Number ) 和条件指数( 或病态指数) CI(Condition lndex)。其指标定义为
从以上辅助回归模型中的R2、F统计量的数值可以看出,
解释变量 X1 、 X2 、 X3 、X4 、 X5 之间存在较为严重的多重共 线性。
(3)方差膨胀因子检验
从以上辅助回归模型可知, VIF1 =17.9 ; VIF2 =19.2 ; VIF3 =4.4;VIF4 =10.9;VIF5 =20。明显大于10,解释变量
的线性回归模型是有误的。
例6.4.2 根据表6.4.2,建立我国进口需求与GNP和消费价格指数之
间的关系模型。 表6.4.2
年份 1985 1986 1987 1988
我国进口支出与GNP和消费价格指数 (单位:亿元人民币)
GNP(当年价) 8989.1 10201.4 11954.5 14922.3 进口总额IM 1257.8 1498.3 1614.2 2055.1 消费价格指数CPI 100.0 106.5 114.3 135.8
利用EViews软件,输入Y、X1、X2、X3、X4、X5等数据,采用
这些数据对模型进行OLS回归,结果如表6.5.2所示。 表6.5.2 回归结果
由此可见,该模型可决系数很高,F检验值173.353,明显显著。 但是X1、X5系数的t检验不显著,而且X5系数的符号与预期的相反,
这表明很可能存在严重的多重共线性。
X1 0.084 8.666 0.904 0.892
X2 9.052 13.160 0.956 0.950
X3 11.667 5.197 0.772 0.743
X4 34.332 6.468 0.839 O.820
X5 2014.146 8.749 0.905 0.894
其中,Y为全国旅游收入(亿元);X1为国内旅游人数(万人/次); X2为城镇居民人均旅游支出(元);X3为农村居民人均旅游支出(元); X4为公路里程(万km);X5为铁路里程(万km)。 表6.5.1 1994~2003年中国旅游收入及相关数据
年 份 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003
1.多重共线性检验
(1)相关系数检验 在命令窗口键入:COR Y X1 X2 X3 X4 X5,输出的相关系 数矩阵为 表6.5.3 相关系数矩阵
由相关系数矩阵可以看出,各解释变量相互之间的相关系数较高,
证实确实存在严重多重共线性。
(2)辅助回归模型检验 建立每个解释变量对其余解释变量的辅助回归模型:
或可替代的解释变量
根据经济理论或其他信息,找出参数间的某 种关系,并将这种关系作为约束条件与样本信息 结合起来,进行有约束的最小二乘估计。例如,
著名的Cobb-Douglas生产函数中:
6.4.3
变换模型的形式
对原设定的模型进行适当的变换,也可以消除或 削弱原模型中解释变量之间的相关关系。具体有三种 变换方式,一是变换模型的函数形式;二是变换模型
6.4.6 增加样本容量
6.4.7
主成分回归
其基本原理是:利用主成分分析将解释变量转换成若
干个主成分,这些主成分从不同侧面反映了解释变量的综
合影响,并且互不相关。因此,可以将被解释变量关于这 些主成分进行回归,再根据主成分与解释变量之间的对应
关系,求得原回归模型的估计方程。
主成分回归的具体步骤为
6.5
6.4.5
逐步回归法
从所有解释变量中间先选择影响最为显著的变量建立模型,然后再将 模型之外的变量逐个引入模型;每引入一个变量,就对模型中的所有变量 进行一次显著性检验,并从中剔除不显著的变量;逐步引入——剔除——
引入,直到模型之外所有变量均不显著时为止。这种消除多重共线性的方
法称为逐步回归法也称Frisch综合分析法。
。我们可以断定方程(6.4.5)中存在严重的多重共线
性。为解决这个问题,我们可以用实际进口额对实
际收入进行回归,得到如下结果:
表6.4.4 回归结果
这表明,实际进口额与实际收入显著正相关。这样,通过将名义变量
转换为实际变量,显然削弱了原模型中的多重共线性。
6.4.4
综合使用时序数据与截面数据
在模型的参数估计中,如果模型利用的是时间序列数据,这时模型又 存在多重共线性,可考虑用时间序列数据与截面数据相结合的办法来修正 多重共线性对模型的影响。
1989
1990 1991 1992 1993 1994
16917.8
18598.4 21662.5 26651.9 34560.5 46670.0
2199.9
2574.3 3398.7 4443.3 5986ห้องสมุดไป่ตู้2 9960.1
160.2
165.2 170.8 181.7 208.4 258.6
1995
CN=最大特征值/最小特征值
这两个指标都反映了特征值的离散程度,数值越大,表明多重共线性 越严重。一般的经验法则是:CI>10即认为存在多重共线性,大于30认为存
在严重的多重共线性。
6.3.5 根据回归结果判断
下的临界值,而发现:(1 )系数估计值的符号与理论分析结果 相违背;;( 2 )某些变量对应的回归系数 t 值偏低或不显著; (3 )当一个不太重要的解释变量被删除后,或者改变一个观测 值时,回归结果显著变化,则该模型可能存在多重共线性。 例 6.3.1 6.3.1)。
X1、X2、X3、X4、X5之间存在较为严重的多重共线性。
2.修正多重共线性:逐步回归法
采用逐步回归的办法,去检验和解决多重共线性问题。分别
做Y对X1、X2、X3、X4、X5的一元回归,结果如表6.5.4所示。
表6.5.4 一元回归结果(被解释变量为Y,下同)
解释变量 参数估计值 t统计量 R2 调整的R2
的变量形式;三是改变变量的统计指标。
例6.4.1 在电力消费量函数中,电力消费量与收
入和住房面积之间可能是对数形式的模型,而不是线
性模型。我们利用对数模型拟合上述数据,结果如下:
表6.4.1 回归结果
与方程(6.3.8)相比,在对数模型中,收入和住房面积系数在统 计上都是显著的,回归模型在整体上也是显著的。说明我们原先设计
273.49
281.33 289.71 307.66 321.07 339.33 356.58 383.95 399.85
首先,作家庭电力消耗量电量与家庭可支配收入的回归模型,结果如下:
可见,收入对用电量有很好的解释作用。
然后,作用电量与住房面积的的回归方程,结果如下:
同样,住房面积对电力也有很好的解释作用。作二元回归方程,结果如下:
案例分析——我国旅游市场收入函数
根据理论和经验分析,影响国内旅游市场收入 Y的主要因素,除
了国内旅游人数和旅游支出以外,还可能与相关基础设施有关。为此, 考虑的影响因素主要有国内旅游人数X1,城镇居民人均旅游支出X2,
农村居民入均旅游支出 X3,并以公路里程X4 和铁路里程 X5作为相关
基础设施的代表。统计数据如表6.5.1所示。试估计以下形式的计量经 济模型:
具体步骤为
(1) 利用相关系数从所有解释变量中选取相关性最强的变量
建立一元回归模型。 (2)在一元回归模型中分别引入第二个变量,共建立k-1个二 元回归模型(设共有k个解释变量),从这些模型中再选取一个较 优的模型。选择时要求模型中每个解释变量影响显著,参数符 号正确,调整的R2值有所提高。 (3) 在选取的二元回归模型中以同样方式引入第三个变量; 如此下去,直至无法引入新的变量时为止。
表6.3.1 我国居民家庭电力消耗量与可支配收入及居住面积统计资料
分析我国居民家庭电力消耗量与可支配收入及居
住面积的关系,以预测居民家庭对电力的需求量(具体数据见表
年度 1985 1986 1987 1988
年人均家庭电力消耗 量(千瓦小时) 21.2 23.2 26.4 31.2
人均居住面积 (平方米) 12.45 13.02 13.49 13.94
城镇居民人 均旅游支出 (元) 414.7 464.O 534.1 599.8 607.0 614.8 678.6 708.3 739.7 684.9
农村居民人 公路里 铁路里 均旅游支出 程(万km) 程(万km) (元) 54.9 61.5 70.5 145.7 197.0 249.5 226.6 212.7 209.1 200.0 111.78 115.70 118.58 122.64 127.85 135.17 140.27 169.80 176.52 180.98 5.90 5.97 6.49 6.60 6.64 6.74 6.87 7.01 7.19 7.30
全国旅游 收入(亿 元) 1023.5 1375.7 1638.4 2112.7 2391.2 2831.9 3175.5 3522.4 3878.4 3442.3
国内旅游人 数(万人/ 次) 52400 62900 63900 64400 69450 71900 74400 78400 87800 87000