回归模型中多重共线性的情形及其处理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

丫= 1+ 8人-4人+ 3为=1 + 8人-(3X2+ 2)+ 3为=7+ 8人-9%

(1.5)

在(1.4)中,X2的系数为12,表示丫与为成正比例关系,即正相关;而在(1.5)中,X2的系数为-9,表示丫与X?成负比例关系,即负相关。如此看来,同一个方程丫= 1+ 4片+ 3X2变换出的两个等价方程,由于不同的因式分解和替换,导致两个方程两种表面上矛盾的结果。

实际上,根据X1 = 3为+ 2式中的X1与为的共线性,X1约相当于3X2, 在(1.4)减少了3人,即需要用9个X2来补偿;而在(1.5)增加了4人, 需要用12个X2来抵消,以便保证两个方程的等价性,这样一来使得(1.5)中为的系数变为了负数。从上述分析看来,由于X i与勺的共线性,使得同一个方程有不同的表达形式,从而使得丫与为间的关系难以用系数解释。2•对多重线性关系的初步估计与识别

如果在实际应用中产生了如下情况之一,则可能是由于多重共线性的存在而造成的,需作进一步的分析诊断。

①增加(或减去)一个变量或增加(或剔除)一个观察值,回归系数发生了较大变化。

②实际经验中认为重要的自变量的回归系数检验不显著。

③回归系数的正负号与理论研究或经验相反。

④在相关矩阵中,自变量的相关系数较大。

⑤自变量回归系数可信区间范围较广等。

3•对多重共线性本质的认识

多重共线性可分为完全多重共线性和近似多重共线性(或称高度相关性),现在我们集中讨论多重共线性的本质问题。多重共线性普遍被认为是数据问题或者说是一种样本现象。我们认为,这种普遍认识不够全面,对多重共线性本质的认识,至少可从以下几方面解解。

(3)检验解释变量相互之间的样本相关系数。假设我们有三个解释变

量X i、X2、X3,分别以「12、「13、「23 来表示X i 与X2、X i 与X3、X2与X3之间的两两相关系数。假设r i2 = 0.90,表明X i与X2之间高度共线性,现在我们来看相关系数「12,3,这样一个系数我们定义为偏相关系数,它是在变量

X3为常数的情况下,X i与X2之间的相关系数。假定「12,3 = 0.43,就表明在变量

X3保持不变的条件下,X1与X2之间的相关系数仅仅是0.43,但若不考虑X3的影响,两者之间的相关系数却是0.90。这说明,根据偏相关系数, 我们无法断定X1与X2之间具有很高的共线性。

上述讨论表明,在存在多个解释变量的情况下,不能仅仅依赖两两相关系数来判断多重共线性。偏相关系数代替简单的两两相关系数并未提供一个检验多重共线性存在与否的确切依据,仅仅是检验多重共线性性质的另一个手段。

(4)从属或者辅助回归。既然多重共线性是指一个或者多个解释变量是其他解释变量的线性(或接近线性)组合,那么检验模型中哪个解释变量与其他解释变量高度共线性的方法就是作为每个解释变量对其他剩余解释变量的回归并计算相应的R2值。其中的每一个回归都被称为从属或者辅助回归,从属于Y对所有变量的回归。

例如,考虑Y对X" X2、X3、X4、X5和X6这6个解释变量的回归。如果回归结果表明存在多重共线性,比如说,R2值很高,但解释变量的系

数很少是统计显著的,其原因,就在于一个或者多个解释变量是其他解释变量的线性(或接近线性)组合,找出这一组合具体方法是:①作X i对其他剩余解释变量的回归,求出拟合优度R i2;②作X2对其他剩余解释变量的回归,求出拟合优度系数R22;,,,重复上述步骤,直到作出所有的6个辅助回归。

如何判断哪些解释变量是共线性的呢?估计的R i2值介于0和1之间。如果某个解释变量不是其他变量的线性组合,则该回归方程的R i2值不会显

著不为零。根据方程的F值,我们知道应该如何去检验假设:某个方程的拟合优度

显著为零

假定我们想要检验假设:R I2=0,也就是X i与其他5个解释变量不存在共线性。根据F与R2定义,我们有:

匚R2/(k1)

(4.1)

尸—2

(1-R2)/(n-k)

其中n是观察值的个数,k是包括截距在内的解释变量的个数。具体说明如下:

在这个例子中,假设有一个容量为50的随机样本,对每个解释变量作剩余变量的回归分析。各辅助回归的R2值如下:

表4-1检验R2值的显著性

如表所示,变量X i、X3、X4、X5、X6看来与其他变量有共线性,尽管共线性的程度差别很大。由此得出的结论是:“看似”较低的R2,比如0.36, 却可能是统计显著不为零。可见,此例中存在较高的多重共线性。

辅助回归技术的一个缺陷是它的计算较为繁琐。如果一个回归方程包含若干个解释变量,则我们不得不计算好几个辅助回归方程,因此,这种方法实用性不强。但需要指出的是,现在已经有很多统计软件可以用来计算辅助回归方程。

(5)方差膨胀因素。即使模型并未包括太多的解释变量,从各个辅助

的回归方程中得的R 2值也未必可以用于诊断共线性。以下面的二元回归方 程为例

Y = b o + b i X i + b 2 X 2

可以证明参数估计量的方差可写为:

_ 2 _ 2 var(b j )二一2

2 - 厂VIF ' X ji (1R i )

、x r 1 VIF = (1- R i 2) R 12是X i 和X 2之间辅助回归方程的拟合优度。VIF 形象地称为方差膨 胀因素,因为随着辅助方程拟合优度 R i 2的增加,斜率系数的方差也增加。 特别地,如果辅助回归方程的拟合优度为

1 (即完全多重共线性),斜率系 数的方差和标准差没有任何意义。当然,如果 R i 2为零,那么就不存在共线 性,VIF 的值为i 。我们也就不必担心由于方差(标准差)较大而带来的问 题。

现在一个重要问题是,假设在辅助回归方程中,R i 2值很高(但小于i ), 表明存在较高程度的共线性。但是从(i0)式可以清楚地看到,斜率系数的方 差不仅仅取决于VIF ,而且还取决于的误差项u i 的方差匚2和解释变量X j 的 方差a x2

。因此,以下的情形是很有可能性的:R i 2值很高,比如说是0.96, 但是二2较低或者' 用较高,或者是两种情况同时出现,以至于斜率系数的方 差较低,t 值较高。换句话说,较高的 R 2可能被一个较低的二2较低或者较

2

高的Xji

值所抵消。当然,高和低是相对而言的。 所有这些都表明,辅助回归方程中的 R 2可能只是多重共线性的一个表 面指示器。如前所述,它并不一定扩大估计量的标准差。更正规的表述为, “辅助回归方程中较高的R 2既不是较高斜率系数标准差的必要条件也不是 充分条件。多重共线性本身并不一定导致较高的斜率系数标准差。

从上面讨论的各种多重共线性的检验方法中,我们能得出结论:检验 多重共线性有多种不同的方法,却没有一种绝对方法。毕竟,多重共线性 是一个程度问题,它是一个与样本相关的现象。有时,可以容易地检验出 多重共线性,但更多的(4.2)

(4.3)

(4.4)

相关文档
最新文档