4.2 多重共线性产生的后果
第四章 多重共线性
二、产生多重共线性的背景
多重共线性产生的经济背景主要有几种情形: 1.经济变量之间具有相同的变化趋势。 2.模型中包含滞后变量。 3.利用截面数据建立模型也可能出现多重共线性。 4.样本数据的原因。
6
第二节 多重共线性的后果
一、完全多重共线性产生的后果
1.参数的估计值不确定 2.参数估计值的方差无限大
Cov( ˆ2 ,
ˆ3 )
(1
r223 )
r23 2
x22i
x32i
随着共线性增加,r23趋于1,方差将增大。同样 协方差的绝对值也增大,它们增大的速度决定于
方差扩大(膨胀)因子(variance inflation factor, VIF)
VIF
1
1 r223
这时
Var(ˆ2 )
4.多重共线性严重时,甚至可能使估计的回归系数 符号相反,得出完全错误的结论。(如引例)
18
第三节 多重共线性的检验
本节基本内容: 简单相关系数检验法 方差扩大因子法 直观判断法 病态指数检验法 逐步回归法
19
一、简单相关系数检验法 简单相关系数检验法是利用解释变量之间的线性 相关程度去判断是否存在严重多重共线性的一种 简便方法。适用于只有两个变量的情形。
2
x32i 0
同理
ˆ3
这说明完全多重共线性时,参数估计量的方差将 变成无穷大。
9
关于方差的推导
Var(ˆ2 )
x32i (x22i ) (x32i )
(x2i x3i )2
2
1 X21 X 1 X22
1 X2n
第四章第二节 多重共线性产生的后果
Y E(Y ) 1 2 X2 3 X3
二元线性回归模型 Y 1 2 X 2 3 X3 u
其离差形式为: y 2 x2 3x3 u
y 2 x2 3 x3 e
2和 3 的估计式
ˆ2 (
yx2 )( x32 ) ( yx3 )( x2 x3 ) ( x22 )( x32 ) ( x2 x3 )2
x31x32 x3n xk1xk 2xkn (k1)n
y x e, xy xx xe xx ,即为正规方程组
x21x22 x2n y1 x31x32 x3n y2 xk1xk2 xkn yn
r24 0.9632 r35 0.8435 r46 0.9248
r25 0.4569 r36 0.5494 r56 0.5438
r26 0.8569
表明一些解释变量之间确实存在共线性。
***离差形式的最小二乘估计量
多元线性总体回归模型有:
Yi 1 2 X 2i 3 X 3i k X ki ui Y 1 2 X2 3 X3 k Xk Yi Y 2 ( X 2i X 2 ) 3 ( X 3i X 3 ) k ( X ki X k ) ui yi 2 x2i 3 x3i k xki ui
x22 )2
x22 )
(
yx2
) 2 ( y)( ( x22 )( 2 )
x22 )
通过上式可以看出,随着 X2、X3 共线性程度的越
高,即 愈向零靠近,从而 ˆ2 就会愈趋向于不确定
计量经济学(第四章多重共线性)
06
总结与展望
研究结论总结
多重共线性现象普遍存在于经济数据中,对计量 经济学模型的估计和解释产生了重要影响。
通过使用多种诊断方法,如相关系数矩阵、方差膨 胀因子(VIF)和条件指数(CI),可以有效地识别 多重共线性问题。
在存在多重共线性的情况下,普通最小二乘法 (OLS)估计量虽然仍然是无偏的,但其方差可能 变得很大,导致估计结果不稳定。
主成分分析法的优点
可以消除多重共线性的影响,同 时降低自变量的维度,简化模型。
岭回归法
岭回归法的基本思想
通过在损失函数中加入L2正则化项(即所有自变量的平方和),使得回归系数的估计更加稳定, 从而消除多重共线性的影响。
岭回归法的步骤
首先确定正则化参数λ的值,然后求解包含L2正则化项的损失函数最小化问题,得到岭回归系数的估 计值。
逐步回归法的优点
可以自动选择重要的自变量,同时消除多重共线性的影响。
主成分分析法
主成分分析法的基本思想
通过正交变换将原始自变量转换 为互不相关的主成分,然后选择 少数几个主成分进行回归分析。
主成分分析法的步骤
首先对原始自变量进行标准化处理, 然后计算相关系数矩阵并进行特征值 分解,得到主成分及其对应的特征向 量。最后,选择少数几个主成分作为 新的自变量进行回归分析。
岭回归法的优点
可以有效地处理多重共线性问题,同时避免过拟合现象的发生。此外,岭回归法还可以提供对所 有自变量的系数进行压缩估计的功能,使得模型更加简洁易懂。
05
实证研究与结果分
析
数据来源及预处理
数据来源
本研究采用的数据集来自于公开的统 计数据库,涵盖了多个经济指标和影 响因素的观测值。
数据预处理
第四章 多重共线性 思考题
第四章 多重共线性 思考题4.1 多重共线性的实质是什么 ? 为什么会出现多重共线性 ? 4.2 多重共线性对回归参数的估计有何影响 ?4.3 多重共线性的典型表现是什么 ? 判断是否存在多重共线性的方法有哪些 ? 4.4 针对出现多重共线性的不同情形 , 能采取的补救措施有哪些 ?4.5 在涉及相关的宏观经济总量指标如 GDP 、货币供应量、物价总水平、国民总收入、就业人数等时间序列的数据中一般都会怀疑有多重共线性 , 为什么 ?4.6 多重共线性的产生与样本容量的个数n 、解释变量的个数k 是有无关系 ? 4.7 具有严重多重共线性的回归方程能否用来进行预测 ? 4.8 岭回归法的基本思想是什么 , 它对降低共线性有何作用 ? 4.9 以下陈述是否正确 ? 请判断并说明理由。
1) 在高度多重共线性的情形中 , 要评价一个或多个偏回归系数的单个显著性是不可能的。
2) 尽管有完全的多重共线性 ,OLS 估计量仍然是BLUE 。
3) 如果有某一辅助回归显示出高的2j R 值,则高度共线性的存在是肯定无疑的。
4) 变量的两两高度相关并不表示高度多重共线性。
5) 如果其他条件不变 ,VIF 越高 ,OLS 估计量的方差越大。
6) 如果在多元回归中,根据通常的t 检验,全部偏回归系数分别都是统计上不显著的 ,你就不会得到一个高的2R 值。
7) 在 Y 对2X 和3X 的回归中 , 假如3X 的值很少变化 ,这就会使Var(3ˆβ)增大 , 在极端的情形下 , 如果全部3X 值都相同 ,Var(3ˆβ)将是无穷大。
8) 如果分析的目的仅仅是预测 , 则多重共线性是无害的。
练习题 4.1 假设在模型12233ii i i Y X X u βββ=+++中 ,2X 与3X 之间的相关系数为零 , 于是有人建议你进行以下回归。
1221i i i Y X u αα=++ 1332i i i Y X u γγ=++是否存在2ˆα=2ˆβ且3ˆγ=3ˆβ?为什么 ? 2) 1ˆβ会等于1ˆα或1ˆγ或两者的某个线性组合吗 ? 3) 是否有Var(2ˆβ)且Var(2ˆα)且Var (3ˆβ)=Var(3ˆγ)? 4.2 在决定一个回归模型的 " 最优 " 解释变量集时人们常用逐步回归的方法,在逐步回归中既可采取每次引进一个解释变量的程序 ( 逐步向前回归 ), 也可以先把所有可能的解释变 量都放在一个多元回归中 , 然后逐一地将它们剔除 ( 逐步向后回归 ) 。
用主成分法解决多重共线性问题
用主成分法解决多重共线性问题一、多重共线性的表现线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系。
看似相互独立的指标本质上是相同的,是可以相互代替的,但是完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。
二、多重共线性的后果1.理论后果多重共线性是因为变量之间的相关程度比较高。
按布兰查德认为, 在计量经济学中, 多重共线性实质上是一个“微数缺测性”问题,就是说多重共线性其实是由样本容量太小所造成,当样本容量越小,多重共线性越严重。
多重共线性的理论主要后果:(1)完全共线性下参数估计量不存在;(2)近似共线性下OLS估计量非有效;(3)模型的预测功能失效;(4)参数估计量经济含义不合理2.现实后果(1)各个解释变量对指标最后结论影响很难精确鉴别;(2)置信区间比原本宽,使得接受假设的概率更大;(3)统计量不显著;(4)拟合优度的平方会很大;(5)OLS估计量及其标准误对数据微小的变化也会很敏感。
三、多重共线性产生的原因1.模型参数的选用不当,在我们建立模型时如果变量之间存在着高度的相关性2. 由于研究的经济变量随时间往往有共同的变化趋势,他们之间存在着共性。
例如当经济繁荣时,反映经济情况的指标有可能按着某种比例关系增长3. 滞后变量。
滞后变量的引入也会产生多重共线行,例如本期的消费水平除受本期的收入影响之外,还有可能受前期的收入影响,建立模型时,本期的收入水平就有可能和前期的收入水平存在着共线性。
四、多重共线性的识别1.方差扩大因子法( VIF)一般认为如果最大的VIF超过10,常常表示存在多重共线性。
2.容差容忍定法如果容差(tolerance)<=0.1,常常表示存在多重共线性。
3. 条件索引条件索引(condition index)>10,可以说明存在比较严重的共线性。
五、多重共线性的处理方法处理方法有多重增加样本容量、剔除因子法、PLS(偏最小二乘法)、岭回归法、主成分法。
计量经济学第四章 多重共线性
x2i
3 2
x3i
x3i
参数的估计值为:
ˆ2
x32i x2i yi x2i x3i x3i yi
(
x22i )(
x32i ) (
x2i
x 3i
)2
x32i
2
x3i yi x32i 2 2
x32i x32i
x2i x3i x22i
x2i x3i
ˆ1 Y ˆ2 X 2 ˆ3 X 3
ˆ2
x32i x2i yi x2i x3i x3i yi ( x22i )( x32i ) ( x2i x3i )2
ˆ3
x22i x3i yi x2i x3i x2i yi •
(
x22i )(
x32i ) (
x2i
x 3i
)
2
x2i yi x3i yi
x2i x3i x32i
4.2多重共线性的后果
如果X1和X2完全线性相关,则存在非0的λ使得:
1 2 X 2i 3 X 3i 0
则有:
1 2 X 2 3 X 3 0
2 X 2i X 2 3 X3i X3 0
X 2i X3i X 2iYi
X
2 3i
X
3iYi
VAR
COV
(βˆ )
2
(XX)1
2
N X 2i
X 3i
X2i
X
2 2i
X 2i X 3i
多重共线性
具体可进一步对上述回归方程作F检验:
构造如下F统计量
Fj R 2. /(k 2) j (1 R ) /(n k 1)
2 j.
~ F (k 2, n k 1)
式中:Rj•2为第j个解释变量对其他解释变量的回
归方程的决定系数,
若存在较强的共线性,则Rj•2较大且接近于1,这
例 如 :
年份 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
C 1759.1 2005.4 2317.1 2604.1 2867.9 3182.5 3674.5 4589.0 5175.0 5961.2 7633.1 8523.5 9113.2 10315.9 12459.8 15682.4 20809.8 26944.5 32152.3 34854.6 36921.1 39334.4 42911.9
以逐步回归法得到最广泛的应用。
注意:
这时,剩余解释变量参数的经济含义和数值都 发生了变化。
2、第二类方法:差分法 时间序列数据、线性模型:将原模型变 换为差分模型: Yi=1 X1i+2 X2i++k Xki+ i 可以有效地消除原模型中的多重共线性。 一般讲,增量之间的线性关系远比总量 之间的线性关系弱得多。
多重共线性 Multi-Collinearity
多重共线性
一、多重共线性的概念 二、实际经济问题中的多重共线性 三、多重共线性的后果 四、多重共线性的检验 五、克服多重共线性的方法 六、案例
多重共线性
多重共线性的危害主要是使用上的问题。简单地说,由于变量之间的高度相关,使算法无法准确分离各个因子对目标变量的影响,因而造成系数估计的偏差加大,体现在模型输出结果上是一系列错乱现象,例如:一个原本显著的变量由于另一个变量的加入突然失掉重要性、因子对目标变量的作用方向突然出现逆转、模型的拟合度很高,不应该被等量齐观。换句话说,如果数据挖掘的目的是预测,则一定程度的多重共线性是可以容忍的,只要一些基本条件能够被满足。包括:变量之间虽然高度相关,但算法仍然可以找到其各自对目标变量的影响,且影响是显著的;通过了内部检验,即模型在训练样本和检验样本上的表现基本一致,没有明显的恶化迹象;各个因子对目标变量的影响方向符合经验期望或理论。
为什么预测模型可以容纳一定程度的多重共线性?这需要从建模的目的谈起。模型的效用不外两个:预测和解释。两者都会用到回归算法。但是,回归算法在用于解释模型时对多重共线性的要求要较预测模型为高。换句话说,前者对多重共线性更敏感。原因在于解释模型的功能是判断每个因子对目标变量的独特贡献,而多重共线性阻挠了这种判断。而不能准确区分出每个因子的作用,即是宣告了解释模型的失败。但是对于预测模型来说,解释的功能是次要的,预测模型的首要任务是对未来做出某种推测,而这种推测需要依赖模型的整体能力,包括模型中涉及到的所有因子。至于单个因子是否准确,只要不影响到模型的总体能力,则不必过于计较。
多重共线性是使用回归算法时经常要面对的一个问题。在其他算法中,例如决策树和Na?ve Bayes,前者的建模过程是逐步递进,每次拆分只有一个变量参与,这种建模机制含有抗多重共线性干扰的功能;后者干脆假定变量之间是相互独立的,因此从表面上看,也没有多重共线性的问题。但是对于回归算法,不论是一般回归,逻辑回归,或存活分析,都要同时考虑多个预测因子,因此多重共线性是不可避免需要面对的。而在营销数据中,多重共线性更是一个普遍的现象。
多重共线性的后果四、多重共线性的检验五、克服多重共线
多重共线性
一、多重共线性的概念 二、实际经济问题中的多重共线性 三、多重共线性的后果 四、多重共线性的检验 五、克服多重共线性的方法 六、案例
问题的提出
• 在前述基本假定下OLS估计具有BLUE的优良性。 • 然而实际问题中,这些基本假定往往不能满足, 使OLS方法失效不再具有BLUE特性。 • 估计参数时,必须检验基本假定是否满足,并针 对基本假定不满足的情况,采取相应的补救措施 或者新的方法。 • 检验基本假定是否满足的检验称为计量经济学检 验
在矩阵表示的线性回归模型 Y=X+ 中,完全共线性指:秩(X)<k+1,即
1 1 X 1 X 11 X 12 X 1n X 21 X 22 X 2n X k1 X k2 X kn
中,至少有一列向量可由其他列向量(不包括第 一列)线性表出。 如:X2= X1,则X2对Y的作用可由X1代替。
具体可进一步对上述回归方程作F检验: 构造如下F统计量
Fj R2 j . /( k 2) (1 R ) /(n k 1)
2 j.
~ F (k 2, n k 1)
式中:Rj•2为第j个解释变量对其他解释变量的回 归方程的决定系数,
若存在较强的共线性,则Rj•2较大且接近 于1,这时(1- Rj•2 )较小,从而Fj的值较大。 因此,给定显著性水平,计算F值,并与 相应的临界值比较,来判定是否存在相关性。
– 时间序列数据经常出现序列相关
• 5、随机扰动项方差不等于常数=>异方差
– 截面数据时,经常出现异方差
解决问题的思路
• • • • 1、定义违反各个基本假定的基本概念 2、违反基本假定的原因、背景 3、诊断基本假定的违反 4、违反基本假定的补救措施(修正)
多元回归中的多重共线性及其存在的后果
多元回归中的多重共线性及其存在的后果
多重共线性,又称共线性估计,是多元统计分析中一个很重要的问题。
它是指变量之间的相互依赖性,从而影响回归分析的结果。
尽管回归模型中不存在多重共线性的原理非常简单,但是当被研究变量之间存在多重共线性时,会对分析结果造成极大的影响。
多重共线性会导致模型参数估计失真,并使其产生过大或者过小的残差。
这会导致回归分析所得出的模型偏离实际情况,所得结果可能不可靠。
此外,多重共线性也会降低模型的可解释性,因此,模型中构建的解释变量分析可能不准确。
识别多重共线性是解决多元线性回归问题的关键。
首先,可以通过VIF指标(变量影响因子)来检验变量之间的共线性。
该指标可以有效地发现模型中的重要自变量是否存在多重共线性。
此外,常规的因变量分析方法也可用于检验多重共线性。
常用方法有共线性健全性检验(CES)、Dwyer和O'Neill等等变量共线检验方法。
识别多重共线性并采取措施避免其对分析结果造成影响是多元线性回归中最重要的步骤。
多重共线性是多元线性回归中一个至关重要的问题,它可能会导致模型参数估计偏离实际情况,失真,同时还会降低模型的可解释性,所以检测多重共线性的步骤是有必要的。
将多重共线性考虑进去,可以避免影响模型分析结果的不利因素,以此来提高分析结果的准确性。
多重共线性的危害
P lim
n
i
n
n
0
那么因为
P lim b1 1 P lim
n
X
i i
i
X i
i
X
X
2
1 0 1
因此 b1 是1 的一致估计。虽然不是无偏估计。
24
三、工具变量法估计
设模型为 Y 0 1 X 其中 X不仅是随机变量,而且与 有强相关性。 对模型作离差变换得 Yi Y 1 X i X i 两边乘 Z Z 并求和得 Zi Z Yi Y 1 Zi Z X i X Zi Z i i i i 然后两边除以 Z Z X X ,有 Z Z Y Y Z Z Z Z X X Z Z X X
8
(二)状态数检验
1、 状态指数 将 X矩阵的每一列 X 用其模 X X X 相除以实现标准化,然后再求 XX 矩阵的 特征值,取其中最大的除以最小的后再求 平方根,得到该矩阵的“状态数”,记为: max min 通常当 大于20或30时,认为存在较 明显的多重共线性。
k
k k
34
一、最大似然估计的原理
根据事物出现的概率(几率、可能性)的 大小,推断事物的真相,包括定性的和定 量的(参数水平)真相。
例1:一个老战士和一个军训学生各射击一 次,但只有一枪中靶。问可能是谁打中的。
β - XX D Dβ
1
19
第二节 随机解释变量
一、解释变量的随机性 二、随机解释变量和参数估计的性质 三、工具变量法估计 四、参数估计量的分布性质和统计推断
多重共线性问题的偏最小二乘估计
多重共线性问题的偏最小二乘估计多重共线性问题是统计学中一个重要的问题,特别是在回归分析中。
多重共线性指的是自变量之间存在高度相关性,这会导致回归系数的估计不准确,甚至无法解释。
为了解决多重共线性问题,偏最小二乘估计(Partial Least Squares,简称PLS)被提出并得到了广泛的应用。
本文将介绍多重共线性问题及其对回归分析的影响,然后重点讨论偏最小二乘估计的原理和应用。
一、多重共线性问题及其影响在回归分析中,自变量之间存在高度相关性会导致多重共线性问题。
这种相关性使得回归系数的估计出现问题,而且也会影响对自变量的解释。
具体来说,多重共线性问题导致以下几个主要影响:1. 不稳定的估计结果:自变量之间的高度相关性会导致估计得到的回归系数不稳定,即使在不同的样本中也可能得到不同的结果。
这给回归模型的预测能力带来很大的不确定性。
2. 估计系数不准确:多重共线性问题会使得回归系数的估计不准确,具体表现为系数的标准误差较大,置信区间较宽。
这使得对回归系数的显著性检验变得困难。
3. 解释变量的问题:当自变量之间存在共线性时,回归系数的估计结果往往无法准确解释自变量对因变量的影响。
这会使得对自变量之间关系以及它们与因变量的关系的理解变得困难。
多重共线性问题是回归分析中一个严重的问题,它会对模型的解释能力、稳定性和准确性产生负面影响。
解决多重共线性问题对于回归分析的准确性和可靠性至关重要。
二、偏最小二乘估计的原理偏最小二乘估计是一种通过降维的方法来解决多重共线性问题的技术。
它是在最小二乘法的基础上对自变量进行主成分分析,以降低自变量之间的相关性,从而得到更加稳定和准确的回归系数估计。
偏最小二乘估计的主要原理包括以下几个步骤:1. 提取主成分:偏最小二乘估计首先对自变量进行主成分分析,以提取自变量中的主要信息和结构。
主成分分析的目的是找到一组新的变量,使得它们之间的相关性较小,从而减少多重共线性的问题。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 2 ( yx2 )(2 x 2 2 ) ( yx2 y )( x 2 ) 2 2 2 2 ( x 2 )(2 x 2 2 ) 2 ( x 2 )
• 以二元回归为例, X2与X3存在不完全的多重共线性, 二者的相关系数的平方用X2和X3的离差形式x2和x3表 示为: 2 ( x x ) 2 3 2 r • ( 4.2.13 ) 23 2 2
• 可以证明, X2和X3的离差形式仍然有x3 = λ x2成立,将 它们分别代入式4.2.5和式4.2.6,得出如下结果: 2 • ( yx )( ( x ) ) ( y (x 2 ))( x 2 (x 2 )) 0 2 2 ˆ 2 2 2 • 2 0 (4.2.7) ( x )( (x ) ) ( x (x ))
2 2 2 3 2
(4.2.4)
2 ( yx2 )( x3 ) ( yx3 )( x 2 x3 )
(4.2.5) (4.2.6)
2 ( yx3 )( x 2 ) ( yx2 )( x 2 x3 ) 2 2 ( x 2 )( x3 ) ( x 2 x3 ) 2
• 其中,y、 x2、x3为Y、X2、X3的离差形式。假设解释变 量X2、X3存在完全的共线性,且X3= λ X2( λ≠0)。 2
6
• 在多元线性回归模型中,参数显著性检验的 t 统计量 为:
ˆ i t ~ t (n k) ˆ) ˆe( s 2 i
• 我们可以看出,随着 的增大,其标准差也将 ˆ ˆr ( 2 ) Va 增大,这意味着 t 值将会变小,在给定显著性水平 α 下, 当|t| < t/2(n-k)时,表明Xi对Y的影响不显著。
( x )( x ) ( x 2 x3 )
2 2
2 ( x ) 2 2
2 2
ˆ ) 为例,将代入式4.2.9,得 • 以 Var( 2
ˆ ) Var ( 2 ( x )( (x2 ) ) ( x2 (x2 ))
2 2 2 2 2 2 ( x ) 2
注意,造成 t 值不显著是由于存在多重共线 性,但从经济意义上讲,也许Xi对Y的影响是 很强的。 • 另外,多重共线性严重时,还会导致参数估计 值与其经济意义不一致。7源自x x23
• 这时,
ˆ ) Var ( 2
2 ( x 2 )( x32 ) ( x2 x3 )
x
2 3
2 2
1 1 2 2 2 2 2 ( x 2 x3 ) x2 (1 r23 ) 2 x [ 1 ] 2 x22 x32
2 2 r r • 从上式可以看出,当 23 增大时(0 ≤ 23 ≤ 1),亦即 2 r • 23 越向1靠近,这时的共线性程度会增加,从而, ˆ ) Var ( 2 • 会增大。
ˆ • 3
( y (x ))( x ) ( yx )( x (x ( x )( (x ) ) ( x (x ))
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2
))
0 0
( 4.2.8)
• 在微积分中,我们称这种情况为不定型。这充分说明当 X2和X3存在完全共线性时,参数的估计值时不确定的。 因此,在完全共线性条件下,参数的估计值无意义。 • 另一方面,我们还可以从X2、X3对Y的边际影响来 分析,系数β2的意义是:当X3假定不变,X2每变化一个 单位时Y的平均变化。如果X2和X3是完全共线性,则无 法在X3不变的情况下,分析X2对Y的影响。因为,当X2 变化时,X3会按X2的λ倍而变化。这表明,从已有的样 本信息中,无法分析出X2与X3各自对Y的影响。
1
• 下面,我们从二元线性回归模型来看完全多重 共线性对参数估计值的影响。设线性回归模型 为 • Y=β1+β2X2+β3X3+μ (4.2.3)
• 其离差形式为 • y= β2x2+β3x3+μ • β2和β3的估计式分别为 • •
ˆ 2 ˆ 3 ( x )( x ) ( x 2 x3 )
0
•
这表明,解释变量之间存在完全的共线性时,参 数估计值的方差会无限变大。 ˆ 也有类似结果。 • 同理,对于 3
4
二、不完全多重共线性下的后果
• 在实际经济问题中,完全的多重共线性是一种不常见 的极端情况,大多数情况是解释变量之间存在着不完 全的共线性。我们仍然用上述例子来讨论。只是这时 的x2与x3的不完全共线性的关系式为: • x3 = λ x2 +μ ( λ≠0) (4.2.11) • 其中,x2、x3为X2、X3的离差形式, μ为随机误差项。 • 在不完全共线性条件下,参数β2和β3的估计是有可能的。 ˆ ˆ β 和β 的无偏估计。这里,我们只讨 并且, 和 是 2 3 2 3 论不完全多重共线性下 的变化情况,将式 4.2.11代入 ˆ 2 式4.2.5,并考虑 ,得如下结果: x2 0 (4.2.12) 通过 式4.2.12可以看出, X2与X3共线性程度越高, μ愈 ˆ 愈趋向不确定的形式。反之, 向零靠近, 从而, 2 如果 X2与X3存在共线性,但程度并不高,那么,求出 5 ˆ 我们可以得出类似的结果。 ˆ 是可能的。同理,对于 3 2
第二节 多重共线性产生的后果 • 一、完全多重共线性下的后果
• 1、 • 参数估计值不确定 λ2 X2+λ3 X3 + … + λK, XK =0 (4.2.1)
• 在完全多重共线性下,解释变量Xi存在如下关系:
• 其中, λi不全为零。于是,对应的解释变量矩阵X,有
• | XˊX |=0 或者 Rank(X)<k,这时, XˊX 为一奇异矩 阵,其可逆阵不存在,所以,我们无法从 • (XˊX ) β = XˊY (4.2.2) ˆ • 求出参数β的估计值 。
3
• 2、参数估计值的方差无限大
•
ˆ 的方差 ˆ 和 二元线性回归模型的参数估计值 3 2 的公式如下:
• •
•
ˆ ) Var ( 2 ˆ ) Var ( 3
2 2 ( x 2 )( x3 ) ( x 2 x3 ) 2 x 2 2 3
2 x 3
2 2
(4.2.9) (4.2.10)