第八章 多重共线性:解释变量相关会有什么后果1126

合集下载

多重共线性PPT课件

多重共线性PPT课件

2-2
多重共线性的性质
多重共线性(multicollinearity)原先的含义指一 个回归模型中的一些或全部解释变量之间存 在一种“完全”或者准确的线性关系。 l 1 X1 + l 2 X 2 + L + l k X k = 0 现在共线性更为广义,既包括上述完全共线 性,也包括非完全(高度)共线性的形式。
2-18
8.4 多重共线性的实际后果
OLS估计量的方差和标准误较大。 置信区间变宽。 t值不显著 。 R 2值较高,但t值并不都是统计显著的。 OLS估计量及其标准误对数据的微小变化非常敏感, 即它们很不稳定。 回归系数符号有误。 难以评估各个解释变量对回归平方和(ESS)或者 R 2 的贡献。
2-15
出现“高度”但“不完全”多重共线性 时的估计问题
仍以上述三变量回归模型为例。 假定 X 3i = l X 2i + vi ,其中 å vi x2i = 0
回归系数估计:
b2 =
(邋yi x2i )(l
2
2 2 x2 + v i i )- (l 2 2i 2 2 2i
邋yi x2i +
l 1 X1 + l 2 X 2 + L + l k X k + ui = 0
2-3
为什么CLRM假定无多重共线性?
如果多重共线性是完全的,则X变量的回归 系数将是不确定的,并且它们的标准误为无 穷大。 如果多重共线性是不完全的,则虽然回归系 数可以确定,却有较大的标准误(相对于系 数本身来说),也即系数不能以很高的精度 或准确度加以估计。
2-26
8.7 扩展一例:1960-1982年期间美国的鸡肉需求

福建农林大学计量经济学试卷答案

福建农林大学计量经济学试卷答案

计量经济学练习题 一.名词解释1.普通最小二乘法(Ordinary Least Squares,OLS):已知一组样本观测值{}ni Y X i i ,2,1:),(⋯=,普通最小二乘法要求样本回归函数尽可以好地拟合这组值,即样本回归线上的点∧i Y 与真实观测点Yt 的“总体误差”尽可能地小。

普通最小二乘法给出的判断标准是:被解释变量的估计值与实际观测值之差的平方和最小。

2.广义最小二乘法GLS :加权最小二乘法具有比普通最小二乘法更普遍的意义,或者说普通最小二乘法只是加权最小二乘法中权恒取1时的一种特殊情况。

从此意义看,加权最小二乘法也称为广义最小二乘法。

3.加权最小二乘法WLS :加权最小二乘法是对原模型加权,使之变成一个新的不存在异方差性的模型,然后采用普通最小二乘法估计其参数。

4.工具变量法IV :工具变量法是克服解释变量与随机干扰项相关影响的一种参数估计方法。

5.两阶段最小二乘法2SLS, Two Stage Least Squares :两阶段最小二乘法是一种既适用于恰好识别的结构方程,以适用于过度识别的结构方程的单方程估计方法。

6.间接最小二乘法ILS :间接最小二乘法是先对关于内生解释变量的简化式方程采用普通小最二乘法估计简化式参数,得到简化式参数估计量,然后过通参数关系体系,计算得到结构式参数的估计量的一种方法。

7.异方差性Heteroskedasticity :对于不同的样本点,随机干扰项的方差不再是常数,而是互不相同,则认为出现了异方差性。

8.序列相关性Serial Correlation :多元线性回归模型的基本假设之一是模型的随机干扰项相互独立或不相关。

如果模型的随机干扰项违背了相互独立的基本假设,称为存在序列相关性。

9.多重共线性Multicollinearity :对于模型i k i i X X X Y μββββ++⋯+++=i k 22110i ,其基本假设之一是解释变量X 1,X 2,…,Xk 是相互独立的。

多重共线性

多重共线性

多重共线性“多重共线性”一词由R. Frisch 1934年提出,它原指模型的解释变量间存在线性关系。

1.非多重共线性假定 rk (X 'X ) = rk (X ) = k解释变量不是完全线性相关的或接近完全线性相关的。

| r x i x j | ≠1, | r x i x j | 不近似等于1。

就模型中解释变量的关系而言,有三种可能。

(1)r x i x j = 0,解释变量间非线性相关,变量间相互正交。

这时已不需要多重回归,每个参数βj 都可以通过y 对x j 的一元回归来估计。

(2)| r x i x j | = 1,解释变量间完全共线性。

此时模型参数将无法确定。

直观地看,当两变量按同一方式变化时,要区别每个解释变量对被解释变量的影响程度就非常困难。

(3)0 < | r x i x j | < 1,解释变量间存在一定程度的线性相关。

实际中常遇到的是这种情形。

随着共线性程度的加强,对参数估计值的准确性、稳定性带来影响。

因此我们关心的不是有无多重共线性,而是多重共线性的程度。

2.多重共线性的经济解释(1)经济变量在时间上有共同变化的趋势。

如在经济上升时期,收入、消费、就业率等都增长,当经济收缩期,收入、消费、就业率等又都下降。

当这些变量同时进入模型后就会带来多重共线性问题。

0.E+001.E+112.E+113.E+114.E+11808284868890929496980002GDPCONS0.E +001.E +112.E +113.E +114.E +110.0E +005.0E +101.0E +111.5E +112.0E +112.5E +11C O N SG D P o f H o n g K o n g(2)解释变量与其滞后变量同作解释变量。

0.E+001.E+112.E+113.E+114.E+11808284868890929496980002GDP0.E+001.E+112.E+113.E+114.E+110.E+001.E+112.E+113.E+114.E+11GDP(-1)GDP3.多重共线性的后果(1)当 | r x i x j | = 1,X 为降秩矩阵,则 (X 'X ) -1不存在,βˆ= (X 'X )-1 X 'Y 不可计算。

第8章 多重共线性:解释变量相关会有什么后果

第8章 多重共线性:解释变量相关会有什么后果
X3i 3000 2 X 2i
Yi A1 A2 X 2 i A3 (300 2 X 2 i ) ui
A1 300 A3 A2 2 A3 X 2 i ui

C1 A1 300 A3 C 2 A2 2 A3
ˆ ˆ X ˆ X ˆ 3t X 3.12 31.2 1t 32.1 2t
• 利用以上偏回归系数,3个变量之间的偏相关系数 可定义如下:
ˆ ˆ r12.3 12.3 21.3
ˆ ˆ r13.2 13.2 31.2
ˆ ˆ r23.1 23.1 32.1
案例分析 一、研究的目的要求
提出研究的问题——为了规划中国未来国内旅游产业 的发展,需要定量地分析影响中国国内旅游市场发展 的主要因素。
二、模型设定及其估计
影响因素分析与确定——影响因素主要有国内旅游 人数 X 2,城镇居民人均旅游支出 X 3,农村居民人均
旅游支出 X 4 ,并以公路里程次 X 5 和铁路里程
8.7鸡肉需求函数[方程(8.15)]的共线性诊断 1.相关矩阵
鸡肉需求函数[方程(8.15)]的共线性诊断 2.辅助回归
8.8 如何解决多重共线性:补救措施
• • • • • • 从模型中删掉一个变量 获取额外的数据或新的样本 重新考虑模型 参数的先验信息 变量变换 其他补救措施
(1)从模型中删掉一个变量
留该变量。
若新变量的引入未能改进 R 2 和 F 检验,且对其他回 归参数估计值的t 检验也未带来什么影响,则认为该 变量是多余变量。 若新变量的引入未能改进 R 2 和 F 检验,且显著地影 响了其他回归参数估计值的数值或符号,同时本身的 回归参数也通不过t 检验,说明出现了严重的多重共 线性。

多重共线性问题分析

多重共线性问题分析
●经验表明,方差膨胀因子≥10时,说明解释变量
与其余解释变量之间有严重的多重共线性,且这
种多重共线性可能会过度地影响最小二乘估计。
(4)直观判断法
①当增加或剔除一个解释变量,或者改变一
个观测值时,回归参数的估计值发生较大变 化,回归方程可能存在严重的多重共线性。 ②从定性分析认为,一些重要的解释变量的 回归系数的标准误差较大,在回归方程中没 有通过显著性检验时,可初步判断可能存在 严重的多重共线性。
例 如 :
年份 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
C 1759.1 2005.4 2317.1 2604.1 2867.9 3182.5 3674.5 4589.0 5175.0 5961.2 7633.1 8523.5 9113.2 10315.9 12459.8 15682.4 20809.8 26944.5 32152.3 34854.6 36921.1 39334.4 42911.9
三、多重共线性的检验
多重共线性表现为解释变量之间具有相关关系,
所以用于多重共线性的检验方法主要是统计方法:
如判定系数检验法、逐步回归检验法等。 多重共线性检验的任务是: (1)检验多重共线性是否存在;
(2)估计多重共线性的范围,即判断哪些变量之
间存在共线性。
1、检验多重共线性是否存在
(1)对两个解释变量的模型,采用简单相关系数法
可以有效地消除原模型中的多重共线性。
一般而言,差分后变量之间的相关性要比
差分前弱得多,所以差分后的模型可能降

多重共线性与随机解释变量

多重共线性与随机解释变量

• 由于多重共线性表现为解释变量之间具有相关关
系,所以用于多重共线性的检验方法主要是统计方 法,如判定系数检验法、逐步回归检验法等。
• 多重共线性检验的任务是: (1)检验多重共线性是否存在; (2)估计多重共线性的范围,即判断哪些变量 之间存在共线性。
1、检验多重共线性是否存在
(1)对两个解释变量的模型,采用简单相关系数法 求出X1与X2的简单相关系数r,若|r|接近1,则说 明两变量存在较强的多重共线性。 (2)对多个解释变量的模型,采用综合统计检验法 若在OLS法下,模型的R2与F值较大,但各参数估 计量的t检验值较小,则说明各解释变量对Y的联合线 性作用显著,但各解释变量之间存在共线性而使得它 们各自对Y的独立作用不能分辨,故t检验不显著。

2
所以,多重共线性使参数估计量的方差增大。
方差扩大因子(Variance Inflation Factor) 为 1/(1-r2),其增大趋势见下表:
相关系 数平方 方差扩 大因子 0 1 0.5 2 0.8 5 0.9 10 0.95 0.96 20
ˆ
0.97 33
0.98 50
0.99 100
0.999 1000
25
r 2 =1 , var( 1 ) 当完全共线时,
3、参数估计量的经济含义不合理
如果模型(2.8.1)中两个解释变量具有线性相关性, 例如 X1 和 X2 ,那么它们中的一个变量可以由另一个变 量表征。 这时, X1 和 X2 前的参数并不反映各自与被解释变 量之间的结构关系,而是反映它们对被解释变量的共 同影响。 所以,各自的参数已经失去了应有的经济含义, 于是经常表现出似乎反常的现象,例如本来应该是正 的,结果却是负的。

08_多重共线性

08_多重共线性

t-Statistic -9.738075 11.10763
Prob. 0.0000 0.0000 37.80000 6.613118 4.111978 4.172496 123.3795 0.000004
6
两个回归结果的比较: 1 . X2 的 标 准 差 增 大 , t 统 计 量 变 小 ; 2 . 判 定 系 数 和 修 正 的 判 定 系 数 的 改 变 并 不 显 著 。( 判 定 系 数 增 加 不 多 ,修 正 判定系数减低) 3 . 增 加 的 变 量 X4 并 不 显 著 , 且 符 号 与 预 期 不 符 ; 4 . X4 虽 不 显 著 , 但 模 型 的 整 体 却 是 显 著 的 。 ( 意 味 着 X2 与 X4 联 合 对 Y 的线性影响是显著的。 )
t-Statistic 66.53811 -17.93502
Prob. 0.0000 0.0000 37.80000 6.613118 3.191992
4
Sum squared resid Log likelihood Durbin-Watson stat
9.551515 -13.95996 2.051315
多重共线性测定实际上是一些经验法则。 1. 回归模型的判定系数较高,但却有很多的 t 值不显著,或许多回归系数
的符号或大小与预期不一致。 2. 3. 解释变量之间的简单相关系数或偏相关系数很高。 从属回归或辅助回归。
9
厦门大学经济学院 胡朝霞
分别用模型中的每一个解释变量对其它剩余的解释变量回归,并检验各个 回归方程的判定系数是否显著为零(即回归方程的 F 检验) 。 例 : p207 4. 方 差 膨 胀 因 子( VIF ) :指 的 是 模 型 中 增 加 某 个 解 释 变 量 后 而 使 某 个 参 数

7.2多重共线性的后果

7.2多重共线性的后果

例如, 例如,对于二元线性回归模型
Yi = β 0 + β1 X 1i + β 2 X 2i + ui
如果两个解释变量完全相关,如X 2 = λ X 1,则该二元 线性回归模型退化为一元线性回归模型:
Yi = β 0 + β1 + λβ 2)X 1i + ui (
这时,只能确定综合参数β1 + λβ 2的估计值,无法 确定β1,β 2 各自的估计值。
β1 =
∂Y X1
根据偏导数的概念, 的经济含义是: 根据偏导数的概念,β1的经济含义是:在其他变 量保持不变的情况下, 变化一个单位将使Y变 量保持不变的情况下,X1 变化一个单位将使 变 个单位。 化β1个单位。 但在多重共线性的情况下, 但在多重共线性的情况下,解释变量的相关性将 无法“保持其他变量不变” 无法“保持其他变量不变”,从而也难以分离出 每个解释变量的单独影响。 每个解释变量的单独影响。
四、回归模型缺乏稳定性 从同一总体中抽取不同的样本估计模型, 从同一总体中抽取不同的样本估计模型,得到的 估计值不会完全相同,但不应该有显著差异, 估计值不会完全相同,但不应该有显著差异,此 时称模型为稳定的。 时称模型为稳定的。但是当模型存在多重共线性 样本数据即使有微小的变化, 时,样本数据即使有微小的变化,也可能导致系 数估计值发生明显变化,甚至出现符号错误, 数估计值发生明显变化,甚至出现符号错误,参 数估计对样本的变化比较敏感。 数估计对样本的变化比较敏感。
多重共线性的后果 第二节 多重共线性的后果
• • • • OLS估计量的方差增大 估计量的方差增大 难以区分每个解释变量的单独影响 变量的显著性检验失去意义 回归模型缺乏稳定性
经典回归模型要求模型不存在完全的多重共线 经典回归模型要求模型不存在完全的多重共线 所以,即使模型存在严重的多重共线性, 性,所以,即使模型存在严重的多重共线性,也并 不违背基本假定, 估计仍然是最佳线性无偏估 不违背基本假定,OLS估计仍然是最佳线性无偏估 估计 但多重共线性却会产生以下问题: 计。但多重共线性却会产生以下问题: 一、OLS估计量的方差增大 估计量的方差增大 设二元线性回归模型为: 设二元线性回归模型为:

计量经济学多重共线性

计量经济学多重共线性

3、减小参数估计量的方差
多重共线性的主要后果是参数估计量具 有较大的方差,所以 采取适当方法减小参数估计量的方差, 虽然没有消除模型中的多重共线性,但确 能消除多重共线性造成的后果。 例如: ①增加样本容量,可使参数估计量的方 差减小。
*②岭回归法(Ridge Regression)
70年代发展的岭回归法,以引入偏误为代价减小 参数估计量的方差,受到人们的重视。 具体方法是:引入矩阵D,使参数估计量为
多重共线性使参数估计值的方差增大,1/(1-r2) 为方差膨胀因子(Variance Inflation Factor, VIF)
相关系数平方 方差膨胀因子 0 1 0.5 2 0.8 5 表 4.3.1 方差膨胀因子表 0.9 0.95 0.96 0.97 10 20 25 33 0.98 50 0.99 100 0.999 1000
1 ˆ var( 1 ) 2 ( X X )11 2 x12i x 2i ( x1i x 2i ) 2 2 2 x 2i

1 ( x1i x 2i ) 2
2 / x12i
2 x12i x 2i
1 2 x1i 1 r 2
2
i=1,2,…,n
其中ci不全为0,vi为随机误差项,则称为 近似共线 性(approximate multicollinearity)或交互相 关(intercorrelated)。
注意: 完全共线性的情况并不多见,一般出现 的是在一定程度上的共线性,即近似共线 性。

产生多重共线性的主要原因:
求出X1与X2的简单相关系数r,若|r|接近1,则说 明两变量存在较强的多重共线性。
(2)对多个解释变量的模型,采用综合统计检验法 若 在OLS法下:R2与F值较大,但t检验值较小, 说明各解释变量对Y的联合线性作用显著,但各解 释变量间存在共线性而使得它们对Y的独立作用不 能分辨,故t检验不显著。

第8章 多重共线性:解释变量相关会有什么后果

第8章 多重共线性:解释变量相关会有什么后果

第8章 多重共线性:解释变量相关会有什么后果本章主要讲授如下内容:8.1 多重共线性的性质8.2 多重共线性产生的原因 8.3 多重共线性的后果8.4 多重共线性的诊断8.5 如何解决多重共线性:补救措施8.1 多重共线性的性质1.完全多重共线性的情形对于变量X 1、X 2……、X k ,如果存在不全为零的数λ1、λ2、……λk ,使得下式成立:02211=+++k k X X X λλλ则称变量X 1、X 2……、X k 之间存在一种完全的共线性。

注意:当解释变量之间存在完全共线性时,不可能获得所有参数的唯一估计值,因而也就不能根据样本进行任何统计推断(即假设检验)。

2.接近或者不完全多重共线性的情形对于变量X 1、X 2……、X k ,如果存在不全为零的数λ1、λ2、……λk ,使得下式成立:02211=++++μλλλk k X X X则称变量X 1、X 2……、X k 之间存在不完全的共线性。

这里,μ为随机误差项。

8.2 多重共线性产生的原因1.经济变量之间往往存在同方向的变化趋势。

2.经济变量之间往往存在着密切的关联度。

3.在模型中采用滞后变量也容易产生多重共线性。

4.在建模过程中由于解释变量选择不当引起了变量之间的多重共线性。

8.3 多重共线性的后果1.增大OLS 估计量的方差和标准差可以证明,参数估计值i b 的方差为:22211)()var(ii iti RX Xb -⋅-=∑σ其中,2i R 是第i 个解释变量对模型中其他解释变量作辅助回归模型),,,,,,(1121k i i i X X X X X f X +-=时的决定系数。

2.可能导致在假设检验中舍去重要的解释变量,检验的可靠性降低。

3.回归模型缺乏稳定性。

4.可能导致回归系数符号的错误。

8.4 多重共线性的诊断多重共线性只是存在的程度而非是否存在的问题,它属于样本特征而非总体特征。

一般可以采取以下方法进行诊断。

1.根据回归结果判断R 2较高但t 值统计显著的不多,这是多重共线性的“典型”特征。

多重共线性

多重共线性

具体可进一步对上述回归方程作F检验:
构造如下F统计量
Fj R 2. /(k 2) j (1 R ) /(n k 1)
2 j.
~ F (k 2, n k 1)
式中:Rj•2为第j个解释变量对其他解释变量的回
归方程的决定系数,
若存在较强的共线性,则Rj•2较大且接近于1,这
例 如 :
年份 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
C 1759.1 2005.4 2317.1 2604.1 2867.9 3182.5 3674.5 4589.0 5175.0 5961.2 7633.1 8523.5 9113.2 10315.9 12459.8 15682.4 20809.8 26944.5 32152.3 34854.6 36921.1 39334.4 42911.9
以逐步回归法得到最广泛的应用。

注意:
这时,剩余解释变量参数的经济含义和数值都 发生了变化。
2、第二类方法:差分法 时间序列数据、线性模型:将原模型变 换为差分模型: Yi=1 X1i+2 X2i++k Xki+ i 可以有效地消除原模型中的多重共线性。 一般讲,增量之间的线性关系远比总量 之间的线性关系弱得多。
多重共线性 Multi-Collinearity
多重共线性
一、多重共线性的概念 二、实际经济问题中的多重共线性 三、多重共线性的后果 四、多重共线性的检验 五、克服多重共线性的方法 六、案例

多重共线性

多重共线性

多重共线性的危害主要是使用上的问题。简单地说,由于变量之间的高度相关,使算法无法准确分离各个因子对目标变量的影响,因而造成系数估计的偏差加大,体现在模型输出结果上是一系列错乱现象,例如:一个原本显著的变量由于另一个变量的加入突然失掉重要性、因子对目标变量的作用方向突然出现逆转、模型的拟合度很高,不应该被等量齐观。换句话说,如果数据挖掘的目的是预测,则一定程度的多重共线性是可以容忍的,只要一些基本条件能够被满足。包括:变量之间虽然高度相关,但算法仍然可以找到其各自对目标变量的影响,且影响是显著的;通过了内部检验,即模型在训练样本和检验样本上的表现基本一致,没有明显的恶化迹象;各个因子对目标变量的影响方向符合经验期望或理论。
为什么预测模型可以容纳一定程度的多重共线性?这需要从建模的目的谈起。模型的效用不外两个:预测和解释。两者都会用到回归算法。但是,回归算法在用于解释模型时对多重共线性的要求要较预测模型为高。换句话说,前者对多重共线性更敏感。原因在于解释模型的功能是判断每个因子对目标变量的独特贡献,而多重共线性阻挠了这种判断。而不能准确区分出每个因子的作用,即是宣告了解释模型的失败。但是对于预测模型来说,解释的功能是次要的,预测模型的首要任务是对未来做出某种推测,而这种推测需要依赖模型的整体能力,包括模型中涉及到的所有因子。至于单个因子是否准确,只要不影响到模型的总体能力,则不必过于计较。
多重共线性是使用回归算法时经常要面对的一个问题。在其他算法中,例如决策树和Na?ve Bayes,前者的建模过程是逐步递进,每次拆分只有一个变量参与,这种建模机制含有抗多重共线性干扰的功能;后者干脆假定变量之间是相互独立的,因此从表面上看,也没有多重共线性的问题。但是对于回归算法,不论是一般回归,逻辑回归,或存活分析,都要同时考虑多个预测因子,因此多重共线性是不可避免需要面对的。而在营销数据中,多重共线性更是一个普遍的现象。

回归分析中的多重共线性问题及解决方法(九)

回归分析中的多重共线性问题及解决方法(九)

在回归分析中,多重共线性是一个常见的问题。

多重共线性指的是自变量之间存在高度相关性,这会导致回归系数估计不准确,影响模型的解释性和预测能力。

在现实问题中,多重共线性经常出现,因此了解多重共线性的影响和解决方法是非常重要的。

一、多重共线性的影响多重共线性会导致回归系数估计不准确。

在存在多重共线性的情况下,自变量的系数估计可能偏离真实值,而且会出现符号与预期相反的情况。

这会影响对模型的解释,因为我们无法准确地评估每个自变量对因变量的影响程度。

同时,多重共线性也使得模型的预测能力下降,导致对未来数据的预测不准确。

二、多重共线性的检验为了检验模型中是否存在多重共线性,可以使用多种方法。

最常用的方法是计算自变量之间的相关系数。

如果相关系数大于或者,就可以认为存在多重共线性。

此外,还可以使用方差膨胀因子(VIF)来检验多重共线性。

VIF是用来衡量自变量之间相关性的指标,如果VIF的值大于10,就可以认为存在严重的多重共线性。

三、解决多重共线性的方法解决多重共线性问题的方法有很多种,下面介绍几种常用的方法。

1. 剔除相关性较高的自变量当自变量之间存在高度相关性时,可以选择剔除其中一个或几个自变量。

通常选择剔除与因变量相关性较低的自变量,以保留对因变量影响较大的自变量。

2. 使用主成分回归主成分回归是一种常用的解决多重共线性问题的方法。

它通过线性变换将原始的自变量转换为一组不相关的主成分变量,从而减少自变量之间的相关性。

主成分回归可以有效地解决多重共线性问题,并提高模型的解释性和预测能力。

3. 岭回归和套索回归岭回归和套索回归是一种正则化方法,可以在回归模型中加入惩罚项,从而减小自变量的系数估计。

这两种方法都可以有效地解决多重共线性问题,提高模型的鲁棒性和预测能力。

四、结语多重共线性是回归分析中的一个常见问题,会影响模型的解释性和预测能力。

为了解决多重共线性问题,我们可以使用多种方法,如剔除相关性较高的自变量、使用主成分回归、岭回归和套索回归等。

多重共线性的危害

多重共线性的危害
i i
P lim
n
i
n
n
0
那么因为
P lim b1 1 P lim
n
X
i i
i
X i
i
X
X
2
1 0 1
因此 b1 是1 的一致估计。虽然不是无偏估计。
24
三、工具变量法估计
设模型为 Y 0 1 X 其中 X不仅是随机变量,而且与 有强相关性。 对模型作离差变换得 Yi Y 1 X i X i 两边乘 Z Z 并求和得 Zi Z Yi Y 1 Zi Z X i X Zi Z i i i i 然后两边除以 Z Z X X ,有 Z Z Y Y Z Z Z Z X X Z Z X X
8
(二)状态数检验
1、 状态指数 将 X矩阵的每一列 X 用其模 X X X 相除以实现标准化,然后再求 XX 矩阵的 特征值,取其中最大的除以最小的后再求 平方根,得到该矩阵的“状态数”,记为: max min 通常当 大于20或30时,认为存在较 明显的多重共线性。
k
k k
34
一、最大似然估计的原理

根据事物出现的概率(几率、可能性)的 大小,推断事物的真相,包括定性的和定 量的(参数水平)真相。
例1:一个老战士和一个军训学生各射击一 次,但只有一枪中靶。问可能是谁打中的。
β - XX D Dβ
1
19
第二节 随机解释变量
一、解释变量的随机性 二、随机解释变量和参数估计的性质 三、工具变量法估计 四、参数估计量的分布性质和统计推断

第八章 多重共线性

第八章 多重共线性

对于饰品的需求模型: 对于饰品的需求模型:
Yi = A1 + A2 X 2 i + A3 X 3 i + ui
(8-1)
利用表8-1中的数据对上面的回归模型进行估计 利用表8 时,计算机“拒绝”估计模型。 计算机“拒绝”估计模型。
作价格变量( 与收入变量( 的关系图: 作价格变量(X2)与收入变量(X3)的关系图: 与收入变量 的关系图
回归结果表明,价格和工资高度相关,相关系数为回归结果表明,价格和工资高度相关,相关系数为0.988。近似完全线性关系。 0.988。近似完全线性关系。
§8.3 多重共线性的理论后果
①在高度多重共线性的情形下,OLS估计量仍是最优线性无 在高度多重共线性的情形下,OLS估计量仍是最优线性无 偏估计量。但要注意,最小方差性(相对估计方法而言) 偏估计量。但要注意,最小方差性(相对估计方法而言)并不 OLS估计量的方差会较小 估计量的方差会较小。 意味着对于任何给定的样本 OLS估计量的方差会较小。 ②即使在总体上各个解释变量之间不存在线性相关关系,但 即使在总体上各个解释变量之间不存在线性相关关系, 却可能在具体获得的样本中存在线性相关关系, 却可能在具体获得的样本中存在线性相关关系,即多重共线 性本质上来说是一个样本(回归)现象。 性本质上来说是一个样本(回归)现象。
(8-15)
鸡肉需求函数[方程( 鸡肉需求函数 方程(8-15)]的共线性诊断 方程 ) 的共线性诊断 1.相关矩阵 相关矩阵
2.从属或辅助回归: 从属或辅助回归:
做每个变量对其他变量的回归,并计算相应的 做每个变量对其他变量的回归,并计算相应的R2值。其中 的每一个回归都被称为是从属或者辅助回归。 的每一个回归都被称为是从属或者辅助回归。 如果某个解释变量不是其他变量的线性组合,则该回归方 如果某个解释变量不是其他变量的线性组合, 程的R 显著为零。通过下面的F统计量检验判定系数否显著为 程的 i2显著为零。通过下面的 统计量检验判定系数否显著为 零,从而判断解释变量之间是否存在多重共线性关系。 从而判断解释变量之间是否存在多重共线性关系。

第八章 多重共线性:解释变量相关会有什么后果1126

第八章 多重共线性:解释变量相关会有什么后果1126

其基本假设之一是解释变量是互相独立的。
如果某两个或多个解释变量之间出现了相 关性,则称为多重共线性(Multicollinearity)。 1、完全多重共线性 2、近似(不完全)多重共线性
完全共线性的情况 并不多见,一般出 现的是在一定程度 上的共线性,即近 似共线性。
1、解释变量间存在完全共线性(perfect multicollinearity)
• 目的三:估计一组系数(如估计两个系数的和或 差,例如,解释行业生产规模效应),存在共线 性也没有问题。
5/15/2014
五、克服多重共线性的方法 (8.8)
1、排除引起共线性的变量
(补充)逐步回归法:
两难:共线性; 设定误差
找出引起多重共线性的解释变量,将它排除出去。 以Y为被解释变量,逐个引入解释变量,构成回归模 型,进行模型估计
因此,给定显著性水平,计算F值,并与相应的临界值比 较,来判定是否存在相关性。
• 5、方差膨胀因子
1 VIF 2 1 R2
• 其中,R22表示解释变量之间辅助回归方 程的样本决定系数。
5/15/2014
四、多重共线性评价:必定不好吗?
• 根据不同的研究目地加以选择:
• 目的一:预测因变量的均值,即使存在多重共线 性,只要模型中的共线性一直存在下去,并且具 有较高的解释能力(判定系数较大) • 目的二:除了要求进行预测,还要估计模型参数。 则严重的共线性存在就不好
Fj
RSS j . / 样本量-待估参数个数
ESS j . / 解释变量个数

2 1R j. / df RSS
R j . / df ESS
2
若拒绝原假设则说明Xj与其他解释变量之间存在显著的线性关系。

第八章-多重共线性PPT学习教案

第八章-多重共线性PPT学习教案

第3页/共16页
X 3i 300 2 X 2i R2 ( r 2 ) 1.00
(3)
如果做X3对X2回归,得到如下结果:
结果显示,收入变量和价格变量完全线性相关,即完全共线性。如果把方程 (3)代入方程(1)中Yi, 得A1到 :A2 X 2i A3 (300 2 X 2i ) ui
( A1 300 A3 ) ( A2 2 A3 ) X 2i ui
这种方法的实施很可能使我们面临模型设定错误与多重共线性的两难境地。 例子可见书p275页。
2.获取额外的数据或新的样本
首先,既然多重共线性是一个样本特征,那么在包括同样变量的另一个样本中,共线性也许不像
第一个那么高。
其次,根据三变va量r(回b3归) 模 型的x系32i(数12方R差22的) 计算公式,例如:
4.R2值很高,但t值并不都是统计显著的。 5.OLS估计量及其标准误对数据的微小变化非常敏感 6.回归系数符号有误 7.难以评估各个解释变量对回归平方和(ESS)或者R2的贡献。
例子:如果仅用工资拟合需求Y,可知R2为0.94(拟合方程见书p271);如果仅用价格拟合需 求Y,可知R2为0.9757;而如果用价格和工资一起拟合需求Y,可知R2为0.9778。
C1 C2 X 2i ui
(4)
从方程(4)可以看出,这并不是多元回归,而是Y对X2的一元回归。虽然可以估计 出C1和C2的值,但根据这些变量却无法求的原始参数A1,A2,和A3的估计值。 利用表1数据对方程4回归得到如下结果:
第4页/共16页
Yˆt 49.667 2.1576 X 2i se (0.746) (0.1203)
2
VIF
x22i
2
x32i VIF
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

概念:方差膨胀因子
根据P76第四章有:
Var (b2 ) Var (b3 )
1 VIF 2 1 R2
R2增加
x 1 R
2 2i
2
2 2


2
x
2 2i
VIF
x 1 R
2 3i
2
2 2

2
x
2 3i
VIF
b2和b3的方差(或标准差)增加(或膨胀)
但是,这一标准并不可靠,有时候,两两相关系数 可能较低,但仍可能存在共线性。
4、从属回归或辅助回归(判定系数检验法)
进一步确定哪些变量引起的
Step1:使模型中每一个解释变量分别以其余解释变量为 解释变量进行回归(这些回归称为从属回归或辅助回归 Xji=1X1i+2X2i+LXLi Ste:2:首先观察这些辅助回归相应的拟合优度(或判定系 数)的大小;然后对这些辅助回归进行F检验H0:Rj.2=0
Fj
RSS j . / 样本量-待估参数个数
ESS j . / 解释变量个数

2 1R j. / df RSS
R j . / df ESS
2
若拒绝原假设则说明Xj与其他解释变量之间存在显著的线性关系。
4、从属回归或辅助回归(判定系数检验法) Rj•2:第j个解释变量对其他解释变量的回归方程的判定系数 若存在较强的共线性 (1- Rj•2 )较小 Rj•2较大且接近于1 从而Fj的值较大。
(3)样本资料的限制
由于完全符合理论模型所要求的样本数据较难 收集,特定样本可能存在某种程度的多重共线性 一般经验:
时间序列数据样本:简单线性模型,往往存在 多重共线性。
截面数据样本:问题不那么严重,但多重共线 性仍然是存在的。
三、多重共线性的诊断(8.5)
任务:
(1)检验多重共线性是否存在及度量共线性的程度;
如果存在c1X1i+c2X2i+…+ckXki=0 其中: ci不全为0
i=1,2,…,n
不可能获得所有参数的唯一估计值及根据样本进行任何 统计推断。 2、近似(不完全、高度)共线性 (near/imperfect/high multicollinearity)
如果存在 c1X1i+c2X2i+…增大,1/(1-R2) 为方差膨胀因子(Variance Inflation Factor, VIF)
当完全不共线时, R2 =0
当近似共线时, 0< R2 <1
VIF 1,
二、多重共线性的实际后果(8.4)
1、OLS估计量的方差和标准误较大。 2、置信区间变宽。 3、t值不显著。
基本假定 误差项之间不相关
第八章 多重共线性
Multi-Collinearity
• 一、多重共线性的性质
• 二、多重共线性的实际后果
• 三、多重共线性的诊断
• 四、克服多重共线性的方法 • 五、案例
一、多重共线性的性质(8.1-8.2)
对于模型
Yi=B0+B1X1i+B2X2i+…+BkXki+μi i=1,2,…,n
其基本假设之一是解释变量是互相独立的。
如果某两个或多个解释变量之间出现了相 关性,则称为多重共线性(Multicollinearity)。 1、完全多重共线性 2、近似(不完全)多重共线性
完全共线性的情况 并不多见,一般出 现的是在一定程度 上的共线性,即近 似共线性。
1、解释变量间存在完全共线性(perfect multicollinearity)
由于标准误较大,故总体参数的置信区间就变宽了。
由于标准误变大,所以t值变小,零假设易被接受。 变量间作用抵消。
4、R2值较高,但t值并不都是显著的。
5、OLS估计量及其标准误对数据的微小变化非常敏感。
6、回归系数的符号有误。
不能通过经济意义的检验。
7、难以评估各个解释变量对ESS或R2的贡献。
补充:产生多重共线性的主要原因(了解)
i=1,2,…,n
OLS 估计量仍是最优线性无偏估计量 其中 ci不全为0,vi为随机误差项
完全多重共线性和不完全多重共线性:举例 • 完全多重共线性模型: X3=300-2X2 R2=1, 且相关系数r=1 (模型8-3) 两个变量之间存在精确的线性关系 • 不完全多重共线性模型 X4=299.92-2.0055X2+e (模型8-9) R2=0.9770, 且相关系数r=-0.9884 两个变量之间存在不精确的线性关系,即存在 近似的线性关系.
(1)经济变量相关的共同趋势
时间序列样本:经济繁荣时期,各基本经济 变量(收入、消费、投资、价格)都趋于增长; 衰退时期,又同时趋于下降。
横截面数据:生产函数中,资本投入与劳动 力投入往往出现高度相关情况,大企业二者都大, 小企业二者都小。
(2)滞后变量的引入 在经济计量模型中,往往需要引入滞后 经济变量来反映真实的经济关系。 例如,消费=f(当期收入, 前期收入) Y=f(Xi,Xi-1) 显然,两期收入间有较强的线性相关性。
• 目的三:估计一组系数(如估计两个系数的和或 差,例如,解释行业生产规模效应),存在共线 性也没有问题。
5/15/2014
五、克服多重共线性的方法 (8.8)
1、排除引起共线性的变量
(补充)逐步回归法:
两难:共线性; 设定误差
找出引起多重共线性的解释变量,将它排除出去。 以Y为被解释变量,逐个引入解释变量,构成回归模 型,进行模型估计
根据拟合优度的变化决定新引入的变量是否独立
若拟合优度变化显著,则说明新引入的变量是一个 独立解释变量; 若拟合优度变化很不显著,则说明新引入的变量与 其它变量之间存在共线性关系
五、克服多重共线性的方法
2、获取额外的数据或新的样本
增加样本可改善共线性问题,但有困难
3、重新考虑模型
4、参数的先验信息
然先验信息难以获得,且其准确性易遭质疑
这是共线性的典型特征 首先,检验多重共线性 是否存在(1)(2)
三、多重共线性的诊断(8.5)
2、对两个解释变量的模型,采用简单相关系数法
求出X1与X2的简单相关系数r,若|r|接近1,则说 明两变量存在较强的多重共线性。 3、对多个解释变量的模型,检查偏相关系数。
计算这些解释变量两两之间的相关系数,如果有些 相关系数很高(如超过0.8),则可能认为存在较为严 重的共线性。
第二部分
实践中的回归分析
基本假定违背:不满足基本假定的情况。
(1)模型设定有偏误;所选模型是正确设定的
基本假定 所选模型是正确设定的
(2)解释变量之间存在多重共线性;
基本假定 解释变量之间不存在完全线性关系
(3)随机误差项序列存在异方差性;
基本假定 误差项方差为常数
(4)随机误差项序列存在序列相关性。
5、变量变换
名义变量变为实际变量、采用变量的差分形式
本章重点复习: 8.1~8.12; 8.14~8.18、8.20
(2)估计多重共线性的范围,即判断哪些变量之间存在 共线性。
注意:
(1)没有度量多重共线性的单一方法;
(2)具有的是一些经验法则,即是在具体应用中能够提
供判断存在多重共线性的一些线索。
三、多重共线性的诊断
1、对多个解释变量的模型,采用综合统计检验法 若 在OLS法下:R2与F值较大,但t检验值较小,说 明各解释变量对Y的联合线性作用显著,但各解释 变量间存在共线性而使得它们对Y的独立作用不能 分辨,故t检验不显著。 R2值较高,但解释变量t值统计显著的不多。
5/15/2014
注意:
除非是完全共线性,多重共线性并不意味 着任何基本假设的违背; 因此,即使出现较高程度的多重共线性, OLS估计量仍具有线性性等良好的统计性质。 问题在于,即使OLS法仍是最好的估计方法, 它却不是“完美的”,尤其是在统计推断上无 法给出真正有用的信息。
存在不完全多重共线性时 OLS估计量仍是最优线性无偏估计量( BLUE). (即不违背前面第四章所学过的任何基本假定)
但这不代表任何一个样本估计值的性质(如方差最 小等)
参数估计值的方差与标准差变大 容易使通过样本计算的t值小于临界值, 误导作出参数为0的推断,最终得出t检验 结果与实际不符
可能将重要的解释变量排除在模型之外
多重共线性本质上是一个样本(回归)现象。即使 在总体回归方程中解释变量X之间不是线性相关的, 但在某个样本中,解释变量X之间可能线性相关.
因此,给定显著性水平,计算F值,并与相应的临界值比 较,来判定是否存在相关性。
• 5、方差膨胀因子
1 VIF 2 1 R2
• 其中,R22表示解释变量之间辅助回归方 程的样本决定系数。
5/15/2014
四、多重共线性评价:必定不好吗?
• 根据不同的研究目地加以选择:
• 目的一:预测因变量的均值,即使存在多重共线 性,只要模型中的共线性一直存在下去,并且具 有较高的解释能力(判定系数较大) • 目的二:除了要求进行预测,还要估计模型参数。 则严重的共线性存在就不好
相关文档
最新文档