第八章多重共线性：解释变量相关会有什么后果1126案例

合集下载

多重共线性

解决方法
解决方法
（1）排除引起共线性的变量找出引起多重共线性的解释变量，将它排除出去，以逐步回归法得到最广泛的应用。（2）差分法时间序列数据、线性模型：将原模型变换为差分模型。（3）减小参数估计量的方差：岭回归法（Ridge Regression）。（4）简单相关系数检验法
谢谢观看
简介
简介
对线性回归模型基本假设之一是自变量，之间不存在严格的线性关系。如不然，则会对回归参数估计带来严重影响。为了说明这一点，首先来计算线性回归模型参数的 LS估计的均方误差。为此。重写线性回归模型的矩阵形式为其中服从多元正态分布，设计矩阵 X是的，且秩为 p。这时，参数的 LS估计为，而回归系数的 LS估计为。注意到由此获得的 LS估计是无偏的，于是估计的均方误差为其中是的特征根。显然，如果至少有一个特征根非常接近于零，则就很大，也就不再是的一个好的估计。由线性代数的理论知道，若矩阵的某个特质根接近零，就意味着矩阵 X的列向量之间存在近似线性关系。如果存在一组不全为零的数，使得则称线性回归模型存在完全共线性；如果还存在随机误差 v，满足，使得则称线性回归模型存在非完全共线性。如果线性回归模型存在完全共线性，则回归系数的 LS估计不存在，因此，在线性回归分析中所谈的共线性主要是非完全共线性，也称为复共线性。判断复共线性及其严重程度的方法主要有特征分析法(analysis of eigenvalue)，条件数法 (conditional numbers)和方差扩大因子法(variance inflation factor)。
产生原因
产生原因
主要有3个方面：（1）经济变量相关的共同趋势（2）滞后变量的引入（3）样本资料的限制
影响
影响

多重共线性PPT课件

2-2
多重共线性的性质
多重共线性(multicollinearity)原先的含义指一个回归模型中的一些或全部解释变量之间存在一种“完全”或者准确的线性关系。 l 1 X1 + l 2 X 2 + L + l k X k = 0 现在共线性更为广义，既包括上述完全共线性，也包括非完全（高度）共线性的形式。
2-18
8.4 多重共线性的实际后果
OLS估计量的方差和标准误较大。置信区间变宽。 t值不显著。 R 2值较高，但t值并不都是统计显著的。 OLS估计量及其标准误对数据的微小变化非常敏感，即它们很不稳定。回归系数符号有误。难以评估各个解释变量对回归平方和（ESS）或者 R 2 的贡献。
2-15
出现“高度”但“不完全”多重共线性时的估计问题
仍以上述三变量回归模型为例。假定 X 3i = l X 2i + vi ，其中 å vi x2i = 0
回归系数估计：
b2 =
(邋yi x2i )(l
2
2 2 x2 + v i i )- (l 2 2i 2 2 2i
邋yi x2i +
l 1 X1 + l 2 X 2 + L + l k X k + ui = 0
2-3
为什么CLRM假定无多重共线性？
如果多重共线性是完全的，则X变量的回归系数将是不确定的，并且它们的标准误为无穷大。如果多重共线性是不完全的，则虽然回归系数可以确定，却有较大的标准误（相对于系数本身来说），也即系数不能以很高的精度或准确度加以估计。
2-26
8.7 扩展一例：1960-1982年期间美国的鸡肉需求

多元回归分析中的多重共线性及其解决方法

多元回归分析中的多重共线性及其解决方法在多元回归分析中，多重共线性是一个常见的问题，特别是在自变量之间存在高度相关性的情况下。

多重共线性指的是自变量之间存在线性相关性，这会造成回归模型的稳定性和可靠性下降，使得解释变量的效果难以准确估计。

本文将介绍多重共线性的原因及其解决方法。

一、多重共线性的原因多重共线性常常发生在自变量之间存在高度相关性的情况下，其主要原因有以下几点：1. 样本数据的问题：样本数据中可能存在过多的冗余信息，或者样本数据的分布不均匀，导致变量之间的相关性增加。

2. 选择自变量的问题：在构建回归模型时，选择了过多具有相似解释作用的自变量，这会增加自变量之间的相关性。

3. 数据采集的问题：数据采集过程中可能存在误差或者不完整数据，导致变量之间的相关性增加。

二、多重共线性的影响多重共线性会对多元回归模型的解释变量产生不良影响，主要表现在以下几个方面：1. 回归系数的不稳定性：多重共线性使得回归系数的估计不稳定，难以准确反映各个自变量对因变量的影响。

2. 系数估计值的无效性：多重共线性会导致回归系数估计偏离其真实值，使得对因变量的解释变得不可靠。

3. 预测的不准确性：多重共线性使得模型的解释能力下降，导致对未知数据的预测不准确。

三、多重共线性的解决方法针对多重共线性问题，我们可以采取以下几种方法来解决：1. 剔除相关变量：通过计算自变量之间的相关系数，发现高度相关的变量，选择其中一个作为代表，将其他相关变量剔除。

2. 主成分分析：主成分分析是一种降维技术，可以通过线性变换将原始自变量转化为一组互不相关的主成分，从而降低多重共线性造成的影响。

3. 岭回归：岭回归是一种改良的最小二乘法估计方法，通过在回归模型中加入一个惩罚项，使得回归系数的估计更加稳定。

4. 方差膨胀因子（VIF）：VIF可以用来检测自变量之间的相关性程度，若某个自变量的VIF值大于10，则表明该自变量存在较高的共线性，需要进行处理。

第8章多重共线性：解释变量相关会有什么后果

X3i 3000 2 X 2i
Yi A1 A2 X 2 i A3 (300 2 X 2 i ) ui
A1 300 A3 A2 2 A3 X 2 i ui
令
C1 A1 300 A3 C 2 A2 2 A3
ˆ ˆ X ˆ X ˆ 3t X 3.12 31.2 1t 32.1 2t
• 利用以上偏回归系数，３个变量之间的偏相关系数可定义如下：
ˆ ˆ r12.3 12.3 21.3
ˆ ˆ r13.2 13.2 31.2
ˆ ˆ r23.1 23.1 32.1
案例分析一、研究的目的要求
提出研究的问题——为了规划中国未来国内旅游产业的发展，需要定量地分析影响中国国内旅游市场发展的主要因素。
二、模型设定及其估计
影响因素分析与确定——影响因素主要有国内旅游人数 X 2，城镇居民人均旅游支出 X 3，农村居民人均
旅游支出 X 4 ，并以公路里程次 X 5 和铁路里程
8.7鸡肉需求函数[方程（8.15）]的共线性诊断 1.相关矩阵
鸡肉需求函数[方程（8.15）]的共线性诊断 2.辅助回归
8.8 如何解决多重共线性：补救措施
• • • • • • 从模型中删掉一个变量获取额外的数据或新的样本重新考虑模型参数的先验信息变量变换其他补救措施
（1）从模型中删掉一个变量
留该变量。
若新变量的引入未能改进 R 2 和 F 检验，且对其他回归参数估计值的t 检验也未带来什么影响，则认为该变量是多余变量。若新变量的引入未能改进 R 2 和 F 检验，且显著地影响了其他回归参数估计值的数值或符号，同时本身的回归参数也通不过t 检验，说明出现了严重的多重共线性。

多重共线性问题分析

●经验表明，方差膨胀因子≥10时，说明解释变量
与其余解释变量之间有严重的多重共线性，且这
种多重共线性可能会过度地影响最小二乘估计。
（4）直观判断法
①当增加或剔除一个解释变量，或者改变一
个观测值时，回归参数的估计值发生较大变化，回归方程可能存在严重的多重共线性。 ②从定性分析认为，一些重要的解释变量的回归系数的标准误差较大，在回归方程中没有通过显著性检验时，可初步判断可能存在严重的多重共线性。
例如：
年份 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
C 1759.1 2005.4 2317.1 2604.1 2867.9 3182.5 3674.5 4589.0 5175.0 5961.2 7633.1 8523.5 9113.2 10315.9 12459.8 15682.4 20809.8 26944.5 32152.3 34854.6 36921.1 39334.4 42911.9
三、多重共线性的检验
多重共线性表现为解释变量之间具有相关关系，
所以用于多重共线性的检验方法主要是统计方法：
如判定系数检验法、逐步回归检验法等。多重共线性检验的任务是：（1）检验多重共线性是否存在；
（2）估计多重共线性的范围，即判断哪些变量之
间存在共线性。
1、检验多重共线性是否存在
(1)对两个解释变量的模型，采用简单相关系数法
可以有效地消除原模型中的多重共线性。
一般而言，差分后变量之间的相关性要比
差分前弱得多，所以差分后的模型可能降

多重共线性与随机解释变量

• 由于多重共线性表现为解释变量之间具有相关关
系，所以用于多重共线性的检验方法主要是统计方法，如判定系数检验法、逐步回归检验法等。
• 多重共线性检验的任务是：（1）检验多重共线性是否存在；（2）估计多重共线性的范围，即判断哪些变量之间存在共线性。
1、检验多重共线性是否存在
(1)对两个解释变量的模型，采用简单相关系数法求出X1与X2的简单相关系数r，若|r|接近1，则说明两变量存在较强的多重共线性。 (2)对多个解释变量的模型，采用综合统计检验法若在OLS法下，模型的R2与F值较大，但各参数估计量的t检验值较小，则说明各解释变量对Y的联合线性作用显著，但各解释变量之间存在共线性而使得它们各自对Y的独立作用不能分辨，故t检验不显著。
，
2
所以，多重共线性使参数估计量的方差增大。
方差扩大因子(Variance Inflation Factor) 为 1/(1-r2)，其增大趋势见下表：
相关系数平方方差扩大因子 0 1 0.5 2 0.8 5 0.9 10 0.95 0.96 20
ˆ
0.97 33
0.98 50
0.99 100
0.999 1000
25
r 2 =1 ， var( 1 ) 当完全共线时，
3、参数估计量的经济含义不合理
如果模型(2.8.1)中两个解释变量具有线性相关性，例如 X1 和 X2 ，那么它们中的一个变量可以由另一个变量表征。这时， X1 和 X2 前的参数并不反映各自与被解释变量之间的结构关系，而是反映它们对被解释变量的共同影响。所以，各自的参数已经失去了应有的经济含义，于是经常表现出似乎反常的现象，例如本来应该是正的，结果却是负的。

完全多重共线性产生的后果1参数的估计值不确定当解释变量-e会学

2 1 σ 1 2 ˆ Var( β 2 ) = σ = 2 2 2 2 x (1r ) x (1r 2i 23 2i 23 )
当
r23
增大时 Var( 2 ) 也增大
^
2.对参数区间估计时，置信区间趋于变大
3.假设检验容易作出错误的判断 4.可能造成可决系数较高，但对各个参数单独的 t 检验却可能不显著，甚至可能使估计的回归系数符号相反，得出完全错误的结论。
可能造成可决系数较高但对各个参数单独的检验却可能不显著甚至可能使估计的回归系数符号相反得出完全错误的结论
二、产生多重共线性的背景
多重共线性产生的经济背景主要有几种情形：
1.经济变量之间具有共同变化趋势。
2.模型中包含滞后变量。
3.利用截面数据建立模型也可能出现多重共线性。
4.样本数据自身的原因。
第二节多重共线性产生的后果
本节基本内容: ●完全多重共线性产生的后果 ●不完全多重共线性产生的后果
一、完全多重共线性产生的后果
1.参数的估计值不确定
当解释变量完全线性相关时 ——OLS 估计式不确定
▲ 从偏回归系数意义看：在 X 2和 X 3 完全共线性时，无法保
持 X 3不变，去单独考虑 X 2 对Y 的影响（ X 2 和 X 3 的影响不可区分）
பைடு நூலகம்
0 ˆ ▲ 从OLS估计式看：可以证明此时 β2 = 0 2.参数估计值的方差无限大
ˆ ) OLS估计式的方差成为无穷大： Var( 2
二、不完全多重共线性产生的后果
如果模型中存在不完全的多重共线性，可以得到参数的估计值，但是对计量经济分析可能会产生一系列的影响。
1.参数估计值的方差增大

§多重共线性解读

完全多重共线性

Y=XB+N=(X1,……,Xi,……,Xk)B+N 完全共线性:∣X'X∣=0，(X'X)-1不存在
1 2 2 4 c 2 xi 2 c3 xi 3 0 c 1 xi 1 3 6 4 8 这里， 0 xi 1 2 xi 2 x2、判明存在多重共线性的范围
如果存在多重共线性，需进一步确定究竟由哪些变量引起。 (1) 判定系数检验法使模型中每一个解释变量分别以其余解释变量为解释变量进行回归，并计算相应的拟合优度。如果某一种回归
c x c x c x
1 i1 2 i2 3
i3
0
其中0 xi1 xi 2 xi 3 0 X X 0
二、实际经济问题中的多重共线性
一般地，产生多重共线性的主要原因有以下三个方面：
（1）经济变量相关的共同趋势
时间序列样本：经济繁荣时期，各基本经济变量（收入、消费、投资、价格）都趋于增长；衰退时期，又同时趋于下降。横截面数据：生产函数中，资本投入与劳动力投入往往出现高度相关情况，大企业二者都大，小企业都小。
其中 : ci 不全为 0 ，即某一个解释变量可
以用其他解释变量的线性组合表示，则称
为解释变量间存在完全共线性（ Perfect
Multicollinearity）。
如果存在
c1X1i+c2X2i+…+ckXki+vi=0 i=1,2,…,n
其中ci不全为0，vi为随机误差项，则称为近似共线性（ Near Multicollinearity ）。完全多重共线性的情况并不多见，一般出现一定程度上的多重共线性，即近似共线性。
Q f K , L u

多重共线性的概念实际经济问题中的多重共线性

（2）滞后变量的引入在经济计量模型中，往往需要引入滞后经济变量来反映真实的经济关系。例如，消费=f(当期收入, 前期收入）显然，两期收入间有较强的线性相关性。
（3）样本资料的限制由于完全符合理论模型所要求的样本数据较难收集，特定样本可能存在某种程度的多重共线性。一般经验：时间序列数据样本：简单线性模型，往往存在多重共线性。截面数据样本：问题不那么严重，但多重共线性仍然是存在的。
具体可进一步对上述回归方程作F检验：构造如下F统计量
Fj R2 j . /( k 2) (1 R ) /(n k 1)
2 j.
~ F (k 2, n k 1)
式中：Rj•2为第j个解释变量对其他解释变量的回归方程的决定系数，
若存在较强的共线性，则Rj•2较大且接近于1，这时（1- Rj•2 ）较小，从而Fj的值较大。因此，给定显著性水平，计算F值，并与相应的临界值比较，来判定是否存在相关性。
在矩阵表示的线性回归模型 Y=X+ 中，完全共线性指：秩(X)<k+1，即
1 1 X 1 X 11 X 12 X 1n X 21 X 22 X 2n X k1 X k2 X kn
中，至少有一列向量可由其他列向量（不包括第一列）线性表出。如：X2= X1，则X2对Y的作用可由X1代替。
二、实际经济问题中的多重共线性
一般地，产生多重共线性的主要原因有以下三个方面：（1）经济变量相关的共同趋势
时间序列样本：经济繁荣时期，各基本经济变量（收入、消费、投资、价格）都趋于增长；衰退时期，又同时趋于下降。
横截面数据：生产函数中，资本投入与劳动力投入往往出现高度相关情况，大企业二者都大，小企业都小。

多重共线性案例

多重共线性案例：变量Y，X1，X2，X3，X4，X5的数据年Y X1X2X3X4X51974 98.45 560.2 153.20 6.53 1.23 1.891975 100.70 603.11 190.00 9.12 1.30 2.031976 102.80 668.05 240.30 8.10 1.80 2.711977 133.95 715.47 301.12 10.10 2.09 3.001978 140.13 724.27 361.00 10.93 2.39 3.291979 143.11 736.13 420.00 11.85 3.90 5.241980 146.15 748.91 491.76 12.28 5.13 6.831981 144.60 760.32 501.00 13.50 5.47 8.361982 148.94 774.92 529.20 15.29 6.09 10.071983 158.55 785.30 552.72 18.10 7.97 12.571984 169.68 795.50 771.16 19.61 10.18 15.121985 162.14 804.80 811.80 17.22 11.79 18.251986 170.09 814.94 988.43 18.60 11.54 20.591987 178.69 828.73 1094.65 23.53 11.68 23.37资料来源：《天津统计年鉴》1988.用1974-1987年数据建立天津市粮食需求模型如下，Y = -3.49 + 0.13 X1 + 0.07 X2 + 2.67 X3 + 3.44 X4– 4.49 X5(-0.11) (2.12) (1.95) (2.13) (1.41) (-2.03)R2 = 0.97, F = 52.59, T = 14, t0.05(8) = 2.31, (1974-1987)其中Y：粮食销售量（万吨/ 年），X1：市常住人口数（万人），X2：人均收入（元/ 年），X3：肉销售量（万吨/ 年），X4：蛋销售量（万吨/ 年），X5：鱼虾销售量（万吨/ 年）。

第8章多重共线性：解释变量相关会有什么后果

第8章多重共线性：解释变量相关会有什么后果本章主要讲授如下内容：8.1 多重共线性的性质8.2 多重共线性产生的原因 8.3 多重共线性的后果8.4 多重共线性的诊断8.5 如何解决多重共线性：补救措施8.1 多重共线性的性质1．完全多重共线性的情形对于变量X 1、X 2……、X k ，如果存在不全为零的数λ1、λ2、……λk ，使得下式成立：02211=+++k k X X X λλλ则称变量X 1、X 2……、X k 之间存在一种完全的共线性。

注意：当解释变量之间存在完全共线性时，不可能获得所有参数的唯一估计值，因而也就不能根据样本进行任何统计推断（即假设检验）。

2．接近或者不完全多重共线性的情形对于变量X 1、X 2……、X k ，如果存在不全为零的数λ1、λ2、……λk ，使得下式成立：02211=++++μλλλk k X X X则称变量X 1、X 2……、X k 之间存在不完全的共线性。

这里，μ为随机误差项。

8.2 多重共线性产生的原因1．经济变量之间往往存在同方向的变化趋势。

2．经济变量之间往往存在着密切的关联度。

3．在模型中采用滞后变量也容易产生多重共线性。

4．在建模过程中由于解释变量选择不当引起了变量之间的多重共线性。

8.3 多重共线性的后果1．增大OLS 估计量的方差和标准差可以证明，参数估计值i b 的方差为：22211)()var(ii iti RX Xb -⋅-=∑σ其中，2i R 是第i 个解释变量对模型中其他解释变量作辅助回归模型),,,,,,(1121k i i i X X X X X f X +-=时的决定系数。

2．可能导致在假设检验中舍去重要的解释变量，检验的可靠性降低。

3．回归模型缺乏稳定性。

4．可能导致回归系数符号的错误。

8.4 多重共线性的诊断多重共线性只是存在的程度而非是否存在的问题，它属于样本特征而非总体特征。

一般可以采取以下方法进行诊断。

1．根据回归结果判断R 2较高但t 值统计显著的不多，这是多重共线性的“典型”特征。

多重共线性的含义多重共线性产生的原因多重共...

注意：完全共线性的情况并不多见，一般出现的是在一定程度上的共线性，即近似共线性。
二、多重共线性产生的原因
一般地，产生多重共线性的主要原因有以下四个方面：
（1）经济变量相关的共同趋势
时间序列样本：经济繁荣时期，各基本经济变量（收入、消费、投资、价格）都趋于增长；衰退时期，又同时趋于下降。横截面数据：生产函数中，资本投入与劳动力投入往往出现高度相关情况，大企业二者都大，小企业都小。
六、案例一——中国粮食生产函数
根据理论和经验分析，影响粮食生产（Y）的主要因素有：农业化肥施用量（X1）；粮食播种面积(X2) 成灾面积(X3); 农业机械总动力(X4); 农业劳动力(X5) 已知中国粮食生产的相关数据，建立中国粮食生产函数： Y=0+1 X1 +2 X2 +3 X3 +4 X4 +4 X5 +
Y
1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 (万吨) 38728 40731 37911 39151 40208 39408 40755 44624 43529 44264 45649 44510 46662 50454 49417 51230 50839 46218
（4）样本资料的限制，数据收集范围过窄，有时会造成变量间存在多重共线性问题
由于完全符合理论模型所要求的样本数据较难收集，特定样本可能存在某种程度的多重共线性。一般经验：
时间序列数据样本：简单线性模型，往往存在多重共线性。
截面数据样本：问题不那么严重，但多重共线性仍然是存在的。

多重共线性的危害

i i
P lim
n
i
n
n
0
那么因为
P lim b1 1 P lim
n
X
i i
i
X i
i
X
X
2
1 0 1
因此 b1 是1 的一致估计。虽然不是无偏估计。
24
三、工具变量法估计
设模型为 Y 0 1 X 其中 X不仅是随机变量，而且与有强相关性。对模型作离差变换得 Yi Y 1 X i X i 两边乘 Z Z 并求和得 Zi Z Yi Y 1 Zi Z X i X Zi Z i i i i 然后两边除以 Z Z X X ，有 Z Z Y Y Z Z Z Z X X Z Z X X
8
（二）状态数检验
1、状态指数将 X矩阵的每一列 X 用其模 X X X 相除以实现标准化，然后再求 XX 矩阵的特征值，取其中最大的除以最小的后再求平方根，得到该矩阵的“状态数”，记为： max min 通常当大于20或30时，认为存在较明显的多重共线性。
k
k k
34
一、最大似然估计的原理

根据事物出现的概率（几率、可能性）的大小，推断事物的真相，包括定性的和定量的（参数水平）真相。
例1：一个老战士和一个军训学生各射击一次，但只有一枪中靶。问可能是谁打中的。
β - XX D Dβ
1
19
第二节随机解释变量
一、解释变量的随机性二、随机解释变量和参数估计的性质三、工具变量法估计四、参数估计量的分布性质和统计推断

多重共线性问题课件

多重共线性通常出现在多元回归分析中，当两个或多个自变量之间存在高度相关或完全相关时，会导致模型估计的参数不稳定。
多重共线性的表现形式
相关性矩阵
通过计算自变量之间的相关性矩阵，可以发现高度相关的自变量。
特征值
在多重共线性情况下，某些特征值的绝对值会接近于0，这表明自变量之间存在高度相关。
方差膨胀因子
数据收集阶段预防
总结词
在数据收集阶段，预防多重共线性的关键是保证数据的准确性和完整性，以及合理的数据样本量。
总结词
在数据收集阶段，可以通过增加样本量来降低多重共线性的影响。
详细描述
数据的质量直接关系到模型的准确性和可靠性，因此需要确保数据的准确性和完整性。此外，合理的数据样本量可以降低随机误差的影响，提高模型的稳定性和可靠性。
多重共线性问题的
03
诊断
特征值诊断法
总结词
通过计算模型中自变量的特征值来判断是否存在多重共线性问题。
详细描述
特征值诊断法是通过计算自变量的特征值来判断自变量之间的相关性。如果自变量的特征值接近于零，说明该自变量与其他自变量高度相关，存在多重共线性问题。
条件指数法
总结词
通过计算自变量之间的条件指数来判断是否存在多重共线性问题。
VS
详细描述
条件指数是一种衡量自变量之间相关性的指标，如果条件指数大于一定阈值，说明自变量之间存在多重共线性问题。
方差膨胀因子法
总结词
通过计算自变量的方差膨胀因子来判断是否存在多重共线性问题。
详细描述
方差膨胀因子是衡量自变量对因变量影响的放大程度，如果方差膨胀因子大于一定阈值，说明自变量之间存在多重共线性问题。
Байду номын сангаас

第八章多重共线性

对于饰品的需求模型：对于饰品的需求模型：
Yi = A1 + A2 X 2 i + A3 X 3 i + ui
（8-1）
利用表8-1中的数据对上面的回归模型进行估计利用表8 时，计算机“拒绝”估计模型。计算机“拒绝”估计模型。
作价格变量（与收入变量（的关系图：作价格变量（X2)与收入变量（X3)的关系图：与收入变量的关系图
回归结果表明，价格和工资高度相关，相关系数为回归结果表明，价格和工资高度相关，相关系数为0.988。近似完全线性关系。 0.988。近似完全线性关系。
§8.3 多重共线性的理论后果
①在高度多重共线性的情形下，OLS估计量仍是最优线性无在高度多重共线性的情形下，OLS估计量仍是最优线性无偏估计量。但要注意，最小方差性(相对估计方法而言) 偏估计量。但要注意，最小方差性(相对估计方法而言)并不 OLS估计量的方差会较小估计量的方差会较小。意味着对于任何给定的样本 OLS估计量的方差会较小。 ②即使在总体上各个解释变量之间不存在线性相关关系，但即使在总体上各个解释变量之间不存在线性相关关系，却可能在具体获得的样本中存在线性相关关系，却可能在具体获得的样本中存在线性相关关系，即多重共线性本质上来说是一个样本（回归）现象。性本质上来说是一个样本（回归）现象。
（8-15）
鸡肉需求函数[方程（鸡肉需求函数方程（8-15）]的共线性诊断方程）的共线性诊断 1.相关矩阵相关矩阵
2.从属或辅助回归：从属或辅助回归：
做每个变量对其他变量的回归，并计算相应的做每个变量对其他变量的回归，并计算相应的R2值。其中的每一个回归都被称为是从属或者辅助回归。的每一个回归都被称为是从属或者辅助回归。如果某个解释变量不是其他变量的线性组合，则该回归方如果某个解释变量不是其他变量的线性组合，程的R 显著为零。通过下面的F统计量检验判定系数否显著为程的 i2显著为零。通过下面的统计量检验判定系数否显著为零，从而判断解释变量之间是否存在多重共线性关系。从而判断解释变量之间是否存在多重共线性关系。

7.2多重共线性的后果

计量经济模型中经常需要利用回归系数定量分析各个解释变量对被解释变量的单独影响程度。对于多元线性回归模型，回归系数为：
1

Y X1
根据偏导数的概念，β1的经济含义是：在其他变量保持不变的情况下，X1 变化一个单位将使Y变化β1个单位。
但在多重共线性的情况下，解释变量的相关性将无法“保持其他变量不变”，从而也难以分离出每个解释变量的单独影响。
经典回归模型要求模型不存在完全的多重共线性，所以，即使模型存在严重的多重共线性，也并不违背基本假定，OLS估计仍然是最佳线性无偏估计。但多重共线性却会产生以下问题：
一、OLS估计量的方差增大
设二元线性回归模型为：
Yi 0 1 X1i 2 X2i ui
可以证明，ˆ1和ˆ2的方差为：
经常会出现参数估计量的经济意义明显不合理。
经验表明，在多元线性回归模型的估计中，如果出现参数估计值的经济意义明显不合理的情况，应该首先怀疑是否存在多重共线性。
注意：
除非是完全共线性，多重共线性并不意味着任何基本假定的违背；
因此，即使出现较高程度的多重共线性， OLS估计量仍具有线性性等良好的统计性质。
三变量的显著性检验失去意义在多重共线性的影响下系数估计标准差的增大将导致t统计量值的减小这很可能使原来显著的t值变成不显著的即容易将重要的解释变量误认为是不显著的变量
第二节多重共线性的后果
• OLS估计量的方差增大 • 难以区分每个解释变量的单独影响 • 变量的显著性检验失去意义 • 回归模型缺乏稳定性
例如，对于二元线性回归模型
Yi 0 1 X1i 2 X2i ui 如果两个解释变量完全相关，如X2 X1，则该二元
线性回归模型退化为一元线性回归模型：

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• 目的三：估计一组系数（如估计两个系数的和或差，例如，解释行业生产规模效应），存在共线性也没有问题。
10/14/2018
五、克服多重共线性的方法（8.8)
1、排除引起共线性的变量
（补充）逐步回归法：
两难：共线性；设定误差
找出引起多重共线性的解释变量，将它排除出去。以Y为被解释变量，逐个引入解释变量，构成回归模型，进行模型估计
因此，给定显著性水平，计算F值，并与相应的临界值比较，来判定是否存在相关性。
• 5、方差膨胀因子
1 VIF 2 1 R2
• 其中，R22表示解释变量之间辅助回归方程的样本决定系数。
10/14/2018
四、多重共线性评价:必定不好吗?
• 根据不同的研究目地加以选择：
• 目的一：预测因变量的均值，即使存在多重共线性，只要模型中的共线性一直存在下去，并且具有较高的解释能力（判定系数较大） • 目的二：除了要求进行预测，还要估计模型参数。则严重的共线性存在就不好
概念：方差膨胀因子
根据P76第四章有：
Var (b2 ) Var (b3 )
1 VIF 2 1 R2
R2增加
x 1 R
2 2i
2
2 2

2
x
2 2i
VIF
x 1 R
2 3i
2
2 2

2
x
2 3i
VIF
b2和b3的方差（或标准差）增加（或膨胀）
这是共线性的典型特征首先，检验多重共线性是否存在（1）（2）
三、多重共线性的诊断(8.5)
2、对两个解释变量的模型，采用简单相关系数法
求出X1与X2的简单相关系数r，若|r|接近1，则说明两变量存在较强的多重共线性。 3、对多个解释变量的模型，检查偏相关系数。
计算这些解释变量两两之间的相关系数，如果有些相关系数很高(如超过0.8)，则可能认为存在较为严重的共线性。
其基本假设之一是解释变量是互相独立的。
如果某两个或多个解释变量之间出现了相关性，则称为多重共线性(Multicollinearity)。 1、完全多重共线性 2、近似（不完全）多重共线性
完全共线性的情况并不多见，一般出现的是在一定程度上的共线性，即近似共线性。
1、解释变量间存在完全共线性（perfect multicollinearity）
基本假定误差项之间不相关
第八章多重共线性
Multi-Collinearity
• 一、多重共线性的性质
• 二、多重共线性的实际后果
• 三、多重共线性的诊断
• 四、克服多重共线性的方法 • 五、案例
一、多重共线性的性质(8.1-8.2)
对于模型
Yi=B0+B1X1i+B2X2i+…+BkXki+μi i=1,2,…,n
但这不代表任何一个样本估计值的性质（如方差最小等）
参数估计值的方差与标准差变大容易使通过样本计算的t值小于临界值，误导作出参数为0的推断,最终得出t检验结果与实际不符
可能将重要的解释变量排除在模型之外
多重共线性本质上是一个样本（回归）现象。即使在总体回归方程中解释变量X之间不是线性相关的, 但在某个样本中,解释变量X之间可能线性相关.
i=1,2,…,n
OLS 估计量仍是最优线性无偏估计量其中 ci不全为0，vi为随机误差项
完全多重共线性和不完全多重共线性：举例 • 完全多重共线性模型: X3=300-2X2 R2=1, 且相关系数r=1 (模型8-3) 两个变量之间存在精确的线性关系 • 不完全多重共线性模型 X4=299.92-2.0055X2+e (模型8-9) R2=0.9770, 且相关系数r=-0.9884 两个变量之间存在不精确的线性关系,即存在近似的线性关系.
如果存在c1X1i+c2X2i+…+ckXki=0 其中: ci不全为0
i=1,2,…,n
不可能获得所有参数的唯一估计值及根据样本进行任何统计推断。 2、近似（不完全、高度）共线性（near/imperfect/high multicollinearity）
如果存在 c1X1i+c2X2i+…+ckXki+vi=0
5、变量变换
名义变量变为实际变量、采用变量的差分形式
本章重点复习: 8.1~8.12； 8.14~8.18、8.20
人有了知识，就会具备各种分析能力，明辨是非的能力。所以我们要勤恳读书，广泛阅读，古人说“书中自有黄金屋。 ”通过阅读科技书籍，我们能丰富知识，培养逻辑思维能力；通过阅读文学作品，我们能提高文学鉴赏水平，培养文学情趣；通过阅读报刊，我们能增长见识，扩大自己的知识面。有许多书籍还能培养我们的道德情操，给我们巨大的精神力量，鼓舞我们前进。
Fj
RSS j . / 样本量-待估参数个数
ESS j . / 解释变量个数

2 1R j. / df RSS
R j . / df ESS
2
若拒绝原假设则说明Xj与其他解释变量之间存在显著的线性关系。
4、从属回归或辅助回归（判定系数检验法） Rj•2:第j个解释变量对其他解释变量的回归方程的判定系数若存在较强的共线性（1- Rj•2 ）较小 Rj•2较大且接近于1 从而Fj的值较大。
10/14/2018
注意：
除非是完全共线性，多重共线性并不意味着任何基本假设的违背；因此，即使出现较高程度的多重共线性， OLS估计量仍具有线性性等良好的统计性质。问题在于，即使OLS法仍是最好的估计方法，它却不是“完美的”，尤其是在统计推断上无法给出真正有用的信息。
存在不完全多重共线性时 OLS估计量仍是最优线性无偏估计量( BLUE). (即不违背前面第四章所学过的任何基本假定)
但是，这一标准并不可靠，有时候，两两相关系数可能较低，但仍可能存在共线性。
4、从属回归或辅助回归（判定系数检验法）
进一步确定哪些变量引起的
Step1：使模型中每一个解释变量分别以其余解释变量为解释变量进行回归（这些回归称为从属回归或辅助回归 Xji=1X1i+2X2i+LXLi Ste:2：首先观察这些辅助回归相应的拟合优度（或判定系数）的大小；然后对这些辅助回归进行F检验H0：Rj.2=0
第二部分
实践中的回归分析
基本假定违背：不满足基本假定的情况。
（1）模型设定有偏误；所选模型是正确设定的
基本假定所选模型是正确设定的
（2）解释变量之间存在多重共线性；
基本假定解释变量之间不存在完全线性关系
（3）随机误差项序列存在异方差性；
基本假定误差项方差为常数
（4）随机误差项序列存在序列相关性。
根据拟合优度的变化决定新引入的变量是否独立
若拟合优度变化显著，则说明新引入的变量是一个独立解释变量；若拟合优度变化很不显著，则说明新引入的变量与其它变量之间存在共线性关系
五、克服多重共线性的方法
2、获取额外的数据或新的样本
增加样本可改善共线性问题，但有困难
3、重新考虑模型
4、参数的先验信息
然先验信息难以获得，且其准确性易遭质疑
（2）估计多重共线性的范围，即判断哪些变量之间存在共线性。
注意：
（1）没有度量多重共线性的单一方法；
（2）具有的是一些经验法则，即是在具体应用中能够提
供判断存在多重共线性的一些线索。
三、多重共线性的诊断
1、对多个解释变量的模型，采用综合统计检验法若在OLS法下：R2与F值较大，但t检验值较小，说明各解释变量对Y的联合线性作用显著，但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨，故t检验不显著。 R2值较高，但解释变量t值统计显著的不多。
（3）样本资料的限制
由于完全符合理论模型所要求的样本数据较难收集单线性模型，往往存在多重共线性。
截面数据样本：问题不那么严重，但多重共线性仍然是存在的。
三、多重共线性的诊断(8.5)
任务：
（1）检验多重共线性是否存在及度量共线性的程度；
（1）经济变量相关的共同趋势
时间序列样本：经济繁荣时期，各基本经济变量（收入、消费、投资、价格）都趋于增长；衰退时期，又同时趋于下降。
横截面数据：生产函数中，资本投入与劳动力投入往往出现高度相关情况，大企业二者都大，小企业二者都小。
（2）滞后变量的引入在经济计量模型中，往往需要引入滞后经济变量来反映真实的经济关系。例如，消费=f(当期收入, 前期收入） Y=f(Xi,Xi-1) 显然，两期收入间有较强的线性相关性。
多重共线性使参数估计值的方差增大，1/(1-R2) 为方差膨胀因子(Variance Inflation Factor, VIF)
当完全不共线时, R2 =0
当近似共线时, 0< R2 <1
VIF 1,
二、多重共线性的实际后果(8.4)
1、OLS估计量的方差和标准误较大。 2、置信区间变宽。 3、t值不显著。
由于标准误较大，故总体参数的置信区间就变宽了。
由于标准误变大，所以t值变小，零假设易被接受。变量间作用抵消。
4、R2值较高，但t值并不都是显著的。
5、OLS估计量及其标准误对数据的微小变化非常敏感。
6、回归系数的符号有误。
不能通过经济意义的检验。
7、难以评估各个解释变量对ESS或R2的贡献。
补充：产生多重共线性的主要原因（了解）

第八章多重共线性：解释变量相关会有什么后果1126案例

多重共线性

多重共线性PPT课件

多元回归分析中的多重共线性及其解决方法

第8章 多重共线性：解释变量相关会有什么后果

多重共线性问题分析

多重共线性与随机解释变量

完全多重共线性产生的后果1参数的估计值不确定当解释变量-e会学

§多重共线性解读

多重共线性的概念实际经济问题中的多重共线性

多重共线性案例

第8章 多重共线性：解释变量相关会有什么后果

多重共线性的含义多重共线性产生的原因多重共...

多重共线性的危害

多重共线性问题课件

第八章 多重共线性

7.2多重共线性的后果

第8章多重共线性：解释变量相关会有什么后果

第8章多重共线性：解释变量相关会有什么后果

第八章多重共线性