多重共线性
第四章 多重共线性
二、产生多重共线性的背景
多重共线性产生的经济背景主要有几种情形: 1.经济变量之间具有相同的变化趋势。 2.模型中包含滞后变量。 3.利用截面数据建立模型也可能出现多重共线性。 4.样本数据的原因。
6
第二节 多重共线性的后果
一、完全多重共线性产生的后果
1.参数的估计值不确定 2.参数估计值的方差无限大
Cov( ˆ2 ,
ˆ3 )
(1
r223 )
r23 2
x22i
x32i
随着共线性增加,r23趋于1,方差将增大。同样 协方差的绝对值也增大,它们增大的速度决定于
方差扩大(膨胀)因子(variance inflation factor, VIF)
VIF
1
1 r223
这时
Var(ˆ2 )
4.多重共线性严重时,甚至可能使估计的回归系数 符号相反,得出完全错误的结论。(如引例)
18
第三节 多重共线性的检验
本节基本内容: 简单相关系数检验法 方差扩大因子法 直观判断法 病态指数检验法 逐步回归法
19
一、简单相关系数检验法 简单相关系数检验法是利用解释变量之间的线性 相关程度去判断是否存在严重多重共线性的一种 简便方法。适用于只有两个变量的情形。
2
x32i 0
同理
ˆ3
这说明完全多重共线性时,参数估计量的方差将 变成无穷大。
9
关于方差的推导
Var(ˆ2 )
x32i (x22i ) (x32i )
(x2i x3i )2
2
1 X21 X 1 X22
1 X2n
多重共线性
多重共线性多重共线性(multicollinearity )的特征● 多重共线性是指一个回归模型中的一些或全部解释变量之间存在有一种“完全”或准确的线性关系:0...2211=+++k k X X X λλλ其中k λλλ,...,,21为常数,但不同时为零。
● 0...2211≈+++k k X X X λλλ, 近似的多重共线性● 通过巴伦坦图做简单的描述。
共线性部分可用两圆圈的重叠部分来衡量。
重叠部分越大,共线性程度越高。
● 我们定义的多重共线性仅对X 变量之间的线性关系而言,它们之间的非线性关系并不违反无多重共线性的假设i i i i u X X Y +++=2210βββ多重共线性的后果●如果多重共线性是完全的,诸X变量的回归系数将是不正确的,并且它们的标准误差为无穷大●如果多重共线性是不完全的,那末,虽然回归系数可以确定,却有较大的标准误差,意思是,系数不能以很高的精确或准精确加以估计,这会导致:-参数估计不精确,也不稳定-参数估计量的标准差较大,影响系数的显著性检验●多重共线性产生的后果具有一定的不确定性●在近似的多重共线性的情况下,只要模型满足CLRM 假定,回归系数就为BLUE,但特定的样本估计量并不一定等于真值。
多重共线性的来源(1)许多经济变量在时间上由共同变动的趋势,如:收入,投资,消费(2)把一些经济变量的滞后值也作为解释变量在模型中使用,而解释变量和滞后变量通常相关,如:消费和过去的收入多重共线性一般与时间序列有关,但在横截面数据中也经常出现多重共线性的检验● 多重共线性是普遍存在的,造成的后果也比较复杂,对多重共线性的检验缺少统一的准则- 对有两个解释变量的模型,作散点图,或相 关系数,或拟和优度R平方。
- 对有多个解释变量的模型,分别用一个解释 变量对其它解释变量进行线性回归,计算拟 和优度22221,...,,k R R R- 考察参数估计值的符号,符不符合理论 - 增加或减少解释变量,考察参数估计值的变 化- 对比拟和优度和t检验值多重共线性的修正方法● 增加样本观测值,如果多重共线性是由样本引起的,可以通过收集更多的观测值增加样本容量。
计量经济学第四章多重共线性
R-squared
0.989654
Adjusted R-squared 0.986955 S.E. of regression 1437.448 Sum squared resid 47523916 Log likelihood -256.7013 Durbin-Watson stat 1.654140
4
(二)不完全的多重共线性
实际中,常见的情形是解释变量之间存在不 完全的多重共线性。
对于解释变量 X 2 , X 3, X k,存在不全为0的数
1
,
2
,
,使得
k
1 2X2 3X3 ...k Xk u 0
5
(三)解释变量的关系小节
可能表现为三种情形: r为相关系数 (1) rxixj 0 ,解释变量间毫无线性关系。这时多元
Var(ˆ2 )
9
二、不完全多重共线性产生的后果
1、参数估计值的方差增大
Var( βˆ 2 ) = σ 2
1 x22i (1-
r223 )
=
σ2
1
x22i (1 - r223 )
当 r23增大时,
^
Var( 2)
也增大
10
方差膨胀因子 (Variance Inflation Factor)
17 17
2、交叉相关系数(Cross correlation)
相关系数计算的是两组样本的同期相关程 度,交叉相关则可以表示不同期之间的相关 程度。
Eviews操作: Group窗口的view/cross correlation/输入 滞后期设定/ 输出结果阅读:看是否超出2倍标准差线
18
2倍 标准 差线
1、参数估计值有很大的偶然性。 2、参数显著性检验未通过。 3、经济意义检验未通过。 4、相关系数大。
多重共线性
第二章知多元线性回归模型参数向量的最小二乘估计量为: 1 X X X Y 这一表达式成立的前提条件是解释变量X 1 , X 2 , X k 之间没有多重共线性. 如果矩阵X 不是满秩的,则X X 也不是满秩的.必有: X X 0, 从而 X X 不存在, OLS失效, 此时称该模型存在完全的多重共线性.
解释变量的精确线性组合表示,它们的相关系数的绝对值为1.
X s ,h =
Var X is Var X ih ch cs
n
Cov( X is , X ih )
n
n i 1
( X is X is )( X ih X ih )
2
i1 ( X is X is )
则:
x y x
i1 i 2 i1
, 而1与 2却无法估计.
2 在近似共线性下OLS参数估计量的方差变大
我们前面已论述, 在近似共线性下,虽然可以得到OLS估计量: ) X X 1 2 Var (
由于此时 X X 0, 引起 X X 主对角线元素较大, 即 i的方差较大.
1
对此, 如果我们合并两个(或多个)高度线性相关的变量, 可以使用OLS , 但两个(或多个)变量前的参数将无法估计. 例如,对于回归模型:Yi 0 1 X i1 2 X i 2 i i 1, 2 , n 如果有:X i 2 X i1 , 合并两变量 : Yi 0 1 2 X i1 i , 令 1 2 ,
n
( X ih X ih ) i1
n 2
2
1 X s , h 1 在近似的多重共线性下则得不到这样的精确线性组合, 它们的相关系数的绝对值近似为1.
第四章多重共线性
2
x2j VIFj
注意:R2j 是多个解释变量辅助回归的多重可决系数,
而相关系数 r223只是说明两个变量的线性关系 。
(一元回归中可决系数的数值等于相关系数的平方)
17
方差扩大因子的作用
由
R2j 越大
VIFJ 1 (1 R2j ) 多重共线性越严重
VIFj越大
VIFj的大小可以反映解释变量之间存在多重共线性的严重
1 x22i (1
r223 )
2
x22i
1 (1 r223)
2
x22i
VIF2
当 r23 增大时,VIF2 增大, Var(ˆ2 ) 也会增大 ,
思考: 当 r23 0 时 Var(ˆ2) 2
x22i
(与一元回归比较)
当 r23 1 时 Var(ˆ2 )
(见前页结论) 8
三、当多重共线性严重时,甚至可能使估计
在总体中部分或全部解释变量可能没有线性关系,但是 在具体获得的样本中仍可能有共线性关系,因此多重共线 性问题本质上是一种样本现象。
正因为如此,我们无法对多重共线性问题进行统计假设 检验,只能设法评价解释变量之间多重共线性的严重程度。
5
第二节 多重共线性产生的后果
从参数估计看,在完全无多重共线性时,各解释变量都独
Kt
Kt
ln Qt ln A ln Lt ln Kt ln u
(ln Lt 与 ln Kt 有多重共线性) ln Qt ln A ln Lt ln u
Kt
Kt 22
三、截面数据与时间序列数据的结合
有时在时间序列数据中多重共线性严重的变量,在截 面数据中不一定有严重的共线性
假定前提:截面数据估计出的参数在时间序列中变化不大
多重共线性
第四章 多重共线性第一节 什么是多重共线性一、多重共线性的含义所谓多重共线性,不仅包括解释变量之间完全(精确)的线性关系,还包括解释变量之间近似的线性关系。
对于解释变量23,,,k X X X ,如果存在不全为零的数123,,,,k λλλλ ,能使得12233i i k ki X X X λλλλ++++ =0 ,(i =1,2,,n )——即解释变量的数据矩阵的列向量组线性相关。
则称解释变量23,,,k X X X 之间存在着完全的线性关系。
用数据表示,解释变量的数据矩阵为X =213112232223111k k nnkn X X X XX X X X X ⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦当()r X <k 时,也说明解释变量23,,,k X X X 之间存在着完全的线性关系。
当存在完全共线性时,至少有一个变量(列向量)可以用其余的变量(列向量)线性表出。
在实际问题中,完全的共线性并不多见。
常见的情形是解释变量23,,,k X X X 之间存在不完全的共线性,这是指存在不全为零是数123,,,,k λλλλ ,使得12233λλλλ+++++ i i k ki i X X X v =0(i =1,2,,n )其中i v 是随机变量。
这表明此时解释变量之间只是一种近似的线性关系。
二、产生多重共线性的背景1.经济变量之间具有共同的变化趋势2.模型中包含滞后变量3.利用截面数据建立模型也可能出现共线性4. 样本数据自身的原因第二节 多重共线性产生的后果完全共线性时,矩阵X X '不可逆,参数估计式ˆβ=1()X X X Y -''不存在,OLS 无法应用。
不完全的共线性时,1()X X -'也存在,可以得到参数的估计值,但是对计量经济分析可能会产生一系列影响。
一、参数估计量的无偏性依然成立不完全共线性时ˆ()E β=1()E X X X Y -''⎡⎤⎣⎦=1()()E X X X X U β-''⎡⎤+⎣⎦=β+()1()X X X E U -''=β二、参数OLS 估计值方差扩大 如二元回归模型i Y =12233i i i X X u βββ+++中的2X 与3X 为不完全的共线性时,2X 与3X 之间的相关系数23r 可由下式给出223r=2232223()x x x x∑∑∑容易证明2ˆ()Var β=222223(1)i x r σ-∑3ˆ()Var β=222323(1)ixr σ-∑随着共线性的程度增加,23r 的绝对值趋于1,两个参数估计量的方差也增大。
第七章 多重共线性
2
X 1i 1 r 2
2
ˆ 同理:Var b2
2
X 2i 1 r 2
2
第二节
多重共线性的影响后果
2
ˆ 当完全不共线时,r=0, Var b1
X
2 1i
当不完全共线时,r越接近1,相关程度越高, bi Var ˆ 越大,参数估计值越不准确。
第四节
多重共线性的解决方法
三、逐步回归法 (1)计算因变量对每一个解释变量的回归方程,并分别 进行统计检验,从中选取最合适的基本回归方程。 (2)逐一引入其他解释变量,重新进行回归,在模型中 每个解释变量均显著,参数符号正确, R 2 值有所提高的前 提下,从中再选取最合适的二元回归方程。 (3)在选取的二元回归方程的基础上以同样的方式引 入第三解释变量;如此引入,直至无法引入新变量为止。
第四节
多重共线性的解决方法
(2)如果历年的平均收入弹性与近期的收入弹性 近似相等,就可以用 a2代替原模型中的 b2 。将原模 ln y a2 ln I b0 b1 ln P 型变为 y1 ln y a2 ln I 令:
p1 ln P 再利用时间序列数据求出价格弹性 b1 以及 b0即可。
第四节
多重共线性的解决方法
二、间接剔除重要的解释变量 1、利用已知信息 所谓已知信息,就是在建立模型之前,根据经 济理论、统计资料或经验分析,已知的解释变量之 间存在某种关系。为了克服模型的多重共线性,可 以将解释变量按已知关系加以处理。
第四节
多重共线性的解决方法
例如:柯布-道格拉斯生产函数
y aL K e
ln y / K ln a ln L / K
多重共线性(统计累赘)的概念、特征及其测量方式和处理方式
试述多重共线性(统计累赘)的概念、特征及其测量方式和处理方式。
1、概念多重共线性是指自变量之间存在线性相关关。
倘若其中两个自变项的关系特别强,则在相互控制后就会使每者的效果减弱,而其他的变相的效果就会因此而增大。
2、特征3、产生原因产生多重相关性的原因主要包括四方面。
一是没有足够多的样本数据; 二是选取的自变量之间客观上就有共线性的关系; 还可能由其它因素导致, 如数据采集所用的方法, 模型设定, 一个过度决定的模型等。
但多数研究者认为共线性本质上是由于样本数据不足引起的。
4、测量方式(1)经验式的诊断方法通过观察,得到一些多重相关性严重存在的迹象。
①在自变量的简单相关系数矩阵中,有某些自变量的相关系数值较大。
②回归系数的代数符号与专业知识或一般经验相反;或者该自变量与因变量的简单相关系数符号相反。
③对重要自变量的回归系数进行t 检验,其结果不显著。
特别是当F 检验能在高精度下通过,测定系数R 2的值也很大,但自变量的t 检验却全都不显著,这时多重相关性的可能将会很大。
④如果增加或删除一个变量,或者增加或删除一个观测值,回归系数发生了明显的变化。
⑤重要自变量的回归系数置信区别明显过大。
⑥在自变量中,某一个自变量是另一部分自变量的完全或近似完全的线性组合。
⑦对于一般的观测数据,如果样本点的个数过少,比如接近于变量的个数或者少于变量的个数,样本数据中的多重相关性就会经常存在。
(2)统计检验方法共线性的诊断方法是基于对自变量的观测数据构成的矩阵X ’X 进行分析,使用各种反映自变量间相关性的指标。
共线性诊断常用的统计量有方差膨胀因子VIF 或容限TOL 、条件指数和方差比例等。
方差膨胀因子VIF 是指回归系数的估计量由于自变量的共线性使其方差增加的一个相对度量。
对于第i 个回归系数,它的方差膨胀因子定义为:VIF=1/1-R 2=1/TOL i 其中R2i 是自变量Xi 对模型中其余自变量线性回归模型的R 平方。
多重共线性
我们可以分别作y对x1和y对x2的回归,以便弄清 x1和x2单独对y的影响如何:
yˆi 9.4092 1.6449 x1i (0.0704)
线性。
如果存在不为零的常数 1, 2 ,使得下式成立
1 x1i 2 x2i vi 0 其中vi是随机项,这表示解释变量x1和x2之间存在近 似的线性关系,则说x1和x2之间高度相关,即存在不 完全多重共线性。 完全多重共线性和不完全多重共线性,统称为多重 共线性。因此,所谓多重共线性是指解释变量之间 存在完全的线性关系或近似的线性关系。
§7.2 多重共线性的后果
一般模型
Y X U
(7.2.11)
完全多重共线,即解释变量中存在
0 1 x1i k xki 0 (7.2.12)
其中λi不全为零。于是
rk(X) < k +1
(7.2.13)
便有
| X′X |=0
(7.2.14)
从而使得参数估计量
ˆ ( X X )1 X Y
i=1,2,…,k,皆有R2i=0。
多重共线性基本上是一种样本现象。因为人们在制 定模型时,总是尽量避免将理论上具有严格线性关 系的变量作为自变量收集在一起,因此,实际问题 中的多重共线性并不是自变量之间存在理论上或实 际上的线性关系造成的,而是由于所收集的数据(自 变量观察值)之间存在近似的线性关系所致。
例7.2.1 设因变量y和自变量x1、x2具有表7.2.1所示的 观察值,我们用模型
yi 0 1 x1i 2 x2i ui
拟合表7.2.1中的数据。
表7.2.1
y、x1和x2的观察值
yi 30 35 40 45 50 60 68 80 92 104 x1i 10 15 18 22 28 32 38 42 50 55 x2i 9.8 14.9 17.6 21.6 27.6 31 37.2 42.3 50.2 54.6
第七章多重共线性
第七章多重共线性第七章多重共线性若线性模型不满⾜假定6,就称模型有多重共线性。
§7.1 多重共线性的概念⼀. 基本概念:假定6 ()1k r X k n =+<,是指模型中所有⾃变量12,,,,k x x x 1线性⽆关,也可理解为矩阵X 的列向量线性⽆关。
若不满⾜该假定,即 ()1k r X k <+,则称12,,,,k x x x 1存在完全多重共线性,12,,,,k x x x 1存在严格的线性关系,这是⼀种极端情况;若12,,,,k x x x 1之间的线性关系不是严格的,⽽是⼀种近似的线性关系,则称⾼度相关或存在不完全多重共线性。
如,01122i i i i y x x u βββ=+++ 若12,λλ?不全为零,使11220i i x x λλ+=,完全多重共线性11220i i i x x v λλ++= 不完全多重共线性完全多重共线性和不完全多重共线性统称为多重共线性。
解释变量(⾃变量)之间的线性关系可⽤拟合优度2i R 描述,2i R 表⽰i x 对其它解释变量的拟合优度,21i R = 完全 21i R ≈⾼度 20i R = ⽆⼆. 产⽣的原因:在实际经济问题中主要是不完全多重共线性。
其产⽣的主要原因是:1. 两个解释变量具有相同或相反的变化趋势;(家庭能耗与住房⾯积、⼈⼝)⽣产、需求.......2. 数据收集的范围过窄,造成解释变量之间有相同或相反变化的假象;3. 某些解释变量之间存在某种近似的线性关系;(各解释变量有相同的时间趋势)4. ⼀个变量是另⼀个变量的滞后值;供给5. 解释变量的选择不当也可能引起变量间的多重共线性。
6. 过度决定模型。
(观测值个数少于参数个数)对于正确设置的模型,多重共线性基本上是⼀种样本现象。
§7.2 多重共线性的后果⼀. 完全多重共线性当模型具有完全多重共线性时,⽆法进⾏参数的OLS 估计;设模型 Y XB U =+,若有完全多重共线性,即()1k r X k <+,则()1T r X X k <+ 1()T X X -?不存在1()T TB X X X Y ∧-?=不存在,同样 21()()Tj u jj V X X βσ∧-=也不存在,显著性检验和预测都⽆法进⾏。
多重共线性
2.采用综合统计检验法
R2与F值较大,但t检验值较小,说明各解释变量对Y的联合线 性作用显著,但各解释变量间存在共线性而使得它们对Y的独 立作用不能分辨,故t检验不显著。
3.3 多重共线性
3、辅助回归模型检验 通过每个解释变量对其它解释变量的辅助回归模型
xi a0 a1 x1 ai 1 xi 1 ai 1 xi 1 ak xk
3.3多重共线性
• • • • 多重共线性及其产生原因 多重共线性的后果 多重共线性的检验 多重共线性的方法
一、多重共线性及其产生原因
1.多重共线性的概念---解释变量间相关
对于多元线性回归模型 yi=b0+b1x1i+b2x2i+…+bkxki+εi 存在一组不全为零的常数λ1,λ2,…λk,使得 λ1x1i + λ2x2i +…+ λkxki +νi=0 其中νi是一个随机误差项,则称模型存在着多重共线性。 “共线性”:变量间线性相关 “多重”:多种组合 “完全多重共线性”: νi=0
3.3 多重共线性
例5.服装需求函数。根据理论和经验分析,影响居民服 装需求的主要因素有:可支配收入X、流动资产拥有量 K、服装类价格指数P1和总物价指数P0 。教材P124的表 3-4给出了有关统计资料。 设服装需求函数为 :Y=a+b1x+b2P1+b3P0+b4K+ε (1)相关系数检验 键入:COR Y X K P1 P0 输出的相关系数矩阵为:
3.3 多重共线性
2、间接剔除重要的解释变量 ⑴利用附加信息
例如,著名的Cobb-Dauglas 生产函数中
附加信息: α +β =1 则
多重共线性
第七章 多重共线性Multi-Collinearity多重共线性 一、多重共线性的概念 二、多重共线性的检验 三、克服多重共线性的方法 四、案例一、多重共线性的概念 对于模型 Yi=β0+β1X1i+β2X2i+…+βkXki+μi i=1,2,…,n 其基本假设之一是解释变量是互相独立的。
如果某两个或多个解释变量之间出现了相 关性,则称为多重共线性。
如果存在 c1X1i+c2X2i+…+ckXki=0 性。
如果存在 c1X1i+c2X2i+…+ckXki+vi=0 性或交互相关。
i=1,2,…,n其中: ci不全为0,则称为解释变量间存在完全共线i=1,2,…,n其中ci不全为0,vi为随机误差项,则称为 近似共线注意: 完全共线性的情况并不多见,一般出现的是 近似共线性。
二、多重共线性的检验(1)对两个解释变量的模型,采用简单相关系数法 求出X1与X2的简单相关系数r,若|r|接近1,则说 明两变量存在较强的多重共线性。
(2)对多个解释变量的模型,采用经验检验法 模型特征:R2与F值较大,但t检验值较小,三、克服多重共线性的方法(◆)逐步回归法以Y为被解释变量,逐个引入解释变量,构 成回归模型,进行模型估计。
根据拟合优度的变化决定新引入的变量是否 独立。
如果拟合优度变化显著,则说明新引入的变 量是一个独立解释变量; 如果拟合优度变化很不显著,则说明新引入 的变量与其它变量之间存在共线性关系。
四、案例根据理论和经验分析,影响粮食生产(Y)的 主要因素有: 农业化肥施用量(X1);粮食播种面积(X2) 成灾面积(X3); 农业机械总动力(X4); 农业劳动力(X5) 已知中国粮食生产的相关数据,建立中国粮食 生产函数: Y=β0+β1 X1 +β2 X2 +β3 X3 +β4 X4 +β4 X5 +μ年份粮食产量表 4.3.3 中国粮食生产与相关投入资料 受灾面积 粮食播种面 农业机械总 农业化肥施 用量 X 1 (万公斤) 1659.8 1739.8 1775.8 1930.6 1999.3 2141.5 2357.1 2590.3 2806.1 2930.2 3151.9 3317.9 3593.7 3827.9 3980.7 4083.7 4124.3 4146.4 积 X2 (千公顷) 114047 112884 108845 110933 111268 110123 112205 113466 112314 110560 110509 109544 110060 112548 112912 113787 113161 108463Y1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 (万吨) 38728 40731 37911 39151 40208 39408 40755 44624 43529 44264 45649 44510 46662 50454 49417 51230 50839 46218X3(公顷) 16209.3 15264.0 22705.3 23656.0 20392.7 23944.7 24448.7 17819.3 27814.0 25894.7 23133.0 31383.0 22267.0 21233.0 30309.0 25181.0 26731.0 34374.0动力 X 4 (万千瓦) 18022 19497 20913 22950 24836 26575 28067 28708 29389 30308 31817 33802 36118 38547 42016 45208 48996 52574农业劳动 力X5 (万人) 31645.1 31685.0 30351.5 30467.0 30870.0 31455.7 32440.5 33330.4 34186.3 34037.0 33258.2 32690.3 32334.5 32260.4 32434.9 32626.4 32911.8 32797.51、用OLS法估计上述模型:ˆ = −12816.44 + 6.213 X + 0.421X − 0.166 X − 0.098 X − 0.028 X Y 1 2 3 4 5(-0.91)(8.39)(3.32)(-2.81)(-1.45)(-0.14)R2接近于1; 给定α=5%,得F临界值 F0.05(5,12)=3.11 F=638.4 > 15.19, 故认上述粮食生产的总体线性关系显著成立。
多重共线性名词解释
多重共线性名词解释多重共线性(MLC)是指分析结果为两个或以上自变量共同影响的现象,具有相互独立性,表现为因变量正值与共同影响因素负值之差的绝对值比因变量大。
多重共线性在连续测量中是十分常见的,它广泛存在于人口统计学、心理学、生物学、生态学、经济学等学科的各种分析中,它严重影响着各种统计分析方法的有效性。
多重共线性可以通过两种途径来产生:第一种是由于多重观测造成的,即同一时间内观测同一对象可能有不同的记录;第二种是由于多次观测造成的,即一次观测同一变量后得到两个或多个数据,其中只有一个数据可用于分析。
例如同时给予研究对象两种食物,收集到的数据便可能呈现两种结果,这就是“多重共线性”。
自变量对因变量的贡献不同,即某一因变量并不是另一因变量的线性函数,这种现象称为多重共线性。
通常情况下,多重共线性不影响分析结果,但是对统计推断却构成很大的干扰。
对共线性进行识别和处理时,首先要明确产生多重共线性的原因,然后才能选择合适的方法去减小共线性。
根据原因不同,可把多重共线性分为2类:第一类是由于随机误差引起的,称为系统性多重共线性;第二类是由于随机误差之外的因素引起的,称为随机性多重共线性。
2、连续性原理和直接效应定律。
连续性原理是指对于某些已知量X,若随机抽取若干个样本X(X。
无限多),而事先不告诉Y,则所得的样本X的统计量Y与总体Y之间具有极为密切的关系,即样本统计量具有良好的代表性。
若将随机抽取的这些样本累积起来,就可估计总体X的数值。
这就是直接效应定律。
按照样本统计量与总体统计量之间的关系,可以将多重共线性分为两类:一类是内在性多重共线性(多重内在性),另一类是外在性多重共线性(多重外在性)。
3、重复测量问题。
1)如何提高重复测量精度。
(1)降低随机误差。
①采用随机化变量时,必须确保样本的随机性,并尽可能排除样本内部的多重共线性。
②考虑随机化对样本空间结构的影响。
2)如何提高平均值的准确性。
(1)排除样本内部的多重共线性。
多重共线性
多重共线性 §1 概述多重共线性的概念 (一)完全的多重共线性 ⒈定义对于k 个解释变量,如果存在一组不全为零的数12,,...k λλλ,使得1122...0k k X X X λλλ+++=则称12,,...,k X X X 之间存在完全的多重共线性 ⒉等价形式rank (X )< k+1 ,矩阵X 不满秩0X X '=()1X X -'不存在(二)不完全的多重共线性对于k 个解释变量,如果存在一组不全为零的数12,,...k λλλ,使得1122...0k k X X X λλλμ++++=其中μ为随机变量则称12,,...,k X X X 之间存在不完全的多重共线性(三)无多重共线性即没有上述完全和不完全的多重共线性,此时rank (X )< k+1,()1X X -'存在。
§2 多重共线性的产生原因和后果 一、 多重共线性的产生原因 二、 多重共线性的后果 (一) 完全的多重共线性 1. 参数估计值不确定11ˆ()()1()ˆX X X Y rank X k X X X ββ--''='<+⇒⇒⇒不满秩不存在无法估出2. 参数估计量的方差无穷大 (二) 不完全的多重共线性1. 参数估计值具有较大的不确定性2. OLS 估计仍然是无偏估计,但估计量的方差随着共线性程度的提高而提高 对二元回归,有2212221121212212121ˆ()111iiVar VIFxr xVIF r r r VIF σσβ==∙-=---↑⇒↑⇒↑⇒↑⇒↑∑∑其中方差膨胀因子共线性程度方差3.一个或多个系数的t 值不显著 对二元回归,有21212111111ˆˆˆ()()ˆ()r r VIF Var Se t t Se ββββ↑⇒↑⇒↑⇒↑⇒↑↑⇒↑⇒=↓⇒共线性程度方差更容易不显著§3 多重共线性的判断(检测) 一、 直观判断观测t 、F 和2R(1)F ,2R 很高――解释变量对因变量的联合影响明显 (2)部分或全部t 值不显著――无法分解出各解释变量对因变量的单独影响二、 观测相关系数 1. 简单相关系数矩阵法缺点:考察两个解释变量相关程度时,未排除其余解释变量对它们的影响2.偏相关系数法 三、辅助回归法1. 利用不包括某一解释变量所构成的判定系数2. 利用解释变量之间所构成回归方程的判定系数 四、本征值和条件指数 五、容许度和方差膨胀因子§4 多重共线性的解决方法(修正) 一、 增大样本容量001222212221121211 1ˆ()1ˆ()i i i i ii Y X X Var VIF x r x x Var βββσσββ=++==∙-↑⇒↓⇒∑∑∑对于一定程度抵消VIF>1的影响二、 利用先验信息改变参数的约束形式1ln ln ln ln ln ,ln 1t t tt t t t t tt t t tt tt t tt t t Q AL K Q A L K L K K L Q AL KAL A K K K Q L A K K αβαααααααβαβ-==+++⎛⎫=== ⎪⎝⎭⎛⎫= ⎪⎝⎭高度相关加入约束条件=,则三、数据的结合时间序列数据⇒时间序列数据与横截面数据相结合01122t 222i21122tu Y u ˆ MPC MPC ˆ u t t t i i tttY X X X Y X Y X X βββαβββββ=+++=++=+++销量价格收入1.找到某一时点的,的数据(截面数据),估计得出,即该横截面2.假定该不仅适用于该横截面,也适用于一段时间,则22011t011t 01ˆ u ˆˆ u MPC t t t t t Y X X Y X βββββββ*-=++=++估计,可得,局限性:只有当各横截面随时间变化不大时方可使用四、模型的差分变换01122t 10111221t-11111122212t-1 u u u t t t t t t t t t t t t t t Y X X Y X X Y Y X X X X X Y βββββββββ------=+++=+++--∆=()()()()(1)(2)(1)-(2)=()+(-)+(-)1122u u t t t t X X β∆+∆+∆∆缺陷:(1)丧失人们所关注的经济关系(2)易出现自相关问题五、逐步回归法 1. 基本思路Y X ⇒⇒⇒对每个经济意义检验选出最优的逐步引入其他作一元回归统计检验基本回归方程解释变量2.对新增变量的判别标准。
多重共线性问题的定义和影响多重共线性问题的检验和解决方法
多重共线性问题的定义和影响多重共线性问题的检验和解决方法多重共线性问题的定义和影响,多重共线性问题的检验和解决方法多重共线性问题是指在统计分析中,使用多个解释变量来预测一个响应变量时,这些解释变量之间存在高度相关性的情况。
共线性是指两个或多个自变量之间存在线性相关性,而多重共线性则是指两个或多个自变量之间存在高度的线性相关性。
多重共线性问题会给数据分析带来一系列影响。
首先,多重共线性会导致统计分析不准确。
在回归分析中,多重共线性会降低解释变量的显著性和稳定性,使得回归系数估计的标准误差变大,从而降低模型的准确性。
其次,多重共线性会使得解释变量的效果被混淆。
如果多个解释变量之间存在高度的线性相关性,那么无法确定每个解释变量对响应变量的独立贡献,从而使得解释变量之间的效果被混淆。
此外,多重共线性还会导致解释变量的解释力度下降。
当解释变量之间存在高度的线性相关性时,其中一个解释变量的变化可以通过其他相关的解释变量来解释,从而降低了该解释变量对响应变量的独立解释力度。
为了检验和解决多重共线性问题,有几种方法可以采用。
首先,可以通过方差膨胀因子(VIF)来判断解释变量之间的相关性。
VIF是用来度量解释变量之间线性相关性强度的指标,其计算公式为:VIFi = 1 / (1 - R2i)其中,VIFi代表第i个解释变量的方差膨胀因子,R2i代表模型中除去第i个解释变量后,其他解释变量对第i个解释变量的线性回归拟合优度。
根据VIF的大小,可以判断解释变量之间是否存在多重共线性。
通常来说,如果某个解释变量的VIF大于10或15,那么可以认为该解释变量与其他解释变量存在显著的多重共线性问题。
其次,可以通过主成分分析(PCA)来降低多重共线性的影响。
PCA是一种降维技术,可以将高维的解释变量压缩成低维的主成分,从而减少解释变量之间的相关性。
通过PCA,可以得到一组新的解释变量,这些新的解释变量之间无相关性,并且能够保留原始解释变量的主要信息。
第四章 多重共线性
多重共线性的定义 产生多重共线性的背景 多重共线性产生的后果 多重共线性的检验 多重共线性的补救措施
第四章 多重共线性
一、多重共线性的定义:案例1 能源消费 多重共线性的定义:案例1
1、完全多重共线性: 、完全多重共线性: 对于 变 量 X 2 , X 3 ,L, X k ,如 果 存在 不全 为零 的数 λ2,λ3, ,λk , 使 L
年份 财政收 农业增 工业增 建筑业 总人口/ 最终消 入CS 加值NZ 加值GZ 增加值 万人 费CUM
1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1132.3 1146.4 1159.9 1175.8 1212.3 1367 1642.9 2004.8 2122 2199.4 2357.2 2664.9 2937.1 3149.48 3483.37 1018.4 1258.9 1359.4 1545.6 1761.6 1960.8 2295.5 2541.6 2763.9 3204.3 3831 4228 5017 5288.6 5800 1607 1769.7 1996.5 2048.4 2162.3 2375.6 2789 3448.7 3967 4585.8 5777.2 6484 6858 8087.1 10284 138.2 143.8 195.5 207.1 220.7 270.6 316.7 417.9 525.7 665.8 810 794 859.4 1015.1 1415 96259 97542 98705 100072 101654 103008 104357 105851 107507 109300 111026 112704 114333 115823 117171 2239.1 2619.4 2976.1 3309.1 3637.9 4020.5 4694.5 5773 6542 7451.2 9360.1 10556.5 11365.2 13145.9 15952.1
多重共线性(Multi-Collinearity)
i 0 1 1i 2 2i
k ki i
(i=1,2,…,n)
其基本假设之一是解释变量
X,
1
X2,,
X
k
互相独立 。
如果某两个或多个解释变量之间出现了相关性, 则称为多重共线性。
如果存在
c1X1i+c2X2i+…+ckXki=0
i=1,2,…,n
其中: ci不全为0,即某一个解释变量可以用其它解释 变量的线性组合表示,则称为解释变量间存在完全
2
1
x12i 1 r 2
2
x12i
所以,多重共线性使参数估计量的方差增大。
方差扩大因子(Variance Inflation Factor)为1/(1-r2), 其增大趋势见下表:
相关系 0 0.5 0.8 0.9 0.95 0.96 0.97 0.98 0.99 0.999 数平方 方差扩 1 2 5 10 20 25 33 50 100 1000 大因子
多重共线性(Multi-Collinearity)
§2.8 多重共线性
Multi-Collinearity
一、多重共线性的概念 二、多重共线性的后果 三、多重共线性的检验 四、克服多重共线性的方法 五、案例
一、多重共线性的概念
1、多重共线性
• 对于模型
Y X X X
以二元回归模型中的参数估计量ˆ 为例,ˆ 的方差为
1
1
Var(ˆ )
1
ˆ 2
(X X
)1
22
(
ˆ
2
(
x2
2i
)
x2 )( x2 ) ( x
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
城乡居民消费水平研究—解决多重共线性一、文献综述长期以来,我国处于商品短缺的困扰之中,不得不采用配给制的办法限制居民的消费选择自由;随着供求关系的变化,人们的消费取向正在发生根本改变。
因此,了解目前城乡居民的消费水平以及其影响因素对于把握国内不同群体消费需求的变化,指导生产、引导消费、开拓市场、发展循环经济、建立和谐社会具有重要意义。
影响消费的因素很多,如价格水平、利率水平、收入水平、消费偏好、家庭财产、风俗习惯、制度模式等。
其中,收入是影响消费的最重要因素。
改革开放以来,我国居民的收入水平在不断提高,居民消费情况也有明显变化。
在居民总体收入逐渐增加的同时,居民的收入差距也有所扩大,形成了高、中、低不同阶层的收入与消费群体。
根据国家统计局的调查资料显示,不同消费群体之间的消费与投资倾向已有很大差异,受此影响,社会消费结构也已发生了较大变化。
如今生活宽裕的高收入居民,十分关注生活质量的提高,消费倾向也出现明显变化,投资意识日益高涨。
调查显示,越来越多的高收入居民,在消费时追求精神消费和服务消费,教育、文化、通信、保健、住宅等成为消费热点,追求时尚化与个性化日趋明显。
高收入家庭的投资是社会民间投资中极为重要的部分,在国民经济运行中的作用不可低估. 中等收入群体占到城镇家庭总数的60%以上,收入占到居民收入总数的50%多,是我国消费的主体部分,他们的消费行为对我国整体消费状况的影响是最大的,对这一层次居民消费的启动将直接关系到我国经济启动的成败。
这一消费群体的消费特征表现为对未来收入与支出不良预期的影响.所以基于这个问题的重要性,决定研究城乡居民的消费水平及其影响因素。
二、数据资料初步分析数据的收集来源于2009年中华人民共和国国家统计局公布的年度数据,并选取城乡居民消费水平、城乡居民家庭人均可支配收入、职工平均工资、人均国内生产总值、城乡居民消费价格指数、城乡新建住房面积来研究其对城镇居民消费水平的影响。
通过初步的线性回归发行这些数据都能较好的解释城镇居民消费水平。
由于财富数据较难取得,所以用城乡新建住房面积来表示这一指标,并且取得较好的效果。
所以将以上6个指标定位解释变量。
其中城乡居民家庭人收入为城镇居民家庭人均可支配收入与农村居民家庭人均纯收入之和。
三、模型估计1.建立模型以我国城乡居民消费水平为被解释变量,同时引入的解释变量有城乡居民储蓄水平(X1 )、城乡居民家庭人收入(X2)、职工平均工资(X3)、人均国内生产总值(X4)、城乡居民消费价格指数(X5)、城乡新建住房面积(X6)。
假定可以建立线性回归模型:0112233445566i Y X X X X X X u βββββββ=+++++++2.参数估计(1)线性回归reg Y X1 X2 X3 X4 X5 X6Source | SS df MS Number of obs = 19 -------------+------------------------------ F( 5, 13) = 944.21 Model | 77476930.1 5 15495386 Prob > F = 0.0000 Residual | 213341.649 13 16410.8961 R-squared = 0.9973 -------------+------------------------------ Adj R-squared = 0.9962 Total | 77690271.8 18 4316126.21 Root MSE = 128.11 ------------------------------------------------------------------------------ Y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- X1 | (dropped)X2 | .0126153 .0076018 1.66 0.121 -.0038074 .0290379 X3 | -.0753099 .0846359 -0.89 0.390 -.2581546 .1075347 X4 | .2648252 .0922938 2.87 0.013 .0654365 .4642138 X5 | 5.839503 6.948697 0.84 0.416 -9.172243 20.85125 X6 | 171.0912 35.59985 4.81 0.000 94.18236 247.9999 _cons | -1529.382 947.0876 -1.61 0.130 -3575.44 516.6768进行线性回归分析发现,变量X1被去掉,变量X3的系数为负,与其经济意义不符,所以模型中可能存在多重共线性。
(2)相关系数检验corr X1 X2 X3 X4 X5 X6(obs=19)| X1 X2 X3 X4 X5 X6-------------+------------------------------------------------------X1 | 1.0000X2 | 1.0000 1.0000X3 | 0.9972 0.9972 1.0000X4 | 0.9942 0.9942 0.9973 1.0000X5 | -0.3218 -0.3218 -0.2860 -0.2773 1.0000X6 | 0.8177 0.8177 0.8110 0.8308 -0.5101 1.0000从相关系数表可以明显看出,所选的变量中X1、X2、X3之间的相关性很大,所以变量间存在多重共线性。
(3)利用差分法,避免多重共线性reg ccY ccX1 ccX2 ccX3 ccX4 ccX5 ccX6Source | SS df MS Number of obs = 18-------------+------------------------------ F( 5, 12) = 63.56Model | 1226305.99 5 245261.198 Prob > F = 0.0000Residual | 46306.008 12 3858.834 R-squared = 0.9636-------------+------------------------------ Adj R-squared = 0.9485Total | 1272612 17 74859.5294 Root MSE = 62.12------------------------------------------------------------------------------ccY | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+----------------------------------------------------------------ccX1 | .0043066 .0027184 1.58 0.139 -.0016162 .0102293ccX2 | (dropped)ccX3 | -.1018922 .0538593 -1.89 0.083 -.2192416 .0154571ccX4 | .3640821 .0589574 6.18 0.000 .2356249 .4925393ccX5 | -1.19084 3.612622 -0.33 0.747 -9.062068 6.680388ccX6 | 43.98945 18.90781 2.33 0.038 2.792866 85.18604_cons | 67.7396 24.71365 2.74 0.018 13.89319 121.586 虽然F值有明显的减少,但是拟合优度降低了,而且各解释变量的t值较小,所以采用差分法进行修正的效果不明显。
(4)采用逐步回归法进行多重共线性的检验,并对模型进行修正一元回归结果变量X1 X2 X3 X4 X5 X6参数估计值0.0331314 0.033129 0.258607 0.346456 -99.9857 820.765 t统计量26.7 26.7 26.61 36.58 -1.41 7.6 R-squared 0.9767 0.9767 0.9765 0.9875 0.105 0.7726 Adj R-squared 0.9753 0.9753 0.9752 0.9867 0.0523 0.7592 通过一元回归结果看出,解释变量X4的效果做好,所以在X4的基础上进行逐步回归分析。
第一步:在解释变量X4的基础上分别加入新变量,回归结果如下:加入新变量的回归结果变量R-squared Adj R-squaredY X4 0.9875 0.9867Y X4 X1 0.9875 0.9859Y X4 X2 0.9875 0.9859Y X4 X3 0.9889 0.9875Y X4 X5 0.99 0.9887Y X4 X6 0.9967 0.9962第二步:在解释变量X4与X6的基础上加入新变量,回归结果如下:加入新变量的回归结果变量R-squared Adj R-squaredY X4 X6 0.9967 0.9962Y X4 X6 X1 0.9969 0.9963Y X4 X6 X2 0.9969 0.9963Y X4 X6 X3 0.9967 0.996Y X4 X6 X5 0.9967 0.996从回归结果可以看出,加入解释变量X1或X2时,t值不显著,所以去掉X1和X2,最后只留下解释变量X4和X6。
reg Y X4 X6Source | SS df MS Number of obs = 19-------------+------------------------------ F( 2, 16) = 2387.58Model | 77430826.1 2 38715413 Prob > F = 0.0000Residual | 259445.739 16 16215.3587 R-squared = 0.9967-------------+------------------------------ Adj R-squared = 0.9962Total | 77690271.8 18 4316126.21 Root MSE = 127.34------------------------------------------------------------------------------Y | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+----------------------------------------------------------------X4 | .2965213 .0090498 32.77 0.000 .2773365 .3157062X6 | 160.977 24.23799 6.64 0.000 109.5947 212.3592_cons | -906.7129 232.1304 -3.91 0.001 -1398.807 -414.6185------------------------------------------------------------------------------从回归结果在可以看出,经过修正后的模型,F 值显著,各解释变量的t 值显著,拟合优度为0.9967,所以修正多重共线性后的回归结果为:46 -906.7129 0.2965213X + 160.977X Y =+ (-3.91) (32.77) (6.64)2 0.9967R = 20.9962R = 2387.58F =四、结论1.人均国内生产总值与城乡居民消费水平呈线性关系,当人均GDP 增长100元时,城乡居民消费水平增长29.65元。