第七章多重共线性

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

六、L.R.Klein判断公式法
r
RY . X 1 X 2...Xk XiXj
2
首先,将被解释变量Y分别对各个解释变量X1,X2,…,Xk做 简单的回归方程,即: Y=f(X1),Y=f(X2),…,Y=f(Xk) 并进行理论分析和统计检验,选出最优的回归方程,即基本回 归方程。求出一个基本回归方程后,然后,逐步添加解释变量,根 据添加解释变量对拟合优度的改进和对其它回归系数的影响等决定 是否保留添加的解释变量。 1.如果新添加的解释变量改进拟合优度,并且其它回归系数在统 计上仍是显著的,那么,保留添加的解释变量。新添加解释变量不 引起多重共线性;
2i
y x x y x x x ˆ b x x ( x1i x 2i)
2 2i i 1i 1i i 2 2 2 1i 2 1i 2i
2i
Var (b ˆ )
1
x x x ( x1i x2i)
2
[ u
2
2i
2
2
2
]ቤተ መጻሕፍቲ ባይዱ
1i
2i
若 X2i = X1i 则 :
F R2 j /k (1 R2 j ) /(n k 1) ~ F (k , n k 1)

那么也可以利用F检验,来检验是否存在多重 共线性。对给定的显著性水平,查F分布表, 得到临界值,如果F> F ,则解释变量之间存 在多重共线性;否则,不存在多重共线性。
三、两个解释变量
Xk=f(X1,X2,…,X k-1)Rk2
从R12,R22,…Rk2中选出一个最接近1的,比如是 Rj2 ,则可以判定解释变量Xj与其它解释变量中的一个或 多个相关程度高。

由于Rj2的值是介于0和1之间的,如果解释变 量之间不存在相关关系,那么,Rj2的值会显 著为0。如果设H0∶ Rj2 =0,H1∶Rj2≠0,根 据F与Rj2的关系,构造统计量
结论3:t检验失效;
结论4:预测精度降低;

第二节 多重共线性的检验




一、不显著系数法 (1)用普通最小二乘法对多元回归模型进行参数估 计并计算拟合优度R2,若R2的值较大(一般大于0.8), 且零阶相关系数也较高,进行t检验时,如果几乎没有 一个偏回归系数是显著的,则模型中存在多重共线性。 (2)若从经济理论得知某个解释变量对被解释变量 的影响很大,但通过最小二乘法估计出其系数并不显 著,则可认为存在多重共线性。 (3)若模型中新加入一个解释变量后,发现模型中 原有参数估计值的方差明显增大,则表明解释变量 (包括新加入的解释变量)之间可能存在多重共线性。

三、多重共线性的估计后果
以二元模型 :Yi= b 0+ b 1X1i+ b 2X2i+ui 为例来说明 (一)完全多重共线性 即 X2i = X1i (
0)
y x x y x x x ˆ b x x ( x1i x 2i)
2 1i i 2i 2i i 1 2 2 1i 2 1i 2i
第一节
多重共线性
一、什么是多重共线性
1.多重共线性 Yi= b 0+ b 1X1i+ b 2X2i+…+ b kXki+ui
解释变量X1 X2…Xk间存在完全的或接近的线性关系
r
1 1 (完全的) ; (接近的)(i j) r XiXj XiXj
Yi=b0+b1X1i+b2X2i+ui
三、主成分法
所谓主成分法是指通过原有的解释变量构造出 一组尽可能反映原有解释变量信息且互不相关 的新变量,那么用这组新变量代替原有解释变 量,则可消除多重共线性。一般主成分法只用 来进行单纯的预测,而不用于构造模型。 设X1,X2,…,Xk为模型中原有的n维解 释变量,通过这组解释变量构造出一组尽可能 反映原有解释变量信息且互不相关的新的n维变 量P1,P2,…,Pn,即
1 X1i 2 X 2i vi 0
1 X 1i 2 X 2i 0
二、多重共线性产生的主要原因
1. 经济变量都随时间有共同的变化趋势(主要原
因):如国民经济增长,收入、消费、储蓄、投资共同增 长,又如固定资产投资与财政收入、国民生产总值与工业 总产值的关系。这是造成多重共线性的主要原因。时间序 列数据容易存在着多重共线性。截面数据有时也会出现, 不如时间序列数据严重。

Y 0 1 X 2 P 3 P1 u
P Y 0 1 X 2 ( ) u P 1

(3)删去模型中次要的或可替代的解释变量 如果回归模型解释变量间存在较严重的多重共线 性,根据经济理论、实践经验、相关系数检验、 统计分析等方法鉴别变量是否重要及是否可替 代,删去那些对被解释变量影响不大,或认为 不太重要的变量,则可减轻多重共线性。

P1 a11 X 1 a 21 X 2 a k1 X k P2 a12 X 1 a 22 X 2 a k 2 X k Pm a1m X 1 a 2 m X 2 a km X k
a11 a 21 Pnm ( P1 , P2 , , Pm ) ( X 1 , X 2 , X k ) a k1
对于方差
Var (b ˆ )
1
x x x ( x1i x2i)
2
[ u
2
2i
2
2
2
]
1i
2i
1i x 2i) 又因为 2 ( x2 2
2
x x
1i
所以,
Var(b ˆ )
1
21
随着的变化,方差会变大
x
2

2 u 2
1i
(1 )
结论2:参数OLS估计量的方差增大;
第七章
多重共线性
讨论
假定七:解释变量之间不是完全线性相关的。
目的与要求:1.什么是多重共线性?
2.多重共线性产生的主要原因是什么? 3.多重共线性会导致什么后果? 4.如何划定容忍多重共线性的标准? 5.多重共线性的检验方法
6.多重共线性的解决方法
关于假定六: ui与Xi无关,解释变量Xi是一组确 定性变量的说明
2.新添加的解释变量未能改进拟合优度,且对其它回归系数也没 有影响,则新添加解释变量不予保留,不产生多重共线性; 3.如果新添加的解释变量,不仅影响拟合优度,而且显著地影响 其它回归系数的显著性、符号、数值,甚至使参数符号反号到不能 接受的地步,则,认为新添加的解释变量可能是引起多重共线性的 原因。
Y AL K e
1

u
ln Y ln A ln L (1 ) ln K u
Y l ln ln A ln u k k
二、改变变量的定义形式,克 服多重共线性
当研究中遇到严重的多重共线性的问题时,有 时可以根据相应的经济理论改变原模型中变量 的定义形式 Yt=b0+b1X1t+b2X2t+ut (1)差分法减轻或消除多重共线性。 (2)用相对数变量替代绝对数变量
2. 滞后变量在模型中的广泛应用
消费Ct与收入Yt :Ct=f(Yt,Y t-1,…)中既包括现 期收入,又包括前期收入。 投资IPt与固定资产Kt:Kt=f(K t-1,Ipt,IP t-1,…)中既包括 现期投资,也包括前期投资。 所有这些,由于解释变量前后期相关容易造成多重共 线性。

3.样本的选取(数据收集范围较窄) 在研究实际的社会经济问题时,由于信息资料的缺乏、实际 搜集调查的困难等原因,研究人员采用特定的样本,比如样本 中解释变量的个数大于观测次数;在有限的范围内采集数据。 如研究一个省的经济发展状况,只有10个市,而需要研究的指 标就有15个。多重共线性有时是样本现象,并不是自变量之间 存在着理论和实际上的共线性引起的,而是由收集的数据之间 存在着线性关系所致。 4.经济变量间存在着密切联系 经济变量由其本质特征决定了它们的内在联系。如商品的需 求函数,研究商品需求量与价格、商品质量水平、居民收入的 关系,而商品价格与商品质量就存在内在的关系,这种关系也 会引起多重共线性。横截面数据中较多出现这种问题。
通过直接计算相关系数,判断解释变量的 多重共线性程度
四、相关矩阵法
Y 0 1X1 k Xk
r11 r12 r r 21 22 R rk1 rk 2 r1k 1 r12 r r2 k 1 21 rkk rk1 rk 2 r1k r2 k 1
T (1.62)
(-0.037)
(3.19) F=50.169
(-3.08)
(0.014)
(0.47)
(1.68)
R2=0.9728
二、拟合优度R2检验
1.多个解释变量X1,X2,…Xk
分别进行回归:X1=f(X2,X3,…Xk)
计算样本决定系数 X2=f(X1,X3,…Xk)
R12
R22
… …
… … …….
y x x y x x x ˆ b x x ( x1i x1i)
2 2 2 1i i 1i 1i i 1 2 2 2 2 1i 2 1i 1i
1i
0 型 0
ˆ2 同理: b
0 0

OLS估计后果:1.参数估计值是未定式,无法确定;
2.参数估计值方差趋向无穷大;
七、逐步回归方法(Frisch)
第三节 多重共线性的处理
一、用先验信息,克服多重共线性 先验信息是指从经济理论或实际资料中所取得的关于解释变量之间 的关系的信息,即在进行研究之前就得知的信息。如果我们先得知 所研究问题中存在多重共线性,且得知某几个变量之间的关系,那 么把这个信息放到所要研究的问题中去,多重共线性可消失。 Y=b0+b1X1+b2X2+u 如果得知X1与X2之间存在多重共线性,则无法分清X1与X2对Y 的影响效果。假设由经济理论和实际调查我们得知b1与b2的关系为 x2=3x1,则模型可化为 Y=b0+(b1+3b2)x1+u
只需考察主对角线元素上方(或下方)某 个元素绝对值是否很大(一般在0.8以上), 就可以判断两个解释变量间是否存在多重 共线性。 另外需要特别注意的是,如果相关系数很 大,则一定存在多重共线性,如果相关系 数很小,不一定没有多重共线性。

中国电信业务总量的计量模型
经初步分析,认为影响中国电信业务总量变化的主要因素是邮政业务总量 (x1)、中国人口数(x2)、市镇人口占总人口的比重(x3)、人均GDP(x4)、 全国居民人均消费水平(x5)
2 1i i i i i 1 2 2 1i 1i
2
1i
结论1:参数估计值可以计算,但不稳定(随vi 的变化而变化)
这往往会导致参数估计值经济含义不合理 。
例题:研究河北省粮食总产量(LSY)与水浇地
面积(SJDMJ)、农机总动力(NJZDL)、化肥 施用量(HFSYL)等因素之间的关系时发现: 水浇地面积(SJDMJ)与农机总动力(NJZDL) 之间高度共线性,导致参数估计值反号,不合理。
Var (b ˆ )
1
x ] x x ( x1i x1i)
2 2
[ u
2
2
2
2
1i 2
2
1i
1i
( 二)不完全多重共线性
即 x2i = x1i+vi 为相关系数, vi满足通常假定
则:
y v v y x x ˆ b v x
粮食总产量 Y ,影响Y的因素都有哪些呢?
X1 粮食播种面积(千公顷); X2 农用化肥施用量(万公斤); X3成灾面积(千公顷); X4 农业机械总动力(万千瓦);X5 水浇地面积(千公顷)
X6 农业劳动力(万人)
进行多元回归得到:
Y= 20472.22 - 0.008253X1+ 4.3598X2 - 0..2121X3 + 0.002118X4 + 0.5119X5+ 0.5119X6

五、利用不包含某一解释变量Xj的样本决定系数进行检 对原模型 Y=f(X1,X2,…,Xk)估计,计算R2
逐次减少一个解释变量,进行估计计算样本决定系数 Y=f(X2,X3,…,Xk) Y=f(X1,X3,…,Xk) … … … … …… R12 R22
Y=f(X1,X2,…,X k-1) Rk2 从中选一个最接近 R2 的,不妨设为Rj2,则说明Xj可能引 起多重共线性。(为什么?)
相关文档
最新文档