计量经济学第四讲---多重共线性
计量经济学:多重共线性

计量经济学:多重共线性多重共线性52=.53085123 第四章专门讨论古典假定中⽆多重共线性假定被违反的情况,主要内容包括多重共线性的实质和产⽣的原因、多重共线性产⽣的后果、多重共线性的检测⽅法及⽆多重共线性假定违反后的处置⽅法。
第⼀节什么是多重共线性⼀、多重共线性的含义第三章讨论多元线性回归模型的估计时,强调了假定⽆多重共线性,即假定各解释变量之间不存在线性关系,或者说各解释变量的观测值之间线性⽆关。
在计量经济学中所谓的多重共线性(Multi-Collinearity),不仅包括解释变量之间精确的线性关系,还包括解释变量之间近似的线性关系。
从数学意义上去说明多重共线性,就是对于解释变量k X 、、X X 32,如果存在不全为0的数k λλλ,2,1 ,能使得n ,2, ,1i 033221 ==++++ki k i i X X X λλλλ ( 4.1 )则称解释变量k X X X ,,,32 之间存在着完全的多重共线性。
⽤矩阵表⽰,解释变量的数据矩阵为X=213112232223111k k nnkn X X X X X X X X X ??(4.2)当Rank(X )在实际经济问题中,完全的多重共线性并不多见。
常见的情形是解释变量k X X X ,,,32 之间存在不完全的多重共线性。
所谓不完全的多重共线性,是指对于解释变量k X 、、X X 32,存在不全为0的数k λλλ,2,1 ,使得n ,2, ,1i 033221 ==+++++i ki k i i u X X X λλλλ(4.3)其中,i u 为随机变量。
这表明解释变量k X 、、X X 32只是⼀种近似的线性关系。
如果k 个解释变量之间不存在完全或不完全的线性关系,则称⽆多重共线性。
若⽤矩阵4表⽰,这时X 为满秩矩阵,即Rank(X )=k 。
需要强调,解释变量之间不存在线性关系,并⾮不存在⾮线性关系,当解释变量存在⾮线性关系时,并不违反⽆多重共线性假定。
计量经济学第四章多重共线性

R-squared
0.989654
Adjusted R-squared 0.986955 S.E. of regression 1437.448 Sum squared resid 47523916 Log likelihood -256.7013 Durbin-Watson stat 1.654140
4
(二)不完全的多重共线性
实际中,常见的情形是解释变量之间存在不 完全的多重共线性。
对于解释变量 X 2 , X 3, X k,存在不全为0的数
1
,
2
,
,使得
k
1 2X2 3X3 ...k Xk u 0
5
(三)解释变量的关系小节
可能表现为三种情形: r为相关系数 (1) rxixj 0 ,解释变量间毫无线性关系。这时多元
Var(ˆ2 )
9
二、不完全多重共线性产生的后果
1、参数估计值的方差增大
Var( βˆ 2 ) = σ 2
1 x22i (1-
r223 )
=
σ2
1
x22i (1 - r223 )
当 r23增大时,
^
Var( 2)
也增大
10
方差膨胀因子 (Variance Inflation Factor)
17 17
2、交叉相关系数(Cross correlation)
相关系数计算的是两组样本的同期相关程 度,交叉相关则可以表示不同期之间的相关 程度。
Eviews操作: Group窗口的view/cross correlation/输入 滞后期设定/ 输出结果阅读:看是否超出2倍标准差线
18
2倍 标准 差线
1、参数估计值有很大的偶然性。 2、参数显著性检验未通过。 3、经济意义检验未通过。 4、相关系数大。
计量经济学 第四 多重共线性

Econom etrics
6. 变量变换
变量变换的主要方法: (1)计算相对指标 (2)将名义数据转换为实际数据 (3)将小类指标合并成大类指标
变量数据的变换有时可得到较好的结果,但无 法保证一定可以得到很好的结果。
30
二、逐步回归法 Econom
etrics
1 用被解释变量对每一个所考虑的解释变量做简单 回归。
4
Econom etrics
第四章 多重共线性
本章讨论四个问题:
● 什么是多重共线性 ● 多重共线性产生的后果 ● 多重共线性的检验 ● 多重共线性的补救措施
5
第一节 什么是多重共线性 Econom
etrics
本节基本内容:
● 多重共线性的含义 ● 产生多重共线性的背景
6
Econom etrics
CUM最终消费(亿元);
SZM受灾面积(万公顷)
数据样本时期1978年-2003年(资料来源:《中国统计年鉴 2004》,中国统计出版社2004年版)
采用普通最小二乘法得到以下估计结果
2
Econom
etrics 财政收入模型的EViews估计结果
Variable 农业增加值NZ 工业增加值GZ 建筑业增加值JZZ
Econom
etrics
计量经济学
■第四章 ■多重共线性
1
引子: Econom etrics 发展农业和建筑业会减少财政收入吗?
为了分析各主要因素对财政收入的影响,建立财政收 入模型:
其中: CS财政收入(亿元) ;
NZ农业增加值(亿元); GZ工业增加值(亿元);
JZZ建筑业增加值(亿元); TPOP总人口(万人);
25
计量经济学(第四章多重共线性)

06
总结与展望
研究结论总结
多重共线性现象普遍存在于经济数据中,对计量 经济学模型的估计和解释产生了重要影响。
通过使用多种诊断方法,如相关系数矩阵、方差膨 胀因子(VIF)和条件指数(CI),可以有效地识别 多重共线性问题。
在存在多重共线性的情况下,普通最小二乘法 (OLS)估计量虽然仍然是无偏的,但其方差可能 变得很大,导致估计结果不稳定。
主成分分析法的优点
可以消除多重共线性的影响,同 时降低自变量的维度,简化模型。
岭回归法
岭回归法的基本思想
通过在损失函数中加入L2正则化项(即所有自变量的平方和),使得回归系数的估计更加稳定, 从而消除多重共线性的影响。
岭回归法的步骤
首先确定正则化参数λ的值,然后求解包含L2正则化项的损失函数最小化问题,得到岭回归系数的估 计值。
逐步回归法的优点
可以自动选择重要的自变量,同时消除多重共线性的影响。
主成分分析法
主成分分析法的基本思想
通过正交变换将原始自变量转换 为互不相关的主成分,然后选择 少数几个主成分进行回归分析。
主成分分析法的步骤
首先对原始自变量进行标准化处理, 然后计算相关系数矩阵并进行特征值 分解,得到主成分及其对应的特征向 量。最后,选择少数几个主成分作为 新的自变量进行回归分析。
岭回归法的优点
可以有效地处理多重共线性问题,同时避免过拟合现象的发生。此外,岭回归法还可以提供对所 有自变量的系数进行压缩估计的功能,使得模型更加简洁易懂。
05
实证研究与结果分
析
数据来源及预处理
数据来源
本研究采用的数据集来自于公开的统 计数据库,涵盖了多个经济指标和影 响因素的观测值。
数据预处理
计量经济学课件第四章多重共线性

第四章 多重共线性第一节 违背基本假定的一般描述一、基本假定的回顾1、零均值假定。
2、同方差假定。
3、无自相关假定。
4、解释变量与随机误差项不相关。
5、无多重共线性假定。
6、正态性假定。
除此之外,还有一些需要注意的地方,回归模型关于参数线性;在重复抽样中X 值是固定的(或X 是非随机的);X 的值要有变异;模型设定是正确的。
二、假定1和假定6违背的讨论1、违背假定1的情况。
(1)正确理解零均值假定是掌握所有假定的关键(参见Wooldridge ,计量经济学导轮现代观点,pp.23-25)。
(2)假定1不满足的数学描述。
设一元线性回归模型为121212'1212,1,2,,()0,i i i i i i i i i iY X u i nE u k E Y X E u X k k X X ββββββββββ=++==≠=++=++=++=+如果有则有()()()由上式表明,这时在0≠)(i u E 下,改变的只是截距项,而对模型的线性结构并不影响。
(3)对假定1被破坏的解释。
通常在这种情况下,我们认为是变量所取的数据可能出现了异常表现,即有异常值。
因为按照零均值的意义,要求各个散点是均匀地分布在回归线的周围。
修正的方法将在后面虚拟变量部分介绍。
例如,我们分析江苏省社会商品消费品零售总额与江苏省城乡居民可支配收入之间的关系,发现在1991年该省的社会消费品零售总额存在异常值,表现为样本回归模型的残差在1991年有估计值与实际值存在明显的差异。
见下图和下表另一方面,有时通过变量的时序数据的样本折线图也可直接观察到样本是否存在异常表现。
如我们根据全国国有经济单位职工人数(万人)从1952年到1998年的数据绘制了折线图为从图形中我们可以看到,在1958年、1959年、1960年这三年中,全国国有经济单位职工人数存在异常情况,其背景是这几年为国家大跃进时期,国有单位职工人数增加迅速。
因此,要依据这一数据建立模型,零均值假定就不一定成立。
计量经济学第四章 多重共线性

x2i
3 2
x3i
x3i
参数的估计值为:
ˆ2
x32i x2i yi x2i x3i x3i yi
(
x22i )(
x32i ) (
x2i
x 3i
)2
x32i
2
x3i yi x32i 2 2
x32i x32i
x2i x3i x22i
x2i x3i
ˆ1 Y ˆ2 X 2 ˆ3 X 3
ˆ2
x32i x2i yi x2i x3i x3i yi ( x22i )( x32i ) ( x2i x3i )2
ˆ3
x22i x3i yi x2i x3i x2i yi •
(
x22i )(
x32i ) (
x2i
x 3i
)
2
x2i yi x3i yi
x2i x3i x32i
4.2多重共线性的后果
如果X1和X2完全线性相关,则存在非0的λ使得:
1 2 X 2i 3 X 3i 0
则有:
1 2 X 2 3 X 3 0
2 X 2i X 2 3 X3i X3 0
X 2i X3i X 2iYi
X
2 3i
X
3iYi
VAR
COV
(βˆ )
2
(XX)1
2
N X 2i
X 3i
X2i
X
2 2i
X 2i X 3i
最新计量经济学第四章-3-多重共线性ppt课件

一、多重共线性的概念
对于模型:
Yi=0+1X1i+2X2i++kXki+i i=1,2,…,n
其基本假设之一是解释变量之间是互不相关的。 如果某两个或多个解释变量之间出现了相关性,则称为存 在多重共线性(Multicollinearity)。
Copyright©princebf,2008-2009,YNUFE
( x1i x 2i ) 2
x12i
x
2 2i
恰为X1与X2的线性相关系数的平方r2
var(ˆ1)
2
1
x12i •1r2
由于 0 r2 1,故 1/(1- r2 )1
Copyright©princebf,2008-2009,YNUFE
当完全不共线时, r2 =0
vaˆ1r) (2/ x1 2 i
Copyright©princebf,2008-2009,YNUFE
7、引入检验法
以Y为被解释变量,逐个引入解释变量,构成回归模型,进 行模型估计,根据拟合优度的变化决定新引入的变量是否独 立。 如果拟合优度变化显著,则说明新引入的变量是一个独立 解释变量; 如果拟合优度变化很不显著,则说明新引入的变量与其它 变量之间存在共线性关系。
>0.9,非常严重
Copyright©princebf,2008-2009,YNUFE
2、经验判断法
• 若在OLS法下,出现以下现象,则可能意味着共线性的存 在:
a、系数估计值的符号不合常理; b、R2与F值较大,方程具有显著性,但各参数估计值的t检 验值均较小,多个解释变量并不显著
说明各解释变量对Y的联合线性作用显著,但各解释变 量间存在共线性而使得它们对Y的独立作用不能分辨,故t检 验不显著。
计量经济学之多重共线性

计量经济学之多重共线性引言多重共线性是计量经济学中一个重要的概念,在经济学研究中扮演着重要的角色。
在本文中,我们将深入探讨多重共线性的概念、原因和影响,并介绍一些常见的解决方案和应对方法。
什么是多重共线性?多重共线性是指在回归分析中,自变量之间存在高度相关性的情况。
具体来说,多重共线性指的是自变量之间线性相关性较高,可能导致回归分析的结果不准确或难以解释。
多重共线性的原因多重共线性的产生有多种原因,以下是一些常见的原因:1.样本选择偏倚:当样本中存在特定的特征或者数据的选择方式导致一些变量的相关性增强。
2.变量的定义重复:有些变量可能在定义上重复,导致它们之间存在高度相关性。
3.缺少重要变量:当回归模型中存在遗漏的重要变量时,其他变量可能会代替这些遗漏的变量,导致多重共线性。
4.数据测量误差:测量误差也可能导致自变量之间存在高度相关性。
多重共线性的影响多重共线性可能会对回归模型产生一系列的问题和影响:1.估计系数不准确:多重共线性会导致回归系数的估计不准确,使得对自变量的解释变得困难。
2.系数符号相反:多重共线性可能导致估计系数的符号与理论预期相反。
3.误差项的方差增加:多重共线性会导致误差项的方差增加,从而降低了模型的精确度。
4.解释力度减弱:多重共线性会降低模型的解释力度,使得我们难以解释模型的结果。
解决多重共线性的方法针对多重共线性问题,我们可以采取以下方法来解决:1.增大样本量:增大样本量可以降低变量之间的相关性,从而减轻多重共线性的影响。
2.删除相关变量:通过检验变量之间的相关性,删除相关性较高的变量,可以减轻多重共线性的程度。
3.主成分分析:主成分分析是一种降维的方法,可以将相关性较高的变量合并为一个主成分,从而避免了多重共线性的问题。
4.增加惩罚项:在回归模型中增加惩罚项,如岭回归或lasso回归,可以减轻多重共线性的影响。
5.使用时间序列数据:对于存在多重共线性的房地产数据等时间序列数据,可以使用时间序列模型来避免多重共线性的问题。
计量经济学课件第四章 多重共线性

计量经济学课件第四章多重共线性第四章多重共线性1 / 45计量经济学课件第四章 多重共线性 2 / 45引子:发展农业会减少财政收入吗?为了分析各主要因素对财政收入的影响,建立财政收入模型:= β 0 + β1 i + β 2 + β 3 i + β 4 + β 5 i + β 6 i +其中: 财政收入(亿元) ;农业增加值(亿元)工业增加值(亿元); 建筑业增加值(亿元); 总人口(万人); 最终消费(亿元)受灾面积(万公顷)数据样本时期1978年-2007年(资料来源:《中国统计年鉴 2008》,中国统计出版社2008年版)采用普通最小二乘法得到以下估计结果计量经济学课件第四章 多重共线性3 / 45财政收入模型的估计结果农业增加值 工业增加值建 筑业增加值 总人口 最终消费 受灾面积 截距-1.907548.0.342045 0.042746 0.765767 0.091660 0.042807 0.048904 8607.753-5.576888 1.074892 8.433867 1.047591 0.072609 -0.564916 -0.631118.0.0000 0.2936 0.0000 0.3057 0.9427 0.5776 0.53420.0459476.458374 0.096022 0.003108 -0.027627 -5432.507.0.989654 0.986955 1437.448 47523916 -256.7013 1.654140 10049.04 . 12585.51 17.58009 17.90704 366.6801 ()0.000000计量经济学课件第四章 多重共线性4 / 45模型估计与检验结果分析●可决系数为0.9897 ,校正的可决系数为0.9870,模 型拟合很好。
模型对财政收入的解释程度高达98.9%。
●F 统计量为366.68,说明0.05水平下回归方程整体 上显著。
计量经济学:多重共线性

影响比较大的,略去影响较小的。
元线性回归模型并进行OLS估计,拟合优度最大且接近1时,说明
这个变量与其他所有解释变量间存在共线性。
第三节 多重共线性的检验
辅助回归法中的方差膨胀因子:
对 于 多 元 线 性 回 归 模: 型Yi 0 1 X 1i ... k X ki ui 为 判 断 诸 自 变 量 间 是存 否在 多 重 共 线 性 , 进如 行下 辅 助 回 归 : X ji 0 1 X 1i ... j 1,i X j 1,i j 1,i X j 1,i ... k X ki v i , j 1,2,...,k 若 上 述 辅 助 回 归 的 可系 决数 为 R2 X j的 方 差 膨 胀 因 子 为 : j, 则 定 义 自 变 量 1 VIF j 1 R2 j
第一节 多重共线性的概念
若有c0+c1X1i+c2X2i+…+ckXki=0 i=1,2,…,n。其中: ci不全为0,则称
解释变量间存在完全多重共线性
若存在:c0+c1X1i+c2X2i+…+ckXki≈0 i=1,2,…,n。 其中:ci不全为0,
则称为解释变量间存在近似多重共线性。
完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,
第二节 多重共线性的来源与后果
4、参数估计值不稳定,经济含义不合理
样本观测值稍有变动、增加或减少解释变量等都会使参数估计值发生较大变 化,甚至出现符号错误,从而不能正确反映解释变量对被解释变量的影响。
5、模型的预测功能失效
较大的方差容易使预测区间变大,从而使预测失去意义
注意:只要模型满足经典假设,则在近似多重共线性情况下,OLS估计量仍 然满足无偏性、线性性和有效性。但此时,无偏性并不意味着对某一给定样 本,其参数估计值就等于真实值。有效性也不意味着参数估计量的方差一定 很小。
第四章 多重共线性 《计量经济学》PPT课件

SE
(
ˆ
j
)
ˆ
x
2 ji
VIFj
参数估计区间的增大,也会造成预测区间增大,使 得预测不稳定。
3.参数估计量的方差和估计区间增大,使检验容 易出现错误判断。
在不完全多重共线性情况下,参数估计区间增大, 会使得假设检验中参数估计值落入接受区域的概 率增大,也就是说,本来应该拒绝原假设反而不 拒绝。
在对模型参数的 t-检验中,由于参数估计量的标准
| XX | 0
• (XX)1对角线上的元素为无限大,从而 ˆ j 的方差
和标准差也为无限大
• 二元线性回归模型
X 3i X 2i
Var(ˆ3 )
x22i
x22i x32i (
x2i x3i )2
2
x22i
x22i
2 x22i (
x2i x2i )2
2
x22i 0
2
Var(ˆ2 )
差增大而使得值变小,结果造成本应该拒绝原假
设反而不拒绝,即t -检验不能通过。
可决系数 R2会很高,F-检验也显著,但是,对参数
的 t-检验可能不显著,甚至出现偏回归系数的符
号与实际经济现象恰好相反,从而得出错误结论。
§4.3 多重共线性的检验
1.相关系数检验法
两个解释变量的简单相关系数大于0.8的情况下,便认为 存在较严重的多重共线性。当解释变量的个数大于2的时 候,不仅要计算俩俩解释变量的简单相关系数,还要检测 偏相关系数。
x22i
x32i x32i (
x2i x3i )2
2
x22i
2 x22i 2 x22i (
x2i x2i )2
2
2
0
《多重共线性》课件

诊断方法比较
检验统计量
检验统计量提供量化指标,可以 明确指出多重共线性的程度,但 其依赖于样本数据,稳定性相对
较差。
图形化诊断
图形化诊断直观易理解,但可能存 在主观性,并且难以量化多重共线 性的程度。
综合运用
在实际应用中,应综合运用多种方 法进行多重共线性的诊断,以确保 诊断结果的准确性和可靠性。
Condition Index
Condition Index是诊断多重共线性的另一种统计量,当某些Condition Index值特别 大时,可能存在多重共线性问题。
图形化诊断
散点图
通过绘制自变量间的散点图,可以直 观地观察到是否存在线性关系,从而 初步判断是否存在多重共线性问题。
相关系数矩阵
通过绘制相关系数矩阵,可以观察到 自变量间的相关系数,当某两个自变 量的相关系数接近1或-1时,可能存 在多重共线性问题。
多重共线性的影响
参数估计值不稳定
01
模型中的参数估计值会随着样本的微小变化而发生较大的变化
,导致模型预测的不稳定性。
模型预测精度降低
02
由于参数估计值的不准确,会导致模型的预测精度降低,预测
结果的可信度下降。
模型解释性差
03
由于解释变量之间的高度相关关系,使得模型难以解释各个解
释变量对因变量的影响程度,降低了模型的解释性。
多重共线性PPT课件
目 录
• 多重共线性的定义 • 多重共线性的成因 • 多重共线性的诊断 • 多重共线性的处理 • 案例分析
01
多重共线性的定义
什么是多重共线性
1
共线性是指解释变量之间存在高度相关性的现象 。
2
在多元线性回归模型中,如果解释变量之间存在 高度相关关系,会导致模型估计的参数不准确, 甚至出现完全错误的结论。
[精品]第四讲 多重共线性
![[精品]第四讲 多重共线性](https://img.taocdn.com/s3/m/3c7c76e8aa00b52acfc7cae6.png)
第五讲 多重共线性本讲分为两个部分:第一部分是对相关性问题的研究,作为多重共线性问题的基础,第二部分则是对多重共线性问题展开讨论。
第一部分:相关理论 1.相关理论相关分析是研究变量间相互关系的最基本方法。
从相关分析中引出的相关系数是回归分析的一个基本统计量。
掌握它有助于对经济问题和经济计量模型的分析与理解。
1.1 相关的定义与分类定义:相关(correlation )指两个或两个以上变量间相互关系的程度或强度。
分类:①按强度分完全相关:变量间存在函数关系。
例,圆的周长,L = 2πr 。
高度相关(强相关):变量间近似存在函数关系。
例,我国家庭收入与支出的关系。
弱相关:变量间有关系但不明显。
例,近年来我国耕种面积与产量。
零相关:变量间不存在任何关系。
例,某班学生的学习成绩与年龄。
2004006008001020304050YX121020304050YX0.51.01.52.02.53.02.02.53.03.54.04.5YX完全相关 高度相关、线性相关、正相关 弱相关②按变量个数分按形式分:线性相关, 非线性相关 简单相关:指两个变量间相关按符号分:正相关, 负相关, 零相关 复相关(多重相关和偏相关):指三个或三个以上变量间的相关。
05010015020050100150200250YX 121020304050Y X-4-224-4-224YX非线性相关 负相关 零相关因非线性相关可以转化为线性相关处理,而复相关又可看作是简单相关基础上的拓展,所以后面重点介绍简单线性相关。
1.2 简单线性相关的度量用简单线性相关系数,简称相关系数(correlation coefficient )度量两个变量间的线性相关强度,用表示。
的随机变量表达式是=)()()(t t t t y D x D y ,x Cov 。
的统计表达式是=∑∑∑===----Tt y t Tt x t Tt y t x t y Tx Ty x T 12121)(1)(1))((1μμμμ=∑∑∑===----T t y t T t x t Tt y t x t y x y x 12121)()())((μμμμ其中T ,总体容量;x t , y t ,变量的观测值;μx ,μy ,变量观测值的均值。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例
:X1:思想品德素质理论模块得分(邓小平理论、形势与政策1、形势 与政策2、当代世界政治与经济); X2:专业素质理论模块得分(宏观经济学、统计学、计量经济学、国 际经济学、货币银行学、财政学); X3:人文素质理论模块得分(大学英语3、大学英语4、概率与数理统 计、线性代数、计算机技术基础、计算机应用基础); X4:身心素质理论模块得分(体育); X5:思想品德素质实践模块得分; X6:专业素质实践模块得分; X7:人文素质实践模块得分; X8:身心素质实践模块得分
30
4、辅助回归
31
5、方差膨胀因子:
32
诊断方法-操作经验上看:
33
诊断总结:
34
读书:P193
8.7: 美国鸡肉需求一例的诊断。 回答问题: 你如何看待模型结果
35
共线性存在有时候是有帮助的。当我们利用 时间序列预测的时候,只要共线性长期存在 ,那么存在较高的判定系数下,对Y的预测 是不受影响的。 当我们要解析各个X对Y的影响时,共线性 会比较重要。
10
11
结论:1、完全共线系数不确定的
12
结论2、不完全共线,估计是可能的
13
14
15
三、近似共线性的后果—理论后果
1、近似共线的情况下,OLS可以得到无偏估计:因为无偏性是指 重复抽样的条件下,重复抽取X固定值,这些值收敛于总体期望的 性质,这些性质不会因为共线收到影响, 2、近似共线也没有破坏OLS的最小方差性。在所有的估计方法中, OLS依旧是具有最小方差性。最小方差性和最小方差是两个不同 概念,最小方差性不意味着求的估计量的方差会小。 3、近似共线本质上是样本现象。我们在假定总体方程时,通常假 定X对Y都有独立的影响。但是我们的样本数据通常来自统计数据, 很多原因使得样本数据中X之间出现共线。使得我们获得的样本数 据并不能真正完成对总体的估计。 总之:近似共线通常是个样本现象,理论上看,OLS估计量的 BLUE性质是不变的。
△Y
588 587 1088 1628 1441 1651 2920 1762 1854 2960 4584 8637 12610 12294 9093
△C(-1)
333 329 383 673 1079 769 909 1909 1196 806 1784 2806 4230 7034 7313
△C(-1)/△Y
1
财政收入模型的EViews估计结果
Variable 农业增加值NZ
Coefficient -1.535090
Std. Error 0.129778
t-Statistic -11.82861
Prob. 0.0000
工业增加值GZ
建筑业增加值JZZ 总人口TPOP 最终消费CUM
0.898788
-1.527089 0.151160 0.101514
481.5380
4405699. -193.4165 1.873809
Akaike info criterion
Schwarz criterion F-statistic Prob(F-statistic)
15.41665
15.75537 632.0999 2 0.000000
模型中解释变量之间的关系有下面三种:
因为前面所述,共线性是样本特征不是总体 特征,因此共线性问题不是有没有共线性问 题而是样本共线的程度问题 因此,考量共线性必须立足以下两点: 1、共线性不是存在问题,而是程度问题 2、依赖样本存在,是样本特征不是总体特 征,
26
诊断方法:理论上方法
27
28
29
关于相关系数检验法的提示: 1、在只有两个解释变量的条件下,简单相 关系数检验通常是可行的。 2、在很多解释变量的情况下,我们愿意计 算偏相关系数。通常可以作为考量依据的 3、相关系数检验是近似共线的充分条件, 却不是必要条件,有时候较低的相关系数也 有近似共线性。
发展农业和建筑业会减少财政收入吗?
为了分析各主要因素对财政收入的影响,建立财政收 入模型:
CSi 0 1 NZ i 2GZi 3 JZZi 4TPOP i 5CUM i 6 SZMi ui
其中: CS财政收入(亿元) ; NZ农业增加值(亿元); GZ工业增加值(亿元); JZZ建筑业增加值(亿元); TPOP总人口(万人); CUM最终消费(亿元); SZM受灾面积(万公顷) 数据样本时期1978年-2003年(资料来源:《中国统计年鉴2004》,中国 统计出版社2004年版) 采用普通最小二乘法得到以下估计结果
F2
•
• •• • • • • •••• • • • • •• • • • •• • • • •• x • • 1 • •• •• • ••
50
x2
F1
•
主 成 分 分 析 的 几 何 解 释
F2
• • • • • • • • • • • • •• • • • • •
• • • • • • • • • • • •• • •
3
一、多重共线性的认识
多重共线性(multicollinearity)一词最早由挪威 经济学家弗瑞希(R.Frisch)于1934年提出。 其原义是指回归模型中的一些或全部解释变量中存 在的一种完全(perfect)或准确(exact)的线性关系。 而现在所说的多重共线性,除指上述提到的完全多 重共线性(perfect multicollinearity ),也包括近似 多重共线性(near multicollinearity)。
0.245466
1.206242 0.033759 0.105329
3.661558
-1.265989 4.477646 0.963783
0.0017
0.2208 0.0003 0.3473
受灾面积SZM
截距项 R-squared Adjusted R-squared
-0.036836
-11793.34 0.995015 0.993441
16
多重共线性的后果—实际后果
17
18
19
20
21
一个例子
22
23
24
后果总结:
存在多重共线性时 参数估计值的方差与标准差变大 使t统计量的拒绝域变小(临界值增大) 容易使通过样本计算的t值小于临界值, 误导作出参数为0的推断 可能将重要的解释变量排除在模型之外
25
四、共线性诊断
0.5663 0.5605 0.3520 0.4134 0.7488 0.4658 0.3113 1.083 0.6451 0.2723 0.3892 0.3249 0.3354 0.5721 0.8042
42
• 由表中的比值可以直观地看到,两变量增量的线性关系弱于总
量之间的线性关系。
进一步分析:
(三)主成分研究的几何意义 为了方便,我们在二维空间中
讨论主成分的几何意义。 设有n个样品,每个样品有两 个观测变量xl和x2,在由变量xl 和x2所确定的二维平面中,n 个样本点所散布的情况如椭圆 状。由图可以看出这n个样本 点无论是沿着xl轴方向或x2轴 方向都具有较大的离散性,其 离散的程度可以分别用观测变 量xl的方差和x2的方差定量地 表示。显然,如果只考虑xl和 x2中的任何一个,那么包含在 原始数据中的经济信息将会有 较大的损失如果我们将xl 轴 和x2轴先平移,再同时按逆时 针方向旋转θ角度,得到新坐 标轴Fl和F2。Fl和F2是两个新 变量
45
将原来众多具有一定相关性的指标重新组合 成一组新的相互无关的综合指标来代替原来 指标。
z1 u11 x1 u21 x2 ... u p1 x p z2 u12 x1 u22 x2 ... u p 2 x p ...... z p u1 p x1 u2 p x2 ... u pp x p
Y与C(-1)之间的判定系数为0.9845, △Y与△C(-1)之间的判定系数为0.7456。 一般认为:两个变量之间的判定系数大于0.8 时,二者之间存在线性关系。 所以,原模型经检验地被认为具有多重共线性, 而差分模型则可认为不具有多重共线性。
43
44
简介主成分
假设我们所讨论的实际问题中,有p个指 标,我们把这p个指标看作p个随机变量,记为 X1,X2,…,Xp,主成分分析就是要把这p个指 标 的问题,转变为讨论p个指标的线性组合的问 题,而这些新的指标F1,F2,…,Fk(k≤p),按 照保留主要信息量的原则充分反映原指标的信 息,并且相互独立
36
五、多重共线性的修正
1、先验信息法 2、改变变量的定义形式 3、主成分法 4、岭回归 5、逐步回归 6、其他
37
理论方法
38
39
40
41
例如:在中国消费模型中的2个变量:
收入(Y: GDP)与消费 C 的总量与增量数据
1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 Y 4901 5489 6076 7164 8792 10133 11784 14704 16466 18320 21280 25864 34501 47111 59405 68498 C(-1) 2976 3309 3638 4021 4694 5773 6542 7451 9360 10556 11362 13146 15952 20182 27216 34529 C(-1)/Y 0.6072 0.6028 0.5996 0.5613 0.5339 0.5697 0.5552 0.5067 0.5684 0.5762 0.5339 0.5083 0.4624 0.4284 0.4581 0.5041