多重共线性 第一节
第四章 多重共线性

二、产生多重共线性的背景
多重共线性产生的经济背景主要有几种情形: 1.经济变量之间具有相同的变化趋势。 2.模型中包含滞后变量。 3.利用截面数据建立模型也可能出现多重共线性。 4.样本数据的原因。
6
第二节 多重共线性的后果
一、完全多重共线性产生的后果
1.参数的估计值不确定 2.参数估计值的方差无限大
Cov( ˆ2 ,
ˆ3 )
(1
r223 )
r23 2
x22i
x32i
随着共线性增加,r23趋于1,方差将增大。同样 协方差的绝对值也增大,它们增大的速度决定于
方差扩大(膨胀)因子(variance inflation factor, VIF)
VIF
1
1 r223
这时
Var(ˆ2 )
4.多重共线性严重时,甚至可能使估计的回归系数 符号相反,得出完全错误的结论。(如引例)
18
第三节 多重共线性的检验
本节基本内容: 简单相关系数检验法 方差扩大因子法 直观判断法 病态指数检验法 逐步回归法
19
一、简单相关系数检验法 简单相关系数检验法是利用解释变量之间的线性 相关程度去判断是否存在严重多重共线性的一种 简便方法。适用于只有两个变量的情形。
2
x32i 0
同理
ˆ3
这说明完全多重共线性时,参数估计量的方差将 变成无穷大。
9
关于方差的推导
Var(ˆ2 )
x32i (x22i ) (x32i )
(x2i x3i )2
2
1 X21 X 1 X22
1 X2n
多重共线性

7
(2)滞后变量的引入 在经济计量模型中,往往需要引入滞后经济 变量来反映真实的经济关系。
例如,消费=f(当期收入, 前期收入)
显然,两期收入间有较强的线性相关性。
8
(3)样本资料的限制 由于完全符合理论模型所要求的样本数据较难收集,特定样
本可能存在某种程度的多重共线性。
一般经验:
时间序列数据样本:简单线性模型,往往存在多重共线性。
表 4.3.1 相关系数平方 方差膨胀因子 0 1 0.5 2 0.8 5 0.9 10 方差膨胀因子表 0.95 20 0.96 25 0.97 33 0.98 50 0.99 100 0.999 1000
当完全共线时, r2=1,
ˆ var( 1 )
14
3、参数估计量经济含义不合理
4
在矩阵表示的线性回归模型 Y=X+ 中,完全共线性指:秩(X)<k+1,即
1 1 X 1 X 11 X 12 X 1n X 21 X 22 X 2n X k1 X k2 | X X | 0 X kn
中,至少有一列向量可由其他列向量(不包括第 一列)线性表出。
如果模型中两个解释变量具有线性相关性,例如
X2 = X1 ,
这时,X1 和X2 前的参数 1 、 2 并不反映各自与被解释变量之间 的结构关系,而是反映它们对被解释变量的共同影响。
1、2已经失去了应有的经济含义,于是经常表现出似乎反
常的现象:例如1本来应该是正的,结果恰是负的。
经验告诉我们,在多元线性回归模型的估计中,如果出现参
21
2.直观判断法
根据经验,通常以下情况的出现可能提示存在多重共线 性的影响:
计量经济学:多重共线性

计量经济学:多重共线性多重共线性52=.53085123 第四章专门讨论古典假定中⽆多重共线性假定被违反的情况,主要内容包括多重共线性的实质和产⽣的原因、多重共线性产⽣的后果、多重共线性的检测⽅法及⽆多重共线性假定违反后的处置⽅法。
第⼀节什么是多重共线性⼀、多重共线性的含义第三章讨论多元线性回归模型的估计时,强调了假定⽆多重共线性,即假定各解释变量之间不存在线性关系,或者说各解释变量的观测值之间线性⽆关。
在计量经济学中所谓的多重共线性(Multi-Collinearity),不仅包括解释变量之间精确的线性关系,还包括解释变量之间近似的线性关系。
从数学意义上去说明多重共线性,就是对于解释变量k X 、、X X 32,如果存在不全为0的数k λλλ,2,1 ,能使得n ,2, ,1i 033221 ==++++ki k i i X X X λλλλ ( 4.1 )则称解释变量k X X X ,,,32 之间存在着完全的多重共线性。
⽤矩阵表⽰,解释变量的数据矩阵为X=213112232223111k k nnkn X X X X X X X X X ??(4.2)当Rank(X )在实际经济问题中,完全的多重共线性并不多见。
常见的情形是解释变量k X X X ,,,32 之间存在不完全的多重共线性。
所谓不完全的多重共线性,是指对于解释变量k X 、、X X 32,存在不全为0的数k λλλ,2,1 ,使得n ,2, ,1i 033221 ==+++++i ki k i i u X X X λλλλ(4.3)其中,i u 为随机变量。
这表明解释变量k X 、、X X 32只是⼀种近似的线性关系。
如果k 个解释变量之间不存在完全或不完全的线性关系,则称⽆多重共线性。
若⽤矩阵4表⽰,这时X 为满秩矩阵,即Rank(X )=k 。
需要强调,解释变量之间不存在线性关系,并⾮不存在⾮线性关系,当解释变量存在⾮线性关系时,并不违反⽆多重共线性假定。
第四章多重共线性

2
x2j VIFj
注意:R2j 是多个解释变量辅助回归的多重可决系数,
而相关系数 r223只是说明两个变量的线性关系 。
(一元回归中可决系数的数值等于相关系数的平方)
17
方差扩大因子的作用
由
R2j 越大
VIFJ 1 (1 R2j ) 多重共线性越严重
VIFj越大
VIFj的大小可以反映解释变量之间存在多重共线性的严重
1 x22i (1
r223 )
2
x22i
1 (1 r223)
2
x22i
VIF2
当 r23 增大时,VIF2 增大, Var(ˆ2 ) 也会增大 ,
思考: 当 r23 0 时 Var(ˆ2) 2
x22i
(与一元回归比较)
当 r23 1 时 Var(ˆ2 )
(见前页结论) 8
三、当多重共线性严重时,甚至可能使估计
在总体中部分或全部解释变量可能没有线性关系,但是 在具体获得的样本中仍可能有共线性关系,因此多重共线 性问题本质上是一种样本现象。
正因为如此,我们无法对多重共线性问题进行统计假设 检验,只能设法评价解释变量之间多重共线性的严重程度。
5
第二节 多重共线性产生的后果
从参数估计看,在完全无多重共线性时,各解释变量都独
Kt
Kt
ln Qt ln A ln Lt ln Kt ln u
(ln Lt 与 ln Kt 有多重共线性) ln Qt ln A ln Lt ln u
Kt
Kt 22
三、截面数据与时间序列数据的结合
有时在时间序列数据中多重共线性严重的变量,在截 面数据中不一定有严重的共线性
假定前提:截面数据估计出的参数在时间序列中变化不大
第七章 多重共线.

Yi b0 b1X1i b2 X 2i i
(7.1)
存在不为零的常数1、2,使得下列关系式成立
1 X1i +2 X 2i 0
(7.2)
则说X
1、X
存在完全的线性关系。
2
如果解释变量之间存在着完全的线性关系, 那么其间的线性系数就等于1,这在实际上是 少见的,大部分情况是解释变量之间接近线性 关系。对于上面,模型(7.1),存在不为零 的常数λ 1、λ 2,使X1、X2满足
年份
1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
粮食产量
Y
(万吨) 38728 40731 37911 39151 40208 39408 40755 44624 43529 44264 45649 44510 46662 50454 49417 51230 50839 46218
例如,消费=f(当期收入, 前期收入) 显然,两期收入间有较强的线性相关性。
第二节 多重共线性引起的后果
一、完全多重共线
Y Xb μ
的OLS估计量为:
bˆ X X -1 X Y
如果存在完全共线性,则(X’X)-1不存在,无法得 到参数的估计量。
例:对离差形式的二元回归模型
y b1x1 b2 x2
量中的一个或多个相关程度高,因此就使得回归模型式
Y f X1, X2, , Xk;
的解释变量出现高度多重共线。
二、利用不包含某一解释变量Xj 的样本决定系数检验
Y f X1, X2, , Xk
的样本决定系数为R2我们利用每次去掉一个解释变量作回归,构造如下k个回
第七章多重共线性精品课件

2i
bk xki ui
进行估计时,将 Xj从模型中排除,并不引起拟合优度 减少许多,那么,这个被排除在模型之外的解释变量 与留在模型中的解释变量多重共线,排除是应当的。
第三节、 多重共线性的的处理
一、剔除引起共线性的解释变量(这是最重要的方法, 保留在模型中变量的经济意义不再仅仅是自身的作用, 也包含了与其共线并被排除变量的作用。)
2
I n)
二、多重共线性的概念
考虑模型中只有两个解释变量的情况,此时 模型可以表示为:
Y b0 b1 X1 b2 X 2 u
若存在不全为0的常数 1 , 2 ,使下列关 系式成立:
1 X1 2 X 2 0
则称自变量 X 1 , X 2 存在完全的线性关系。
此时两者之间的相关系数为1。实际中完全多 重共线的情况并不多见,一般出现不同程度的 近似多重共线,即有以下关系成立:
第七章、多重共线性
本章内容
第一节、 多重共线性的概 念、产生的原因及其后果 第二节 、多重共线性的检 验 第三节、 多重共线性的的 处理 约瑟夫· 斯蒂格利茨 第四节 多重共线性的案例 2001年诺贝尔奖 分析
获得者
第一节、 多重共线性的概念、产生的原因 及其后果 一、单方程计量经济模型回顾 1、模型形式:
ji 0 1
1i
ˆ j 1 x j 1i ˆ j 1 x j 1i ˆ k xki
如果判定系数很大,F检验显著,则Xj可用其他解释变 量的线性组合表出,即 Xj 与其他解释变量多重共线。 应将Xj从解释变量中排除。 (2)或者,在对原模型
y b b x b x
四、多重共线性的影响
1、对于完全共线,由于矩阵逆不存在,所以参数的 OLS估计失效。
计量经济第六章多重共线性

• 2、数据采集的范围有限,或采集 的样本量小于模型的自变量个数。
• 如在罕见疾病的研究过程中,由于病 情罕见、病因又相当复杂,而只能在 少数的患者身上采集大量的变量信息。
3、模型中采用滞后变量
在计量经济模型中,往往需要引入 滞后变量来反映真实的经济关系。 例如,消费=f(当期收入, 前期收入) 显然,两期收入间有较强的线性相 关性。
up
三、方差膨胀因子法
• 自变量间的共线性程度越大时,VIF值也随之 增大。所以也可利用方差膨胀因子来检验 多重共线性问题。 • 一般来说,当VIF >10时,表明 涉及的两个 变量存在高度线性相关,模型存在不完全 多重共线性。
P111 【经典实例】
• 计算得到的方差膨胀因子值分别为
VIF1 =10000,VIF2 =10000,VIF3 =9.6525,VIF4 =11.5875
2 2 2 1
同理易得
ˆ ) Var( 2
• EVIEWS遇到完全多重共线性时,会 显示 • Near singular matrix,无法进行估 计
2、不完全多重共线性下的后果
(1)估计量的方差增大 2 2 x 2 ˆ) 由于 Var ( 1 2 x12x2 (x1 x2 )2
• 可以看出,除了 VIF3 10 ,其余的方 差膨胀因子值均大于10,表明模型中 存在较严重的多重共线性问题。
up
第三节 多重共线性的修正 一、改变模型的形式 二、删除自变量 三、减少参数估计量的方差 四、其它方法 习题
up
• 一、改变模型的形式
• (一)变换模型的函数形式
• 例如将线性回归模型转化为对数模 型或者多项式模型。 • (二)改变模型的自变量的形式
计量经济学课件第四章 多重共线性

计量经济学课件第四章多重共线性第四章多重共线性1 / 45计量经济学课件第四章 多重共线性 2 / 45引子:发展农业会减少财政收入吗?为了分析各主要因素对财政收入的影响,建立财政收入模型:= β 0 + β1 i + β 2 + β 3 i + β 4 + β 5 i + β 6 i +其中: 财政收入(亿元) ;农业增加值(亿元)工业增加值(亿元); 建筑业增加值(亿元); 总人口(万人); 最终消费(亿元)受灾面积(万公顷)数据样本时期1978年-2007年(资料来源:《中国统计年鉴 2008》,中国统计出版社2008年版)采用普通最小二乘法得到以下估计结果计量经济学课件第四章 多重共线性3 / 45财政收入模型的估计结果农业增加值 工业增加值建 筑业增加值 总人口 最终消费 受灾面积 截距-1.907548.0.342045 0.042746 0.765767 0.091660 0.042807 0.048904 8607.753-5.576888 1.074892 8.433867 1.047591 0.072609 -0.564916 -0.631118.0.0000 0.2936 0.0000 0.3057 0.9427 0.5776 0.53420.0459476.458374 0.096022 0.003108 -0.027627 -5432.507.0.989654 0.986955 1437.448 47523916 -256.7013 1.654140 10049.04 . 12585.51 17.58009 17.90704 366.6801 ()0.000000计量经济学课件第四章 多重共线性4 / 45模型估计与检验结果分析●可决系数为0.9897 ,校正的可决系数为0.9870,模 型拟合很好。
模型对财政收入的解释程度高达98.9%。
●F 统计量为366.68,说明0.05水平下回归方程整体 上显著。
计量教案(6多重共线性)

第六章 多重共线性在多元线性回归分析的经典假设中,假定模型所包含的解释变量之间不存在线性关系,即无多重共线性。
但是由于经济变量本身的固有性质,许多的变量之间总是会存在着一定的相关性。
例如,以企业截面数据为样本估计的生产函数,作为其解释变量的有诸如资本、劳动、能源……等等投入要素,这些投入要素都与企业的生产规模有关,显然,它们之间存在着明显的相关性。
再如,以家庭收入I和商品价格P为解释变量分析家庭生活状况的模型。
由于收入较高的家庭购买商品,普通会选择质地较好、价格较高的;而收入较低的家庭购买商品则会选择较便宜的。
这样两解释变量I与P之间存在着明显的相关性。
本章的目的与要求当解释变量之间存在着线性关系,违背了解释变量之间不存在共线性的经典假定时,如何处理可能浮现的一系列状况,就是本章所要讨论的问题。
通过本章学习,要求重点掌握的内容是:明确多重共线性的概念及其表现形式;充分理解当线性回归模型存在多重共线性情形下,使用普通最小二乘估计模型参数将会引起的各种不良后果;熟练掌握检测多重共线性的各种方法以及在此情形下相应的处理与估计改进方法,从而能够运用这些知识处理经济计量分析实践中的相应问题。
本章内容(计划学时)一、多重共线性的性质1、多重共线性的概念2、解释变量线性关系的表现形式3、多重共线性的产生原因4、多重共线性的性质二、多重共线性的后果与检测1、多重共线性的后果2、多重共线性的检测方法三、多重共线性的补救措施学习重点一、多重共线性的性质二、多重共线性的后果与检测方法三、多重共线性的补救措施学习难点一、多重共线性的性质二、多重共线性的后果与检测方法 三、多重共线性的补救措施第一节 多重共线性的性质一、多重共线性的概念多重共线性就是指线性回归模型中若干解释变量或者全部解释变量的样本观测值之间具有某种线性关系,也就是说,对于有 k 个解释变量的线性回归模型Y = β0 + β1X 1 + β2X 2 + … + βk X k + u (式6-1.1) 即模型中的各解释变量Xi 的样本观测值之间存在一定的线性关系,我们就称模型存在多重共线性。
经济计量学第七讲多重共线性PPT资料(正式版)

第四节 多重共线性的侦察(2)
二、侦察多重共线性的规则
(一)R2值高而显著的t比率少
(二)回归元之间有高度的两两相关 Ø它只是充分条件而不是必要条件
(三)检查偏相关 Ø偏相关系数不能保证对多重共线性提供 一 个准确的指南。
第四节 多重共线性的侦察(3)
二、侦察多重共线性的规则 (四)辅助回归 做每个解释变量对其他剩余变量 的回归并计算相应的R2值。其中的每 一个回归都被称为是从属或者辅助回 归。
2
j
j
第五节 多重共线性的补救措施
如果存在不完全的多重共线性,
TOj L(1R2 j)1/VIjF
第五节 多重共线性的补救措施
一、先验信息 二、横截面与时间序列数据并用 三、剔除变量与设定偏误 四、变量代换 五、补充新数据 六、在多项式回归中降低共线性 七、拯救多重共线性的其他方法
谢谢观看
(一)完全多重共线性情形
Y = ^1 + ^2X2 + ^3X3 + ^u
^2
(yx2)(x32) - (yx3)(x2x3)
= (x22)(x32) - (x2x3)2
如果 x3 = x2,
^2
=
(yx2)(2x22) - (yx2)(x2x2) (x22)(2 x22) - 2(x2x2)2
=
0 0
经济计量学第七讲多重 共线性
第七讲 多重共线性
第一节 多重共线性的性质 第二节 出现多重共线性时的估计问题 第三节 多重共线性的后果 第四节 多重共线性的侦察 第五节 多重共线性的补救措施
第一节 多重共线性的性质
一、多重共线性的概念 二、多重共线性的来源
一、多重共线性的概念
Y i 1 2 X 2 i 3 X 3 i k X k i u i
多重线性-PPT课件

• 滞后变量的引入
在计量经济模型中,往往需要引入滞后经济变 量来反映真实的经济关系。 例如,消费=f(当期收入, 前期收入) 显然,两期收入间有较强的线性相关性。
• 一般经验
对于采用时间序列数据作样本、以简单线性形 式建立的计量经济学模型,往往存在多重共线性。
以截面数据作样本时,问题不那么严重,但 多重共线性仍然是存在的。
解 该 线 性 方 程 组 得 :
xy xy ˆ x xx
1 i i 2 i i 2 1 i 1 2 y x 0 0 xx x x x x x
1 i 2 i 2 2 i 1 i i 2 1 i i 2 1 i 2 1 i 2 1 i 2 1 i 1 i 2 i 2 2 i 2 2 1 i 2 1 i
第六章 多重共线性 (Multi-Collinearity)
• 第一节 多重共线性的定义 • 第二节 多重共线性的检验 • 第三节 多重共线性的消除
第一节 多重共线性的定义
多重量共线性及产生原因 多重共线性的后果
一、多重共线性的概念及其产 生原因
解释变量之间存在较强的线性相关关系,使 得 XT X 的行列式值近似于0(等于0是完全共 线性),逆阵可求得,但不稳定。出现于多元线 性模型。例:生产函数、需求函数.
在矩阵表示的线性回归模型 Y=XB+N 中,完全共线性指:秩(X)<k+1,即矩阵
1 1 X 1 X11 X21 X12 X22 X1n X2n Xk1 Xk2 Xkn
中 , 至 少 有 一 列 向 量 可 由 其 他 列 向 量 ( 不 包 括 第 一 列 ) 线 性 表 出 。
第七章 多重共线性

由前述可知,多重共线性分完全多重共线性和不完全多重共线性两种情况,两种情况都会对模型进行最小二乘估计都会产生严重后果。
(一)完全多重共线性 产生的后果
以二元线性回归模型为例,
EMBED Equation.3 (7-4)
以离差形式表示,假设其中 EMBED Equation.3 , EMBED Equation.3 , EMBED Equation.3 , EMBED Equation.3 ,常数 EMBED Equation.3 ,则, EMBED Equation.3 , EMBED Equation.3 的最小二乘估计量为
情况3、新引入变量后,方差增大
在多元线性回归模型中新引入一个变量后,发现模型中原有参数估计值的方差明显增大,则说明解释变量间可能存在多重共线性。
二、拟合优度 EMBED Equation.3 检验
对多元线性回归模型中各个解释变量相互建立回归方程,分别求出各回归方程的拟和优度,如果其中最大的一个接近1, EMBED Equation.3 显著大于临界值,该变量可以被其他变量线性解释,则其所对应的解释变量与其余解释变量间存在多重共线性。
多重共线性是较为普通存在的现象,从上节分析可知,较高程度的多重共线性会对最小二乘估计产生严重后果,因此,在运用最小二乘法进行多元线性回归时,不但要检验解释变量间是否存在多重共线性,还要检验多重共线性的严重程度。
一、不显著系数法
情况1、 EMBED Equation.3 很大,t小
EMBED Equation.3
EMBED Equation.3
分别求出上述各个方程的拟合优度 EMBED Equation.3 ,如果其中最大的一个 EMBED Equation.3 接近于1,则它所对应的解释变量 EMBED Equation.3 与其余解释变量间存在多重共线性。
多重共线性问题课件

多重共线性的表现形式
相关性矩阵
通过计算自变量之间的相关性矩阵,可以发现高度相关的自变量 。
特征值
在多重共线性情况下,某些特征值的绝对值会接近于0,这表明自 变量之间存在高度相关。
方差膨胀因子
数据收集阶段预防
总结词
在数据收集阶段,预防多重共线性的关键是保证 数据的准确性和完整性,以及合理的数据样本量 。
总结词
在数据收集阶段,可以通过增加样本量来降低多 重共线性的影响。
详细描述
数据的质量直接关系到模型的准确性和可靠性, 因此需要确保数据的准确性和完整性。此外,合 理的数据样本量可以降低随机误差的影响,提高 模型的稳定性和可靠性。
多重共线性问题的
03
诊断
特征值诊断法
总结词
通过计算模型中自变量的特征值来判断是否存在多重共线性问题。
详细描述
特征值诊断法是通过计算自变量的特征值来判断自变量之间的相关性。如果自变量的特征值接近于零 ,说明该自变量与其他自变量高度相关,存在多重共线性问题。
条件指数法
总结词
通过计算自变量之间的条件指数来判断 是否存在多重共线性问题。
VS
详细描述
条件指数是一种衡量自变量之间相关性的 指标,如果条件指数大于一定阈值,说明 自变量之间存在多重共线性问题。
方差膨胀因子法
总结词
通过计算自变量的方差膨胀因子来判 断是否存在多重共线性问题。
详细描述
方差膨胀因子是衡量自变量对因变量 影响的放大程度,如果方差膨胀因子 大于一定阈值,说明自变量之间存在 多重共线性问题。
Байду номын сангаас
[理学]第四章 多重共线性资料讲解
![[理学]第四章 多重共线性资料讲解](https://img.taocdn.com/s3/m/698e1bed162ded630b1c59eef8c75fbfc77d9401.png)
R2 0.9531
F=92.4020
消费支出、收入和财富的截面数据 单位:美元
消费支出 Y 70 65 90 95 110 115 120 140 155 150
收入 80 100 120 140 160 180 200 220 240 260
财富 810 1009 1273 1425 1633 1876 2052 2201 2435 2686
案例分析
本章小结
第一节 什么是多重共线性
两个实例
例1:某地区为研究不同家庭的消费Y与收入X2 的关系,在此基础上,还引进了消费者家庭财富
状况X3作为第二个解释变量。回归方程为:
Yˆ = 24.7747 + 0.9415X2 - 0.0424*X3 (1)
SE =(6.7525) (0.8229)(0.0807) t =(3.6690) (1.1442)(- 0.5261)
(2)
▪
(6.4138) (0.0357)
▪
(3.8128) (14.2432)
在二元线性模型(1)中,收入变量是统计上不显著
的,而在现在的一元线性模型(2)中则是高度显著
的。
同样,我们做对Y和X3的回归
Y=24.411+ 0.0498X3
▪
(6.874) (0.0037)
(3)
▪
(3.551) (13.29)
Va( rˆ2) 会 增 大 。 对 ˆ3有 同 样 的 结 论 。
2.t检验容易作出错误的判断 3.可能造成可决系数较高,但对各个参数
单独的 t 检验却可能不显著,甚至可 能使估计的回归系数符号相反,得出完 全错误的结论。
up
练习题4.5
计量经济学课件第四章多重共线性

第四章 多重共线性第一节 违背基本假定的一般描述一、基本假定的回顾1、零均值假定。
2、同方差假定。
3、无自相关假定。
4、解释变量与随机误差项不相关。
5、无多重共线性假定。
6、正态性假定。
除此之外,还有一些需要注意的地方,回归模型关于参数线性;在重复抽样中X 值是固定的(或X 是非随机的);X 的值要有变异;模型设定是正确的。
二、假定1和假定6违背的讨论1、违背假定1的情况。
(1)正确理解零均值假定是掌握所有假定的关键(参见Wooldridge ,计量经济学导轮现代观点,pp.23-25)。
(2)假定1不满足的数学描述。
设一元线性回归模型为121212'1212,1,2,,()0,i i i i i i i i i iY X u i nE u k E Y X E u X k k X X ββββββββββ=++==≠=++=++=++=+如果有则有()()()由上式表明,这时在0≠)(i u E 下,改变的只是截距项,而对模型的线性结构并不影响。
(3)对假定1被破坏的解释。
通常在这种情况下,我们认为是变量所取的数据可能出现了异常表现,即有异常值。
因为按照零均值的意义,要求各个散点是均匀地分布在回归线的周围。
修正的方法将在后面虚拟变量部分介绍。
例如,我们分析江苏省社会商品消费品零售总额与江苏省城乡居民可支配收入之间的关系,发现在1991年该省的社会消费品零售总额存在异常值,表现为样本回归模型的残差在1991年有估计值与实际值存在明显的差异。
见下图和下表另一方面,有时通过变量的时序数据的样本折线图也可直接观察到样本是否存在异常表现。
如我们根据全国国有经济单位职工人数(万人)从1952年到1998年的数据绘制了折线图为从图形中我们可以看到,在1958年、1959年、1960年这三年中,全国国有经济单位职工人数存在异常情况,其背景是这几年为国家大跃进时期,国有单位职工人数增加迅速。
因此,要依据这一数据建立模型,零均值假定就不一定成立。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2
第一节 违背基本假定的一般描述
二、违背假定的讨论 1、违背零均值假定(教材P105) 2、违背同方差假定(第五章) 3、违背无自相关假定(第六章) 4、违背解释变量与随机误差项不相关(第七、九章) 5、违背无多重共线性假定(第四章) 6、违背正态性假定(教材P105)
后果
多元线性回归模型的一般形式对于有 k 个解释变量 的线性回归模型
Yi 1 2 X 2i 3 X 3i ... k X ki ui
1、零均值假定。 2、同方差假定。
2
E(ui ) 0 ( i 1,2,, n)
Var(ui Xi) , i 1,2,...,n
3、无自相关假定。
Cov(ui , u j ) E[(ui - Eui )(u j - Eu j )] E(uiu j ) 0 (i j )
第一节 违背基本假定的一般描述
4、解释变量与随机误差项不相关。
Cov( X ji , ui ) 0
j 2,3,, k
P76-77
5、无多重共线性假定
(1)从矩阵:解释变量观测值矩阵X 列满秩( k 列)。
Rank (X) k 即 X X 可逆
Rank (X ' X) k
(2)从变量:各个解释变量观测值之间线性无关。 对于解释变量 X 2 , X 3 ,, X k ,如果不存在不全为0的 数 2 , 3 ,, k , 使得
第一节 违背基本假定的一般描述
假定1不满足的数学描述。设一元线性回归模型为
1、违背零均值假定(教材P105)
Yi 1 2 Xi ui, i 1,2,...,n
如果有E(ui) k 0, 则有E(Yi) β1 β2Xi E(ui)
β1 β2Xi k (β1 k)β2Xi
若零均值假定满足,E (ui) 0,则E(Yi) β1 β2Xi
由上式表明,这时在 E (ui ) 0下,改变的只是截距 项,不会影响对斜率的估计,对模型的线性结构并不影 响。
第一节 违背基本假定的一般描述
6、违背正态性假定(教材P105)
(1)采用正态分布假定的理由
不论服从什 么分布
中心极限定理:
设n个相互独立的随机变量X1,X2,…,Xn服从同一 分布,且具有数学期望E(Xk)=μ和方差 D(Xk) 2 (k=1,2,..).则随机变量当n充分大时,
X X n
i
~ N(μ,σ /n)
2
2 X k ~ N(nμ , nσ ) k 1
n
ui 代表的是未直接出 回忆参数估计时对 ui的假定, 现在模型中的影响因素对被解释变量的影响之和,所以基 2 于前面的假设,提出正态性假设:
ui ~ N(0, σ)
第一节 违背基本假定的一般描述
(2)违背正态分布假定的影响 在随机误差项不再服从正态分布的条件下, 如果建立回归模型的目的仅是估计参数的话, 则这一假定是否成立并不重要,因为在大样本 情况下,根据中心极限定理,随机误差项应近 似地服从正态分布。 基于上述描述,对假定6是否成立可弱化看 待。 也就是说,正态假定的违背不影响OLS估计 是最佳线性无偏估计。
第四章 多重共线性
参考教材: 庞浩.2010.计量经济学.第二版.北京:科学出版社
第四章 多重共线性
教材P104
第一节
违背基本假定的一般描述
第二节 什么是多重共线性
第三节 多重共线性产ห้องสมุดไป่ตู้的后果
第四节 多重共线性的检验
第五节 多重共线性的补救措施
第七节 案例分析
第一节 违背基本假定的一般描述
一、基本假定的回顾(P104) 很重要!!
back
2 X 2 3 X 3 ... kXk 0
第一节 违背基本假定的一般描述
(3)从简单相关系数: rxi x j 0 ,解释变量间毫无线性关系,变量间相互
正交。这时已不需要作多元回归,每个参数j都 可以通过Y 对 Xj 的一元回归来估计。
6、正态性假定
ui ~ N (0, σ )