第5讲 多重共线性

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五讲 多重共线性
计 量 经 济 学
Econometrics
任课老师: 任课老师:李平
School of Management and Economics, 2010
第五讲 多重共线性
第五讲 多重共线性 教材第7 (教材第7章)
School of Management and Economics, 2010
第五讲 多重共线性
出现多重共线性时的估计问题
不完全多重共线性的特征: 不完全多重共线性的特征:
值会降低,倾向于统计上不显著; 偏回归系数的 t 值会降低,倾向于统计上不显著; 估计量(偏回归系数)对模型设定的变化非常敏感。 估计量(偏回归系数)对模型设定的变化非常敏感。 估计系数可能出现非预期的符号或有难以置信的数值 非预期的符号或有难以置信的数值。 估计系数可能出现非预期的符号或有难以置信的数值。 虽然系数不显著,但总的拟合优度 却可能非常高; 虽然系数不显著,但总的拟合优度R2却可能非常高; bk βk bk = tk = 值都不显著, 可能出现每个偏回归系数的 t 值都不显著,但回归方 se(bk ) var(bk ) 程的F值却很显著 值却很显著。 程的 值却很显著。
School of Management and Economics, 2010
第五讲 多重共线性
处理多重共线性的一个例子(P144) 处理多重共线性的一个例子(P144)
教皇的开戒(可以吃肉) 教皇的开戒(可以吃肉)决定会影响鱼的人均消 费量吗? 费量吗?
1966年,教皇允许天主教徒除星期五斋日之外的日期 年 可以吃肉(鱼不算肉)。 )。这一决定可能导致鱼的消费 可以吃肉(鱼不算肉)。这一决定可能导致鱼的消费 需求下降。 需求下降。 教皇的决定对鱼的消费会有显著影响吗?怎样检验? 教皇的决定对鱼的消费会有显著影响吗?怎样检验? 要研究这个问题,需要收集哪些数据?只需要1966年 要研究这个问题,需要收集哪些数据?只需要 年 前后鱼的人均的消费数据吗? 前后鱼的人均的消费数据吗? 除了教皇的决定,还有哪些因素会影响对鱼的消费? 除了教皇的决定,还有哪些因素会影响对鱼的消费? 这些因素的作用是什么? 这些因素的作用是什么?
2
School of Management and Economics, 2010
第五讲 多重共线性
回顾
t 检验(偏回归系数检验): 检验(偏回归系数检验) βk βk
tk = s S
2 kk
~ t[ n K ]
F 检验(线性约束检验): 检验(线性约束检验)
′ (e*e* e′e) J F= e′e /(n K)
School of Management and Economics, 2010
第五讲 多重共线性
出现多重共线性时的估计问题
不完全多重共线性对预测的影响
如果回归分析的唯一目的是预测, 如果回归分析的唯一目的是预测,而不必关注参数估 计的可靠性, 计的可靠性,并且如果不完全共线性的结构在样本和 未来都保持一致, 未来都保持一致,那么不完全多重共线性不是一个严 重的问题,因为预测只关心模型是否捕捉到了X对 的 重的问题,因为预测只关心模型是否捕捉到了 对Y的 解释能力,并且拟合优度越高(当然过度拟合除外), 解释能力,并且拟合优度越高(当然过度拟合除外), 预测越准。 预测越准。 如果不完全共线性的结构在未来发生变化, 如果不完全共线性的结构在未来发生变化,则预测是 冒险的。 冒险的。
Ft = β 0 + β1 PFt + β 2 PBt + β 3 ln Ydt + β 4 N t + β5 Pt + ε t
School of Management and Economics, 2010
第五讲 多重共线性
出现多重共线性时的估计问题
如果是不完全多重共线性
矩阵 X ′ 的逆存在,则下面的方程有唯一解 X 的逆存在,
X ′X β = X ′y
且解为: 且解为:
β = ( X ′ )1 X ′ X y
只要不是完全多重共线性, 只要不是完全多重共线性,用OLS仍可得到系数的估 仍可得到系数的估 计量及其标准差,并且仍是无偏;尽管无偏, 计量及其标准差,并且仍是无偏;尽管无偏,但估计 量的标准差非常大,即估计的精度很小, 量的标准差非常大,即估计的精度很小,这是高度 不完全)多重共线性所带来的理论上的唯一影响。 (不完全)多重共线性所带来的理论上的唯一影响。
完全多重共线性
λ1 X1 + λ2 X 2 +…λk X k = 0 λ1,λ2, λk为常数但不同时为0 …
不完全多重共线性
λ1 X1 + λ2 X 2 +…λk X k + vi = 0
vi是随机误差项,衡量了X变量之间高度但非完全的相关
School of Management and Economics, 2010
School of Management and Economics, 2010
X 的逆存在。 假定2:数据矩阵 列满秩 列满秩, 假定 :数据矩阵X列满秩,即矩阵 X ′ 的逆存在。
多重共线性
第五讲 多重共线性
多重共线性的定义
多重共线性( 多重共线性(multicollinearity)的定义: )的定义: 一个回归模型中的一些或全部解释变量之间存 在一种完全或不完全的线性关系。 在一种完全或不完全的线性关系。
……
School of Management and Economics, 2010
第五讲 多重共线性
多重共线性的补救措施
无为而治: 无为而治:什么也不做
剔除本应包含的解释变量会导致设定偏误。 剔除本应包含的解释变量会导致设定偏误。与遗漏变 量造成的有偏估计相比较,较低的t统计值(显著性) 量造成的有偏估计相比较,较低的 统计值(显著性) 统计值 似乎只是一个次要的问题。 似乎只是一个次要的问题。 只有当后果很严重(估计系数出现非预期的符号), 只有当后果很严重(估计系数出现非预期的符号), 才应该采取其他补救措施(参见教材P142:7.5.1 为什 才应该采取其他补救措施(参见教材 : 么通常不必对多重共线性做任何调整)。 么通常不必对多重共线性做任何调整)。
School of Management and Economics, 2010
第五讲 多重共线性
回顾
经典回归模型的基本假设: 经典回归模型的基本假设:
假定1: 假定 : E[ε ] = 0
X 的逆存在。 假定2:数据矩阵 列满秩 列满秩, 假定 :数据矩阵X列满秩,即矩阵 X ′ 的逆存在。
假定3: 假定 :E[ε | X ] = 0 假定4: 假定 :E[εε ′] = σ 2 I
第五讲 多重共线性
多重共线性的补救措施
剔除支配变量( ):与被解释 剔除支配变量(dominant variable):与被解释 ): 变量高度相关, 变量高度相关,以致于完全掩盖了方程中所有其 他变量的影响,相对于解释变量的替代变量。 他变量的影响,相对于解释变量的替代变量。 剔除多余的变量, 剔除多余的变量,潜在的理论假设作为剔除的主 要依据。 要依据。 增加样本容量
School of Management and Economics, 2010
1. 根据解释变量相关系数来侦察:是否大于 根据解释变量相关系数来侦察:是否大于0.8
2. 根据回归输出结果来侦察 3. 根据方差膨胀因子(VIF)来判断 根据方差膨胀因子( ) a) 把xi对其他解释变量进行 对其他解释变量进行OLS回归,得到 i2 回归, 回归 得到R ] = (1 R 2 ) 1 b) 计算 计算VIF: var[ β i i c) 根据 根据VIF判断,通常 判断, 判断 通常VIF>5被认为存在多重共线性 被认为存在多重共线性 且较严重
School of Management and Economics, 2010
第五讲 多重共线性
回顾
为了构造置信区间和进行假设检验, 为了构造置信区间和进行假设检验,还需要
ε ~ N [0, σ 2 I ] 假定5: 假定 :
β ~ N [ β , σ 2 ( X ′X ) 1 ]
e′e s = nK
特例: 特例:
x3i = λ x2i + vi , λ ≠ 0, 并且∑ x2i vi = 0
即使总体中各X变量没有线性关系,但获得的样本数据中 即使总体中各 变量没有线性关系,但获得的样本数据中X 变量没有线性关系 变量之间却可能存在高度的共线性,因此, 变量之间却可能存在高度的共线性,因此,多重共线性本 质上是一种样本现象。 质上是一种样本现象。
School of Management and Economics, 2010
第五讲 多重共线性
百度文库
回顾
在这些基本假设下,最小二乘估计量是: 在这些基本假设下,最小二乘估计量是:
= ( X ′ )1 X ′ β X y
E[ β ] = β
] = σ 2 ( X ′X ) 1 var[ β p lim β = β
School of Management and Economics, 2010
一个不完全多重共线性的例子( 一个不完全多重共线性的例子(data_5.1) )
不显著
很大
高度显著
第五讲 多重共线性
多重共线性的侦察
多重共线性的侦察
多重共线性是一个程度问题而不是有无的问题; 多重共线性是一个程度问题而不是有无的问题; 侦破多重共线性的方法一般基于一些经验指标, 侦破多重共线性的方法一般基于一些经验指标,目前 还没有一个被普遍接受的真正意义的检验多重共线性 的统计量。 的统计量。
School of Management and Economics, 2010
回忆: 回忆: 很大
不变
] = σ 2 ( X ′X ) 1 var[ β
很小
回忆: 回忆: 不完全多重共线性 通过矩阵的一系列
λ1 X1 + λ2 X 2 +…λk X k + vi = 0 初等变换,变量X 初等变换,变量 3 这一列几乎为零。 这一列几乎为零。 vi是随机误差项,衡量了X变量之间高度但非完全的相关
School of Management and Economics, 2010
第五讲 多重共线性
多重共线性的补救措施
变换解释变量
一阶差分(时间序列分析) 一阶差分(时间序列分析) 构造一个多重共线性的组合
主成分分析法(principal components) 主成分分析法( ) 因子分析法( 因子分析法(factor analysis) )
School of Management and Economics, 2010
第五讲 多重共线性
处理多重共线性的一个例子
假定初步建立的方程为: 假定初步建立的方程为:
第t年鱼的人 年鱼的人 均消费量 第t年鱼的价 年鱼的价 格指数 第t年牛肉的 年牛肉的 价格指数 第t年人均 年人均 可支配收入 美国天主教 徒人数
Ft = β 0 + β1 PFt + β 2 PBt + β3 ln Ydt + β 4 N t + β 5 Pt + ε t
虚拟变量: 虚拟变量:1966年以 年以 后取1,之前取0。 后取 ,之前取 。
哪个是主要关心的解释变量?哪些是控制变量? 哪个是主要关心的解释变量?哪些是控制变量?
School of Management and Economics, 2010
第五讲 多重共线性
复习
什么是稳健性检验? 什么是稳健性检验? 能省略常数项吗? 能省略常数项吗? 在回归方程中, 在回归方程中,是否需要剔除所有不显著的解释 变量? 变量?
School of Management and Economics, 2010
第五讲 多重共线性
主要内容
回顾: 回顾:经典回归模型的基本假设 多重共线性的性质 出现多重共线性时的估计问题 多重共线性的来源和侦察 多重共线性的补救措施
第五讲 多重共线性
出现多重共线性时的估计问题
为什么要假设无多重共线性? 为什么要假设无多重共线性?
如果是完全多重共线性
若矩阵 X ′ 的逆不存在,则下面的方程没有唯一解 X 的逆不存在,
X ′X β = X ′y
完全多重共线性只是一种极端的隐患,更常见 完全多重共线性只是一种极端的隐患, 的是出现不完全的多重共线性。 的是出现不完全的多重共线性。
相关文档
最新文档