8第八章:多重共线性及其改进方法
多重共线性PPT课件
协方差同理。
方差膨胀因子(variance-inflating factor, VIF)
1 VIF 1 r223
所以 var b2
2
x22i VIF
2-21
8.5 多重共线性的诊断
在任一给定的情况下,特别是在涉及多于两 个解释变量的模型中,我们怎么知道有没有 共线性?
2-22
1.多重共线性是一个程度问题而不是有无问 题。有意义的区分不在于有无之间,而在于 程度大小。
因为 数。
b2 b3 是一个方程,却有两个未知
对给定的alpha和lamda值,有无穷多个解。
2-15
出现“高度”但“不完全”多重共线性 时的估计问题
仍以上述三变量回归模型为例。 假定 X3i X 2i vi ,其中 vi x2i 0
回归系数估计:
b2
yi x2i 2 x22i vi2
yi x2i
第8章 多重共线性:解释变量
相关会有什么后果?
McGraw-Hill/Irwin
Copyright © 2006 The McGraw-Hill Companies, Inc. All rights reserved.
问题
多重共线性的性质是什么? 多重共线性是否是一个严重的问题? 多重共线性的理论后果是什么? 多重共线性的实际后果是什么? 实践中如何诊断多重共线性? 消除多重共线性的补救措施有哪些?
但在应用计量经济学中,我们的宗旨就是区 分每个变量的单独影响。
2-13
把 X3i yi
X 2i 代入回归方程: b2 x2i b3 x2i ei b2 b3 x2i ei
x2i ei
利用OLS公式得:
b2 b3
x2i yi x22i
多元回归分析中的多重共线性及其解决方法
多元回归分析中的多重共线性及其解决方法在多元回归分析中,多重共线性是一个常见的问题,特别是在自变量之间存在高度相关性的情况下。
多重共线性指的是自变量之间存在线性相关性,这会造成回归模型的稳定性和可靠性下降,使得解释变量的效果难以准确估计。
本文将介绍多重共线性的原因及其解决方法。
一、多重共线性的原因多重共线性常常发生在自变量之间存在高度相关性的情况下,其主要原因有以下几点:1. 样本数据的问题:样本数据中可能存在过多的冗余信息,或者样本数据的分布不均匀,导致变量之间的相关性增加。
2. 选择自变量的问题:在构建回归模型时,选择了过多具有相似解释作用的自变量,这会增加自变量之间的相关性。
3. 数据采集的问题:数据采集过程中可能存在误差或者不完整数据,导致变量之间的相关性增加。
二、多重共线性的影响多重共线性会对多元回归模型的解释变量产生不良影响,主要表现在以下几个方面:1. 回归系数的不稳定性:多重共线性使得回归系数的估计不稳定,难以准确反映各个自变量对因变量的影响。
2. 系数估计值的无效性:多重共线性会导致回归系数估计偏离其真实值,使得对因变量的解释变得不可靠。
3. 预测的不准确性:多重共线性使得模型的解释能力下降,导致对未知数据的预测不准确。
三、多重共线性的解决方法针对多重共线性问题,我们可以采取以下几种方法来解决:1. 剔除相关变量:通过计算自变量之间的相关系数,发现高度相关的变量,选择其中一个作为代表,将其他相关变量剔除。
2. 主成分分析:主成分分析是一种降维技术,可以通过线性变换将原始自变量转化为一组互不相关的主成分,从而降低多重共线性造成的影响。
3. 岭回归:岭回归是一种改良的最小二乘法估计方法,通过在回归模型中加入一个惩罚项,使得回归系数的估计更加稳定。
4. 方差膨胀因子(VIF):VIF可以用来检测自变量之间的相关性程度,若某个自变量的VIF值大于10,则表明该自变量存在较高的共线性,需要进行处理。
第八章多重共线性PPT学习教案
完全多重共线性是由于在模型设定时把 严格联系的变量引进同一个模型,或者是由 于虚拟变量设置不当引起的。
因此对完全共线性的处理比较简单,只 需要针对性的修改模型,放弃和调整引起完 全共线性的部分变量即可。注意,不能放弃 形成线性关系的所有解释变量,否则造成解 释变量缺落,使模型失去研究意义。
第17页/共38页
三、多重共线性的诊断
(一)多重共线性问题的诊断原则:
❖ 多重共线性是一个样本问题,即使在总体中诸 X变量没有逻辑和理论上的线性关系,但在具
体的样本仍可能有线性关系。
❖ 多重共线性的根源是解释变量之间的样本相关 性,因此分析解释变量之间的样本相关性,进 行单相关或多元相关性的分析检验,是发现和 判断多重共线性问题的基本方法
数据样本时期1978年-2003年(资料来源:《中国统计年鉴
2004》,中国统计出版社2004年版)
第1页/共38页
财政收入模型的EViews估计结果
Variable 农业增加值NZ 工业增加值GZ 建筑业增加值JZZ 总人口TPOP 最终消费CUM 受灾面积SZM
截距项 R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat
性(approximate multicollinearity)或交互相关 (intercorrelated)。
第6页/共38页
注意:
完全共线性的情况并不多见, 一般出现的是在一定程度上的 共线性,即近似共线性。
但无论是解释变量之间严格 的线性关系还是较严重的近似 线性关系,都会给多元线性回 归分析造成严重的不利影响, 甚至导致回归模型完全失效。
多重共线性问题及解决方法
多重共线性问题及解决方法概念所谓多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。
一般来说,由于经济数据的限制使得模型设计不当,导致设计矩阵中解释变量间存在普遍的相关关系。
后果参数估计失去其意义检验与检验目前常用的多重共线性诊断方法有:1.自变量的相关系数矩阵R诊断法:研究变量的两两相关分析,如果自变量间的二元相关系数值很大,则认为存在多重共线性。
但无确定的标准判断相关系数的大小与共线性的关系。
有时,相关系数值不大,也不能排除多重共线性的可能。
2.方差膨胀因子(the variance inflation factor,VIF)诊断法:方差膨胀因子表达式为:VIFi=1/(1-R2i)。
其中Ri为自变量xi对其余自变量作回归分析的复相关系数。
当VIFi很大时,表明自变量间存在多重共线性。
该诊断方法也存在临界值不易确定的问题,在应用时须慎重。
3.容忍值(Tolerance,简记为Tol)法:容忍值实际上是VIF的倒数,即Tol=1/VIF。
其取值在0~1之间,Tol越接近1,说明自变量间的共线性越弱。
在应用时一般先预先指定一个T ol值,容忍值小于指定值的变量不能进入方程,从而保证进入方程的变量的相关系数矩阵为非奇异阵,计算结果具有稳定性。
但是,有的自变量即使通过了容忍性检验进入方程,仍可导致结果的不稳定。
4.多元决定系数值诊断法:假定多元回归模型p个自变量,其多元决定系数为R2y(X1,X2,…,Xp)。
分别构成不含其中某个自变量(Xi,i=1,2,…,p)的p个回归模型,并应用最小二乘法准则拟合回归方程,求出它们各自的决定系数R2i(i=1,2,…,p)。
如果其中最大的一个R2k与R2Y很接近,就表明该自变量在模型中对多元决定系数的影响不大,说明该变量对Y总变异的解释能力可由其他自变量代替。
它很有可能是其他自变量的线性组合。
多重共线性的判断与修正
多重共线性的判断与修正一、多重共线性的判断1. 综合统计检验法LS Y C X1 X2 对模型进行OLS, 得到参数估计表(1) 当2,R F 很大,而回归系数的t 检验值小于临界值时,可判定该模型存在多重共线性。
(2) 当完全共线性存在时,模型的OLS 无法进行,Eviews 会提示:矩阵的逆(1()T X X -)不存在。
2. 简单相关系数检验法LS Y C X1 X2 对模型进行OLS, 得到参数估计表中的2R .点击:Quick/Group Statistics/Correlation在对话框中输入:X1 X2 , 点击OK, 即可得到简单相关系数矩阵检验:若存在 i j x x r 接近于1, 或 22,i j x x r R >,则说明,i j x x 之间存在着严重的相关性。
3. 辅助回归法(方差扩大因子法)设 121112...(1)(1)...j j k Xj X X X j X j Xk V ααααα-+=+++-+++++ (j ) LS Xj X1 X2…Xk 对(j) 进行OLS, 得到参数估计表检验:若表中 (2,1)F F k n k α>--+, 则可确定存在多重共线性。
或者(方差扩大因子法):计算211j jVIF R =-, (2j R 为以上方程的可决系数), 若10j VIF ≥, 则可确定存在多重共线性。
4. 逐步回归法1) 首先计算被解释变量对每个解释变量的回归方程,得到基本回归方程:LS Y C Xi OLS ,得到基本回归方程(i), i = 1,2,…,k2) 从这些基本回归方程中选出最合理的方程, 即,2R 取值最大,且t 检验显著。
比方说,0j Y Xj ββ=+3) 在这个选出的方程中增加新的解释变量, 再进行OLS 分析:LS Y C Xj Xi ( i= 1,2,…,j-1, j+1,…k)判断: 如果新加入的解释变量对2R 改进最大, 且每个系数又是t 统计显著,则保留这个新的解释变量。
修正多重共线性的方法
修正多重共线性的方法
修正多重共线性的方法有以下几种:
1. 增加样本量:多重共线性通常在样本量较少时更容易出现。
通过增加样本量,可以减少多重共线性的问题。
2. 将相关性较高的变量进行合并或删除:通过合并相关性较高的变量,可以在一定程度上减少多重共线性的问题。
如果相关性非常高,可以考虑删除其中一个变量。
3. 使用正交化方法:正交化方法可以将相关性较高的变量进行正交化,从而减少它们之间的共线性。
常见的正交化方法包括主成分分析(PCA)和典型相关分析(CCA)。
4. 使用稳定的估计方法:一些稳定的估计方法,如岭回归和套索回归,可以在存在多重共线性的情况下获得更稳健的估计结果。
5. 引入先验知识或理论:通过引入先验知识或理论,可以帮助剔除冗余变量或选取更具解释性的变量,从而减少多重共线性的问题。
6. 对变量进行标准化或归一化:将变量进行标准化或归一化,可以减少多重共线性的问题。
7. 利用交互项或多项式项:通过引入交互项或多项式项,可以增加变量之间的非线性关系,从而减少多重共线性的问题。
8. 重新评估模型的目标和解释变量:重新审视模型的目标和解释变量,确保它们与研究问题相关,并且尽量避免多重共线性的问题。
上述方法可以根据具体情况选择其中一种或多种方法进行修正,以减少多重共线性对模型结果的影响。
多重共线性修正
新模型可以有效地消除存在于原模型中的多重共 线性。 一般讲,增量之间的线性关系远比总量之间的线 性关系弱得多。
△
588 587 1088 1628 1441 1651 2920 1762 1854 2960 4584 8637 12610 12294 9093
△ C(-1)
333 329 383 673 1079 769 909 1909 1196 806 1784 2806 4230 7034 7313
4、检验简单相关系数
列 出 X, K, X X 1 K 0.9883 P 1 0.9804 P 0 0.9878 P1, P0 K 0.9883 1 0.9700 0.9695 的相关系数矩阵: P1 P0 0.9804 0.9878 0.9700 0.9695 1 0.9918 0.9918 1
第一类: 第一类:删除引起共线性解释变量
找出引起多重共线性的解释变量,将 它排除出去,是最为有效的克服多重共线 性问题的方法。 这类方法以逐步回归法为代表,得到 了最广泛的应用。
逐步回归法:
具体步骤 1)先用被解释变量对每一个所考虑的解 释变量做简单回归; 2)以对被解释变量贡献最大的解释变量 所对应的回归方程为基础; 3)逐个引入其余的解释变量。 好处 将统计上不显著的解释变量剔除,最后 保留在模型中的解释变量之间多重共线性不明 显,而且对被解释变量有较好的解释贡献。
减少参数估计量的方法多重共线性的主要后果是参数估计量具有较大的方差所以采取适当方法减小参数估计量的方差虽然没有消除模型中的多重共线性但确能消除多重共线性造成的后果
第8章多重共线性
Hale Waihona Puke 8.2 产生多重共线性的原因
1.经济变量之间具有共同变化的趋势
在多元线性回归模型中往往会产生多重共线性,一般来说由时间序列数据构造的模 型可能性大,其原因可以归纳为以下几个方面: 1.经济变量之间具有共同变化的趋势 经济运行的特点之一就是经济变量在一定时期表现出共同的变化趋势。在例8-1的 解释变量中,国内生产总值、税收总收入、工业增加值的共同的变化趋势非常明显, 我们可以绘制变量的线图来观察其变化,如图8-1所示。
46526.68 61110.96 16.80061 17.09617 16.90747 1.776700
8.1 多重共线性的含义
通过估计结果我们发现,X1、X3、X6的系数为负,说明X1、X3、X6与Y之间是反 向关系,这个结果与我们事先的预计不相符。 此外我们还发现,虽然模型可以通过F检验,说明模型在整体上是可靠的,但在进 行t检验时, 只有X2通过,说明其他变量没有对Y显著的做出解释。 造成这种矛盾结果的原因是模型中存在多重共线性。造成这种矛盾结果的原因是模 型中存在多重共线性。 什么是多重共线性呢?回忆第5章中对多元线性回归模型的古典假定中的无多重共 线性假定:诸X之间不存在线性相关性;用矩阵表示为: Rank(X) k 1 ,即矩 阵X满秩。 而例8-1中的模型中很可能没有满足这个假定,即诸X之间存在线性相关性,即存
在不全为0的 i(i=0,1,2,…k),使得下式成立:
1 X1i 2 X 2i ... k X ki 0
多重共线性的解决之法
第七章 多重共线性教学目的及要求:1、重点理解多重共线性在经济现象中的表现及产生的原因和后果2、掌握检验和处理多重共线性问题的方法3、学会灵活运用Eviews 软件解决多重共线性的实际问题。
第一节 多重共线性的产生及后果一、多重共线性的含义1、含义在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X 1,X 2,……,X k 中的任何一个都不能是其他解释变量的线性组合。
如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。
多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。
2、类型多重共线性包含完全多重共线性和不完全多重共线性两种类型。
(1)完全多重共线性完全多重共线性是指线性回归模型中至少有一个解释变量可以被其他解释变量线性表示,存在严格的线性关系。
如对于多元线性回归模型i ki k i i i X X X Y μββββ+++++= 22110 (7-1)存在不全为零的数k λλλ,,,21 ,使得下式成立:0X X X 2211=+++ki k i i λλλ (7-2)则可以说解释变量k X ,,X ,X 21 之间存在完全的线性相关关系,即存在完全多重共线性。
从矩阵形式来看,就是0'=X X , 即1)(-<k X rank ,观测值矩阵是降秩的,表明在向量X中至少有一个列向量可以由其他列向量线性表示。
(2)不完全多重共线性不完全多重共线性是指线性回归模型中解释变量间存在不严格的线性关系,即近似线性关系。
如对于多元线性回归模型(7-1)存在不全为零的数k λλλ,,,21 ,使得下式成立:0X X X 2211=++++i ki k i i u λλλ (7-3)其中i u 为随机误差项,则可以说解释变量k X ,,X ,X 21 之间存在不完全多重共线性。
对多重共线性的分析及其补救措施
摘
要 : 重 共 线 性 通 常 指 不 完全 多 重共 线性 。 当 两个 或 多 个 自变量 之 间 具 有 很 强 的 ( 不 是 完 全 的 ) 性 函数 关 系 , 多 但 线 并
且 这 种 线 性 关 系 已经 显 著 地 影 响 方 程 的估 计 时 , 可 能会 产 生 严 重 的 后 果 。 本 文 对 多 重共 线性 进 行 了较 为 深 入 的 分 析 , 提 就 并 出 了相 应 的补 救 措 施 。
关键词 : 多重 共 线 性 ; 分析 : 救 措 施 补 中 图分 类 号 : 5 . O1 1 2 文 献 标识 码 : A 文章 编 号 : 0 4 8 9 ( 0 8 0 _ 1 1 o 1 0 — 4 9 2 0 )3 o 7 _ 3
一
、
预备知识
果存在严重的多重共线性, 那么样本计算的 估计值就会产生 偏差, 共线性将会产生一定的 多重 后果。
显 著地影响了变量系数的估计。 ( 估计量的方差和标准误差会增大。这是多重共线性 二) 完全的多重共线性是很少见的, 也是很容易避免的, 我们 最主要的后果。 由于两个或多于两个解释变量显著相关, 我们 在使用“ 多重共线性” 一词的时候 , 其通常的含义是指不完全 很难精确地识别多重共线性变量的各 自 影响。当很难区分两 多重共线性。 个变量的影响时, 就可能导致 B的 估计误差比没有多重共线
计系数t 计值, 的统 其原因 在于t 统计量的表达式为:
t- k
们就认为存在潜在的多重共线性问题。 需要注意的是, 如果解
释变量多于两个,用简单相关系数作为多重共线严重程度的
指标就会有很大的局限性。如果多重共线性是由一组解释变 S( E 量共同导 致的, 很可能没有一个简 单相关系数足 够高, 表明 以 上式中. 分母是估计系数的标准差, 多重共线性增加了估 多重共线性实际上是严重的。 因此, 简单相关系数必须被看作 计系数的标准差 , 如果标准差增加,统计值必然减小。 t 检验多重共线性的充分而不是必要条件。 (1 四 估计量对模型 设定的 变化非 常敏感。当存 在显著的 ( 存在较高的方差膨胀因子。 二) 方差膨胀因子(I) VF是一 多重共线性时. 增加或删除某个解释变量 , 或者某些观测值的 个反映多重共线性在多大程度上增大估计系数方差的指标。 增加或减少, 通常会导致B 值有较大的变化。 如果你剔除一个 方程中每个解释变量都有一个 VF一个高的VF I, I表明, 多重 变量, 即使是一个不显著的变量, 有时也会导致方程中剩余变 共线性在相当大的程度上增大了估计系数的方差,因而得到 量的系数有较大的变化。之所以会有这种较大的变化,原因 个更低的t 统计量。
多重共线性问题的几种解决方法【最新】
多重共线性问题的几种解决方法在多元线性回归模型经典假设中,其重要假定之一是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X1,X2,……,X k中的任何一个都不能是其他解释变量的线性组合。
如果违背这一假定,即线性回归模型中某一个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。
多重共线性违背了解释变量间不相关的古典假设,将给普通最小二乘法带来严重后果。
这里,我们总结了8个处理多重共线性问题的可用方法,大家在遇到多重共线性问题时可作参考:1、保留重要解释变量,去掉次要或可替代解释变量2、用相对数变量替代绝对数变量3、差分法4、逐步回归分析5、主成份分析6、偏最小二乘回归7、岭回归8、增加样本容量这次我们主要研究逐步回归分析方法是如何处理多重共线性问题的。
逐步回归分析方法的基本思想是通过相关系数r、拟合优度R2和标准误差三个方面综合判断一系列回归方程的优劣,从而得到最优回归方程。
具体方法分为两步:第一步,先将被解释变量y对每个解释变量作简单回归:对每一个回归方程进行统计检验分析(相关系数r、拟合优度R2和标准误差),并结合经济理论分析选出最优回归方程,也称为基本回归方程。
第二步,将其他解释变量逐一引入到基本回归方程中,建立一系列回归方程,根据每个新加的解释变量的标准差和复相关系数来考察其对每个回归系数的影响,一般根据如下标准进行分类判别:1.如果新引进的解释变量使R2得到提高,而其他参数回归系数在统计上和经济理论上仍然合理,则认为这个新引入的变量对回归模型是有利的,可以作为解释变量予以保留。
2.如果新引进的解释变量对R2改进不明显,对其他回归系数也没有多大影响,则不必保留在回归模型中。
3.如果新引进的解释变量不仅改变了R2,而且对其他回归系数的数值或符号具有明显影响,则认为该解释变量为不利变量,引进后会使回归模型出现多重共线性问题。
不利变量未必是多余的,如果它可能对被解释变量是不可缺少的,则不能简单舍弃,而是应研究改善模型的形式,寻找更符合实际的模型,重新进行估计。
第八章-多重共线性PPT学习教案
第3页/共16页
X 3i 300 2 X 2i R2 ( r 2 ) 1.00
(3)
如果做X3对X2回归,得到如下结果:
结果显示,收入变量和价格变量完全线性相关,即完全共线性。如果把方程 (3)代入方程(1)中Yi, 得A1到 :A2 X 2i A3 (300 2 X 2i ) ui
( A1 300 A3 ) ( A2 2 A3 ) X 2i ui
这种方法的实施很可能使我们面临模型设定错误与多重共线性的两难境地。 例子可见书p275页。
2.获取额外的数据或新的样本
首先,既然多重共线性是一个样本特征,那么在包括同样变量的另一个样本中,共线性也许不像
第一个那么高。
其次,根据三变va量r(回b3归) 模 型的x系32i(数12方R差22的) 计算公式,例如:
4.R2值很高,但t值并不都是统计显著的。 5.OLS估计量及其标准误对数据的微小变化非常敏感 6.回归系数符号有误 7.难以评估各个解释变量对回归平方和(ESS)或者R2的贡献。
例子:如果仅用工资拟合需求Y,可知R2为0.94(拟合方程见书p271);如果仅用价格拟合需 求Y,可知R2为0.9757;而如果用价格和工资一起拟合需求Y,可知R2为0.9778。
C1 C2 X 2i ui
(4)
从方程(4)可以看出,这并不是多元回归,而是Y对X2的一元回归。虽然可以估计 出C1和C2的值,但根据这些变量却无法求的原始参数A1,A2,和A3的估计值。 利用表1数据对方程4回归得到如下结果:
第4页/共16页
Yˆt 49.667 2.1576 X 2i se (0.746) (0.1203)
2
VIF
x22i
2
x32i VIF
多重共线性问题的定义和影响多重共线性问题的检验和解决方法
多重共线性问题的定义和影响多重共线性问题的检验和解决方法多重共线性问题的定义和影响,多重共线性问题的检验和解决方法多重共线性问题是指在统计分析中,使用多个解释变量来预测一个响应变量时,这些解释变量之间存在高度相关性的情况。
共线性是指两个或多个自变量之间存在线性相关性,而多重共线性则是指两个或多个自变量之间存在高度的线性相关性。
多重共线性问题会给数据分析带来一系列影响。
首先,多重共线性会导致统计分析不准确。
在回归分析中,多重共线性会降低解释变量的显著性和稳定性,使得回归系数估计的标准误差变大,从而降低模型的准确性。
其次,多重共线性会使得解释变量的效果被混淆。
如果多个解释变量之间存在高度的线性相关性,那么无法确定每个解释变量对响应变量的独立贡献,从而使得解释变量之间的效果被混淆。
此外,多重共线性还会导致解释变量的解释力度下降。
当解释变量之间存在高度的线性相关性时,其中一个解释变量的变化可以通过其他相关的解释变量来解释,从而降低了该解释变量对响应变量的独立解释力度。
为了检验和解决多重共线性问题,有几种方法可以采用。
首先,可以通过方差膨胀因子(VIF)来判断解释变量之间的相关性。
VIF是用来度量解释变量之间线性相关性强度的指标,其计算公式为:VIFi = 1 / (1 - R2i)其中,VIFi代表第i个解释变量的方差膨胀因子,R2i代表模型中除去第i个解释变量后,其他解释变量对第i个解释变量的线性回归拟合优度。
根据VIF的大小,可以判断解释变量之间是否存在多重共线性。
通常来说,如果某个解释变量的VIF大于10或15,那么可以认为该解释变量与其他解释变量存在显著的多重共线性问题。
其次,可以通过主成分分析(PCA)来降低多重共线性的影响。
PCA是一种降维技术,可以将高维的解释变量压缩成低维的主成分,从而减少解释变量之间的相关性。
通过PCA,可以得到一组新的解释变量,这些新的解释变量之间无相关性,并且能够保留原始解释变量的主要信息。
多重共线性和非线性回归及解决方法
多重共线性和非线性回归的问题(1)多重共线性问题我们都知道在进行多元回归的时候,特别是进行经济上指标回归的时候,很多变量存在共同趋势相关性,让我们得不到希望的回归模型。
这里经常用到的有三种方法,而不同的方法有不同的目的,我们分别来看看:第一个,是最熟悉也是最方便的——逐步回归法。
逐步回归法是根据自变量与因变量相关性的大小,将自变量一个一个选入方法中,并且每选入一个自变量都进行一次检验。
最终留在模型里的自变量是对因变量有最大显著性的,而剔除的自变量是与因变量无显著线性相关性的,以及与其他自变量存在共线性的。
用逐步回归法做的多元回归分析,通常自变量不宜太多,一般十几个以下,而且你的数据量要是变量个数3倍以上才可以,不然做出来的回归模型误差较大。
比如说你有10个变量,数据只有15组,然后做拟合回归,得到9个自变量的系数,虽然可以得到,但是精度不高。
这个方法我们不仅可以找到对因变量影响显著的几个自变量,还可以得到一个精确的预测模型,进行预测,这个非常重要的。
而往往通过逐步回归只能得到几个自变量进入方程中,有时甚至只有一两个,令我们非常失望,这是因为自变量很多都存在共线性,被剔除了,这时可以通过第二个方法来做回归。
第二个,通过因子分析(或主成分分析)再进行回归。
这种方法用的也很多,而且可以很好的解决自变量间的多重共线性。
首先通过因子分析将几个存在共线性的自变量合为一个因子,再用因子分析得到的几个因子和因变量做回归分析,这里的因子之间没有显著的线性相关性,根本谈不上共线性的问题。
通过这种方法可以得到哪个因子对因变量存在显著的相关性,哪个因子没有显著的相关性,再从因子中的变量对因子的载荷来看,得知哪个变量对因变量的影响大小关系。
而这个方法只能得到这些信息,第一它不是得到一个精确的,可以预测的回归模型;第二这种方法不知道有显著影响的因子中每个变量是不是都对因变量有显著的影响,比如说因子分析得到三个因子,用这三个因子和因变量做回归分析,得到第一和第二个因子对因变量有显著的影响,而在第一个因子中有4个变量组成,第二个因子有3个变量组成,这里就不知道这7个变量是否都对因变量存在显著的影响;第三它不能得到每个变量对因变量准确的影响大小关系,而我们可以通过逐步回归法直观的看到自变量前面的系数大小,从而判断自变量对因变量影响的大小。
回归分析中的多重共线性问题及解决方法(八)
回归分析是统计学中的重要方法之一,它用来研究自变量与因变量之间的关系。
然而,在进行回归分析时,研究人员往往会遇到多重共线性的问题。
多重共线性是指自变量之间存在高度相关性的情况,这会导致回归系数估计不准确,甚至失去解释力。
本文将探讨回归分析中的多重共线性问题及解决方法。
1. 多重共线性问题的影响多重共线性问题会造成回归系数的估计不准确,导致参数估计的标准误较大,t统计量较小,从而影响回归模型的显著性检验。
此外,多重共线性还会导致回归系数的符号与理论预期相悖,使得模型的解释能力大大减弱。
2. 多重共线性问题的诊断为了解决回归分析中的多重共线性问题,首先需要进行诊断。
常用的诊断方法包括:方差膨胀因子(VIF)、特征根分析、条件数等。
其中,VIF是应用最为广泛的一种方法,它通过计算自变量之间的相关系数来判断是否存在多重共线性问题。
一般来说,如果自变量之间的相关系数较高(大于),则可以认为存在多重共线性问题。
3. 解决多重共线性的方法一旦发现回归分析中存在多重共线性问题,就需要采取相应的解决方法。
常用的解决方法包括:删除相关性较高的自变量、合并相关自变量、使用主成分回归等。
其中,删除相关自变量是最为直接的方法,但需要谨慎选择,以免丢失重要信息。
合并相关自变量则是将相关自变量进行线性组合,从而减少共线性的影响。
主成分回归则是通过将相关自变量进行主成分提取,来解决多重共线性问题。
这些方法各有优劣,需要根据具体情况来选择合适的方法。
4. 实例分析为了更好地理解多重共线性问题及解决方法,我们可以通过一个实例来进行分析。
假设我们要研究一个人的身高与体重之间的关系,我们选择了身高、体重和BMI指数作为自变量,而体脂率作为因变量。
通过回归分析,我们发现身高、体重和BMI指数之间存在较高的相关性,从而导致回归系数的估计不准确。
为了解决这一问题,我们可以采取合并相关自变量或主成分回归的方法,从而得到更为准确的回归系数估计。
第八章 多重共线性
对于饰品的需求模型: 对于饰品的需求模型:
Yi = A1 + A2 X 2 i + A3 X 3 i + ui
(8-1)
利用表8-1中的数据对上面的回归模型进行估计 利用表8 时,计算机“拒绝”估计模型。 计算机“拒绝”估计模型。
作价格变量( 与收入变量( 的关系图: 作价格变量(X2)与收入变量(X3)的关系图: 与收入变量 的关系图
回归结果表明,价格和工资高度相关,相关系数为回归结果表明,价格和工资高度相关,相关系数为0.988。近似完全线性关系。 0.988。近似完全线性关系。
§8.3 多重共线性的理论后果
①在高度多重共线性的情形下,OLS估计量仍是最优线性无 在高度多重共线性的情形下,OLS估计量仍是最优线性无 偏估计量。但要注意,最小方差性(相对估计方法而言) 偏估计量。但要注意,最小方差性(相对估计方法而言)并不 OLS估计量的方差会较小 估计量的方差会较小。 意味着对于任何给定的样本 OLS估计量的方差会较小。 ②即使在总体上各个解释变量之间不存在线性相关关系,但 即使在总体上各个解释变量之间不存在线性相关关系, 却可能在具体获得的样本中存在线性相关关系, 却可能在具体获得的样本中存在线性相关关系,即多重共线 性本质上来说是一个样本(回归)现象。 性本质上来说是一个样本(回归)现象。
(8-15)
鸡肉需求函数[方程( 鸡肉需求函数 方程(8-15)]的共线性诊断 方程 ) 的共线性诊断 1.相关矩阵 相关矩阵
2.从属或辅助回归: 从属或辅助回归:
做每个变量对其他变量的回归,并计算相应的 做每个变量对其他变量的回归,并计算相应的R2值。其中 的每一个回归都被称为是从属或者辅助回归。 的每一个回归都被称为是从属或者辅助回归。 如果某个解释变量不是其他变量的线性组合,则该回归方 如果某个解释变量不是其他变量的线性组合, 程的R 显著为零。通过下面的F统计量检验判定系数否显著为 程的 i2显著为零。通过下面的 统计量检验判定系数否显著为 零,从而判断解释变量之间是否存在多重共线性关系。 从而判断解释变量之间是否存在多重共线性关系。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
( X ' X kI ) X ' Y
1
^
Y 0 1 X1 2 X 2 3 X 3 4 X 4 5 X 5 6 X 6
共线性
Ridge Regression Syntax
岭回归程序路径
INCLUDE 'C:\Users\Administrator\Desktop\Ridge regression.sps'. ridgereg enter=x1 x2 x3 x4 x5 解释变量 被解释变量 /dep=y /inc=0.01.
统计方法
Y 0 1Z1 2 Z2
因子分析
岭回归
岭回归是一种专门用于共线性数据分析的有偏估计 回归方法,它实际上是一种改良的最小二乘法,以放
弃最小二乘的无偏性,损失部分信息,放弃部分精确
度为代价来寻求效果稍差但更符合实际的回归方程。
^
( X ' X ) X 'Y
1
事实上,并没有度量多重共线性的单一方法,这是因为对 于非实验数据,无法确定共线性的性质和程度。
判断存在多重共线性的经验法则:
典型特征
1.R2较高但解释变量t值统计显著的不多;
2.解释变量两两高度相关;
3.检查偏相关系数; 4.方差膨胀因子; 5.条件指数; 6.从属回归或辅助回归。
超过0.8
多解释变量
产生影响。同样地,被解释变量当前的变化也可能受其 自身过去水平的影响,这种被解释变量受到自身或另一 种解释变量的前几期值影响的现象称为滞后效应。
(2)滞后变量模型 以滞后变量作为解释变量的模型即为滞后变量模型。
Yt 0 1Yt 1 2Yt 2 qYt q 0 X t 1 X t 1 s X t s t
都趋于增长或下降。 (2)截面数据 以企业生产函数为例: Y 2. 滞后变量的引入
AK L e
以相对收入假设为例:Ct
3. 样本资料的限制
0 1Yt 2Ct 1 t
在现有数据条件下,特定样本可能存在某种程度的多重共线性。
三、多重共线性的后果
理论后果
只要共线性是不完全的,OLS估计量仍是最优线性无偏估计
分——或许是省略了一些重要变量,或许没有选择正
确的函数形式。
4.参数的先验信息
有些时候,对某一个特定现象需要反复调查,根据先
验研究可以了解有关参数的某些信息,而这些信息适用于 当前样本。
C 0 1 X 2Y 0 1 X 0.75Y C 0.75Y 0 1 X
学习能力
物理水平
语文水平
Y 0 1 X1 2 X 2 3 X 3 4 X 4 5 X 5 6 X 6
数学水平 化学水平 历史水平
政治水平
Z1 a1 X1 a2 X 2 a3 X 3 Z2 b1 X 4 b2 X 5 b3 X 6
估计即可; 3.在众多降低多重共线性的方法中,提倡岭回归或增加样本量或
选取新的样本的方法,不提倡使用主成分分析(逐步回归)等统计方
法,因为这些方法违背了计量经济学模型总体回归模型设定原则。
滞后变量及其模型
1. 滞后变量 某些经济变量不仅受到同期各种因素的影响,而且也 受到过去某些时期的各种因素,甚至自身的过去值影响。
2 j
Y 0 1 X1 2 X 2 3 X 3 4 X 4 5 X 5 6 X 6
变量
X1
R2
0.90
F值
79.20
F 显著性
是***
X2
X3
0.18
0.36
1.93
4.95
否
是***
X4
X5 X6
0.86
0.09 0.24
54.06
0.87 2.78
是***
否 是**
多重共线性必定不好吗?
1.如果样本中两变量存在共线性,那么对于预测来 说是一件好事! 2.如果研究的目的不仅仅是预测,而且还要可靠地 估计出模型的参数,则严重的共线性是一件“坏事”!
五、多重共线性的补救措施
1.从模型中删掉一个变量
如果多重共线性问题很严重,最简单的解决办法就 是删掉一个或多个共线性变量。 模型设定错误:或许比“疾病”本身更糟糕! 建议不要仅仅因为共线性很严重就从一个经济意义 上可行的模型中删除变量!
7.难以评估各个解释变量对回归平方和或者R2的贡献。
四、多重共线性的诊断
如何诊断多重共线性及其严重程度?
1.多重共线性是一个程度问题而不是存在与否问题;
2.多重共线性针对的是确定性解释变量,因而它是
一个样本特征,而不是总体特征。 鉴于此,我们不是要做“多重共线性的检验”, 而是要度量样本多重共线性的程度。
实际后果
2.置信区间变宽;
2. 近似花线性下参数估计量方差增大
1.OLS估计量的方差和标准误较大;
3.t 值不显著;
3. 参数估计量经济含义不合理
4.R2值较高,但 t 值并不都是统计显著的; 5.OLS估计量及其标准误对数据的微小变化非常敏感,即它们很 不稳定; 6.回归系数符号有误;
4. 变量显著性和模型的预测失去意义
(4)参数的先验信息;
(5)变量变换; (6)差分法等。
2. 主成分分析法 3. 岭回归
主成分分析法
主成分分析的目的就是通过线性变换,将原来的多 个指标组合成相互独立的少数几个能充分反映总体信息 的指标。
其用途就是利用主成分分析提取出主要信息,然
后使用提取出的主成分代替原变量进行分析,就可以避
免原变量的共线性问题。
2.获取额外的数据或新的样本
既然多重共线性是一个样本特征,那么在包括同样 变量的另一个样本中,共线性也许并不太高。
) var( k
x (1 R )
2 k 2
2
方差膨胀:减小参数估计量的方差
关键问题是能否得到另一个样本,毕竟收入数据的成 本或许很高。
3.重新考虑模型
有些时候,用于实证分析的模型考虑得并不充
直觉上这的确是一个好方法,其缺陷在于外生的或先
验的信息并不总是可获得的。
5.变量变换
有些时候,通过对模型中的变量进行变换也能够降低 共线性程度。
名义进口 名义收入
Y 0 1GNP 2 P Y GNP 0 1 P P
实际进口 实际收入
6.差分法
Yi 1X i1 2 X i 2 k X ik i i1
量,即使多元回归方程的一个或多个偏回归系数是统计不显著的。
1.在近似共线性的情形下,OLS估计仍是无偏的; 2.近似共线性并未破坏OLS估计量的最小方差性;
3.即使在总体回归方程中变量X之间不是线性相关的,但在
某个样本中,X变量之间可能线性相关。
多重共线性本质上是一个样本(回归)现象。
1. 完全花线性下参数估计量不存在
分布滞后模型:仅有解释变量的当期值及其若干期的滞后值。
Yt i X t i t
i 0 s
自回归模型:解释变量仅包含X的当期值与被解释Y的滞后值。
Yt 0 1 X t iYt i t
i 1
q
c1 X i1 c2 X i 2 ck X ik vi 0
两个或多个解释变量之间近似线性相关,但不是完全共
线性,这就是近似、或这完全、或高度多重共线性。
二、多重共线性产生的原因
1. 经济变量相关的共同趋势 (1)时间序列数据
经济繁荣期或衰退期,各基本经济变量,如收入、消费、投资等,
通常把这种过去时期的具有滞后作用的变量叫做滞后
变量(Lagged Variable)。
Ct 0 1Yt 2Yt 1 3Ct 1 t
2. 滞后变量模型 (1)滞后效应 一般说来,被解释变量与解释变量的因果关系不一 定就在瞬时发生,可能存在时间的滞后,或者说解释变
量的变化可能需要经过一段时间才能完全对被解释变量
K的步长
降低多重共线性的总结
1.多重共线性是一个样本问题,任何一个样本都有多重共线性问 题,只是程度不同而已,所有降低多重共线性的方法都只是在减少这 一问题的程度; 2.多重共线性主要的灾害是增加了估计量的方差,进而带来无法 估计、解释失真、预测无效等一系列问题。所有降低多重共线性的方
法的处置原则是保证样本的多重共线性问题不至于影响到模型的计量
辅助回归(判定系数检验法)
基本原理: 使模型中每个解释变量分别以其余解释变量为解
释变量进行回归计算,并计算相应的拟合优度。如果
在某一形式中判定系数较大,则说明在该形式中作为 被解释变量的 Xj 可以用其他解释变量的线性组合代 替,即 Xj 与其他解释变量之间存在共线性。
Fj
R /k (1 R 2 j ) / ( n k 1)
一般而言,增量之间的线性关系远比总量之间的 线性关系弱一些。
多重共线性是一个样本特征,其重要“灾 害”表现在估计量的方差增大,进而引发多种 问题。 降低多重共线性程度,最主要的努力方向
是降低估计量的方差。
降低多重共线性方法:
1. 实践归纳的方法
(1)从模型中删除一个变量; (2)获取额外的数据或新的样本; (3)设计新的模型;
如果某两个或多个解释变量之间出现相关性,
则称为存在多重共线性(Multicollinearity)。
一、多重共线性的程度
完全共线性
c1 X i1 c2 X i 2 ck X ik 0
变量之间完全线性相关,即完全共线性或多重共线性。
当解释变量之间完全线性相关或完全多重共线性时,不 可能获得所有参数的唯一估计值,因而也就不能根据样本进 行任何统计推断(即假设检验)。 近似共线性