多元线性回归中多重共线问题的解决方法综述

合集下载

多元线性回归中多重共线性的处理

多元线性回归中多重共线性的处理

2
中南大学数学院统计系
多元线性回归中多重共线性的处理
摘要: 多元线性回归中,研究一个变量与多个变量之间的线性相关关系,多个变 量之间难免存在多重共线性,故利用普通最小二乘估计所得结果不理想。在消除多重 共线性问题时,本文利用方差扩大因子对多重共线性进行判别。主要使用主成分分析 和岭回归来对多重共线性问题进行了探讨。同时,结合实际经济问题,对上海市全社 会固定资产投资影响因素问题进行了完整的实证分析。 关键词:多元线性回归 最小二乘估计 多重共线性 主成分分析 岭回归
2. 多元线性回归 1
在实际的经济活动中,某一现象的变动经常受多种现象变动的影响。影响因变量 的自变量通常不是一个,而是多个,这就产生了测定多因素之间的相关关系的问题。 研究在线性相关条件下,两个和两个以上自变量对一个因变量的数量变化关系, 称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。 假定因变量 y 与 p 个自变量 x1 , x2 , 多元线性回归模型的一般形式如下:
4
中南大学数学院统计系
建立回归模型
INV 0 1 x1 2 x2 8 x8
(2)
用 SPSS 软件计算出回归系数见输出结果
表格 2 回归系数表
模型 非标准化系数 B 1(常量) 国有经济 集体经济 股份制经济 港澳台、外商投资 地区生产总值 社会存量 财政收入 财政支出 a. 因变量: 社会固定资产投资 108.828 .838 2.035 1.296 1.372 -.122 -.169 .674 .529 标准 误差 170.655 .204 .967 .330 .272 .097 .160 .402 .328 .365 .080 .385 .239 -.394 -.218 .400 .353 标准系数 试用版 t .638 4.108 2.104 3.928 5.042 -1.263 -1.056 1.676 1.612 Sig. .541 .003 .069 .004 .001 .242 .322 .132 .146 .020 .107 .016 .070 .002 .004 .003 .003 50.075 9.306 61.097 14.289 619.414 271.710 362.377 304.770 共线性统计量 容差 VIF

回归模型中多重共线性的情形及其处理

回归模型中多重共线性的情形及其处理

丫= 1+ 8人-4人+ 3为=1 + 8人-(3X2+ 2)+ 3为=7+ 8人-9%

(1.5)

在(1.4)中,X2的系数为12,表示丫与为成正比例关系,即正相关;而在(1.5)中,X2的系数为-9,表示丫与X?成负比例关系,即负相关。如此看来,同一个方程丫= 1+ 4片+ 3X2变换出的两个等价方程,由于不同的因式分解和替换,导致两个方程两种表面上矛盾的结果。

实际上,根据X1 = 3为+ 2式中的X1与为的共线性,X1约相当于3X2, 在(1.4)减少了3人,即需要用9个X2来补偿;而在(1.5)增加了4人, 需要用12个X2来抵消,以便保证两个方程的等价性,这样一来使得(1.5)中为的系数变为了负数。从上述分析看来,由于X i与勺的共线性,使得同一个方程有不同的表达形式,从而使得丫与为间的关系难以用系数解释。2•对多重线性关系的初步估计与识别

如果在实际应用中产生了如下情况之一,则可能是由于多重共线性的存在而造成的,需作进一步的分析诊断。

①增加(或减去)一个变量或增加(或剔除)一个观察值,回归系数发生了较大变化。

②实际经验中认为重要的自变量的回归系数检验不显著。

③回归系数的正负号与理论研究或经验相反。

④在相关矩阵中,自变量的相关系数较大。

⑤自变量回归系数可信区间范围较广等。

3•对多重共线性本质的认识

多重共线性可分为完全多重共线性和近似多重共线性(或称高度相关性),现在我们集中讨论多重共线性的本质问题。多重共线性普遍被认为是数据问题或者说是一种样本现象。我们认为,这种普遍认识不够全面,对多重共线性本质的认识,至少可从以下几方面解解。

§74消除多重共线性的方法

§74消除多重共线性的方法
例如:需求函数中的商品与其替代商品的 价格。
五、 横截面数据与时序数据并用
首先利用横截面数据估计出部分参数,再利用 时序数据估计出另外的部分参数,最后得到整 个方程参数的估计。 注意:这里包含着假设,即参数的横截面估计和 从纯粹时间序列分析中得到的估计是一样的。
六、 删除不必要的共线性解释变量
把方差扩大因子最大者所对应的自变量首先 剔除再重新建立回归方程,直至回归方程中 不再存在严重的多重共线性。 注意: 若剔除了重要变量,可能引起模型的设 定误差。
β= ˆ (λ ) ( X ' X + λ I )−1 X 'Y • 上式作为β 的岭估计,当λ=0时即为通常所说的
最小二乘估计(OLS估计)。当 λ → +∞ 时,βˆ(λ ) → 0
, 一般情况下,λ取0到1之间的数值。
• 表示在 的矩阵对角线上每个元素都加上一 个正数,就象形成一个山脊一样,用式 βˆ(λ)
t值
0.85
19.6 3.35 -3.57
Y=f(X1,X2,X3,X4) -13056 6.17 0.42 -0.17 -0.09
0.9775 1.80
t值
-0.97 9.61 3.57 -3.09 -1.55
Y=f(X1,X3,X4,X5) -12690 5.22 0.40 -0.20
0.07 0.9798 1.55

4.4 多重共线性的补救措施

4.4  多重共线性的补救措施
第四节 多重共线性的补救措施
• 如果模型出现了严重的多重共线性,就应采取 必要的措施进行补救。然而,由于经济系统的 复杂性,要将多重共线性消除干净几乎是不可 能的,只能选择合适的方法减弱多重共线性对 模型的影响。目前,常用的方法有以下几种: • 一、增加样本容量
• 在计量经济模型中,如果变量样本数据太少,很 容易产生多重共线性。在这种情况下,增加样本容量, 将有助于减弱,甚至消除多重共线性。
1
二、在模型中删除共线变量
• 找出模型中的完全线性关系,拟合优度(复相 关系数)=1 • 利用完全线性关系代入待估计模型 • 消去(删除)共线变量,从而消除多重共线关 系 • 即复相关系数=1,应考虑删除变量;反之复相 关系数远远地小于1,则应在模型中加入新的 自变量 • 为了优化模型在变量选择上:删除或加入变量
四、利用先验信息改变参数的约束形式
• 设生产函数 • Qt=A Lt αKtβ (4.4.3) • 利用对数变换将式4.4.3转换为线性模型 • ㏑Qt =㏑A + α㏑ Lt + β ㏑ Kt (4.4.4) • 但是,劳动力的增长同资本的增长随时间的变化 呈高度相关。如果已知规模报酬不变,即 α+β =1,则 式4.4.3 可变为: • Qt=ALtαKt1-α (4.4.5) • Qt/Kt=A(Lt /Kt)α (4.4.6) • 其中, Qt/Kt为资本产出率, Lt /Kt为劳动对资本的投入 率。将式4.4.6取对数,得 • ㏑( Qt/Kt ) =㏑A + α㏑( Lt /Kt ) (4.4.7) • 这时,对式 4.4.7 求参数的估计值就避免了原模型中的 6 多重共线性。

多元统计问答题

多元统计问答题

;Logistic 回归
;Cox 模型回

。8 样本含量:多重线性回归中要求样本含量至少 5-10 倍的自变量个数;Logistic 回
归和 Cox 模型回归要求至少 15-20 倍的自变量个数。
联系:1 自变量可以是连续变量、有序分类或无序分类变量,无序变量可以进行哑变量化, 哑变量在模型中是一个整体,必须同时引入模型或同时从模型中剔除。2 当自变量之间存在较 强相关关系时可能会导致共线性现象。3 自变量之间可能会存在交互作用,通常采用两个或两
系数意义是在其它变量不变条件下,变量 Xj 每增加一个单位所引起的 Y 的平均改变量;Logistic
回归中是指其他变量不变条件下,变量 Xj 每增加一个单位所引起的优势比 OR 的自然对数改变
量;Cox 模型回归中是指其他变量不变条件下,变量 Xj 每增加一个单位所引起的相对危险度 RR
的自然对数改变量。7 预测指标:多重线性回归
则说明两因素可能存在交互效应,需进一步做交互效应的假设检验进行确认。若存在交互效应,
须逐一分析各因素的单独效应;若不存在交互效应,说明两因素的作用效果相互独立,则只需
逐一分析各因素的主效应。交互作用的分析十分复杂,应根据临床意义与实际情况酌情使用。
三、多重线性回归 logistic 回归 cox 模型之间的区分和联系
七、生存分析的数据特点及统计分析分析方法 生存分析(Survival analysis)是指根据试验或调查得到的数据对生物或人的生存时间

处理多元线性回归中自变量共线性的几种方法

处理多元线性回归中自变量共线性的几种方法

文章编号:1002-1566(2000)05—0049—07

处理多元线性回归中自变量共线性的几种方法——SA S STA T软件(6.12)中R EG等过程增强功能的使用

高惠璇

(北京大学概率统计系,北京海淀区 100871)

摘 要:本文通过例子介绍多元线性回归中自变量共线性的诊断以及使用SA S SA TA(6.12)软件中的R EG等过程的增强功能处理回归变量共线性的一些方法。包括筛选变量法,岭回归分析法,

主成分回归法和偏最小二乘回归法。

关键词:回归、SA S STA T、共线性、筛选变量、岭回归、主成分回归、偏最小二乘回归。

中图分类号:0212;C8文献标识码:A

回归分析方法是处理多变量间相依关系的统计方法。它是数理统计中应用最为广泛的方法之一。在长期的大量的实际应用中人们也发现:建立回归方程后,因为自变量存在相关性,将会增加参数估计的方差,使得回归方程变得不稳定;有些自变量对因变量(指标)影响的显著性被隐蔽起来;某些回归系数的符号与实际意义不符合等等不正常的现象。这些问题的出现原因就在于自变量的共线性。本文通过例子来介绍自变量共线性的诊断方法以及使用SA S STA T 软件6.12版本中R EG等过程的增强功能处理回归变量共线性的一些方法。

一、共线性诊断

共线性问题是指拟合多元线性回归时,自变量之间存在线性关系或近似线性关系。

共线性诊断的方法是基于对自变量的观测数据构成的矩阵X′X进行分析,使用各种反映自变量间相关性的指标。共线性诊断常用统计量有方差膨胀因子V IF(或容限TOL)、条件指数和方差比例等。

自变量存在多重共线性,如何通过变量筛选来解决?

自变量存在多重共线性,如何通过变量筛选来解决?

⾃变量存在多重共线性,如何通过变量筛选来解决?

多重线性回归要求各个⾃变量之间相互独⽴,不存在多重共线性。所谓多重共线性,是指⾃变量之间存在某种相关或者⾼度相关的关系,其中某个⾃变量可以被其他⾃变量组成的线性组合来解释。

医学研究中常见的⽣理资料,如收缩压和舒张压、总胆固醇和低密度脂蛋⽩胆固醇等,这些变量之间本⾝在⼈体中就存在⼀定的关联性。

如果在构建多重线性回归模型时,把具有多重共线性的变量⼀同放在模型中进⾏拟合,就会出现⽅程估计的偏回归系数明显与常识不相符,甚⾄出现符号⽅向相反的情况,

对模型的拟合带来严重的影响。

今天我们就来讨论⼀下,如果⾃变量之间存在多重共线性,如何通过有效的变量筛选来加以解决?

⼀、多重共线性判断

回顾⼀下前期讲解多重线性回归时,介绍的判断⾃变量多重共线性的⽅法。

1. 计算⾃变量两两之间的相关系数及其对应的P值,⼀般认为相关系数>0.7,且P<0.05时可考虑⾃变量之间存在共线性,可以作为初步判断多重共线性的⼀种⽅法。

2. 共线性诊断统计量,即Tolerance(容忍度)和VIF(⽅差膨胀因⼦)。⼀般认为如果Tolerance<0.2或VIF>5(Tolerance和VIF呈倒数关系),

 则提⽰要考虑⾃变量之间存在多重共线性的问题。

⼆、多重共线性解决⽅法:变量剔除

顾名思义,当⾃变量之间存在多重共线性时,最简单的⽅法就是对共线的⾃变量进⾏⼀定的筛选,保留更为重要的变量,删除次要或可替代的变量,

从⽽减少变量之间的重复信息,避免在模型拟合时出现多重共线性的问题。

多重共线性的解决之法

多重共线性的解决之法

多重共线性的解决之法

第七章多重共线性

教学⽬的及要求:

1、重点理解多重共线性在经济现象中的表现及产⽣的原因和后果

2、掌握检验和处理多重共线性问题的⽅法

3、学会灵活运⽤Eviews 软件解决多重共线性的实际问题。

第⼀节多重共线性的产⽣及后果

⼀、多重共线性的含义

1、含义

在多元线性回归模型经典假设中,其重要假定之⼀是回归模型的解释变量之间不存在线性关系,也就是说,解释变量X 1,X 2,……,X k 中的任何⼀个都不能是其他解释变量的线性组合。如果违背这⼀假定,即线性回归模型中某⼀个解释变量与其他解释变量间存在线性关系,就称线性回归模型中存在多重共线性。多重共线性违背了解释变量间不相关的古典假设,将给普通最⼩⼆乘法带来严重后果。

2、类型

多重共线性包含完全多重共线性和不完全多重共线性两种类型。(1)完全多重共线性

完全多重共线性是指线性回归模型中⾄少有⼀个解释变量可以被其他解释变量线性表⽰,存在严格的线性关系。

如对于多元线性回归模型

i ki k i i i X X X Y µββββ+++++= 22110 (7-1)

存在不全为零的数k λλλ,,,21 ,使得下式成⽴:

X X X 2211=+++ki k i i λλλ

(7-2)

则可以说解释变量k X ,,X ,X 21 之间存在完全的线性相关关系,即存在完全多重共线性。

从矩阵形式来看,就是0'

=X X ,即1)(-

(2)不完全多重共线性

不完全多重共线性是指线性回归模型中解释变量间存在不严格的线性关系,即近似线性关系。

如对于多元线性回归模型(7-1)存在不全为零的数k λλλ,,,21 ,使得下式成⽴:

STATA-回归估计常见问题及解决方法

STATA-回归估计常见问题及解决方法

STATA 回归估计常见问题及解决方法

一、多重共线问题

//多重共线性并不会改变OLS估计量BULE的性质,但会使得对系数的估计变得不准确。

//Stata检查是否存在多重共线的方法:

estat vif

//VIF值越大说明多重共线性问题越严重。一般认为,最大的VIF不超过10,则不存在明显的多重共线性。

/*解决办法:

1.如果只关心方程的预测能力,则在整个方程显著的条件下,可以不必关心具体的回归系数。

2.增加样本容量,剔除导致多重共线性的变量或者修改模型设定形式。

3.对于时间序列样本,通过使用差分模型可以一定程度上消除原模型中的多重共线性。

4.岭回归方法。

二、序列相关问题

/*Stata检查是否存在序列相关的方法:

1.画图

在做完回归之后,先生成残差项e

scatter e L.e

2.BG检验

estat bgodfrey(默认滞后阶数为1)

3.Ljung-Box Q检验

eg: reg y x1 x2 x3

predict e,res

wntestq e

3.DW检验

estat dwatson解决办法:

1.Newey稳健性标准差

newey y x,lag(p) (滞后阶数必选)

2.可行广义最小二乘法(FGLS)

prais y x

prais y x,corc

三、异方差问题

Stata检查是否存在异方差的方法:1.看残差图【模型回归之后使用即可】rvfplot(残差与拟合值的散点图)

rvpplot(残差与解释变量的的散点图)

2.怀特(White,1980)检验【模型回归之后使用即可】

estat imtest,white(怀特检验)whitetst(外源程序,需下载)

多重共线性诊断及处理

多重共线性诊断及处理

多重共线性诊断及处理

⼀、定义

多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在较精确相关关系或⾼度相关关系⽽使模型估计失真或难以估计准确。完全共线性的情况并不多见,⼀般出现的是在⼀定程度上的共线性,即近似共线性。

⼆. ⽬前常⽤的多重共线性诊断⽅法

1.⾃变量的相关系数矩阵R诊断法:研究变量的两两相关分析,如果⾃变量间的⼆元相关系数值很⼤,则认为存在多重共线性。但⽆确定的标准判断相关系数的⼤⼩与共线性的关系。有时,相关系数值不⼤,也不能排除多重共线性的可能。

R实现:画协⽅差矩阵图

2.⽅差膨胀因⼦(the variance inflation factor,VIF)诊断法:⽅差膨胀因⼦表达式为:VIFi=1/(1-R2i)。其中Ri为⾃变量xi对其余⾃变量作回归分析的复相关系数。当VIFi很⼤时,表明⾃变量间存在多重共线性。该诊断⽅法也存在临界值不易确定的问题,在应⽤时须慎重。

判断:VIF j>10时,说明⾃变量x与其余⾃变量之间存在严重的多重共线关系,这种多重共线性可能会过度地影响最⼩⼆乘估计值

3.容忍值(Tolerance,简记为Tol)法:容忍值实际上是VIF的倒数,即Tol=1/VIF。其取值在0~1之间,Tol越接近1,说明⾃变量间的共线性越弱。在应⽤时⼀般先预先指定⼀个Tol值,容忍值⼩于指定值的变量不能进⼊⽅程,从⽽保证进⼊⽅程的变量的相关系数矩阵为⾮奇异阵,计算结果具有稳定性。但是,有的⾃变量即使通过了容忍性检验进⼊⽅程,仍可导致结果的不稳定。

多重共线性下的线性回归方法综述

多重共线性下的线性回归方法综述
如此之大 , 可知共线 性是普遍存在的。 如 果出现完全 共线性 , 即 =0 , 回归分析 中的参数
∥ 将无法确定。而对于高度共线性 , - 0时 , 即 - - - ) 参数 的侧 面反映 了解 释变量 的综合 影响 ,并 且互不相 关 , 因
尽管可 以估计 , 可能招致以下后果 : 但 多重共线性不 改变 参数估计的无偏性 ;多重 共线 性使参数的最小二乘估计 的 方差很大 , 从而使得对模 型难以取舍 ; 各个回 归系数 的 值很难精确估计 , 至可能出现符号错误 的现 象 ; 甚 回归系 数对样本数据 的微小变化可能变得 非常敏感 。 此, 可以将被解释变量关于这些 主成 分进 行回归 , 再根据
主成 分与解释变量之 间的对应关系 ,求得原 回归模 型的
估计方程 。
( ) 步 回 归分 析 三 逐
逐步 回归分析方法是综合了逐步剔除 法和逐 步引入 法的特点产 生的方法。其基本原理为 :从一个 自变 量出
二、 处理 多重共线性问题的方法
目前国 内文献中处理严重 共线性的方法常用 的有 以 下 几种 : 岭回归 ( R)主成 分回归 (C 、 R 、 P R)逐步 回归 、 最 偏 ,[ 乘法 (L )数据分组处理算i G H) 。 J PS、  ̄( MD 等
理 论 与 方 法
多重共线性 下 的 线性 回归方法 综述

多重共线性的后果四、多重共线性的检验五、克服多重共线

多重共线性的后果四、多重共线性的检验五、克服多重共线

五、克服多重共线性的方法
如果模型被检验证明存在多重共线性,则需要 发展新的方法估计模型,最常用的方法有三类。 1. 第一类方法:排除引起共线性的变量 找出引起多重共线性的解释变量,将它排除。 以逐步回归法得到最广泛的应用。 • 注意:这时,剩余解释变量参数的经济含义和 数值都发生了变化。
剔除变量与设定偏误
另一等价的检验是: 在模型中排除某一个解释变量Xj,估计模型; 如果拟合优度与包含Xj时十分接近,则说明Xj 与其它解释变量之间存在共线性。
(2)逐步回归法 以Y为被解释变量,逐个引入解释变量,构 成回归模型,进行模型估计。 根据拟合优度的变化决定新引入的变量是否 独立。 如果拟合优度变化显著,则说明新引入的变 量是一个独立解释变量; 如果拟合优度变化很不显著,则说明新引入 的变量与其它变量之间存在共线性关系。
• 面对严重多重共线性,最简单的做法之一是剔除共线 性诸变量之一,但是从模型中删除一个变量,可能导 致设定偏误或设定误差。也就是说在分析中使用了不 正确设定的模型。 • 由上面的讨论可见,从模型中除掉一个变量以缓解多 重共线性的问题会导致设定上的偏误,因此在某些情 形中,医治也许比疾病更糟糕,多重共线性虽然有碍 于对模型参数的准确估计,但是剔除变量,则对参数 的真值有严重的误导,应该记得,在近似共线性情形 下,OLS估计量仍是BLUE。
回顾6项基本假定
• (1)解释变量间不相关(无多重共线性) • (2)E(ui)=0 (随机项均值为零)

多元分析中的多重共线性及其处理方法

多元分析中的多重共线性及其处理方法
关。
学 处弹方 法 。 均 有 各 自的优 缺 点 和 适用 范 围 , 至今 仍 没有一 种通 用 的解决 方法 。本文 阐述 目前常 用 的几
种 方法 : 回归 、 岭 主成分 回归 、 逐步 回归 、 最小 二乘法 偏
Yo a a 出虽 然 回归模 型 拟合 较 好 , 由于 h nn… 指 但 共线性 的存 在 , 出现 下 列现象 : 会 某些 回归系数 通不 过 假设 检验 ; 或者 某个 白变 量与 因变量 有很 强 的相关性 , 而在 回归模 型 中该变 量 的 回归 系数却 没有 通过 假设 检 验, 导致错 误剔 除有 用 的 自变量 ; 或者 回归 系数 的符 再 号 与相关 专业相 反 导致 无 法 得 到 合理 的专 业 解 释 等 。 因此 , 重共线 性 的存在 , 多 会使 模型 与实 际相 差甚远 。

大 于 1 。
况是 在 医学研究 中普 遍存 在 的。
产 生多重 共线 性的原 因及 其影 响

般情 况 下认 为当 VF>5或 VF>1 II I I 0时 , 自变 量 问存
在严重 共线 性 , 且 值越 大 , 明变 量 间的共 线性 程 说 度越 强 。 随 后 K n e ¨ e nt 对 容 忍 值 法 即 ⅥF 的倒 数 h (O T L=1一R ) 了进 一 步 探 讨 。此 外 Se r 提 做 t t wa 出条 件数 法 ( N) F r ri 提 出基 于 d t C , ar 1 a s e 去做 某 种 检 验进 而判 断 自变 量 x 中 的列 偏 离正 交 或 共 线 性 程 度 的方 法 以及 K n a l] Sl y 提 出 的特 征值 分 析 e dl 1 和 i v l6 e 法 。综上 所述 , 虽然 诊断 多重 共线性 的算 法较 容易 , 但 是, 若想 估计 多重共 线性 对 多元 回归影 响 的严 重 程度 , 往 往需综 合运 用几 种方 法进行 判 断 。

多元回归中的多重共线性及其存在的后果

多元回归中的多重共线性及其存在的后果

多元回归中的多重共线性及其存在的后果

多重共线性,又称共线性估计,是多元统计分析中一个很重要的问题。它是指变量之间的相互依赖性,从而影响回归分析的结果。尽管回归模型中不存在多重共线性的原理非常简单,但是当被研究变量之间存在多重共线性时,会对分析结果造成极大的影响。

多重共线性会导致模型参数估计失真,并使其产生过大或者过小的残差。这会导致回归分析所得出的模型偏离实际情况,所得结果可能不可靠。此外,多重共线性也会降低模型的可解释性,因此,模型中构建的解释变量分析可能不准确。

识别多重共线性是解决多元线性回归问题的关键。首先,可以通过VIF指标(变量影响因子)来检验变量之间的共线性。该指标可以有效地发现模型中的重要自变量是否存在多重共线性。

此外,常规的因变量分析方法也可用于检验多重共线性。常用方法有共线性健全性检验(CES)、Dwyer和O'Neill等等变量共线检验方法。识别多重共线性并采取措施避免其对分析结果造成影响是多元线性回归中最重要的步骤。

多重共线性是多元线性回归中一个至关重要的问题,它可能会导致模型参数估计偏离实际情况,失真,同时还会降低模型的可解释性,所以检测多重共线性的步骤是有必要的。将多重共线性考虑进去,可以避免影响模型分析结果的不利因素,以此来提高分析结果的准确性。

多重共线性及其处理

多重共线性及其处理

第七章 多重共线性及其处理

本章主要介绍计量经济模型的计量经济检验。即多重共线性问题。

多重共线性是多元回归模型可能存在的一类现象,分为完全共线与近似共线两类。 模型的多个解释变量间出现完全共线性时,模型的参数无法估计。更多的情况则是近似共线性,这时,由于并不违背所有的基本假定,模型参数的估计仍是无偏、一致且有效的,但估计的参数的标准差往往较大,从而使得t 统计值减小,参数的显著性下降,导致某些本应存在于模型中的变量被排除,甚至出现参数正负号方面的一些混乱。

第一节 多重共线性及其产生的原因

当我们利用统计数据进行分析时,解释变量之间经常会出现高度多重共线性的情况。 举例说明。

一、多重共线性的基本概念

多重共线性(Multicollinearity )一词由弗里希(Frish )于1934年在其撰写的《借助于完全回归系统的统计合流分析》中首次提出。它的原义是指一个回归模型中的一些或全部解释变量之间存在有一种“完全”或准确的线性关系。

如果在经典回归模型Y X βε=+中,经典假定(5)遭到破坏,则有()1R X k <+,此时称解释变量k X X X ,,,21 间存在完全多重共线性。解释变量的完全多重共线性,也就是解释变量之间存在严格的线性关系,即数据矩阵X 的列向量线性相关。因此,必有一个列向量可由其余列向量线性表示。

同时还有另外一种情况,即解释变量之间虽然不存在严格的线性关系,但是却有近似的线性关系,即解释变量之间高度相关。

二、多重共线性产生的原因

多元线性回归模型产生多重共线性的原因很多,主要有:

多重共线性和非线性回归及解决方法

多重共线性和非线性回归及解决方法

多重共线性和非线性回归的问题

(1)多重共线性问题

我们都知道在进行多元回归的时候,特别是进行经济上指标回归的时候,很多变量存在共同趋势相关性,让我们得不到希望的回归模型。这里经常用到的有三种方法,而不同的方法有不同的目的,我们分别来看看:

第一个,是最熟悉也是最方便的——逐步回归法。

逐步回归法是根据自变量与因变量相关性的大小,将自变量一个一个选入方法中,并且每选入一个自变量都进行一次检验。最终留在模型里的自变量是对因变量有最大显著性的,而剔除的自变量是与因变量无显著线性相关性的,以及与其他自变量存在共线性的。用逐步回归法做的多元回归分析,通常自变量不宜太多,一般十几个以下,而且你的数据量要是变量个数3倍以上才可以,不然做出来的回归模型误差较大。比如说你有10个变量,数据只有15组,然后做拟合回归,得到9个自变量的系数,虽然可以得到,但是精度不高。这个方法我们不仅可以找到对因变量影响显著的几个自变量,还可以得到一个精确的预测模型,进行预测,这个非常重要的。而往往通过逐步回归只能得到几个自变量进入方程中,有时甚至只有一两个,令我们非常失望,这是因为自变量很多都存在共线性,被剔除了,这时可以通过第二个方法来做回归。

第二个,通过因子分析(或主成分分析)再进行回归。

这种方法用的也很多,而且可以很好的解决自变量间的多重共线性。首先通过因子分析将几个存在共线性的自变量合为一个因子,再用因子分析得到的几个因子和因变量做回归分析,这里的因子之间没有显著的线性相关性,根本谈不上共线性的问题。通过这种方法可以得到哪个因子对因变量存在显著的相关性,哪个因子没有显著的相关性,再从因子中的变量对因子的载荷来看,得知哪个变量对因变量的影响大小关系。而这个方法只能得到这些信息,第一它不是得到一个精确的,可以预测的回归模型;第二这种方法不知道有显著影响的因子中每个变量是不是都对因变量有显著的影响,比如说因子分析得到三个因子,用这三个因子和因变量做回归分析,得到第一和第二个因子对因变量有显著的影响,而在第一个因子中有4个变量组成,第二个因子有3个变量组成,这里就不知道这7个变量是否都对因变量存在显著的影响;第三它不能得到每个变量对因变量准确的影响大小关系,而我们可以通过逐步回归法直观的看到自变量前面的系数大小,从而判断自变量对因变量影响的大小。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

多元线性回归中多重共线问题的解决方法综述

摘 要

在回归分析中,当自变量之间出现多重共线性现象时,常会严重影响到参数估计,扩大模型误差,并破坏模型的稳健性,因此消除多重共线性成为回归分析中参数估计的一个重要环节。现在常用的解决多元线性回归中多重共线性的回归模型有岭回归(Ridge Regression )、主成分回归(Principal Component Regression 简记为PCR)和偏最小二乘回归(Partial Least Square Regression 简记为PLS)。

关键词:多重共线性;岭回归;主成分回归;偏最小二乘回归

引言

在多元线性回归分析中,变量的多重相关性会严重影响到参数估计,增大模型误差,并破坏模型的稳健性 由于多重共线性问题在实际应用中普遍存在,并且危害严重,因此设法消除多重性的不良影响无疑具有巨大的价值常用的解决多元线性回归中多重共线问题的回归模型主要有主成分回归岭回归以及偏最小二乘回归。

1、 多元线性回归模型

1.1 回归模型的建立

设Y 是一个可观测的随机变量,它受m 个非随机因素X 1,X 2,…,X p-1和随机因素ε的影响, 若有如下线性关系

我们对变量进行了n 次观察,得到n 组观察数据(如下),对回归系数 进行估计

一般要求n>P 。于是回归关系可写为

采用矩阵形式来表示

0112211p p Y X X X ββββε--=+++++n i X X X Y p i i i i ,,1,,,,)1(2,1⋅⋅⋅=⋅⋅⋅-1011121211(1)1

2012122212(1)2

011221(1)p p p p n n n p n p n Y X X X Y X X X Y X X X ββββεββββεββββε------=+++++⎧⎪=+++++⎪⎨

⎪=+++++⎩11121,(1)121222,(1)212,(1)111, 1 p p n n n n p n n p

X X X Y X X X Y Y X Y X X X ---⨯⨯⎡⎤⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦)1(10,,,p -⋅⋅⋅βββ

Y 称为观测向量,X 称为设计矩阵,ε称为误差向量,β称为回归参数。

则误差的平方和

求参数β的估计

使得

用最小二乘法估计

得正规方程:

由于X 为列满秩,所以 X TX 可逆,由此解得

1.2 多重共线性的产生

当 时,表明在数据矩阵X中,至少有一个列向量可以用其余的列向量线性表示,则说明存在完全的多重共线性。

即()1

0-=X X X X T T ,不存在,而Y X X X T T 1ˆ-=)(β

导致β无法估计。 1.3多重共线性的产生的原因

(1)经济变量之间往往存在同方向的变化趋势。当他们被引入同一个模型成为解释变量时,会出现多重共线性。

(2)模型中包含滞后变量,变量各期值之间有可能高度相关。 (3)利用截面数据建立模型也可能出现多重共线性。

(4)经济变量之间往往存在着密切的内在关联度,要素之间互相制约,互相依存。

(5)样本数据自身的原因,数据收集的范围过窄,造成某些解释变量之间似乎有相同或相反变化趋势的假象。

(6)在建模过程中由于解释变量选择不当,引起变量之间的多重共线性。

2 处理多重共线性的方法

2. 1处理多重共线性的经验式方法

0112111

, p n n p βεβεβεβε-⨯⨯⎡⎤⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦βββββββεβX T X T X T Y Y T X T Y T Y X Y T X Y X Y s +--=--=-==)()(2)(2)ˆ,,ˆ,ˆ(ˆ)1(10p -⋅⋅⋅=ββββ

)(min )ˆ(ββ

S S =02)2()2()]()[()(=+-=+-∂∂=+-∂∂

=--∂∂=∂∂βββββββββ

βββββX X X Y X X X Y X X X Y Y Y X Y X Y T T T T T T T T T T s

Y

X X X T T =β)(Y X X X T T 1)(ˆ-=βP X Rank <)(

2. 1.1 删除不重要的共线性变量

最常见的一种思路是设法去掉不太重要的共线性变量。有些应用人员认为,可以采用多元回归分析中的向前选择变量、向后删除变量法或逐步回归法来进行变量的筛选。然而,在理论上,这些变量筛选方法都是针对无共线性的数据而言的。在多重共线性十分严重的情况下,结论的可靠性都要受到一定的影响。由于变量间多重共线性的形式十分复杂,而且还缺乏十分可靠的检验方法,所以,删除部分多重共线性变量的做法常导致增大模型的解释误差,将本应保留的系统信息舍弃,使得接受一个错误结论的可能和做出错误决策的风险都不断增大。 另外,在一些模型中,从理论上要求一些重要的解释变量必须被包括在模型中,而这些变量又存在多重共线性。这时采用删除部分共线性变量的做法就不符合实际工作的要求。 2.1.2 增加样本容量

增加样本的容量在某种程度上会减轻多重共线性对模型估计的影响,而且对某些样本数据来说,变量间的多重共线性可能正是由于样本容量过小而造成的。然而,在实际工作中,由于时间、经费以及客观条件的限制,增大样本容量的方法常常是不可行的。 2.1.3 变量转换的方式

在少数情况下,当基于理论背景认为所有的变量都极其重要,但相互之间存在严重的多重共线性时,对方程的变量进行变换有时至少能在一定程度上消除共线性。两种最常用的变换方法为:

(1) 构造一个多重共线性变量的组合。此方法就是构造一个新的变量,这一新变量是多重共线性变量的函数,进而以这一新变量来替代回归方程中的具有多重共线性的那些旧变量。但要注意的是,只有当新变量本身有意义时,才可以考虑采用组合变量这一方法。

(2) 把方程的函数形式转换为一阶差分形式。若把一个方程(或一个方程中的几个变量)从它的常规设定形式转换为一阶差分的设定形式,就很有可能会大大降低多重共线性的程度。由于一阶差分方法损失了一个观测值(即样本数据少了一个),这在小样本的情况下是极不可取的。

2.2岭回归

根据高斯-马尔科夫定理,在线性回归模型的基本假设满足时,用最小二乘法得到的回归系数估计量是无偏的且具有最小方差。可以证明,即使在高度多重相关的情况下,最小二乘法的回归系数估计量依然是线性无偏的,且具有最小方差。也就是说,多重共线性并不影响最小二乘估计量的无偏性和最小方差性。因此在所有的线性无偏估计中,最小二乘估计仍具有比较小的方差,这并不意味着最小二乘估计量的方差一定是最小的,因为,虽然它在所有的线性无偏估计量中是方差较小,但是这个方差却不一定小。

于是就启发我们,是否可以找到某一个有偏估计,这个有偏估计虽然有微小的偏差,但它的精度却能够大大高于无偏的估计量。在许多情况下,我们更愿意选用这个估计量,因为它接近真实参数值的可能性更大。岭回归就是一种基于放弃回归系数一般最小二乘估计的无偏估计性要求的方法。

基本思想:当出现多重共线性时,0≈X X T

,从而使参数的 Y X X X T

T

1

)(-=β很不稳

定,出现不符合含义的估计值,给X X T

加上一个正常数矩阵0)>(K I K ,则 I

+K X X T

等于0的可能性就比X X T 的可能性要小得多,再用Y X X X T T 1ˆ-=)(β

来估计, 比用普通最

相关文档
最新文档