多重共线性问题
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多重共线性实例3
定义变量名如下: Y: 中国私人轿车拥有量(万辆); X1:城镇居民家庭人均可支配收入(元) X2:全国城镇人口(亿人); X3:全国汽车产量(万辆); X4:全国公路长度(万公里)。
多重共线性实例3-散点图
多重共线性实例3-回归系数
多重共线性实例3-方差分析
案例分析数据
多重共线性操作与分析过程
严重的多重共线性:方差扩大因子与容忍度
条件数判断有严重的多重共线性
多重共线性分析
说明x9与x11存在多重共线性;x1,x3,x8,x10之间存 在多重共线性;x5与x6之间存在多重共线性。
方差扩大因子法
记R 1中的对角元为r jj , j 1,2, , p, 称为方差扩大因子。若记x j 与其他p 1个变量的
职工平均工资 农民平均收入 银行利率 消费者物价指数(Consumer Price Index) 国债利率 货币发行量(商品流通中所需的实际货币量 = 商品价格总额 / 商品流通次数 ) 储蓄额 前期消费额等
自变量的相关性产生的原因
在研究社会,经济问题时,因为问题本身 的复杂性,涉及的因素很多。在建立回归 模型时,由于研究者认识水平的局限性, 很难在众多因素中找到一组互不相关又对 因变量y有显著影响的变量。 自变量有较强相关性时,会给回归模型的 参数带来什么后果?
轿车拥有量y与人均可支配收入x1散点图
轿车拥有量y与全国城镇人口x2散点图
轿车拥有量y与全国汽车产量x3散点图
轿车拥有量y与全国公路长度x4散点图
多重共线性实例3-相关性分析
从上述图像可以看到,y与x1,x2呈非线性关系, 与x3,x4 近似呈线性关系。 x1,x2,x3和x4的相关系数矩阵如下 0.983 0.9585 0.9296 1 0.983 1 0.963 0 .959 R 0.9585 0.963 1 0.955 0 . 9296 0 .959 0 .955 1 x1,x2,x3 , x4两两之间的相关系数都超过0.9,说明 xi 与x j , i, j 1,2,3,4基本线性相关,x1,x2,x3 , x4之间 存在着多重共线性关系。
方差扩大因子法
对自变量作中心标准化,则XX (rij )为自变量的 相关距阵,记
-1 R =(X X ) (cij ) 1
称该距阵对角线的元素VIFj c jj为自变量x j的方差 扩大因子。 ˆ )=L c 2 , j 1, 2, 可以证明:var( j jj jj 1 c jj c jj VIFj 1 2 1 Rj , p,
多重共线性的诊断方法
• • •
•
方差扩大因子法; 特征根判定法; 条件数判定法; 直观判定法。
特征根判定法
假设X呈病态,则R X X至少有一个特征根接近于0。 不妨设后p r个特征根 r 1, r 2 , , p 0. 记l r 1,l r 2 ,,l p 为与他们对应的单位化的相互正交的 特征向量,则 Xli 0, i r 1,, p 令li (l 1i ,l 2i ,l pi ), 则有 l 1i X l 2i X l pi X 0, i r 1,, p
多重共线性的定义
当设计矩阵X 的列向量间具有近似的线性 关系时,即存在不全为0的常数c0 , c1,c2, , c p 使得 c0 c1 x1 c2 x2 1 x11 1 x 21 X= 1 xn1 cp xp 0 x1 p x2 p xnp
方差扩大因子法
R2 j 度量了Xj与其余p-1个变量的线性相关的程度。
2 R2 越大, VIF 越大; R j j j 越小,VIF j 越小并且越接
近于1。当Xj与其余p-1个变量的线性相关的程度 为0时,即R 2 1。经验表明VIFj 10时, j =0时VIF j= 说明Xj与其余wenku.baidu.com-1个变量之间有严重的多重共线性。
多重共线性实例3
1985-2002年中国私人轿车拥有量以年 增长量23%,年均增长55万辆的速度飞 速增长。 考虑到目前农村家庭购买私人轿车的现象 还很少,在建立私人轿车拥有量模型时, 主要考虑以下因素(1)城镇居民家庭人 均可支配收入;(2)城镇总人口;(3) 轿车产量;(4)公路交通完善程度;(5) 轿车价格(因统计困难,略去)。
方差扩大因子法
当x j 与其余p 1个自变量的复相关系数为R 2 j 超过一定界限时, SP SS软件将拒绝这个自变量 x j 进入回归模型。称Tol j 1 R 2 j 为自变量x j的 容忍度(Tolerance ), SP SS软件的默认容忍度为 0.0001 。也即当R 2 时,自变量x j 将被自动 j 0.9999 拒绝在回归方程之外。
特征根判定法(续)
l 1i X l 2i X l pi X 0, i r 1, ,p
这是p r个多重共线性关系。由此可见,X X 有多少个 特征根接近于零,X 就有多少个多重共线性关系,并且 这些多重共线性关系的系数向量就是接近于零的那些特 征根对应的特征向量。
条件数判定法
多重共线性实例3-显著性检验
回归方程 ˆ 0.925.664 0.006x1 62.943x2 0.412x3 7.729x4 y 方差分析表说明在 0.05的水平下,以上回归方程是 显著的。但是对回归系数作显著性检验:t1 0.243, t 2 0.746, t3 0.811 , 均小于t 0.005 ( 13 ) 3.012。 说明x1,x2,x3对于y没有显著性。
jj 复决定系数为R 2 , 则 r j
1 1 R2 j
, 记VIF max {r jj }
j
如果VIF 5,则认为x1 , x2 , , x p间不存在多重共线性 关系;如果5 VIF 10,则认为x1 , x2 , , x p间存在 中等程度或较强多重共线性关系; 如果VIF 10, 则认为x1 , x2 , , x p间存在严重 多重共线性关系。
多重共线性问题及其处理
在多元回归模型中,关于多元回 归方程的解释,隐含着要求解释变 量之间无强相关性的假定,但解释 变量之间完全不相关的情形是非常 少见的。尤其是研究某个经济问题 时,涉及的自变量较多,很难找到 一组自变量,它们之间互不相关, 而且它们又都对因变量有显著影响。
例:居民消费状况-影响居民消费的因素
多重共线性实例1-相关系数
多重共线性实例1
原因是x1, x2的相关矩阵为 0.986 1 0.986 1 这个矩阵接近退化。 x1与x2之间有密切的关系。 普通的LS估计性能变坏。
多重共线性实例2
下表是1966年提出的研究法国经济问题 的一组数据。 Y: 进口总额; X1:国内总产值; X2:储存量; X3:总消费量。
称各自变量之间有多重共线性关系。
多重共线性对回归模型的影响
解释变量之间存在相关性时,即X的列向 量之间有较强的线性相关性,即解释变量 间出现严重的多重共线性。设计矩阵X将 呈病态。 用普通最小二乘法估计模型参数,往往参 数估计方差太大,回归效果不理想。
多重共线性对回归模型的影响
对线性回归模型 y X , E ( ) 0, D 2 I ˆ ( X X ) 1 X y ˆ具有一些良好的性质: 具有最小方差的线性 无偏估计;Gauss Markov 定理等.因此最小 二乘(LS )估计得到了广泛的应用 。但在处理 大型回归问题时,有时 LS估计估计很不理想, 一个重要的因素是, LS估计的性能效果与设计 矩阵X有关,当R X X接近是一个奇异矩阵时 , 即呈现所谓的“病态” 时,LS估计的性能变坏。
x1 农林 牧渔 服务 业
x2 地 质 水 利 管 理 业
x3 交 通 邮 电 通 信 业
x4 批 发 零 售 餐 饮 业
x5 x6 金 融 保 险 业 房 地 产 业
x7 社 会 服 务 业
x8 卫 生 体 育 福 利 业
x9 教 育 艺 术 广 播 业
x10 x11 x12 科 学 研 究 党 政 机 关 其 他 行 业
直观判定法
当增加或者删除一个自变量,或者改变一个观测值时, 回归系数的估计值发生比较大变化时; 一些重要的自变量没有通过显著性检验; 回归系数所带的正负号与定性分析的结果相违背; 自变量间的相关系数很大; 一些重要的自变量的回归系数的标准差误差很大; 只要满足上述条件之一,我们认为有可能存在严重的 多重共线性。
多重共线性实例1
假设已知x1 , x2与y的关系服从模型 y 10 2 x1 3x2 , 做了 10次试验,得设计矩阵如下
多重共线性实例1
多重共线性实例1
多重共线性实例1
用以上数据得到LS参数估计 ˆ 11.429, ˆ 11.325, ˆ 6.692, 0 1 2 而原模型的参数为 ˆ 10, ˆ 2, ˆ 3, 0 1 2 相差太大。
多重共线性的消除
剔除一些不重要的解释变量; 增大样本容量; 岭回归方法; 主成份方法; 偏最小二乘法
案例分析
选取1998年我国31个省、市、自治区的数 据,以国际旅游外收入(百万美元)为因 变量y,以如上12个行业为自变量作多元线 性回归,数据见数据文件。
上机实例
国际旅游外汇收入是国民经济发展的重要组成部分,影响 一个国家或者地区旅游收入的因素包括自然、文化、社会、 经济、交通等多方面的因素,本例就是研究第三产业对旅 游外汇收入的影响。《中国统计年鉴》把第三产业规划分 为12个组成部分,分别为
多重共线性实例2-相关矩阵
多重共线性实例2-x1与x3的回归系数
多重共线性实例2
x1 , x2与x3的相关系数矩阵为 0.033 0.987 1 R 0 . 033 1 0 . 036 1 0.987 0.036 x1与x3基本线性相关,x3关于x1的一元线性 回归方程为 x3 4.963 0.73x1 x1与x3之间存在着多重共线性 。
多重共线性实例2
多重共线性实例2-回归系数分析
y关于x1 , x2与x3的回归方程为 ˆ 10.128 0.051x1 0.587x2 0.287x3 , y
Y: 进口总额; X1:国内总产值;
其中x1的系数为负,不符合经济意义,因为 法国是原料进口国,当国内总产值增加时, 进口总额y也应该增加,所以该系数的符合 为正。其原因就是三个自变量之间存在多重 共线性。其相关矩阵如下
产生多重共线性的原因
许多经济变量之间存在着相关性有着共同的变化 趋势; 在回归模型中使用滞后因变量,也可能产生多重 共线性问题。 样本数据也会引起多重共线性问题。根据回归模 型的假设,自变量是非随机变量,由于收集的数 据过窄而造成某些自变量似乎有相同或相反的变 化趋势。也即自变量即使在总体上不存在线性关 系,其样本也可能是线性相关的。
R矩阵的条件数: 记m max{ X X的特征根} ,
m ki , i 0,1,2,, p。 i
如果k 10, 则认为x1 , x2 , , x p间不存在多重共 线性关系。 如果10 k 100 ,则认为x1 , x2 ,, x p间存在中等 程度或较强的多重共线性关系。 如果k 100 ,则认为x1 , x2 ,, x p间存在严重多重 共线性关系。