第八章(多重共线性)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第八章
多重共线性
一、多重共线性及其产生原因 定义:对于多元线性回归模型:
01122...i i i k ki i y x x x u ββββ=+++++
如果模型的解释变量之间存在着较强的线性相关关系,或者说,存在一组不全为零的常数12,,....,k λλλ,使得: 1122...0i i k ki i x x x v λλλ+++=,i v 是随机误差项。
则称模型存在着多重..共线性,如果0i v =,则称存在完全的多重共线性。 ?直观地看,多重共线性是不是造成了冗余变量,这里的冗余的含义是什么? 思考:只有一个解释变量会出现多重共线性吗?
产生原因:
1.经济变量的内在联系,这是根本原因,这导致多重共线性无法克服。 2.经济变量变化趋势的“共向性”。 3.解释变量中含有滞后变量。
二、多重共线性的影响
古典回归模型要求模型不存在完全的多重共线性。所以,即使存在严重的多重共线性,OLS 估计仍然是最佳线性无偏估计(BLUE )。但会产生以下问题:
(一) 增大OLS 估计的方差 设模型为二元线性,
01122i i i i y x x u βββ=+++
可以证明,
2
12
21112
1
()()1i
D x
x r σβ=
∙
--∑
VIF 被称为方差膨胀因子。
分别计算12r 分别等于0,0.5,0.9时的方差膨胀因子。 ?方差变得过大,有什么不好??
(二) 难以区分每个解释变量的独立影响 对于多元线性回归模型,回归系数为
i i
y
x β∂=
∂,根据偏导数的概念,i β的经济含义是什么?
(三) T 检验的可靠性降低
可能使T 检验失效,原来显著的T 值变成不显著的,从而将有重要影响的变量剔除出模型。
思考:比较一下和模型存在异方差及自相关时对T 检验的影响有何不同?
(四) 回归模型缺乏稳定性
参数估计值对样本的变化比较敏感,这实际上也是OLS 估计方差较大的另一个表现。 例子来说明: 见表一
如果改成:
再重新进行回归,看会发生什么情况?
一个理念:多重共线性不可避免。
三、多重共线性的检验
外在症兆:R-平方很高,但只有极个别或少数几个解释变量前的系数显著(T 值偏小)。 1.相关系数检验
利用相关系数可以分析解释变量之间的两两相关情况。 例:服装需求函数。根据理论和经验分析,影响居民服装需求的主要因素有:可支配收入X ,流动资产拥有量K ,服装类价格指数P1和总物价指数P0。下表给出了有关统计资料。
表 服装需求函数有关统计资料
2.方差膨胀因子检验(辅助方程) VIF 大于10时,或者是容许度。 仍以上例为例。
四、多重共线性的解决方法
明确两点
1 如果建立模型的目的是为了预测,只要模型的拟合优度较高,可以忽略多重共线性的问题;但是,如果目的是进行结构分析或政策评价,即利用系数分析,比较各个解释变量的单独影响,则需要消除多重共线性的影响。
2 引起多重共线性的原因是模型中存在相关的解释变量,消除多重共线性的根本方法只能是从模型中剔除这些变量。但直接剔除变量可能会带来以下问题: 模型的经济意义不合理,可能会使模型出现异方差性或自相关性。 可以考虑增加样本容量。
(一)直接剔除次要或可替代的变量 (二)间接剔除重要的解释变量 1.利用附加信息
以规模报酬不变的C-D 生产函数为例。
以工业能源需求函数为例。01122y x x βββε=+++ 2.变换模型的形式 如投资函数,
0121t t t t I Y Y u βββ-=+++
可以变换成: 0121
t t t t I Y Y u
βββ-=++∆+ 又比如,需求函数是:012031Q Y P P u ββββ=++++ 为了反映自价格与互价格对需求量的影响,将需求函数设成:
0121
(
)P Q Y u P βββ=+++
3.综合使用时序数据与横截面数据
如果能同时获得变量的时序数据和横截面数据,则先利用某类数据估计出模型中的部分参数,再利用另一类数据估计模型的其余参数。例如,
设某类商品的需求函数为,
012ln ln ln y x p u βββ=+++,其中,时序数据中X 与P 高度相关。
为此,
(1) 收集最近一年该商品的销售量和居民收入的统计资料,将需求函数取成: 01ln ln y a a x u =++, 可以得到需求的收入弹性1a 。 (2) 将原模型变换成:
01ln t t t y P u ββ*=++,其中,1ln ln t t t y y a x *
=-
, 可以用时序数据估计模型,得
到0β 和1β
,从而在消除多重共线性的情况下,估计出了各参数值。
(四)逐步回归 具体步骤为:
1. 利用相关系数从所有解释变量中选取相关性最强的变量建立一元回归模型。
2. 在一元回归模型中分别引入第二个变量,共建立K-1个二元回归模型,从这些模型
中再选取一个较优的模型。选择时要求:模型中每个解释变量影响显著,参数符号正确,调整后的R-平方有所提高或下降极小。
3. 在选取的二元回归模型中以同样方式引入第三个变量,如此下去,直至无法引入新
的变量时为止。
以上例来说明逐步回归的过程。
作业:
1. 古典回归模型是否要求模型不存在多重共线性?多重共线性是否会影响OLS 估计的无
偏性和有效性?具体产生哪些不利影响?
2. 试述产生多重共线性的原因和解决多重共线性的基本思路。 3. 建立生产函数
Y AL K αβ=时,
(1) 若K ,L 高度相关,用OLS 方法估计模型时会出现什么问题?
(2) 若已知该生产过程的规模报酬不变(即1αβ+=),应该如何估计模型?写出具体步骤。
4. 表3是1978——1997年我国钢材产量Y (万吨)、生铁产量X1(万吨),发电量X2(亿
千瓦小时),固定资产投资X3(亿元),国内生产总值X4(亿元),铁路运输量X5(万吨)的统计资料。
(1) 计算各个变量之间的相关系数,分析多重共线性的可能类型。 (2) 根据逐步回归原理,建立我国钢产量预测模型。