多重共线性的危害
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
8
(二)状态数检验
1、 状态指数 将 X矩阵的每一列 X 用其模 X X X 相除以实现标准化,然后再求 XX 矩阵的 特征值,取其中最大的除以最小的后再求 平方根,得到该矩阵的“状态数”,记为: max min 通常当 大于20或30时,认为存在较 明显的多重共线性。
k
k k
,
用 代替 E 3 ,用S “峰度”指标: E 4
1 3 e i n i
2 3 2
2
e
i
2 i
n K 1
代替 2 。
2 2
3
其中
1 4 用 e E i 代替。 n
4
i
33
第四节 最大似然估计
一、最大似然估计的原理 二、两变量线性回归模型参数的最大似 然估计 三、多元线性回归模型参数的最大似然 估计 四、随机解释变量模型的最大似然估计 五、最大似然估计的性质
多元回归工具变量法估计 引进、选择多个关键变量。 向量、矩阵表示。
工具变量的选择问题: 与替代解释变量相关性强 与误差相相关性小 避免引起共线性问题
27
四、参数估计量分布问题和统计推断
问题:分布未知 两变量线性回归模型参数估计量
b1
X
i i
i
X Yi Y
i
X
两种理解:如果特征值之和反映对被解释变量解释程度, 倒数之和反映引起估计量方差的比重。
11
四、多重共线性的克服和处理
(一)增加样本容量 (二)差分方程 (三)模型修正 (四)分步估计参数 (五)岭回归方法
12
(一)增加样本容量
原理:样本容量越大,变量相关性越小, 相关越难。 注意局限,且不一定解决问题。
i i
P lim
n
i
n
n
0
那么因为
P lim b1 1 P lim
n
X
i i
i
X i
i
X
X
2
1 0 1
因此 b1 是1 的一致估计。虽然不是无偏估计。
24
三、工具变量法估计
设模型为 Y 0 1 X 其中 X不仅是随机变量,而且与 有强相关性。 对模型作离差变换得 Yi Y 1 X i X i 两边乘 Z Z 并求和得 Zi Z Yi Y 1 Zi Z X i X Zi Z i i i i 然后两边除以 Z Z X X ,有 Z Z Y Y Z Z Z Z X X Z Z X X
21
二、随机解释变量和参数估计的 性质
设模型为 Y 0 1 X 其中误差项符合古典线性回归模型的各个假 设。 X i X Yi Y i 参数二乘估计的参数为: b1 X X 2
i
i
把
Yi Y 1 X i X i
2
其中 Λ 是X X 的特征值构成的对角矩阵。 从而 VarB
XX VΛ
V- 1
XX1 2VV1
, k 0,1, , K
2 2 2 v v v k0 k1 kK Varbk 2 1 K 0
30
一、问题的提出
误差项正态分布假设也不一定成立。 误差项不服从正态分布时,称“非正态误 差项” 影响:统计推断、假设检验的有效性等, 相关统计推断、检验结论的可靠性降低。
31
二、误差项正态性的检验
(一)直方图检验
p p
0
e
0
e
a
b
类似“高尔顿板”
32
(二)偏斜度和峰度检验 “偏斜系数” : E 3
17
(五)岭回归方法
设一个多元线性回归模型为 Y Xβ ε 普通最小二乘估计的公式为 B XX1 XY XX 矩阵 当解释变量间存在严重的多重共线性时, 接近于奇异。 用 XX λD 代替 XX 代入最小二乘估计的公式,得 ˆ XX D1 XY 到: β 其中 称为“岭回归参数”,一般 0 1 ,D 2 2 2 k 1,2,, K d X k ki X X 是用 矩阵对角线上元素d0 n 和 i 构成的对角线矩阵 。
logY log A log L 1 log K
logY log K log A log L log K Y L log log A log K K
16
(四)分步估计参数
例:研究需求规律的模型 logQ 0 1 logY 2 log P 可以先求出模型中参数 1的估计值(用截面 数据等)。 logQ logY
4
1 X X 其逆矩阵 左上角的首项为
1 1 x k x k x k X k X k X k X k x k xk M k x k 1
X 其中 M 因此参数 k 的最小二乘估计 b 的方差为
13
(二)差分方程
线性回归模型为 Yi 0 1 X1i 2 X 2i i 且已知 X 1 和 X 2之间存在多重共线性问题。 Yi Yi Yi 1 作如下变换:
X1i X1i X1i 1
X 2i X 2i X 2i 1
改用差分方程 Yi 1X1i 2X 2i1 i 进行回归,受多重共线性的影响比较小。
第五章
线性回归的问题和分析方 法扩展(下) 多重共线性 随机解释变量 误差项非正态分布 最大似然估计
第一节 第二节 第三节 第四节
1
第一节 多重共线性
一、问题的性质和种类
二、多重共线性的危害
三、发现和检验 四、多重共线性的克服和处理
2
一、问题的性质和种类
1、严格多重共线性 模型设定问题 识别问题 2、近似多重共线性 主要是数据问题,也有模型设定问题
前一个模型变为 logQ 0 b1 logY 2 log P 整理这个模型可以得到
log Q b1 logY 0 2 log P Q log b1 0 2 log P Y
从而估计出 0 和 2 的估计值b0 和 b2 , 得到克服了多重共线性的回归直线 ˆ b b logY b log P logQ 0 1 2
3
二、 (近似)多重共线性的危害
*随着多重共线性程度的提高,参数方差会急剧 上升到很大的水平,理论上使最小二乘法估 计的有效性、可靠性和价值都受到影响,实 践中参数估计的稳定性和可靠程度下降。 *证明:把 X 矩阵分为 X xk Xk 根据分块矩阵的运算法则有
x x XX k k Xk x k x k Xk Xk Xk
X
2百度文库
多元回归模型参数的最小二乘估计 1
B XX XY
影响:t、F检验等仍基本有效。 t统计量 tk X bk k 1 渐近t分布。
S
XX kk
F统计量类似。
28
存在随机解释变量时相关统计推断受到一 定的影响
29
第三节 误差项非正态分布
一、问题的提出 二、误差项正态性的检验
i
i i i
i
i
i
i
i
i
1
i
i
i
i
i
i
25
ˆ 1 的“工具变量法估计”为 1IV
,即
ˆ 1IV
0
Z Z Y Y Z Z X X
i i i i i i
0 IV
ˆ 的估计可以利用 的估计得到
ˆ Y ˆ X 0 IV 1IV
26
14
(三)模型修正
1、删减解释变量(利用检验结论、经验 等) 2、整合解释变量(利用原模型回归信息、 经验等) 3、先验信息参数约束
15
先验信息参数约束 例:生产函数 Y AL K ,经对数变换为:
logY log A log L log K
如果预先知道所研究的经济有规模报酬不 变的性质,即函数中的参数满足 1 就可以克服多重共线性。
σ2
7
当 R 0 时, 当 0 R 1 时,Varb
2 k
σ2 Varbk SST k
k
2 k
σ2 1 σ2 2 SSTk 1 Rk SSTk
VIF bk 1 1 Rk2
方差扩大因子,记作 常以方差扩大因子是否大于10来判断第 k 个解释变量是否存在较强的、必须加以处理 的多重共线性。
β - XX D Dβ
1
19
第二节 随机解释变量
一、解释变量的随机性 二、随机解释变量和参数估计的性质 三、工具变量法估计 四、参数估计量的分布性质和统计推断
20
一、解释变量的随机性和问题
解释变量有随机性是普遍的问题。 随机解释变量有不同的情况,关键是与误 差项的相关性。 不同情况对回归分析的影响不同,处理也 不同。
34
一、最大似然估计的原理
根据事物出现的概率(几率、可能性)的 大小,推断事物的真相,包括定性的和定 量的(参数水平)真相。
例1:一个老战士和一个军训学生各射击一 次,但只有一枪中靶。问可能是谁打中的。
18
(五)岭回归方法
2 d 0 D
d12
2 dk
估计量的数学期望为:
ˆ XX D1 XEY Eβ
1 XX D XXβ 1 XX D XX D Dβ
以 X 为条件的 b1 的条件方差 Varb X X X Varb E Varb X 也是 是最小方差,从而 b1 的方差 最小方差。
1 2 i i
2
1
X
1
23
如果 X 是随机变量,与误差项小样本不独立, 但大样本渐进不相关,即 X X
2 i
代入 b1,得到
1
b1
1 X i X X i X i
X
i
i X
i
X
i i
i
X i
i X 2
2
X
22
如果 X 是随机变量,但与误差项不相关,那 么:
X i X i E[b1 ] E[ 1 ] E i 2 1 0 1 X X i i
1 x X k X X k X k k k xk x x 1 k k x k xk
记 x x 为 SST, x X X X
k k
k
1
k
k
k
k
X k xk
为
SSRk
。
σ2 Varbk 2 1 R SSRk SST k k SST k 1 SST k
k k
k
I Xk Xk Xk
1
σ2 Varbk x k Mk xk
5
三、发现和检验
(一)方差扩大因子检验 (二)状态数检验
6
(一)方差扩大因子检验
分析已知
σ2 σ2 Varbk 1 x x k M k xk k x k x k X k X k X k X k x k σ2
9
确定哪些解释变量的系数受到多重共线性的 影响: 先计算各个特征值的“状态指数”
i min
这些状态指数的水平在1到 之间,很 可能有好几个超过20-30的“危险”水平。
max min
10
2、回归系数方差分解:如果V是对角化X X 的(K+1) (K+1) 对角矩阵:即
XXV VΛ