回归分析-回归分析课件-第七章
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
其中 x1 的系数为负,这不符合经济意义,因为法国是一个原材料进口国,当国内总产值 x1 增
加时,进口总额 y 也应该增加,所以该系数的符号应该为正,其原因就是因为三个自变量 x1 ,
x2 和 x3 之间存在多重共线性。
2021/3/18
6
第七章 多元线性回归模型的有偏估计
我们计算 x1 , x2 和 x3 三者的相关系数矩阵如下:
l1i X l2i X l piX 0, i r 1,, p
2021/3/18
(7.8)
(7.9)
16
第七章 多元线性回归模型的有偏估计
存在多重共线性关系的判断方法
(2). 条件数 R 矩阵的条件数
k 1 p
(7.10)
如果 k 100则认为解释变量 x1, x2 ,, x p 间不存在多重共线性关系。
存在多重共线性关系的判断方法
(1). 特征分析法 假设 X 呈病态,则 R XX至少有一个特征根 接近于零。不妨设后 p r 个特征根 r1,, p 0 ,记 lr1,,l p 为 与它们对应的单位化的相互正交的特征向量,则
Xli 0,i r 1,, p
若令 li l1i ,,l pi ,则有
2021/3/18
19
第七章 多元线性回归模型的有偏估计
岭估计
定义:设 0 k ,满足
ˆk XX k I1Xy
的 ˆk称为 的岭估计。由 的岭估计建立的回归方程称为岭回归
方程。其中 k 称为岭参数。对于回归系数 ˆk ˆ1k,, ˆp k 的每
一个分量 ˆ j k来说,在直坐标系中 k ˆ j k的图象称为岭迹。
若记 ˆ ˆ ˆ 为向量ˆ 的长度,那么上述两式给出了
向量 ˆ 长度平方的期望值和方差。由于它们都依赖于特征根,由 此,当 x1, x2 , xp 存在着多重共线性关系时,差向量 ˆ 的长度均值 将很大,并且其波动也很大。
2021/3/18
15
第七章 多元线性回归模型的有偏估计
5(1953)
190.7
1.1
132.1
6(1954)
202.1
2.2
137.7
7(1955)
202.1
2.1
146.0
8(1956)
212.4
5.6
154.1
9(1957)
226.1
5.0
162.3
10(1958)
231.9
5.1
164.3
11(1959)
239.0
0.7
167.6
2021/3/18
2021/3/18
2
第七章 多元线性回归模型的有偏估计
LS 估计的性能效果与设计矩阵 X 有关,当 R XX接近是一个奇异阵时,即呈现所谓 的“病态”时,LS 估计的性能变坏。
2021/3/18
3
第七章 多元线性回归模型的有偏估计
例 7.2 表 7.1 是 Malinvand 于 1966 年提出的研究法国经济 问题的一组数据。所考虑的因变量为进口总额 y ,三个解释 变量分别为:国内总产值 x1 ,储存量 x2 ,总消费量 x3 (单位 均为十亿法郎),现收集了 1949 年至 1959 年共 11 年的数据, 具体值见表 7.1。
1
0.026 0.997
R 0.026 1
0.036
0.997 0.036 1
由此可知 x1 与 x3 间的相关系数高达 0.997,这说明 x1 与 x3
基本线性相关。
2021/3/18
7
第七章 多元线性回归模型的有偏估计
将 x3 看作因变量,x1 自作解释变量,那么 x3 关于 x1 的一元线性回归方 程为
y
15.9 16.4 19.0 19.1 18.8 20.4 22.7 26.5 28.1 27.6 26.3
5
第七章 多元线性回归模型的有偏估计
对于上述问题,我们可以直接用普通的最小二乘估计建立 y 关于三个解释变量 x1 , x2 和 x3
的回归方程为
yˆ 10.128 0.051x1 0.587 x2 0.287 x3
20XX年复习资料
大学复习资料
专 业: 班 级: 科目老师: 日 期:
第七章 多元线性回归模型的有偏估计
当解释变量之间存在着相关性时,也就是 X 的列向量之间有较 强的线性相关性,即解释变量间出现严重的多重共线性。这时 设计矩阵 X 将呈病态。在这种情况下,用普通最小二乘法估计 模型参数,往往参数估计方差太大,使普通最小二乘法的效果 变得很不理想。
率等又都下降。当这些变量同时进入模型后就会带来多重共线性问题。如果采用其中的两个
作为因变量(解释变量),就可能产生多重共线性问题。
2021/3/18
9
第七章 多元线性回归模型的有偏估计
2. 在回归模型中使用滞后因变量(解释变量),也可能产生多重共线性问题,由于经
济变量的现期值和各滞后期值往往高度相关。因此使用滞后因变量(解释变量)所形成的分
如果100 k 1000则认为解释变量 x1, x2 ,, x p 间存在中等程度或较
强的多重共线性关系。
如果 k 1000 则认为解释变量 x1, x2 ,, x p 间存在严重的多重共线性
2021/3/18 关系。
17
第七章 多元线性回归模型的有偏估计
存在多重共线性关系的判断方法
(3). 方差扩大因子 记 R 1 中的对角元为 r jj , j 1,2,, p ,称为方差扩大因
23
第七章 多元线性回归模型的有偏估计
性质7.4的证明
因为 g10 0 , g2 0 0 ,所以 g0 0 。而 g1k和 g2 k在 k 0 上都连
续,因此当 k 0 且充分小时,有 gk g1k g2 k 0 。则我们证明了,
在 k 0 且充分小时, gk MSEˆk是减函数。故存在 k 0 ,使得 gk g0,即 MSEˆk MSEˆ0,从而我们证明了性质 7.4。
2021/3/18
24
第七章 多元线性回归模型的有偏估计
岭参数的选择
我们引进岭估计的目的是为了减少均方误差。性质 7.4 指出了这
样的岭估计的存在性,从 gk g1k g2 k 的表达式来看,关于最优 的 k 的选择不但依赖于模型的未知参数 , 2 ,而且这种依赖关系没有
显式表示。这就使得对于 k 值的确定变得非常困难。目前为止,已经
子。若记 x j 关于其他
p 1 个解释变量的复相关系数为 R j
,则 r
jj
1
1
R
2 j
,记
VIF max r jj j
(7.14)
如果VIF 5则认为解释变量 x1, x2 ,, x p 间不存在多重共线性关系。
如果 5 VIF 10 则认为解释变量 x1, x2 ,, x p 间存在中等程度或较强的多重共线性
2021/3/18
4
第七章 多元线性回归模型的有偏估计
表 7.1 1949 年-1959 年法国进口总额与相关变量的数据
序号(年份)
x1
x2
x3
1(1949)
149.3
4.2
108.1
2(1950)
171.5
4.1
114.8
3(1951)
175.5
3.1
123.2
4(1952)
180.8
3.1
126.9
x3 60258 0.686 x1, 这说明当 x1 变化时,x3 不可能保持一个常数,因此对回归系数的解释 就复杂了,不能仅从其符号上作解释,x1 与 x3 之间存在着多重共线性 关系,
2021/3/18
8
第七章 多元线性回归模型的有偏估计
“多重共线性”一词由 R. Frisch 在 1934 年提出的,它原指模型的解释变量间存在线性
提出多种确定 k 值的方法,但是,在这些已经提出的方法中,我们还
没有找到一种最优的确定 k 值的方法。下面我们介绍几种常用的 k
值的确定方法。
2021/3/18
25
第七章 多元线性回归模型的有偏估计
岭参数的选择
(1) 岭迹法
岭估计 ˆk XX k I1Xy 的分量 ˆi k作为 k 的函数,当 k 在0,变化时,在平 面直角坐标系中 k ˆ j k所描绘的图象称为岭迹。利用岭迹可以选择 k,其原则如下:
布滞后模型就存在一定程度的多重共线性。
3. 样本数据也会引起多重共线性问题。根据回归模型的假设,因变量(解释变量)是
非随机变量,由于收集的数据过窄而造成某些因变量(解释变量)似乎有相同或相反的变化
趋势,也就是说因变量(解释变量)即使在总体上不存在线性关系,其样本也可能是线性相
关的。在此意义上说多重共线性是一种样本现象。
2021/3/18
10
第七章 多元线性回归模型的有偏估计
一般地,关于多重共线性关系,我们给出如下定义:当设计矩阵 X 的 列向量间具有近似的线性相关时,即存在不全为 0 的常数 c1, c2, , cp , 使得 c0 c1x1 cp xp 0 ,称各自变量之间有多重共线性关系。
2021/3/18
关系。
如果VIF 10 则认为解释变量 x1, x2 ,, x p 间存在严重的多重共线性关系。
2021/3/18
18
第七章 多元线性回归模型的有偏估计
岭估计
岭估计(Ridge estimate)是由 Hoerl 于 1962 年首先提出的,1970 年, Hoerl and Kennard 在此基础上进一步给予系统的讨论。自 1970 年以 来,这种估计的研究和应用得到了广泛的重视,目前已经成为最有影 响的有偏估计。
a) 各回归系数的岭估计基本稳定;
b) 用最小二乘估计时符号不合理的回归系数,其岭估计的符号将变得合理;
c) 回归系数没有不合理的符号;
d) 残差平方和增大不太多。
2021/3/18
21
第七章 多元线性回归模型的有偏估计
性质7.4的证明
证明 根据(7.22)式,我们只需证明,存在一个 k 0 ,
使 MSEˆk MSEˆ0即可。因为
Covˆk 2Λ k I1ΛΛ k I1
Eˆk Λ k I1ZZ
Λ k I1Λ
2021/3/18
22
第七章 多元线性回归模型的有偏估计
关系。在实际经济问题中,由于经济变量本身的性质,多重共线性是存在于计量经济学模型
中的一个普遍的问题,产生多重共线性的原因一般有以下三种情况:
1. 许多经济变量之间存在着相关关系,有着共同的变化趋势,例如国民经济发展使国
民增加了收入,随之消费、储蓄和投资出现了共同增长。经济变量在时间上有共同变化的趋
势。如在经济上升时期,收入、消费、就业率等都增长,当经济收缩期,收入、消费、就业
具有最小方差的线性无偏估计,但是从均方误差的意义来看,ˆ 并非
20是21/3/1的8 好估计。
12
第七章 多元线性回归模型的有偏估计
设对应于特征根 1 2 p 0 的单位化的相互
正交的特征向量为 l1,l2, ,lp 。
记以特征根为对角元的对角阵为
1
Λ
2
,
p
(7.4)
2021/3/18
2021/3/18
20
第七章 多元线性回归模型的有偏估计
岭估计性质
性质 7.1 ˆk 是 的有偏估计。
性质 7.2 ˆk XX k I1Xy 是最小二乘估计的一个线性变换。
性质 7.3 对于任意 k 0 , ˆ 0 ,总有
ˆk ˆ
性质 7.4 必存在一个 k 0 ,使 MSE ˆk MSE ˆ0 。
11
第七章 多元线性回归模型的有偏估计
设 因 变 量 ( 解 释 变 量 ) 的 相 关 系 数 矩 阵 R XX 的 特 征 根 为
p
1 2 p 0 ,由线性代数知识还可知 j p 。那么由于各 j j 1
之和为一常数,而每一 j 均非负,从而当某些 j 较大时,必有某些 j 较小,而其倒数必很大。当 x1, x2, , xp 存在着多重共线性关系时,1 的 值将较大,而 p 值将会变得较小。此时虽然最小二乘估计 ˆ 仍为 的
性质7.4的证明
并且
MSEˆk trCovˆk Eˆk
p
2
i
p
k 2
2 i
i1 i k 2
i1 i k 2
ˆ g1k g2 k ˆ gk
上述函数关于 k 求导,得
g1 k
22p i1iik3
2021/3/18
g2
k
2k
p i1
i i2
i k
3
(7.24)
(7.25) (7.26)
13
第七章 多元线性回归模型的有偏估计
并且记以特征向量为列向量的正交阵为
L l1 l2
lp 。
则最小二乘估计 ˆ 的均方误差为
MSE ˆ
E
ˆ
ˆ
2
p i1
1 i
且
2021/3/18
Var
ˆ
ˆ
2 4
p i1
1 i2
(7.5) (7.6)
(7.7)
14
第七章 多元线性回归模型的有偏估计