多元线性回归模型(系数检验和预测)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
服从自由度为(k , n-k-1)的F分布
给定显著性水平,可得到临界值F(k,n-k-1),
由样本求出统计量F的数值,通过
F F(k,n-k-1) 或 FF(k,n-k-1)
来拒绝或接受原假设H0,以判定原方程总体上的 线性关系是否显著成立。
2021/4/17
F(k,n-k-1)
中山学院经济与管理系
由此可以推论,决定系数是一个与解释变量的个数有关 的量:
解释变量个数增加
减小 增大
也就是说,人们总是可以通过e增2 加模型中R解2 释变量的方法
来增大 R2 的值。因此,用 来作为拟合优度的测度,不是
十分令人满意的。
R2
为此,我们定义修正决定系数 R 2(Adjusted R 2 )如下:
27
R
这一检验是由对变量的 t 检验完成的。
t检验
1、 设计原假设与备择假设:
H0:i=0 i=1,2…k) H1:i0 (i=1,2…k)
2、构造t统计量:
tj
ˆ j
S2 ˆ j
其中:
t(n k 1)
S j2 =
C jjˆu2
n
( yi yˆi )2
C jj
i 1
n k 1
ˆ 2
e
2 i
R2 0.99
(9.6) (0.003) (0.114)
Y和X的计量单位为10亿美元 (按1972不变价格计算).
多元线性回归模型中斜率系数的含义
上例中斜率系数的含义说明如下: 价格不变的情况下,个人可支配收入每上升10
亿美元(1个billion),食品消费支出增加1.12亿 元(0.112个 billion)。
R2
1
e2 Y Y
2
Y Y Y
2
e2 Y 2
Y Y nY 2 (Y Y Y X ˆ)
Y Y nY 2
Y X ˆ nY 2
Y Y nY 2
这就是决定系数
R2 的矩阵形式。
26
二.修正决定系数:R 2
残差平方和的一个特点是,每当模型增加一个解释变量, 并用改变后的模型重新进行估计,残差平方和的值会减小。
...
X Kt 2
β 0
β1
...
β K
=
1
X
11
...
X
K1
(X' X)
β
1 ... X12 ... ... ... X K2 ...
X'
1 Y1
X
1n
Y2
... ...
X
Kn
Yn
Y
即 ( X ' X )ˆ X 'Y 由上式得到的最小二乘估计量 ˆ ( X X )1 X Y
......
......
......
......
β0 X kt β1
X kt X1t ...... βK
X Kt 2
X ktYt
按矩阵形式,上述方程组可表示为:
n
X1t
...
X Kt
X1t X1t 2
...
X Kt X1t
... ...
...
...
X Kt
X1t X Kt
ˆ 2
ei 2
n (K 1)
这是因为我们在估计 β 0 ,β1 ,...β k 的过程 中,失去了(K+1)个自由度。
Leabharlann Baidu
2021/4/17
中山学院经济与管理系
21
3.3最小二乘估计量的特性
1 线性性 2 无偏性 3 最小方差性(有效性) 高斯-马尔科夫(Gauss-Markov)定理:
对于 Y Xβ u 以及标准假设条件(1)
作出推断。
1、方程显著性的F检验
即检验模型
Yi=0+1X1i+2X2i+ +kXki+i
i=1,2, ,n
中的参数j是否显著不为0。 可提出如下原假设与备择假设:
H0: 0=1=2= =k=0
H1: j不全为0
根据数理统计学中的知识,在原假设H0成立 的条件下,统计量
F RSS k ESS (n k 1)
(Y β X )(Y X β)
Y Y β X Y Y X ββ X X β
Y Y β X Y Y X ββ X X ( X X )1 X Y
Y Y β X Y Y X ββ X Y
Y Y Y X β 25
而
Y Y 2 Y 2 nY 2 Y Y nY 2
将上述结果代入 R2 的公式,得到:
注意到上式中所有项都是标量,且
(ˆ
X
Y
)
Y
X
β
故
Q Y Y 2β X Y β X X β
令
(Q)
0
β
用矩阵微分法,我们可得到
X X β X Y
与采用标量式推导所得结果相同。由上述结果,我们有
β ( X X )1 X Y
离差形式的最小二乘估计量 多元线性回归模型的样本容量为n的样本观测
值的均值为:
其中
Y1
Y
Y2
... Yn
1
X
1
...
1
X11 X12 ... X1n
... ... ... ...
X K1
X
K
2
...
X
Kn
0
1
2
,
...
K
u1
u
u2 ... un
由于总体回归模型的参数 0, 1, , k 都是未知 的,我们可以利用样本观测值对它们进行估计, 得到相应的估计的回归方程
这个式子为多元线性回归方程,简称总体回归方程
对于n组观测值,有
Y1
β0
β 1
X
11
β2 X 21
β3 X 31
... βK
X K1
u1
Y2
β0
β 1
X
12
β2 X 22
β3 X 32
... βK
XK2
u2
......
Yn
β0
β 1
X
1n
β2 X 2n
β3 X 3n
... βK
X Kn
un
其矩阵形式为: Y X u
收入不变的情况下,价格指数每上升一个点, 食品消费支出减少7.39亿元(0.739个billion)
回到一般模型
Y β0 β1X1 β2 X 2 ... βk X k u
描述被解释变量Y的期望值与解释变量 X1,X2,…XK线性关系的方程为
E(Y ) 0 1X1 2 X 2 k X k
2021/4/17
中山学院经济与管理系
38
下表给出了三变量模型的回归的结果:
方差来源
平方和( S S )
来自回归( R S 65 965
S) 来自残差( E S
S) 总离差( T S S 6 6 0 4 2
33
Yuyˆˆ
方差来 平方和 源
回归 RSS
误差 ESS
自由度
均方
k RSS / (k) n-k-1 ESS / (n-k-1)
总离差 TSS
n-1
2021/4/17
中山学院经济与管理系
34
2、 t检验(变量的显著性检验)
方程的总体线性关系显著每个解释变量对 被解释变量的影响都是显著的
因此,必须对每个解释变量进行显著性检验, 以决定是否作为解释变量被保留在模型中。
2
1
e2 (n Y Y 2
K 1) (n 1)
1
(n
(n 1) e2 K 1) Y
Y
2
1 (n 1)(1 R 2 )
R
2
n K 1
是经过自由度调整的可决系数,称为修正可决系数。
我们有:(1)R 2 R2
(2)仅当K=0时,等号成立。即 R2 R 2
(3)当K增大时,二者的差异也随之增大。
(20 4)
下面改变n的值,看一看 R 2 的值如何变化。我们有
若n = 10,则 R 2 = 0.55
若n = 5, 则 R 2 = - 0.20
由本例可看出,R 2有可能为负值。这与R2不同 ( 0 R2 1 )。
30
3.5 显著性检验与置信区间
方程的F 检验,旨在对模型中被解释变量与
解释变量之间的线性关系在总体上是否显著成立
e e
n k 1 n k 1
3、 给定显著性水平,可得到临界值t/2(n-k-1),
由样本求出统计量t的数值。
4、做出判断:
通过 |t| t/2(n-k-1) 或 |t|t/2(n-k-1)
来拒绝或接受原假设H0,从而判定对应的解释变量是否 应包括在模型中。
-t/2(n-k-1)
t/2(n-k-1)
(4) R 2 可能出现负值。
28
例1. 设 n = 20, k = 3, R2 = 0.70
求 R 2 。当n=10、n=5时,R 2 分别等于多 少
2021/4/17
中山学院经济与管理系
29
解:
R 2 1 (n 1)(1 R2 ) 1 19 (1 0.70) 0.644
(n k 1)
Yt β0 β1X1t β2 X 2t ... βk X kt ut
t=1,2,…n
问题是选择 ˆ0 , ˆ1,...., ˆk ,使得残差平方和最小。
残差为:
et Yt Yˆt
Yt ˆ0 βˆ 1 X 1t .... βˆ K X Kt
要使残差平方和
Q et2 Yt ˆ0 βˆ1X1t ... βˆ K X Kt 2
Y 0 1X1 2 X 2 k X k u
得到多元线性回归模型的离差形式:
yi 1x1i 2 x2i k xki ui u
其相应的矩阵表达形式为:
y x v
得到其正规方程组:
xxˆ xy
并得到 的最小二乘估计量:
ˆ (xx)1 xy
3随机误差项的方差 2 的估计量 2 的无偏估计量是
为最小,则应有:
Q
ˆ0
0,
Q
ˆ1
0,
...,
Q
ˆK
0
我们得到如下K+1个方程(即正规方程):
β0 n β1 X1t ...... βK X Kt Yt
β0 X1t β1 X1t 2 ...... βK X1t X Kt X1tYt
β0 X 2t β1 X 2t X1t ...... βK X 2t X Kt X 2tYt
我们可用同样的方法定义可决系数:
R2
回归平方和 总离差平方和
1
ei 2 Y Y 2
或 R2 RSS 1 ESS
TSS
TSS
为方便计算,我们也可以用矩阵形式表示 R2
24
e1
我们有:残差 残差平方和:
e
e2 ... en
Y
Y
,其中,Y Xβ
et 2 ee
(Y Y )(Y Y ) (Y X β)(Y X β)
(5)解释变量X1,X2,…,Xk之间不存在精确的(完 全的)线性关系,即rank(X)=k+1<n
观测值的数目要大于待估计的参数的个数 (要有足够数量的数据来拟合回归线)。
(6)随机误差项服从正态分布,即
ui ~ N (0, 2 ) i=1,2,…,n
3.2.最小二乘法
我们的多元线性回归模型是:
-(5),普通最小二乘估计量是最佳线性无偏 估计量(BLUE)
2021/4/17
中山学院经济与管理系
22
3.4 可决系数
一.可决系数 对于一元线性回归模型
Y 0 1X U
我们有
R2
1
ei 2 Y Y
2
其中, ei2 =残差平方和
23
对于多元线性模型
Y 0 1 X1 ... K X K u
这里,“斜率”βj的含义是其它变量不变的情况 下,Xj改变一个单位对因变量所产生的影响。
例1:
Y
β0
β 1
X
β2P u
其中,Y=在食品上的总支出 X=个人可支配收入 P=食品价格指数
用美国1959-1983年的数据,得到如下回归结果(括号中数 字为标准误差):
Yˆ 116.7 0.112X 0.739P
第3章 多元线性回归模型
3.1 模型的建立及其假定条件 1 基本的概念
在许多实际问题中,我们所研究的因变量的变动 可能不仅与一个解释变量有关。因此,有必要考虑 线性模型的更一般形式,即多元线性回归模型:
Y β0 β1X1 β2 X 2 ... βk X k u t=1,2,…,n
在这个模型中,Y由X1,X2,X3, …XK所解释,有K+1 个未知参数β0、β1、β2、…βK 。
上述结果,亦可从矩阵表示的模型
Y X U
出发,
完全用矩阵代数推导出来。
残差可用矩阵表示为:
e1
e
e2 ... en
Y
Yˆ
其中: Yˆ Xˆ
残差平方和
S et2 ee
(Y Y )(Y Y )
(Y X β)(Y X β)
(Y β X )(Y X β)
Y Y β X Y Y X ββ X X β
Yˆi ˆ0 ˆ1X1i ˆ2 X2i ˆk Xki
上式为多元线性回归方程,简称样本回归方程. 估计的回归方程的矩阵表达形式为
Yˆ X ˆ
2模型的假定
(1)E(ui)=0, i=1,2,…,n
其矩阵表达形式为:E(U)=0
(2)随机误差项有相同的方差
Var(ui ) E(ui2 ) 2
(3)随机误差项彼此之间不相关
Cov(ui ,uj ) E(ui uj ) 0
i≠j
将条件(2)和(3)结合起来,其相应的矩阵表达形式 为
Var(U ) E[U E(U )][U E(U )] E(UU) 2I n
(4)解释变量与随机误差项彼此不相关
Cov( X ij , u j ) 0 i=1,2…k j=1,2,….,n
给定显著性水平,可得到临界值F(k,n-k-1),
由样本求出统计量F的数值,通过
F F(k,n-k-1) 或 FF(k,n-k-1)
来拒绝或接受原假设H0,以判定原方程总体上的 线性关系是否显著成立。
2021/4/17
F(k,n-k-1)
中山学院经济与管理系
由此可以推论,决定系数是一个与解释变量的个数有关 的量:
解释变量个数增加
减小 增大
也就是说,人们总是可以通过e增2 加模型中R解2 释变量的方法
来增大 R2 的值。因此,用 来作为拟合优度的测度,不是
十分令人满意的。
R2
为此,我们定义修正决定系数 R 2(Adjusted R 2 )如下:
27
R
这一检验是由对变量的 t 检验完成的。
t检验
1、 设计原假设与备择假设:
H0:i=0 i=1,2…k) H1:i0 (i=1,2…k)
2、构造t统计量:
tj
ˆ j
S2 ˆ j
其中:
t(n k 1)
S j2 =
C jjˆu2
n
( yi yˆi )2
C jj
i 1
n k 1
ˆ 2
e
2 i
R2 0.99
(9.6) (0.003) (0.114)
Y和X的计量单位为10亿美元 (按1972不变价格计算).
多元线性回归模型中斜率系数的含义
上例中斜率系数的含义说明如下: 价格不变的情况下,个人可支配收入每上升10
亿美元(1个billion),食品消费支出增加1.12亿 元(0.112个 billion)。
R2
1
e2 Y Y
2
Y Y Y
2
e2 Y 2
Y Y nY 2 (Y Y Y X ˆ)
Y Y nY 2
Y X ˆ nY 2
Y Y nY 2
这就是决定系数
R2 的矩阵形式。
26
二.修正决定系数:R 2
残差平方和的一个特点是,每当模型增加一个解释变量, 并用改变后的模型重新进行估计,残差平方和的值会减小。
...
X Kt 2
β 0
β1
...
β K
=
1
X
11
...
X
K1
(X' X)
β
1 ... X12 ... ... ... X K2 ...
X'
1 Y1
X
1n
Y2
... ...
X
Kn
Yn
Y
即 ( X ' X )ˆ X 'Y 由上式得到的最小二乘估计量 ˆ ( X X )1 X Y
......
......
......
......
β0 X kt β1
X kt X1t ...... βK
X Kt 2
X ktYt
按矩阵形式,上述方程组可表示为:
n
X1t
...
X Kt
X1t X1t 2
...
X Kt X1t
... ...
...
...
X Kt
X1t X Kt
ˆ 2
ei 2
n (K 1)
这是因为我们在估计 β 0 ,β1 ,...β k 的过程 中,失去了(K+1)个自由度。
Leabharlann Baidu
2021/4/17
中山学院经济与管理系
21
3.3最小二乘估计量的特性
1 线性性 2 无偏性 3 最小方差性(有效性) 高斯-马尔科夫(Gauss-Markov)定理:
对于 Y Xβ u 以及标准假设条件(1)
作出推断。
1、方程显著性的F检验
即检验模型
Yi=0+1X1i+2X2i+ +kXki+i
i=1,2, ,n
中的参数j是否显著不为0。 可提出如下原假设与备择假设:
H0: 0=1=2= =k=0
H1: j不全为0
根据数理统计学中的知识,在原假设H0成立 的条件下,统计量
F RSS k ESS (n k 1)
(Y β X )(Y X β)
Y Y β X Y Y X ββ X X β
Y Y β X Y Y X ββ X X ( X X )1 X Y
Y Y β X Y Y X ββ X Y
Y Y Y X β 25
而
Y Y 2 Y 2 nY 2 Y Y nY 2
将上述结果代入 R2 的公式,得到:
注意到上式中所有项都是标量,且
(ˆ
X
Y
)
Y
X
β
故
Q Y Y 2β X Y β X X β
令
(Q)
0
β
用矩阵微分法,我们可得到
X X β X Y
与采用标量式推导所得结果相同。由上述结果,我们有
β ( X X )1 X Y
离差形式的最小二乘估计量 多元线性回归模型的样本容量为n的样本观测
值的均值为:
其中
Y1
Y
Y2
... Yn
1
X
1
...
1
X11 X12 ... X1n
... ... ... ...
X K1
X
K
2
...
X
Kn
0
1
2
,
...
K
u1
u
u2 ... un
由于总体回归模型的参数 0, 1, , k 都是未知 的,我们可以利用样本观测值对它们进行估计, 得到相应的估计的回归方程
这个式子为多元线性回归方程,简称总体回归方程
对于n组观测值,有
Y1
β0
β 1
X
11
β2 X 21
β3 X 31
... βK
X K1
u1
Y2
β0
β 1
X
12
β2 X 22
β3 X 32
... βK
XK2
u2
......
Yn
β0
β 1
X
1n
β2 X 2n
β3 X 3n
... βK
X Kn
un
其矩阵形式为: Y X u
收入不变的情况下,价格指数每上升一个点, 食品消费支出减少7.39亿元(0.739个billion)
回到一般模型
Y β0 β1X1 β2 X 2 ... βk X k u
描述被解释变量Y的期望值与解释变量 X1,X2,…XK线性关系的方程为
E(Y ) 0 1X1 2 X 2 k X k
2021/4/17
中山学院经济与管理系
38
下表给出了三变量模型的回归的结果:
方差来源
平方和( S S )
来自回归( R S 65 965
S) 来自残差( E S
S) 总离差( T S S 6 6 0 4 2
33
Yuyˆˆ
方差来 平方和 源
回归 RSS
误差 ESS
自由度
均方
k RSS / (k) n-k-1 ESS / (n-k-1)
总离差 TSS
n-1
2021/4/17
中山学院经济与管理系
34
2、 t检验(变量的显著性检验)
方程的总体线性关系显著每个解释变量对 被解释变量的影响都是显著的
因此,必须对每个解释变量进行显著性检验, 以决定是否作为解释变量被保留在模型中。
2
1
e2 (n Y Y 2
K 1) (n 1)
1
(n
(n 1) e2 K 1) Y
Y
2
1 (n 1)(1 R 2 )
R
2
n K 1
是经过自由度调整的可决系数,称为修正可决系数。
我们有:(1)R 2 R2
(2)仅当K=0时,等号成立。即 R2 R 2
(3)当K增大时,二者的差异也随之增大。
(20 4)
下面改变n的值,看一看 R 2 的值如何变化。我们有
若n = 10,则 R 2 = 0.55
若n = 5, 则 R 2 = - 0.20
由本例可看出,R 2有可能为负值。这与R2不同 ( 0 R2 1 )。
30
3.5 显著性检验与置信区间
方程的F 检验,旨在对模型中被解释变量与
解释变量之间的线性关系在总体上是否显著成立
e e
n k 1 n k 1
3、 给定显著性水平,可得到临界值t/2(n-k-1),
由样本求出统计量t的数值。
4、做出判断:
通过 |t| t/2(n-k-1) 或 |t|t/2(n-k-1)
来拒绝或接受原假设H0,从而判定对应的解释变量是否 应包括在模型中。
-t/2(n-k-1)
t/2(n-k-1)
(4) R 2 可能出现负值。
28
例1. 设 n = 20, k = 3, R2 = 0.70
求 R 2 。当n=10、n=5时,R 2 分别等于多 少
2021/4/17
中山学院经济与管理系
29
解:
R 2 1 (n 1)(1 R2 ) 1 19 (1 0.70) 0.644
(n k 1)
Yt β0 β1X1t β2 X 2t ... βk X kt ut
t=1,2,…n
问题是选择 ˆ0 , ˆ1,...., ˆk ,使得残差平方和最小。
残差为:
et Yt Yˆt
Yt ˆ0 βˆ 1 X 1t .... βˆ K X Kt
要使残差平方和
Q et2 Yt ˆ0 βˆ1X1t ... βˆ K X Kt 2
Y 0 1X1 2 X 2 k X k u
得到多元线性回归模型的离差形式:
yi 1x1i 2 x2i k xki ui u
其相应的矩阵表达形式为:
y x v
得到其正规方程组:
xxˆ xy
并得到 的最小二乘估计量:
ˆ (xx)1 xy
3随机误差项的方差 2 的估计量 2 的无偏估计量是
为最小,则应有:
Q
ˆ0
0,
Q
ˆ1
0,
...,
Q
ˆK
0
我们得到如下K+1个方程(即正规方程):
β0 n β1 X1t ...... βK X Kt Yt
β0 X1t β1 X1t 2 ...... βK X1t X Kt X1tYt
β0 X 2t β1 X 2t X1t ...... βK X 2t X Kt X 2tYt
我们可用同样的方法定义可决系数:
R2
回归平方和 总离差平方和
1
ei 2 Y Y 2
或 R2 RSS 1 ESS
TSS
TSS
为方便计算,我们也可以用矩阵形式表示 R2
24
e1
我们有:残差 残差平方和:
e
e2 ... en
Y
Y
,其中,Y Xβ
et 2 ee
(Y Y )(Y Y ) (Y X β)(Y X β)
(5)解释变量X1,X2,…,Xk之间不存在精确的(完 全的)线性关系,即rank(X)=k+1<n
观测值的数目要大于待估计的参数的个数 (要有足够数量的数据来拟合回归线)。
(6)随机误差项服从正态分布,即
ui ~ N (0, 2 ) i=1,2,…,n
3.2.最小二乘法
我们的多元线性回归模型是:
-(5),普通最小二乘估计量是最佳线性无偏 估计量(BLUE)
2021/4/17
中山学院经济与管理系
22
3.4 可决系数
一.可决系数 对于一元线性回归模型
Y 0 1X U
我们有
R2
1
ei 2 Y Y
2
其中, ei2 =残差平方和
23
对于多元线性模型
Y 0 1 X1 ... K X K u
这里,“斜率”βj的含义是其它变量不变的情况 下,Xj改变一个单位对因变量所产生的影响。
例1:
Y
β0
β 1
X
β2P u
其中,Y=在食品上的总支出 X=个人可支配收入 P=食品价格指数
用美国1959-1983年的数据,得到如下回归结果(括号中数 字为标准误差):
Yˆ 116.7 0.112X 0.739P
第3章 多元线性回归模型
3.1 模型的建立及其假定条件 1 基本的概念
在许多实际问题中,我们所研究的因变量的变动 可能不仅与一个解释变量有关。因此,有必要考虑 线性模型的更一般形式,即多元线性回归模型:
Y β0 β1X1 β2 X 2 ... βk X k u t=1,2,…,n
在这个模型中,Y由X1,X2,X3, …XK所解释,有K+1 个未知参数β0、β1、β2、…βK 。
上述结果,亦可从矩阵表示的模型
Y X U
出发,
完全用矩阵代数推导出来。
残差可用矩阵表示为:
e1
e
e2 ... en
Y
Yˆ
其中: Yˆ Xˆ
残差平方和
S et2 ee
(Y Y )(Y Y )
(Y X β)(Y X β)
(Y β X )(Y X β)
Y Y β X Y Y X ββ X X β
Yˆi ˆ0 ˆ1X1i ˆ2 X2i ˆk Xki
上式为多元线性回归方程,简称样本回归方程. 估计的回归方程的矩阵表达形式为
Yˆ X ˆ
2模型的假定
(1)E(ui)=0, i=1,2,…,n
其矩阵表达形式为:E(U)=0
(2)随机误差项有相同的方差
Var(ui ) E(ui2 ) 2
(3)随机误差项彼此之间不相关
Cov(ui ,uj ) E(ui uj ) 0
i≠j
将条件(2)和(3)结合起来,其相应的矩阵表达形式 为
Var(U ) E[U E(U )][U E(U )] E(UU) 2I n
(4)解释变量与随机误差项彼此不相关
Cov( X ij , u j ) 0 i=1,2…k j=1,2,….,n