多元线性回归模型(系数检验和预测)

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

服从自由度为(k , n-k-1)的F分布
给定显著性水平，可得到临界值F(k,n-k-1)，
由样本求出统计量F的数值，通过
F F(k,n-k-1) 或 FF(k,n-k-1)
来拒绝或接受原假设H0，以判定原方程总体上的线性关系是否显著成立。
2021/4/17
F(k,n-k-1)
中山学院经济与管理系
由此可以推论，决定系数是一个与解释变量的个数有关的量：
解释变量个数增加
减小增大
也就是说，人们总是可以通过e增2 加模型中R解2 释变量的方法
来增大 R2 的值。因此，用来作为拟合优度的测度，不是
十分令人满意的。
R2
为此，我们定义修正决定系数 R 2（Adjusted R 2 ）如下：
27
R
这一检验是由对变量的 t 检验完成的。
t检验
1、设计原假设与备择假设：
H0：i=0 i=1,2…k） H1：i0 （i=1,2…k）
2、构造t统计量：
tj
ˆ j
S2 ˆ j
其中：
t(n k 1)
S j2 =
C jjˆu2
n
( yi yˆi )2
C jj
i 1
n k 1
ˆ 2
e
2 i
R2 0.99
(9.6) (0.003) (0.114)
Y和X的计量单位为10亿美元 (按1972不变价格计算).
多元线性回归模型中斜率系数的含义
上例中斜率系数的含义说明如下：价格不变的情况下，个人可支配收入每上升10
亿美元（1个billion），食品消费支出增加1.12亿元（0.112个 billion）。
R2
1
e2 Y Y
2
Y Y Y
2
e2 Y 2
Y Y nY 2 (Y Y Y X ˆ)
Y Y nY 2
Y X ˆ nY 2
Y Y nY 2
这就是决定系数
R2 的矩阵形式。
26
二．修正决定系数：R 2
残差平方和的一个特点是，每当模型增加一个解释变量，并用改变后的模型重新进行估计，残差平方和的值会减小。
...
X Kt 2
β 0
β1
...
β K
=
1
X
11
...
X
K1
(X' X)
β
1 ... X12 ... ... ... X K2 ...
X'
1 Y1
X
1n
Y2
... ...
X
Kn
Yn
Y
即 ( X ' X )ˆ X 'Y 由上式得到的最小二乘估计量 ˆ ( X X )1 X Y
......
......
......
......
β0 X kt β1
X kt X1t ...... βK
X Kt 2
X ktYt
按矩阵形式，上述方程组可表示为：
n
X1t
...
X Kt
X1t X1t 2
...
X Kt X1t
... ...
...
...
X Kt
X1t X Kt
ˆ 2
ei 2
n (K 1)
这是因为我们在估计 β 0 ,β1 ,...β k 的过程中，失去了（K+1）个自由度。
Leabharlann Baidu
2021/4/17
中山学院经济与管理系
21
3.3最小二乘估计量的特性
1 线性性 2 无偏性 3 最小方差性（有效性）高斯-马尔科夫（Gauss-Markov）定理：
对于 Y Xβ u 以及标准假设条件（1）
作出推断。
1、方程显著性的F检验
即检验模型
Yi=0+1X1i+2X2i+ +kXki+i
i=1,2, ,n
中的参数j是否显著不为0。可提出如下原假设与备择假设：
H0： 0=1=2= =k=0
H1： j不全为0
根据数理统计学中的知识，在原假设H0成立的条件下，统计量
F RSS k ESS (n k 1)
(Y β X )(Y X β)
Y Y β X Y Y X ββ X X β
Y Y β X Y Y X ββ X X ( X X )1 X Y
Y Y β X Y Y X ββ X Y
Y Y Y X β 25
而
Y Y 2 Y 2 nY 2 Y Y nY 2
将上述结果代入 R2 的公式，得到：
注意到上式中所有项都是标量，且
(ˆ
X
Y
)
Y
X
β
故
Q Y Y 2β X Y β X X β
令
(Q)
0
β
用矩阵微分法，我们可得到
X X β X Y
与采用标量式推导所得结果相同。由上述结果，我们有
β ( X X )1 X Y
离差形式的最小二乘估计量多元线性回归模型的样本容量为n的样本观测
值的均值为：
其中
Y1
Y
Y2
... Yn
1
X
1
...
1
X11 X12 ... X1n
... ... ... ...
X K1
X
K
2
...
X
Kn
0
1
2
,
...
K
u1
u
u2 ... un
由于总体回归模型的参数 0, 1, , k 都是未知的,我们可以利用样本观测值对它们进行估计, 得到相应的估计的回归方程
这个式子为多元线性回归方程,简称总体回归方程
对于n组观测值，有
Y1
β0
β 1
X
11
β2 X 21
β3 X 31
... βK
X K1
u1
Y2
β0
β 1
X
12
β2 X 22
β3 X 32
... βK
XK2
u2
......
Yn
β0
β 1
X
1n
β2 X 2n
β3 X 3n
... βK
X Kn
un
其矩阵形式为： Y X u
收入不变的情况下，价格指数每上升一个点，食品消费支出减少7.39亿元（0.739个billion）
回到一般模型
Y β0 β1X1 β2 X 2 ... βk X k u
描述被解释变量Y的期望值与解释变量 X1,X2,…XK线性关系的方程为
E(Y ) 0 1X1 2 X 2 k X k
2021/4/17
中山学院经济与管理系
38
下表给出了三变量模型的回归的结果：
方差来源
平方和( S S )
来自回归( R S 65 965
S) 来自残差( E S
S) 总离差( T S S 6 6 0 4 2
33
Yuyˆˆ
方差来平方和源
回归 RSS
误差 ESS
自由度
均方
k RSS / (k) n-k-1 ESS / (n-k-1)
总离差 TSS
n-1
2021/4/17
中山学院经济与管理系
34
2、 t检验（变量的显著性检验）
方程的总体线性关系显著每个解释变量对被解释变量的影响都是显著的
因此，必须对每个解释变量进行显著性检验，以决定是否作为解释变量被保留在模型中。
2
1
e2 (n Y Y 2
K 1) (n 1)
1
(n
(n 1) e2 K 1) Y
Y
2
1 (n 1)(1 R 2 )
R
2
n K 1
是经过自由度调整的可决系数，称为修正可决系数。
我们有：（1）R 2 R2
（2）仅当K=0时，等号成立。即 R2 R 2
（3）当K增大时，二者的差异也随之增大。
(20 4)
下面改变n的值，看一看 R 2 的值如何变化。我们有
若n = 10，则 R 2 = 0.55
若n = 5，则 R 2 = - 0.20
由本例可看出，R 2有可能为负值。这与R2不同（ 0 R2 1 ）。
30
3.5 显著性检验与置信区间
方程的F 检验，旨在对模型中被解释变量与
解释变量之间的线性关系在总体上是否显著成立
e e
n k 1 n k 1
3、给定显著性水平，可得到临界值t/2(n-k-1)，
由样本求出统计量t的数值。
4、做出判断：
通过 |t| t/2(n-k-1) 或 |t|t/2(n-k-1)
来拒绝或接受原假设H0，从而判定对应的解释变量是否应包括在模型中。
-t/2(n-k-1)
t/2(n-k-1)
（4） R 2 可能出现负值。
28
例1. 设 n = 20, k = 3, R2 = 0.70
求 R 2 。当n=10、n=5时，R 2 分别等于多少
2021/4/17
中山学院经济与管理系
29
解：
R 2 1 (n 1)(1 R2 ) 1 19 (1 0.70) 0.644
(n k 1)
Yt β0 β1X1t β2 X 2t ... βk X kt ut
t=1,2,…n
问题是选择 ˆ0 , ˆ1,...., ˆk ，使得残差平方和最小。
残差为：
et Yt Yˆt
Yt ˆ0 βˆ 1 X 1t .... βˆ K X Kt
要使残差平方和
Q et2 Yt ˆ0 βˆ1X1t ... βˆ K X Kt 2
Y 0 1X1 2 X 2 k X k u
得到多元线性回归模型的离差形式：
yi 1x1i 2 x2i k xki ui u
其相应的矩阵表达形式为：
y x v
得到其正规方程组：
xxˆ xy
并得到的最小二乘估计量：
ˆ (xx)1 xy
3随机误差项的方差 2 的估计量 2 的无偏估计量是
为最小，则应有：
Q
ˆ0
0,
Q
ˆ1
0,
...,
Q
ˆK
0
我们得到如下K+1个方程（即正规方程）：
β0 n β1 X1t ...... βK X Kt Yt
β0 X1t β1 X1t 2 ...... βK X1t X Kt X1tYt
β0 X 2t β1 X 2t X1t ...... βK X 2t X Kt X 2tYt
我们可用同样的方法定义可决系数：
R2
回归平方和总离差平方和
1
ei 2 Y Y 2
或 R2 RSS 1 ESS
TSS
TSS
为方便计算，我们也可以用矩阵形式表示 R2
24
e1
我们有：残差残差平方和：
e
e2 ... en
Y
Y
，其中，Y Xβ
et 2 ee
(Y Y )(Y Y ) (Y X β)(Y X β)
(5)解释变量X1,X2,…,Xk之间不存在精确的(完全的)线性关系,即rank(X)=k+1<n
观测值的数目要大于待估计的参数的个数（要有足够数量的数据来拟合回归线）。
(6)随机误差项服从正态分布,即
ui ~ N (0, 2 ) i=1,2,…,n
3.2．最小二乘法
我们的多元线性回归模型是：
-（5），普通最小二乘估计量是最佳线性无偏估计量（BLUE）
2021/4/17
中山学院经济与管理系
22
3.4 可决系数
一．可决系数对于一元线性回归模型
Y 0 1X U
我们有
R2
1
ei 2 Y Y
2
其中， ei2 =残差平方和
23
对于多元线性模型
Y 0 1 X1 ... K X K u
这里，“斜率”βj的含义是其它变量不变的情况下，Xj改变一个单位对因变量所产生的影响。
例1：
Y
β0
β 1
X
β2P u
其中，Y=在食品上的总支出 X=个人可支配收入 P=食品价格指数
用美国1959-1983年的数据，得到如下回归结果（括号中数字为标准误差）：
Yˆ 116.7 0.112X 0.739P
第3章多元线性回归模型
3.1 模型的建立及其假定条件 1 基本的概念
在许多实际问题中，我们所研究的因变量的变动可能不仅与一个解释变量有关。因此，有必要考虑线性模型的更一般形式，即多元线性回归模型：
Y β0 β1X1 β2 X 2 ... βk X k u t=1,2,…,n
在这个模型中，Y由X1,X2,X3, …XK所解释，有K+1 个未知参数β0、β1、β2、…βK 。
上述结果，亦可从矩阵表示的模型
Y X U
出发，
完全用矩阵代数推导出来。
残差可用矩阵表示为：
e1
e
e2 ... en
Y
Yˆ
其中： Yˆ Xˆ
残差平方和
S et2 ee
(Y Y )(Y Y )
(Y X β)(Y X β)
(Y β X )(Y X β)
Y Y β X Y Y X ββ X X β
Yˆi ˆ0 ˆ1X1i ˆ2 X2i ˆk Xki
上式为多元线性回归方程,简称样本回归方程. 估计的回归方程的矩阵表达形式为
Yˆ X ˆ
2模型的假定
(1)E(ui)=0, i=1,2,…,n
其矩阵表达形式为:E(U)=0
(2)随机误差项有相同的方差
Var(ui ) E(ui2 ) 2
(3)随机误差项彼此之间不相关
Cov(ui ,uj ) E(ui uj ) 0
i≠j
将条件(2)和(3)结合起来,其相应的矩阵表达形式为
Var(U ) E[U E(U )][U E(U )] E(UU) 2I n
(4)解释变量与随机误差项彼此不相关
Cov( X ij , u j ) 0 i=1,2…k j=1,2,….,n