多元线性回归模型拟合优度假设检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ˆ 由于回归平方和 ESS = ∑ y i2 是解释变量 X 的联合体对被解
释变量 Y 的线性作用的结果,考虑比值
ˆ ESS / RSS = ∑ y i2 ei2 ∑
如果这个比值较大,则X的联合体对Y的解释程度 高,可认为总体存在线性关系,反之总体上可能不存 在线性关系。 因此, 因此,可通过该比值的大小对总体线性关系进行推 断。
得到如下结果(括号内数字为标准误差) : ˆ log Y = −0.18 + 0.23log K + 0.81log L R2 = 0.96 (0.43) (0.06) (0.15) 请检验“斜率”系数α和β的显著性。
解:(1) 检验 α 的显著性 原假设 H0: α = 0 备择假设 H1: α ≠0 由回归结果,我们有:t=0.23/0.06=3.83 用υ=24-3=21查t表,5%显著性水平下,tc =2.08. ∵t=3.83> tc =2.08, 故拒绝原假设H0 。 结论:α显著异于0。 (2) 检验 β 的显著性 原假设H0: β = 0 备择假设H1:β ≠0 由回归结果,我们有:t=0.81/0.15=5.4 ∵t=5.4> tc =2.08, 故拒绝原假设H0 。 结论:β显著异于0。
根据数理统计学中的知识,在原假设H0成立 的条件下,统计量
ESS / k F= RSS /(n − k − 1)
服从自由度为(k , n-k-1)的F分布 给定显著性水平α,可得到临界值Fα(k,n-k-1), α F 1 由样本求出统计量F的数值,通过 F> Fα(k,n-k-1) 或 F≤Fα(k,n-k-1)
2、关于拟合优度检验与方程显著性检验关系的讨 论
由
RSS /(n − k − 1) R = 1− TSS /(n − 1)
2
与
F=
ESS / k RSS /(n − k − 1)
可推出: R 2 = 1 − 或
n −1 n − k − 1 + kF R2 k F= (1 − R 2 ) /(n − k − 1)
ESS RSS R = = 1− TSS TSS
2
该统计量越接近于1,模型的拟合优度越高。 问题:在应用过程中发现,如果在模型中增加一个 解释变量, R2往往增大(Why?) 这就给人一个错觉:要使得模型拟合得好,只要增 加解释变量即可。—— 但是,现实情况往往是,由增 加解释变量个数引起的R2的增大与拟合好坏无关,R2 需调整。
由于
∑ (Y − Yˆ )(Yˆ − Y ) = ∑ e (Yˆ − Y ) ˆ ˆ ˆ = β ∑e + β ∑e X +⋯+ β ∑e X
i i i i
0 i 1 i 1i k i
ki
+ Y ∑ ei -
=0
所以有:
ˆ ) 2 + ∑ (Y − Y ) 2 = RSS + ESS ˆ TSS = ∑ (Yi − Yi i
2 i 2
=
ei2 (n − 2)∑ xi2 ∑
ˆ β12
=
ˆ β1 = β ˆ 2 1 ( n − 2) ∑ x i
∑e ⋅ 1 = t2 n − 2 ∑ xi2
2 i
2
在中国居民人均收入 消费支出 二元模型 中国居民人均收入-消费支出二元模型例中, 中国居民人均收入 消费支出二元模型 由应用软件计算出参数的t值:
注意: 注意:一个有趣的现象
(Y − Y ) = (Y − Yˆ ) + (Yˆ − Y ) (Y − Y ) ≠ (Y − Yˆ ) + (Yˆ − Y ) ∑ (Y − Y ) = ∑ (Y − Yˆ ) + ∑ (Yˆ − Y )
i i i i 2 2 2 i i i i 2 2 i i i i
2
为方便计算,我们也可以用矩阵形式表示R2 我们有:残差 残差平方和:
ˆ ˆ e = Y −Y = Y − Xβ
∑e
2
而
∑(Y −Y ) = ∑Y
2
ˆ ˆ = e′e = (Y′ − β′X′)(Y − Xβ) = Y′ − β′X ′ −Y′ β + β′X ′ β Y ˆ Y Xˆ ˆ Xˆ = Y′ − β′ ′ −Y′ β + β′X ′ ( X ′ )−1 X ′ Y ˆXY Xˆ ˆ X X Y = Y′ − β′X ′ −Y′ β + β′ ′ Y ˆ Y X ˆ ˆXY = Y ′ −Y ′ β Y Xˆ
t 1 = 7.378, t 2 = 2.201
给定显著性水平α=0.05,查得相应临界值: t0.025(28) =2.048。 可见,计算的所有 值都大于该临界值 计算的所有t值都大于该临界值 计算的所有 值都大于该临界值,所以 拒绝原假设。即: 2个解释变量都在 个解释变量都在95%的水平下显著 , 都通过 的水平下显著, 个解释变量都在 的水平下显著 了变量显著性检验。 了变量显著性检验。
故回归方程为: ˆ Y = 4 + 2.5X 2 −1.5X3
3 1 4 Y ˆ ′ β = (20 76 109) 2.5 =106.5 Y ′ = (3 1 8 3 5)8 = 108 YX 3 −1.5 5 2
Y′ β − nY 2 Xˆ R = Y′ − nY 2 Y
下面改变n的值,看一看 若n = 10,则 若n = 5, 则
R
2=
0.55
R
2
= - 0.20
由本例可看出, 2有可能为负值。 R 这与R2不同 ( 0 ≤ R2 ≤ 1 )。
二、方程的显著性检验(F检验) 方程的显著性检验,旨在对模型中被解释变量 与解释变量之间的线性关系在总体上是否显著成 立作出推断。
注意:一元线性回归中, 检验与F 注意:一元线性回归中,t检验与F检验一致 一方面,t检验与F检验都是对相同的原假设 一方面 H0:β1=0 进行检验; 另一方面,两个统计量之间有如下关系: 另一方面
F= ˆ ∑y
2 i 2 i
∑ e ( n − 2)
ei2 ∑
=
ˆ β12 ∑ xi2
∑ e ( n − 2)
RSS /( n − k − 1) R = 1− TSS /( n − 1)
2
其中:n-k-1为残差平方和的自由度,n-1为总 体平方和的自由度。
是经过自由度调整的决定系数,称为修正决定系数。 R2
我们有: (1)
R ≤R
2
2
(2)仅当K=0时,等号成立。即
R =R
2
ቤተ መጻሕፍቲ ባይዱ
2
(3)当K增大时,二者的差异也随之增大 (4)
5 ˆ = ( X ′ )−1 X ′ = 15 β X Y 25 267 /10 = 45/10 −8 45/10 1 − 3/ 2
15 55 81 −8
25 81 129
−1
20 76 109
20 4 −3/ 276 = 2.5 10 / 4 109 −1.5
=
e ′e n − k −1
ˆ β i ~ N ( β i , σ 2 cii )
因此,可构造如下t统计量
t= ˆ βi − βi S βˆ
i
ˆ βi − βi e′e cii n − k −1
~ t (n − k − 1)
2、t检验 、 检验
设计原假设与备择假设: H0:βi=0 H1:βi≠0 给定显著性水平α,可得到临界值tα/2(n-k-1), 由样本求出统计量t的数值,通过 |t|> tα/2(n-k-1) 或 |t|≤tα/2(n-k-1)
10, 又是多少。 当n = 10,n = 5 时, R 2 又是多少。
例2. 设 n = 20, k = 3, R2 = 0.70 , 求 R 2。 解:
(n −1)(1− R2 ) 19×(1− 0.70) 2 R =1− =1− = 0.644 (n − k −1) (20 − 4)
R 2 的值如何变化。我们有
1、方程显著性的 检验 、方程显著性的F检验
即检验模型
Yi=β0+β1X1i+β2X2i+ … +βkXki+µi i=1,2, …,n
中的参数βj是否显著不为0。 可提出如下原假设与备择假设: H0: β0=β1=β2= … =βk=0 H1: βj不全为0
F检验的思想来自于总离差平方和的分解式: 检验的思想 TSS=ESS+RSS
2
− nY 2 = Y′ − nY 2 Y
将上述结果代入R2的公式,得到:
′ − nY 2 − (Y′ −Y′ β ) Y′ β − nY 2 Xˆ Σe2 YY Y Xˆ 2 = R =1− 2 = 2 Y′ − nY 2 Y Σ(Y −Y ) Y′ − nY Y
这就是决定系数R2 的矩阵形式。
判定系数
1、t统计量 、 统计量
由于
ˆ) Cov(β = σ 2 ( X′X) −1
以cii表示矩阵(X’X)-1 主对角线上的第i个元素, 于是参数估计量的方差为: ˆ Var ( β ) = σ 2 c
i ii
其中σ2为随机误差项的方差,在实际计算 时,用它的估计量代替:
ˆ σ2 =
∑e
2 i
n − k −1
来拒绝或接受原假设H0,以判定原方程总体上 总体上的 总体上 线性关系是否显著成立。
对于中国居民人均消费支出的例子: 一元模型:F=985.6616(P54) 二元模型:F=560.5650 (P72) 给定显著性水平α =0.05,查分布表,得到临界 值: 一元例:Fα(1,30)=4.17 二元例: Fα(2,28)=3.34 显然有 F> Fα(k,n-k-1) 即二个模型的线性关系在95%的水平下显著成立。
第三章
多元线性回归模型
------- 拟合优度检验与假设检验
一、拟合优度检验
1、可决系数与调整的可决系数 总离差平方和的分解
则
TSS = Σ(Yi − Y ) 2 ˆ ˆ = Σ((Yi − Yi ) + (Yi − Y )) 2 ˆ ˆ ˆ ˆ = Σ(Yi − Yi ) 2 + 2Σ(Yi − Yi )(Yi − Y ) + Σ(Yi − Y ) 2
2
3+1+ 8 + 3 + 5 nY = 5× = 80 5
2
106.5 −80 26.5 R = = = 0.9464 108 −80 28
2
(n −1)(1− R2 ) 4×(1− 0.9464) R =1− =1− = 0.8928 (n − k −1) (5 −3)
2
习题. 习题 设 n = 20, k = 3, R2 = 0.70 , 求 R 2。
R2 R2 R2
R2
•在中国居民人均收入-消费一元模型中, 在中国居民人均收入 消费一元模型中 消费一元模型
•在中国居民人均收入 消费二元模型中, 在中国居民人均收入-消费二元模型中 消费二元模型
检验) 三、变量的显著性检验(t检验) 变量的显著性检验( 检验
方程的总体线性关系显著 每个解释变量对 方程的总体线性关系显著≠每个解释变量对 总体线性关系显著≠ 被解释变量的影响都是显著的 因此,必须对每个解释变量进行显著性检验, 以决定是否作为解释变量被保留在模型中。 检验完成的。 这一检验是由对变量的 t 检验完成的。
(i=1,2…k)
来拒绝或接受原假设H0,从而判定对应的解释变 判定对应的解释变 量是否应包括在模型中。 量是否应包括在模型中。
例:柯布-道格拉斯生产函数
用柯布和道格拉斯最初使用的数据(美国1899-1922年制造 业数据)估计经过线性变换的模型
logY = log A+α log K + β log L + log v
R 2 可能出现负值。
例1
以前面的数据为例, 以前面的数据为例,Yt = β1 + β2X2 t + β3X3 t + u t
设观测数据为: : 设观测数据为:Y: 3 1 8 3 5 X2:3 1 5 2 4 X3:5 4 6 4 6 试求 R2和 2 。 R
解:我们有
3 1 Y = 8 3 5 1 1 X = 1 1 1 3 1 5 2 4 5 4 6 4 6
调整的判定系数( 调整的判定系数(adjusted coefficient of determination) ) 在样本容量一定的情况下,增加解释变量必定使得自 由度减少,所以调整的思路是:将残差平方和与总离差平 将残差平方和与总离差平 方和分别除以各自的自由度, 方和分别除以各自的自由度,以剔除变量个数对拟合优度 的影响: 的影响
释变量 Y 的线性作用的结果,考虑比值
ˆ ESS / RSS = ∑ y i2 ei2 ∑
如果这个比值较大,则X的联合体对Y的解释程度 高,可认为总体存在线性关系,反之总体上可能不存 在线性关系。 因此, 因此,可通过该比值的大小对总体线性关系进行推 断。
得到如下结果(括号内数字为标准误差) : ˆ log Y = −0.18 + 0.23log K + 0.81log L R2 = 0.96 (0.43) (0.06) (0.15) 请检验“斜率”系数α和β的显著性。
解:(1) 检验 α 的显著性 原假设 H0: α = 0 备择假设 H1: α ≠0 由回归结果,我们有:t=0.23/0.06=3.83 用υ=24-3=21查t表,5%显著性水平下,tc =2.08. ∵t=3.83> tc =2.08, 故拒绝原假设H0 。 结论:α显著异于0。 (2) 检验 β 的显著性 原假设H0: β = 0 备择假设H1:β ≠0 由回归结果,我们有:t=0.81/0.15=5.4 ∵t=5.4> tc =2.08, 故拒绝原假设H0 。 结论:β显著异于0。
根据数理统计学中的知识,在原假设H0成立 的条件下,统计量
ESS / k F= RSS /(n − k − 1)
服从自由度为(k , n-k-1)的F分布 给定显著性水平α,可得到临界值Fα(k,n-k-1), α F 1 由样本求出统计量F的数值,通过 F> Fα(k,n-k-1) 或 F≤Fα(k,n-k-1)
2、关于拟合优度检验与方程显著性检验关系的讨 论
由
RSS /(n − k − 1) R = 1− TSS /(n − 1)
2
与
F=
ESS / k RSS /(n − k − 1)
可推出: R 2 = 1 − 或
n −1 n − k − 1 + kF R2 k F= (1 − R 2 ) /(n − k − 1)
ESS RSS R = = 1− TSS TSS
2
该统计量越接近于1,模型的拟合优度越高。 问题:在应用过程中发现,如果在模型中增加一个 解释变量, R2往往增大(Why?) 这就给人一个错觉:要使得模型拟合得好,只要增 加解释变量即可。—— 但是,现实情况往往是,由增 加解释变量个数引起的R2的增大与拟合好坏无关,R2 需调整。
由于
∑ (Y − Yˆ )(Yˆ − Y ) = ∑ e (Yˆ − Y ) ˆ ˆ ˆ = β ∑e + β ∑e X +⋯+ β ∑e X
i i i i
0 i 1 i 1i k i
ki
+ Y ∑ ei -
=0
所以有:
ˆ ) 2 + ∑ (Y − Y ) 2 = RSS + ESS ˆ TSS = ∑ (Yi − Yi i
2 i 2
=
ei2 (n − 2)∑ xi2 ∑
ˆ β12
=
ˆ β1 = β ˆ 2 1 ( n − 2) ∑ x i
∑e ⋅ 1 = t2 n − 2 ∑ xi2
2 i
2
在中国居民人均收入 消费支出 二元模型 中国居民人均收入-消费支出二元模型例中, 中国居民人均收入 消费支出二元模型 由应用软件计算出参数的t值:
注意: 注意:一个有趣的现象
(Y − Y ) = (Y − Yˆ ) + (Yˆ − Y ) (Y − Y ) ≠ (Y − Yˆ ) + (Yˆ − Y ) ∑ (Y − Y ) = ∑ (Y − Yˆ ) + ∑ (Yˆ − Y )
i i i i 2 2 2 i i i i 2 2 i i i i
2
为方便计算,我们也可以用矩阵形式表示R2 我们有:残差 残差平方和:
ˆ ˆ e = Y −Y = Y − Xβ
∑e
2
而
∑(Y −Y ) = ∑Y
2
ˆ ˆ = e′e = (Y′ − β′X′)(Y − Xβ) = Y′ − β′X ′ −Y′ β + β′X ′ β Y ˆ Y Xˆ ˆ Xˆ = Y′ − β′ ′ −Y′ β + β′X ′ ( X ′ )−1 X ′ Y ˆXY Xˆ ˆ X X Y = Y′ − β′X ′ −Y′ β + β′ ′ Y ˆ Y X ˆ ˆXY = Y ′ −Y ′ β Y Xˆ
t 1 = 7.378, t 2 = 2.201
给定显著性水平α=0.05,查得相应临界值: t0.025(28) =2.048。 可见,计算的所有 值都大于该临界值 计算的所有t值都大于该临界值 计算的所有 值都大于该临界值,所以 拒绝原假设。即: 2个解释变量都在 个解释变量都在95%的水平下显著 , 都通过 的水平下显著, 个解释变量都在 的水平下显著 了变量显著性检验。 了变量显著性检验。
故回归方程为: ˆ Y = 4 + 2.5X 2 −1.5X3
3 1 4 Y ˆ ′ β = (20 76 109) 2.5 =106.5 Y ′ = (3 1 8 3 5)8 = 108 YX 3 −1.5 5 2
Y′ β − nY 2 Xˆ R = Y′ − nY 2 Y
下面改变n的值,看一看 若n = 10,则 若n = 5, 则
R
2=
0.55
R
2
= - 0.20
由本例可看出, 2有可能为负值。 R 这与R2不同 ( 0 ≤ R2 ≤ 1 )。
二、方程的显著性检验(F检验) 方程的显著性检验,旨在对模型中被解释变量 与解释变量之间的线性关系在总体上是否显著成 立作出推断。
注意:一元线性回归中, 检验与F 注意:一元线性回归中,t检验与F检验一致 一方面,t检验与F检验都是对相同的原假设 一方面 H0:β1=0 进行检验; 另一方面,两个统计量之间有如下关系: 另一方面
F= ˆ ∑y
2 i 2 i
∑ e ( n − 2)
ei2 ∑
=
ˆ β12 ∑ xi2
∑ e ( n − 2)
RSS /( n − k − 1) R = 1− TSS /( n − 1)
2
其中:n-k-1为残差平方和的自由度,n-1为总 体平方和的自由度。
是经过自由度调整的决定系数,称为修正决定系数。 R2
我们有: (1)
R ≤R
2
2
(2)仅当K=0时,等号成立。即
R =R
2
ቤተ መጻሕፍቲ ባይዱ
2
(3)当K增大时,二者的差异也随之增大 (4)
5 ˆ = ( X ′ )−1 X ′ = 15 β X Y 25 267 /10 = 45/10 −8 45/10 1 − 3/ 2
15 55 81 −8
25 81 129
−1
20 76 109
20 4 −3/ 276 = 2.5 10 / 4 109 −1.5
=
e ′e n − k −1
ˆ β i ~ N ( β i , σ 2 cii )
因此,可构造如下t统计量
t= ˆ βi − βi S βˆ
i
ˆ βi − βi e′e cii n − k −1
~ t (n − k − 1)
2、t检验 、 检验
设计原假设与备择假设: H0:βi=0 H1:βi≠0 给定显著性水平α,可得到临界值tα/2(n-k-1), 由样本求出统计量t的数值,通过 |t|> tα/2(n-k-1) 或 |t|≤tα/2(n-k-1)
10, 又是多少。 当n = 10,n = 5 时, R 2 又是多少。
例2. 设 n = 20, k = 3, R2 = 0.70 , 求 R 2。 解:
(n −1)(1− R2 ) 19×(1− 0.70) 2 R =1− =1− = 0.644 (n − k −1) (20 − 4)
R 2 的值如何变化。我们有
1、方程显著性的 检验 、方程显著性的F检验
即检验模型
Yi=β0+β1X1i+β2X2i+ … +βkXki+µi i=1,2, …,n
中的参数βj是否显著不为0。 可提出如下原假设与备择假设: H0: β0=β1=β2= … =βk=0 H1: βj不全为0
F检验的思想来自于总离差平方和的分解式: 检验的思想 TSS=ESS+RSS
2
− nY 2 = Y′ − nY 2 Y
将上述结果代入R2的公式,得到:
′ − nY 2 − (Y′ −Y′ β ) Y′ β − nY 2 Xˆ Σe2 YY Y Xˆ 2 = R =1− 2 = 2 Y′ − nY 2 Y Σ(Y −Y ) Y′ − nY Y
这就是决定系数R2 的矩阵形式。
判定系数
1、t统计量 、 统计量
由于
ˆ) Cov(β = σ 2 ( X′X) −1
以cii表示矩阵(X’X)-1 主对角线上的第i个元素, 于是参数估计量的方差为: ˆ Var ( β ) = σ 2 c
i ii
其中σ2为随机误差项的方差,在实际计算 时,用它的估计量代替:
ˆ σ2 =
∑e
2 i
n − k −1
来拒绝或接受原假设H0,以判定原方程总体上 总体上的 总体上 线性关系是否显著成立。
对于中国居民人均消费支出的例子: 一元模型:F=985.6616(P54) 二元模型:F=560.5650 (P72) 给定显著性水平α =0.05,查分布表,得到临界 值: 一元例:Fα(1,30)=4.17 二元例: Fα(2,28)=3.34 显然有 F> Fα(k,n-k-1) 即二个模型的线性关系在95%的水平下显著成立。
第三章
多元线性回归模型
------- 拟合优度检验与假设检验
一、拟合优度检验
1、可决系数与调整的可决系数 总离差平方和的分解
则
TSS = Σ(Yi − Y ) 2 ˆ ˆ = Σ((Yi − Yi ) + (Yi − Y )) 2 ˆ ˆ ˆ ˆ = Σ(Yi − Yi ) 2 + 2Σ(Yi − Yi )(Yi − Y ) + Σ(Yi − Y ) 2
2
3+1+ 8 + 3 + 5 nY = 5× = 80 5
2
106.5 −80 26.5 R = = = 0.9464 108 −80 28
2
(n −1)(1− R2 ) 4×(1− 0.9464) R =1− =1− = 0.8928 (n − k −1) (5 −3)
2
习题. 习题 设 n = 20, k = 3, R2 = 0.70 , 求 R 2。
R2 R2 R2
R2
•在中国居民人均收入-消费一元模型中, 在中国居民人均收入 消费一元模型中 消费一元模型
•在中国居民人均收入 消费二元模型中, 在中国居民人均收入-消费二元模型中 消费二元模型
检验) 三、变量的显著性检验(t检验) 变量的显著性检验( 检验
方程的总体线性关系显著 每个解释变量对 方程的总体线性关系显著≠每个解释变量对 总体线性关系显著≠ 被解释变量的影响都是显著的 因此,必须对每个解释变量进行显著性检验, 以决定是否作为解释变量被保留在模型中。 检验完成的。 这一检验是由对变量的 t 检验完成的。
(i=1,2…k)
来拒绝或接受原假设H0,从而判定对应的解释变 判定对应的解释变 量是否应包括在模型中。 量是否应包括在模型中。
例:柯布-道格拉斯生产函数
用柯布和道格拉斯最初使用的数据(美国1899-1922年制造 业数据)估计经过线性变换的模型
logY = log A+α log K + β log L + log v
R 2 可能出现负值。
例1
以前面的数据为例, 以前面的数据为例,Yt = β1 + β2X2 t + β3X3 t + u t
设观测数据为: : 设观测数据为:Y: 3 1 8 3 5 X2:3 1 5 2 4 X3:5 4 6 4 6 试求 R2和 2 。 R
解:我们有
3 1 Y = 8 3 5 1 1 X = 1 1 1 3 1 5 2 4 5 4 6 4 6
调整的判定系数( 调整的判定系数(adjusted coefficient of determination) ) 在样本容量一定的情况下,增加解释变量必定使得自 由度减少,所以调整的思路是:将残差平方和与总离差平 将残差平方和与总离差平 方和分别除以各自的自由度, 方和分别除以各自的自由度,以剔除变量个数对拟合优度 的影响: 的影响