第2章(3)一元线性回归模型的统计检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对于所有样本点,则需考虑这些点与样本均值离差 的平方和:
记
TSS
y
2 i
(Y
i
Y )
2
总体平方和(Total Sum of Squares) 回归平方和(Explained Sum of Squares) 残差平方和(Residual Sum of Squares )
ESS
ˆ2 yi
§2.3
一元线性回归模型 的统计检验
一、拟合优度检验
二、变量的显著性检验
三、参数的置信区间
说 明
• 一元线性回归模型是最简单的回归分析模型。
–回归分析就是要根据样本数据对总体回归模型的 参数进行估计,或者说是用样本回归线近似代替 总体回归线。
• 尽管从参数估计量的统计性质我们已经知道, 如果进行多次抽样,那么参数估计量的期望值 (均值)就等于总体参数的真值,但是依据一 次抽样所得到的参数估计值不一定等于该参数 的真值。
Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)
那么,如何构造表征拟合程度的统计量R2 ?这与下面的 一组概念有关。
1、总离差平方和、回归平方和及残差平方和(教材P40) 假定由一组样本观测值(Xi,Yi),i=1,2…,n,已经 得到如下样本回归直线
2、变量的显著性检验
我们先来构造用于变量显著性检验的检验统计量。 (补充) 对于一元线性回归方程,我们已经知道
ˆ 1 ~ N (1,
2 2 i
)
x
另外,可以证明(参见周纪芗《回归分析》P14):
(1) (2)
ei
2
2
~
2
n 2
ˆ 1与 e i 独立
2
于是,可以构造如下统计量:
ˆ 1 1 t
2
/
xi
2
~ t (n 2)
e
2
2 i
(n 2)
化简,得
t
ˆ1 1
e
x
2 i
ˆ1 1 ˆ
2
2 i
n2
x
Leabharlann Baidu
2 i
ˆ1 1
S ˆ
1
~ t (n 2)
该统计量即为用于变量X的显著性检验的 t 统计量。
变量显著性检验的步骤: (★)
• 对于给定样本,总离差平方和TSS不变;如果 样本回归线离实际观测点越近,则回归平方和 ESS在总离差平方和TSS中所占的比重越大。
• 因此,可以定义
拟合优度:回归平方和ESS/总离差平方和TSS
2、可决系数R2统计量
记 R
2
ESS TSS
1
RSS TSS
ˆ2 yi yi
2
1
–这就需要进行变量的显著性检验。或者说,需要 对回归参数1的真值是否为零进行显著性检验。
• 变量的显著性检验所应用的方法是数理统计学 中的假设检验。
1.关于假设检验(教材P43)
• 所谓假设检验,就是事先对总体参数或总体分布形式
作出一个假设(原假设),然后利用样本信息来判断
原假设是否合理,即判断样本信息与原假设是否显著 地有差异,从而决定是否拒绝原假设。 • 假设检验的程序:先根据实际问题的要求提出一个 论断,称为统计假设,记为H0 ;然后根据样本的有 关信息,对H0的真伪进行判断,作出拒绝H0或接受 H0的决策。
小概率事件(其发生概率为
) 随机抽取一组容量为 n 的 。
样本观测值进行该事件的试验, 果该事件发生了, 明 原 如 说 “ 假 设 H0 正 确 ” 是 错 误 的 , 因 为 不 应 该 出 现 的 小 概 率 事 件 出 现 了 ,因 而 应 该 拒 绝 原 假 设 H 0 。反 之 ,如 果 该 小 概 率 事 件 没 有 出 现 , 就 没 有 理 由 拒 绝 原 假 设 H 0, 应 该 接 受 原 假 设 H 0。
y
ei
2
2 i
称 R2 为可决系数(coefficient of determination)或 判定系数。 可决系数R2的取值范围:[0,1] R2越接近1,说明实际观测点离样本回归线越 近,拟合优度越高。
ˆ 在实际计算可决系数时,在1 已经估计出后:
2
R
ˆ2 yi yi
2
ˆ 1
(见教材P40)
)
• 拟合优度检验:对样本回归直线与样本观测值之间 拟合程度的检验。 • 度量拟合优度的指标:判定系数(可决系数)R2 • 问题:采用普通最小二乘法,已经保证了模型最好地 拟合了样本观测值,为什么还要检验拟合程度? • 答案:普通最小二乘法所保证的最好拟合,是同一 个问题内部的比较;而拟合优度检验结果所表示的 优劣是不同问题之间的比较。 • 我们来看两个例子。
Std. Error t-Statistic 98.40598 -1.048429 0.042485 18.28900 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)
• 换句话说,一个几乎不可能发生的小概率事
件(“检验统计量的样本值落入拒绝域”)
在一次试验中就发生了,这违背了小概率事
件原理,也就意味着导致了一个不合理的结
果。
显著性检验的步骤: (★)
(1)提出原假设H0和备择假设H1; (2)计算检验统计量的样本值; (3)确定临界值和拒绝域; (4)下结论。
例2.2.1(P34-35)的Eviews软件运行结果:
Dependent Variable: Y Method: Least Squares Date: 09/25/07 Time: 22:13 Sample: 1901 1910 Included observations: 10 Variable Coefficient C -103.1717 X 0.777010 R-squared 0.976641 Adjusted R-squared 0.973722 S.E. of regression 115.7670 Sum squared resid 107216.0 Log likelihood -60.58946 Durbin-Watson stat 3.120320
假设检验的基本思想是概率性质的反证法。也就是说, 为了检验原假设H0是否正确,先假定这个假设是正确 的,看由此能推出什么结果。如果导致一个不合理的 结果,则表明“假设H0为正确”是错误的,即原假设 H0不正确,因此要拒绝原假设H0。如果没有导致一个 不合理现象的出现,则不能认为原假设H0不正确,因 此不能拒绝原假设H0 。
• 那么,在一次抽样中,参数的估计值与 真值的差异有多大?差异是否显著?
–这就需要进一步进行统计检验。
• 一元线性回归的统计检验主要包括:
–拟合优度检验; –变量的显著性检验; –此外, 教材的这一节还包括回归参数的置 信区间。
一、拟合优度检验( Testing the Simulation Level
概率性质的反证法的根据是小概率事件原理。该原理认
为“小概率事件在一次试验中几乎是不可能发生的”。
具 体 思 路 是 这 样 : 在 原 假 设 H0 下 构 造 一 个 事 件 ( 该 事 件 就 是 拒 绝 域 ) 这 个 事 件 在 “ 原 假 设 H0 正 确 ” 的 条 件 下 是 一 个 ,
• 残差平方和RSS(Residual Sum of Squares):反 映被解释变量样本观测值与估计值偏离的大小, 也是模型中解释变量未解释的那部分离差的大 小。
可以证明(根据正规方程组):
也即
TSS = ESS + RSS
结论:被解释变量Y的观测值围绕其均值的总 离差(total variation)可以分解为两部分: 一部分来自回归线(ESS),另一部分则来自随 机因素(RSS)。
(1)对总体参数提出假设: H0: 1=0,
ˆ1 1
例:
25 30
20
25
20 15
Y1
Y2
15
10 10 5
5
0 0 2 4 6 X 8 10 12
0 0 2 4 6 X 8 10 12
关于左图:
Dependent Variable: Y1 Method: Least Squares Date: 03/04/03 Sample: 1 10 Included observations: 10 Variable C X R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat Coefficient 2.733333 2.048485 0.977949 0.975193 0.987804 7.806061 -12.95096 3.449139 Std. Error 0.674799 0.108754 t-Statistic 4.050590 18.83600 Prob. 0.0037 0.0000 14.00000 6.271629 2.990192 3.050709 354.7950 0.000000 Time: 02:30
Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)
关于右图:
Dependent Variable: Y2 Method: Least Squares Date: 03/04/03 Sample: 1 10 Included observations: 10 Variable C X R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat Coefficient 2.466667 2.096970 0.920751 0.910844 1.975609 31.22424 -19.88243 3.449139 Std. Error 1.349598 0.217507 t-Statistic 1.827705 9.640913 Prob. 0.1050 0.0000 14.00000 6.616478 4.376487 4.437004 92.94720 0.000011 Time: 02:36
ˆ ˆ Yˆi 0 1 X
i
ˆ y i Y i Y ( Y i Yˆi ) ( Yˆi Y ) e i y i
ˆ y i Y i Y ( Y i Yˆi ) ( Yˆi Y ) e i y i
其中:
极端情形:如果 Yi=Ŷi ,即实际观测值落在样本回 归“线”上,则拟合最好。这时可以认为,“离差” 全部来自回归线,而与“残差”无关。
Prob. 0.3251 0.0000 1567.400 714.1444 12.51789 12.57841 334.4876 0.000000
二、变量的显著性检验
• 回归分析是要判断解释变量X是否是被解释变 量Y的一个显著的影响因素。
• 在一元线性回归模型中,就是要判断X对Y是否 具有显著的线性影响。
y
2
xi
2 i
2
在例2.2.1(P34-35)的可支配收入-消费支出例子中,
R
2
ˆ 1
y
2
xi
2 i
2
( 0 . 777 ) 7425000
2
0 . 9766
4590020
结果表明,在Y的总变差中,有97.66 %可以由X做出解释。换 句话说,可支配收入可以解释消费支出总变差的97.66%。回归 方程对样本观测值的拟合效果好。
2 (Yˆi Y )
RSS
ei
2
2 (Y i Yˆi )
• 总离差平方和TSS(Total Sum of Squares):反 映被解释变量样本观测值总体离差的大小; • 回归平方和ESS(Explained Sum of Squares): 反映由模型中解释变量所解释的那部分离差的 大小;