第五讲 统计检验(2)与预测

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ˆ 是真实平均值的点预测值,也是个别值的点预测值。 Y F
由于存在随机扰动项的影响,Y的条件均值并不等于Y 的个别值。
ˆ 为了对Y的个别值 YF做区间预测,需要寻找与预测值 Y F
和个别值 YF 有关的统计量,并要明确其概率分布。
具体作法:
ˆ F是与预测值 Y ˆ 及个别值 YF 已知剩余项 eF YF Y F 都有关的变量,并且已知 e F 服从正态分布,且可证 明 E (eF ) 0 2 1 (XF X ) 2 2 ˆ Var (eF ) E (YF Y F ) [1 ] 2 n xi
平均值的预测区间
于是,在1-的置信度下,总体均值 EYF X F 的置信区间为
2 2 ( X X ) ( X X ) 1 1 F F ˆF t ˆF t ˆ ˆ [Y , Y ] 2 2 2 2 n n xi xi
个别预测值的置信区间
基本思想:
显著性水平 —
犯第一类错误的概率——拒绝了真值的假设的概率 经典假设检验方法的痛处 —选择 的武断
用 P 值判断参数的显著性
假设检验的 p 值:
p 值是基于既定的样本数据所计算的统计量,拒绝 原假设的最低显著性水平。 统计分析软件中通常都给出了检验的 p 值
相对于显著性水平 计算的统计量:
二、变量的显著性检验
从拟合优度中看出,拟合优度越高,就说明样本 回归线对观测值的拟合就越好,但这只是推测,被 解释变量与解释变量之间的线性关系是否显著,或 者解释变量对被解释变量是否有显著的线性影响, 需要我们去研究,这就是变量的显著性检验。
回归分析中,主要是针对变量X前的参 数真值是否为零来检验。
t ˆ
2
X
2 i
ˆ 0 0
2 i
n x
2 i

ˆ 0 S ˆ
0
~ t (n 2)
在上述收入-消费支出例中,首先计算2的估计值
ˆ
2
e
2 i
n2
y
n2
ˆ 2 x2 1 i
3354955 0.6702 7425000 2734 10 2
当 2 未知,且样本容量较小时
只能用 ˆ
2
2 去代替 ,可利用 t分布作 t 检验:
t
*
ˆ 2 2 ˆ) SE ( 2
^

ˆ 2 ˆ) SE ( 2
^
~ t (n 2)
t
*
ˆ 2 2 ˆ) SE ( 2
^

ˆ 2 ˆ) SE ( 2
2.4 一元线性回归模型的统计检验 2.5 一元线性回归分析的应用:预测问题
一、参数的区间估计 一、拟合优度检验 二、拟合优度检验 三、变量的显著性检验 三、参数的置信区间估计
二、变量的显著性检验
三、参数的置信区间估计
ˆ ˆ 1 P 1 1 1


ˆ t 1 1 : t n 2 ˆ se 1

^
给定显著性水平 整理可以得到 1
ˆ 1 P t 2 1 t 2 1 ˆ se 1 的置信度下 1 的置信区间是

ˆ t SE( ˆ ) ˆ t SE( ˆ )] 1 P[ 2 2 2 2 2 2 2
ˆ F t SE(e )] Y [Y ˆ F t SE(e )]} 1 P{[Y 2 F F 2 F
因此,一元回归时Y的个别值的置信度为 1 的预测区间 上下限为
2 ( X X ) 1 ˆ ˆ 1 F 2 YF Y F t 2 n xi
1、假设检验 I. II. 先根据实际问题的要求提出一个论断, 称为原假设, 然后根据样本信息,看能得到什么结 果,如果导致一个不合理的结果,拒 绝原假设。
III.
判断结果合理与否,是基于“小概 率事件不易发生”这一原理的。
注意这里的“接受和拒绝”
基本概念回顾: 临界值与概率、大概率事件与小概率事件
^
ˆ ˆ 1 t S ˆ1 , 1 t S ˆ1 2 2
ˆ ˆ 1 t S ˆ1 , 1 t S ˆ1 2 2
由于置信区间一定程度地给出了样本参数估计 值与总体参数真值的“接近”程度,因此置信区间 越小越好。 要缩小置信区间,需 (1)增大样本容量n,因为在同样的置信水平 下,n越大,t分布表中的临界值越小 (2)提高模型的拟合优度,因为样本参数估计 量的标准差与残差平方和呈正比,模型拟合优度越 高,残差平方和应越小。
2
26
若对于前面的例子,我们得到了总体均值 E Y X 1000 的95%的置信区间为
533.05,814.62
如何解释?
给定 X 0 1000 在重复抽样中,每100个类似于(533.05,814.62) 的区间将有95个包含着真实的均值。 如果我们对每一个X值求类似于(533.05,814.62) 的95%的 置信区间,把这些区间的端点连接起来,我们就得到如图 所展示的一个关于总体回归函数的置信带。 同样我们也可得到Y的个别值在 X 1000的95%的置信区间为 (372.03,975.65) 如果我们对每一个X值求类似于(372.03,975.65)的95%的置 信区间,把这些区间的端点连接起来,我们就得到如图所 展示的一个关于Y的个别值的置信带。
(2)以原假设H0构造t统计量,并由样本计算其值
t*
ˆ 0 1 S ˆ
1
(3)给定显著性水平,查t分布表,得临界值t /2(n-2)
(4) 比较,判断
注意1:
一个“大”的 t
注意2:
是与原假设相抵触的迹象。
观察t分布表,当自由度为20或更大时,计算的t值 如果是2.5或3或更大,则我们就不需要再查阅t分 布表以评定所估的参数的显著性,它必定是要拒 绝原假设,即该变量通过了显著性检验。 当自由度小于20时,我们要查阅t分布表。
相对于显著性水平 的临界值为: 计算的统计量为:
t (单侧)或 t 2(双侧)
t
*
(小概率事件) (大百度文库率事件)

1
t 2
0
t
*
t 2
统计量 t
6
2、变量的显著性检验
确立假设:原假设为
备择假设为
H 0 : 1 0
H1 : 1 0
(本质:检验 1 是否为0,即检验 X i 是否对Y有显著影响)
预测值、平均值、个别值的关系
SRF
点预测值
PRF
真实平均值 E YF X F
个别值


F
XF
YF
eF
ˆ 是真实平均值预测值的点估计,也是个别值预测 Y F
值的点估计。
总体条件均值的区间估计
基本思想:
ˆ 值不一定等于真实总 由于存在抽样波动,预测的 Y F 体条件均值 E YF X F 。 ˆ 和 E YF X F 都有关的统计量 必须找出与 Y F
ˆ 的分布分析 具体做法:从 Y
F
ˆ ˆX ˆ Y F 0 1 F
ˆ ˆ X ) E( ˆ ) X E( ˆ ) X ˆ ) E( E(Y F 0 1 F 0 F 1 0 1 F
ˆ Var Y F

1 X X 2 F 2 2 xi n
的临界值: t 或 t 2
t 2 与
t
*
相对应
t*

P
与 P 相对应
注意: t检验是比较
t *和 t 2
P值检验是比较
和p
t
*
t 2
t 2 t *
统计量 t
用 P 值判断参数显著性的方法
方法:将给定的显著性水平 与 p 值比较:
►若
p
值,必有 t * t 值,必有 t * t
R 0.9766 df 8 可决系数和自由度 F 2859 DW 1.85 F统计量 DW统计量
2.5 一元线性回归分析的应用:预测问题
计量经济预测是一种条件预测:
模型设定的关系式不变 所估计的参数不变 解释变量在预测期的取值已作出预测
预测的类型
对被解释变量的预测分为:平均值和个别值预测 对被解释变量的预测又分为点预测和区间预测
(较复杂不具体证明)
ˆ 2 ei2 (n 2)代替 2时,对 e F标准化的变量 t 当用 为
t
eF E (eF ) SE (eF)
^

ˆF YF Y
1 ( X F X )2 ˆ 1 2 n x i
~ t (n 2)
23
构建个别值的预测区间
给定显著性水平 ,查 t 分布表得自由度为n—2 的临界值 t 2 (n 2) ,则有
ˆ S ˆ 0.670 0.019 34.92 t1 1 1
给定显著性水平=0.05,查t分布表n=10得临界值
t 0.05/2(8)=2.306
|t0|>2.306,表明在5%的显著性水平下,拒绝原假设 |t1|>2.306,表明在5%的显著性水平下,拒绝原假设,说 明家庭可支配收入在5%的显著性水平下,对消费支出有 显著的线性影响。
^
^
被解释变量Y区间预测的特点
(1)Y平均值的预测值与真实平均值有误差,主要
是受抽样波动影响
预测区间
2 ( X X ) 1 F ˆF t ˆ YF Y 2 2 n x i
Y个别值的预测值与真实个别值的差异,不仅受抽 样波动影响,而且还受随机扰动项的影响 预测区间
2 ( X X ) 1 F ˆF t ˆ YF Y 1 2 2 n x i
ˆ2 S ˆ
1
0
2 x i 2734/ 7425000 0.0004 0.019
ˆ 2 X i2 n xi2 2734 53650000 S ˆ / 10 7425000 44.45
H0: 0=0
H0: 1=0
t统计量的计算结果分别为:
ˆ 0 S ˆ 142.40 44.45 3.20 t0 0
0
Yˆ ~ N (
F
X ,
1 F
2
(
1 n

(X
0
X )2
)) x
2 i

E YF
t
ˆ X Y F 0 1 F ˆ 1 XF X 2 n x i
2
t n 2
给定显著性水平α,查 t 分布表,得自由度n-2的临界值,则有
回归分析结果的报告
经过模型的估计、检验,得到一系列重要的数 据,为了简明、清晰、规范的表述这些数据,计量 经济学通常采用以下规范化的方式:
ˆ 103.172 0.777 X Y i i t
2
估计的样本回归函数 标准误差SE 估计的t统计量
98.41 0.0425 1.048 18.29
P(t 2 t t 2 ) 1
P(t 2 t
^
ˆ E (Y X ) Y F F F ˆ ) SE(Y F
^
t 2 ) 1
^
ˆ F t SE(Y ˆ F )] E(Y X ) [Y ˆ F t SE(Y ˆ F )]} 1 p{[Y 2 F F 2
2
^
~ t (n 2)
给定 , 查 t 分布表得 ▼如果 t * t (n 2)
2
t (n 2)
则拒绝原假设 H 0 : 2 0 ▼如果 t * t (n 2)
2
则不拒绝原假设 H0 : 2 0
检验步骤:
(1)对总体参数提出假设 H0: 1=0, H1:10
25
(2)平均值和个别值预测区间都不是常数, 是随 X F 的变化而变化的,当 X F X 时,预测区间最小。 (3)预测区间上下限与样本容量有关,当样本容量 n→∞时,个别值的预测区间只决定于随机扰 动的方差。
预测区间
1 (XF X ) ˆ ˆ 1 YF Y F t 2 2 n xi
2
,则在显著性水平

下拒绝原假设 H0 : k 0 ,即认为 X 对 Y 有显著影响 ►若
p
2
,则在显著性水平

下不拒绝原假设 H0 : k 0 ,即认为 X 对 Y 没有显著
影响
规则:当 p 时,P值越小,越能拒绝原假设 H 0
12
对于一元线性回归方程中的0,可构造如下t 统计量进行显著性检验:
相关文档
最新文档