斯托克计量经济学课件 (4)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
21
△ 什么是同方差和异方差
• 同方差和异方差的定义
若 var(u|X=x) 为常数,即若给定X 时u的条件分布方差不依 赖于X ,则称 u 是同方差的. 否则, u 是异方差的.
• 用实际例子阐明定义 第3章专栏文章“美国大学毕业生收入的性别差距”
• 同方差和异方差的图示(见后)
• 同方差和异方差的一个实例(见后)
|
Robust
testscr |
Coef. Std. Err.
t P>|t|
[95% Conf. Interval]
--------+----------------------------------------------------------------
str | -2.279808 .5194892 -4.38 0.000 -3.300945 -1.258671
6
SE(ˆ1) 的公式
回顾ˆ1 方差的表达式(大 n):
var( ˆ1 )
=
var[( Xi x )ui ]
n(
2 X
)2
=
2 v
n
4 X
,
其中
vi
=
(Xi
–
X)ui.
ˆ1
方差的估计量:利用数据构造估计量取替未知总体值
2
和
4 X
:
ˆ
2 ˆ1
=
1 n
2的估计
v
( X2的估计)2
=
1 n 1
n
ˆ1 的抽样分布:
在 LSA 下, 对大 n , ˆ1 近似服从,
ˆ1
~
N
1,
2 v
n
4 X
,
其中
vi
=
(Xi
–
X)ui
4
5.1 关于某个回归系数的假设检验
• 1的假设检验
目的是利用数据检验诸如 1 = 0 的假设,得到(原)假设正
确与否的暂时性结论.
一般步骤
1. 提出原假设和备择假设
原假设和双边备择假设:
STRi STRi
20 20
OLS 回归: TestScore = 650.0 + 7.4D
组均值的列表表示:
(1.3) (1.8)
班级规模 小 (STR > 20) 大 (STR ≥ 20)
平均成绩 (Y )
657.4 650.0
标准误差 (sY)
N
19.4
238
17.9
182
均值之差: Ysmall Ylarge = 657.4 – 650.0 = 7.4
= –4.38
• 1% 双边检验的显著性水平为 2.58, 故在 1%显著水平下拒
绝原假设.
• 同样地,我们也可以通过计算 p-值进行假设检验.
10
基于 t-统计量的大 n 标准正态近似的 p-值 为 0.00001 (10–5)
• 截距的假设检验(同斜率的)
注:要进行假设检验,前提要有具有的原假设
n源自文库
1
2
n i1
vˆi2
n i1
(Xi
X
2
)
2
其中vˆi = ( X i X )uˆi .
7
ˆ
2 ˆ1
=
1 n
1 n
1
n2
n
(Xi
i1
n i1
vˆi2 X )2
2
,
其中
vˆi
=
(Xi
X
)uˆi
.
SE(ˆ1) =
ˆ
2 ˆ1
=
ˆ1的标准误差
这个公式看着令人有些讨厌,但: • 事实上并没有看上去的那样复杂,其中分子估计的是 var(v), 分母估计的是 var(X).
• H0: 1 = 1,0 , H1: 1 ≠ 1,0 (1,0 是 H0 下 1 的取值)
• t = (ˆ1 – 1,0)/SE(ˆ1)
• p-值 =位于|tact|之外标准正态下方的面积(大 n)
置信区间: (以1 为例)
• 1 的 95% 置信区间为 {ˆ1 ±1.96×SE(ˆ1)}
• 这是在 5%水平下不能被拒绝的1 取值集合 • 在所有样本中有 95%样本构造的 95% CI 包含了真实的1 取值.
置信区间构造类似于总体均值的情形:
1 的 95% 置信区间= {ˆ1 1.96 SE(ˆ1)}
二、0 的置信区间
12
置信区间实例: Test Scores 和 STR
回归线估计: TestScore = 698.9 – 2.28STR
SE(ˆ0) = 10.4
SE(ˆ1) = 0.52
ˆ1的 95% 置信区间为:
ˆ
2 ˆ1
• 查临界值表,若|t| > 1.96,则在 5% 显著水平下拒绝
或者
计算 p-值 = Pr[|t| > |tact|] = 正态分布位于|tact|之外的尾部概
率; 若 p-值< 5%,则在 5% 显著水平下拒绝.
• 该方法依赖于大 n 近似; 通常 n = 50 已经大到足以确保具 有良好的近似效果.
_cons | 698.933 10.36436 67.44 0.000
678.5602 719.3057
-------------------------------------------------------------------------
由此得:
TestScore = 698.9 – 2.28STR, , R2 = .05, SER = 18.6
(10.4) (0.52)
t (1 = 0) = –4.38, p-值 = 0.000 (双边还是单边?) 1 的 95% 双边置信区间为(–3.30, –1.26)
15
关于 0 和 1 统计推断的总结
估计:
• ˆ0 和 ˆ1 的 OLS 估计量 • 大样本下ˆ0 和ˆ1 都近似服从正态抽样分布
检验:(以1 为例)
11
5.2 回归系数的置信区间
回顾:95% 的置信区间等同于: • 在 5%显著水平下不能被拒绝的点集; • 取值为集合的数据函数 (即为数据函数的一个区间):在重 复样本中有 95%的样本构造的区间包含了真实参数.
一、1 的置信区间 由于1 的 t-统计量在大样本下服从 N(0,1), 因此1 的 95%
9
实例: Test Scores 和 STR, 加利福尼亚数据集
回归线估计: TestScore = 698.9 – 2.28STR 回归软件同时也给出了相应的标准误差:
SE(ˆ0) = 10.4
SE(ˆ1) = 0.52
检验1,0 = 0 的 t-统计量 =
ˆ1 1,0 SE ( ˆ1 )
=
2.28 0 0.52
4. 利用估计量 (ˆ1)得到点估计及其 SE, 假设检验和置信
区间.
3
感兴趣的对象: 下式中的1
Yi = 0 + 1Xi + ui, i = 1,…, n 1 表示 X 独立变化一个单位对 Y 的影响 (因果效应)
最小二乘假设: 1. E(u|X = x) = 0. 2. (Xi,Yi), i =1,…,n, i.i.d. 3. 罕见异常值(E(X4) < , E(Y4) < .
• Yi 的均值为 0 • 即 E(Yi|Xi=0) = 0 当 Xi = 1 时, Yi = 0 + 1 + ui • Yi 的均值为 0 + 1 • 即 E(Yi|Xi=1) = 0 + 1 故:
1 = E(Yi|Xi=1) – E(Yi|Xi=0)
= 两组总体的均值之差
18
实例:
设
Di
=
1,当 0,当
{ˆ1 -1.96SE(ˆ1)} = {–2.28 + 1.960.52}
= (–3.30, –1.26)
下面两种叙述是等价的 (为什么?)
• 95% 置信区间中不包含零;
• 在 5%水平下拒绝假设 1 = 0
13
报告回归的一种简洁(也是常用)的方法:
将标准误差置于相应的回归系数估计值下面,并用括号括起. TestScore = 698.9 – 2.28STR, R2 = .05, SER = 18.6 (10.4) (0.52)
估计量的标准误差 其中估计量的 SE 是估计量方差的估计的平方根.
3. 作出是否拒绝原假设的结论
计算 p-值 或者与 N(0,1)的临界值进行比较
• 斜率系数的假设检验方法类似于均值的假设检验
检验 Y 的均值:
t = Y Y ,0
sY / n
检验 1,
t = ˆ1 1,0 ,
SE ( ˆ1 )
其中 SE(ˆ1) = ˆ1抽样分布的方差的估计的平方根 ,公式?
H0: 1 = 1,0 对 H1: 1 ≠ 1,0 其中 1,0 为原假设下的假设值.
原假设和单边备择假设:
H0: 1 = 1,0 对 H1: 1 < 1,0 或 H0: 1 = 1,0 对 H1: 1 >1,0
问题:实际应用中究竟用单边还是双边假设?
5
2. 寻找检验统计量
构造 t-统计量 通常: t = 估计量 - 假设值
• 二元回归变量和连续回归变量时的回归的异同
区别仅体现在回归系数的解释方面,其余如估计和检验相同
连续回归变量回归中的 1 被称为 “斜率,” 但当 X 为二元时这种称呼
毫无意义.
17
二元回归变量时回归系数的解释(同均值之差的分析)
Yi = 0 + 1Xi + ui, 其中 X 为二元的 (Xi = 0 或者 1): 当 Xi = 0 时, Yi = 0 + ui
2
首先纵观全局(和复习)
我们想利用样本数据(故存在抽样不确定性)了解总体回 归线的斜率. 要完成这个目的可以分以下四步:
1. 准确描述感兴趣的总体对象 2. 导出估计量的抽样分布 (这需要作某些假设)
3. 仅利用手头的样本信息估计抽样分布的方差 ( CLT 告
诉我们当 n 较大时我们想要了解的一切) ,即找出估计 量的标准误差 (SE)
16
5.3 X为二元变量时的回归
• 有时候回归变量是二元的(只取两个值)
如:班级规模只区分大小,则可假定若为小班则 X = 1,否则 = 0 人的性别,则可假定若为女性则 X = 1,若为男性则= 0 患者是否接受药物临床试验,则可假定若接受处理(实验药物)
则 X = 1,否则 = 0
• 二元回归变量有时也被称为虚拟变量(“dummy” variables)或者指示变量(indicator variable)
Regression with robust standard errors
Number of obs =
420
F( 1, 418) = 19.26
Prob > F
= 0.0000
R-squared
= 0.0512
Root MSE
= 18.581
-------------------------------------------------------------------------
• 为什么自由度调整为 n – 2? 因为有两个系数 (0 和 1)是
估计的.
• SE(ˆ1)是由回归软件计算的
• 因为 STATA 记住了这个公式所以无需你记住它.
8
总结: H0: 1 = 1,0 对 H1: 1 1,0 的检验
• 构造 t-统计量
t=
ˆ1 1,0 SE ( ˆ1 )
=
ˆ1 1,0
22
同方差图示:
• E(u|X=x) = 0 (u 满足最小二乘假设 #1) • u 的方差不依赖于 x
23
异方差图示:
• E(u|X=x) = 0 (u 满足最小二乘假设 #1) • u 的方差依赖于 x: u 是异方差的.
这一表述给出了很多信息 • 回归线估计为 TestScore = 698.9 – 2.28STR
• ˆ0 的标准误差为 10.4 • ˆ1 的标准误差为 0.52
• R2 为 0.05; 回归标准误差为 18.6
14
OLS 回归: 解读STATA 输出结果
regress testscr str, robust
• t-统计量 和 置信区间构造同前 • 有另一种方法 (一种简单的方法) 分析均值之差
• 当存在其它回归变量(很快就有了)时回归形式非常有
用
20
5.4 异方差和同方差
• 什么是异方差(Heteroskedasticity)和同方差( Homoskedasticity)? • 同方差的含义 • 实践中意味着什么?
标准误差:
SE =
ss2 sl2 =
19.42 17.92
= 1.8
ns nl
238 182
置信区间、假设检验
19
总结: 当 Xi 为二元变量(0/1)时的回归
Yi = 0 + 1Xi + ui • 0 = 当 X = 0 时 Y 的均值 • 0 + 1 = 当 X = 1 时 Y 的均值 • 1 =组均值之差, 即 X =1 的组均值- X = 0 的组均值 • SE(ˆ1) 的解释同前
第5 章
一元线性回归:假设检验 和置信区间
第五章 一元线性回归: 假设检验和置信区间
概览 • 有了 OLS 估计量的抽样分布,如何作出能精确概括关于
1 的抽样不确定性的论述(假设检验和置信区间)
• 同时简单介绍有关回归的其它内容: • X 为二元(0/1)时的回归 • 异方差 Heteroskedasticity 和同方差 homoskedasticity (这是新的) • OLS 估计量的效率 (也是新的) • 在假设检验中使用 t-统计量(虽然是新的但在预料之中)
△ 什么是同方差和异方差
• 同方差和异方差的定义
若 var(u|X=x) 为常数,即若给定X 时u的条件分布方差不依 赖于X ,则称 u 是同方差的. 否则, u 是异方差的.
• 用实际例子阐明定义 第3章专栏文章“美国大学毕业生收入的性别差距”
• 同方差和异方差的图示(见后)
• 同方差和异方差的一个实例(见后)
|
Robust
testscr |
Coef. Std. Err.
t P>|t|
[95% Conf. Interval]
--------+----------------------------------------------------------------
str | -2.279808 .5194892 -4.38 0.000 -3.300945 -1.258671
6
SE(ˆ1) 的公式
回顾ˆ1 方差的表达式(大 n):
var( ˆ1 )
=
var[( Xi x )ui ]
n(
2 X
)2
=
2 v
n
4 X
,
其中
vi
=
(Xi
–
X)ui.
ˆ1
方差的估计量:利用数据构造估计量取替未知总体值
2
和
4 X
:
ˆ
2 ˆ1
=
1 n
2的估计
v
( X2的估计)2
=
1 n 1
n
ˆ1 的抽样分布:
在 LSA 下, 对大 n , ˆ1 近似服从,
ˆ1
~
N
1,
2 v
n
4 X
,
其中
vi
=
(Xi
–
X)ui
4
5.1 关于某个回归系数的假设检验
• 1的假设检验
目的是利用数据检验诸如 1 = 0 的假设,得到(原)假设正
确与否的暂时性结论.
一般步骤
1. 提出原假设和备择假设
原假设和双边备择假设:
STRi STRi
20 20
OLS 回归: TestScore = 650.0 + 7.4D
组均值的列表表示:
(1.3) (1.8)
班级规模 小 (STR > 20) 大 (STR ≥ 20)
平均成绩 (Y )
657.4 650.0
标准误差 (sY)
N
19.4
238
17.9
182
均值之差: Ysmall Ylarge = 657.4 – 650.0 = 7.4
= –4.38
• 1% 双边检验的显著性水平为 2.58, 故在 1%显著水平下拒
绝原假设.
• 同样地,我们也可以通过计算 p-值进行假设检验.
10
基于 t-统计量的大 n 标准正态近似的 p-值 为 0.00001 (10–5)
• 截距的假设检验(同斜率的)
注:要进行假设检验,前提要有具有的原假设
n源自文库
1
2
n i1
vˆi2
n i1
(Xi
X
2
)
2
其中vˆi = ( X i X )uˆi .
7
ˆ
2 ˆ1
=
1 n
1 n
1
n2
n
(Xi
i1
n i1
vˆi2 X )2
2
,
其中
vˆi
=
(Xi
X
)uˆi
.
SE(ˆ1) =
ˆ
2 ˆ1
=
ˆ1的标准误差
这个公式看着令人有些讨厌,但: • 事实上并没有看上去的那样复杂,其中分子估计的是 var(v), 分母估计的是 var(X).
• H0: 1 = 1,0 , H1: 1 ≠ 1,0 (1,0 是 H0 下 1 的取值)
• t = (ˆ1 – 1,0)/SE(ˆ1)
• p-值 =位于|tact|之外标准正态下方的面积(大 n)
置信区间: (以1 为例)
• 1 的 95% 置信区间为 {ˆ1 ±1.96×SE(ˆ1)}
• 这是在 5%水平下不能被拒绝的1 取值集合 • 在所有样本中有 95%样本构造的 95% CI 包含了真实的1 取值.
置信区间构造类似于总体均值的情形:
1 的 95% 置信区间= {ˆ1 1.96 SE(ˆ1)}
二、0 的置信区间
12
置信区间实例: Test Scores 和 STR
回归线估计: TestScore = 698.9 – 2.28STR
SE(ˆ0) = 10.4
SE(ˆ1) = 0.52
ˆ1的 95% 置信区间为:
ˆ
2 ˆ1
• 查临界值表,若|t| > 1.96,则在 5% 显著水平下拒绝
或者
计算 p-值 = Pr[|t| > |tact|] = 正态分布位于|tact|之外的尾部概
率; 若 p-值< 5%,则在 5% 显著水平下拒绝.
• 该方法依赖于大 n 近似; 通常 n = 50 已经大到足以确保具 有良好的近似效果.
_cons | 698.933 10.36436 67.44 0.000
678.5602 719.3057
-------------------------------------------------------------------------
由此得:
TestScore = 698.9 – 2.28STR, , R2 = .05, SER = 18.6
(10.4) (0.52)
t (1 = 0) = –4.38, p-值 = 0.000 (双边还是单边?) 1 的 95% 双边置信区间为(–3.30, –1.26)
15
关于 0 和 1 统计推断的总结
估计:
• ˆ0 和 ˆ1 的 OLS 估计量 • 大样本下ˆ0 和ˆ1 都近似服从正态抽样分布
检验:(以1 为例)
11
5.2 回归系数的置信区间
回顾:95% 的置信区间等同于: • 在 5%显著水平下不能被拒绝的点集; • 取值为集合的数据函数 (即为数据函数的一个区间):在重 复样本中有 95%的样本构造的区间包含了真实参数.
一、1 的置信区间 由于1 的 t-统计量在大样本下服从 N(0,1), 因此1 的 95%
9
实例: Test Scores 和 STR, 加利福尼亚数据集
回归线估计: TestScore = 698.9 – 2.28STR 回归软件同时也给出了相应的标准误差:
SE(ˆ0) = 10.4
SE(ˆ1) = 0.52
检验1,0 = 0 的 t-统计量 =
ˆ1 1,0 SE ( ˆ1 )
=
2.28 0 0.52
4. 利用估计量 (ˆ1)得到点估计及其 SE, 假设检验和置信
区间.
3
感兴趣的对象: 下式中的1
Yi = 0 + 1Xi + ui, i = 1,…, n 1 表示 X 独立变化一个单位对 Y 的影响 (因果效应)
最小二乘假设: 1. E(u|X = x) = 0. 2. (Xi,Yi), i =1,…,n, i.i.d. 3. 罕见异常值(E(X4) < , E(Y4) < .
• Yi 的均值为 0 • 即 E(Yi|Xi=0) = 0 当 Xi = 1 时, Yi = 0 + 1 + ui • Yi 的均值为 0 + 1 • 即 E(Yi|Xi=1) = 0 + 1 故:
1 = E(Yi|Xi=1) – E(Yi|Xi=0)
= 两组总体的均值之差
18
实例:
设
Di
=
1,当 0,当
{ˆ1 -1.96SE(ˆ1)} = {–2.28 + 1.960.52}
= (–3.30, –1.26)
下面两种叙述是等价的 (为什么?)
• 95% 置信区间中不包含零;
• 在 5%水平下拒绝假设 1 = 0
13
报告回归的一种简洁(也是常用)的方法:
将标准误差置于相应的回归系数估计值下面,并用括号括起. TestScore = 698.9 – 2.28STR, R2 = .05, SER = 18.6 (10.4) (0.52)
估计量的标准误差 其中估计量的 SE 是估计量方差的估计的平方根.
3. 作出是否拒绝原假设的结论
计算 p-值 或者与 N(0,1)的临界值进行比较
• 斜率系数的假设检验方法类似于均值的假设检验
检验 Y 的均值:
t = Y Y ,0
sY / n
检验 1,
t = ˆ1 1,0 ,
SE ( ˆ1 )
其中 SE(ˆ1) = ˆ1抽样分布的方差的估计的平方根 ,公式?
H0: 1 = 1,0 对 H1: 1 ≠ 1,0 其中 1,0 为原假设下的假设值.
原假设和单边备择假设:
H0: 1 = 1,0 对 H1: 1 < 1,0 或 H0: 1 = 1,0 对 H1: 1 >1,0
问题:实际应用中究竟用单边还是双边假设?
5
2. 寻找检验统计量
构造 t-统计量 通常: t = 估计量 - 假设值
• 二元回归变量和连续回归变量时的回归的异同
区别仅体现在回归系数的解释方面,其余如估计和检验相同
连续回归变量回归中的 1 被称为 “斜率,” 但当 X 为二元时这种称呼
毫无意义.
17
二元回归变量时回归系数的解释(同均值之差的分析)
Yi = 0 + 1Xi + ui, 其中 X 为二元的 (Xi = 0 或者 1): 当 Xi = 0 时, Yi = 0 + ui
2
首先纵观全局(和复习)
我们想利用样本数据(故存在抽样不确定性)了解总体回 归线的斜率. 要完成这个目的可以分以下四步:
1. 准确描述感兴趣的总体对象 2. 导出估计量的抽样分布 (这需要作某些假设)
3. 仅利用手头的样本信息估计抽样分布的方差 ( CLT 告
诉我们当 n 较大时我们想要了解的一切) ,即找出估计 量的标准误差 (SE)
16
5.3 X为二元变量时的回归
• 有时候回归变量是二元的(只取两个值)
如:班级规模只区分大小,则可假定若为小班则 X = 1,否则 = 0 人的性别,则可假定若为女性则 X = 1,若为男性则= 0 患者是否接受药物临床试验,则可假定若接受处理(实验药物)
则 X = 1,否则 = 0
• 二元回归变量有时也被称为虚拟变量(“dummy” variables)或者指示变量(indicator variable)
Regression with robust standard errors
Number of obs =
420
F( 1, 418) = 19.26
Prob > F
= 0.0000
R-squared
= 0.0512
Root MSE
= 18.581
-------------------------------------------------------------------------
• 为什么自由度调整为 n – 2? 因为有两个系数 (0 和 1)是
估计的.
• SE(ˆ1)是由回归软件计算的
• 因为 STATA 记住了这个公式所以无需你记住它.
8
总结: H0: 1 = 1,0 对 H1: 1 1,0 的检验
• 构造 t-统计量
t=
ˆ1 1,0 SE ( ˆ1 )
=
ˆ1 1,0
22
同方差图示:
• E(u|X=x) = 0 (u 满足最小二乘假设 #1) • u 的方差不依赖于 x
23
异方差图示:
• E(u|X=x) = 0 (u 满足最小二乘假设 #1) • u 的方差依赖于 x: u 是异方差的.
这一表述给出了很多信息 • 回归线估计为 TestScore = 698.9 – 2.28STR
• ˆ0 的标准误差为 10.4 • ˆ1 的标准误差为 0.52
• R2 为 0.05; 回归标准误差为 18.6
14
OLS 回归: 解读STATA 输出结果
regress testscr str, robust
• t-统计量 和 置信区间构造同前 • 有另一种方法 (一种简单的方法) 分析均值之差
• 当存在其它回归变量(很快就有了)时回归形式非常有
用
20
5.4 异方差和同方差
• 什么是异方差(Heteroskedasticity)和同方差( Homoskedasticity)? • 同方差的含义 • 实践中意味着什么?
标准误差:
SE =
ss2 sl2 =
19.42 17.92
= 1.8
ns nl
238 182
置信区间、假设检验
19
总结: 当 Xi 为二元变量(0/1)时的回归
Yi = 0 + 1Xi + ui • 0 = 当 X = 0 时 Y 的均值 • 0 + 1 = 当 X = 1 时 Y 的均值 • 1 =组均值之差, 即 X =1 的组均值- X = 0 的组均值 • SE(ˆ1) 的解释同前
第5 章
一元线性回归:假设检验 和置信区间
第五章 一元线性回归: 假设检验和置信区间
概览 • 有了 OLS 估计量的抽样分布,如何作出能精确概括关于
1 的抽样不确定性的论述(假设检验和置信区间)
• 同时简单介绍有关回归的其它内容: • X 为二元(0/1)时的回归 • 异方差 Heteroskedasticity 和同方差 homoskedasticity (这是新的) • OLS 估计量的效率 (也是新的) • 在假设检验中使用 t-统计量(虽然是新的但在预料之中)