一元线性回归:假设检验和置信区间
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1% 双边检验的显著性水平为 2.58, 故在 1%显著水平下拒 绝原假设.
同样地,我们也可以通过计算 p-值进行假设检验.
9
基于 t-统计量的大 n 标准正态近似的 p-值 为 0.00001 (10–5)
• 截距的假设检验(同斜率的)
注:要进行假设检验,前提要有具有的原假设
10
5.2 回归系数的置信区间
2 ˆ
1 n 2 ˆi v n 2 i 1
1
1
1
这个公式看着令人有些讨厌,但: 事实上并没有看上去的那样复杂,其中分子估计的是 var(v), 分母估计的是 var(X). 为什么自由度调整为 n – 2? 因为有两个系数 (0 和 1)是 估计的. ˆ )是由回归软件计算的 SE(
一般步骤
1. 提出原假设和备择假设
原假设和双边备择假设: H0: 1 = 1,0 对 H1: 1 ≠ 1,0 其中 1,0 为原假设下的假设值. 原假设和单边备择假设: H0: 1 = 1,0 对 H1: 1 < 1,0 或 H0: 1 = 1,0 对 H1: 1 >1,0
一元线性回归: 假设检验和置信区间
概览 有了 OLS 估计量的抽样分布,如何作出能精确概括关于
1 的抽样不确定性的论述(假设检验和置信区间)
同时简单介绍有关回归的其它内容: X 为二元(0/1)时的回归 异方差 Heteroskedasticity 和同方差 homoskedasticity (这是新的) OLS 估计量的效率 (也是新的) 在假设检验中使用 t-统计量(虽然是新的但在预料之中)
回归线估计: TestScore = 698.9 – 2.28STR
回归软件同时也给出了相应的标准误差:
ˆ ) = 10.4 SE( 0
ˆ ) = 0.52 SE( 1
ˆ 2.28 0 1 1,0 检验1,0 = 0 的 t-统计量 = = = –4.38 ˆ) 0.52 SE ( 1
1
首先纵观全局(和复习)
我们想利用样本数据(故存在抽样不确定性)了解总体回 归线的斜率. 要完成这个目的可以分以下四步: 1. 准确描述感兴趣的总体对象 2. 导出估计量的抽样分布 (这需要作某些假设) 3. 仅利用手头的样本信息估计抽样分布的方差 ( CLT 告 诉我们当 n 较大时我们想要了解的一切) ,即找出估计 量的标准误差 (SE) ˆ )得到点估计及其 SE, 假设检验和置信 4. 利用估计量 ( 1 区间.
检验 Y 的均值: 检验 1,
t = Y Y ,0
sY / n
ˆ t = 1 1,0 , ˆ) SE ( 1
Fra Baidu bibliotek
ˆ)= ˆ 抽样分布的方差的估计的平方根 ,公式? 其中 SE( 1 1
5
ˆ ) 的公式 SE( 1
ˆ 方差的表达式(大 n): 回顾 1
2 var[( X ) u ] i x i v ˆ)= var( = , 其中 vi = (Xi – X)ui. 1 2 2 4 n( X ) n X ˆ 方差的估计量:利用数据构造估计量取替未知总体值 2
2
感兴趣的对象: 下式中的1
Yi = 0 + 1Xi + ui, i = 1,…, n
1 表示 X 独立变化一个单位对 Y 的影响 (因果效应)
最小二乘假设: 1. E(u|X = x) = 0. 2. (Xi,Yi), i =1,…,n, i.i.d. 3. 罕见异常值(E(X4) < , E(Y4) < .
计算 p-值 = Pr[|t| > |tact|] = 正态分布位于|tact|之外的尾部概
率; 若 p-值< 5%,则在 5% 显著水平下拒绝. 该方法依赖于大 n 近似; 通常 n = 50 已经大到足以确保具 有良好的近似效果.
8
实例: Test Scores 和 STR, 加利福尼亚数据集
4
问题:实际应用中究竟用单边还是双边假设?
2. 寻找检验统计量
构造 t-统计量 通常: t=
估计量 - 假设值 估计量的标准误差
其中估计量的 SE 是估计量方差的估计的平方根.
3. 作出是否拒绝原假设的结论
计算 p-值 或者与 N(0,1)的临界值进行比较
斜率系数的假设检验方法类似于均值的假设检验
ˆ 的抽样分布: 1 ˆ 近似服从, 在 LSA 下, 对大 n , 1
2 ˆ ~N , v 1 1 n 4 X
, 其中 vi = (Xi – X)ui
3
5.1 关于某个回归系数的假设检验
• 1的假设检验
目的是利用数据检验诸如 1 = 0 的假设,得到(原)假设正 确与否的暂时性结论.
回顾:95% 的置信区间等同于: 在 5%显著水平下不能被拒绝的点集; 取值为集合的数据函数 (即为数据函数的一个区间):在重 复样本中有 95%的样本构造的区间包含了真实参数. 一、1 的置信区间 由于1 的 t-统计量在大样本下服从 N(0,1), 因此1 的 95% 置信区间构造类似于总体均值的情形:
1
因为 STATA 记住了这个公式所以无需你记住它.
7
总结: H0: 1 = 1,0 对 H1: 1 1,0 的检验
构造 t-统计量
ˆ ˆ 1,0 1 1,0 t= = 1 2 ˆ) SE ( ˆ 1 ˆ
1
查临界值表,若|t| > 1.96,则在 5% 显著水平下拒绝 或者
4 和 X :
1
2 1 1 2 v 的估计 ˆ = = ˆ 2 2 2 1 n ( X的估计) n 1 n 2 ( X X ) n i i 1 ˆi = ( X i X )u ˆi . 其中 v
1 n 2 ˆi v n 2 i 1
6
1 ˆi = ( X i X )u ˆ = ˆi . , 其中 v 2 1 n n 1 2 ( X X ) n i i 1 ˆ)= ˆ 的标准误差 ˆ 2ˆ = SE(
同样地,我们也可以通过计算 p-值进行假设检验.
9
基于 t-统计量的大 n 标准正态近似的 p-值 为 0.00001 (10–5)
• 截距的假设检验(同斜率的)
注:要进行假设检验,前提要有具有的原假设
10
5.2 回归系数的置信区间
2 ˆ
1 n 2 ˆi v n 2 i 1
1
1
1
这个公式看着令人有些讨厌,但: 事实上并没有看上去的那样复杂,其中分子估计的是 var(v), 分母估计的是 var(X). 为什么自由度调整为 n – 2? 因为有两个系数 (0 和 1)是 估计的. ˆ )是由回归软件计算的 SE(
一般步骤
1. 提出原假设和备择假设
原假设和双边备择假设: H0: 1 = 1,0 对 H1: 1 ≠ 1,0 其中 1,0 为原假设下的假设值. 原假设和单边备择假设: H0: 1 = 1,0 对 H1: 1 < 1,0 或 H0: 1 = 1,0 对 H1: 1 >1,0
一元线性回归: 假设检验和置信区间
概览 有了 OLS 估计量的抽样分布,如何作出能精确概括关于
1 的抽样不确定性的论述(假设检验和置信区间)
同时简单介绍有关回归的其它内容: X 为二元(0/1)时的回归 异方差 Heteroskedasticity 和同方差 homoskedasticity (这是新的) OLS 估计量的效率 (也是新的) 在假设检验中使用 t-统计量(虽然是新的但在预料之中)
回归线估计: TestScore = 698.9 – 2.28STR
回归软件同时也给出了相应的标准误差:
ˆ ) = 10.4 SE( 0
ˆ ) = 0.52 SE( 1
ˆ 2.28 0 1 1,0 检验1,0 = 0 的 t-统计量 = = = –4.38 ˆ) 0.52 SE ( 1
1
首先纵观全局(和复习)
我们想利用样本数据(故存在抽样不确定性)了解总体回 归线的斜率. 要完成这个目的可以分以下四步: 1. 准确描述感兴趣的总体对象 2. 导出估计量的抽样分布 (这需要作某些假设) 3. 仅利用手头的样本信息估计抽样分布的方差 ( CLT 告 诉我们当 n 较大时我们想要了解的一切) ,即找出估计 量的标准误差 (SE) ˆ )得到点估计及其 SE, 假设检验和置信 4. 利用估计量 ( 1 区间.
检验 Y 的均值: 检验 1,
t = Y Y ,0
sY / n
ˆ t = 1 1,0 , ˆ) SE ( 1
Fra Baidu bibliotek
ˆ)= ˆ 抽样分布的方差的估计的平方根 ,公式? 其中 SE( 1 1
5
ˆ ) 的公式 SE( 1
ˆ 方差的表达式(大 n): 回顾 1
2 var[( X ) u ] i x i v ˆ)= var( = , 其中 vi = (Xi – X)ui. 1 2 2 4 n( X ) n X ˆ 方差的估计量:利用数据构造估计量取替未知总体值 2
2
感兴趣的对象: 下式中的1
Yi = 0 + 1Xi + ui, i = 1,…, n
1 表示 X 独立变化一个单位对 Y 的影响 (因果效应)
最小二乘假设: 1. E(u|X = x) = 0. 2. (Xi,Yi), i =1,…,n, i.i.d. 3. 罕见异常值(E(X4) < , E(Y4) < .
计算 p-值 = Pr[|t| > |tact|] = 正态分布位于|tact|之外的尾部概
率; 若 p-值< 5%,则在 5% 显著水平下拒绝. 该方法依赖于大 n 近似; 通常 n = 50 已经大到足以确保具 有良好的近似效果.
8
实例: Test Scores 和 STR, 加利福尼亚数据集
4
问题:实际应用中究竟用单边还是双边假设?
2. 寻找检验统计量
构造 t-统计量 通常: t=
估计量 - 假设值 估计量的标准误差
其中估计量的 SE 是估计量方差的估计的平方根.
3. 作出是否拒绝原假设的结论
计算 p-值 或者与 N(0,1)的临界值进行比较
斜率系数的假设检验方法类似于均值的假设检验
ˆ 的抽样分布: 1 ˆ 近似服从, 在 LSA 下, 对大 n , 1
2 ˆ ~N , v 1 1 n 4 X
, 其中 vi = (Xi – X)ui
3
5.1 关于某个回归系数的假设检验
• 1的假设检验
目的是利用数据检验诸如 1 = 0 的假设,得到(原)假设正 确与否的暂时性结论.
回顾:95% 的置信区间等同于: 在 5%显著水平下不能被拒绝的点集; 取值为集合的数据函数 (即为数据函数的一个区间):在重 复样本中有 95%的样本构造的区间包含了真实参数. 一、1 的置信区间 由于1 的 t-统计量在大样本下服从 N(0,1), 因此1 的 95% 置信区间构造类似于总体均值的情形:
1
因为 STATA 记住了这个公式所以无需你记住它.
7
总结: H0: 1 = 1,0 对 H1: 1 1,0 的检验
构造 t-统计量
ˆ ˆ 1,0 1 1,0 t= = 1 2 ˆ) SE ( ˆ 1 ˆ
1
查临界值表,若|t| > 1.96,则在 5% 显著水平下拒绝 或者
4 和 X :
1
2 1 1 2 v 的估计 ˆ = = ˆ 2 2 2 1 n ( X的估计) n 1 n 2 ( X X ) n i i 1 ˆi = ( X i X )u ˆi . 其中 v
1 n 2 ˆi v n 2 i 1
6
1 ˆi = ( X i X )u ˆ = ˆi . , 其中 v 2 1 n n 1 2 ( X X ) n i i 1 ˆ)= ˆ 的标准误差 ˆ 2ˆ = SE(