第四章 双变量回归模型区间-估计与假设检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
置信区间法优于显著性检验法!
• 显著性检验法依赖于原假设。
1-35
第六节
评价回归分析的结果
一些准则:
• 1、所估系数的符号是否与理论或事前预期相一致? • 2、系数在统计上是否显著? • 3、方程的显著性(回归模型在多大程度上解释了因变 量的变异) • 4、残差的正态性检验
1-36
正态性检验
表7-3 美国商业部门1959-2000年工资和劳动生产率指数
年份
1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978
生产率
47.9 48.8 50.6 52.9 55 57.5 59.6 62 63.4 65.3 65.7 67 69.9 72.2 74.5 73.2 75.8 78.5 79.8 80.7 80.7
2
1
n xi
X i2
1
2 ˆ 2 N(2, )
2
2 2
2
2
xi2
2
注意,后面 推导 2 区 间估计的时 候要用到标 ˆ 准差 se( )
2
Yi ~ N (1 2 X i , 2 )
1-6
第二节
概率统计知识的简要回顾
几个重要的概率分布: • 正态分布 • t 分布 2 分布 • • F分布
ˆ • 估计值 2 落在拒绝域中,故拒绝 2 0.3 的原假设。
1-29
第五节
假设检验
1-30
第五节
假设检验
计算t值
给定自由度,|t| 值越大越可能拒绝原假设! 在实践中,如果自由度 d.f. 20 其显著性水平为 5%,那么|t|值超过2时,就可以拒绝原假设 2 0 (“2-t “ Rule of Thumb)。
来替代,那么新建立的统计量服从自由度为n-1的t分布
X X t SX / n
1-10
第二节
概率统计知识的简要回顾
1-11
第二节
2
概率统计知识的简要回顾
X X
分布
• 标准正态分布 Z •
X
~ N (0,1)
Z
2
2 (1)
1-12
第二节
概率统计知识的简要回顾
F分布
2 X ~ N (X , X / n)
1-8
第二节
概率统计知识的简要回顾
1-9
第二节
概率统计知识的简要回顾
t分布
•
2 X ~ N (X , X / n)
X X Z ~ N (0,1) X / n ( X i X )2 2 2 SX • 如果 X 已知,而 X 用样本方差 n 1
ˆ ˆ Pr(2 2 2 ) 1
1- 为置信度(confidence interval);
为显著性水平(level of significance)。
1-17
第四节
回归系数1和2的置信区间
2置信区间:
(4-1)
ˆ 实际中 很少能知道,因此通常用无偏估计量 来代替,因此上式可写为
1-7
第二节
概率统计知识的简要回顾
正态分布 X ~ N ( , 2 ) •
• 标准正态分布 Z
X X
X
~ N (0,1)
• 估计量的抽样分布? 2 • 若X1,X2,…,Xn是来自于均值为 X ,方差为 X 的正 态总体的一个随机样本。则样本均值 X 也服从正态 2 分布,其均值为 X ,方差为 X / n 。即
• 对这个置信区间的解释是:给定置信系数为95%,每构
建100个类似区间,将有95个包含着真实的2值。
1-22
第五节
假设检验
统计推断的两个分支:估计和假设检验
• 所谓假设检验就是解答给定观测或发现与假设是否相符。 统计上是否足够相近。
• 比如,某理论或先验信息认为消费-收入的真实斜 ˆ 率 2 0.3 ,而观测值 2 0. 5091 。是否一致呢? • 回归分析中假设 H0 : 2 0.3 称为原假设或零假设 (null hypothesis),与其相对立的假设称为备择假设 (alternative hypothesis),表示为 H1 。 • H1 单边,双边(偏离原假设方向无强有力的理论性或 先验行预期指导),应根据具体问题、理论和经验。
1-23
第五节
假设检验
假设检验两种方法:置信区间法和显著性检验法 置信区间法 ˆ • MPC 2 0. 5091
• 假设
H0 : 2 0.3 H1 : 2 0.3
1-24
第五节
假设检验
在原假设H0下,落入到此区间 的2值有100(1-α )%的可信性。 因而,若2值果真落入此区域, 就不拒绝H0
1-16
第三节
区间估计:一些基本概念
ˆ 构建区间目的: 2离2有多“近”? 如果存在两个正数 0, 和0 1 ,使得随机 ˆ 12 的概率为 ( 区间ˆ2 , 2 ) 包含 ,即
则称 ˆ ˆ ( 2 , 2 )为置信区间(confidence interval);
1-27
第五节
假设检验
* ˆ 2 2 时, 2 以概率 1 落入该区间。 • 在给定
• 这一 100(1 )% 的置信区间称为原假设的接受域 (region of acceptance),而置信区间以外的(一个或多 个)区域称为原假设的拒绝域(region of rejection)或临 界域(critical region)。
1-31
第五节
假设检验
1-32
第五节
假设检验
1-33
第五节
假设检验
精确的显著性水平:p 值
• 当我们对给定的样本算出一个检验统计量(如t 统计量)的 值时,为什么不干脆查阅适当的统计表,看看得到一个 大到和从样本得到的检验统计量那样大的数值的确切概 率? 这个概率就叫做p 值(p value)。 • 例子,H0 : 2 0.3 ,得到t 值为5.86,那么,得到一个 大到5.86或更大t 值的概率p 是什么?
• 0.000189
1-34
第五节
假设检验
置信区间法和显著性检验法的区别与联系
• 在置信区间程序中,我们试图建立一个以某种概率包含 真实但未知的 2 的一个范围或区间。 • 而在显著性检验步骤中,我们假设 2 为某值,然后来 ˆ 看所计算的 2 是否位于该假设值周围的某个合理(置信) 范围之内。
实际工资
58.3 59.8 61.6 63.7 65.2 67.7 69.1 71.7 73.5 76 77.1 78.6 80.1 82.4 84.2 83.2 84.1 86.5 87.6 89.2 89.4
Hale Waihona Puke Baidu年份
1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
1-21
第四节
回归系数1和2的置信区间
例子中2的置信区间 ˆ se ˆ • 2 = 0. 5091, (2 )=0.0357,并且自由度=8。若取
5% ,即取95%置信系数,则t统计量表告诉我们, 自由度为8的临界值 t / 2 t0.025 2.306
• 将这些值代入2的置信区间的计算公式,即可证实2的 95 %置信区间为:
(4-2)
1-18
第四节
回归系数1和2的置信区间
的一个无偏估计量
ˆ 为:
证明见Basic Econometrics,P102,3A.5 THE LEAST-SQUARES ESTIMATOR OF
2
1-19
第四节
回归系数1和2的置信区间
(4-2)式构造的t 统计量服从自由度为n-2的t 分布 利用t 分布建立的2的置信区间如下: (4-3)
计 量 经 济 学 基 础 与 应 用
1-1
第四章 双变量回归模型:区间估计与假设检验
chapter four
Two-Variable Regression Model: Interval Estimation and Hypothesis Testing
Yu Zhen
The Economic School of Jilin University
在正态分布条件下
ui N (0, )
2
ui NID(0, )
2
NID 表示独立、同为正态分布( normally and independently distributed)
1-5
正态性假定下OLS估计量的性质
无偏性 最小方差 一致性
ˆ ˆ 1与2均是正态分布的
2 ˆ 1 N(1, )
1-25
第五节
假设检验
在95%的置信水平上拒绝MPC真值为0.3的假设 术语:
• 当拒绝原假设时,“统计上显著” • 当接受原假设时,“统计上不显著”
1-26
第五节
假设检验
显著性检验法
• 在正态假设下,该变量服从自由度为(n-2)的t分布
* • 原假设下 H0 : 2 2 ,可计算t 值作为检验统计量
Yi 1 2 X i ui
有必要假定干扰项的概率分布!
1-4
正态性假定
CNLRM假定干扰项是正态分布的,即
ui N (0, 2 )
理论基础:中心极限定理(crentral limit theorem)
独立同分布随机变量,随着变量个数的无限增加,其和
的分布近似服从正态分布。
正态性检验方法
• 残差直方图(Histogram of Residuals) • 雅克一贝拉检验(Jarque-Bera, JB test)
n为样本容量,S为偏度,K为峰度 2 在正态假设下,JB统计量渐进服从自由度为2的 分布
JBasy ~
1-37
2 (2)
综合性例子:美国商业部门工资和生产率
• 样本容量N的随机样本 X1 , X 2 ,, X n 和样本容量M的随 机样本 Y1 , Y2 ,, Yn 分别来自均值为 X 和 Y ,方差分 2 2 别为 X 和 Y 的正态总体。假定两个样本独立,那么 这两个正态总体是否同方差呢?如果方差未知,估计量 2 (Yi Y )2 ( X i X ) SY2 2 SX N 1 N 1 的比值F可以进行判断。当两总体方差相等时,F值服 从分子自由度为N-1,分母自由度为M-1的F分布。
• 置信区间的端点,又叫做临界值(critical values)。
1-28
第五节
假设检验
消费-收入例子中 ˆ se ˆ • 2 = 0. 5091, (2 )=0.0357,自由度=8。取 5% , 即取95%置信系数,则 t / 2 t0.025 2.306。
* • 令 H0 : 2 2 0.3, 且H1 : 2 0.3 ,则有:
1-13
第二节
概率统计知识的简要回顾
1-14
第三节
区间估计:一些基本概念
一个例子
1-15
第三节
区间估计:一些基本概念
凯恩斯消费函数
边际消费倾向MPC大于零而小于1。
如果将收入与消费的关系设定为线性。那么,通 过OLS估计得到的回归方程为
一个点估计:边际消费倾向MPC,2 的估计值为 0.5091。 如果无法完全信赖点估计结果,那么可以围绕在 点估计量构建一个区间。比如,两边各宽出2到3 个标准误差,使其有95%的概率包含真实参数值。
第一节 正态性假定:古典正态线性回归模 型(CNLRM)
第三章对扰动项 u i 的假定: • 均值为零 对参数进行点估计够用 • 无序列相关 • 同方差 点估计只是统计推断的一方面,另一方面是假设 检验
1-3
最终目标
ˆ ˆ ˆ Yi 1 2 Xi ui
规范的公式 如何输入? 推荐使用 MathType
• 其中,t为(4-2)式的t 统计量
把(4-2)带入(4-3)得到
(4-4)
整理得2的置信区间:
1-20
第四节
回归系数1和2的置信区间
相类似,可以得到1的置信区间
1和2置信区间的一个特点:
• 方程中置信区间的宽度都与估计量的标准误成比例。就 是说,标准误越大,置信区间越宽。换句话说。估计量 的标准误越大,对末知参数的真值进行估计的不确定性 越大。 • 估计量的标准误常被喻为估计量的精度。