第4讲多元回归分析之推断
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
u服从均值为0,方差为2的正态分布(normally
distribution)。
假设MLR.1~MLR.6被称为经典线性模型假设(classical linear model assumptions)简称CLM。 MLR.1~MLR.6 我们将满足这六个假设的模型称为经典线性模型 (classical linear model) 在经典线性模型假设下,OLS不仅是BLUE,而且是最
二、OLS估计量的样本分布
我们已经讨论了OLS估计量的期望和方差,但是为 了进行统计推断(statistical inference),我们仍希望 知道样本分布。 OLS估计量的样本分布依赖于对误差项分布的假设, 下面我们将给出相关的假设。
假设MLR.6 (正态性)(Normality)
我们已经知道当高斯——马尔科夫假设成立时,OLS 是最优线性无偏估计(BLUE)。 为了进行经典的假设检验(hypothesis testing),我们要 在Gauss-Markov假设之外增加另一假设。 假设MLR.6 (正态性):假设u与x1, x2,…, xk独立,且
H0: bj = 0
Fail to reject
H 1: bj > 0
1 a 0 c
reject
a
t分布与正态分布
当t分布的自由度增大时,t分布趋近于标准正态分布。
例子:学生表现与学校规模(meap93.raw)P125 问题:较大的班级是否意味着较差的学生表现? math10:学生数学测验成绩;enroll:学校规模
样本分布(Sampling distributions )在统计学和计量经济学发展中具 有核心地位,它是指一个估计量(estimator )在其所有可能取值上 的概率分布 刻画样本分布的两种方式:
“准确(exact)” 方式和“近似(approximate)” 方式
“准确”方式需要对任何n的取值都得到样本分布的精确表达 式,这样的分布被称为小样本(有限样本)的准确 分布 例如:如果y服从正态分布(normally distributed),且y1, y2, …, yn 独立同分布,则其均值(average)恰好服从正态分布 “近似”方式对样本分布进行大样本下的近似,对样本分布的 大样本近似常称为渐近分布(asymptotic distribution)。
在CLM假设下,有:
bˆ
j
bj
~ t n k 1 ˆ se b j
2 2 ˆ 注意,这是一个t分布,因为我们要用 来估计 。
注意自由度:n-k-1。
知道标准化估计量的样本分布后,便可以进行假设检验 由零假设出发,例如, H0: bj=0 接受零假设意味着控制其它解释变量之后, xj对y没有影响。
Gauss-Markov assumptions
对总体(population)的经典线性模型假设做个总结:
y|x ~ Normal(b0 + b1x1 +…+ bkxk , 2)
尽管现在我们假设了正态,但有时候并不是这种情况, 如果正态假设不成立怎么办?
通过变换,特别是通过取自然对数,往往可以得到接
ˆ ~ Normal b ,Var b ˆ b j j j
因此,有:
bˆ
j
bj
~ Norm al0,1 ˆ sd b j
ˆ 服从正态分布,因为它是误差项的线性组合 b 其中, j
教材P119
ˆ ,b ˆ ,...,b ˆ 的任意线性组合(linear 可以扩展定理4.1: b 0 1 k ˆ ,b ˆ ,...,b ˆ 任意子集服从联 combination )服从正态分布,b 0 1 k
我们现在研究如何对一个特定的 b j 进行假设检验
y b0 b1 x1 ... bk xk u
被检验的假设称为零假设(null hypothesis)
假设检验利用数据将零假设和另一个假设也就是替
代假设(alternative hypothesis)进行比较
替代假设给出的是在零假设不成立时的真实情况。 我们的目的在于:利用一个随机选取的样本提供给我们 的数据来决定是否应当接受零假设。 在假设检验中存在两种可能的错误: 第一类错误:当零假设为真时拒绝零假设(去真) 第二类错误:当零假设为假时未拒绝零假设(存伪)
When we compute the statistic for a particular sample, we
obtain an outcome of the test statistic (t).
定理4.2: 标准化估计量的t分布 (t Distribution for the Standardized Estimators)
totcomp:教师平均年薪; 确定被检验的假设:
staff:生师比
H0 :βenroll=0 ,学校规模对学生成绩没有影响
H1 :βenroll<0,学校规模对学生成绩有负效应
检验结果:
Source Model Residual Total math10 totcomp staff enroll _cons SS 2422.93434 42394.2462 44817.1805 Coef. .0004586 .0479199 -.0001976 2.274021 df 3 404 407 MS 807.644779 104.936253 110.115923 t 4.57 1.20 -0.92 0.37 P>|t| 0.000 0.229 0.359 0.710 Number of obs F( 3, 404) Prob > F R-squared Adj R-squared Root MSE = = = = = = 408 7.70 0.0001 0.0541 0.0470 10.244
中心极限定理:假设y1, y2, …, yn 独立同分布,均值为μ, y 方差为σy2,其中 0< σy2 < 。则当 n 时, 2 y 的分布可以被标准正态分布(standard normal
distribution)近似得任意好。
中心极限定理意味着,在一般条件下,如果样本足够大,标准化 的样本均值的样本分布可以由标准正态分布近似。
性水平上被拒绝的统计量的值。 假设检验中,使得零假设被拒绝的检验统计量的取值范围称为拒
绝域(rejection region),使得零假设不能被拒绝的检验统计量的取
值范围成为接受域(acceptance region)。
一个检验统计量(T)是关于随机样本的一个函数。当
我们用某一特定样本计算此统计量时,我们得到这个 检验统计量的一个实现(t)。 A test statistic (T) is some function of the random sample.
只要样本量足够大,渐近分布就是对准确分布的很好的
近似。
两个重要工具:大数定律(law of large numbers) ,中心极限定理
(central limit theorem)
大数定律:在一般情形下,当样本量(sample size )充分 大时,样本均值将以很高的概率逼近总体均值。 本课中,为了应用大数定律,我们假设y为独立同分布 (i.i.d )具有有限方差(its variance is finite)的随机取样。
一、样本分布(Sampling Distribution):复习
简单随机抽样(Simple random sampling )是指从总体(population)中
随机取样n次,使得总体中的每个元素在样本(sample)中的出现的 可能性相同。 如果y1, y2,…, yn 来自于同一分布且相互独立,则称这一组随机变 量独立同分布(independently and identically distributed)(i.i.d.)
我们建立一些假设检验的规则使发生第一类错误的概率非常小 一个检验的显著性水平(significance level )是发生第一类错误的概 率。 通常设定的显著性水平为:0.1, 0.05, 0.01。如果为0.05意味着研 究者愿意在5%的检验中错误地拒绝零假设。
检验统计量的临界值(critical value)是使得零假设刚好在给定显著
t检验: 单边替代假设 (t Test:One-Sided Alternatives)
除了零假设外,我们还需要一个替代假设H1,并设定 相应的显著性水平,其中,H1可以是单边的或双边的: H1: bj > 0 和 H1: bj < 0 是单边的 H1: bj 0是双边替代假设
如果我们愿意在5%的概率上错误地拒绝实际上为真的零假设,则
自由度为408-3-1=404,使用标准正态的临界值,在5%显著水平下,
临界值位-1.65,但此处的标准差为t=-0.0002/0.00022=-0.91 >-1.65,
小方差无偏估计量,即在所有线性(linear)和非线性
(nonlinear)的估计量中,OLS估计量均具有最小的方差。
假定 MLR.1(对参数而言为线性) 假定 MLR.2(随机抽样性) 假定 MLR.3(不存在完全共线性) 假定 MLR.4(零条件均值)
假定 MLR.5(同方差性假定)
Std. Err. .0001004 .039814 .0002152 6.113794
[95% Conf. Interval] .0002613 -.0303487 -.0006207 -9.744801 .0006559 .1261884 .0002255 14.29284
我们所关注的变量——学校规模(enroll)的系数为负,说明学校规 模的确对学生成绩存在负的效应,规模越大,学生的成绩就越差。
近于正态的分布。另外,当样本较大时,允许我们放
弃正态假设(近似方式)
同方差 (homoskedastic)正态分布——单解释变量情形 y
f(y|x)
.
.
Normal distributions
E(y|x) = b0 + b1x
x1
x2
定理4.1 :正态样本分布
在CLM假设下,条件于解释变量的样本值,有:
j
t bˆ c ,则不能拒绝H0
时我们拒绝H0,若 t b ˆ
t bˆ c 时我 j
由于t分布是对称的,如果H0: bj = 0,相应的H1: bj < 0, 当
tbˆ c
j
j
c
,则不
能拒绝H0
单边替代假设 (One-Sided Alternatives) yi = b0 + b1xi1 + … + bkxik + ui
为了进行检验,我们首先要构造
ˆ 的t统计量: b j
tb ˆ
j
ˆ b j
ˆ se b j
然后利用t统计量和拒绝条件来决定是否接受零假设H0
ˆ 相对0偏离了多少个估计 t统计量 t bˆ j 度量了估计值 b j ˆ 相同。 的标准离差。它的符号与 b j
值得注意的是我们检验的是关于总体参数的假设,而 不是关于来自某一特定样本的估计值的假设。
合正态分布(joint normal distribution)。
我们将利用这些事实来进行下面的假设检验:
源自文库
第二节 对单个总体参数的假设检验:t检验 (Hypotheses Testing about a Single Population Parameter: the t-test )
考虑总体中满足CLM的模型:
说我们的显著水平为5%
取定显著性水平a后,找到自由度(degree of freedom )为n – k – 1的 t分布的(1 – a)分位数((1 – a)th percentile)c,即临界值(critical value)
如果H0: bj = 0,相应的H1: bj > 0,当 们拒绝H0,若
第四章:多元回归分析之推断
§4.1 OLS估计量的样本分布
§4.2 单个总体参数的假设检验:t检验 §4.3 置信区间
§4.4 参数线性组合的假设检验
§4.5 多个线性约束的假设检验
§4.6 报告回归结果
第一节 OLS估计量的样本分布 (Sampling Distributions of the OLS Estimators )