四、多元回归分析:推断
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 下面这个例子说明,有的时候改变模型设定 会改变一个自变量的显著性。 • 一种观点认为,在所有其他条件相同的情况 下,小学校的学生比大学校的学生情况要好 一些。利用数据文件MEAP93.RAW。被解 释变量是数学测验 数学测验(math10)成绩,学校规 数学测验 模由注册人数 注册人数(enroll)来度量。另外我们还控 注册人数 制其他两个因素:平均教师工资 平均教师工资(totcomp) 平均教师工资 和平均每千名学生拥有的教师数量 平均每千名学生拥有的教师数量(staff). 平均每千名学生拥有的教师数量 前者是对教师质量的一种度量,后者大致度 量了学生所受关注程度。
(0.104)
(0.007)
~
(0.0017)
(0.003)
R 2 = 0.316 • 针对exper对log(wage)的影响,考察下面三种检验: (1)H 0 : β exp er = 0, H1 : β exp er > 0 拒绝零假设;
(2)H 0 : β exp er = 0, H1 : β exp er < 0 (3)H 0 : β exp er = 0, H1 : β exp er ≠ 0 不拒绝; 拒绝;
+0.00098bavg + 0.0144hrunsyr + 0.0108rbisyr
(0.0011)
(0.0161)
2
(0.0072)
n = 353, SSR = 183.186, R = 0.6278
• 可以看出, bavg,hrunsyr & rbisyr中没有一个变量在5%的显 著性水平上具有统计显著的t统计量。是不是以为着这三个变 量对工资对数没有影响呢?为了回答这个问题,我们将这三 个变量从模型中去掉(去掉变量时,SSR总是会边大),模 型重写为
β j ~ Normal ( β j , Var ( β j ))
^ ^
因此
( β j − β j ) / sd ( β j ) ~ Normal (0,1)
^ ^
检验对单个总体参数的假设:t检验
• 定理 定理4.2 在CLM假定MLR1—MLR6下,有
( β j − β j ) / se( β j ) ~ tn − k −1
( SSRr − SSRur ) / q F≡ SSRur /(n − k − 1)
• 其中,q是约束个数,n是样本容量,k+1是不受约束 模型中参数个数(n-k-1为不受约束模型的自由 度)。可以证明:
F ~ Fq , n − k −1
• 在我们这个例子中,q=3,n-k-1=347。带入 上述统计量计算得到F=9.55。这个数字远 远打于自由度为3和347的F分布在显著性水 平为1%的临界值。我们称这种情况为联合 显著。 • 为什么单个变量不显著,整体却很显著呢? 一个可能的原因是多重共线性。
log( salary ) = 11.22 + 0.0713 years + 0.0202 gamesyr
(0.11)
(0.0125)
(0.0013)
^
n = 353, SSR = 198.311, R = 0.5971
2
• 如何通过残差平方和(SSR)的变化来发现模型有没 有显著变化呢?构造如下统计量
^
R 2 = 0.0654
• Log(enroll)系数估计量的p值为0.0681,在10%的 显著性水平上我们可以拒绝零假设 H 0 : β enroll = 0 从而支持对立假设 H1 : β enroll < 0
检验斜率的其他假设
• 尽管检验参数是否为零是最常见的假设,但是还 是有时候希望检验参数是否等于其他常数。此时 虚拟假设为
log( salary ) = β 0 + β1 years + β 2 gamesyr + u
• 在假设检验的背景下,次方程是上述检验的受约束模型 (restricted model);原模型称为不受约束模型(unrestricted model)。受约束模型的参数总比不受约束模型参数要少。
• 再次利用MLB1.RAW中数据来估计受约束模型时 候,我们得到
^ ^
• 为了检验零假设,我们需要计算 t = , ^ ^ ^ ^ se( β 1 − β 2 ) 但是我们不知道 se( β 1 − β 2 ) 。 ^ ^ ^ ^ 注意: 注意:一般情况下 se( β 1 − β 2 ) = se( β 1 ) − se( β 2 )是不对的。
β1− β 2
• 下面我们利用回归的方法来计算上述t统计量。 令 θ1 = β1 − β 2 ,于是我们的假设就变 为 H 0 : θ1 = 0; H1 : θ1 < 0 。我们把模型重写成如下形 式: log( wage) = β 0 + θ1 jc + β 2 ( jc + univ) + β3 exp er + u • 再令 totcoll = jc + univ ,上述模型又可写为
^
Fra Baidu bibliotek
R 2 = 0.0541 • 由回归结果的p值0.3592可知,我们不能拒绝零假 设。
• 为了解释函数形式对我们已有结论的影响,我们将 自变量都取对数后再进行回归。结果如下:
math10 = −207.66 + 21.155log(totcomp ) +3.98log( staff ) − 1.268log(enroll )
多元回归分析: 多元回归分析:推断
OLS估计量的抽样分布
• 假定 假定MLR6(正态性) (正态性) 总体误差 u 独立于解释变量 x1 , x2 , L , xk ,而且服从均值为零和方差为 σ 2的正态分布,即 u ~ N (0, σ 2 ) 就横截面回归中的应用而言,这6个假定被称为经典 经典 线性模型(CLM,classical linear model)假定 . 线性模型 总结CLM总体假定的一个简洁方法是:
• 虚拟假设是 H 0 : β enroll = 0 ,而对立假设是 H1 : β enroll < 0 • 估计方程(标准误在括号中)是
math10 = 2.274 + 0.00046totcomp + 0.048staff − 0.00020enroll (0.040) (6.113) (0.00010) (0.00022)
式中,k+1是总体模型
^
^
y = β 0 + β1 x1 + β 2 x2 + L + β k xk + u 中未知参数个数。
单侧检验和双侧检验
• 以小时工资方程为例。利用数据WAGE1.RAW,得到如下 估计方程
log( wage) = 0.284 + 0.092educ + 0.0041exp er + 0.022tenure
log( wage) = β 0 + θ1 jc + β 2totcoll + β3 exp er + u
• 对上述模型进行估计,结果如下
log( wage) = 1.43 − 0.026 jc + 0.124totcoll + 0.019 exp er
(0.27) (0.018)
(0.035) (0.008)
log(crime) = −6.63 + 1.27 log(enroll ) (1.03) (0.11)
^
R 2 = 0.585
• t值为(1.27-1)/0.11=2.45大于显著性水平为5%的单侧检验 临界值1.66,从而我们可以拒绝零假设支持备择假设。
住房价格和空气质量
• 对于一个由波士顿地区506个社区组成的样本, 我们估计一个联系社区中平均住房价格(price) 平均住房价格( 平均住房价格 与社区各种特征的模型:nox表示空气中氧化亚 表示空气中氧化亚 氨的含量; 氨的含量;dist表示该社区相距五个商业中心的 表示该社区相距五个商业中心的 加权距离; 加权距离;rooms表示该社区平均每套住房的房 表示该社区平均每套住房的房 间数; 则为该社区学校的平均学生—教 间数;而stratio则为该社区学校的平均学生 教 则为该社区学校的平均学生 师比。总体模型如下: 师比
• 计算得t=-1.44,相应的p值为0.075,虽然不是很 显著,但我们还是可以说有证据拒绝零假设。
对多个线性约束的检验:F检验
• 之前的t检验允许我们考察单个变量或是一些变量的 线性组合对被解释变量有没有影响,有时候我们需 要考虑一组(可能不是全部)变量对被解释变量的 影响。棒球运动员薪水模型 log( salary ) = β 0 + β1 years + β 2 gamesyr + β 3bavg
+ β 4 hrunsyr + β 5 rbisyr + u • 式中,salary为1993年总薪水;years为加入俱乐部 的年数;gamesyr为平均每年比赛的次数;bavg为 平均职业击球次数;hrunsyr为平均每年的本垒打次 数;rbisyr为每年的击球跑垒得分。
• 我们想检验的是:一旦控制了加入俱乐部的年数和 每年的比赛次数,度量球员表现的统计指标 (bavg,hrunsyr & rbisyr)对薪水有没有影响。零假设 可表示为: H 0 : β 3 = 0, β 4 = 0, β5 = 0 • 这里零假设称为多重约束,对多重约束进行的检验 称为多重假设检验(multiple hypotheses test)或联 合假设检验(joint hypotheses test)。相应的对立假 设为 H1 : H 0不正确
^
+0.255rooms − 0.52 stratio
R 2 = 0.581
(0.019)
(0.006)
• 零假设对应的t统计量为(-0.954+1)/0.117=0.393
对经典假设用语的一个提醒
• 当 H 0 未被拒绝时,我们喜欢说“在x%的显 著性水平上不能被拒绝 不能被拒绝”,而不是说“我们在 不能被拒绝 x%的显著性水平上接受 接受
H 0 ”。
检验关于参数的一个线性组合的假设
• 我们利用一个简单模型来说明这个方法如何使用: 比较两年制大专教育和四年制本科教育(大学教育) 的回报(Kane & Rouse,1995)。基本模型如下
log( wage) = β 0 + β1 jc + β 2univ + β3 exp er + u
H0 : β j = a j
t=
• 相应的t统计量为
β j − aj
se( β j )
^
^
• 下面以两个例子来说明这种检验方法。
校园犯罪与注册人数
• 考虑大学校园内犯罪次数(crime)和学生注册人数的一个简 单模型
log(crime) = β 0 + β1 log(enroll ) + u
• 利用美国1992年97个大学和学院的数据,针对 β1 > 1 来检验 β1 = 1 。数据来源于联邦调查局的《统 一犯罪报告》。回归结果如下:
式中,jc为参加两年制大专的年数;univ为参加大学 的年数。这里jc和univ的任意组合都是允许的。
• 我们关心的问题是:在大专一年是否比的上在大学 一年。这可表示为:H 0 : β1 = β 2 ; H1 : β1 < β 2 • 上述假设可重新表示为:
H 0 : β1 − β 2 = 0; H1 : β1 − β 2 < 0
log( price) = β 0 + β1 log(nox) + β 2 log(dist )
+ β3rooms + β 4 stratio + u
• 我们的假设如下: H 0 : β1 = −1, H1 : β exp er ≠ −1 • 利用HPRICE2.RAW中数据,估计模型为
log( price) = 11.08 − 0.954 log(nox) − 0.134 log(dist ) (0.043) (0.117) (0.32)
• 一个需要注意的问题是并不是每个变量都是显著的 时候联合假设检验才是显著的,这样做还可能产生 误导。我们使用MLB1.RAW中数据来估计上述方程, 结果如下
log( salary ) = 11.192 + 0.0689 years + 0.0126 gamesyr
(0.0121)
^
(0.29)
(0.0026)
y | x ~ Normal ( β 0 + β1 x1 + β 2 x2 + L + β k xk , σ 2 )
问题
• 假设独立于解释变量,而且以相同概率取 值-2、-1、0、1、2。这样会违背高斯—马 尔可夫假定吗?会违背CLM假定吗? • 还能举出一些例子吗?
• 定理 定理4.1(正态抽样分布) 正态抽样分布) 正态抽样分布 在CLM假定MLR1—MLR6下,给定自变量的样 本值,有