第4章 多元回归分析:推断
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
p/2 / α/ 2
p/2 / α/ 2
0
如果p< 如果 α,则 p/2< α/2, t0 ,
落入拒绝域, 落入拒绝域, 应拒绝H0
-tα/2
拒绝H0 拒绝H0
t0 tα / 2
拒绝H0 拒绝H0
不能拒绝H0 不能拒绝H0
值小于等于给定显著性水平时, 当P 值小于等于给定显著性水平时,所研究的解释变量对被 解释变量的影响在该显著性水平下是显著的; 解释变量的影响在该显著性水平下是显著的; 值大于给定显著性水平时, 当P 值大于给定显著性水平时,所研究的解释变量对被解释 变量的影响在该显著性水平下是不显著的。 变量的影响在该显著性水平下是不显著的。
ε
中的参数β 是否显著不为0。 中的参数βi是否显著不为 。 可提出如下原假设与备择假设: H0: β2=β3= … =βk=0 β β H1: βi不全为 不全为0
F检验的思想来自于总离差平方和的分解式: 来自于总离差平方和的分解式: 来自于总离差平方和的分解式 TSS=ESS+RSS
ˆ 由于回归平方和 ESS = ∑ y i2 是解释变量 X 的联合体对被解
j j j
假设检验的一般步骤
一般可以将假设检验的步骤归纳为五个部分。 1.提出原假设和备择假设 原假设(Null Hypothesis)是指通过样本信息来推断正确与否的 命题,也称为零假设。 备择假设(Alternative Hypothesis)是指原假设对立的命题,是 原假设的替换假设。 2.选定适当的检验统计量 如同参数估计,假设检验同样是从抽样分布 抽样分布出发,借助样本统计 抽样分布 量进行的统计推断。在假设检验中的样本统计量称为检验统计量。 检验统计量(Test Statistic)是指根据样本数据计算得到的,对原 假设进行判断的样本统计量。
多元回归分析: 第四章 多元回归分析:推断 OLS估计量的抽样分布 4.1 OLS估计量的抽样分布 4.2变量的显著性检验 单参数的t检验) 变量的显著性检验( 4.2变量的显著性检验(单参数的t检验) 4.3置信区间 4.3置信区间 4.4参数线性组合的检验 4.4参数线性组合的检验 4.5多个线性约束的检验 4.5多个线性约束的检验
来拒绝或不能拒绝原假设H 从而判定对应的解 来拒绝或不能拒绝原假设 0,从而判定对应的解 释变量是否应包括在模型中。 释变量是否应包括在模型中。
**关于 值:以t统计量的观测值作为临界值,并计算该检 关于P值 统计量的观测值作为临界值, 关于 统计量的观测值作为临界值 验的响应显著水平,这就是P值 验的响应显著水平,这就是 值。
4. 两类错误 不拒 H0 拒 H0
H0 真 对 拒真 Ⅰ
H0 伪 取伪Ⅱ 对
Ⅰ:拒真。把不应该引入的变量引入模型,导致多列 拒真。把不应该引入的变量引入模型, 无关变量,造成虽然参数估计值是无偏, 无关变量,造成虽然参数估计值是无偏,但标准差会 大。 若不想犯第一类错误,则显著水平需要定得小点。 若不想犯第一类错误,则显著水平需要定得小点。 Ⅱ:取伪。把该引入的变量没有引入模型 取伪。 造成参数估计量有偏。 造成参数估计量有偏。 遗漏变量
0 1 2
H 1: β1 < β 2 构造新参数:
θ = β1 - β 2
新的假设为H 0:θ = 0,H 1 < 0
方程总体或几个自变量的联合显著性检验(F检验 方程总体或几个自变量的联合显著性检验 检验) 检验
方程的显著性检验,旨在对模型中被解释变量与解释 变量之间的线性关系在总体上是否显著成立作出推断。 1、检验假设 、 即检验模型 Y=β1+β2X2+ … +βkXk+ β β β
(i=1,2…k)
2. 检验统计量
当 σ 已知时→ 用正态N 当 σ 未知时→ n ≥50→ 也可用正态N n很小→ 用t分布
2 2
(1) t 变量
b −β t (b ) = ( ) S bi
i i
i
其中 S (b i ) = S ( X ′ ) X
2 −1 ii
−1
b ~ N ( β ,σ ( X ′X )
OLS估计量的抽样分布 OLS估计量的抽样分布
一、几个定理
假定MLR.6(正态性 : 正态性): 假定 正态性 2 总体误差u独立于解释变量Xi,且服从均值为零和方差为σ 的正态分布 经典线性模型假定 保证了OLS是最小方差无偏估计 注意,MLR.6不影响无偏,只是影响方差大小 定理4.1正态抽样分布 定理 正态抽样分布 假定MLR.1~MLR.6下,以自变量的样本值为条件, 在CLM假定 假定 下 以自变量的样本值为条件, 有 b的估计量~Normal(b,Var(b的估计量 ) 的估计量~ 的估计量)) 的估计量 ( 的估计量 因此: 因此: ˆ ˆ ( β − β ) / sd ( β ) ~ Normal (0,1)
}
如何才能缩小置信区间? 如何才能缩小置信区间?
•增大样本容量n,因为在同样的样本容量下,n越大,t分布表中的临界值越 增大样本容量n 因为在同样的样本容量下, 越大, 增大样本容量 同时,增大样本容量,还可使样本参数估计量的标准差减小; 小,同时,增大样本容量,还可使样本参数估计量的标准差减小; •提高模型的拟合优度,因为样本参数估计量的标准差与残差平方和呈正比, 提高模型的拟合优度,因为样本参数估计量的标准差与残差平方和呈正比, 提高模型的拟合优度 模型优度越高,残差平方和应越小。 模型优度越高,残差平方和应越小。
3.确定适当的显著性水平 显著性水平(Significance Level)是指正确的原假设遭到拒绝的错误 发生的概率。 显著性水平一般取0.1、0.05或0.01等数值。显著性水平的具体是根据 研究目的,有关条件,假设检验量等具体情况,由人们主观确定的。 各类统计软件在给出检验统计量的数值时,一般都给出该检验统计量数 值的相伴概率,即p值。 p值是根据检验统计量的数值,及其相关概率分布,自由度等计算出来 的实际的临界显著性水平,反映了由该检验统计量进行假设检验时,发 生正确的原假设遭到拒绝的错误的实际概率水平。
4.计算检验统计量的数值 检验统计量的数值一般也称为检验统计值。 5.假设检验的判断 假设检验的判断是根据选定的显著性水平和检验统计量的分布,确定拒 绝域的临界值,将检验统计量的数值与临界值相比较,进而作出接受或 者拒绝原假设的判断的方法和过程。 拒绝域(Rejection Region)是指检验统计量拒绝原假设的所有取值的 集合。 临界值(Critical Value)是指根据选定的显著性水平所确定的拒绝域的 边界数值。 拒绝域是由显著性水平确定的一个数值区间,若由样本数据计算的检验 统计量的数值落在这个区间里,就拒绝原假设,否则将接受原假设。 拒绝域的界定是根据具体的显著性水平所计算的临界值,计算出了临界 值,也就确定了拒绝域。
对单参数,单假设的检验
1.对单侧对立假设的检验 . 单侧检验(One-Side test)是指仅在数轴上的一端设置拒绝域 的边界数值,只进行单一方向控制的假设检验。单侧检验的备择 假设在数轴上具有特定的方向性,是一种包含“<”或“>”运算符 号的假设检验,一般也称为单尾检验(One-Tailed test)。 如图所示,在单侧检验中只 需要在概率分布的某一端的显著 性水平的位置上,确定拒绝域边 界的临界数值,进行显著性检验。 单侧检验方向,即设置拒绝域的 边界数值的位置,可以是在概率 分布的右端或者左端,这两种方 式均使样本落在接受域的概率 为 1−α 。 注意: 注意 不取绝对值,带符号判断
( •提高样本观测值的分散度,一般情况下,样本观测值越分散, X ′ ) 的分母 提高样本观测值的分散度,一般情况下,样本观测值越分散, X 提高样本观测值的分散度 的
−1
X ′X
的值越大,致使区间缩小。 的值越大,致使区间缩小。
检验关于参数的一个线性组合
涉及不止一个参数的单 假设检验 例如: H : β = β
三、参数的置信区间
1. 问题的提出 (1)区间 )
b −β
k k k
k
≤ rk
误差 注意:不是先有区间, 注意:不是先有区间,让 β k 掉进去, 掉进去,而是先有 β k ,再找个 区间把它罩住。 区间把它罩住。
b −r ≤ β
k
≤ bk + r k
(2)置信度 置信度= 置信度=把握程度
比如,置信度=95% 区间里, 95个区间包括 区间里,有95个区间包括 β k 。
基础知识: 基础知识:拟合优度检验
可决系数与调整的可决系数 1. 总离差平方和的分解
观测值对均值的 分散程度、 分散程度、偏离程度 拟合值对均值的 分散程度、 分散程度、偏离程度 观测值对拟合值的
TSS = Σ(Yi − Y ) 2 分散程度、 分散程度、偏离程度 ˆ ˆ = Σ((Yi − Yi ) + (Yi − Y )) 2 ˆ ˆ ˆ ˆ = Σ(Yi − Yi ) 2 + 2Σ(Yi − Yi )(Yi − Y ) + Σ(Yi − Y ) 2
释变量 Y 的线性作用的结果,考虑比值
ˆ ESS / RSS = ∑ y i2 ei2 ∑
如果这个比值较大, 的联合体对Y的解释程度 如果这个比值较大,则X的联合体对 的解释程度 的联合体对 可认为总体存在线性关系, 高,可认为总体存在线性关系,反之总体上可能不存 在线性关系。 在线性关系。 因此, 因此,可通过该比值的大小对总体线性关系进行推 断。
P值检验法(p-value test) 值检验法( - 值检验法 )
p 值的概念: 值的概念: 为了方便, 为了方便,将 t 统计量的值记为
t0 =
βj
Se β j
∧
∧
计算 称为p
p=P{|t|>t 0}
值(p-value ) -
通常的计量经济学软件都可自动计算出p 通常的计量经济学软件都可自动计算出 值
2. β 的置信区间
k
对称区间,中心是b 对称区间,中心是bk,半径是
r = S (b ) ⋅ t α ( n − k )
k k
b −β t (b ) = ( ) S bk
k k
k
p t(b k )
k
{
p
t
α
2
(n − k ) = 1 − α
}
2
P {b − r ≤ β
k k
≤ bk + r k = 1 − α
i i
)
t检验统计量 (2) t检验统计量
若H0为真,则 为真,
bi t (bi ) = ~ t (n − k − 1) Se(bi )
3. 判断 给定显著性水平α 可得到临界值 给定显著性水平α,可得到临界值tα/2(n-k-1), ) 的数值, 由样本求出统计量t的数值 由样本求出统计量 的数值,通过 |t|> |t|> tα/2(n-k-1) ) 或 |t|≤ |t|≤tα/2(n-k-1) )
2.双侧检验 双侧检验 双侧检验(Two-Sides test)是指在数轴上的两端同时设置拒绝 域的边界数值,同时进行控制的假设检验。双侧检验的备择假设是 指没有特定的方向性,含有“≠”运算符号的假设检验,一般也称 为双尾检验(Two-Tailed test)。
如图所示,在双侧检验 中需要在概率分布的两 端,各二分之一显著性 水平的位置上确定拒绝 域边界的临界数值,从 而保证了样本落在接受 域的概率仍为1 − α 。
由于
∑ (Y
i
ˆ ˆ ˆ − Y )(Yi − Y ) = ∑ ei (Yi − Y )
条件: 条件:模型必须有截距项
=0 所以有:
ˆ ) 2 + ∑ (Y − Y ) 2 = RSS + ESS ˆ TSS = ∑ (Yi − Yi i
有意思的是: 有意思的是:
(Y − Y ) = (Y − Yˆ ) + (Yˆ − Y ) (Y − Y ) ≠ (Y − Yˆ ) + (Yˆ − Y ) ∑ (Y − Y ) = ∑ (Y − Yˆ ) + ∑ (Yˆ − Y )
二、变量的显著性检验(t检验) 变量的显著性检验(t检验) (t检验 方程的总体线性关系显著 每个解释变量对被 方程的总体线性关系显著≠每个解释变量对被 总体线性关系显著≠ 解释变量的影响都是显著的 因此,必须对每个解释变量进行显著性检验, 因此,必须对每个解释变量进行显著性检验, 以决定是否作为解释变量被保留在模型中。 以决定是否作为解释变量被保留在模型中。 检验完成的。 这一检验是由对变量的 t 检验完成的。 1. 检验假设 H0:βi=0 H1:βi≠0