一元线性回归模型的置信区间与预测
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
§2.5 一元线性回归模型的置信区间与预测
多元线性回归模型的置信区间问题包括参数估计量的置信区间和被解释变量预测值的置信区间两个方面,在数理统计学中属于区间估计问题。所谓区间估计是研究用未知参数的点估计值(从一组样本观测值算得的)作为近似值的精确程度和误差范围,是一个必须回答的重要问题。
一、参数估计量的置信区间
在前面的课程中,我们已经知道,线性回归模型的参数估计量^
β是随机变量
i y 的函数,即:i i y k ∑=1
ˆβ,所以它也是随机变量。在多次重复抽样中,每次
的样本观测值不可能完全相同,所以得到的点估计值也不可能相同。现在我们用参数估计量的一个点估计值近似代表参数值,那么,二者的接近程度如何?以多大的概率达到该接近程度?这就要构造参数的一个区间,以点估计值为中心的一个区间(称为置信区间),该区间以一定的概率(称为置信水平)包含该参数。
即回答1β以何种置信水平位于()
a a +-1
1ˆ,ˆββ之中,以及如何求得a 。 在变量的显著性检验中已经知道
)
1(~^
^
---=
k n t s t i
i
i βββ (2.5.1)
这就是说,如果给定置信水平α-1,从t 分布表中查得自由度为(n-k-1)的临界值2
αt ,那么t 值处在()2,ααt t -的概率是α-1。表示为
α
αα-=<<-1)(2
2
t t t P
即
α
ββαβα-=<-<
-1)(2
^
2
^
t s t P i
i
i
α
ββββαβα-=⨯+<<⨯-1)(^^2
^
2
^i
i
s t s t P i i i
于是得到:在(α-1)的置信水平下i β的置信区间是
)
(^^2
^
2
^i
i
s t s t i i βαβαββ⨯+⨯-,i=0,1 (2.5.3)
在某例子中,如果给定01.0=α,查表得
012
.3)13()1(005.02
==--t k n t α
从回归计算中得到01.0,15,21.0ˆ,3.102ˆ1
ˆˆ10====β
βββS S 根据(2.5.2)计算得到10,ββ的置信区间分别为()48.147,12.57和(0.1799,0.2401)
显然,参数1β的置信区间要小。
在实际应用中,我们当然希望置信水平越高越好,置信区间越小越
好。如何才能缩小置信区间?从(2.5.3)式中不难看出:(1)增大样本容量n 。
在同样的置信水平下,n 越大,从t 分布表中查得自由度为(n-k-1)的临界值
2
α
t 越小;同时,增大样本容量,在一般情况下可使估计值的标准差βˆS 减小,因为式中分母的增大是肯定的,分子并不一定增大。(2)更主要的是提高模型的拟合度,以减小残差平方和∑2i e 。设想一种极端情况,如果模型完全拟合样本观测值,残差平方和为0,则置信区间也为0。(3)提高样本观测值的分散度。在一
般情况下,样本观测值越分散,标准差越小。置信水平与置信区间是矛盾的。置信水平越高,在其他情况不变时,临界值
2
α
t 越大,置信区间越大。如果要求缩小
置信区间,在其他情况不变时,就必须降低对置信水平的要求。
二、预测值的置信区间
1、
点预测
计量经济学模型的一个重要应用是经济预测。对于模型
i i i u x y ++=10ββ,n i ,,2,1Λ=
如果给定样本以外的解释变量的观测值f x ,有
f f f u x y ++=10ββ
因f x 是前述样本点以外的解释变量值,所以f u 和()n i u i ,,2,1Λ=是不相关的。引用已有的OLS 的估计值,可以得到被解释变量f y 的点预测值:
f
f x y 10ˆˆˆββ+= (2.5.4)
但是,严格地说,这只是被解释变量的预测值的估计值,而不是预测值。原因在于两方面:一是模型中的参数估计量是不确定的,正如上面所说的;二是随机项的影响。所以,我们得到的仅是预测值的一个估计值,预测值仅以某一个置信水平处于以该估计值为中心的一个区间中。于是,又是一个区间估计问题。
2、
区间预测
如果已经知道实际的预测值f y ,那么预测误差为
f f f y
y e ˆ-= 显然,f e 是一随机变量,可以证明
()()
()()
()0
ˆˆˆ10101010=+-+=+-++=-=f f f f f f f f x x x E u x E y y E e E ββββββββ 而
()()()
()()()()()
f f f u f f f f f f f f f f f f f y y Cov y
D y y Cov y
y Cov y y Cov y y y
y Cov e e Cov e D ˆ,2ˆˆ,ˆˆ,2,ˆ,ˆ,2
-+=+-=--==σ
因为f y
ˆ由原样本的OLS 估计值求得,而f y 与原样本不相关,故有: ()0ˆ,=f f y y Cov ,()
()
f u f y
D e D ˆ2
+=σ 可以计算出来:
()()
21
2
1
ˆu n
i i
f f x x
x
x n y
D σ⎪⎪⎪⎪
⎭
⎫ ⎝
⎛
--+=∑= (2.5.5) ()()2
12
1
1u n
i i f f x x x
x n e D σ⎪⎪⎪⎪⎭
⎫
⎝
⎛--+
+=∑= (2.5.6) 因f y
ˆ和f e 均服从正态分布,可利用它们的性质构造统计量,求区间预测值。利用f y
ˆ构造统计量为: ()()()
1,0~1ˆ2
12ˆN x x x x n y E y N u
n
i i f f f y f σ⎪⎪⎪⎪
⎭
⎫ ⎝
⎛
--+-=
∑=
将2u σ用估计值2ˆu σ
代入上式,有