《线性回归R2-F-t检验

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第二章一元线性回归模型
基本要求:
1、了解相关与回归的概念
2、理解线性回归模型的假定
3、掌握普通最小二乘法
4、理解最小二乘估计量的性质
5、会进行回归模型的检验
第一节一元线性回归模型概述
一、相关与回归的基本概念
(一)变量之间的关系
各种经济变量之间的关系,一般可以分成两类,即完全确定的关系和非确定性的依存关系。

1.确定性关系或函数关系
如果一个变量值能被一个或若干个其他变量值按某一规律唯一的确定,则这类变量之间就具有完全确定的关系。

例如,当每吨水的价格为P元时,居民应缴纳的水费Y(元)与用水量X(吨)之间的关系可表示为Y=PX。

2.非确定性关系
如果变量之间既存在密切的数量关系,又不能由一个(或几个)变量之值精确的求出另一个变量之值,但在大量统计资料的基础上,可以判别这类变量之间的数量变化具有一定的规律性,也称为统计相关关系。

例如消费支出Y与可支配收入X之间有一定的关系,在一定范围内,收入增加,在理论上可以估计出增加的消费支出额。

但应看到,可支配收入虽然是影响消费支出的重要因素,却不是唯一的因素。

因此,根据可支配收入并不能精确的求出消费支出,也就不能用精确的函数关系表达式来表示这两个变量之间的关系。

计量经济学就是研究变量间的非确定关系的,变量间的统计相关关系可以通过相关分析和回归分析来研究。

(二)相关分析
1、涵义
相关分析是通过对经济现象的依存关系的分析,找出现象间的相互依存的形式和相关程度,以及依存关系的变动规律。

2、类型——从变量间的依存形式看,可分为线性相关和非线性相关。

线性相关反映变量间的依存关系可以近似的表示为一条直线;变量间的依存关系近似的表示为一条曲线则称为非线性相关。

3、指标
从变量间的相关程度看,可以通过相关系数来度量。

两个变量之间的相关程度可以用简单相关系数来衡量;多个变量之间的相关程度可以用复相关系数、偏相关系数等来衡量。

(三)回归分析
1.回归的定义
回归分析是研究某一被解释变量(因变量)与另一个或多个解释变量(自变量)间的依存关系,其目的在于根据已知的解释变量值或固定的解释变量值(重复抽样)来估计和预测被解释变量的总体平均值。

在研究某一社会经济现象的发展变化规律时,所研究的现象或对象称为被解释变量,它是分析的对象,把引起这一现象变化的因素称为解释变量,它是引起这一现象变化的原因。

被解释变量则反映了解释变量变化的结果。

2.回归模型的分类
(1)按模型中自变量的多少,分为一元回归模型和多元回归模型。

一元回归模型是指只包含一个解释变量的回归模型
多元回归模型是指包含两个或两个以上解释变量的回归模型。

(2)按模型中参数与被解释变量之间是否线性,分为线性回归模型和非线性回归模型。

对于“线性”的解释:
一种是就变量而言是线性的,即线性回归模型是指解释变量与被解释变量之间呈线性关系;
另一种是就参数而言是线性的,即线性回归模型是指参数与被解释变量之间呈线性关系;非线性回归模型是指参数与被解释变量之间呈非线性关系。

就回归模型而言,通常“线性”是就参数而言的。

(3)按模型中方程数目的多少,分为单一方程模型和联立方程模型。

单一方程模型是指只包含一个方程的回归模型;
联立方程模型是指包含两个或两个以上方程的回归模型。

3.相关与回归的关系
相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。

相关分析需要依靠回归分析来表现变量之间数量相关的具体形式,而回归分析则需要依靠相关分析来表现变量之间数量变化的相关程度。

相关分析只研究变量之间相关的方向和程度,不能推断变量之间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。

注意避免“虚假回归”:只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。

如果在没有对变量之间是否相关以及相关方向和程度做出正确判断之前,就进行回归分析,很容易造成“虚假回归”。

二者的区别:
(1)在相关分析中涉及的变量不存在自变量和因变量的划分问题,变量之间的关系是对等的;而在回归分析中,则必须根据研究对象的性质和研究分析的目的,对变量进行自变量和因变量的划分。

因此,在回归分析中,变量之间的关系是不对等的。

(2)在相关分析中所有的变量都必须是随机变量;而在回归分析中,自变量是给定的,因变量才是随机的,即将自变量的给定值代入回归方程后,所得到的因变量的估计值不是惟一确定的,而会表现出一定的随机波动性。

(3)相关分析主要是通过一个指标即相关系数来反映变量之间相关程度的大小,由于变量之间是对等的,因此相关系数是惟一确定的。

而在回归分析中,对于互为因果的两个变量,则有可能存在多个回归方程。

二、一元线性回归模型
(一)总体回归函数
1、总体回归函数
假若我们要研究的问题是某市N 户城镇居民家庭的可支配收入X 和消费支出Y 之间的关系,则全体N 户居民家庭构成了研究的总体。

表2-1给出了全部居民家庭可支配收入和消费支出统计资料。

表2-1 居民家庭可支配收入和消费支出统计表
可支配收入 消费支出 户数 平均消费支出 (X ) (Y )
1211112111122122222 (|)
(|j N j N X Y Y Y Y N E Y X X Y Y Y Y N E Y X 212)
(i i i i ij iN i X Y Y Y Y N E
Y 12|)
(|k i k k k kj kN k X X Y Y Y Y N E Y
X )
k
从表2-1可以看出:对于某一收入水平i X (k i ,,2,1 =),有i N (k N N N N +++= 21)户居民家庭消费支出与其对应,反映出在某一收入水平下有关消费支出的条件分布。

根据该条件分布,可以计算出在某一收入水平下平均消费支出)/(i X Y E ,即条件均值。

从表2-1还可以看出:对于每一收入水平i X ,仅有唯一的一个条件均值)/(i X Y E 与其对应,这种一一对应的关系构成了函数关系,该函数称为总体回归函数(Population Regression Function, PRF )。

记为:
)()/(i i X f X Y E = (2-1)
总体回归函数反映了给定X i 的Y 分布的总体均值随X 的变化而变化的关系。

2、回归系数:0β和1β
总体回归函数f (X i )若采用线性函数的形式,有:
i i X X Y E 10)/(ββ+= (2-2)
其中0β和1β是未知而固定的参数,称为回归系数(Regression Coefficients ),0β称为截距系数(Intercept Coefficients ),1β称为斜率系数(Slope Coefficients )。

该函数称为线性总体回归函数。

(二)总体回归函数的随机设定
)/(i X Y E 描述了在某一收入水平下平均消费支出水平,但是对于某一户居民的家庭消费支出
i Y 不一定恰好与该水平一致,或多或少地存在一些偏差。

该偏差用i μ表示,并定义:
)/(i i i X Y E Y -=μ (2-3)
则有:
i i i i i X X Y E Y μββμ++=+=10)/( (2-4)
式(2-4)中i μ 反映了除收入之外众多影响消费支出的因素的综合影响,是一个不能观测的随机变量,称为随机误差项(Stochastic Error )。

式(2-4)为总体回归函数的随机设定形式。

(三)样本回归函数
根据总体资料可以建立总体回归函数,揭示被解释变量随解释变量的变化而变化的规律。

但在大多数实际情况中,总体的信息往往无法全部获得,我们所掌握的不过是与某些固定的X 值相对应的Y 值的样本。

需要根据已知的样本信息去估计总体回归函数。

假定现在不知道建立总体回归函数的总体资料,仅仅掌握来自总体的一组样本数据,例如,根据调查得到某市职工个人月可支配收入与月消费支出数据资料(见表2-2)
表2-2 某市职工个人月可支配收入与月消费支出调查资料 单位:元/月
序 号 1 2
3
4 5 6 7 8 9 10 可支配收入(X ) 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 消费支出(Y )
700
650
900
950
1100
1150
1200
1400
1550
1500
根据以上样本数据拟合一个线性方程:
i
i X Y 10ˆˆˆββ+= (2-5) 该方程式称为样本回归函数(Sample Regression Function, SRF )。

比较式(2-2)与(2-5),假若0ˆβ充分地“接近”0β,并且1
ˆβ也充分地“接近”1β,就可以
用样本回归函数i Y ˆ去估计总体回归函数E (Y | X i )。

所以i Y ˆ亦称为E (Y | X i )的估计量;0
ˆβ称为0β的估计量;1
ˆβ称为1β的估计量。

式(2-5)中i Y ˆ与实际的值存在一定的偏差,该偏差i e 用表示。

定义: i
i i Y Y e ˆ-=则有: i
i i i i e X e Y Y ++=+=10ˆˆˆββ (2-6) i e 称为样本剩余项,也称为残差。

Y
β0+β1X i
i 图2-1 总体回归函数与样本回归函数的关系
第二节 一元线性回归模型参数估计
一、古典线性回归模型的假定
以一元线性回归模型Y i = β0 + β1X i + μi 为例,古典线性回归模型的假定如下: 假定1:在给定X i 的条件下,μi 的条件均值为零。

即,E (μi | X i )=0。

假定2:在给定任意X i 、X j 的条件下,μi 、μj 不相关。

即,Cov(μi , μj )=0。

假定3:对于每一个X i ,μi 的条件方差是一个等于σ2
的常数。

即,Var (μi | X i )=σ2 。

假定4:在给定X i 的条件下,X i 和μi 不相关。

即,Cov (μi , X i )=0。

满足以上四个假定的线性回归模型称为古典线性回归模型。

所谓“古典”是作为一种标准或规范来使用的,凡是不满足以上假定的回归模型,就不是“古典”回归模型。

在前述假定下,用最小二乘法得到的回归参数的估计值,按照高斯—马尔可夫定理(Gauss-Markov Theorem )的意义来说,是“最优的”。

假定5:对于每一个μi 都服从于均值为零、方差为σ2正态分布。

即,μi ~ N (0,σ2) 满足以上五个假定的线性回归模型称为古典正态线性回归模型。

01ˆˆi
X ββ+
二、普通最小二乘法
(一)最小二乘原理
利用样本回归函数估计总体回归函数,是根据一个给定的包含n 组X 和Y 观测数据的样本,建
立样本回归函数,使估计值i
Y ˆ尽可能接近观测值Y i 。

最小二乘原理就是根据使样本剩余的平方和达到最小的准则,确定模型中的参数,建立样本回归函数。

(二)最小二乘估计量 1、计算、推导
由 i
i i i i X Y Y Y e 10ˆˆˆββ--=-=,得 ∑∑--=2102
)ˆˆ(i
i i
X Y e
ββ (2-7) 对于给定的样本,
∑2
i
e
的大小取决于0ˆβ和1
ˆβ的大小,即∑2
i
e
是0ˆβ和1
ˆβ的函数。

按照最小二乘原理,要求所选定的0ˆβ和1
ˆβ应使∑2
i
e
最小,要做到这一点,可以借助微积分中求极值的方法,

∑2
i
e
分别对0ˆβ和1ˆβ求偏导数,并令其为零,满足该条件的0ˆβ和1
ˆβ可以使∑2
i
e
最小。

即:
22
1
0,0ˆˆi i e e ββ
∂∂==∂∂∑∑ 可得到:
(2-8)
整理后有:
(2-9)
求解得:
2
2
1
)
(ˆ∑∑∑∑∑--=i i i i i i X X n Y X Y X n β (2-10)
ˆˆ1
n
X
n
Y
i
i
∑∑-=β
β (2-11)
01201ˆˆ
ˆˆ i i i i i i Y n X X Y X X ββββ⎧=+⎪⎨=+⎪⎩
∑∑∑∑∑0101ˆˆ()0 ˆˆ()0
i i i i i Y X Y X X ββββ⎧--=⎪⎨--=⎪⎩∑∑
令n
Y
Y n
X
X i
i
∑∑=
=
,

∑---=2
1
)())((ˆX X Y Y X X i
i i
β (2-12)
X Y 1
0ˆˆββ-= (2-13) 令Y Y y X X x i i i i -=-= , (离差)
则∑∑=21
ˆi
i
i x
y x β (2-14)
以上0ˆβ和1
ˆβ是根据最小二乘原理求得的,故称为普通最小二乘估计量。

2、实例
利用表2-2的样本资料建立最小二乘回归模型的过程如下:
表2-3 计算表 序号 X i Y i x i y i x i 2 y i 2
x i y i X i 2
1 800 700 -900 -410 810000 168100 369000 640000
2 1000 650 -700 -460 490000 211600 322000 1000000
3 1200 900 -500 -210 250000 44100 105000 1440000
4 1400 950 -300 -160 90000 25600 48000 1960000
5 1600 1100 -100 -10 10000 100 1000 2560000
6 1800 1150 100 40 10000 1600 4000 3240000
7 2000 1200 300 90 90000 8100 27000 4000000
8 2200 1400 500 290 250000 84100 145000 4840000
9 2400 1550 700 440 490000 193600 308000 5760000 10 2600 1500 900 390 810000 152100 351000 6760000 合计 17000 11100 0 0 3300000 889000 1680000 32200000 平均 1700 1110
5091.03300000
1680000
ˆ21
==
=∑∑i
i
i x
y
x β
5455.24417005091.01110ˆˆ1
0=⨯-=-=X Y ββ 样本回归函数为:
i
i X Y 5091.05455.244ˆ+= 上式表明,该市职工每月可支配收入若是增加100元,职工将会拿出其中的50.91元用于消费。

(三)普通最小二乘回归直线的性质 回归直线具有以下性质: 1.回归直线通过样本均值。

2.估计值i Y ˆ
的均值等于观测值i Y 的均值。

3.剩余项i e 的均值为零。

4.剩余项i e 与估计量i Y ˆ
不相关。

5.剩余项i e 与解释变量i X 不相关。

三、最小二乘估计量的性质
(一)线性性
最小二乘法计算的估计量是随机变量Y i 的线性函数。

1.1
ˆβ的线性 由式(2-14)得:
1
222222
() ˆ(0)i i i i i i i i i i i
i i i i i i i
x y x Y Y x Y Y x x Y x Y x x x x x x x β∑∑-∑∑∑===-==∑∑=∑∑∑∑∑∑这里 令2
i i i x x k ∑=

有:i i Y k ∑=1ˆβ (2-15) 2.0
ˆβ的线性 由式(2-13)得:
i i i i i Y X k n X Y k Y n
X Y ∑∑∑-=-=-= )1
(1ˆˆ1
0ββ 令X k n
h i i -=
1
有:i
i Y h ∑=0ˆβ (2-16)
(二)无偏性
如果估计量βˆ的均值等于总体参数真值β,则该估计量就是无偏估计量。

即:ββ=)ˆ(E 。

1.1
ˆβ的无偏性 由式(2-15)得:
1
0101ˆ()i i i i i i i i i i k Y k X k k X k βββμββμ==++=++∑∑∑∑∑
因为:
∑∑==1
, 0i
i
i
X
k k
所以:i
i
k μββ∑+= ˆ1
1 (2-17)
由此可得:
111
11)()( )() ()ˆ(βμβμβμββ=+=+=+=∑∑∑i i i i i i E k k E E k E E 即:1
1)ˆ(ββ=E (2-18) 2.0
ˆβ的无偏性 由式(2-16)可得:
i i h μββ∑+=0
0ˆ (2-19) 0
0)ˆ(ββ=E (2-20) (三)有效性(最佳无偏性)
在所有关于总体参数真值β的无偏估计量中,若估计量β
ˆ具有最小方差,则βˆ就是β的最佳无偏估计量。

1.1ˆ
β的有效性 由式(2-17)可得:
∑∑∑∑∑∑∑∑=
⎪⎪⎭

⎝⎛====+=+=2
2
2
2
2
222111 )( )( )( )( ) ()ˆ(i
i i
i i i i i i i i i x
x x k Var k k Var k Var Var k Var Var σσσμμμβμββ (2-21)
设*1
ˆβ是用其他估计方法得到的关于1β的线性无偏估计量。

由其线性性质可知i i Y ωβ∑=*
1ˆ,对其求方差可得:
)ˆ()())(()ˆ(1
22*1βωσωβVar k Y k k Var Var i i i i i i ∑∑+-=+-= 这里∑≥-0)(22
i i
k ω
σ,所以有:)ˆ()ˆ(1*1ββVar Var ≥。

2.0
ˆβ的有效性 同理,由式(2-16)可得:
2
2
2
)ˆ(σβ∑∑=i
i
x n X Var (2-22) 与对1
ˆβ的有效性分析相同,设*
0ˆβ是用其他估计方法得到的关于β0的线性无偏估计量,则有: )ˆ()ˆ(0
*0ββVar Var ≥ 结论:在古典线性回归模型的假定下,最小二乘估计量在所有线性无偏估计量中,具有最小方
差,这一结论即是著名的高斯-马尔可夫(Gauss-Markov )定理。

四、估计量0ˆβ 和1ˆ
β的分布
1、理论基础
对于一个古典正态线性回归模型,即同时满足第二节中假定5的古典线性回归模型,其随机扰
动项i μ服从正态分布。

由于i Y 是i μ的线性函数,而0ˆβ和1ˆβ又分别是i Y 的线性函数,根据正态分布的性质可知,0ˆβ和1
ˆβ也服从正态分布。

由以上分析可知:
00)ˆ(ββ=E ,1
1)ˆ(ββ=E
2
220
)ˆ(σβ∑∑=
i
i x
n X Var ,∑=2
2
1
)ˆ(i
x
Var σβ
从而有:
⎪⎪⎭⎫ ⎝⎛∑∑22200 ,~ˆσββi i x n X N ,⎪⎪⎭


⎛∑2211 ,~ˆi x N σββ 在上面计算0ˆβ和1
ˆβ方差的表达式中,除了随机扰动项的方差2σ之外,都是可以根据样本资料估计的。

可以用2σ的无偏估计量2ˆσ来代替2σ计算0ˆβ和1
ˆβ的方差。

2
ˆ22-=
∑n e i
σ (2-23)
∑2
i e
可以根据式(2-8)计算,也可以由下式计算:
∑∑∑+=22122ˆi
i i
x y e
β (2-24) 2、实例
对于例题2-1
0909
.4212 2
1033000000.5091889000 2
ˆˆ222122=-⨯-=-+=∑∑n x y i
i βσ
220
2322000004212.0909
ˆˆ()4109.98103300000
i i
X Var n x
βσ
⨯=
==⨯∑∑
1091.64)ˆ()ˆ(0
0==ββVar S e 33000000909.4212ˆ)ˆ(2
21==∑i x Var σβ 0357.0)ˆ()ˆ(1
1==ββVar S e 。

第三节 显著性检验
一、拟合优度与相关系数检验
(一) 拟合优度与可决系数
拟合优度是指样本回归直线对观测数据拟合的优劣程度。

我们所希望的就是围绕回归直线的剩余尽可能的小。

拟合优度通常用可决系数来度量。

可决系数是样本回归直线对数据拟合程度的综合度量。

在双变量的情况下,通常用r 2表示可决系数。

可决系数是建立在对被解释变量总变差分解的基础之上。

Y
Y
i 图2-2总变差分解图
图2-2中,观测值Y i 的离差i i
i i i i i y e Y Y Y Y Y Y y ˆˆˆ+=-+-=-=。

其中,Y Y y i i -=ˆˆ,是样本回归直线所确定的估计值与平均值的差; i
i i Y Y e ˆ-=,是样本观测值与回归直线所确定的估计值之差。

i y
ˆ越大,i e 越小,估计值与观测值越接近,该点拟合的越好;反之,拟合的越差。

当i i y y ˆ=时,完全拟合。

采用
∑2i
y
指标进行分析,该指标称为总变差或总离差平方和,简记为TSS 。

∑∑∑∑∑++=+=i
i
i
i
i
i
i
y
e y
e y e y ˆ2
ˆ )ˆ(22
22
根据
0ˆ=∑i
i
y
e ,所以有
∑∑∑+=222
ˆ i
i
i
y
e y (2-25)
其中,
∑∑-=2
2
)ˆ(ˆY Y y
i
i
,称为回归平方和,简记为ESS ;
∑∑-=22)ˆ(i
i
i
Y Y
e ,称为残差平方和,简记为RSS 。

这样式(2-25)也可以记为:
TSS=RSS+ESS (2-26) 当根据样本采用最小二乘法确定了一条回归直线时,TSS 的大小是一定的。

ESS 越大,RSS 越小,该回归直线拟合的越好;反之,拟合的越差。

1、定义:2
2 ,TSS
ESS r r =
称为(样本)可决系数,它是最常用的回归直线拟合优度的度量,表示由回归模型做出解释的变差在总变差中所占的比重。

由式(2-26)得
2TSS RSS RSS
1TSS TSS
r -=
=- (2-27)
上式表明,若样本剩余RSS 越小,r 2的值就越大,拟合优度越好;反之,RSS 越大,r 2的值就
越小,拟合优度越差。

2、可决系数r 2还可以按以下推导出的公式求得:
i i i i x X X Y Y y 11010ˆ)ˆˆ()ˆˆ(ˆˆβββββ=+-+=-= (2-28) ∑∑∑∑∑∑==
=
=2221
22
1
222
ˆ) ˆ(ˆTSS
ESS
i
i i
i i
i y
x y
x y
y r β
β (2-29)
由式(2-14)和(2-27)可得:
)
)(()
(
222
2
∑∑∑=
i i
i i y
x y x r
(2-30)
对于例题2-1,
9621.088900033000001680000))(()(
2
2
222
=⨯==
∑∑∑i
i
i i y
x y x r
3、r 2
具有以下两个性质
(1)r 2是一个非负数。

(2)r 2的取值范围是:0≤ r 2 ≤1。

r 2 =1意味着完全拟合,r 2 =0意味着被解释变量与解释变量之间没有线性关系,0< r 2 <1时,r 2
越接近于1拟合效果越好。

(二)相关系数检验 1. 相关系数
相关系数是两个变量之间的相关程度的度量。

定义:
i
i X X Y Y x y r --=
=
(2-31)
在一元线性回归中,相关系数在数值上是可决系数开平方。

可以根据下式计算:
r = (2-32)
r 具有以下性质:
(1)它可以是正值也可以是负值,其符号取决于式(2-31)中分子的符号。

(2)它的取值范围在-1和+1之间,即 –1 ≤ r ≤ +1。

(3)它的性质是对称的,X 与Y 的相关系数r xy 和Y 与X 的相关系数r yx 是相同的,都是r 。

(4)它只是线性联系或线性相关的度量,不用来描述非线性关系。

2. 相关系数检验法
相关系数检验法是在建立一元线性回归模型之后,考察两个变量之间是否具有显著的线性相关关系,相关系数检验法的步骤如下:
(1)根据相关系数的计算公式计算相关系数r 。

(2)给定显著性水平α,根据α和从相关系数临界值表中查出相关系数临界值()2r n α-的值,比较r 与()2r n α-的值。

若 | r | ≥ ()2r n α-,表明两变量在显著性水平α 时线性相关关系显著;否则 | r | < ()2r n α-表明两变量在显著性水平α 时线性相关关系不显著。

二、回归系数估计量的检验(t 检验)
进行回归系数估计量的检验方法随所构造的检验统计量不同而不同,应用最为普遍的是t 检验。

(一)t 统计量
回归系数估计量服从正态分布:
⎪⎪⎭⎫ ⎝⎛∑∑22200 ,~ˆσββi i x n X N ,⎪⎪⎭


⎛∑2
211 ,~ˆi x N σββ 用2σ的无偏估计量2
ˆ2
2-=
∑n e
i
σ
来代替2σ时,可以构造t 统计量:
1111
ˆˆˆ()e t S βββ-== (2-33)
00
00ˆˆˆ()
e t S βββ-==
(2-34)
所构造的t 统计量服从自由度为n-2的t 分布。

即t ~ t (n-2) (二) 回归系数估计量的t 检验步骤
下面以估计量1
ˆβ为例,介绍t 检验的步骤。

1.提出假设
原假设H 0:β1=0 备择假设H 1:β1≠0
2.给定显著性水平,查t 分布表获得临界值)2(2
-n t α,对于例2-1,在显著性水平α=0.05,n-2=8
时,查t 分布表,得到:306.2)2(2
=-n t α。

3.根据式(2-33)利用样本数据计算检验统计量t 的值
1111ˆ0.509114.2605ˆ0.0357
()t Se βββ-===
4.进行比较,做出判断
若|t|>)2(2
-n t α,差异显著,拒绝原假设,接受备择假设
若|t|<)2(2
-n t α,差异不显著,接受原假设(见图2-3)。

本例中,14.2605>2.306,即|t 1|>)2(2
-n t α,差异显著,拒绝β1=0的假设。

图2-3 阴影部分为t 检验的否定域
-t α/2
t α/2
o
三、方程的整体性检验(F 检验)
(一)方差分析 由式(2-25)可知:
∑∑∑+=222
ˆ i
i
i
y
e y 或TSS=RSS+ESS
对总平方和(TSS )的这两个分量进行研究,就称为从回归角度进行的方差分析(Analysis of Variance ,AOV )。

每个平方和都具有相应的自由度,假定给n 个变量赋予数值,在计算平方和时,总有k 个变量可以自由取值,即是这k 个变量线性独立,我们说这个平方和的自由度为k 。

与每一个平方和相联系的是它们的自由度。

对于一元线性回归模型,TSS 有n -1个自由度;ESS 有1个自由度;RSS 有n -2个自由度。

平方和与自由度之比即为平均平方和。

将平方和、自由度及平均平方和列成一个表,该表称为方差分析表(见表2-4)。

表2-4 方差分析表
平方和 自由度 平均平方和
(二)F 检验统计量定义
从方差分析的角度进行的回归模型整体性检验所采用的检验统计量是F 统计量。

检验统计量F 反映平均回归平方和与平均剩余平方和的比较。

2
1ˆ2
221-=
∑∑n e
x F i
i
β (2-35)
且F 服从自由度为1和n-2的F 分布。

即:F ~F (1,n-2)
可以推导,F 与可决系数r 2有以下关系
)2(12
2
--=n r
r F (2-36) 利用检验统计量是F 可以对回归方程进行显著性检验,即F 检验。

(三)方程的整体性检验(F 检验)的步骤 1.提出假设
原假设H 0:β1=0 备择假设H 1:β1≠0
2.给定显著性水平α,查F 分布表获得临界值F α(1,n-2),
对于例2-1,在显著性水平α=0.05,n-2=8时,查F 分布表,得到:F 0.05(1,8)=5.32。

3.根据式(2-35)利用样本数据计算检验统计量F 的值
0591.2030909
.4212273
.8553032
/ˆ2221==
-=
∑∑n e
x F i
i
β
4.进行比较,做出判断 若F > F α(1,n-2),差异显著,拒绝原假设,接受备择假设;若F ≤F α(1,n-2),差异不显著,接受原假设(见图2-4)。

本例中,203.0591>5.32,即F > F 0.05(1,8),差异显著,拒绝β1=0的假设,方程显著不为零。

图2-4 阴影部分为F 检验的否定域
第四节 一元线性回归模型案例及预测
预测就是利用模型已含有过去和现在的样本数据或信息拟合的回归模型,对被解释变量的可能值做出定量的估计。

一、点预测
根据样本数据,利用最小二乘法,可以得到最小二乘估计值,建立一元回归的预测模型。

根据预测模型可以在给定X 的条件下,求得Y 的估计值,并进行点预测。

根据样本数据,得到以下样本回归函数
i
i X Y 10ˆˆˆββ+= 当X i =X 0时,0
100ˆˆˆX Y ββ+=,0ˆY 为点预测值。

例如,根据所给样本数据,建立了如下样本回归函数
i
i X Y 5091.05455.244ˆ+= 若已知家庭月可支配收入X i =1600元,根据上述模型,可预测家庭的月消费支出0ˆY 为: )(11.105916005091.05455.244ˆ0
元=⨯+=Y 二、区间预测
分为两类:
预测对应于给定X 条件下的个别Y 值。

这类预测我们称为个别值预测。

(一)均值预测
即,对应于给定X 条件下的Y 的总体均值的预测。

当给定X i =X 0时,0ˆˆY Y i =,0ˆY 是总体均值)|(0
0X Y E 的一个估计值。

且0ˆY 服从于均值为)|(0
0X Y E 的正态分布。

根据正态分布与检验统计量t 的关系,有: )
ˆ(S )|(ˆ0e 0
00Y X Y Y t E -= (2-37)
服从于自由度为n -2的t 分布。

式中S e (0ˆY )为0
ˆY 的标准误差, ∑-+=22
00e )(1ˆ)ˆ(S i
x X X n Y σ (2-38) 给定显著性水平α 有:
ααα-=⎥⎥⎦
⎤⎢⎢⎣⎡≤E -≤-1)ˆSe()|(ˆ200
002t Y X Y Y t P
或:
α
αα-=⎥⎦⎤⎢⎣⎡+≤E ≤-1)ˆ(S ˆ)|()ˆ(S ˆ0e 20000e 20Y t Y X Y Y t Y P
(2-39) 上式表明,在重复抽样中,若构造100个这样的区间,将会有(1-α)⨯100以上的区间包含总体均值)|(00X Y E 。

建立所预测的总体均值)|(00X Y E 的置信区间为:
⎥⎦
⎤⎢⎣⎡+-)ˆ(S ˆ , )ˆ(S ˆ0e 200e 20Y t Y Y t Y αα (2-40)
对于前述例题,
20.8320
3300000
)170016001010909.4212 )(1ˆ)(1ˆ)ˆ(S 2
22022200e =⎪⎪⎭
⎫ ⎝
⎛-+⨯=⎪⎪⎭
⎫ ⎝⎛-+=-+=∑∑i i x X X n x X X n Y σσ
给定显著性水平α=0.05,n -2=8时,查t 分布表,得到:025.0t =2.306 从而
)ˆ(S ˆ0
e 2
0Y t Y α-=1059.11-2.306⨯20.8320=1011.67(元) =+)ˆ(S ˆ0
e 2
0Y t Y α1059.11+2.306⨯20.8320=1107.14(元) []%9514.1107)|(67.101100=≤E ≤X Y P
即每月可支配收入为1600元的家庭,其平均消费支出在1011.07元至1107.14元之间的概率为95%。

(二)个别值预测
即,对应于给定X 条件下的个别Y 值的预测。

当给定X i =X 0时,0ˆˆY Y i =,0Y Y i =,残差为0
e ,000ˆY Y e -=。

可以证明0e 服从于均值为零的正态分布。

根据正态分布与检验统计量t 的关系,有:
)
(S ˆ)(S 00e 0
00e 0e Y Y e e t -=
-= (2-41) 服从于自由度为n -2的t 分布。

式中S e (0e )为0e 的标准误差,
∑-++=2
2
00e )(11ˆ)(S i
x X X n e σ (2-42) 给定显著性水平α 有:
ααα-=⎥⎥⎦⎤⎢⎢⎣
⎡≤-≤-1)(S ˆ20e 0
02t e Y Y t P 或:
ααα-=⎥⎦
⎤⎢⎣⎡+≤≤-1)(S ˆ)(S ˆ0e 2000e 20e t Y Y e t Y P (2-43)
上式表明,在重复抽样中,若构造100个这样的区间,将会有(1-α)⨯100以上的区间包含个
别值0Y 。

建立所预测的个别值0Y 的置信区间为:
⎥⎦
⎤⎢⎣⎡+-)(S ˆ , )(S ˆ0e 200e 20e t Y e t Y αα (2-44)
对于前述例题,
1620
.86 3300000
)17001600(10110909.4212 )(11ˆ)(11ˆ)(S 2
22022200e =⎪⎪⎭
⎫ ⎝
⎛-++⨯=⎪⎪⎭
⎫ ⎝⎛-++=-++=∑∑i i x X X n x X X n e σσ
给定显著性水平α=0.05。

n -2=8时,查t 分布表,得到:025.0t =2.306 从而
)(S ˆ0
e 2
0e t Y α-=1059.11-2.306⨯68.1620=901.92(元) )(S ˆ0
e 2
0e t Y α+=1059.11+2.306⨯68.1620=1216.29(元) []%9529.121692.9010=≤≤Y P
即每月可支配收入为1600元的家庭,以家庭消费支出在901.92元至1216.29元之间的概率为95%。

三、一元回归模型实例分析
(一)研究目的
依据1996-2005年《中国统计年鉴》提供的资料,经过整理,获得以下农村居民人均消费支出和人均纯收入的数据如表2-5:
表2-5 农村居民1995-2004人均消费支出和人均纯收入数据资料 单位:元
年度
1995 1996 1997 1998 1999 2000 2001 2002 2003 2004
人均纯
收入 1577.74
1926.07
2090.13
2161.98
2210.34
2253.42
2366.40
2475.63
2622.24
2936.40
人均消
费支出
1310.36
1572.08
1617.15
1590.33
1577.42
1670.13
1741.09
1834.31
1943.30
2184.65
(二)建立模型
以农村居民人均纯收入为解释变量X ,农村居民人均消费支出为被解释变量Y ,分析Y 随X 的变化
而变化的因果关系。

考察样本数据的分布并结合有关经济理论,建立一元线性回归模型如下:
Y i =β0+β1X i +μi
根据表2-5编制计算各参数的基础数据计算表。

求得:
082
.1704035
.2262==Y X ∑∑∑∑====3752432495.1986
.788859011.516634423
.12644712
22
i
i i i i X y x y x 根据以上基础数据求得:
623865.0423
.126447986.788859ˆ2
1===∑∑i i i
x y x β 8775.292035.2262623865.0082.1704ˆˆ1
0=⨯-=-=X Y ββ 样本回归函数为:
i
i X Y 623865.08775.292ˆ+= 上式表明,中国农村居民家庭人均可支配收入若是增加100元,居民们将会拿出其中的62.39元用于消费。

(三)模型检验
1.拟合优度检验
952594.0011.516634423.1264471986.788859)
)(()(222
22=⨯==∑∑∑i i i i y x y x r 2.t 检验
525164.3061 2
10423.12644710.623865011.166345 2
ˆˆ222122
=-⨯-=--=∑∑n x y i
i βσ 049206.0423.1264471525164.3061ˆ)ˆ()ˆ(221
1====∑i e x Var S σββ 6717.112525164.3061423.126447110137.52432495ˆ)ˆ()ˆ(22
200=⨯===∑∑σββi i
e x n X Var S 在显
著性水平α=0.05,n-2=8时,查t 分布表,得到:
306.2)2(2
=-n t α
提出假设,原假设H 0:β1=0,备择假设H 1:β1≠0
67864.12049206
.0623865.0)ˆ(ˆ)ˆ(111==-=ββββe S t )2(67864.12)ˆ(2
1->=n t t α
β,差异显著,拒绝β1=0的假设。

3. F 检验
提出原假设H 0:β1=0,备择假设H 1:β1≠0
在显著性水平α=0.05,n-2=8时,查F 分布表,得到:
F (1,8)=5.32。

7505.160525164.30618097.4921412
1ˆ2221==-=∑∑n e x F i i
β 160.7505>5.32,即F > F (1,8),差异显著,拒绝β1=0的假设。

(四)预测
当农村居民家庭人均纯收入增长到3500元时,对农村居民人均消费支出预测如下:
)(405.24763500623865.08775.292ˆ0
元=⨯+=Y 13257219
.84 423.1264471)035.22623500(1011525164.3061 )(11ˆ)(11ˆ)(S 2
220222
00e =⎪⎪⎭
⎫ ⎝
⎛-++⨯=⎪⎪⎭⎫ ⎝
⎛-++=-++=∑∑i i x X X n x X X n e σσ 在显著性水平α=0.05,n -2=8时, 025.0t =2.306
从而 )(S ˆ0
e 2
0e t Y α-=2476.405-2.306⨯84.13257219=2282.40(元) )(S ˆ0
e 2
0e t Y α+=2476.405+2.306⨯84.13257219=2670.41(元) []%9541.267040.22820=≤≤Y P
当农村居民家庭人均纯收入增长到3500元时,,农村居民人均消费支出在2282.40元至2670.41元之间的概率为95%。

(五)利用计算机进行实验
本章小结:本章以最基本的计量经济模型——一元线性回归模型为对象,介绍了模型的古典假定、回归函数、构造样本回归函数(SRF) 和普通最小二乘法(OLS),证明了最小二乘估计量的最佳线性无偏性。

并结合实例就有关参数估计、拟合优度、t检验、F检验、预测方法以及EViews软件在实例中的应用作了介绍。

相关文档
最新文档