回归模型的参数估计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.估计人均消费性支出对人均可支配收入的线性回归方程 依据 1995 年——2002 年的样本数据,运用普通最小二乘法 离差形式的参数估计式对 1, 2 进行估计:
Байду номын сангаас
表2
年序 号
1 2 3 4 5 6 7 8 合计
Xi
4283 4839 5160 5425 5854 6280 6859 7703 46403
(i=1,2,…n)
ˆ2
xi yi xi2
6198658.9 8751239.9
0.7083
ˆ1 Y ˆ1X 525 .8662
Yˆi ˆ1 ˆ2Xi 5 2.85 6 6 02.7 0 X8 i 3
统计意义:当 X 增加 1 个单位时,Y 平均增加 0.7083 个单位。
经济意义:当居民人均可支配收入增加 1 元时,人均消费性
第二节 回归模型的参数估计
一、最小二乘估计(OLS)
⒈选择最佳拟合曲线的标准 从几何意义上说,样本回归曲线应尽可
能靠近样本数据点。 选择最佳拟合曲线的标准可以确定为:
使总的拟合误差(即总残差)达到最小。 用最小二乘法描述就是:所选择的回归
模型应该使所有观察值的残差平方和达到 最小。
⒉OLS的基本思路
某市有关统计资料 人均可支配收入
4283 4839 5160 5425 5854 6280 6859 7703
单位:元 人均消费性支出
3637 3919 4185 4331 4616 4998 5359 6030
1. 理论模型的设计 我们首先通过散点图来观察一下,住宅房地产
需求量与居民收入之间是否存在关系。
X 和 Y 唯一表示。 因为存在样本抽样波动,OLS估计的 ˆ 是随
机变量。 OLS估计式是点估计式。
在古典回归模型的若干假定成立的情 况下,最小二乘估计是所有线性无偏 估计量中的有效估计量。称OLS估计为 “最佳线性无偏估计量”。
⒈线性特征; ⒉无偏性; ⒊最小方差性 ⒋一致性
证明过程参见p30~32,也可从精品课程网站下载。 结论:OLS估计式是BLUE。
Yi 1 2 Xi i
i=1,2,…n
在本例中,影响人均消费性支出的因素,除了 居民人均可支配收入之外,还可能有消费品的价格 水平、银行存款利率、消费者的偏好,政府的政策, 需求者对未来的预期等等多种因素。我们这里仅分 析居民人均可支配收入对人均消费性支出的影响, 其他各因素的影响,就被包含在随机误差项中。
支出将平均增长 0.7083 元。
复习:
掌握ols方法的原理,掌握一元线性回归 参数形式。
明确优良的参数估计应具有的性质,尤 其明确OLS方法是BLUE。
掌握EVIEWS建立模型的方法及命令。 了解OLS估计参数的概率分布。
人均消费性支出(元)
图1人均可支配收入与人均消费性支出的关系
7000 6000 5000 4000 3000 2000 1000
0
0
2000 4000 6000 8000 10000 人均可支配收入(元)
系列1
由图 1 可见,可以用线性回归模型来描述该市城镇居 民人均可支配收入和人均消费性支出之间的关系。在本例 中,城镇居民人均可支配收入为解释变量,用 X 来表示; 人均消费性支出为被解释变量,用 Y 来表示,则描述某 市城镇居民人均可支配收入和人均消费性支出之间关系 的线性回归模型的理论模型为:
不同的估计方法可得到不同的样本回归 参数 ˆ1和 ˆ2 ,所估计的 Yˆi 也不同。
理想的估计方法应使 Yˆi 和 Yi 的差即残差 ei 越小越好。
因为ei 可正可负,所以可以取ei2 最小,
(选择平方的原因:介绍)即:
Q ei2 Yi Yˆi 2 Yi ˆ1 ˆ2 Xi 2 min
Yˆi ˆ1 ˆ2Xi 525.8662 0.7083Xi
该结果给出了该市城镇居民人均可支配收入和人均消费性
支出之间依存关系的具体形式。 ˆ2 0.7083 表明,当居民人
均可支配收入增加 1 元时,人均消费性支出将平均增长 0.7083
元。这里之所以讲“平均”,是因为 Yˆi 是其与给定的 X i 值对应
二、最小二乘估计的性质
㈠参数估计式的评价标准
⒈无偏性
前提:重复抽样中估计方法固定、样本数不变、
经重复抽样的观测值,可得一系列参数估计值。
参数估计值 的分布ˆ 称为 的抽样 分布,其密
度函数记为f( )
ˆ
如果 E(ˆ )=
称 ˆ 是参数 的无偏估计式, 是另一种方式
产生的模型参数的估计量,抽样分布为f ,
x i2
2302426.9 924241.9 410080.1 140906.4 2875.6 230040.1 1120686.9 3619981.9 8751239.9
xi yi
1513391.9 687743.6 287768.5 113879.4
-985.4 174403.6 767106.1 2655351.0 6198658.9
参数估计计算表
Yi
3637 3919 4185 4331 4616 4998 5359 6030 37075
xi
-1517.4 -961.4 -640.4 -375.4 53.6 479.6 1058.6 1902.6 ——
yi
-997.4 -715.4 -449.4 -303.4 -18.4 363.6 724.6 1395.6 ——
s
n
将该或然函数极大化,即可求得到模型参数 的极大或然估计量。
案例 2.3 现欲研究某市城镇居民 1995 年——2002 年人均可支配收 入和人均消费性支出之间的关系。表 1 给出了某市城镇居 民 1995 年至 2002 年期间各年度的人均可支配收入和人均 消费性支出的数据。
表1 年份 1995 1996 1997 1998 1999 2000 2001 2002
Var ( ˆ ) sˆ 2
1
X
2 i
n S2XX
s S ( ˆ ) ˆ
1
X2 i
n S2XX
⒊系数的置信区间
见p34
四、多元线性回归模型的参数估计
方法相同,只是通过矩阵表示,参见 p35~37
※五、极大似然法ML
极大似然法( Maximum Likelihood, ML) ,也称最大似 然法,是不同于最小二乘法的另一种参数估计方法, 是从最大或然原理出发发展起来的其它估计方法的基 础。 基本原理: 对于最小二乘法,当从模型总体随机抽取n组样本观测 值后,最合理的参数估计量应该使得模型能最好地拟 合样本数据。 对于极大似然法,当从模型总体随机抽取n组样本观 测值后,最合理的参数估计量应该使得从模型中抽取 该n组样本观测值的概率最大。
X iYi ˆ1
X i ˆ2
X
2 i
此方程组为正规方程组,解此方程组得:
ˆ2
ˆ1 Y ˆ2 X
XiYi nXY
X
2 i
nX
2
SXY S XX
其中,
Y
1 n
Yi
,
X
1 n
X
i
SXY Xi X Yi Y , SXX Xi X 2
案例2.1&2.2
课本p24、p27 EViews软件操作
的许多可能取值的平均值。
离差形式的中间计算也可不用计算表,而采用如下
的简捷式计算:
xi2
X
2 i
nX
2
yi2 Yi2 nY 2
xi yi X iYi nXY
式中, xi X i X , yi Yi Y , X
Xi ,Y n
Yi
n,
n 为样本容量。
书写格式:
Yi 1 2 Xi i
S(ˆ1) n
X
2 i
SiX2 X
在总体方差 s 2 的无偏估计量 sˆ 2 求出后,估计的参数 ˆ1 和 ˆ2 的方差和标准差的估计量 分别是:
ˆ2 的样本方差: ˆ2 的样本标准差: ˆ1 的样本方差: ˆ1 的样本标准差:
Var
( ˆ ) sˆ 2 2
S2XX
S ( ˆ ) sˆ
2
S2XX
X X i 46403 5800.375
n
8
Y Yi 37075 4634.375
n
8
根据表 2 合计栏的数据及以上关于 X 和Y 的计 算结果可得:
ˆ2
xi yi xi2
6198658.9 8751239.9
0.7083
ˆ1 Y ˆ1X 525 .8662
则依据 1995 年——2002 年的样本数据,可得描述该市城镇居 民人均可支配收入和人均消费性支出之间依存关系的线性回 归方程:
全部估计量 线性无偏估计量
BLUE 估计量
㈢系数的估计误差与置信区间
1、ˆ2 和 ˆ 的概率分布
1
首先, 由于解释变量 X 是确定性变量,随机误差项 是
i
i
随机性变量,因此被解释变量 Y 是随机变量,且其分布 (特 i
征)与 相同。 i
其次,ˆ2 和 ˆ1 分别是Yi 的线性组合,因此ˆ2 、 ˆ1 的概率分 布取决于 Y。
有效性衡量了参数估计值与参数真值平均离 散程度的大小。
既是无偏的同时又具有最小方差的估计式, 称为最佳无偏估计式。
概 率 密 度 图2.7
f ˆ
f
的估计值
⒊一致性
思想:当样本容量较小时,有时很难找到最佳无偏估计, 需要考虑扩大样本容量
(估计方法不变,样本数逐步扩大,分析性质是否改善)
一致性:当样本容量n趋于无穷大时,如果估计式 按概
⒊估计过程
在离差平方和的表达式中,被解释变量 Yi
的观测值和解释变量 X i 都是已知的,因此
可以将看作是未知参数 1, 2 的函数。计算
此函数对的一阶偏导数,可得:
Q
ˆ1
2
Q
ˆ2
2
Yi ˆ1 ˆ2 Xi 0 Yi ˆ1 ˆ2 Xi Xi 0
得到:
Yi nˆ1 ˆ2 X i
若 的期望不是等于 的真实值,则称 是
有偏的,偏倚为 E( )- ,见下图
概 率 密
f ˆ
f
度
E
的估计值
图2.6
偏倚
⒉最小方差性(有效性)
前提:样本相同、用不同的方法估计参数,可以 找到若干个不同的估计式。 目标:努力寻求其抽样分布具有最小方差的估计 式——最小方差准则,或称最佳性准则。见下图
在 是正态分布的假设下,Y 是正态分布,因此ˆ2 和 ˆ1 也 服从正态分布,其分布特征(密度函数)由其均值和方差唯 一决定。
因此:
ˆ
2
~
N (2 ,
s2
), S2XX
ˆi
ˆ 1
~
N ( 1 ,
n
X
2 i
s
SX2X
2
)
1
i
ˆ 1
和
ˆ 2
的标准差
分别为
:
S (ˆ2) s 2 / Si2XX
s 2
1
e
1
2s
2
(Yi
ˆ1
ˆ2X
i
)2
2
i=1,2, …,n
因为Yi 是相互独立的,所以Y 的所有样本观测值的联合概率,
也即似然函数(likelihood function)为:
L(
ˆ 1
,
ˆ 2
,s
2 m
)
P(Y1 , Y2
,×××,Yn
)
1
e
1 2s
2 m
S(Yi
ˆ
1
ˆ2
X
i
)2
n
(2p
)
2
对于一元线性回归模型:
Yi 1 2 X i mi
i=1,2,
…n
随机抽取 n 组样本观测值 Yi , X i(i=1,2,…n),假如模型的参数
估计量已经求得到,为$1 和 $2,那么Yi 服从如下的正态分布:
Yi
~
N (ˆ1
ˆ2X i
,s
2
)
于是, Yi 的概率函数为
s p P(Yi )
率收敛于总体参数的真实值,就称这个估计式 是ˆ 的一
致估计式。
ˆ
limP( - )=1
渐进无偏估计ˆ式是 当样本容量变得足够大时,其偏倚趋
于零的估计式。
见下图
f ˆ 100
概 率
f ˆ 80
密 度
f ˆ 60
f ˆ 40
的估计值
㈡高斯-马尔可夫定理
由OLS估计式可以看出,ˆ 可以用观测样本