第四章 线性模型的扩展
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章 线性模型的扩展
线性模型扩展的含义:研究非标准线性模型的估计、预测等问题。
基本的方法:通过适当的变换,将非线性的经济模型转换为标准线性模型。
进而用标准线性回归方法进行估计。
第一节 模型的类型与转换
一、变量取倒数的模型 1、模型的基本形式: 12
1t t t
Y u X ββ=++,其中,随机扰动项t
u 满足假定条件。
2、转换后的标准线性模型形式 令1
,t t t
t
Y Y X X
*
*==,
则新的模型为:12t t t Y X u ββ*
=++。
新模型为标准线性模型。
从而可以进行估计。
案例:工资率和失业率之间函数关系的菲利普斯曲线的拟合。
二、对数线性模型
1、模型的基本形式(以柯布道格拉斯函数为例)
32
t
u Q AK
L e
ββ=
2、转换后的标准线性模型形式 首先对原有模型两边取自然对数得:
23ln ln ln ln t
Q A K L u ββ=+++
令123ln ,ln ,ln ,ln Y Q A X K X L β==== 则上述方程转化为:
12233t Y X X u βββ=+++。
估计之后,1、常数项怎么得到?
2、参数估计值的含义是什么?其经济含义是什么? 注意:
无量纲系数的作用是什么? 三、幂函数模型 1、模型的基本形式
Y X
β
α=
对应图形
2、转换后的标准线性模型形式 对原模型Y
X
β
α=两端取对数得:
ln ln ln Y X
αβ=+
令:
ln ,ln ,ln Y Y c X X
α**
===,得标准线性回归模型:
Y c X β*
*
=+
估计之后,第一,常数项怎么得到?
第二,参数估计值的含义是什么?其经济含义是什么? 四、指数函数模型 1、模型的基本形式
X
Y e
βα=
对应图形
2、转换后的标准线性模型形式 对原有模型X
Y e
βα=
两端取对数得:
ln ln Y X
αβ=+。
令ln ,ln Y
Y c α
*
==,则有:
Y c X
β*
=+
估计之后,第一,常数项怎么得到? 五、对数函数模型
1、模型的基本形式
ln Y X
αβ=+
对应图形:
2、转换后的标准线性模型形式 对于原有模型:ln Y
X
αβ=+
令ln X X *
=则有:
Y X
αβ*
=+
六、双曲线模型 1、模型的基本形式
X
Y X αβ
=
+
2、转换后的标准线性模型形式 令l
1
,Y X Y X
*
*
==,则有:
Y X
αβ**
=+
七、Logit 模型
1、模型的基本形式
1X X
e
Y e
αβαβ++=
+
对应图形:
2、转换后的标准线性模型形式
设
ln 1Y Y Y *
⎛⎫
= ⎪-⎝⎭
则有:
Y
X
αβ*
=+
八、 多项式方程模型 1、模型的基本形式
2
3
0123Y b b X b X
b X
=+++
其中b 1>0, b 2>0, b 3>0和b 1<0, b 2>0, b 3<0情形的图形分别如下:
b 1>0, b 2>0, b 3>0
b 1<0, b 2>0, b 3<0
2、转换后的标准线性模型形式 令:
23
==X X X
X
***
,,则有:
0123Y b b X b X b X
***
=+++
当b 1>0, b 2>0, b 3>0时,这个三元线性回归模型如经济学中
的总成本曲线。
另一种多项式方程的表达形式是:
2
012Y b b X b X =++
其中b 1>0, b 2>0和b 1<0, b 2<0情形的图形分别见下图:
b 1>0, b 2>0
此曲线如经济学中的边际成本曲线、平均成本曲线。
b 1<0, b 2<0
令2
=X X *
,则上述模型转化为:
012Y b b X b X
*
=++。
第二节 特殊变量的使用
影响经济现象的因素:可量化的因素和不可量化的因素。
不可量化因素的处理方法:通过引入虚拟变量(哑变量)来进行处理。
一、时期虚拟变量
案例:某一地区的消费与收入之间的关系,Y 表示消费,X 表示收入。
数据如下:
某地区消费与收入数据
Y X D 1 20 35 0 2 30 40 0 3 35 50 0 4 35 55 0 5 38 56 0 6
40
57 0
7 70 40 1
消费与收入的散点图如下:
当估计区间为第1期至第7期时的输出结果为:
Dependent Variable: Y
Method: Least Squares
Date: 10/29/12 Time: 22:22
Sample: 1 7
Included observations: 7
Variable Coefficient Std. Error t-Statistic Prob.
C 35.02344 36.78102 0.952215 0.3847
X 0.068576 0.761401 0.090066 0.9317
R-squared 0.001620 Mean dependent var 38.28571 Adjusted R-squared -0.198056 S.D. dependent var 15.45654 S.E. of regression 16.91808 Akaike info criterion 8.729599 Sum squared resid 1431.107 Schwarz criterion 8.714145
Log likelihood -28.55360 F-statistic 0.008112 Durbin-Watson stat 0.765576 Prob(F-statistic)
0.931731
估计结果为:
当估计区间为第1期至第6期时的输出结果为:
Dependent Variable: Y Method: Least Squares Date: 10/29/12 Time: 22:26 Sample: 1 6
Included observations: 6
Variable
Coefficient Std. Error t-Statistic Prob. C -2.924248 6.459266 -0.452721 0.6742 X
0.735650
0.130342 5.644008 0.0049
R-squared
0.888439 Mean dependent var 33.00000 Adjusted R-squared 0.860549 S.D. dependent var 7.211103 S.E. of regression 2.692854 Akaike info criterion 5.080282 Sum squared resid 29.00586 Schwarz criterion 5.010869 Log likelihood -13.24085 F-statistic 31.85483 Durbin-Watson stat
2.267577 Prob(F-statistic) 0.004853
两个时期的结果比较:第一、系数显著性;第二,拟合优度;第三,回归模型的标准差。
两个时期的比较结论:第七期的数值可以看作异常值。
通过引入虚拟变量对这种异常值进行处理。
怎么处理呢? 观察如下模型:
123Y X D u
βββ=+++
运用上述数据估计,输出结果为:
Dependent Variable: Y
Method: Least Squares
Date: 10/29/12 Time: 22:39
Sample: 1 7
Included observations: 7
Variable Coefficient Std. Error t-Statistic Prob.
C -2.924248 6.459266 -0.452721 0.6742
X 0.735650 0.130342 5.644008 0.0049
D0 43.49824 3.128203 13.90519 0.0002
R-squared 0.979765 Mean dependent var 38.28571 Adjusted R-squared 0.969647 S.D. dependent var 15.45654 S.E. of regression 2.692854 Akaike info criterion 5.116608 Sum squared resid 29.00586 Schwarz criterion 5.093426 Log likelihood -14.90813 F-statistic 96.83718 Durbin-Watson stat 2.301516 Prob(F-statistic) 0.000409
第1期至第6期时的输出结果与引入虚拟变量时第1期至第7期的输出结果基本一致:参数估计值、回归模型标准差等方面。
这说明通过引入虚拟变量很好地解决了异常值的问题。
二、关于虚拟变量
事实上,在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。
例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。
这些因素通常以虚拟变量的形式也包括在模型中。
由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。
这种变量称作虚拟变量,用D表示。
虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。
三、常数项变化时的虚拟变量 1、一个例子
讨论个人收入和受教育年限的关系时,根据观察对象受教育年限的不同进行分组,比如以受教育年限16年为分界点分为2组,一组是受教育年限为16年,另一组是受教育年限为不足16年。
Y 表示收入,X 表示受教育年限。
则可以设定:
1Y X u
αβ=++
受教育年限为16年的模型
2Y X u
αβ=++
受教育年限不足16年的模型
观察上述两个模型,可以发现,两个模型只有常数项不同。
这可以表示为,受教育年限的不同带来的收入差异由常数项的不同来反映。
类似地,上述两个模型也可以表示经济发展不同时期的消费函数,一个表示经济危机时期,一个表示经济没有发生危机的函数。
此时,不同时期,消费的差异体现在两个模型的常数项的不同上。
2、两个模型的统一
现在引入虚拟变量D ,定义:
受教育年限为16)
D =
0 (受教育年限不足16) 设定如下模型:
212)Y D X u
αααβ=+-++(
则此模型等价于如下两个模型:
1Y X u
αβ=++
受教育年限为16年的模型
2Y X u
αβ=++
受教育年限不足16年的模型
因此,可以设定模型:
12Y D X u
βββ=+++
来进行估计。
D = 1或0表示某种特征的有无。
反映在数学上是截距不同的两个函数。
若β2显著不为零,说明截距不同;若β2为零,说明这种分类无显著性差异。
实际上,以虚拟这种形式的虚拟变量反映的只是常数项的不同。
其图示如下:
20
40
60
20
40
60
X
Y
3、为什么要引入虚拟变量?
第一,分别估计不能给出一个统一的估计结果;二,合
并估计比单一区间估计得出的系数稳定性好(为什么?)。
4、其他形式的虚拟变量
季节性虚拟变量、月份虚拟变量、性别虚拟变量等等。
5、虚拟变量个数引入的原则
①若定性变量含有m个类别,引入虚拟变量个数的原则是:第一,如果模型含有常数项,应引入m-1个虚拟变量,否则会导致多重共线性(为什么?),这在计量经济学上通常称作虚拟变量陷阱(dummy variable trap);在这里研究的就是常数项存在时的情况,因此,书本上说的是引入m-1个虚拟变量。
第二,如果模型不含有常数项,可以引入m个虚拟变量。
②关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。
③定性变量中取值为0所对应的类别称作基础类别(base category)。
④对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。
案例:中国季节GDP数据的拟合
数据:
年GDP t D1 D2 D3
1996:1 1.3156 1 1 0 0
1996:2 1.6600 2 0 1 0
1996:3 1.5919 3 0 0 1
1996:4 2.22096 4 0 0 0
1997:1 1.46856 5 1 0 0
1997:2 1.84948 6 0 1 0
1997:3 1.7972 7 0 0 1
1997:4 2.3620 8 0 0 0
1998:1 1.58994 9 1 0 0
1998:2 1.88316 10 0 1 0
1998:3 1.97044 11 0 0 1
1998:4 2.51176 12 0 0 0
1999:1 1.6784 13 1 0 0
1999:2 1.9405 14 0 1 0
1999:3 2.0611 15 0 0 1
1999:4 2.5254 16 0 0 0
2000:1 1.8173 17 1 0 0
2000:2 2.1318 18 0 1 0
2000:3 2.2633 19 0 0 1
2000:4 2.7280 20 0 0 0
不采用虚拟变量的输出结果:
Dependent Variable: GDP
Method: Least Squares
Date: 10/30/12 Time: 09:51
Sample: 1 20
Included observations: 20
Variable Coefficient Std. Error t-Statistic Prob.
C 1.542733 0.140446 10.98452 0.0000
T 0.040534 0.011724 3.457296 0.0028
R-squared 0.399056 Mean dependent var 1.968340 Adjusted R-squared 0.365671 S.D. dependent var 0.379609 S.E. of regression 0.302339 Akaike info criterion 0.540104 Sum squared resid 1.645360 Schwarz criterion 0.639677 Log likelihood -3.401042 F-statistic 11.95289 Durbin-Watson stat 2.600147 Prob(F-statistic) 0.002811
定义
1 (1季度) 1 (2季度) 1 (3季度)
D1 = D2 = D3 =
0 (2, 3,4季度)0 (1, 3, 4季度)0 (1, 2, 4季度)
则含有虚拟变量的输出结果为:
Dependent Variable: GDP
Method: Least Squares
Date: 10/30/12 Time: 09:54
Sample: 1 20
Included observations: 20
Variable Coefficient Std. Error t-Statistic Prob.
C 2.092221 0.032575 64.22740 0.0000
T 0.031450 0.001975 15.92287 0.0000
D1 -0.801313 0.032153 -24.92164 0.0000
D2 -0.513735 0.031849 -16.13059 0.0000
D3 -0.501386 0.031664 -15.83444 0.0000
R-squared 0.986321 Mean dependent var 1.968340 Adjusted R-squared 0.982673 S.D. dependent var 0.379609 S.E. of regression 0.049968 Akaike info criterion -2.942546 Sum squared resid 0.037452 Schwarz criterion -2.693613 Log likelihood 34.42546 F-statistic 270.3959 Durbin-Watson stat 1.962063 Prob(F-statistic) 0.000000
三、系数变化时的虚拟变量
考虑如下两个模型:
1Y X u
αβ=++
受教育年限为16年的模型 2Y X u
αβ=++
受教育年限不足16年的模型
这两个模型的不同只是解释变量系数的差异。
现在引入虚拟变量D ,定义:
受教育年限为16)
D =
0 (受教育年限不足16)
则原有上面两个模型可以写为模型: Y X DX u
αβγ=+++,
通过检验γ是否为零,可判断模型斜率是否发生变化。
此等价于:
()Y D X u
αβγ=+++,
表明了斜率发生了变化。