计量经济学第四章非线性回归模型的线性化
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计量经济学第四章非线性回归模型的线性化(总16页)
--本页仅作为文档封面,使用时请直接删除即可--
--内页可以根据需求调整合适字体及大小--
第四章 非线性回归模型的线性化
以上介绍了线性回归模型。
但有时候变量之间的关系是非线性的。
例如 y t = 0 +
1
1βt x + u t
y t =
0 t
x e 1α+ u t
上述非线性回归模型是无法用最小二乘法估计参数的。
可采用非线性方法进行估计。
估计过程非常复杂和困难,在20世纪40年代之前几乎不可能实现。
计算机的出现大大方便了非线性回归模型的估计。
专用软件使这种计算变得非常容易。
但本章不是介绍这类模型的估计。
另外还有一类非线性回归模型。
其形式是非线性的,但可以通过适当的变换,转化为线性模型,然后利用线性回归模型的估计与检验方法进行处理。
称此类模型为可线性化的非线性模型。
下面介绍几种典型的可以线性化的非线性模型。
可线性化的模型
⑴ 指数函数模型 y t = t
t u bx ae
+
b >0 和b <0两种情形的图形分别见图和。
显然x t 和y t 的关系是非线性的。
对上式等号两侧同取自然对数,得
Lny t = Lna + b x t + u t
令Lny t = y t *, Lna = a *, 则
y t * = a * + bx t + u t 变量y t * 和x t 已变换成为线性关系。
其中u t 表示随机误差项。
010
20
30
40
50
1
2
3
4
X
Y 1
图 y t =t
t u bx ae
+, (b > 0) 图 y t =t
t u bx ae
+, (b < 0)
⑵ 对数函数模型
y t = a + b Ln x t + u t
b >0和b <0两种情形的图形分别见图和。
x t 和y t 的关系是非线性的。
令x t * = Lnx t , 则
y t = a + b x t * + u t
变量y t 和x t * 已变换成为线性关系。
图 y t = a + b Lnx t + u t , (b > 0) 图 y t = a + b Lnx t + u t , (b < 0)
⑶ 幂函数模型
y t = a x t b t u e
b 取不同值的图形分别见图和。
x t 和y t 的关系是非线性的。
对上式等号两侧同取对数,得
Lny t = Lna + b Lnx t + u t
令y t * = Lny t , a * = Lna , x t * = Lnx t , 则上式表示为
y t * = a * + b x t * + u t 变量y t * 和x t * 之间已成线性关系。
其中u t 表示随机误差项。
式也称作全对数模型。
图y t = a x t b t u e图y t = a x t b t u e
⑷双曲线函数模型
1/y t = a + b/x t+ u t
也可写成,
y
= 1/ (a + b/x t+ u t)
t
b>0情形的图形见图。
x
和y t的关系是非线性的。
令y t* = 1/y t, x t* = 1/x t,得
t
y
* = a + b x t* + u t
t
已变换为线性回归模型。
其中u t表示随机误差项。
图y t = 1/ (a + b/x t ), (b > 0) 图y t = a + b/x t , (b > 0)双曲线函数还有另一种表达方式,
y
= a + b/x t + u t
t
b>0情形的图形见图。
x
和y t的关系是非线性的。
令x t* = 1/x t,得
t
y
= a + b x t* + u t
t
上式已变换成线性回归模型。
例(P139,例
⑸多项式方程模型
一种多项式方程的表达形式是
y
= b0 +b1 x t + b2 x t2 + b3 x t3 + u t
t
其中b1>0, b2>0, b3>0和b1<0, b2>0, b3<0情形的图形分别见图和。
令x t 1 = x t,x t 2 =
x t 2,x
t 3
= x t3,上式变为
y
t
= b0 +b1 x t 1 + b2 x t 2 + b3 x t 3 + u t
这是一个三元线性回归模型。
如经济学中的总成本曲线与图相似。
图y t = b0 +b1 x t + b2 x t2 + b3 x t3 + u t图y t = b0 + b1 x t + b2 x t2 + b3 x t3 + u t 另一种多项式方程的表达形式是
y
t
= b0 + b1 x t + b2 x t2 + u t
其中b1>0, b2>0和b1<0, b2<0情形的图形分别见图和。
令x t 1 = x t,x t 2 = x t 2,上式线性化为,
y
t
= b0 + b1 x t1 + b2 x t2 + u t
如经济学中的边际成本曲线、平均成本曲线与图相似。
图y t = b0 +b1x t + b2x t2 + u t图y t = b0 + b1x t + b2x t2 + u t
例(P141例)
⑹生长曲线 (logistic) 模型
y t =
t
u
t
f
e
k
+
+)(
1
一般f(t) = a0 + a1 t + a2 t 2+ … + a n t n,常见形式为f(t) = a0 - a t
y t =
u
u at a e k +-+)(01=
t
u at be k +-+1
其中b = 0a e 。
a > 0情形的图形分别见图和。
美国人口统计学家Pearl 和Reed 广泛研究了有机体的生长,得到了上述数学模型。
生长模型(或逻辑斯谛曲线,Pearl-Reed 曲线)常用于描述有机体生长发育过程。
其中k 和0分别为y t 的生长上限和下限。
∞
→t t Limy = k , -∞
→t t Limy = 0。
a , b 为待估参数。
曲线有拐点,坐标为(
a
Lnb ,2k
),曲线的上下两部分对称于拐点。
图 y t = k / (1 +t
u at be
+-) 图 y t = k / (1 +t
u at be
+)
为能运用最小二乘法估计参数a , b ,必须事先估计出生曲线长上极限值k 。
线性化过程如下。
当k 给出时,作如下变换,
k /y t = 1 + t
u at be
+-
移项, k /y t - 1 = t u at be +-
取自然对数,Ln ( k /y t - 1) = Lnb - a t + u t 令y t * = Ln ( k /y t - 1), b * = Lnb , 则
y t * = b * - a t + u t 此时可用最小二乘法估计b *和a 。
图 内地5月1日至28日每天非典数据一览
⑺ 龚伯斯(Gompertz )曲线
英国统计学家和数学家最初提出把该曲线作为控制人口增长的一种数学模型,此模型可用来描述一项新技术,一种新产品的发展过程。
曲线的数学形式是,
y t =
at be ke
--
图 y t =at
be ke
--
曲线的上限和下限分别为k 和0,∞
→t t Limy = k , -∞
→t t Limy = 0。
a , b 为待估参数。
曲线有拐
点,坐标为(
a Ln
b ,e
k
),但曲线不对称于拐点。
一般情形,上限值k 可事先估计,有了k 值,龚伯斯曲线才可以用最小二乘法估计参数。
线性化过程如下:当k 给定时,
y t / k = at
be
e --,
k /y t = at
be
e -
Ln (k /y t ) = at be -,
Ln [Ln (k /y t )] = Lnb - a t
令y *= Ln [Ln (k /y t )], b * = Lnb ,则
y * = b * - a t
上式可用最小二乘法估计b * 和 a 。
⑻ Cobb-Douglas 生产函数
下面介绍柯布−道格拉斯(Cobb-Douglas )生产函数。
其形式是
Q = k L C 1-
其中Q 表示产量;L 表示劳动力投入量;C 表示资本投入量;k 是常数;0 <
<
1。
这种生产函数是美国经济学家柯布和道格拉斯根据1899-1922年美国关于生产方面的数据研究得出的。
的估计值是,的估计值是。
更习惯的表达形式是
y t =t u
t t e x x 21210βββ
这是一个非线性模型,无法用OLS 法直接估计,但可先作线性化处理。
上式两边同取对数,得:
Lny t = Ln
+
1
Lnx t 1 +
2
Lnx t 2 + u t
取 y t * = Lny t ,
* = Ln
, x t 1* = Ln x t 1, x t 2* = Ln x t 2,有
y t *=
* + 1
x t 1* + 2 x t 2
* + u t
上式为线性模型。
用OLS 法估计后,再返回到原模型。
若回归参数 1
+ 2
= 1,称模型为规模报酬不变型(新古典增长理论); 1 + 2
> 1,称模型为规模报酬递增型;
1 +
2
< 1,称模型为规模报酬递减型。
对于对数线性模型,Lny = Ln 0
+
1
Lnx t 1 +
2
Lnx t 2 + u t ,
1
和
2
称作弹
性系数。
以
1
为例,
1 =
1
t t
Lnx Lny ∂∂=
1
111t t t t x x y y ∂∂--=
1
1//t t t t x x y y ∂∂=
1
1t t t t x y y x ∂∂
可见弹性系数是两个变量的变化率的比。
注意,弹性系数是一个无量纲参数,所以便于在不同变量之间比较相应弹性系数的大小。
对于线性模型,y t =
+
1
x t 1 +
2
x t 2 + u t ,
1
和
2
称作边际系数。
以
1
为例,
1
=
1
t t x y ∂∂
通过比较和式,可知线性模型中的回归系数(边际系数)是对数线性回归模型中弹性系数的一个分量。
例 (136P 例)略
非线性化模型的处理方法
模型:12
01122
b b y a a x a x =++无论通过什么变换都不可能实现线性化,对于这种模型称为非线性化模型。
可采用高斯—牛顿迭代法进行估计,即将其展开泰勒级数后,再进行迭代估计方法进行估计。
1、迭代估计法
思想是:通过泰勒级数展开,先使非线性方程在某组初始参数估计值附近线性化,然后对这一线性方程应用OLS 法,得出一组新的参数估计值。
下一步是使非线性方程在新参数估计值附近线性化,对新的线性方程再应用OLS 法,又得出一组新的参数估计值。
不断重复上述过程,直至参数估计值收敛时为止。
其步骤如下。
1)对模型:1212(,,,,,,,)k p y f x x x b b b u =+在给定的参数初始值b 10,b 20…b p0展
开泰勒级数:
12102012
011(,,
,,,,
,)()
1
()()2io
io j p
k po i io i i b
p
p
i io j j i j i j
b b f y f x x x b b b b b b f b b b b u b b ===⎛⎫
∂=+- ⎪∂⎝⎭⎛⎫
∂+
--+ ⎪ ⎪∂∂⎝⎭∑∑∑取前两项,便有线性近似:
12102012
0111(,,
,,,,
,)1
()()2io
io io j p
k po io i i b p
p
p
i i io j j i i j i i j
b b b f y f x x x b b b b b f f b b b b b u b b b ====⎛⎫
∂-+ ⎪
∂⎝⎭⎛⎫
⎛⎫∂∂=+--+ ⎪ ⎪ ⎪∂∂∂⎝⎭⎝⎭∑∑∑∑
2)将上式左端看成组新的因变量,将右端io
i b f b ⎛⎫
∂
⎪∂⎝⎭看成一组新的自变量,这就已经成为标准线性模型,再对其就用OLS 法,得出一组估计值11211
ˆˆˆ,,
,p b b b 。
3)重复第一、二步,在参数估计值11211
ˆˆˆ,,
,p b b b 附近再做一次泰勒级数展开,得到新的线性模型,应用OLS 法,又得出一组参数估计值:12222
ˆˆˆ,,
,p b b b 。
4)如此反复,得出一组点序列12ˆˆˆ,,,(1,2,)j j pj
b b b j =直到其收敛为止。
2、迭代估计法的EViews 实现过程
1)设定代估参数的初始值,方法有两种: A 、使用Param 命令设定,
例如,Param 1 2 0 3 0 则将待估的三个参数的初始值设成了,0,0. B 、在工作文件窗口中双击序列C ,并在序列窗口直接输入参数的初始值。
2)估计参数 A 、命令方式
在命令窗口可以直接键入非线性模型的迭代估计命令NLS 。
格式为: NLS 被解释变量,=非线性函数表达式 例如,对于非线性回归模型x b
y a u x c
-=++估计命令为 NLS y=c(1)*(x-c(2))/(x-c(3)) B 、菜单方式。
在数组窗口“procs →make epuation ;
在弹出的方程描述对话框中输入非线性回归模型的具体形式; y=c(1)*(x-c(2))/(x-c(3))
选择估计方法为最小二乘法后单击(OK ) 例 (P146例 略
回归模型的比较
当经济变量呈现非线性关系时,经常可以采用多个不同数学形式的非线性模型。
如何选择?
1、图开观察分析
1)观察被解释变量和解释变量的趋势图。
2)观察被解释变量和解释变量的相关图 2、模型估计结果分析
1)回归系数符号和大小是否符合经济意义, 2)改变模型后,是否使决定系数的值明显提高。
3)T 检验与F 检验。
3、残差分析
残差反映了模型未能解释部分的变化情况。
1)残差分布表中,各期残差是否大都落在σ
±的虚线内。
2)残差分布是否具有某种规律性。
3)近期的残差分析情况。
例1:此模型用来评价台湾农业生产效率。
用台湾1958-1972年农业生产总值
(y t),劳动力(x t1),资本投入(x t2)数据(见表)为样本得估计模型,
∧
Lny= + Lnx t1 + Lnx t2
t
R2 = , F =
还原后得,
yˆ=
t
因为 + = ,所以,此生产函数属规模报酬递增函数。
当劳动力和资本投入都增加1%时,产出增加近2%。
例2:用天津市工业生产总值(Y t),职工人数(L t),固定资产净值与流动资产平均余额(K t)数据 (1949-1997) 为样本得估计模型如下:
Ln Y
= + L t + LnK t
t
R2 = , . = , DW = , F =
因为 + = ,所以此生产函数基本属于规模报酬不变函数。
例3:硫酸透明度与铁杂质含量的关系(摘自《数理统计与管理》, )
某硫酸厂生产的硫酸的透明度一直达不到优质指标。
经分析透明度低与硫酸中金属杂质的含量太高有关。
影响透明度的主要金属杂质是铁、钙、铅、镁等。
通过正交试验的方法发现铁是影响硫酸透明度的最主要原因。
测量了47个样本,得硫酸透明度(y)与铁杂质含量(x)的散点图如下(file:nonli01):
(1) y = - x
R 2 = , . = , F= 32
(2) 1/y = - (1/x )
R 2 = , . = , F= 142
(3)y = + (1/x )
R 2 = , . = , F= 266
(4)Lny = + (1/x )
R 2 = , . = , F= 468
还原,Lny = Ln + (1/x )
y =
)
1
(5.104x e
(5)非线性估计结果是 y =
)
1(1.100x e
R 2 = ,
EViews 命令
Y=C(1)*EXP(C(2)*(1/X))
例4 中国铅笔需求预测模型(非线性模型案例,file:nonli6)
中国从上个世纪30年代开始生产铅笔。
1985年全国有22个厂家生产铅笔。
产量居世界首位(亿支),占世界总产量的1/3。
改革开放以后,铅笔生产增长极为迅速。
1979-1983年平均年增长率为%。
铅笔销售量时间序列见图。
1961-1964年的销售量平稳状态是受到了经济收缩的影响。
文革期间销售量出现两次下降,是受到了当时政治因素的影响。
1969-1972年的增长是由于一度中断了的中小学教育逐步恢复的结果。
1977-1978年的增长是由于高考正式恢复的结果。
1981年中国开始生产自动铅
笔,对传统铅笔市场冲击很大。
1979-1985年的缓慢增长是受到了自动铅笔上市的影响。
初始确定的影响铅笔销量的因素有全国人口、各类在校人数、设计人员数、居民消费水平、社会总产值、自动铅笔产量、价格因素、原材料供给量、政策因素等。
经过多次筛选、组合和逐步回归分析,最后确定的被解释变量是y t (铅笔年销售量,千万支);解释变量分别是x t 1(自动铅笔年产量,百万支);x t 2(全国人口数,百万人);x t 3(居民年均消费水平,元);x t 4(政策变量)。
因政策因素影响铅笔销量出现大幅下降时,政策变量取负值。
例如1967、1968年的x t 4值取-2,1966、1969-1971、1974-1977年的x t 4值取-1)。
由图知中国自生产自动铅笔起,自动铅笔产量与铅笔销量存在线性关系。
由图知全国人口与铅笔销量存在线性关系。
说明人口越多,对铅笔的需求就越大。
由图知居民年均消费水平与铅笔销量存在近似对数的关系。
散点图说明居民年均消费水平越高,则铅笔销量就越大。
但这种增加随着居民消费水平的增加变得越来越缓慢。
图显示政策变量与铅笔销量也呈线性关系。
50
10015020025030035062
64
66
68
70
72
74
76
78
80
82
84
Y
铅笔销售量时间序列(1961-1985)(文件名nonli6)
100200300
400
10
20
30
40
X 1
Y
100
200
300400
600
700
800
900
1000
1100
X 2
Y
Y, X1散点图 Y, X2散点图
100
200300
400
100200
300
400
500
X 3
Y
100
200
300
400
-2.5
-2.0
-1.5
-1.0
-0.5
0.0
X 4
Y
Y, X3散点图 Y, X4散点图
基于上述分析建立的模型形式是
y t =
+
1
x t 1 +
2
x t 2 +
3
Ln (x t 3) +
4
x t 4 + u t
y t 与x t 3呈非线性关系。
估计结果如下。
= - x t 1 + x t 2 + Ln x t 3 + x t 4
R 2 = , DW = , F = 429, . =
上式说明,在上述期间自动铅笔年产量每增加1百万支,平均使铅笔的年销售量减少2950万支。
全国人口数每增加1百万人,平均使铅笔的年销售量增加310万支。
对数的居民年均消费水平每增加1个单位,平均使铅笔的年销售量增加17亿支。
一般性政策负面变动使铅笔的年销售量减少亿支。
当政策出现大的负面变动时,铅笔的年销量会减少亿支。
当y t 对所有变量都进行线性回归时(见下式),显然估计结果不如式好。
= - x t 1 + x t 2 + x t 3 + x t 4
R 2 = , DW = , F = 346, . =
案例5:厦门市贷款总额与GDP 的关系分析(1990~2003,file:bank08) 数据和散点图如下。
从散点图看,用多项式方程拟合比较合理。
200
400
600
800
1000
200400600800
GDP
LOAN
Loan t =
+
1
GDP t +
2
GDP t 2 + 3
x t 3 + u t
loan t = + GDP t - 2
+ GDP t 3
R 2=, DW=
200
400
600
800
1000
200
400
600
800
GDP
LOANHAT LOAN
例6钉螺存活率曲线(file:nonli3)(生长曲线模型)
在冬季土埋钉螺的研究中,先把一批钉螺埋入土中,以后每隔一个月取出部分钉螺,检测存活个数,计算存活率。
数据见表。
散点图见图。
y t ,存活率(%)
t ,土埋月数
050
100
5
10
15
T
Y
0 1 2 3 4 5 6 7 8 9 10 11
12
设定y t 的上渐近极限值k =101(因为已有观测值y t =100,所以令k =101更好些。
),得估计结果如下:
估计式是:
)1101
(
log -∧
t
y = + t R 2 =
因为log = ,所以b = 。
则逻辑函数的估计结果是
=
t
e 7653.0013.01101+
当t =时, =
5
.107653.0013.01101
⨯+e =
Y YF
020
40
60
80
100
5
10
T
Y Y F。