门槛回归(阈值回归)

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1 面板数据

面板数据,即Panel Data ,也叫“平行数据”,是指在时间序列上取多个截面,在这些截面上同时选取样本观测值所构成的样本数据。[1]

其有时间序列和截面两个维度,当这类数据按两个维度排列时,是排在一个平面上,与只有一个维度的数据排在一条线上有着明显的不同,整个表格像是一个面板,所以把panel data 译作“面板数据”。但是,如果从其内在含义上讲,把panel data 译为“时间序列—截面数据” 更能揭示这类数据的本质上的特点。也有译作“平行数据”或“TS -CS 数据(Time Series - Cross Section )”

面板数据从横截面上看,是由若干个体在某一时刻构成的截面观测值,从纵剖面上看,是一个时间序列。

例:

1、城市名:北京、上海、重庆、天津的GDP 分别为10、11、9、8(单位亿元)。这就是截面数据,在一个时间点处切开,看各个城市的不同就是截面数据。

如:2000、2001、2002、2003、2004各年的北京市GDP 分别为8、9、10、11、12(单位亿元)。这就是时间序列,选一个城市,看各个样本时间点的不同就是时间序列。

2、2000、2001、2002、200

3、2004各年中国所有直辖市的GDP 分别为: 北京市分别为8、9、10、11、12;

上海市分别为9、10、11、12、13;

天津市分别为5、6、7、8、9;

重庆市分别为7、8、9、10、11(单位亿元)。

这就是面板数据。

2 门槛回归模型(阈值回归模型)

(1)模型设置

Hansen(2000) 将“门槛回归”模型的基本形式定义为:

i i i e x y +='1θ, q i ≤γ (1)

i i i e x y +='2θ, q i >γ (2)

其中,作为解释变量的x i 是一个m 维的列向量。q i 被称为“门槛变量”,Hansen(2000)认为门槛变量既可以是解释变量x i 中的一个回归元 ,也可以作为一个独立的门槛变量。根据其相应的“门槛值”γ,可将样本分成“两类”(two regimes)。

将模型 (1) (2) 的形式改写成单一方程形式时,首先需要定义一个虚拟变量d i (γ)={q i ≤γ} ,此处{g}是一个指示函数( indicator function),令集合x i (γ ) = x i d i (γ)。因此,模型(1) (2)可写成:

i i n i i e x x y ++=)(''γδθ (3)

通过这种添加虚拟变量的方式,可知θ=θ2 ,δn =θ2-θ1。将式(3)进一步改写成矩阵形式:

e +=n δX +X Y γθ (4)

此时模型中的回归参数为 (θ,δn ,γ) 。在γ给定的前提下,式(4)中的θ和δn 是线性关系。因此,根据条件最小二乘估计方法,用X γ* = [X X r ]对Y 回归,得到相应的残差平方和

函数如下:

Y X X X X Y Y Y S S n n ')'('')),(),(()(*1***γγγγγγδγθγ--==

估计得到的门槛值就是使S n (γ)最小的γˆ。被定义为:

)(min arg ˆγγγn S n

Γ∈= (5) 其中,Γn =Γ∩{ q 1,…,q n }。Hansen(2000) 将门槛变量中的每一观测值均作为了可能的门槛值,将满足式(5)的观测值确定为门槛值。当门槛估计值确定之后,那么其他参数值也就能够相应地确定。

2. 显著性检验

门槛回归模型显著性检验的目的是,检验以门槛值划分的两组样本其模型估计参数是否显著不同。因此,不存在门槛值的零假设为: H0:θ1 =θ2。同时构造LM 统计量:

)

ˆ()ˆ(0γγn n S S S n L -= (6) 其中,S 0是在零假设下的残差平方和。由于LM 统计量并不服从标准的分布。因此,Hansen(2000)提出了通过“自举法”(Bootstrap )来获得渐进分布的想法,进而得出相应的概率p 值,也称为Bootstrap P 值。这种方法的基本思想是:在解释变量和门槛值给定的前提

下,模拟(Simulate) 产生一组因变量序列,并使其满足N (0 ,2

ˆe

),其中e ˆ是式(4)的残差项。每得到一个自抽样样本,就可以计算出一个模拟的LM 统计量。将这一过程重复1000次,Hansen(1996)认为模拟产生的LM 统计量大于式(6)的次数占总模拟次数的百分比就是“自举法”估计得到的P 值。这里的Bootstrap P 值类似于普通计量方法得出的相伴概率P 值。例如,当 Bootstrap P 值小于0.01时,表示在1 %的显著性水平下通过了LM 检验,以此类推。

3.置信区间

当确定某一变量存在“门槛效应”时,还需要进一步确定其门槛值的置信区间。即对零假设 H0 : γγ=ˆ进行检验,“似然比统计量”( Likelihood Ratio Statistic)可表示为:

)ˆ()ˆ()()(γ

γγγn n n n S S S n LR -= (7) Hansen (2000)认为,当LR n (γ)≤c (α) = - 2ln(1 -α)时,不能拒绝零假设(α表示显著性水平)。其中,在 95 %的置信水平下,c (α) 等于7.35。

以上的检验过程为只有一个门槛值的检验过程,为了能确定是否存在两个门槛值或者 是更多的门槛值,我们应当检验是否存在两个门槛值,拒绝L 意味着至少存在一个门槛值。

我们可以假设己经估计1ˆγ,然后开始寻找第二个门槛值2ˆγ

。在确定有两个门槛值后,再寻找第三个门槛值,方法都和前面的一样,直至我们不能拒绝零假设。

相关文档
最新文档