非参数面板数据模型的贝叶斯分位回归方法研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
DOI: 10.13546/ki.tjyjc.2020.19.002 (--------------------------
---------------丨理论探讨
非参数面板数据模型的贝叶斯分位回归方法研究
张敏,罗幼喜
(湖北工业大学理学院,武汉430068)
摘要:文章针对面板数据在贝叶斯分析的框架下讨论了非参数分位回归建模方法。
利用低秩薄板惩罚
样条的展开,通过引入虚拟变量和非对称Laplace 分布,建立贝叶斯分层分位回归模型,给出了未知参数估计的
Metropolis-Hastings 抽样算法。
模拟结果显示,新方法在稳定性和无偏性方面都更优于4种传统方法。
最后以 消费支出面板数据为例,演示了新方法在实际建模中的应用,获得了一些有益的新结论。
关键词:惩罚样条;非参数分位回归;MCMC 算法;蒙特卡罗模拟中图分类号:0212 文献标识码:A 文章编号:1002-6487(2020)19-0009-06
0引言
面板数据建模一直是统计和计量经济研究领域中的
一个热门课题,相比面板数据的参数模型,非参数面板数 据模型的灵活性更高,对模型的条件假设也更宽松。
自
Muller (1988)"1首次将非参数方法引人面板数据中后,相关
研究就大量出现在文献之中。
Lee 和R 〇bins 〇n (2015)121探讨
了含有个体固定效应的面板数据非参数回归模型,采用 Nadaraya -Watson 核方法去近似条件均值函数,当带宽较 短,时期数和个体数都较大时,该方法的稳定性较好,但核 函数的估计方法会产生边界效应问题。
Qian 和Wang (2012)131提出了用边际整合的方法去近似面板数据半参数 模型中的非线性部分,蒙特卡洛模拟显示,在有限样本和
基金项目:国家社会科学基金资助项目(17BJY210)
作者简介:张敏(1995—),女,湖北利川人,硕士研究生,研究方向:贝叶斯统计。
(通讯作者)罗幼喜(1979—),男,湖北红安人,博士,副教授,研究方向:数据挖掘、计量经济建模。
C o m b in e d F orecastin g M eth o d B ased o n Interval T im e Series
W avelet M u lti—scale D e c o m p o s itio n
Liu Jinpei 丨a 2, Wang Piaola , Huang Yanyanla , Tao Zhifulh
(l.a.School of Business, b.Economics School, Anhui University, Hefei 230601,China;
2.Department of Industrial and Systems Engineering, North Carolina State University, Raleigh 27695, USA)
Abstract : A new combined prediction method based on wavelet multi—scale decomposition of interval time series is proposeci
for nonlinear, non-stationary interval time series with violent fluctuation in this paper. Firstly, an interval time series wavelet multi-scale decomposition model is established to decompose and recombine the interval time series to obtain the interval trend sequence and residual sequence. Then, Holt's exponential smoothing method, ARIMA model and support vector regression (SVR) are used to predict the decomposed trend series and residual series, and next, the BP neural network is used to integrate the single prediction results to obtain the final predicted value of the interval time series. Finally, the proposed method is applied to the empirical prediction analysis of WTI crude oil price. The results show that the interval time series combined prediction method proposed in this paper has higher prediction accuracy and better applicability than the existing prediction methods.
Key words : interval combination forecast; interval multi-scale decomposition; Holt ' s exponential smoothing; SVR; ARIMA
时期数的前提下,无论是含有随机效应还是固定效应的面
板数据模型,都表现较好。
Silvapulle 等(2017)141则针对含 随机时间效应的面板数据提出了一种新的非参数模型,该 模型允许系数随着时间的改变以某种未知的方式进行改 变,还允许共同趋势函数随着时间的推移而发展,并利用 数据驱动局部线性的方法去拟合这些未知趋势与系数。
此外,为了充分利用数据已知先验信息,有学者提出从贝 叶斯角度对非参数面板数据模型进行改进,Crainiceanu 等 (2005)15针对二维纵向数据提出了贝叶斯非参数惩罚样条回 归模型,并给出了惩罚样条系数估计的Gibbs 抽样算法。
Xiong 等(2017广也从贝叶斯的角度提出了一种适用于序列 模式分类的面板数据非参数回归模型,其允许与时间无关 的空间变量和对时间依赖的外生变量作为预测变量。
然而,上述研究都是基于均值回归模型,与之相比,
统计与决策2020年第19期•总第559期
9
Koenker和Bassett(1978)m提出的分位回归模型在条件假设 上更宽松,对异常值也更稳健,且能够在多个分位点处对 数据进行更全面的建模分析。
关于面板数据的分位回归 方法,近些年也有较多文献对此展开了研究,罗幼喜等(2017)181从双惩罚的角度探讨了面板数据分位回归模型中 的变量选择问题,罗幼喜和李翰芳(2018f对含多重随机效 应的纵向数据建立了分位回归模型并进行降维算法的研 究。
但这些研究多集中于参数模型,对于面板数据的非参 数分位回归模型则不多见,本文试图在贝叶斯分析的框架 下,将面板数据的非参数均值回归模型推广至非参数分位 回归模型之上,从而使得模型不仅能够容纳数据的先验信 息,而且模型形式也更加灵活。
1模型及方法
1.1非参数惩罚样条的展开
本文考虑含个体固定效应的面板数据模型:
•V i,=a,.+/(A:i,)+ eii,,.= 1,…,”;卜1,…,7"⑴
其中,/表示横截面单元表示时期,X,代表第/个 个体在第f时期的观测值;《,表示第i个个体的固定效 应,它不随时间的改变而改变;X,.,为解释变量,/(X,.,)为待估函数。
首先,对未知函数/(&)采用低秩薄平面样条Upline of low rank thin plate)展开,得到:
/(Jf,.,)=A+/V"+ H二,—hi3(2)
其中,\</(:2<...<&为样条节点,取值为X的样本 分位点。
为了避免出现过拟合情况,估计过程中加入惩罚函数 j,其中又为光滑参数,0为参数向量,£)为已知的 半正定惩罚矩阵:
r j_®2x2
P kx2_
其中,A的(/,_/)元为|K/- A C/,可得到惩罚样条函数:f(x…)=fio+P\Xi,+ ⑶〜),^C ir«(n+3=[l:J::711r®er],Z=(zt f))irx/r,z.= l,...’n r,y= 1,…,尺,则上述模型也可以写成如下矩阵形式:Y=x e+Z b + E(6) 1.2贝叶斯分层分位回归模型
对所有分位点r e(0, 1),考虑上述模型式(5)的条件 分位函数:
=^〇W+A(rK,+ Z*= x b^T)zu k+ «iWvi+ «2(r) V2+...+a»W v (7)
为从贝叶斯的角度获得条件分位函数式(7)的估计,可假定响应变量服从非对称Laplace分布(ALD),即其 密度函数为:
/(兄…T) = (8)
其中,pf(//)=//(r-/(/i S〇))称为检验函数,/(.)为示性 函数,r称为偏度参数,<7是尺度参数,
+a2v2+,…,+ 为位置参数。
于是,式(7)的样本似然函数为:
L(e,b,c-.Y,r)= [^^j (9)
为了简单起见,似然函数用设计矩阵表示,这里省去 了参数的r标识,&表示向量y的第y'个元素,'、&分 别表示设计矩阵X和Z的第y行。
假定式(9)中参数向量的先验分布分别为,
,则可建立分层贝叶斯非参数惩罚样条分位回归模型为:
f i.=Xj6-\-Zjb
yJ[G,b,(7,卜A LLH ji』,a,r)
■9~N W L g)(l〇)
b-Nifb 工b、
a~IG(y,k)
其中,0和6的均值向量分别为和&,协方差矩 阵分别为19和&,«为个体数,尤为节点个数。
/G代 表逆伽马分布,参数分别为A和y,则(0,6, <7)的联合后验 条件密度为:
其中,Z=z^/1/2,々第行为'={内-\丨3,…内-〜|3},这里/,7=1,",欠,〜则为2矩阵里的(7^(/-1) +/,幻元,将式(3)整合到式(1)后为:
兄,,=A+ A)+M,+ A z说+ 〜⑷
然后,对个体固定效应部分,引进虚拟变量V i,v2,…,v…,若v,隶属第/个个体,则取值1,否则取0。
则式(4)可 表示为:
yi t+PlXi t+ «1V1+ «2V2+ ^»+«n V n+ Z^= X bk Zi t k+ei,t
(5)
若记:…,_yir,…,_vn l,...>^r),心xl= (Cj,,fj2,•••,C|r,•••,e n l,•••,e r t r),^=(^0,aj,a2»***»an)*厶m=(办1,厶2»"•,厶《),•^”7'5<1=(又11,丨12广",丨17',一,1”1,.",
n(e,b,(j\Y,T)〇cL(0,b,a:Y,z)n(0)n(b)n(a)〇cL(0^b,a:Y, r)e x p|-^(0 -^6)t^0^b)T^b1(b -/i6)| 7+1_1
e°(11)
由式(9)和式(11)可得到各未知参数的条件后验密 度,对未知参数/9有:
n(0\Y, b,(j yr)ccL(〇,b,(T:Y, r)e x p|-i-(^-^)r I^(^-//0)| o c e x p j-i^-^/S-1^-^)-笔十02)对于6有:
K(b\Y,0, 〇,z)ccL(0,b,(T:Y,r)exp|-i(^-///,)7'l;1(6-^)J
10 统计与决策2020年第19期.总第559期
X e x p|-i(A-n h)TZ~b\b -n b)-对于〇■有:
7c(a|y)xL((9,^,a:r, r)f
¥厂X j8-Z j b
(13)
\y+i-A
e ff〜IG
^nT^+f^p^yj-XjO-Zjb)(14)
显然参数0和6的条件后验密度均不是常见分布,下 面利用M etr〇p〇lis-HastingS(M-H)抽样算法近似计算出参 数估计值。
1.3 Metropolis-Hastings 抽样算法的实现
M-H抽样算法具体实现步骤如下,取初始值0(e)= (0.1,…,0.1)…+2 ,fc w=(0.1,…,0.1),,= 1,假设当前状 态为6>w,Z>w , (7W , « = W ,其中AT为迭代总次数。
(1)从0的提议分布中抽取f+1,计算接受概率:
a(ir,r)e x p|--(0,,+ l-/i e)%1(0"+1-/i e)-^p r
y.-X^'-Z j b"
exp|_+(y_ _"〇)_ Z p,
y j-X f-Z/
a"
从t/(0,1)中随机抽取一个数a ,若丨og(a)<log(_"+ -<9"))置 0"+1= 6>"+| ,否则置 6>"+1= 0"。
(2)从/>的提议分布中抽取y+1,计算接受概率:
a{b",b"*)=-
yj-X ff*'-Z b n
a"-'
e x p J>r
an
从t/(〇,l)中随机抽取一个数/ ,若l〇g(0<l〇g(a(A”+1 -Z〇)置6"+1=沪+|,否则置6"+1=沪。
(3) 从逆伽马分布/G j y+ «7\ A+ _&〇>厂$(T+1-Z/T1)}中直接抽取Y+1。
(4) 重复步骤(1)至步骤(3)直至收敛。
本算法中两个提议分布均选用正态分布
a/),尤为当前状态,〃/为提议方差。
从理论上来说,建 议分布可以自由择取,但是在实际的计算过程中,提议分 布的择取对算法效率影响较大。
陈平和徐若曦(2008)™ 指出,一般当目标分布是多维且独立的时候,接受概率为 20%左右时,可以很大程度地提高抽样效率,并且与目标 分布的具体形式无关,故在算法的实施过程中,可调整提 议分布方差W使接受概率在此附近。
2模拟研究
本文考虑可加和可乘两种模型,并考虑惩罚样条在不 同节点数下的运行情况。
采用均方误差(MSE)来评价估计方法的稳定性,用偏差(Bias)来评价估计方法的准确性,MSE和Bias分别定义如下:
M S E=^f S y-y y;Bias=^y-y)(15) n1=1n i=\
其中,_^是真实值,/为模型拟合值,两者均是绝对 值越小越优越。
本文要比较的6种方法是:
(1)Rosenblatt(l956yu l和Parzen丨12提出的核密度估计方 法,记为NWS方法;
(2) 局部多项式估计,记为LP方法;
(3) 8〇1««;111^4121提出的1?-样条,记为1^方法;
(4) 基于B样条改进的光滑样条,记为SS方法;
(5) 贝叶斯惩罚样条均值回归,记为BNMR方法;
(6) 贝叶斯惩罚样条分位回归(0.5),记为BNQR方 法。
为考虑不同样本量对各估计方法的影响,模拟时固定 截面个体数〃 = 30,时期数7=5、10、20,分别对应较短 时期、一般时期和较长时期。
2.1加法效应模型
采用如下加法效应模型生成数据:
y…=«(+x j(+ 3 sinjc f((16)
其中,;c~t/(-37i,37t) ,〜1),考虑随机误差项 e,.,分别来自标准正态分布#(0, 1)、对称厚尾分布f(3)、偏态 分布/2⑶-3、柯西分布Cauc/;X〇,〇.5)与拉普拉斯分布 Lap/flce(0,1)。
对于需要选择窗宽的普通非参数模型,均 采用交叉验证的方式选择窗宽,在采用M-H抽样算法时,对于BNMR与BNQR,分别迭代10000次,舍弃前5000次 后取均值作为最终贝叶斯模型参数近似值。
得到各自模 拟结果如表1至表5所示,将表中均方误差最小值和偏差 最小值用*号标记。
表1标准正态误差下6种估计的M SE和Bias
情况1NW S LP SS B S BN M R BNQR _,1)
T=5
M SE
Bias
0.5131
-0.0607
0.5149
-0.0337*
0.4805
0.0445
0.7896
0.0445
0.3701*
0.0409
0.9462
0.0595
T=10
M SE
Bias
0.2424
0.0761
0.2445
0.0768
0.2568
-0.0728
0.2834
-0.0728
0.1309*
-0.0742
0.2164
-0.0541*
T=20
M SE
Bias
0.1031
-0.0358
0.1065
-0.0333
0.1110
0.0358
0.2009
0.0358
0.0530*
0.0359
0.0855
-0.0235*
表2 t分布误差下6种估计的MSE和Bias
情况2N W S LP SS B S BN M R BNQR
t〇)
T=5
M SE
Bias
0.4738
-0.0213
0.4667
0.0013*
0.4986
0.0100
0.7650
0.0100
0.2619*
0.0112
0.9702
-0.0328
T=10
M SE
Bias
0.3536
0.0256
0.3342
0.0096*
0.3601
-0.0112
0.4418
-0.0112
0.2847*
-0.0114
0.2994
0.0830
T=20
M SE
Bias
0.1844
0.0568
0.1886
0.0551
0.1951
-0.0573
0.2514
-0.0573
0.1259*
-0.0575
0.1512
0.0219*
表3 卡方分布误差下6种估计的M SE和Bias
情况3NW S LP SS B S BN M R BNQR Cauchy(0,0.5)
T=5
M SE
Bias
0.8921
0.1561*
0.8690
0.1942
0.9721
-0.1852
1.4020
-0.1852
1.3321
-0.1869
0.7537*
0.2903
T=10
M SE
Bias
0.7999
-0.1004*
0.8253
-0.1081
0.8360
0.1006
1.4204
0.1006
0.5271*
0.1007
0.6075
0.3995
T=20
M SE
Bias
0.4324
-0.0046*
0.4205
-0.0239
0.4778
0.0143
0.6452
0.0143
0.4057*
0.0148
0.5559
0.5878
统计与决策2020年第19期•总第559期 11
表4柯西分布误差下6种估计的MSE和Bias表6标准正态误差下6种估计的MSE和Bias 情况4N W S LP SS B S B N M R BNQR
Cauchy{0,0.5)T=5
M SE
Bias
1.1597
-0.0364
1.0644
0.0025*
1.0751
0.0282
1.8613
0.0282
2.1414
0.0285
0.8501*
0.0906 T=10
M SE
Bias
1.1131
-0.4174
1.1667
-0.4277
1.1308
0.4314
1.6129
0.4314
1.7004
0.4316
0.1679*
0.0874* T=20
M SE
Bias
1.8877
0.3750
1.8157
0.3403
1.7269
-0.3678
2.9121
-0.3678
2.6224
-0.3683
0.0918*
0.0575*
表5 拉普拉斯分布误差下6种估计的M SE和Bias
情况5NW S LP SS B S B N M R BNQR
Laplace{0, 1)T=5
M SE
Bias
0.5448
-0.0831
0.5615
-0.0813
0.7070
0.0800
0.7348
0.0800
0.5800
0.0812
0.5266*
0.0135* T=10
M SE
Bias
1.1131
-0.4174
1.1667
-0.4277
1.1308
0.4314
1.6129
0.4314
1.6667
0.4316
0.2550*
0.0981* T=20
M SE
Bias
0.2440
-0.0222
0.2329
0.0136
0.2254
-0.0123
0.4992
-0.0123
0.1176
-0.0115
0.0679*
-0.0113*
(1) 从表1和表2的结果来看,当误差分布为标准正态 和对称厚尾分布时,BNMR的稳定性明显占优。
而从无偏
性来看,当时期较短时,LP的无偏性相对于其他几种方法
占有明显的优势。
但是当时期数上升到20时,LP的无偏
性相对于其在较短时期时明显变差,而此时BNQR的无偏
性对于其在时期数较小时明显变好,相比于其他方法,处
于绝对优势状态。
(2)从表3来看,当误差分布为偏态分布时,对于各种 时期,NWS的Bias绝对值最小,无偏性最好。
但其MSE绝
对值相对于BNQR较大,而且BNQR对于时期发生变化
时,其MSE变化较小,波动较小,贝叶斯惩罚样条分位回
归稳定性表现占优。
(3)从表4来看,当误差分布为柯西分布时,显然BN- Q R要优于其他传统的非参数方法,特别是其MSE在各个
时期下绝对值都是最小的且明显占优,表现最稳定。
另外,
随着时期数的增大,其稳定性能也大幅提升。
而从表5的
结果可看出,当误差分布较正态分布为尖峰厚尾的拉普
拉斯分布时,BNQR在所有的表现中都占有明显的优势
地位。
(4)结合表1至表5可看出,误差为柯西分布和拉普 拉斯分布时,BNQR各方面表现明显占优。
当误差分布为
正态分布、厚尾分布和偏态分布时,整体上来看,虽然BN-
Q R的稳定性相对于BNMR表现稍差,但是在时期数超过5
时,相对于均值回归的BS和SS法,其MSE均要小些。
相
比传统的非参数方法,贝叶斯惩罚样条方法整体表现占
优。
2.2 乘法效应模型
采用如下乘法效应模型生成数据:
yn=ai+xi/"+Ei,(17)
其中,x为取自区间[0,3]的等间隔数据,a,_~Af(0,1),
随机误差项的设置与上文提到的加法效应模型完全相
同。
对于需要选择窗宽的普通非参数模型,均采用交叉
验证的方式选择窗宽,在采用M-H抽样算法时,其设置
与可加模型中的设置相同。
得到各自模拟结果如表6至
表10所示,将表中均方误差最小值和偏差最小值用*号标
记。
情况1NW S LP SS B S BN M R BN Q R T=5
M SE0.25770.27620.28550.51080.1979*0.2578
Bias0.00540.0255-0.0105-0.0105-0.0046*0.0205
取1)T=10M SE
Bias
0.2797
-0.0801
0.2606
-0.0704*
0.2679
0.0774
0.4064
0.0774
0.1306*
0.0759
0.1523
0.0940
T=20M SE
Bias
0.3579
0.1840
0.3390
0.2006
0.3540
-0.1886
0.6538
-0.1886
0.0537
0.0231*
0.0464*
0.0401
表7 t分布误差下6种估计的MSE和Bias
情况2NW S LP SS B S B N M R BN Q R
^(3)T=5
M SE
Bias
0.5897
-0.0867
0.5961
-0.0880
0.6037
0.0881
0.9803
0.0881
0.3569
0.0894
0.2571*
0.0457* T=10
M SE
Bias
0.3343
-0.0942
0.3109
-0.0838
0.3299
0.0922
0.4285
0.0922
0.1582
0.0923
0.1549*
0.0359* T=20
M SE
Bias
0.2290
-0.0183
0.2225
-0.0055*
0.2457
0.0150
0.3798
0.0150
0.1119
0.0142
0.0751*
-0.0330
表8 卡方分布误差下6种估计的M SE和Bias
情况3NW S LP SS B S B N M R BN Q R
/(3)-3T=5
M SE
Bias
0.9446
0.3596
0.962
0.4252
0.9918
-0.3779
1.3402
-0.3779
0.9199
0.3763
0.8947*
0.3454* T=10
M SE
Bias
0.6504
0.1396*
0.5936
0.1643
0.6288
-0.1472
0.68
-0.1472
0.4904*
0.1463
0.5081
0.4525 T=20
M SE
Bias
0.5541
0.0306*
0.4761
0.054
0.4994
0.0369
0.7192
0.0369
0.2931*
0.0368
0.5486
0.5105
表9 柯西分布误差下6种估计的MSE和Bias
情况4NW S LP SS B S B N M R BN Q R
Cauchy(0, 0.5)T=5
M SE
Bias
6.3111
0.5669
4.0485
0.7879
4.8773
-0.6323
7.8757
-0.6323
7.5004
-0.6327
0.8034*
0.0005* T=10
M SE
Bias
3.7650
1.4635
2.6699
0.3271
1.3099
-0.1181
9.7519
-0.1181
10.2035
-0.1189
0.1593*
0.0516* T=20
M SE
Bias
2.6850
0.0519
2.6591
0.1723
1.7879
-0.0836
4.9048
-0.0836
3.8736
-0.0848
0.0472*
-0.0022*
表10 拉普拉斯分布误差下6种估计的M SE和Bias
情况5NW S LP SS B S B N M R BN Q R
Laplace{0, 1)T=5
M SE
Bias
0.7075
-0.0432
0.6343
-0.0331
0.5921
0.0407
1.0073
0.0407
0.4054
0.0361
0.2768*
-0.0051* T=10
M SE
Bias
0.3579
0.0932
0.3390
0.1097
0.3540
-0.0977
0.6538
-0.0977
0.2126
-0.0980
0.0971*
-0.0146* T=20
M SE
Bias
0.2200
0.0101
0.2218
0.0218
0.2097
-0.0134
0.3622
-0.0134
0.0920
-0.0138
0.0412*
-0.0059*
(1)从表6的显示结果来看,当误差分布为正态分布
时,贝叶斯非参数BNMR在稳定性上表现占优,但是BN-
QR与其相差甚小。
另外,随着时期数变大,BNMR和BN-
QR的MSE均明显变小,而其他4种普通非参数方法的稳
定性并未出现任何改善。
(2) 从表7来看,误差分布为t分布下,BNQR的稳定性
绝对占优,而且随时期数的增大更加稳定。
仅在T=20时,
LP法的无偏性优于BNQR,而在其他情况下,BNQR都表
现最优。
(3) 表9和表10结果相近,在误差分布为柯西分布和
拉普拉斯分布时,BNQR法的表现都占有绝对优势地位,
特别是在时期较大时,其MSE和Bias都远远低于其他几
种方法。
(4) 结合表6至表10不难发现,BNQR在误差分布为t
分布、柯西分布和拉普拉斯分布下,表现出明显优势,尤其
是在后两者分布下,其无偏性占有绝对优势。
此外,在任何
12 统计与决策2020年第丨9期•总第559期
C m W m W)
误差下,BNQR的稳定性都随着时期数的增大而逐步增强,
而传统的4种非参数方法并未表现出任何显著性的改变。
2.3不同节点对模型的影响
考虑加法效应模型下,误差假设为拉普拉斯分布,
r= 10时不同节点数下新方法的运行时间(用户时间(user
time)、系统时间(system time)、流逝时间(elapsed time))以及
其MSE和Bias变化情况,本次模拟基于R3.5.1,在Imel(R)
Celeron(R)CPU 1007U 1.5GHz,8.00GB RAM Windows8.1 上试验运行。
在不同节点下,各自重复运行20次后取MSE 和Bias的平均值绝对值作为最终的结果,见表11。
表11 不同节点数下的运行时闽、MSE和Bias(s)
节点数用户系统流逝M SE Bias 358.270.0358.310.530.14
459.130.0359.170.560.17
559.950.0560.160.410.16
662.840.0362.920.280.14
768.690.1368.810.350.1
863.860.0463.920.340.12
963.620.0163.650.240.11
1062.860.0162.910.210.1
1164.220.0264.310.260.09
1262.650.0562.720.280.1
1358.02*0.0858.240.180.08
1483.830.04103.950.250.12
1596.720.0496.960.180.09
16102.670.02102.890.310.12
17101.740.03101.910.290.08
18105.090.02105.320.320.09
19107.890.09107.990.160.08
20111.890.03112.110.210.08
21112.940.04113.160.240.1
22114.570.03114.730.130.06
23112.630.04112.890.180.07
24112.250.02112.420.15*0.08
25118.420.02119.240.20.06
26121.570.03121.730.190.08
27130.20.02130.450.190.08
28132.610.08132.850.210.09
29133.250.05133.360.160.05*
30134.010.09134.720.160.06
结合表11和图1可见,在不同节点下,将其用户时间、均方误差最小值和偏差最小值用*号表示出来。
在节点数 少的情况下,参数较少,运行时间快,但是稳定性和无偏性 表现较差,拟合效果差;当节点数逐渐增加时,运行时间并 没有发生明显的变化,但是其MSE和Bias都有所减小,稳 定性和无偏性变好;当节点数再继续增加时,MSE和Bias 会出现变大的现象,无偏性和稳定性变差,而且运行时间 明显变长。
具体表现为当节点数为24时,MSE达到最小,当节点数为29时,Bias达到最小,但运行时间分别为112.25和133.25,计算缓慢。
而从运行时间来看,当节点 数达为13时,运行时间最少,且其MSE和Bias与最佳值相 差甚小。
所以综合来看,节点数为13与节点数为24和29 相比,表现占优。
同样的,本文在其他模型下也进行了类 似的模拟试验,均发现并非节点数越多越好,而是当节点 数超过一定数量后拟合效果趋于平稳,不再有明显变化。
图1节点数模拟结果
2.4模拟总结
综合以上模拟结果,可得出如下结论:
(1) 无论是在具有可加效应还是可乘效应模型下,本 文提出的贝叶斯非参数分位回归方法都是处理面板数据
的一种有效方法,对于存在未知非线性关系的数据都能够
作出精确并且稳定的估计。
不管模型误差服从什么分布,
从贝叶斯角度估计薄平面惩罚样条参数从而得到响应变
量估计值的方法相比其他普通非参数方法,在稳定性和无
偏性方面的结果都较好,说明该方法对于含有固定效应的
面板数据具有可利用性。
(2) 在模型误差不属于正态假设时,贝叶斯非参数分 位回归比贝叶斯非参数均值回归的表现要好。
这是因为
当有异常值存在时,因分位回归不受异常值影响,使其稳
定性和无偏性表现明显占优,这也是分位回归最大的优
势。
(3) 对于本文所提出的方法,节点个数是一个比较重 要的参数。
当节点个数较少时,运行时间快,但模型拟合
效果较差;当节点个数增多时,运行时间变慢,模型拟合效
果逐渐变好,但当超过一定的节点数后,拟合效果不会再
发生太大改变,此时反而会使运行时间变得更长。
所以,
在实际数据分析时,建议可先逐步增加节点数,观测其拟
合效果变化趋势,当变化变得平稳时即可停止增加节点
数。
3结束语
本文在贝叶斯框架下系统地研究了非参数分位回归
模型,给出了具体的理论推导。
所研究的贝叶斯非参数分
位回归方法是处理面板数据的一种有效方法,对于存在未
知非线性关系的数据都能够作出精确且稳定的估计。
本
文的研究将有助于非参数模型的应用更加完善。
参考文献:
[1] Miiller H G.Nonparametric Regression Analysis of Longitudinal Data
[M]. Berlin: Springer-Verlag,1988.
[2] Lee J, Robinson P M. Panel Nonparametric Regression With Fixed Ef
fects [J].Journal of Econometrics, 2015,188 (2).
[3] Qian J, Wang L. Estimating Semiparametric Panel Data Models by
Marginal Integration [J] J ournal of Econometrics, 2012, 167 (2).
[4] Silvapulle P, Smyth R, Zhang X B, et al. Nonparametric Panel Data
Model for Crude Oil and Stock Market Prices in Net Oil Importing
Countries [J]. Energy Economics,2017, (67).
统计与决策2020年第19期•总第559期
13
[5] Crainiceanu C M, Ruppert D , Wand M P. Bayesian Analysis for Pe
nalized Spline Regression Using WinBUGS [JJ.Joumal of Statistical Software, 2005, 14(i 14).
[6] Xiong S, Fu Y, Ray A. Bayesian Nonparametric Regression Modeling
of Panel Data for Sequential Classification [JJ.IEEE Trans Neural Netw Learn Syst,2017,(99).
[7] Koenker R, Bassett G. Regression Quantiles [J].Econometrica,1978,
46(1).
[8] 罗幼喜,田茂再,李翰芳.高维混合效应模型的双正则化分位回归
方法研究[J].统计研究,2017,34(7).
[9】罗幼喜,李翰芳.纵向数据分位回归模型的降维算法模拟研究[J].统
计与决策,2018,(9).
[10]陈平,徐若峨.Metropolis-Hastings自适应算法及其应用[J].系统工
程理论与实践,2008,28⑴.
[1 ljRosenblatt M. Remarks on Some Nonparametric Estimates of a Den
sity Function [J].Annals of Mathematical Statistics, 1956, 27 (3). [12] Parzen E. Stochastic Processes [M].Pittsburgh: Academic Press,
1962.
[13] Schoenberg I J. The Chinese Remainder Problem and Polynomial
Pnterpolation [J].College Mathematics Journal, 1987, 18 (4).
(责任编辑/亦民>
R esea srch o n B ayesian Q u a n tile R eg ressio n for N o n p a ra m etric P an el D ata M odels
Zhang M in,Luo Youxi
(School of Science, Hubei University of Technology, Wuhan 430068, China)
Abstract: The nonparametric quantile regression modeling method for panel data is discussed under the framework of Bayesian analysis in this paper. By using the expansion of punishment splines in low-rank thin plates, a Bayesian hierarchical quantile regression model is established by taking into account virtual variables and asymmetrical Laplace distribution, with a metropo- lis-Hastings sampling algorithm for unknown parameter estimation presented. The simulation results show that the new method is superior to the four traditional methods in terms of stability and unbiasedness. Finally, the paper takes the consumer expenditure panel data as an example to demonstrate the application of the new method in practical modeling, and obtains some useful new conclusions.
Key words:penalty spline; nonparametric quantile regression; MCMC algorithm; Monte Carlo simulation
14 统计与决策2020年第19期•总第559期。