基于稀疏组lasso惩罚函数支持向量机的经费预算困境预测

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

DOI:10.13546/ki.tjyjc.2019.23.013 厂------------—
------------------方法应用
基于稀疏组Lasso
惩罚函数支持向量机的经费预算困境预测
孙云山\刘照德2
(1.华南理工大学法学院,广州5丨1442;2.广东财经大学经济学院,广州510320)
摘要:文章以支持向量机模型为基准模型,提出引入稀疏组Lasso惩罚函数的修正模型,并设计了有助于 增强预测精度与预测效果的双层坐标下降算法,以探究全面预算理念下司法经费预算的新特征。

以2014— 2018年司法部门“三公”经费决算公开数据为例,研究发现:(1)基于稀疏组Lasso支持向量机(SGL-SVM)方法 能够显著增强数据变量与组数的遴选精度。

(2)结合分量特征的异化程度所设计的集成化向量方法不仅可大幅 度压缩网络训练时间,亦能够趋近实现最优的样本外预测效果。

(3)SGL-SVM模型弥补了单维支持向量机算法 中整组进整组出与忽略数据组间结构的统计局限,既能够有效反映观测变量的时变特征,又可精准地预测司法 经费预测困境的动态情况。

关键词:支持向量机;稀疏组Lasso;经费预算困境
中图分类号:F224 文献标识码:A文章编号:1002-6487(2019)23-0062-05
〇引言
司法预算属于财政法学与司法制度研究的交叉领域,司法预算管理的实践方向在于即满足财政法学法理性的 预算制度设计要求,又符合司法预算编制与执行的客观规 律。

然而一段时期以来,囿于预算编制、预算执行、预算控 制、预算考评等能力短板,使得司法经费支出难以满足司 法事权需求,诱发了财务运营风险。

当前我国司痒经费预 算与实际收支间的失衡状态大有愈演愈烈的发展趋向,若 不对经费预算的全链条进行精细化预测与管控,势必将对 司法机构的内部审计、财务资源利用效率以及司法事权绩 效产生负向的关联性影响。

而精准地预测经费预算困境 的着力点便在于构建相应的司法经费预算困境预测模型,量化地把握司法经费预算困境的变化趋势及影响因素。

研究相关文献发现,以往的研究多将研究的重心放置 于线性模型及逻辑回归模型等维度,鲜见于就支持向量机 的高纬数据遴选问题进行研究。

另外,由于支持向量机的 Lasso函数在双层变量情境下存在连续但二阶不可导的情 况,因此其难以直接反映系统属性的动态过程。

本文设计 了引人稀疏组Lasso的支持向量机方法,即通过将具有时 变性特征的稀疏组Lasso惩罚函数作为传统支持向量机模 型进行双层坐标计算的加速器,从而便于更为精准地预测 处在动态变化之中的时间序列。

并将该方法应用于司法 经费预算困境预测实践中,以更为合理地描述司法经费预 算困境因素的动态特征。

鉴于我国地方/基层司法机关为数众多的原因,本文以我国审计署所公布的2014—2018 年的司法部门“三公”经费决算公开数据为例,选择影响司 法经费预算管理的十二个方面的预测指标,构建了预测司 法经费预算困境的S G L-S V M模型。

1研究方法
1.1引入稀疏组惩罚函数的支持向量机模型
假设存在两类因变量:-1和1 ,因变量表达式为欠e{-l,l},i=l,…。

令自变量为a…xpe©p,其中a e {;c W,;c(2),x(3),...,。

且上述m组中的构成变量有
旨代因变量第Z组中共包含W对变量。

构 建经典线性支持向量机模型的最优表达式:
min丄y^m a x(0, 1(1) n/=i2
式(1)中的m a x(0,1-办为铰链损失函数,义之0 旨代序参量。

⑶代表待估计参数。

考虑到经典支持向量 机函数存在二阶导数求解无效的情况,因此学术界往往采 用基于的损失函数来近似求解。

m-w w a r e d 的损失函数为:
A w)=士玄(〇’1-iw°)2⑵
考虑到式(1)惩罚项的变量选择功能强度较弱,因此用稀疏组Lasso替换惩罚项函数,得到:
基金项目:国家社会科学基金青年项目(13CJL034 )
作者简介:孙云山(1983—),男,江西安远人,博士研究生,研究方向:司法经济。

刘照德(1970—),男,湖南武闪人,博士,副教授,研究方向:经济统计与评价。

62统计与决策2019年第23期•总第539期
®(<u)=(1-a)Z J^||H,</)||2+a l l t〇l l⑶
引入的损失函数与稀疏组Lasso条件下 的支持向量机优化问题便简化为:
1w2—2 min F[co)=/(co)+AO(co)=min丄Z[max(0,1)-Z^,cy]
w10i=i
+、z R J’)+ 乂2IH丨⑷i= 1> 2
式(4)中的\与;l2分别是(1-a)和(f l)的目标函数,假定 = 1-,/(<u)= {/|6,.(w)> 〇}。

本文应用刘征 (2016)提出的坐标梯度下降法对初始支持向量机模型进 行二阶导数求解 '应用不确定性坐标上下界算法将式(4) 转化为二次函数求导问题:
/(〇>)</(〇)〇) + qT(co-«〇〇)+ ^(<y- co0f H(co-<〇0)=
/(«o) +0(w)—/coo+士(5)式(5)中的 9 =《(to。

),//= ,2(«) = (? _
cy+士"to //ft?。

则可将式(4)进一步简化为带稀疏组惩罚函数的二阶 导数优化问题:
40= ar8 mjn(2(®)) + ⑷
为保证式(6)取得分组最优解,对其进行分组优化处 理后可得:
Q(c o)+/l®(o>)= Q(c o)+/l|]<l><0^(0j(7)
对处于第■/组的支持向量机函数而言,式⑷可转化为:mia e W((&)+/l<D W(<&)(8)
对变量H进行m x«行列关系的矩阵降解处理:
(H n-H lm\
H= \:
^m\"mn>
上式中的//t t= P,x P t,考虑到H具有显著的对偶性 特征,因此采用常数项删除简化处理:
Q(k\&) = d>T(q- Hco0f+ H uc o
+d/H k k c b)(9)对式(9)进行最小化目标函数条件处理后,可得到满 足二阶求导的前置条件:
g k)+^^〇)+^ J P^ f i+A2v= 0
需要考虑当A= 0与6*0两类条件下的目标函数表 达式的差异:
当 <&*0 时,有
巧11列2当心〇时,麟-gf u/g,:*) 1= 1J
1.2 S G L-S V M模型的优化算法
为有效解决多重组间数据的异步性优化问题,本文采用块坐标下降算法对固定组参数进行优化,将式(4)转化 为目标函数最小化问题:
m j n g(<:)(t») + ^<D(4)(®) = Q[k\c b)+A(1~a)Jp^\\〇)\\2+
(i〇)
式(i〇)中的参数a为面向组内及组间数据的惩罚因 子,当其取值分别为〇、1时,S G L惩罚函数结果均与不同 组间数据结果保持一致。

优化算法的前置条件在于整组 参数的零担情况进行判断,即:
⑴若存在^/^^^^七^此时需要基于
块坐标下降算法求解单个组内/组间变量的最小值,有:
E e w j^> Q(k)[w(P,w(j}x,wr m/*5!,...,+
(2)当/i= 0时,可推导出c= 0,且% = 0 ;当/i>0时,若此时有r=0,则
式(11)的解:
^+y-x
h
i f c>$+y
0 i/\c\<^+y
-f-y-
h
i f c<-i-y
c-\-s i n gn(^-c)^+hWj+ y
w;
K
且$即为
d o
基于前两类假设可得到包含外循环与内循环的块坐 标下降算法。

其中外循环的坐标梯度下降算法的计算步骤如下:
第一步:界定初始变量《。

;第二步:令g=A/((y。

;) =_丄 2] 26,.a,.(l-6,a,+w〇),贝丨J可得到 //=互,0(«)= ”吨)"
(分一/^y w士〇///〇>;第三步:得到新的关于《的计量
函数:argmin0(w)+A O(w)。

则可得到步长t的取值范w e ip
围。

重复第二步至第三步直至收获较好的收敛效果。

内循环的坐标梯度下降算法的计算步骤如下:
第一步:令;第二步:对初始梯度向量进行数值更新为/>+ [//卜-M v f1;第三步:若此时有
,且(W(<>= a r g m i a g*(^);第四步:若、夕,w e ivk
此时存在</>,A2)之沉义丨,w*= 0,则可得到:-djgrmQ+乂〇'
.(*)重复第二步至第四步直到取得收敛结果。

1.3序参量和对偶变量选择
序参量和对偶变量是支持向量机模型求解的重要支 撑|21,基于稀疏组Lasso支持向量机模型的序参量主要为1 与a ,与之相对应的对偶变量主要为1-A与1-«。

从前
统计与决策2019年第23期.总第539期 63
(方法应用1
人的研究成果来看,若期望稀疏组惩罚函数具有较为显著 的组间变量选择性能,则令a~-00 ;反之,则令《~1。

为 降低异质组变量中的噪声干扰,本文采用线压缩方法来针 对性地选择序参量与对偶变量。

首先求得序参量>1与《,通过计算与,以及
与,进而得到包含若干训练集的训练模型。

并对 上述组集进行Jt/C均值处理,可以得到与
的取值。

其中H P对应A,对应a。

随之可求得 与序参量相对应的对偶变量。

计算步骤如下:
(1) 求得又腿=in中>〇|必⑷=〇}= inf{A>0[/t= 1,...,m}= .r^iax|inf{/l>0 >S(v/(0)(*)),/lfl}}。

(2) 假设最小值A-,采用线压缩方法对取值
区间中的数百个参数进行变量遴选。

将训练集随机拆分 四组,对其中的三组进行训练模拟,可得到的均值,通过求得A相对应的各个最优的解集,可得到与 dt/C均值相对应的极值解集,随之求得模型的序参量及 对偶变量。

2实证
2.1研究样本与经费预算困境指标的遴选
考虑到应用基于稀疏组Lasso支持向量机的一个重 要前置条件便是对参试样本的“生存时间”进行界定[3]。


此本文采用国家审计署对我国级司法机构财务审计报告 中的评级结果作为经费预算困境的界定标志。

对于评级 结果处于良好等级以下的样本观测终点设定为2013年;对于评级结果处于良好等级之上的样本观测终点设定为 2018年,数据频率为年度。

采用司法部门提前两年(7-2)的经费预算数据,以2009—2018年接受国家审计署 经费预算审计的各级司法机关为样本基础,选取168个司 法部门作为参试样本主体,并选取1098家截至2018年12 月31日获得财务审计良好等级以上的司法部门作为删失 数据。

为考察我国司法经费预算困境的整体表现,首先对 其进行基于稀疏组Lasso惩罚函数的非参数分析;其次采 用1:2配对的方式建立支持性向量机模型。

为选取能够反映司法经费预算实际运行情况的预测 指标,本文采用了“初选+复选”的方法来遴选本文的解释 变量。

考虑到支持向量机方法无法进行变量的自动选择'
因此在初步筛选指标后,利用S P统计检验手段遴选出具 有显著性程度的指标。

结合以往的研究文献,确定了十二 类预测指标。

具体变量说明如表1所示。

2.2描述性统计与全样本下的S G L-S V M模型
2.2_1描述性统计分析
年度经费预算偏差率定义为年度预算执行审计等级 较低的司法机构频数/参试样本总量。

从图1和图2可见,2016年、2017年我国司法部门表现出较低的经费预算审计 等级发展态势。

实际上,自我国于2016年推进《深化经费预表1具体变置说明
变量变量说明指标含义
XI经费预算编制机构设置是否具备权责明确、边界清晰的组织架构
X2参与经费预算的工作人员司法部门财政人员规模、专业技术水平、素质学历
X3经费预算编制技术手段是否能够完全贯彻落实“全面预算管理制度”
X4经费预算编制意识司法部门所属的成员单位对经费预算的重视
程度
X5经费预算编制前期准备工作预算编制规划前的培训工作、数据资料工作等
X6领导层面的重视程度部门主管领导以及财务管理领导对工作的重
视程度
X7经费预算执行的是否能够实现经费预算支出的预算编制内容信息化水平与金额等方面的自动化管控
X8经费预算绩效评价体系的
科学化程度
司法部门对经费预算执行情况的评价
X9经费预算支出编制的科学司法部门经费预算支出内容及预算编制流程化程度的完备性程度
X10预算全流程的监督机制对内监督与对外监督机制
XII经费预算的公开透明度经费预算是否能够做到及时公开、内容完整
X12全员参与意识强度部门员工参与经费预算的积极性
算改革总体方案》以来,我国各企事业单位囿于经费预算管 理转型期的短板,已经呈现出较高的财务违约与预算控制 失灵问题。

可见,经费预算困境不仅有先兆,而且可预测。

执行等级的频数
其次对上文所遴选的12个经费预算困境预测指标进 行描述性统计分析。

结果如表2所示。

表2 变置描述性统计
变量最小值四分位数下限均值四分位数上限最大值标准差XI0.4840.9160.884 1.273 1.2730.562 X20.5120.3790.5950.7260.726 1.084 X30.0090.0050.0220.0280.8220.156 X40.1690.0170.2170.2640.0310.025 X50.3570.169 2.1980.1120.0920.032 X60.0880.358 1.042 1.1230.4680.071 X70.1190.473 1.884 2.6170.2640.085 X80.008 4.342 1.162 1.539 4.0350.078 X90.086 1.0580.0090.1788.464 2.594
X100.339 1.2150.1750.337 2.516 1.005
XII0.2290.0090.0290.0330.1870.772
X120.0430.1480.0360.4860.3370.226注:下划线数字代表具有较大差异性的变量。

在表2中,分别对财务审计评级结果处于良好以上及 良好以下的参试样本进行描述性统计分析,以区分不同审 计评级结果下的参试样本彼此间差异化的协变量统计特 征。

表2中下划线数字指代较差评级结果下的参试样本 相对于较好评级结果的参试样本拥有更大的协变量统计 值。

除了领导层面的重视程度(X6)下两类参试样本对应 的协变量数值异化程度较小之外,其余预测指标下的参试
64
统计与决策2019年第23期•总第539期
法应用1
样本的数值相差较大。

就标准差而言,较差评级结果下参
试样本的协变量最大值相对较高。

这意味着本文所遴选
的经费预算困境预警指标对拥有较差财务审计评级结果
的参试样本具有实践意义。

2.2.2全样本下的S G L-S V M模型
首先,对本文所遴选的1098家获得较好财务审计评
价等级参试样本和168个获得良好以下评级结果的参试
样本进行参数显著性检验。

基于嵌人H w e r e g函数包的
m'/r n w统计软件,发现本文所遴选的12个协变量均通过
了参数显著性检验,结果如表3所示。

表3 全样本下的S G L-S V M模型分析
变量r s«p P T ks P P
XI7.720.0650.9970.688 2.0750.528
X2 3.910.0530.9580.0570.8020.067
X3 3.420.056 1.2570.065 1.4830.056
X4 6.990.0550.0510.725 3.6350.595
X5 3.350.0590.9260.055 2.8150.071
X6 4.520.061 1.2240.055 2.9140.058
X7 5.710.0520.6750.056 3.8110.061
X8 3.090.0570.9180.0527.5250.057
X9 4.420.056 1.2520.0587.5710.062
X10 5.730.059 1.3310.058 2.5480.058
XII 3.090.0680.7720.059 3.8160.058
X12 3.810.0520.0840.061 2.1690.068
表3中的r sup统计量用来检验协变量对经费预算困 境的影响强度。

从表3中的P值统计结果能够发现,12个 变量在5%显著性水平下通过检验,表明上述12个变量对 于司法经费预算困境具有显著影响。

2.2.3各预测变量的时变性检验
表3中的变量匕与用来检验参数的时变性特征。

从统计结果来看,X6、X4、X8、X11的匕与7^的P 值检验水平高于0.05(分别为0.662与0.598),其余的预测 变量的P值检验水平均位于0.05之下。

这表明除上述四类 指标对于经费预算困境的影响是常数之外,其余指标均表 现出强时变性的特点。

如图3所示,除领导层面的重视程 度X6所对应的时变量检验曲线并未表现出与时间推移彼 此间正向关联的趋势之外,其余11个变量的时变量检验曲 线均表现出显著的趋势性特征,表明基于稀疏组Lasso支 持向量机模型能够较好地对司法经费预算困境进行预测。

从图3亦能够发现各预测变量对司法经费预算困境 的影响方向:上述具有显著时变性特征的11类变量的加 惩罚函数的回归系数均表现出显著递减的发展态势,意味 着除变量X6之外,其余预测变量的取值越大,则参试样本 陷人司法经费预算困境的概率越低。

2.3预测变量的稳健性分析
考虑到样本数量可能会影响预测变量对参试样本陷 人司法经费预算困境的解释效度,有必要对预测变量进行 稳健性分析。

以多元统计软件中的函数包来检验预测变量对司法经费预算困境预测的精准度是否会受 到样本规模的影响。

表4为针对各个预测变量的半参数 S G L-S V M分析。

发现 X1、X4、X5、X7、X8、X9、X10、X11、
图3各预测变最的时变性检验结果
X12在5%的显著性水平上具有较高的稳健性特征,表明这 些预测变量对于参试样本司法经费预算困境的解释效度 较为稳定。

表4各个预测变董的半参数S G L-S V M分析
变量参数估计标准差Robust SE统计量P值
XI0.0030.0040.004 1.3000.072
X20.0070.0040.005 2.0710.003
X30.0010.0000.000 2.1260.017
X40.0030.0030.003 1.3350.058
X50.0070.0040.004 4.2560.098
X60.0140.0120.0040.3370.042
X70.0090.0050.0220.2250.067
X80.0030.0030.002 3.0520.079
X90.0040.0140.016 1.3250.051
X100.0080.0160.008 2.2280.079
X ll0.0150.0050.056 1.3120.054
X120.0190.0060.0040.3080.078
注:加下划线数字代表P值统计结果在0.05的水平上显著。

为进一步检验S G L-S V M模型与上述八类变量间的拟 合情况,采用W a U统计量检验方法对支持向量机模型进 行参数估计,结果如表5所示,预测变量乂4、乂8、乂11的常 数参数估计值在5%的显著性水平下较为显著。

从组织运 营稳定性与三公经费公开的透明度情况来看,变量X I、乂5、乂7、乂9、乂10、\12与模型间的拟合状态呈现出负向相 关的关系,表明这六类变量与预测模型间的拟合程度较 低。

因此此类变量表现出更为敏感的时变性特征,故与 S G L-S V M模型彼此间呈现出脱钩状态。

表5 S G L—S V M模型的W ald统计检验
变量r s«p P T ks P P
XI 6.780.000 2.0000.408 1.0640.417
X4 3.940.0590.6950.636 2.5240.588
X5 6.370.0000.2260.039 2.7040.024
X7 3.430.032 4.4410.048 2.7080.038
X8 3.670.062 3.5510.063 6.4140.062
X9 4.250.022 1.7420.037 6.4620.041
X10 5.180.005 3.0560.042 1.4370.047
X ll 6.740.066 1.7850.062 2.7050.072
X127.080.063 2.6250.009 1.0580.028
注:加下划线数字代表数值对应变量通过wald统计检验。

为进一步明晰X4、X8、X11三类变量对于司法经费预 算困境的影响方向,本文构建了这三类变量的累积回归函 数图形,如下页图4所示。

从图4可知,三类变量的累积回
统计与决策2019年第23期•总第539期
65
归系数在远期均表现出显著递减趋势。

这意味着三类变 量对于司法经费预算困境具有负向预测相关的关联关系。

图4 X 4、X 8、X 11三类变量的累积回归系数
综上可知,编制意识信息化水平、预算监督机制、预算 意识、领导层重视是稳健指标,其对司法经费预算困境具 有恒定且常数的影响。

其余几类指标对于经费预算困境的
影响均具有时变性特征。

且预算编制准备越扎实、预算绩 效评价体系越完备、预算公开透明度越高,则司法经费预算 陷人困境的可能性越小。

因此为较好降低司法经费预算困 境发生概率,应重点针对预测变量X 4、X 8、X 11进行控制。

3
结论与建议
为降低具有自然分组结构属性数据的统计偏误,本文 在经典支持向量机模型中引人带稀疏组Lasso 惩罚函数的 修正因子,使修正后的模型应用于我国司法经费预算困境 预测中,分析结果表明:(1 )S G L -S V M 模型弥补了经典支 持向量机模型“整组进、整组出”的单因素缺陷,不仅在具 有稀疏组数据结构的问题中具有优异的表现,而且可实现 同步遴选重要组结构与组内变量之功能。

(2)本文所提出 的快速双层坐标下降算法更为适合组内稀疏且高维数据 变量,能够实现在提高变量遴选精度之余增强模型的预测 效度。

(3)将S G L -S V M 模型应用于司法经费预算困境预测 中,发现了三类具有恒定影响的指标。

相较于其他回归分
析模型的先进之处在于,S G L -S V M 模型对预测变量的常 数项与时变性特征进行了分层分类的描述,剔除了影响模 型精度的噪声变量,取得了较好的样本外预测效果。

因此,基于实证结果,提出如下建议:
第一,针对非线性数据及高维数据进行去噪降维与平 稳化分解是提高模型预测精度的一项重要前置条件,应缩 短预测模型的训练时间,在组变量选择的基础上进一步精
简模型,压缩预测模型的训练时间,结合待识别目标特征
与训练样本间的度量距离赋予每个训练样本以差异化惩 罚函数,通过引人符合高维数据特征的惩罚参数来平衡模 型的复杂性和机器学习能力;第二,考虑S G L -S V M 模型运 行过程中所伴生的端点效应,依据数据自身的跨组尺度特 征进行经验模态分解,将S G L -S V M 模型的数据统计过程 延长至预测学习和延拓两个阶段,降低训练样本的预测误 差。

基于稀疏组Lasso 支持向量机模型预测数据的误差为 指标建立符合个体适应度的参数集,通过选择、交叉、变异 等回归预测统计方法来解决端点效应问题;第三,为有效 降低司法经费预算困境的发生概率,应重点针对X 4、X 8、
X I I 三类变量进行控制。

参考文献:
[1] 刘征.基于支持向量机分位数回归的部分变系数动态模型的估计 [J].统计与管理,2016,(12).
[2] 孔波.基于最小二乘法的无监督支持向量机[J ].河南教育学院学报 (自然科学板),2014,(12).
[3] 史巧现基于蚁群和支持向量机的microRNA 预测方法[J ].河北工
业大学学报,2015,(12).
[4] SGL-SVM 方法研究及其在财务困境预测中的应用[J].统计研究, 2018,(8).
(责任编辑/亦民)
Prediction o f Budget D ilem m a Based on Sparse Lasso Penalty
Function Support Vector M achine
Sun Yunshan 1, Liu Zhaode 2
(1 .Law School , South China University of Technology , Guangzhou 511442, China ;
2.Faculty of Economics , Guangdong University of Finance and Economics , Guangzhou 510320, China )
Abstract: Based on the support vector machine model , t h i s paper puts forward a modified model of the Lasso penalty func ­
tion introduced into the sparse group , and designs a double—layer coordinate descent algorithm which can enhance the prediction accuracy and the prediction effect , so as to explore the new characteristics of the judicial budget under the overall budget concept . The paper also takes the open data on final expenditures accounts of the "three—type consumption by public funds " of the judicial departments from 2014 to 2018 as an example for study , which i s shown as follows : 1) The sparse group Lasso support vector m a ­chine (S G L -S V M ) method can significandy enhance the selection accuracy of data variables and group numbers ; 2) The integrated vector method designed by combining the alienation degree of component features can not only compress the training time of net - work greatly , but also approach achieving the optimal out -of-sample prediction effect ; 3) S G L -S V M model makes up for the statis - tical limitation of single-dimension support vector machine (S V M ) algorithm in which the whole group i s in and out of the whole group and the inter-group structure i s ignored , which can not only effectively reflect the time-varying characteristics of the ob ­served variables , but also accurately predict the dynamic situation of the predicaments of judicial budget .
Key words: support vector machine ; sparse group Lasso ; financial budgetary dilemma
66
统计与决策2019年第23期•总第539期。

相关文档
最新文档