基于ARIMA的职工医疗保险基金收入预测
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Technology Application
技术应用
DCW
193
数字通信世界
2021.01
1 问题提出
根据十九大报告所指出的要全面建成可持续的多层次的社会保障体系,城镇职工医疗保险是组成社会医疗保障体系的关键一部分,其可持续性受到了各界审视目光。
城镇职工医疗保险基金收入是其可持续发展的重要基础,基准把握预测基金收入对其稳定的、可持续性的发展和监管有着举足轻重的作用。
2017年统计结果显示,年龄在65岁及以上人口占我国总人口11.39%。
人口老龄化现象日趋严峻,既阻碍了经济发展,又促使城镇职工医保基金增长率显著上升。
因此,大量专家学者对于这一理念展开了丰富的探究。
在2018年,幸超等人[2]发现延迟退休年龄后,推迟了城镇职工基本医保统筹基金累计赤字开始出现的时点,故得出改善城镇职工基本医保基金的财务运行状况可通过延迟退休年龄来实现。
邓大松[3]、史若丁等人发现更有效的方案为增加缴费率;由于退休人员的医护费用需医保基金支付。
汪伟[4]等人通过实证研究得出我国人口老龄化程度加深的主要原因之一是1978年颁布实施的计划生育政策。
还有部分学者指出改善城镇职工医保基金的收支状况,要通过调整生育政策,拉长人口红利窗口期,真正做到缓解人口老龄化进程。
本文尝试运用某省职工医疗保险基金收入数据来构建ARIMA 预测方式,同时根据其所构建的模型具体运行结果来探究该种预测方式的普适性。
2 数据来源及方法
2.1 数据来源
本文采用某省职工医疗保险基金收入,数据训练选取时间区间为2017年1月至2020年1月,共计37个月基金收入数据,并使用2019年9月-2020年1月数据用来检验所建模型的预测效果。
2.2 方法
2.2.1 分析工具
本实验采用Python 语言进行数据分析及模型建立,其中使用pandas 包进行进一步的分析与挖掘。
Pandas 是python 语言中用于解决数据集成及数据分析功能的强大的工具包,其具有数据处理、统计分析、建模分析、预测和模拟等功能。
Pandas 同时封装包含了众多数据挖掘算法模型,大大增强了其数据挖掘的工作效率。
同时本实验还运用matplotlib 包和seaborn 包,来用于构建本研究中出现的统计绘图。
2.2.2 A RIMA 模型
ARMA 模型称为自回归模型及滑动平均模型的组合,其数学公式表达为:
式中:
x 为表示该模型的不同阶数(i =1,2,…,x )即此模型的应赋值的关键参数;
εt 表达为残差;h t 是一个平稳的时间序列。
2.2.3 A RIMA 建模步骤
ARIMA 的建模主要分为以下几个部分:(1)ARIMA 模型的主要要求为该序列的平稳性,随意第一步应对时间序列进行平稳化变化;(2)ARIMA 模型是使用ACF 和PACF 两个指标,来对模型进行调整和参数设定;(3)模型需要对其进行对应的检验,以确定其普适性,也就是对该模型进行白噪声检验;(4)使用该模型进行时间周期较短的预测。
3 结果
3.1 职工医疗保险基金收入情况
2017年第1个月-2020年第1个月某省职工医疗保险基金收入情况呈现12个月的周期性波动。
基于ARIMA 的职工医疗保险基金收入预测
董 毅
(山西云时代技术有限公司,山西 太原 030006)
摘要:城镇职工医疗保险基金是整个医疗保险体系正常运转的重要部分,根据十九大报告指出的完善城镇职工基本医疗保险制度,精准地对城镇职工医疗保险基金收入情况预测是对基金监管及改革的重要依据。
基于ARIMA 模型,运用时间序列的分析模型预测城镇职工医疗保险基金收入,探讨ARIMA 模型对某省职工医疗保险基金收入预测的可行性。
基于分析提出完善城镇职工医疗保险制度的建议,为城镇职工医疗保险制度可持续发展提供帮助。
关键词:ARIMA 模型;职工医保基金;预测doi :10.3969/J.ISSN.1672-7274.2021.01.087中图分类号:F842.66 文献标示码:A 文章编码:1672-7274(2020)01-0193-02
作者简介: 董 毅(1994-),男,汉族,山西太原人,工程师,硕士,研究方向为数据挖掘。
应用
Technology Application
I G I T C W 技术
194DIGITCW
2021.01
图1 2017.01-2020.01某省职工医疗保险基金收入情况
3.2 模型的识别与建立
若对某个时间序列进行建模,那么需对时间序列进行特点的捕捉,通常来讲,针对时间序列,可将其分为趋势性、季节性和随机性。
对应的模型都应按照其相应要求,差分整合移动平均自回归模型有一个重要的运行条件,即时间序列的稳定性,其应匹配两个要求:(1)对于任意时间点t ,整体均值应为不变值。
(2)对于任意时间点t 和s ,其皮尔森相关指数只应与其单位时间间隔t-s 有影响,不应与其所处起点产生影响。
针对特殊并不平稳的时间序列,因对其进行相应的平稳化处理,而体现其平稳性的指标为自相关系数如图
二所示。
图2 自相关偏相关系数图
可由图2看出,2017年1月至2019年8月基金指数变化并不是相对稳定的,针对这种非平稳但存在一定趋势的序列,本研究通过d 阶差分的方式来完成。
即:
Zt =▽dYt (t ﹥d )
使用Pmdarima 包来挑选最优模型(p ,d ,q )值,使用AIC 作为模型判别的标准指标,最终从12种不同的搭配值挑选出最有模型搭配值,ARIMA (0,1,0)*(2,1,0)作为最后模型挑选值。
3.3 模型确定及预测
在调整完模型所含超参数之后,应对模型进行评判
体系的建立,这里我们采用残差序列的检验方法进行检验,即评价体系体现为该模型白噪声序列均值为0,方差不变。
若残差数列不为白噪声数列,代表模型应该进一步进行修改。
用所得到的模型得到的预测数值、拟合数值与真实数值下表。
时间真实值预测值2019-094379629344365680372019-104354763684407276172019-114422376414448871962019-124471980354490467752020-01
463974534
453206354
观察真实值与预测之间误差,并可观察得出误差较小,相对误差较小,可以看出模型具有较好的预测能力及一定的普适性。
4 结束语
ARIMA 模型是近些年使用较为广泛且普适性较强的时间预测模型,本研究建立的ARIMA 模型对某省职工医疗保险基金收入进行预测,其结果相对来说较为准确,具有一定的普适性,其结果造成误差的原因有:模型的设立为运用时间惯性来进行,未考虑到其余影响因素对其的影响,对基金收入影响因素处理能力有限[8]。
同时,我们可以从该模型呈现及预测结果发现以下结论:
(1)职工医保基金收入呈现以年为单位的周期性变化,且为较为稳定的时间序列。
(2)职工医保基金收入增长趋势较为平稳,但近一年增长速度有所略微收紧。
(3)职工医保基金收入往往会在次年一月有一个陡增的现象,究其原因本研究认为是医保收缴方式所致的。
从基金收入的角度来看,该模型是否取得研究进展并不应将数据的误差作为惟一的衡量指标,而应将其趋势变化的一致性作为重要的评判标准,因为其可对基金缺口的是否出现或暴发提出预警。
参考文献
[1] C orbo V . Policy Challenges of Population Aging and Pension Systems in Latin America [R].Global Demographic Change :Economic Impacts and Policy Challenges ,2004.
[2] 幸超.延迟退休对城镇职工医保基金收支平衡的影响 ——基于统筹账户的精算模型模拟分析[J].湖南农业大学学报(社会科学版),2018,19(3):84-91.
[3] 邓大松,杨红燕.老龄化趋势下基本医保筹资费率测算[J].财经研究,2003,29(12):39-44.
[4] 汪伟.计划生育政策的储蓄与增长效应:理论与中国 的经验分析[J].经济研究,2010(10):63-77.
[5] 吴孟泉,赵凯.基于ARIMA 模型的2009年山东省手足口病疫情分析及预测[J].鲁东大学学报:自然科学版,2011(27).
[6] 彭雯君.数据挖掘技术对医疗保险费用控制中的作用解析[J]. 现代经济信息,2016(24):371.。