预测模型运用简介

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

互联网大数据时代的到来，为保险业的改革和发展创造了难得的机遇，保险业是数据依赖型企业，精算师的工作也是建立在数据分析的基础上，近年来互联网大数据不仅为精算师提供了方便的分析工具，也在改变着现有的精算技能和方法。

数据量的增加及获取难度的降低，为“预测模型”的建立提供了保障。

传统精算技术碰上大数据时代，撞出了许多火花，预测模型也越来越多地为精算师所使用。

保险业正值供给侧改革，费率市场化为公司转型和结构调整创造了空间，科学运用预测模型，为公司实现销售创新、差异化定价和精准风险管理等提供了重要的技术支持。

一、预测模型的使用
传统的精算技术利用大数法则计算平均值，只能在静态环境下较低的维度来量化风险，很难充分地反映风险的复杂性，一旦未来环境变化因素变多，对结果的预测效果将会大打折扣。

而且对于一些具有高度相关性的数据缺乏甄别作用。

随着技术的发展，数据数量的增加以及获取难度的降低，目前精算师越来越多地采用预测模型的方法来分析结果，预测模型建模其实是一个多变量统计方法。

与传统精算方式相比，采用预测模型建模的方式有如下优势：
∙可以有效消除单变量所造成的偏差；
∙是一种能有效使用数据的方式；
∙得到的不仅仅是平均值，更是一个体现出不确定性的统计结果；
能更好的体现不同变量间的联系。

二、如何建立预测模型
预测模型一般先根据结果的需要收集原始数据，将尽可能多维度的数据收集起来，理解数据，清洗数据，并根据需要把数据变形或拓展。

挑选有用的数据作为自变量，然后再利用模型将因变量和自变量联系起来，常用的有广义线性模型（Generalized Linear Model），决策树模型（Classification and Regression Tree）等。

建立模型之后还需要通过如双向提升图，累计收益图，实际/预测之比等的不同方式评估模型，验证有效后执行，从而在今后利用自变量信息直接通过模型计算出需要的结果。

三、预测模型运用举例
（一）保证续保定期寿险退保率预测
保证续保定期寿险，一般以10年期，20年期为主，在10年或20年这段保费固定期内每年缴纳固定的保费，过了固定期后可以不经过核保直接保证续保，有的可以续保成另一个10年期或20年期保证续保定期寿险，有的可以续保成每年续保定期寿险（Annually Renewable Term，以下简称ART）。

这里以可续保成ART的10年期保证续保定期寿险为例，保费在第11个保单年度增加非常显著，在这个极端例子中，第11年的保费
相当于第10年的20倍。

实际上在过去几年里，保险公司给出的保费变化每年都在逐渐增加。

这种保险在保费固定期后面临了大面积的退保，但是决定退保率的因素是什么，开发此类产品应选择多少退保率作为定价的基准？这是精算师需要考虑的问题。

北美精算学会（SOA）在2009-2015年进行了一系列研究，通过预测模型计算了保证续保定期人寿保险在保费固定期过后的退保情况。

由于保费固定期过后，投保人不需要经过核保就可以选择续保成为ART，因此用户的逆选择效应比较明显，许多选择续保的人并不那么健康，续保人员的死亡率远比生命表的死亡率高，这样保险公司也
不得不不断提高保费变化；保费变化越高，逆选择效应越强，这样进入了一个恶性循环。

该退报率近年来一直有所增加，下面两幅图分别反映了2010年统计时和2014年统计时的退保率，可以发现2010年统计的第10个保单年度退保率为65.7%，2014年增加到69.9%。

而6-9年的退保率基本保持不变。

如果按照传统精算方法，开发新的定期寿险产品时，就会根据统计结果把第10年底的退保率设定为69.9%加上一定安全边际，但是根据保险各种因素的不同，退保率不完全相同，特别是在不同保费倍数的影响下，如下图所示，在保费倍数达到16倍时，退保率甚至达到了90%以上。

因此，更好的方法是进行预测模型建模，从收集到的数据中进行筛选，从对数据的理解角度寻找必要的因素，去除不相关因素，从统计角度寻找对结果拟合的最好的因素，并进行必要的数据变形、拓展。

2010年SOA尝试用GLM模型建模，连接函数为logit，假设误差服从二项分布下，最终拟合结果如下：
从结果可以看出拟合的结果与实际偏差很小，可以说这个模型还是不错的。

但是随着进一步的研究，SOA在2014年的报告中尝试了另外两个GLM模型，两个模型分别包含和不包含保费变化作为自变量，连接函数均为对数函数，假设误差服从泊松分布。

不包含保费变化的拟合结果如
下：
结果按照年龄段分类拟合的非常好。

包含保费变化的拟合结果如下：
如下图所示，得到的结果与实际非常符合，说明预测模型比较合理，对今后的结果有较强的预测性，为保险公司开发新的定期寿险提供了指导。

保险公司可以根据不同的保单信息推算出当前产品10年
后的退保率。

（二）交叉销售运用
美国某公司在2015年也发布了利用大数据建立预测模型进行交叉销售的报告，该公司同时拥有非寿险业务和寿险业务，目前非寿险业务客户数较多，寿险业务较少，想要增大业务量，公司决定向公司目前只拥有非寿险业务的客户推广寿险业务，这样比开发新客户更容易。

同时如果客户持有公司多款产品将更有利于提升客户黏度。

但如果直接随机选择客户进行推广可能会导致客户的反感，或者因为客户对产品需求不高而成效甚微。

实际上借由预测模型的方法能更有效率地完成这件事。

预测模型可以通过对公司中同时持有非寿险保单和寿险保单客户的信息进行整合，采用经济状况信息，医疗信息，保险信息，生活习惯和行为信息等，建立预测模型，寻找目前只持有非寿险保单者中具有同样特征的人，将其视为公司寿险业务的潜在客户，对这类客户进行寿险产品推销。

这里预测模型建模的难点在于数据的收集，因为公司对非寿险客户的收集的信息可能并不足以预测模型的建立，因此需要借助其他外部方式获取信息：包括通过大数据爬虫技术从社交网站直接获取公开信息，从行业平台获取或者从第三方生态系统获取等。

一旦有了充足的信息，就可以利用预测建模筛选出最优客户进行推广。

下图是收集的4大类信息分类。

把收集到的几十种自变量，利用GLM方法建立预测模型，拟合交叉销售的转化成功率及核保的结果。

其中关键自变量包括年龄，性别，交通违法情况，债务情况，汽车类型等等。

采用预测模型建模筛选出来的前10%最有可能的客户的转化成功率比直接随机推广的客户的转化成功率提高了2倍以上。

（如下图所示）
四、总结
通过以上两个例子我们可以看到预测模型为复杂变量的预测和保险公司交叉销售都提供了有利的分析工具。

预测模型作为一种大数
据时代热门的分析方式，可以充分地发挥大数据时代数据量大、关系复杂的特点，无论是处理连续变量还是离散变量都能达到较好的效果，更好地将数据联系起来相互解释说明，在不断变化的环境下预测出更完整的结果。

事实上预测模型在财产险中已经有了较为广泛的应用，比如商业车险定价模型大多都是预测模型，预测模型在寿险中的应用也在探索中逐渐提升。

在不久的将来它必将成为精算师手中分析数据的新的有效的工具，为公司完成销售创新，实现差异化定价，建立更好的风险管理起到显著的作用。