基于k-means聚类算法对车险续保概率的研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
这样包含随机截距项的模型就是最简单的混随机效应的因变量的期望值通过连接第4期基于kmeans聚类算法对车险续保概率的研究15函数与线性预测指标连接起来广义线性混合效应模型的连接函数与广义线性模型相同但是前者的因变量分布是在给定随机效应的条件分布因此随机误差项可以表示为阴e血i曲訂经过上述分析将几个从人因数的影响因数进行了降序处理据此建立了广义线性混合模型z
考虑的问题•对于客户极易流失的保险业,构建 精准的客户画像是十分必要的.
目前国内已经有很多关于车险续保的研究. 唐俊虎等(2016)从车险客户续保价值分析入手 对车险客户进行细分,对续保流程进行再造研 究,构建用户、场景、产品、体验一体化的新续保 流程⑴.杨江源(2015)从保险公司自身的建设, 内部管理为切入点,对如何在保险市场中赢得客 户抓住机遇给出建议罗萍等(2015)对保险 公司目前在续保管理中存在的客户个人信息采 集、客户续保服务需求、续保过程管理、与销售渠 道关系平衡等进行探究,提岀车险续保工作的规 则化自动化管理⑶•林翔等(2014)分析了车险 续保的意义和影响车险续保概率高低的原因,并 提出了提高保险公司车险续保率的对策⑷.倪琪 等(2011)运用数据拟合和逐步回归,建立续保率 影响因素模型,讨论影响车险续保概率的各个因 素的比重,并指出目标客户和所有客户影响因素 的异同⑸•王鹏(2018)从我国车险行业的竞争
1对客户画像的数据建模分析
1.1数据的来源与假设 该文数据来源于2019年第十二届“认证杯”
数学建模网络挑战赛C题.为了便于建模和研 究,提出以下假设:(1)没有发生客户骗保的情况; (2)风险类别划分是有一定的依据的,没有客户主 观因素;⑶客户购买保险是完全自主选择的,没 有强制行为;(4)工程车辆、公交、家庭用车的投保 选择相同;(5)保险业已经建立了了完善的行业规 则. 1.2研究思路
图1客户画像评价指标体系
1.3研究方法 (1) 客户出险频率指标数据建模 客户出险频率指标即在过去的一个统计周
期内,客户出险各个次数占总出险次数的比率. 为了更好的描述客户出险指标,引入了客户活跃 度,并对该列数据进行了查找替换.T表示活跃 度,g代表客户出险次数,p代表区间平均客户出 险次数,活跃度计算公式:T = q/p.
首先进行数据画像指标体系⑼的构建,经过 对数据的观察和分析,综合选定了客户人口学统 计特征,客户出险频次,客户风险等级,客户贡献 度为客户画像衡量指标,构建了客户评价指标体 系如图1所示•通过建立用户描述性标签,对用 户进行基本信息分析,获得高度提炼的用户行为 特征.
否
数的人都处于C等级,一方面这些风险等级可能 是客户自评,大多数人对自己未来行车是否发生 事故不太确定,且持有悲观态度.因此需要对其 进行进一步衡量,重新对其进行安全指标评估, 引入了安全系数S,综合考虑该风险因数以及过 去该客户发生事故的经历• g代表客户出险次数, h代表车辆价格,t代表车辆已使用年数,安全系 数的计算公式:S = h-t-^ q-x.
第35卷 第4期
哈尔滨师范大学自然科学学报 NATURAL SCIENCES JOURNAL OF HARBIN NORMAL UNIVERSITY
Vol. 35, No. 4 2019
基于K - MEANS聚类算法对车险续保概率的研究
段寒冰,朱家明,马晓旭,方扶星
(安徽财经大学)
【摘要】针对车险续保概率,运用K - means聚类算法,混合因素分析法建立 了客户分群模型,广义线性混合模型,使用MATLAB,SPSS,Excel等软件进行处理 分析.研究得出车险客户的精准画像并给出了客户分析报告和相应的续保概率.总 结出了一套车险费率算法,为不同类型的客户量身定制了车险方案,以提高车险客 户的续保概率.
【关键词】K - means聚类算法;数据清洗;广义线性混合模型;费率厘定; SPASS
中图分类号:F842.634文献标识码:A文章编号:1000 - 5617(2019)04 - 0011 -06
0引言
近十年来,随着中国汽车销量大幅增长,企 业和个人对车险的需求不断增加,车险行业蓬勃 发展•但是保险企业为了吸引客户往往采取低价 竞争和打折的策略,并且汽车的维修费逐年增长 导致理赔金额增加,因此保险公司的利润逐渐下 降,甚至有些公司在亏本经营.由于车险的不合 理定价,车主们的需求也难以得到满足,车险行 业的变革迫在眉睫•车险的定价因素和车主的驾 驶行为密切相关,同样的车辆,如果驾驶员的驾 驶习惯和驾驶记录不好,驾驶员就要交更多的保 费•相反的,驾驶习惯较好的驾驶员将承担较少 的保费•并且还要把大数据引入车险业,通过信 息技术更好地分析客户需求,制定更合理的营销 策略.今几年互联网的发展十分迅速,而保险业 也随着互联网的普及化而迅猛推进•如何才能更 好地吸引顾客,服务顾客,留住顾客,增加客户粘 性与客户联系更加紧密,毫无疑问是每个行业要
(3)客户贡献额度指标数据建模 客户贡献额这个指标与客户选择的车险的 个数有关•有些客户同时购买了车损险、盗抢险 和车上人员险,但有的客户只买了一个或两个, 由此便会产生很大的差距•还有一点就是客户的 车型也是影响这一个指标的重要因素,不同车型 价格不同.而现阶段国家的车型价格与保险挂 钩,车辆价格越高其保险费也就越高.已给数据 中汽车价格区间在1. 8 ~ 550万.还有一项重要 影响因素,就是已决赔款,这个必须考虑在内•车 险收入再高,一旦客户岀现事故,保险公司就必 须要赔款,此时客户贡献额度便几乎为负.综合 考虑了这几项因素,引入了赔款因子,车价因子. 对数据进行了建模分析• W表示客户贡献额度,r 表示保险费严表示赔款因子M表示车价因子, 由此综合考虑了上述因子,得到了考虑三个因数 的客户贡献额度计算公式:
收稿日期:2019-03 -22 *国家自然科学基金项目(11601001);省级教研项目“大数据背景下学科竞赛对新经管人才创新能力培养研究”(2018jyxml305 )
12
哈尔滨师范大学自然科学学报
2019年第35卷
概况和费率市场化后的保险监管角度进行了研 究⑷•薛雨(2018)对我国车险费率市场化改革 的困境及发展方向进行了研究⑺.汪建明 (2017)对车险市场结构与费率市场化改革问题 进行了相关研究⑻.
(2) 客户风险等级指标数据建模 根据数据中的已知评定等级对其分析,大多
W = (1 -x) y
将上述指标向量化,比如根据客户交易频次 指标建模标准某客户的活跃度为也=1.23.
考虑的问题•对于客户极易流失的保险业,构建 精准的客户画像是十分必要的.
目前国内已经有很多关于车险续保的研究. 唐俊虎等(2016)从车险客户续保价值分析入手 对车险客户进行细分,对续保流程进行再造研 究,构建用户、场景、产品、体验一体化的新续保 流程⑴.杨江源(2015)从保险公司自身的建设, 内部管理为切入点,对如何在保险市场中赢得客 户抓住机遇给出建议罗萍等(2015)对保险 公司目前在续保管理中存在的客户个人信息采 集、客户续保服务需求、续保过程管理、与销售渠 道关系平衡等进行探究,提岀车险续保工作的规 则化自动化管理⑶•林翔等(2014)分析了车险 续保的意义和影响车险续保概率高低的原因,并 提出了提高保险公司车险续保率的对策⑷.倪琪 等(2011)运用数据拟合和逐步回归,建立续保率 影响因素模型,讨论影响车险续保概率的各个因 素的比重,并指出目标客户和所有客户影响因素 的异同⑸•王鹏(2018)从我国车险行业的竞争
1对客户画像的数据建模分析
1.1数据的来源与假设 该文数据来源于2019年第十二届“认证杯”
数学建模网络挑战赛C题.为了便于建模和研 究,提出以下假设:(1)没有发生客户骗保的情况; (2)风险类别划分是有一定的依据的,没有客户主 观因素;⑶客户购买保险是完全自主选择的,没 有强制行为;(4)工程车辆、公交、家庭用车的投保 选择相同;(5)保险业已经建立了了完善的行业规 则. 1.2研究思路
图1客户画像评价指标体系
1.3研究方法 (1) 客户出险频率指标数据建模 客户出险频率指标即在过去的一个统计周
期内,客户出险各个次数占总出险次数的比率. 为了更好的描述客户出险指标,引入了客户活跃 度,并对该列数据进行了查找替换.T表示活跃 度,g代表客户出险次数,p代表区间平均客户出 险次数,活跃度计算公式:T = q/p.
首先进行数据画像指标体系⑼的构建,经过 对数据的观察和分析,综合选定了客户人口学统 计特征,客户出险频次,客户风险等级,客户贡献 度为客户画像衡量指标,构建了客户评价指标体 系如图1所示•通过建立用户描述性标签,对用 户进行基本信息分析,获得高度提炼的用户行为 特征.
否
数的人都处于C等级,一方面这些风险等级可能 是客户自评,大多数人对自己未来行车是否发生 事故不太确定,且持有悲观态度.因此需要对其 进行进一步衡量,重新对其进行安全指标评估, 引入了安全系数S,综合考虑该风险因数以及过 去该客户发生事故的经历• g代表客户出险次数, h代表车辆价格,t代表车辆已使用年数,安全系 数的计算公式:S = h-t-^ q-x.
第35卷 第4期
哈尔滨师范大学自然科学学报 NATURAL SCIENCES JOURNAL OF HARBIN NORMAL UNIVERSITY
Vol. 35, No. 4 2019
基于K - MEANS聚类算法对车险续保概率的研究
段寒冰,朱家明,马晓旭,方扶星
(安徽财经大学)
【摘要】针对车险续保概率,运用K - means聚类算法,混合因素分析法建立 了客户分群模型,广义线性混合模型,使用MATLAB,SPSS,Excel等软件进行处理 分析.研究得出车险客户的精准画像并给出了客户分析报告和相应的续保概率.总 结出了一套车险费率算法,为不同类型的客户量身定制了车险方案,以提高车险客 户的续保概率.
【关键词】K - means聚类算法;数据清洗;广义线性混合模型;费率厘定; SPASS
中图分类号:F842.634文献标识码:A文章编号:1000 - 5617(2019)04 - 0011 -06
0引言
近十年来,随着中国汽车销量大幅增长,企 业和个人对车险的需求不断增加,车险行业蓬勃 发展•但是保险企业为了吸引客户往往采取低价 竞争和打折的策略,并且汽车的维修费逐年增长 导致理赔金额增加,因此保险公司的利润逐渐下 降,甚至有些公司在亏本经营.由于车险的不合 理定价,车主们的需求也难以得到满足,车险行 业的变革迫在眉睫•车险的定价因素和车主的驾 驶行为密切相关,同样的车辆,如果驾驶员的驾 驶习惯和驾驶记录不好,驾驶员就要交更多的保 费•相反的,驾驶习惯较好的驾驶员将承担较少 的保费•并且还要把大数据引入车险业,通过信 息技术更好地分析客户需求,制定更合理的营销 策略.今几年互联网的发展十分迅速,而保险业 也随着互联网的普及化而迅猛推进•如何才能更 好地吸引顾客,服务顾客,留住顾客,增加客户粘 性与客户联系更加紧密,毫无疑问是每个行业要
(3)客户贡献额度指标数据建模 客户贡献额这个指标与客户选择的车险的 个数有关•有些客户同时购买了车损险、盗抢险 和车上人员险,但有的客户只买了一个或两个, 由此便会产生很大的差距•还有一点就是客户的 车型也是影响这一个指标的重要因素,不同车型 价格不同.而现阶段国家的车型价格与保险挂 钩,车辆价格越高其保险费也就越高.已给数据 中汽车价格区间在1. 8 ~ 550万.还有一项重要 影响因素,就是已决赔款,这个必须考虑在内•车 险收入再高,一旦客户岀现事故,保险公司就必 须要赔款,此时客户贡献额度便几乎为负.综合 考虑了这几项因素,引入了赔款因子,车价因子. 对数据进行了建模分析• W表示客户贡献额度,r 表示保险费严表示赔款因子M表示车价因子, 由此综合考虑了上述因子,得到了考虑三个因数 的客户贡献额度计算公式:
收稿日期:2019-03 -22 *国家自然科学基金项目(11601001);省级教研项目“大数据背景下学科竞赛对新经管人才创新能力培养研究”(2018jyxml305 )
12
哈尔滨师范大学自然科学学报
2019年第35卷
概况和费率市场化后的保险监管角度进行了研 究⑷•薛雨(2018)对我国车险费率市场化改革 的困境及发展方向进行了研究⑺.汪建明 (2017)对车险市场结构与费率市场化改革问题 进行了相关研究⑻.
(2) 客户风险等级指标数据建模 根据数据中的已知评定等级对其分析,大多
W = (1 -x) y
将上述指标向量化,比如根据客户交易频次 指标建模标准某客户的活跃度为也=1.23.