车险客户流失分析方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

车险客户流失分析预测

通过建立一个关于保险客户流失的预测模型,可以分析出主要有哪些因素导致他们想要退保并可以有针对性的挽留那些有退保倾向的客户,进而节约开支。客户流失预测考虑的主要因素如下:

(1)客户购买频率:客户购买保单的频率越高,说明流失率低;反之流失率高;

(2)客户付费历史:交纳保费方式,有没有过欠费历史,欠费多久才补缴保费等对客户流失都具有影响;

(3)客户自然属性:教育程度,职业,家庭人口,收入等等;

(4)客户工作的变化:包括工作性质的变化,工资的变化,职位的变化等等;

(5)客户理赔处理情况:理赔的迅速、准确就会降低客户流失率,反之会提高客户流失率;

(6)竞争对手促销策略:如果竞争对手采取新的促销策略,那么就会提高客户流失率。

利用数据挖掘中的分类方法建立客户流失分类预测模型对潜在流失客户进行分析预测。分类方法是一种有监督的学习方法,它通过在客户样本数据集上建立预测模型,得到区分客户是否具有流失倾向的预测模型,预测客户未来的流失倾向。

该类研究主要应用了以下分类方法:支持向量机、人工神经网络、Logistic回归、贝叶斯网络、决策树等。

决策树模型

决策树模型

保险客户流失预测考虑主要因素可以选择决策树的方法进行客户流失的预测,选择这种方法的原因是因为这种方法得出的模型可以很容易的被人们理解。尽管其他的一些数据挖掘技术,比如神经网络也可以产生很好的预测模型,但是这些模型很难理解。当用这些模型作预测分析的时候,很难对客户流失原因有深入的了解,更得不到任何对付客户流失的任何线索。如果附加其他算法,过程会比较复杂。

在客户流失趋势的预测上,利用信息论中的信息增益赖寻找数据库中具有最大信息量的字段,作为决策树的一个节点,再根据字段的不同取值建立树的分支;再每个分支子集中重复建立树的下算法是相同的,不过在运用的场景上不同而已。通过决策树预测,可以发现特征客户群的流失比例,从而对具有相似特征的客户预测其流失趋势。为了挽留那些客户,保险公司可以有针对性的采取措施,保护自己的客户,有效的防止客户流失。基本原理是这样的,数据挖掘工具会先根据保险公司客户的基本资料进行划分,产生若干细分群,每个细分群都会有一些特征,比如客户持有的保单类型、客户教育背景等等。根据历史记录,某个细分群中,会有三个客户数。一个是该群中的客户总数T,一个是现在还活动的客户数A,最后一个是已经离去的客户数L。那么该群的客户流失率就可以用I=L/A来计算获得。

这样通过客户特征将他们分属于不同的决策树树叶中,就可以估算出他们的流失率,即流失趋势,同时,可以找出关于客户流失的主要特征。

C4.5算法的决策树构造和剪枝方法

此方法分为了两个部分:第一部分是决策树的建造过程,第二部分是决策树的剪枝过程。

第一部分:决策树构建:首先将样本数据集作为决策树的根节点,计算当前节点中样本数据集的每个属性的信息增益比率,选择所有属性中具有最大信息增益的属性,作为当前节点的最佳分裂属性。然后为被选取的最佳分裂属性的每个值创建一个分支,并将样本数据集划分成若干个子集,为每个子集创建一个新的节点。递归的执行以上步骤,直到最后所有的节点符合以下三个终止条件之一:

1) 每个节点的样本集合中所有的属性都属于同一类,并以该类作为该节点的类标签。

设定该节点为叶节点

2) 每个节点的所有样本的剩余属性取值完全相同,但所属类别却不同。选取属性属于

最多的类作为该节点的类标签,并设定其为叶节点。

3) 每个节点的样本集合中所有的属性都已将处理完毕。选取节点中最多样本所属于的

类作为该节点的类标签,并设其为叶节点。

第二部分:C4.5算法采用的决策树剪枝方法是EBP 剪枝算法,该算法通过比较决策树剪枝前和剪枝后的期望错误样本率的估计来判断是否进行剪枝。从概率的角度,计算出关于错误样本率的一个置信区间[L ]CF CF U ,其中,CF 为该区间的置信水平。CF 的值可以用来控制剪枝的程度,CF 设定的越高,当前错误样本率越易被接受,即若CF=1,则不需要进行剪枝,而CF 值越低则表明有更多的错误样本,更需要对决策树剪枝。(C4.5算法默认CF 值为0.25)

Logistic 回归分析

Logistic 回归方法是一种描述多种独立变量(只有两种结果)之间关系的模型逼近法,其主要目的是为了进行分类,同时预估事件发生的概率,它可以考虑多个属性变量在识别将要流失客户方面的集成贡献。应用Logistic 回归方法,可以深入理解客户流失的原因,分析哪些因素对于客户流失有影响,从而得到如何处理客户流失的线索。

Logistic 回归模型的因变量或结果变量是分类的而不是连续的,是由分析者构造的,正在被模拟的“感兴趣的事件”。对于一个给定的客户,我们设个体选择方案Y=1表示客户正常使用,Y=0表示客户流失:用X=(X1,X2,X3,….Xn)表示可以在用户消费数据库中得到的描述性变量,那么我们所建立的逻辑回归模型的数学表达式为:

1122331ln(P(Y 1|X)/P(Y 0|X))...n

n n i i F X X X X X αββββαβ=====+++++=+∑

(1)

1

1exp{}

(Y 1|X)1exp{}

n

i i i n i i i X P X αβαβ==+===++∑∑ (2)

11

(Y 0|X)1exp{}

n i i i P X αβ====++∑

式(1)就是常用的统计指标指数比的对数,i X 是自变量,代表参与逻辑回归分析的各项描述性字段;i β是逻辑回归后各个自变量的系数,其意义是:当因素i X 每改变一个测量单位时所引起的对数自然该变量;α代表截距。式(2)表示某类客户的流失概率,其中P (Y=1|X )表示客户正常使用的概率,P (Y=0|X )表示客户流失的概率。通过统计软件,得出α和i β的值,将i X 代入式(1),得出某类客户流失与否以及对其产生影响的关键变量。 生存分析法

“生存分析”原本是流行病学术语,用于理解、预测种群的死亡率。20 世纪50 年代开始,统计学家对工业产品可靠性问题的广泛研究,促使寿命数据分析在理论、方法和应用得到了迅速的发展。在市场营销活动中,顾客关系会经历建立(born )、持续(live )、最终破裂(die )的过程,分别对应生命体的诞生、生命持续、最终死亡过程。在这一框架下,死亡率(mortality )被定义为顾客的流失。比例风险回归模型(proportional hazard regression models )是最常用的一种生存分析技术,由Cox 于1972 首次提出。没有时间依赖共变量的基本模型可被写作:

0112233445566(t)(t)exp{}i i i i i i hi X X X X X X λββββββ=+++++

该模型意味着,对于个体i ,在时间t 时间事件发生的风险等于如下两个因子的乘积:

相关文档
最新文档