客户流失预测数据挖掘方法对比分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
客户流失预测数据挖掘方法对比分析
随着市场竞争的加剧,新技术的不断涌现,数据仓库、数据挖掘技术在客户关系管理的应用日益广泛和深入,其中客户行为分析、客户满意度评价、客户细分等是数据挖掘技术在客户关系管理的典型应用。近年来,客户挽留成为客户关系管理的重要内容,在诸多行业,保持高的客户挽留率对于公司利润的增长,超过公司规模、市场份额、单位成本等竞争因素的影响。学术界、企业界提出了以客户关系管理、关系营销为营销模式,以客户需求为核心价值,采用数据挖掘技术对客户流失行为进行分析建模,以期增强客户忠诚度、降低客户流失率。
1客户流失预测常用技术
客户流失分析与建模是应用数据挖掘技术新的应用。简言之,预测模型是从数据库中发现模式,用于对未来的预测。客户流失预测模型简单的说就是从客户数据仓库中提取一定量的训练样本,经过预处理后形成训练集,通过数据挖掘方法形成预测模型,通过预测模型对新样本进行分类,预测出客户是否具有流失可能性。
学术界开发、应用了基于数据挖掘方法与技术的客户流失预测模型,其中,最常用的有回归分析、决策树和神经网络。近两年,SVM,贝叶斯网络,粗糙集等也被用于客户流失预测建模,取得了不错的效果。
1.1回归分析
回归分析是一种广泛应用的预测技术,回归分析的目的是找出数值型变量间的依赖关系,并通过函数关系表现出来。回归分析的预测效果仅仅依赖于预测的变量与其他变量的关系,即模型的精确度取决于自变量和因变量的分布符合模型的程度,自变量与因变量的分布适合所选取的模型,则预测效果好,反之,预测效果差。根据自变量和因变量的函数关系,分为线性回归和非线性回归。客户关系研究中广泛应用的模型有Linear, Logistic等回归方程。
文献[1]应用Logistic回归对商业银行客户流失进行了分析预测,并以真实数据对模型进行了校验,结果表明模型具有良好的预测效果。文献[2]应用Logistic模型研究了客户生命周期价值及客户流失,研究发现,相比决策树和神经网络技术而言,Logistic模型更适合对客户流失的分析和预测,但同时作者也指出,预测性能受诸多参数因素的影响,比如神经网络参数的设置及训练集的选择,只能表明他们的训练样本更适合Logistic来建模。文献[3]指出,回归分析在客户流失预测中的主要缺点是对训练样本的要求,并且不能以符号化或易于理解的形式直观地表现隐含的模式。
1.2决策树
决策树是一种流行的分类算法,具有学习快速块、分类准确率高、分类结果表现直观等特点。决策树的构造包括两个阶段:通过训练集生成决策树;对生成的决策树进行剪枝。应用决策树对新样本进行分类时,从树根节点开始对样本进行测试,根据测试结果确定下一个节点,直至到达也节点,叶节点所属类别就是新节点的预测类别。决策树算法有ID3,4.5,C5.0,CART等。
由于基于C4.5算法的决策树有良好的性能并且能够自动产生分类规则,文献[4]应用C4.5算法对保险客户基本信息进行了分类,分析出了客户流失的特征,通过此模型,保险公司提高了客户挽留率。Kitayama通过基于决策树的方法对客户档案进行了分类,首先把客户群体划分为首选客户(Preferred customers)和一般客户,首选客户指那些对公司最有价值的客户,接着应用决策树根据客户特征分类,识别高价值客户,以达到挽留高价值客户的目的。为了克服决策树固有的缺点,提高客户流失预测模型的精确度和可解释性,文献[5]结合了AD Tree模型与Logistic回归方程的优点,提出了TreeLogit模型。
1.3神经网络
神经网络是一组连接的输入/输出单元,其中每个连接都有一个加权值。神经网络的分类知识体现在网络连
1
接上,被隐式地存储在连接的权值中。神经网络的学习过程是通过跌代运算对权值不断进行调整的过程,学习的目标就是通过权值的调整使输入元组被正确的标号。典型的神经网络有Hopfield网络,BP网络,SOM和ART网络。
文献[6]通过应用神经网络来识别价值客户,预测将来的行为,来进行客户关系管理,根据他们的实验结果表明,相比其他数据挖掘技术,神经网络用于识别价值客户提供了更有效的预测模式。同时还证明了神经网络具有广泛的应用领域。然而,神经网络技术的缺点也是不容忽视的,比如输出结果模糊,不易解释。 [7]通过SOM技术对证券客户的潜在价值进行了细分。
1.4SVM方法
支持向量机(support vector machine,SVM)是近年来流行的分类算法,在解决小样本、非线性及高维模式识别问题中表现出独特的优势,得到普遍关注和研究应用。SVM建立在计算学习理论的结构风险最小原则基础上,即使发生真实错误的概率的上限最小,用于解决二值分类的模式识别问题。SVM使用一种非线性映射,把训练样本映射到较高的维;在新的维上,它搜索线性最佳分离超平面;使用一个适当的对足够高维的非线性映射,两类的数据总可以被超平面分开。
文献[8]通过SVM方法研究了银行信用卡客户流失模型,通过与BNP(反馈神经网络)对比研究表明SVM具有更高的预测准确率。文献[9]建立了基于带有不同权类权重参数的支持向量机算法的CW-SVM预测模型,通过调整类权杖参数改变分类面位置,提高了算法的分类准确性,通过实际的银行信贷客户数据测试表明,模型具有较好的客户流失预测效果。同时证明了相比传统预测算法,SVM更适合解决大数据集和不平衡数据。基于各种改进的SVM算法在客户流失预测中应用也是近来的研究热点。
1.5贝叶斯分类
贝叶斯分类是一种典型的统计学分类方法,用于预测样本属于特定类的概率,主要分为朴素贝叶斯(Naïve Bayes)分类和贝叶斯网络(Bayes network)。朴素贝叶斯是机器学习中常用的概率统计方法,基本思想是基于概率论的贝叶斯公式和简化假设,根据属性和类别的联合概率来估计新样本的基本类别。应用朴素贝叶斯提的前提条件是类条件独立,而贝叶斯网络则用于非独立的联合条件的概率分布,训练后的贝叶斯网络可以用于分类。
客户流失预测技术的对比研究表明,朴素贝叶斯的预测效果可以与决策树和神经网络相媲美。文献[10]首先对引起电信客户流失的客户心理、服务质量等因素进行分析,确定先验知识,根据先验知识选取特征和训练样本,通过贝叶斯网络的结构学习和参数学习,建立客户流失模型,通过实验证明了贝叶斯网络是分析客户流失等不确定性问题的有效工具。
1.6粗糙集
粗糙集理论是一种表示不精确和不确定性数据的数学工具,在知识约简上具有独特优点。粗糙集理论用于分类,能够发现不准确数据或噪声数据内的结构关系,用于离散值属性,对于连续型数据的处理需要先进行离散化处理。粗糙集分类的思想是利用条件的精确概念来描述目标属性的不精确概念。首先,按照条件属性和类别对训练集进行分类,根据条件属性的子集与目标属性子集之间的上近似和下近似的关系生成分类规则。实践应用中,常利用粗糙集知识约简的优点和其他分类技术相结合对不完备数据进行分类。
文献[11]应用粗糙集对训练样本中的17个属性进行重要性约简学习,形成具有12个属性的训练样本,在此基础上,应用C4.5算法建模,大大提高的学习效率,实验结果表明,模型是健壮和稳定的。此外,文献[12]提出了一种基于粗糙集的BP神经网络客户流失预测模型,并通过实验验证了模型的有效性。
1.7混合技术预测模型
由于数据挖掘技术的各类方法在处理不同数据集时表现出的预测性能有很大差异,为了提高模型预测的精确度,应用混合技术建立预测模型是客户流失预测的一个发展趋势。Hung运用决策树与神经网络技术相结合的
2