基于数据挖掘的银行客户分类研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于数据挖掘的银行客户分类研究
基于数据挖掘的银行客户分类研究
摘要:针对银行竞争日益加剧,传统的客户管理方式日益难以满足客户需求的现状,本文提出一种基于改进的
k-means聚类算法的客户细分方法,该方法针对k-means聚
类算法易受噪声点干扰、对初始的中心点非常敏感、无法确定聚类个数的不足,通过剔除低密度数据点的方法去除噪声点,并结合数据点的密度和相对距离,选取间隔较远的高密度数据点作为初始化中心点,最后通过改进的silhouette评
价指标确定聚类个数及聚类结果。

本文最后基于该方法对银行客户数据进行聚类分析,并根据聚类结果制定出针对性的营销策略,实验结果表明:该方法能很好地解决传统k-means 聚类算法的不足,在实际应用中可以解决银行客户细分问题,有助于提升营销决策质量和客户关系管理。

关键词:客户细分;数据挖掘;k-means
0 引言
近年来,随着国家逐步加大对金融政策的改革,市场存、贷利率逐步放开,商业银行之间的竞争日益激烈。

而银行之间的竞争根本上则是对客户的争夺,如何赢得客户并将客户价值最大化已经成为金融行业生存的发展的决定性因素。

然而随着客户的需求日益多样化,传统的营销方式已经日益难
以满足客户需求,在此背景下,银行必须充分挖掘客户信息,从而了解自己客户群的特征以及不同需求,进而对客户进行分类管理,实行针对性的营销、维护以及淘汰。

这样不仅可以稳定、拓展客户群益,同时也能最大限度降低客户管理费用,从而实现银行利润最大化。

信息的高速发展以及银行大数据平台的日益完善,使银行对客户数据的深入挖掘成为可能。

本文在此背景下,提出一种基于改进的的聚类分析方法,并基于该方法对某银行客户样本数据进行聚类分析,将客户细分成有共同特征的客户群,最后针对不同的客户群体制定出
有效的营销策略。

1.数据提取
客户分析维度的选取对模型的分析结果有着决定性的
意义,合理的分析维度不仅需要满足建模的可行性,而且需要能从各个角度反映客户的价值,同时保证其自身之间的独立性和完整性。

本文结合银行实际情况,选取了以下10个客户属性作为分析的维度,如表1所示。

根据上述客户属性,本文提取了某银行自2014年至2015年开户的所有客户数据,共21078条客户数据。

2.数据预处理
客户数据中包含不完整、含噪声的数据,如果直接使用这样的数据进行分析将会对分析的结果产生严重的影响,因此对原始数据进行预处理就显得尤为重要。

本文预处理过程
分为缺失值处理、数据标准化以及数据标准化以3个步骤。

2.1缺失值处理
本文提取的数据中,大部分客户属性的数据相对完整,尤其对数据挖掘结果影响较大的客户价值属性(储蓄日均、理财日均等)比较完整,仅部分客户基本属性有所缺失,具体分析为:年收入属性含有1742个缺失值,工作类型属性含有946缺失值,另外文化程度还有1256个缺失值。

考虑到这3个属性对挖掘的影响不是很大,本文采用取中间值替代的方法,来填补这些空缺值。

2.2 数据类型转换
反映客户特征的属性,由于各自描述事物的差异,因而所属的字符类型也会有明显的差异,但是在实际的数据挖掘过程中,我们处理的往往都是数值型的数据,因而需要将字符串等其他类型的数据统一转换成数值类型的数据,如:性别属性中,用1表示“男”,2表示“女”,具体转换详情如表1所示,这里不作过多阐述。

2.3数据标准化
样本数据中,各属性度量单位的不同可能会对数据挖掘的结果产生重大影响,因此在对数据进行模型分析之前,需要对数据进行标准
化处理,将转化为不受单位限制的无量纲的纯属值。

本文采用标准差变换,公式为:
其中,为样本数据第j个属性的均值,sj为第j个属性
的标准差,计算公式为:
数据标准化后的数据如下:
3 聚类分析
在聚类算法中,k-means算法使用最为广泛,然而也存在如下几个不足之处:1.初始聚类中心的选取对聚类结果影响比较大。

2.在聚类前必须输入簇的数目k值,但是这k值通常是无法事前确定的。

3.算法对于噪声数据与异常数据非常敏感。

本文针对k-means算法的上述缺陷对算法进行改进,并基于该方法对样本数据进行聚类分析。

3.1 噪声点剔除
处于数据集的低密度区域的数据对象被称为噪声点或
孤立点,为了避免这些数据点对聚类过程的干扰,我们首先要将这些数据点剔除。

本文首先计算各数据点的点密度,将点密度小于某一阈值的数据点剔除,具体算法如下:1)计算数据集中各数据点之间的平均距离,公式如下:其中n为样本总数,为点i与点j之间的欧式距离。

2)计算数据集中每一个数据点的密度参数。

对于空间中任一数据点p,以p为中心,以AvgDist为半径的区域内数据对象的个数称为点的密度参数,记作density(p,AvgDist),公式为:
其中u(x)公式表示为:
4)遍历数据集,如果某一点的密度参小于平均密度参
数的,则认为该点为噪声点,将其从数据集中剔除。

计算完毕后新的数据集记作。

噪声点剔除的效果如下图所示,可以看出经过噪声处理后,低密度的噪声点被去除。

3.2 初始点选取
k-means聚类算法对初始的中心点较为敏感,不合理的初始中心点会导致聚类结果局限于局部最优解,而不是全局最优,最终影响聚
类的结果。

本文提出一种改进的初始点选取方法,即选取距离相隔较远的点密度最大的点作为初始中心点,算法如下:
1)根据点密度计算公式(7)重新计算数据集中每一个数据点的密度参数。

2)将最大点密度的数据点作为第一个初始化中心点加入到集合中,同时将其从数据集D中删除。

3)计算数据集D中各点到集合中各初始中心点的距离之和,并计算平均距离,计算公式为:
4)遍历数据集D,将到初始中心点距离之和大于平均距离的数据点加入到数据集C中。

5)遍历数据集C,将最大密度的数据点作为下一个初始化中心点加入到数据集A中,同时将其从数据集D中删除,并清空数据集C。

6)重复步骤(3)、(4)、(5)直至集合C中的数据点个
数达到kmax。

由于银行客户类别数通常不会超过10,因此本文此处kmax的取值为10。

算法执行完毕后,数据集A中的初始化中心点处于整个数据集中高密度区域内,并且相互之间相距较远,这样可以很好地描述数据集中的数据分布情况,提高k-means聚类结果的精度。

3.3 k-means聚类
k-means聚类算法在聚类之前无法确定分类个数k值,k 的取值过大或过小都不能准确反映客户分类情况,使聚类失去意义。

本文采用改进的轮廓系数指标对聚类的结果进行评判,由于在传统的轮廓系数计算公式中,需要反复计算每一个点到其他所有点的距离,必然导致计算量较大,本文对该公式稍作改进,使用中心点替代的方法计算轮廓系数,改进后的公式如下:
确定聚类有效的标准是使聚类结果达到类内紧密、类间远离。

从类内紧密性角度出发,我们希望类内距离pj 越小越好,从类间远离性角度出发,我们希望最小类间距离sj越大越好。

同时为了使指标不受量纲影响,我们通过类内距离和最小类间距离的最大值对该距离差进行压缩,使其落在区间之间。

因此轮廓系数值silhouette在-1和1之间变化,聚类效果越好,该值越大,反之聚类效果越差,则该值就越
小。

本文结合k-means算法以及silhouette聚类有效性指标,
对样本数据进行聚类分析,算法如下:
1)选取聚类数的搜索范围[kmin,kmax]
2)从kmin循环至kmax,执行以下步骤:
a)从集合C中按加入该集合的先后顺序取出k个数据点,其中k 为簇的个数,即
b)以这k个数据点作为初始聚类的中心点,利用k-means 算法进行聚类。

c)聚类完成后,利用公式(12)计算本次聚类的silhouette silhouette 值。

3)循环完毕后,比较每次聚类的silhouette值,选取silhouette 值最大时的k值以及聚类结果作为最终的聚类结果。

由于银行中客户类别数一般不会超过10,因此本文中,kmin取值为2,kmax取值为10,实验结果如下:
从上表中可以看出,当取值为5时,轮廓系数值最大,此时的聚类结果达到类内最紧密、类间最远离,因此本文选择=5为最优解,最终聚类结果如下表所示:
4 聚类结果分析
聚类分析完成后,我们还需要对这5类数据进行客户特征分析,根据每一类不同的客户特征制定不同的营销策略。

本文通过计算每一类数据均值和标准差,并结合银行实际业务,对每一类客户数据进行分析。

由表5分析可以看出第一类客户特点:该类客户年龄较
小,文化程度较高,持有比高级别的银行卡,储蓄、保本理财、保险、国债等风险较小收益较低业务的指标值较小,而非保本理财、基金、证券等风险较大收益较高业务的指标值较大,此外贷款金额较大。

对于这类客户,在客户关系维护时,应该针对客户年龄较低的特点,制定适合年轻人的维护方式。

在业务营销方面,应该重点营销收益较高的业务或者贷款联动性业务,如基金业务、存贷盈业务等。

由表6分析可以看出第二类客户特点:该类客户储蓄、理财、基金等各项业务指标值均较低,但是最高卡级别比较高。

可以看出,该类客户为流失的高价值客户,对于这类客户应该认真分析其流失原因,并有针对性地做好客户维挽工作。

由表7分析可以看出第三类客户特点:该类客户最高卡级别较低,年收入较低,储蓄、理财、基金等各项业务指标值均较低。

可以看出该类客户为低价值客户,在银行资源有限的情况下,可以考虑停止针对该类客户的营销活动,而将资源投向产出比更高的高价值客户群。

由表8分析可以看出第4类客户特点:该类客户年龄较大,最高卡级别较高,储蓄、保本理财、保险等风险较小收益较低业务的指标值较大,相反基金、证券等风险较大收益较高业务的指标值较小,贷款金额较小。

在客户关系维护方面,应该针对客户年龄较大的特点,制定适合中老年人的维
护方式。

在业务营销方面,应该重点营销储蓄、保本理财等稳健性收益产品。

由表9分析可以看出第5类客户特点:该类客户年收入较高,文化程度较高,并且贷款金额较大,但是储蓄、理财、基金等其他业务指标值很小,最高卡级别也较低。

该类客户为潜在客户,在客户关系维护方面,应该针对客户文化层次较高的特点,制定侧重文化艺术的高品位维护方式。

在业务营销方面,建议以贷款业务为突破口,展开交叉营销。

结束语
为了更好地实现银行客户分层管理,提升营销决策质量和客户关系管理,本文提出了一种基于改进的聚类算法,该方法能解决传统算法易受噪声点干扰、对初始的中心点非常敏感以及无法确定聚类个数的不足,在实际应用中可以很好地解决银行客户细分问题。

此外本文最后根据聚类结果并结合银行自身状况,制定出针对性的营销策略,这对银行如何提升客户关系管理、增强客户体验有一定的参考意义。

本方法仍有一些不足之处,当客户数据量很大时,会出现计算时间过长的现象,因此在后续的研究过程中,会考虑引入分布式处理方
式来提高数据处理的速度。

参考文献:
[1] Shunye W. An improved k-means clustering algo-rithm based on dissimilarity [C]//Mechatronic Sci-ences,Electric Engineering and Computer (MEC),Proceedings 2013 International Conference on IEEE,2013:2629-2633. [2] 孟子健,马江洪.一种可选初始聚类中心的改进均值算法[J].理论新探,2014,12(3)
[3] QIAN JIANJUN,YANG JIAN,XU YONG. Local structure-based image decomposition for feature extraction with applications to face recognition[J]. IEEE Transtractions on Image Processing ,2013,22(9):3591- 3603
[4] 邓摇海,覃摇华,孙摇欣.一种优化初始中心的
K-means聚类算法[J] .计算机技术与发展,2013,23(11):98- 102.
[5] 方方.“大数据”趋势下商业银行应对策略研究[J].新金融,2014(12):25-28
[6] Ghemawat S. ACM Syrup on Operating Systems Principles[M]. New York ACM,2013:29-43
[7] 陆珉峰,虞鹏飞.互联网金融背景下商业银行“大数据”战略研究[J]. 经济与管理,2015(3):31-38
[8] 张建珍,张秀珍,周星星. 模糊聚类算法在银行客户分类管理中的应用[J]. 智能计算机与应用,2014,6 (4):78 -82
[9] 曾小青. 基于消费数据挖掘的多指标客户细分新方法[J]. 计算机应用研究,2013,30(10):2944-2947
[10] 张顺龙,库涛,周浩. 针对多聚类中心大数据集的加速K-means 聚类算法[J]. 计算机应用研究,2015,33(9):36-40
[11] Luo Biao,Yang Wei-wei. Customer value classification Model and application based on analytic network process and K-means clustering[J]. Journal of Computer Applications,
2013,33(10):2954-2959
[12] 冯波,郝文宁. k-means算法初始聚类中心选择的优化[J]. 计算机工程与应用,2013,(14)
[13] 谢娟英,王艳娥.最小方差优化初始聚类中心的
K-means算法[J].计算机工程,2014,40(8):205-211
[14] 谭伟明,黄杰.大数据驱动银行业务创新和转型发展的思考[J]. 区域金融研究,2015,5:46-49。

相关文档
最新文档