信用卡客户流失预测模型研究

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

栏目编辑：梁丽雯 E-mail:liven_01@
信用卡客户流失预测模型研究
■ 中国农业银行广东省分行　邓　致
摘要：
信用卡客户大多拥有不同银行多张信用卡，但常用卡只有一两张，其余的休眠卡不仅无法为银行带来收益，而且增加了管理成本。

基于此，本文通过对信用卡客户进行分析，利用SASEM工具建立了客户流失预测模型，并比较分析了决策树、逻辑回归和神经网络3种算法的性能，为挽留信用卡客户提供数据支持。

关键词：
大数据建模；决策树；逻辑回归；神经网络作者简介：邓　致（1986-），男，广东茂名人，工程师，理学硕士，供职于中国农业银行广东省分行，研究方向：数据分析。

收稿日期： 2019-06-28
一、业务背景
随着银行走进Bank4.0时代，服务将以各种形式嵌入到用户的日常生活中，用户将成为与银行关系中的主导者。

研究表明，客户流失率减少5%，能给银行带来30%-85%的利润增长，发展一个新客户的成本是挽留一个老客户成本的5-7倍，而挽留客户成功率是发展新客户成功率的16倍。

因此，银行在发展新客户的同时，必须着手对存量客户流失管理进行研究。

做好存量客户的服务工作，维持现有客户关系，盘活现有客户已成为银行业务发展的重要突破口。

为做好银行存量客户流失管理，本文以信用卡客户为研究对象，利用数据挖掘技术分析客户的日常金融交易数据，建立客户流失预测模型，发掘潜在的流失目标客户，为客户经理进行客户挽留提供支持。

二、理论基础
数据挖掘（Data Mining）是从大量、不完整、有噪
声的实际数据中挖掘出隐含的、未知的、对决策有参考价值的关系、模式和趋势，并利用所发现的知识规律建立决策模型，为预测决策提供支持的过程。

本文研究信用卡客户流失预测模型，输出结果只有流失与非流失两种可能（用“1”表示流失，“0”表示非流失），该类问题属于典型的二分类问题。

在数据挖掘算法中，用于解决二分类问题的典型算法有神经网络、逻辑回归、决策树、最近邻（KNN）、贝叶斯等，本文主要对逻辑回归、神经网络、决策树3种算法进行分析研究。

（一）逻辑回归
回归算法主要是通过寻找数学表达式拟合因变量和自变量关系曲线的一种算法，用于解决因变量是定量变量的问题；而逻辑回归是一种二分类方法，也可以扩展到多分类问题，主要用于处理定性变量问题。

在
实际应用中，逻辑回归常用于疾病自动诊断、经济预测等领域。

由于逻辑回归容易解释，并广泛用于二分
栏目编辑：梁丽雯 E-mail:liven_01@
类问题，所以本文采用其进行信用卡客户流失预测。

（二）神经网络算法
神经网络算法是一种应用大脑神经突触连接的结构进行信息处理的数学模型。

在该模型中，大量的节点（神经元）连接在一起组成网络（即“神经网络”），节点之间的连接强度用权重来表示。

神经网络的学习过程就是通过大量的样本数据训练，不断调整神经元连接间的权重值，使得输入的数据经过神经网络处理后得到正确输出的过程。

经过学习后的神经网络可以应
用于实际的分类预测。

神经网络能够以任意精度逼近任意函数，具有很强的学习能力，可以比其他分类算法更好地适应数据空间的变化。

（三）决策树算法
决策树又称为分类树，主要用于分类预测。

其数学模型类似树状结构，每个内部节点代表对某一属性的一次测试，每条边代表一个分类规则，叶节点代表某个类。

决策树的决策原理是从树的根节点开始，遍历所有属性，寻找出能使分类结果更加明确（即分类不确定度减少最大）的分类属性，根据该属性进行分类，然后再根据分类结果继续重复进行上述分类，直到叶子节点作为最终的决策结果。

根据不确定度的度量，决策树算法又分成基于信息增益（ID3）和信息增益率(C4.5)的决策树算法。

决策树算法在数据挖掘方面应用非常广泛，尤其适用于分类问题上。

三、实证研究
（一）研究目标与数据准备
本文根据信用卡客户在2017-2018年所产生的历史数据，随机抽样了2 000名客户，按照过去一年是否发生交易将其分为流失类客户和非流失类客户，流失类客户用“1”表示，非流失类客户用“0”表示。

在分析维度上，本文从信用卡客户的基本信息属性、产品持有属性和交易行为属性3个维度共计13项指标进行分析研究。

具体指标见表1所列。

为了充分验证模型的性能，本文把样本数据进行了分隔，其中80%用于训练，20%用于验证。

（二）数据探索
本文选取了13个自变量（指标）进行分析，但并不是所有自变量都与因变量有显著关系，在分析过程中既不希望丢弃对因变量贡献大的自变量，也不希望引入无统计意义的自变量，因此，必须对自变量有所选择。

在自变量的选择上，本文通过计算R2值来确定最终建模指标。

R2表示的是因变量的全部变异可以通过回归关系由自变量所解释的比例，R2值越大证明自变量和因变量的相关性越大。

通过SASEM计算各指标R2如图1所示。

从上图可见，客户的信用卡数量（cnt_card）、近3个月交易笔数（th_cnt）、客户等级（lvl）和授信额度（amt_crlm）等自变量对预测客户是否流失有比较大的影响。

根据R2值的计算结果，本文最终选择了R2值较大的前5个变量作为建模输入。

（三）建模过程
具体建模过程涉及数据文件导入、训练与验证数据分区、转换变量、变量删除、变量选择、模型建立等流程，如图2所示。

本文分别调用了SASEM的神经网、决策树和逻辑回归3种算法建立预测模型。

（四）模型评估
完成建模后，为确定哪个模型更适用于解决本文
表1　建模指标
信用卡客户流失
预警模型指标
基本属性
指标
年龄
性别
...
产品属性
指标
持有信用卡数量
授信额度
...
交易信息
指标
一年内最大交易金额
近3个月交易笔数
...
栏目编辑：梁丽雯 E-mail:liven_01@
察对象数量和预测对象总数量的比值=(TP +TN )/(TP +TN +FP +FN )。

（2）基准概率：实际为1的观察对象数量和预测对象总数量的比值=(TP +FN )/(TP +TN +FP +FN )。

（3）命中率（精准度）：表示模型预测为1，实际
为1的观察对象数量和预测为1的总对象数量的比值=
TP /（TP +FP ）。

（4）灵敏度（真正率、覆盖率）：表示模型预测为1，实际为1的观察对象数量与观察样本中实际为1的对象数量的比值=TP /（TP +FN ）。

（5）错正率（假正率）：表示模型预测为1，实际为0的观察对象数量与观察样本中实际为0的对象数量的比值=FP /（FP +TN ）。

（6）提升度：表示命中率和基准概率的比值。

2. 正确率和提升度情况
通过上述建模可得到逻辑回归、神经网络以及决
的问题，可将数据挖掘的常用指标进行对比。

1. 基本评价指标介绍
在进行模型评价前，先厘清以下重要概念。

混淆矩阵见表2所列。

其中，TP ：指的是预测为1，实际也为1的观察对象数量；TN ：指的是预测为0，实际也为0的观察对象数量；FP ：指的是预测为1，实际为0的观察对象数量；
FN ：指的是预测为0，实际为1的观察对象数量。

基于上述定义，又可以延伸出以下评价指标。

（1）正确率：表示模型能正确预测出0和1的观
表2　混淆矩阵
混淆矩阵
变量名称预测类1
预测类0
实际类1TP FN 实际类0
FP
TN
图2 建模流程
图1　各指标R 2值
R 2
效应
栏目编辑：梁丽雯 E-mail:liven_01@
图3　ROC曲线
策树3种建模算法下的各项指标，见表3所列。

出神经网络模型和逻辑回归模型所预测得到的流失目标客户更有效，如图3所示。

四、总结
本文通过SASEM工具对信用卡流失目标客户进行了建模预测，并分析比较了决策树、回归和神经网络3种算法的性能。

实验证明，决策树、回归和神经网络3种算法均能很好地解决本文问题，但神经网络和回归算法性能比决策树性能要好。

通过比较分析，本
文完成了预测模型的初步建立，下一步会将数据用于生产实践，通过实际应用检验模型的可靠性，并根据实践情况不断优化模型参数，优化银行信用卡客户服务。

FTT
参考文献：
[1]曹淑鹏，闵杰. 基于决策树的信用卡高端客户流失预测模型研究[J]. 北京金融评论，2017(3):69-78.
[2]卓金武，周英. 量化投资——数据挖掘技术与实践（MATLAB版）[M]. 北京：电子工业出版社，2015.
[3]高海燕. 基于数据挖掘的银行客户流失预测研究[D]. 西安：西安理工大学,2007.
模型
数据角色
准确率
命中率
覆盖率提升度
神经网络TRAIN 0.87840.69430.6740 3.5516神经网络VALIDATE
0.86710.66380.6525 3.3954决策树TRAIN 0.86700.63470.7509 3.2464决策树VALIDATE 0.84880.59570.7119 3.0473回归TRAIN 0.86910.75570.4872 3.8654回归
VALIDATE
0.8638
0.7308
0.4831
3.7380
表3 各指标情况
从表3可以看到，无论是训练数据还是验证数据，神经网络算法模型的准确率比其他两种要高，而在提升度上则是回归模型比其他两种算法好。

这3种模型的提升度都在3以上，说明使用预测算法的比不使用预测算法准确率提高了3倍以上。

3. ROC曲线比较
除了比较提升度外，ROC图也是比较模型优劣的一种有效方法。

横坐标表示的假正率（1-特异度），纵坐标表示的真正率（灵敏度）。

真正率的增长是以假正率的增长为代价，增长过程中真正率尽可能大，假正率尽可能小是所要追求的目标，所以，ROC曲线越往左上角凸起，说明算法性能越好。

从ROC图也可以看。