数据挖掘技术在信用卡业务中的应用案例分享资料

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据挖掘技术在信用卡业务中的应用案例分享

信用卡业务具有透支笔数巨大、单笔金额小的特点，这使得数据挖掘技术在信用卡业务中的应用成为必然。国外信用卡发卡机构已经广泛应用数据挖掘技术促进信用卡业务的发展，实现全面的绩效管理。我国自1985年发行第一张信用卡以来，信用卡业务得到了长足的发展，积累了巨量的数据，数据挖掘在信用卡业务中的重要性日益显现。

一、数据挖掘技术在信用卡业务中的应用

数据挖掘技术在信用卡业务中的应用主要有分析型客户关系管理、风险管理和运营管理。

1.分析型CRM

分析型CRM应用包括市场细分、客户获取、交叉销售和客户流失。信用卡分析人员搜集和处理大量数据，对这些数据进行分析，发现其数据模式及特征，分析某个客户群体的特性、消费习惯、消费倾向和消费需求，进而推断出相应消费群体下一步的消费行为，然后以此为

基础，对所识别出来的消费群体进行特定产品的主动营销。这与传统的不区分消费者对象特征的大规模营销手段相比，大大节省了营销成本，提高了营销效果，从而能为银行带来更多的利润。对客户采用何种营销方式是根据响应模型预测得出的客户购买概率做出的，对响应概率高的客户采用更为主动、人性化的营销方式，如电话营销、上门营销；对响应概率较低的客户可选用成本较低的电子邮件和信件营销方式。除获取新客户外，维护已有优质客户的忠诚度也很重要，因为留住一个原有客户的成本要远远低于开发一个新客户的成本。在客户关系管理中，通过数据挖掘技术，找到流失客户的特征，并发现其流失规律，就可以在那些具有相似特征的持卡人还未流失之前，对其进行有针对性的弥补，使得优质客户能为银行持续创造价值。

2.风险管理

数据挖掘在信用卡业务中的另一个重要应用就是风险管理。在风险管理中运用数据挖掘技术可建立各类信用评分模型。模型类型主要有三种：申请信用卡评分卡、行为信用评分卡和催收信用评分卡，分别为信用卡业务提供事前、事中、和事后的信用风险控制。

申请评分模型专门用于对新申请客户的信用评估，它应用于信用卡征信审核阶段，通过申请人填写的有关个人信息，即可有效、快速地辨别和划分客户质量，决定是否审批通过并对审批通过的申请人核定初始信用额度，帮助发卡行从源头上控制风险。申请评分模型不依赖于人们的主观判断或经验，有利于发卡行推行统一规范的授信政策。行为评分模型是针对已有持卡人，通过对持卡客户的行为进行监控和预测，从而评估持卡客户的信用风险，并根据模型结果，智能化地决定是否调整客户信用额度，在授权时决定是否授权通过，到期换卡时是

否进行续卡操作，对可能出现的使其提前进行预警。催收评分模型是申请评分模型和行为评分模型的补充，是在持卡人产生了逾期或坏账的情况下建立的。催收评分卡被用于预测和评估对某一笔坏账所采取措施的有效性，诸如客户对警告信件反应的可能性。这样，发卡行就可以根据模型的预测，对不同程度的逾期客户采取相应措施进行处理。以上三种评分模型在建立时，所利用的数据主要是人口统计学数据和行为数据。人口统计学数据包括年龄、性别、婚姻状况、教育背景、家庭成员特点、住房情况、职业、职称、收入状况等。行为数据包括持卡人在过去使用信用卡的表现信息，如使用频率、金额、还款情况等。由此可见，数据挖掘技术的使用，可以使银行有效地建立起事前、事中到事后的信用风险控制体系。

3.运营管理

虽然数据挖掘在信用卡运营管理领域的应用不是最重要的，但它已为国外多家发卡公司在提高生产效率、优化流程、预测资金和服务需求、提供服务次序等问题的分析上取得了较大成绩。

二、常用的数据挖掘方法

上述数据挖掘技术在信用卡领域的应用中，有很多工具可用于开发预测和描述模型。有些用统计方法，如线性回归和逻辑回归；有些有非统计或混合方法，如神经网络、遗传算法、决策树及回归树。这里仅讨论几种常见的典型方法。

1.线性回归

简单线性回归分析是量化两个连续变量之间关系的一种统计技术。这两个变量分别是因变量(预测变量)。使用这一方法，可以发现一条穿过数据的线，线上的点使对应数据点的方差最小。为市场营销、风险和客户关系管理建立模型时，通常有多个自变量，用多个独立自变量来预测一个连续变量称为多元线性回归，用线性回归方法建立的模型通常具有鲁棒性。

2.逻辑回归

逻辑回归是使用最广泛的建模技术，与线性回归很相似。两者的主要区别在于逻辑回归的因变量(想预测变量)不是连续的，而是离散的或者类型变量。如申请评分模型可运用逻辑回归方法，选取关键变量确定回归系数。以申请者的关键变量x1,x2,…xm为自变量，以y=[1 申请者是坏客户；0 申请者是好客户，为因变量，则对于二分类因变量，一般假设客户变坏的概率为p(y=1)=eβ0+β1×1+…+βmxm/1+eβ0+β1×1+…+βmxm式中，β0，β1…，βm是常数，即1n(p/1-p)=β0+β1×1+…+βmxm

3.神经网络

神经网络处理和回归处理大不相同，它不依照任何概率分布，而是模仿人脑功能，可以认为它是从每一次经验中提取并学习信息。神经网络系统由一系列类似于人脑神经元一样的节点组成，这些节点通过网络彼此互连。如果有数据输入，它们便可以进行确定数据模式的工作。神经网络由相互连接的输入层、中间层(或隐藏层)、输出层组成。中间层由多个节点组成，完成大部分网络工作。输出层输出数据分析的执行结果。

4.遗传算法

与神经元网络类似，遗传算法也不遵循任何概率分布，是源自“适者生存”的进化过程。它首先将问题的可能解按某种形式进行编码，编码后的解称为染色体。随机选取n个染色体作为初始种群，再根据预定的评价函数对每个染色体计算适应值，性能较好的染色体有较高的适应值。选择适应值较高的染色体进行复制，并通过遗传算子产生一群新的更适应环境的染色体，形成新的种群，直至最后收敛到一个最适应环境的个体，得到问题的最优化解。

5.决策树

决策树的目标是逐步将数据分类到不同的组或分支中，在因变量的值上建立最强划分。由于分类规则比较直观，所以易于理解。图1为客户响应的决策树，从中很容易识别出响应率最高的组。

三、实例分析

以下以逻辑回归方法建立信用卡申请评分模型为例，说明数据挖掘技术在信用卡业务中的应用。申请评分模型设计可分为7个基本步骤。

1.定义好客户和坏客户的标准