数据挖掘在银行交叉销售中的应用研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘在银行交叉销售中的应用研究*
于海波姜 锴
合肥工业大学,合肥 230009
摘要:数据挖掘通常又称为数据中的知识发现(KDD),是自动或方便地提取代表知识的模式。本文以商业银行业务数据为研究对象,使用SPSS公司Clementine工具提供的关联规则Apriori算法,对银行客户持有外延产品情况进行数据挖掘,取得频繁项集,为银行产品交叉销售提供支持。
关键词:数据挖掘 KDD 交叉销售关联规则
1 引言
中国加入世贸组织,金融领域全面引入国际竞争。商业银行在不断扩展业务范围、不断加大科技投入的同时要注重以客户为中心的管理,对客户需求的满足能力是银行能否与客户保持紧密联系、获得发展的关键所在。数据挖掘(Data Mining)是近些年企业界相当热门的话题,它利用统计与人工智能的算法,从庞大的企业历史资料中,找出隐藏的规律并建立准确的模型,用以预测未来[1]。应用数据挖掘技术对银行海量的以往交易数据进行分析,可以获得潜在规则,预测银行客户需求,创造个性化产品,改善自身营销,为商业银行业务发展提供强有力的支持。
有关研究表明,开发一个新客户的费用是保留一个老客户费用的5倍,成功保留老客户可大幅增加企业的利润,交叉销售就是企业保留老客户的一种非常重要的方法。交叉销售是一种以企业和客户的现有关系为基础去推销另一个产品的营销战略,是通过对现有客户扩大销售来增加利润的一个有效手段。本文着重介绍数据挖掘中的关联规则算法及其在银行外延产品交叉销售中的应用。
2 关联规则与Apriori算法
关联分析的目的是找出数据库中隐藏的关联网,挖掘出隐藏在数据库中的一些关联规则,利用这些关联规则可以根据已知情况对未知问题进行推测判断[2]。任何两个变量间都可能存在着潜在的关联,那么怎样决定哪些关联确实具有代表性,真的很有作用,哪些关联只是假象或者毫无用处呢? 在考察关联规则时,需要同时考虑三条独立的标准,即支持度(support) 、置信度(confidence)和增益(lift ) 。
支持度:1)交易集合(交易数据库)D中包含某个交易X的个数称为X在D中的支持计数。例如,D={T1,T2,T3}包3个交易,其中T1={A,B,C}、T2={B}、T3={B,C,D},如果X={B,C},则D中存在T1和T3两个交易包含X,此时称X在D中的支持计数为2。2)假定X是一个项目集,D是一个交易集合,称D中包含X的交易个数与D中总的交易个数之比为X在D中的支持度,记作sup(X)。在上例中,包含X的项目个数是2,D中总的交易个数是3,则X在D中的支持度为2/3,即sup(X)=P(X)=66.7%。3)关联规则的一般形式为:X=>Y,其含义为X出现的同时也导致Y出现。关联规则X=>Y的支持度sup(X=>Y)=sup(X∪Y)=P(X∪Y)。支持度是对关联规则的重要性的度量,表示了关联规则的频度。
当给定最小支持度时,若某一项集的支持度大于或等于最小支持度,则称该项集是频繁项集,含有K个
*作者简介: 于海波(1980-), 男, 在职研究生; 姜锴(1973-), 男, 在职研究生.
项的频繁项集则称为频繁K-项集。关联规则挖掘的重点便是找出所有频繁项集。
置信度又称为可信度。设交易集合D中支持项目集X的交易中有c%的交易同时支持项目集Y,则称c%为关联规则X=>Y的置信度,记作conf(X=>Y)。由置信度的定义可知,conf(X=>Y)=sup(X∪Y)/sup(X)=P(Y|X)。一个规则的置信度范围在0和1之间,指出现了项目集X的交易中,出现项目集Y的概率。置信度是对关联规则准确度的度量,表示了关联规则的强度。
增益是两种可能性的比较,一种是在已知购买了左边商品情况下购买右边商品的可能性,另一种是任意
情况下购买右边商品的可能性。规则X=>Y的增益为:lif (X→Y) = P(Y| X) - P(Y) 。这个标准和数据挖掘中其他模型的选择标准一样,通过与“原有”规则的比较,来测量该规则提高预测准确性的程度。有时也把增益称为改良,因为它可以测量预测改进的程度。
关联规则挖掘算法以算法Apriori为代表。Apriori算法把挖掘关联规则的过程分为两个阶段:1)获取频繁集。这些项集出现的频繁度至少和预定义的最小支持度一样。2)由频繁集产生关联规则。这些规则必须满足最小可信度。
3 实例分析
3.1 数据准备
建立数据仓库,进行数据挖掘,在大量的“数据中挖掘知识”[3],首先要了解数据含义。客户通过购买或使用银行产品与银行发生关系。银行产品是指银行金融机构向市场提供的能满足人们某种愿望和需求的,与货币相关的一切商品,是金融产品的重要组成部分。
银行个人产品具有多样性的特点。商业银行作为以营利为目的的企业,当然首要关心的也是产品所带来的收益。所以习惯上,按照不同产品对银行所产生的收益类型,可以分为以下四大类。如图1所示:
图1银行个人产品分类图
其中存款类产品属于负债类业务,银行通过将客户的存款用于贷款或其他投资赚取利差。则我们可以根据不同的产品,计算出当期收益系数。
例如:存款业务贡献率=(存款准备金比例*年利率+超额准备金比例*年利率+库存现金比例*年利率+发放贷款比例*税后年利率+剩余可用资金比例*一年期定期存款年利率)-存款年利率
存款业务贡献积分=客户日均存款*存款业务贡献率
其他类产品也可以通过相关行业内部规则计算出相应的贡献参数。我们以客户ID为唯一标识,计算出客户某段时间内对我行做出的贡献。再根据2/8法则,取出前20%的客户,作为我们挖掘的对象。
银行产品又可分为基本产品和外延产品。基本产品如借记卡,所有的商业银行均有该产品,且功能相似。扩展产品,是指银行产品中为客户提供功能扩展或超值服务的那一部分产品,属金融产品的系列化业
务,是银行产品的延伸,用以配套解决客户全部问题。因为很多产品如基金,保险,第三方存管都是借助
借记卡的平台,所以在这里我们仅对部分有特点的扩展产品进行数据挖掘。
取出对银行贡献较高的客户100名,以客户ID为唯一标示,从业务数据库中提取出这些客户开办了哪
些产品,生成训练样本。如表1所示:
表1客户持有产品情况表
客户号网上银行银信通基金银证转账信用卡贷款保险
0 1 0 0 1 0 1
16 (3198)
1 1 0 0 0 1 0
16 (4636)
1 0 1 1 0 1 1
16 (5134)
0 0 1 1 0 1 1
16 (6474)
…… … … … … … … …
16 (5398)
0 1 1 0 1 0 1
1 1 0 0 0 1 0
16 (7236)
16 (3214)
1 0 0 0 0 0 1
0 0 1 1 0 1 0
16 (3585)
3.2 数据挖掘
要做数据挖掘,当然需要工具。目前世界上已经有很多功能完善的数据挖掘产品,我们只需要掌握算
法的原理,选择合适的算法,不需要自己编写程序。在这里,我们选用目前较为流行的SPSS公司的Clementina
帮助我们实现对银行客户的数据挖掘。将以上数据导入Clementina工具,利用Apriori算法进行运算后得到关
联规则,如表2所示:
表2关联规则
Confidence%
Support%
Consequent Antecedent
基金银证转账、网上银行、银信通11.000 90.909
银信通贷款、网上银行17.000 88.235
基金银证转账、网上银行14.000 85.714
基金银证转账、银信通18.000 83.333
银信通银证转账、网上银行、银信通12.000 83.333
银信通网上银行40.000 82.500
基金银证转账27.000 81.481
基金保险21.000 80.952 这里设定最小支持数为2 ,即最小支持度为25%。则可以得到银行产品的频繁项集。如表3所示:
表3频繁项集
关联规则Support% Confidence% 网上银行Æ银信通40.000 82.500
银证转账Æ基金27.000 81.481 由表3可知,关联规则网上银行->银信通的支持度是40%,这说明在样本中有40%的客户同时开办了网
上银行和银信通业务;它的置信度是82.5%说明,是指所有开办了网上银行的客户中有82.5%的客户开通的
银信通产品。而关联规则银证转账->基金的支持度为27%,说明在样本中有27%的客户同时办理了银证转账
并且购买有基金,而在所有开通银证转账的客户中,购买了基金的客户占81.481%,即该规则的置信度为