基于数据挖掘银行客户信用风险评级体系研究

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

收稿日期:2009-08-19 修回日期:2009-10-07

基金项目:教育部人文社会科学重点研究基地重大项目“基于智能信息处理的知识挖掘技术及应用研究”

(编号:08JJD870225)研究成果之一。作者简介:蔡皎洁(1982-),女,博士研究生,讲师,研究方向为商务智能;张玉峰(1946-),女,教授,博士生导师,研究方向为计算机信息系统工程、人工智能、知识管理与电子商务。

基于数据挖掘银行客户信用风险评级体系研究

3

R esearch on the Customer Credit Risk R ating System of B anks based on Data Mining

蔡皎洁1,2 张玉峰1

(1.武汉大学信息资源研究中心 武汉 430072;2.孝感学院 孝感 432000)

摘 要 提出了基于数据挖掘的客户信用风险评级体系结构,深入解析了基于关联规则的客户信用风险评级指标体系的构建、基于BP 神经网络的评级模型的构建和基于多种数据挖掘技术的分类结果细化可视化模块的构建。关键词 数据挖掘 客户信用风险 评级研究

中图分类号 G 350 文献标识码 A 文章编号 1002-1965(2010)02-0047-04

0 引 言

麦肯锡公司通过研究表明,以银行实际的风险资本配置为参考,信用风险占银行总体风险暴露的

60%,而市场风险和操作风险则仅占20%。对我国来

说,截止到2009年6月末,我国境内商业银行不良贷款余额5181.3亿元,比年初减少421.8亿元;不良贷款率1.77%,比年初下降0.65个百分点[1]。从这些数据上来看,一方面随着我国金融业全面对外开放,商业银行作为金融体系的中流砥柱,越来越深刻地认识到进行客户信用风险管理的重要性;另一方面,就我国商业银行的发展现状来看,信用风险仍然是其所面临最主要的风险种类,并且在金融全球化、风险环境瞬息万变的情况下,加强我国商业银行信用风险科学管理水平已成为当务之急。

先进的商业银行客户信用风险评级体系是正确实施信用风险管理的基础。相比于国外,我国商业银行客户信用风险评级体系比较落后,如存在多以定性为主的评级方法,评级过程中存在很强的人为因素,评级采用的指标体系有待科学化和完善化,评级体系信息智能化程度低、无法满足市场环境的动态变化,“信息孤岛”等缺陷。因此,迫切需要开发新的商业银行客户信用风险评级体系来解决上述问题。近年来,数据挖掘技术已广泛应用于金融业,并取得了显著效果。本文的客户是指企业类客户。

1 基于数据挖掘的客户信用风险评级体系研究 1.1 采用数据挖掘技术的重要性 基于数据挖掘技术来构建客户信用风险评级体系较我国商业银行传统的客户风险评级体系的优点主要有:第一,数据挖掘可以基于数据仓库的基础上对数据进行多维视角的分析,从而提高客户信用风险评级体系对数据处理的完整性。数据仓库是面向复杂的数据分析以支持决策过程的,它集成了一定范围内的所有数据,是面向主题的、整合的、相对稳定的,并随时间和内外部环境变化而不断更新的数据集合[2]。因此,在数据仓库平台上构建基于数据挖掘的客户信用风险评级体系的效率会更高。第二,数据挖掘可以完成概念描述、关联分析、分类聚类、孤立点分析、时序演变分析等功能,可以深入分析客户信用风险评级指标之间、及客户信用风险评级指标与评级结果之间复杂的关系,从而提高客户信用风险评级体系的科学性。之前我国商业银行采用的客户信用风险评级方法中掺杂人为因素过多,从而影响了评级体系的准确性和科学性,而数据挖掘的核心技术为人工智能、机器学习、统计学等技术,可以高度自动化地分析组织原有的数据,进行归纳性推理,从中挖掘潜在的模式,自动分类客户的信用风险级别。 1.2 基于数据挖掘的客户信用风险评级体系结构 本文构建的基于数据挖掘技术的客户信用风险评级体系结构主要包括三个模块:客户信用风险评级指标体系构建模块、客户信用风险评级分类模型构建模块、客户信用风险评级结果可视化模块。该体系需完成的

第29卷 第2期2010年2月 情 报 杂 志JOURNAL OF IN TELL IGENCE

Vol.29 No.2Feb. 2010

主要功能有:可以针对企业所面对的内外部环境因素的变化而做出及时的反应;能够以科学的方式选择用来评级客户信用风险级别的指标;具有能够集成化、适时化地处理客户信用风险评级指标数据、并对客户信用风险级别进行准确分类的评级模型;对应于风险级别能以可视化界面显示企业经营综合状况,以指导商业银行合理执行信贷决策。其体系结构如图1所示

:

图1 基于数据挖掘的客户信用风险评级体系结构

2 基于关联规则构建客户信用风险评级指标

客户信用风险评级模型的数据来源于信用风险评级指标的确定,科学地构建指标体系对评级模型的正确分类起到决定性的作用。本文意识到企业在日常业务流程中伴随着风险因素,因此提出利用关联规则挖掘企业最为频繁业务关联活动,进而分析影响这些频繁业务关联活动的风险指标;另外考虑到时间和内外部环境的影响,进一步用关联规则挖掘贯穿于企业整个生命周期的频繁业务关联活动;取两部得到频繁业务关联活动的并集,分析影响的风险指标。这样不仅可以获取完整的风险评级指标体系,更提高了风险指标分析的科学性,其处理步骤如下:

a.按照企业类型将企业聚类,从与聚类中心企业

由近及远的距离任意挑选占总聚类数1/3的企业,簇中每个位置选取的企业数相当。

b.基于选取的企业分析其业务流程,提炼出主要

业务活动因子,即事务集I A ={I A 1,I A 2,…,I A m },设企业名称即为事务标识符TID ,其中I A i 为企业目前的业务活动集,设置最小支持度阈值(min -sup )和最小置信度阈值(min -conf ),用Apriori 算法获取企业频繁业务关联活动集X 。

c.考虑到时间和内外环境的影响,基于生命周期

的维度,进一步实施关联规则挖掘。每个生命周期阶段作为事务标识符TID ,即事务集I B ={I B 1,I B 2,…,

I BM }为企业簇在整个生命周期中发生的业务活动,I Bi

为企业簇在萌芽期、成长期、成熟期和衰退期发生的业务活动集。用Apriori 算法获取企业在整个生命周期中的频繁业务关联活动集Y 。

d.取X ∩Y 的频繁关联活动集M ,找出影响因素

集F i ,对其中数据F ij 进行标准化处理,进而对标准化数据进行主成分分析,得到特征值累积方差贡献率

85%以上的主成分因素,即为要找的客户信用风险评

级指标。把这些频繁关联活动相对应的评级指标存入指标数据库K ,待结合评级结果做进一步数据挖掘分析。

由于篇幅限制,试举例说明如下:

a.按照商业、工业、农业企业性质进行

企业聚类,挑选某商业中小企业A 簇为研究对象,由远及近的距离分别选取10、15、

20个企业。

b.设最小支持度计数为2,最小置信度

为60%,基于业务流程维度,每个企业对应的事务集I Ai ∈I A ={企业资产评估;竞标;

采购;材料入库;产品设计;需求计划;客户

服务;…}。应用Apriori 算法找出该企业簇的频繁业务关联活动集X ={竞标→采购;需求计划∩产品设计→客户服务;…}。

c.基于生命周期维度,如该企业簇萌芽期发生的

业务活动集I B 1∈I B ={进货;入账;出帐;销售;…}。应用Apriori 算法找出该企业簇的频繁业务关联活动集

Y ={进货→发货;物料计划∩生产销售;…}。

d.若r 1=产品设计∩市场需求预测→采购原材

料∈M 。影响该活动的风险因素集F i ={企业净利润;产品生命周期;新产品开发能力;…},将F ij 进行数据标准化处理[3],即:

F 3

ij =

F ij - F i

s i

其中σi =

∑n

i =1

(F

ij

- F i )

2

n -1

, F i =

∑n

j =1

F

ij

n

。σi 为标

准差, F i 为样本均值,建立变量的相关系数矩阵R ,求

R 的特征值和特征向量,按特征值累积方差贡献率大

于85%的准则,找出影响活动集M 的主成分因素,即为确定的风险评级指标并存入相应的指标库K 中。经分析,新产品开发能力该指标的特征值在诸多影响因素中最高,且累积方差贡献率达到87.5%,为影响该活动的风险评级指标。

3 基于BP 神经网络构建客户信用风险评级分类

模型

客户信用风险评级的本质是客户信用风险分类预测的问题。用于分类和预测的数据挖掘方法有多种,相比于其它分类方法,神经网络分类方法具有处理多

84・ 情 报 杂 志 第29卷

相关文档
最新文档