DataMining银行信贷案例

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

学知识,通过对大量的、不完全的、有噪声的、模 挖掘过程也将严格按照该流程进行。为清晰展现整
糊的、随机的数据集进行详尽审查挖掘,以发现数 个 数 据 挖 掘 流 程 , 我 们 使 用 了 SPSS 公 司 的
据中内在的关联性、特征和趋势。数据挖掘综合了 Clementine 工具。该工具使用节点连接的方式建立
大,负熵值也越大;负熵值越小,则该系统的无序
程度也就越小。
C4.5 在任意一个可选节点 S 上把数据集 T 分成
T1 ,T2 ,… Tk 个子集,然后通过把各自己的加 权熵值得出平均信息需求。
k
∑ H s (T ) = Pi H s (Ti ) i =1
公式 3
Pi 为子集 i 中记录的比例
信息收益被定义为:收益(S) = H(T) − Hs (T) 。
决贷款人的信用申请的标准。
数据挖掘功能的强大性,使其几乎可以运用于
任何商业或科研领域,为了保障数据挖掘的质量和 有效性,SPSS 公司联合几大行业巨头制定了“数据
1 CRISP-DM 于 1996 年由 SPSS(当时的 ISL)公司,戴姆 勒-克莱斯勒(当时的戴姆勒-奔驰)汽车公司和 NCR 公司共 同制定推出。参见 http://www.crisp-dm.org/Process/index.htm。
8.9
Node 6
Category %
+
53.3
-
46.6
Category %
n
Total
18.4
t
+
-
79.89 139 A15 20.11 35
Total
53.37 174
Node 4 Category % n
Node 7
Category %
u
+
97.1
-
2.8
Total
21.7
>= 104.5
+
-
94.12 80 A04 5.88 5
Node 8
Total
26.07 85
Category %
y
+
78.5
-
21.4
Total
4.2
我们看到,CART 算法的结果都是二元式的,
规则表述起来比较麻烦。同时,我们也想看一下其
它算法的结果。C4.5 是从 Quinlan 提出的 ID3 算法 中衍生出来算法,C5.0 则是 C4.5 的升级版本。C4.5
够深入的话,则很可能得到错误的信息,造成巨大
这一阶段把项目的目标和要求用清晰的,并把
的经济损失。
这些目标和制约条件转化成数据挖掘问题的定义,
本文通过对日本某银行审批客户申请贷款的记 形成一个初步实现目标的策略;
录进行挖掘,展示数据挖掘中可能遇到的问题和解
在本例中,我们的目标是要找出银行批准或否
决思路,并希望能起到抛砖引玉的作用。
本例中,缺失值共有 37 例,占总数据的 5%。 为简化起见,我们简单的把有缺失值的记录进行抛 弃处理。
表格 2 数据缺失值抛弃数量
A1: 12 A4: 6 A6: 9 A14: 13 A2: 12 A5: 6 A7: 9
三、建模阶段 在该阶段,我们需要选择合适的模型来进行机
器学习,并对模型的设置进行校准和优化。在选择 模型时,我们可能会使用一种或多种模型解决同一 个数据挖掘问题,以判断最优化模型和对问题的解 决有更深入的认识。在该阶段,我们也可能要回到 数据准备阶段对数据进行调整以适合建模需要。
CART 算法在 1984 年由 Breiman 等人发明,该 算法严格的按照两元分类法,把每个决策点把数集 分成两个彼此差异明显,而内部尽可能趋同的分支。 CART 通过这种反复穷尽运算,最后把所有可能的 变量和分离值,从而“生成”一颗树。CART 算法 通过下列标准对整个数集进行优化分离。
#类
二、数据准备阶段 大多数商业企业目前都建立大量的数据库,记
载产品信息、交易记录和客户资料。但如果把这些 资料直接进行数据挖掘往往是非常危险的,因为这 些数据库在经过长期的商业操作过程中会出现各种 不正常情况,如错误的录入、新老数据库合并导致 字段错位,或者某些记录出现缺失值,记录中还可 能存在异常值、极端值等,有时候,外界情况的变 化也会导致数据库中的原始记录变得的不合时宜, 譬如地区行政划分变化、电话号码升位等。因此, 对于数据挖掘工作来说,数据准备阶段一般在建模 和机器学习前的必需步骤。
银行在评估信用申请者时,一般会根据申请人 的职业、收入、贷款用途等进行判断。“决策树”算 法能根据字段内容对整个数据集进行逐步分类,并 给出直观和易于理解的分类规则,因此在本例中我 们选用该种方法。Clementine 提供了两种决策树算 法模型:分类回归树(CART)和 C5.0。我们将对 两种方法都采取使用,并进行对比。
掘功能。 目前国内不少企业也正在引进
和开始实施这些技术,以期提高其
节点7 总成本2
成本报表1
节点9 汇总成本
节点8 总成本1
决策管理能力和竞争优势。但数据
挖掘不仅仅是一个技术运用问题,
节点10 汇总成本
成本报表2
其涉及到商务活动中的各个方面。
如果我们对所研究的问题和数据挖掘方法的认识不 一、商业理解,亦即研究理解阶段
-
55.21 180
Total 100.00 326
f
+
-
4.61 7 95.39 145
Total
46.63 152
Node 2
< 104.5
Node 3
Category % n
+
66.29 59 A14
-
33.71 30
Total
27.30 89
< 93.5 >= 93.5
+
93.1
-
6.9
Total
∑ Φ(s | t) = 2PLLPR P( j | tL ) − P( j | tR ) 公式 1 j=1
其中
tL =节点 t 的左子节点
PL
=
t
处的记录数
L
训练集的总记录数
t R =节点 t 的右子节点
PR
=
t R处的记录数 训练集的总记录数
P(j |
tL)
=
t L节点处j类的记录数 t节点的记录数
信息量就小。如果事先就确切地知道消息的内容,
那么消息中所包含的信息量就等于零。
假设变量 X 可取 k 种可能的值,各值的概率分
别为 p1,p2,…,pk ,则 X 的负熵值被定义为:
∑ H ( X ) = − p j log2 ( p j ) j
公式 2
举例来说,抛一枚硬币出现正面的概率为 0.5, 则该事件的信息量为 − log2 (0.5) = 1 bit,表示出现正 面的概率可能为 0 或 1。信息量越大,无序度就越
A1: b, a
A9: t, f.
A2: 连续型 A3: 连续型
A10: t, f. A11: 连续型
A4: u, y, l, t. A5: g, p, gg.
A12: t, f. A13: g, p, s.
A6: c, d, cc, i, j, k, m, r, q, w, x, e, aa, ff. A14: 连续型
可视化数据挖掘应用实例一则——某银行信贷规则评估
吴源林 (上海财经大学 MBA 学院,上海 200083)
摘要:本文应用 Clementine 工具,通过对某银行评估客户信用申请的资料挖掘,展示 了数据挖掘中遇到的问题和解决思路。
关键词:数据挖掘;决策树;Clementine
数据挖掘是运用模式识别技术,以及统计和数 挖掘跨行业标准流程”(CRISP-DM1)。我们下面的
则可能会影响样本整体的真实性和准确性。 b. 分析者用某些恒量替换缺失值。这种方法主要依
赖于分析者对数据分析问题的认识和分析要求。 c. 用字段平均值或者中位数替换缺失值。这种方法
会强化数据中的“典型”值,从而使得分析结果 过于乐观。 d. 根据该字段中的数值分布情况,随机生成数值替 换缺失值。这种方法可能比平均值替换法略好一 些,但如果记录中的字段间存在某种关联关系, 如体积与质量,则这种处理方法有时候会抹杀这 种关联关系。
他们获取竞争优势的战略工具,典 型的数据挖掘应用包括生产营运管 理、营销管理和信用分析等。一些
节点3 训练组 节点1 crx.d... 节点2 过滤缺失值 定义数据类型
C5.0建模(未考虑误分类)
软件公司也推出了功能wenku.baidu.com大、用户
C5.0建模(已考虑误分类)
友好的数据挖掘应用软件,如 SAS
公司的 Data Miner,SPSS 公司的
在建模时,我们一般把数据分成三组:训练组 (Training Group)、评估组(Evaluating Group)和 预测组(Predicting Group)。我们用训练组数据进行 建模,然后用评估组对模型进行评估,最后使用模 型来对预测组进行预测。在本例中,我们只想通过 机器学习建模生成信用评估规则,因此我们把数据 用两个“Sample 采样”(节点 3)分成训练组和评估 组两部分。
在本例中,我们要挖掘的数据来自某银行2信用 申请者的历史资料。首先,我们对该数据进行探索 式分析,对数据结构和组成进行初步了解,并评估 数据的质量。
该数据库一共用 690 条数据,每条数据有 15 个 属性。由于商业保密的缘故,这些属性名称和数值 都转换成无意义的符号。为了便于理解,我们可以 认为 A1 字段代表性别,A2 代表收入等,但这些字 段的具体含义并不会影响我们的分析。最后的 A16 为类别属性,用+/-号表示,可以认为为信用申请 被通过或被否决。 表格 1 数据库变量结构和记录类型
我们也可以在 Clementine 中切换到“View 视 角”,可以更明显的看出这种方法被称作“决策树”
的原因:它就像一棵树一样不断繁衍枝杈(向右偏
转)。
图表 3
$R-A16
Node 1
Node 5
Category %
n
Category %
Node 0
Category % n
+
44.79 146 A09
CART规则集(未考虑误分类) 节点5 CART Analysis
Clementine,IBM Intelligent Miner 等,微软公司在其客户关系管理软 件 CRM3.0 中也集成了部分数据挖
C5.0 AnalysisC5.0规则集(已考虑误分类)节点4 评估组
C5.0规则集(未考虑误分类) 节点6 C5.0 Analysis
a. 抛弃存在缺失值的记录。但这种方法实际上把这 些记录的有用信息也一并抛弃了。在实际应用中, 我们往往会碰一些存在大量缺失值的数据集,如 商业调查中客户往往拒绝回答某些敏感性问题, 如收入等。如果简单把这些缺失值进行抛弃处理,
2 该数据库来自芝加哥大学尔湾分校知识发现数据档案库 UCI Knowledge Discovery in Databases Archive, ftp://ftp.ics.uci.edu/pub/machine-learning-databases/credit-scree ning/
算法使用信息论中“信息收益”或者“熵减少”概
念来选择优化分离点。不同的数据资料中包含的信
息量都不会相同:有的数据资料包含的信息量多一
些,有的则少一些,有的不包含信息量,甚至包含
有错误信息。信息量的大小取决于信息内容消除人
们认识的不确定程度。消除的不确定程度大,则发
出的信息量就大;消除的不确定程度小,则发出的
多种学科技术,能提供数据分类、聚类、关联和预 模型,能让我们直观了解建模过程,并把注意力集
测等功能。
中在具体问题的分析上。
近年来,数据挖掘技术已经在
国外多行业中得到了普遍应用,尤 其在金融、电信、零售等领域。许
图表 1 Clementine 模型节点
CART建模(未考虑误分类)
多企业纷纷利用数据挖掘技术作为
A7: v, h, bb, j, n, z, dd, ff, o.
A15: 连续型
A8: 连续型
A16: +,- (分类属性+: 307 (44.5%);
-: 383 (55.5%))
同时,我们注意到,数据库中某些字段存在缺 失值的情况。在进行数据分析时,缺失值是我们会 经常碰到的问题,而这些缺失值有时会对分析结果 造成很大的影响。一般在处理缺失值时有几种方法:
P(j |
tR
)
=
t R节点处j类的记录数 t节点的记录数
为取得优化分离效果,CART 会在分离点 t 处
取 Φ(s | t) 的最大值。该例中的实际分离结果如下:
图表 2 CART 分离节点
从计算结果来看,数据集被 A09 字段分成了两 个分支,客户 A09 值为“f”的共有 304 例,被拒绝 的有 286 例,分离率达 94.08%;剩余 349 例被 A10\A06\A14\A03 再次分离,A03 值小于“2.52” 的共 29 例,分离率达 75.9%;以此类推。
相关文档
最新文档