基于主成分线性加权综合评价的信用评分方法及应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

65
评估 中所使用的 指标比较 少, 在现 有计算 机条件 下, 主 成
分使 用个数的多 少没有太 大的区别, 之所 以使用 该方法,
主要目的有:
¹ 获得客观权重系数。
主成分方法强调差异性原理, 获得的系数是完全基 于
数据本身, 这样得到的指标权重系数, 具有 客观性, 避免 太
多的人为干扰。
º 可 以很方便地 解决由于 宏观因素 不同及 人口漂 移
目前我国银行在确立发卡对象时, 也采用评分作为 辅 助方 法[ 4] , 但 在我国 目前的 信用环 境下, 我国各 商业银 行
现有的评分方法在实际应用中受到了极大的限制, 突出表 现为: ¹ 选取的指标少; º 评分方法的适应性有问题。
第一个问题主要受信用环境的客观影响, 对其改进也 将建立在整个信用环境的改善基础上, 这是一个渐进的过 程。本文的目的是针对第二个问题即模型的适应性 , 提出 一种改进 的评分方法, 该方 法理论上 具有较好 的适应 性, 实证结果 显示, 符 合信用卡 风险管理 的理论的 要求, 并优 于现有方法, 从测试结果来看, 具备较好的推广应用价值。
第 22 卷第 8 期( 总第 128 期) 系 统 工 程 2004 年 8 月 Syst ems Engineering
文章编号: 1001-4098( 2004) 08- 0064-05
Vol. 22, No. 8 Aug. , 2004
基于主成分线性加权综合评价的信用评分方法及应用X
类 的有 28 人, 其中 1 个 是坏的, 其 坏人的 比率 是 3. 57% 倍) :
( 可以近似表示类 的违约率) , 同理综合 得分在 34~68 分 的 作 为 第 二 类, 表 示 信 用 好 的, 该 类 的 坏 人 比 率 为 6. 25% ; 依次得到 6 类。坏人比率 的大小, 可以看作是 每 类 风险的大小, 坏人 比率( 可近似看成 违约率) 越 大, 风 险
余类似处理。
( 3) 进行主成分计算
进行主成分计算时, 首先检验数据是否适合使用主 成
分分析方法 , 检验该方 法的工具主要是 KMO 和 Bar relett
球度 检验, 当 KMO 值 大于 0. 5 球度检 验为显 著时, 使 用
主成分方法是合适的。
( 4) 构建预测函数模型
设选择了 s 个主成分, 则可得估计样 本的评分函数为
y = 0. 49X 1 + 7. 07X2 + 6. 79X3 + 8. 60X4 + 4. 39X5
+ 6. 16X6 + 0. 48X7 + 4. 73X 8 + 5. 50X9 + 6. 97X10
+ 8. 00X11 + 7. 48X12 + 8. 16X13 + 7. 93X14
2 改进方法的基本思想和构造步骤
在综合评 价函数中, 指标 系数如 何得到是 关键因 素, 该系数至少必须满足以下条件, 才能 较好地具有前文所述 的适应性:
¹ 能够较好地随着样本变化而变化; º 客观性; » 能够保证评价结果的合理性。 针对这些条件, 我们使用主成分 方法来获得系数。主 成分方法( Pr incipal Component s Analysis ) 是由 Hotelling 于 1933 年 提出的, 是利用降 维的思 想将多 指标转 化为少 数几个综合指标的多元统计分析[ 5] 。该方法的特点主要体 现在降维 作用和根据 数据本身 差异性给出 指标间 的相对 重要性。本方法使用主成分方法计算指标系数的主要目的 不在于降 维以减少问 题的复杂 度, 因 为, 在 现有个 人信用
0. 0357
第2类 91 5 96
0. 0521
第3类 35 7 63 42 0 0. 15
第4类 21 0 10 7 31 7
0. 3375
第 5类 58 49 1 07
0. 4579
好人/ 坏人
27
18. 2
5. 67
1. 96
1. 18
* 每类分值包括下限值不含上限值。
< - 68 第 6类
12 20 32 0. 625 0. 6
总数 7 55 2 45 1 00 0
第 8 期 李建平, 徐伟宣等: 基于主成分线性加 权综合评价的信用评分方法及应用
67
如果申请人的综合得分在 68 分以上即大于两倍标 准 果, 按公式( 3) 可以计算出指标系数, 并得到 综合得分函数
差的, 则作为第一类, 表示信用最高。在样 本中, 属于这 一 为 ( 为 方便 表 示 同 时与 得 分 对 应, 各 系数 均 扩 大 了 100
i= 1
( 5) 划分信用等级
根据计算样本的综合得分以及好人坏人的分布 情况,
按照一定的标准和方法设定信用等级, 即给综合得分划分
类别。
( 6) 利用综合函数预测新样本的得分
新申请人 的数据经过 与样本相 同的预 处理并 标准化
后, 使用公式( 3) 计算综合得分, 根据步骤 5 划定的信用等
级, 决定是否给予其信用卡。
选取的原 始评价指标 包括年龄、收入等 14 个, 使用 SP SS 11. 0 作为计算工具[ 6] 。
( 1) 训练样本的计算结果 经过 数 据 预处 理 后 SP SS 给出 KMO 值 为 0. 787> 0. 5, Ba rtlett 球度检验为显著, 表示进行主成分分析是合 适的。取特征值大于 0. 8 作为截取因子的标准, 用正交极 大法转动 方差, 进 行因子分 析, 选取前 10 个主 成分, 此时 方差总解释量为 86. 74% 。 通过各因 子的权重系 数并按照 回归法 计算出 最后的
坏人数的比值作为主成分计算的输入数 据。这 不但保证了
各指标数据具有同一的方向性, 且都有经济意义。例如, 对
于 年龄指 标, 将其分 为 18- 22, 23- 34, 35- 40, 41- 60,
60 以上 等 5 个具体类别, 样本中 18- 22 年 龄段中有好 人
60 个, 坏人 34 个, 则该项输入数据 定为 1. 765( 60/ 34) , 其
1 引言
随 着招商银行 “2003, 信用 卡元年”概 念的提 出后, 我 国信用卡市场出现了前所未有的激烈竞 争, 各商业银行 由 此展 开的宣传战、产品 战、价 格战、地域战 等随处 可见, 信 用卡规模急速扩大。出于战略方面的考虑, 现阶段各银 行 都将业务的重点放在了提高发卡量上, 由此不可避免的 带 来对于发卡标准的宽泛化。从发达国家的 经验来看, 随 着 信用卡规模的扩大, 信用卡风险的防范与化解将会成为 焦 点, 宽泛的发 卡标准将 带来更大的 风险, 特别是 在社会 信 用体系还没有效建立和发挥作用的情况 下。因此, 如何 有 效分 析客户的信 用卡风险 状况, 确 立合理 的发卡 标准, 不 仅是发卡机构的首要任务, 而且还是银行进行市场竞争 的 有力武器。
F = a 1z1 + a2z 2 + … + aszs
( 1)
式中, z i 为第 i 个主成分, a i 为贡献率:
ai =
Ki
k
∑Km
m= 1
l
∑Km
atl =
m= 1 k
, i , l = 1, 2, …, k
∑Km
m= 1
( Ki 为从大到 小排列 的第 i 个特征 值, a tl 为主成 分 z 1 到 zl
综合得分, 该样本 得分结果 显示了很 好的正态 分布特 性, 如图 2 所示: 均值为 0, 标准差 为 34. 18( 考虑实际状 况, 将 计算分值扩大了 100 倍) 。我们根据该特征 使用标准差分 类方法, 即按均值、一个标准差和两个标准差作为分 类点, 将样本分为 6 类, 每类的相关情况列于表 1。
本组的数据用于构造预测模型, 而测试样本组的数据用 于
验证预测模型的有效程度。
( 2) 数据的预处理
为保证主成分方法使用的准确性, 将对原始数据进 行
预处 理, 主要 是保证数 据具有同一 的方向 性, 并 且使指 标
数据具有经济含义。按照该思想, 本文将样本数据先按 某
银行的现行标准分类, 然后使用某一具体类中的好人数 与
挖掘技术; 徐伟宣( 1941-) , 男, 广东人, 中国科学院科 技政策与管理科学研究所研究员, 博士生导师, 研 究方向: 金融与管理科学, 规划与 优化; 石勇( 1956-) , 男, 中国科学院研究生院教授, 博士生导师, 研究方向: 数据挖掘技术, 多目标规划。
第 8 期 李建平, 徐伟宣等: 基于主成分线性加 权综合评价的信用评分方法及应用
李建平1, 徐伟宣1, 石 勇2
( 1. 中国科学院 科技政策与管 理科学研究所, 北京 100080; 2. 中国科学院 研究生院, 北京 100039)
摘 要: 基于我国商业 银行现有的信用卡评 分标准和信用评分 方法, 提出 一种基于主成分线性 加权的综合评 价的信用评分方法。其优点在于能够实现指标项权重 的客观性、能方便地适应我国不同地区由于经济文化 的 差别而带来 的信用环境不同以 及一个地区由于人 口漂移快而带来的评 分变化。实证检验表明 模型训练结果 符合信用卡风险管理实际, 测试结果显示有较好的应用前景, 与现有银行评分标准对比的研究表明, 本文的 方 法具有明显优势。 关键词: 信用卡; 风险管理; 信用评分; 主成分分析 中图分类号: F 830 文献标识码: A
等造成的评价偏差。
根据主成分方法的特点, 当样本不同时会得到不同 的
主因 子和系数, 这样可 以将经济环 境相差 比较大 的地区,
作 为不同 的样 本来计 算, 得出 不同 的计 算得 分的 综合 函
数, 并由此设定与此相对应的信用等级标准和信用额度 标
准。基于相同的原因, 该方法也可以很方便地实现同一 地
区综合评价函数的动态变化, 一旦银行认为一个地区的 人
口漂移比较大时, 就可以根据新的样本调整得分函数。
本方法具体的构造过程可以分为以 下几个步骤。
( 1) 研究样本的选取
选取一定数量的“好人”和“坏人”组成 的历史样本, 其
好人和坏人的定义由各银行自己给出。将总样 本随机分为
两组, 一组为训练样本组, 另外一组为测试样本组 。训练样
方法的基 本思想和实 现步骤可 以通过 图 1 来 直观表
示。
3 实证结果
对本文第二部分所述的模型方法进行实证检验 , 使用 的样本情况如下:
总样本为 1350 个 实际信 用卡数 据记录, 训练 数据集 为 随机 抽取 的 1000 条记 录 ( 其中 755 个好 人, 245 个 坏 人) , 测试 数据集为 剩余的 350 条记录 ( 262 个 好人, 88 个 坏人) 。
在 信用卡 风 险管 理中, 信 用评 分是 应用 最广 泛的 技 术[ 1, 2] 。信用评分是商业银行在大批量处理小额贷款类 型 通常所采用的数量方法, 是基于银行大量历史数据建立 评 分模型的基础上, 对贷款的申请人或者现有的贷款预测 违 约可能性的一种技术。银行在采集特定的 申请人资料后, 就通过信用评分系统给出一个分数, 银行能够很快地据 此 确定是否向其发放贷款[ 3] 。
X 收稿日期: 2004-01-16 基金项目: 中国科学院院长基金资助项目( yjj z946) ; 中科院科技政策与管理科学研究所所长基金资助项目( 0343sz) 作者简介: 李建平( 1976-) , 男, 浙江建德人, 中国科学院科技政策与管理科学研究所助理研究员, 博士, 研究方向: 风险管理与数据
的累积 贡献率。) 又 第 i 个主成 分可以 表现为 n 个原 始指
标的线性组合:
Zi = bi1x1 + bi2x2 + … + binxn
(2)
将( 2) 代入( 1) 可得:
F = c1x1 + c2x2 + … + cnxn
(3)
其中
s
∑ cj =
a ibij , i = 1, 2, …, s; j = 1, 2, …, n
66
系 统 工 程 2004 年
图 1 本文方法的基本思想和实现步骤
图 2 样本综合得分分布情况 表 1 训练样本( 1000) 的分类结果
得分值
≥68
34 ~68
0 ~34
- 34~0 - 68~- 34
类 别 好人数 坏人数 Tot al 坏人源自文库率
第1类 27 1 28
相关文档
最新文档