第三讲:信用评级模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
existcr foreign
input input
interval binary
good_bad history
target input
binary ordinal
credit rating credit history 0: no credits taken / all credits paid back duly 1: all credits at this bank paid back duly 2: existing credits paid back duly till now 3: delay in paying off in the past 4: critical account / other credits existing (not at this bank) housing 1: rent 2: own 3: for free
数据的拟合值 yˆi 。引入阀值 i ,大于
log it
因marital变量含有性别和婚姻的信息,这两个信息都是个人基本信
息,如果将它们提出为独立变量,可能对响应预测有利,因此,我们将 marital分为两个变量,即 sex表示客户性别 maritals表示客户婚姻状况
设置变量角色
信用评级就是要用申请者个人信息预测响应,这里good_badN就是
•因全部的数据文件仅为1000个观察样本,所以选择全部的数据建模; •数据集设为RAW角色; •在数据中,good_bad变量反映了客户信用的响应变量,因此,预备选择 good_bad为建模模型的目标变量,修改good_bad变量为Target角色。
a exp b x 1
Interval变量有三个(durations、 amount和age),其它均为分类变量。 观察good_bad变量直方图:
因数据文件仅有三个区间变量,没有缺失值,DURATION和AGE没有明显奇异 值,仅需观察AMOUNT变量的分布。
偏态
x
数据作对数变换后(即LOG(AMOUNT)), 数据表现出正态分布,奇异值也仅为最小值。
f Pj
变量变换
将AMOUNT变量作对数变换,变换后的变量命名为LAMOUNT, 并把它角色设置为input,而AMOUNT变量角色设置为rejected。
具体贷款变量
•Amount:信用卡保证金 •Purpose:贷款目的 •Duration:贷款期 •Installp:可支配收入情况 •Other:其它资产
债权人财产变量
•Housing:房产情况 •Depends:动产数 •Existcr:在本银行是否有信用卡
Variable age amount checking
数据变换
•插入Create Variable节点作数据变换; •定义反映信用响应的新响应变量good_badn,作为建模的目标变量。
我们观察Duration变量的分布:
从直方图中知, Duration变量值从4~72,值太多,不利于信用模型的 解释。因此,为了简化分析,即使丢失一点信息,我们还是应该将Duration 变量化为二值变量。
martial
input
nominall
other
input
nominal
other installment plans 1: bank 2: stores 3: none property 1: real estate 2: if not 1, building society savings agreement / life insurance 3: if not 1 or 2, car or others 4: unknown / no property purpose 0: new car 1: used car 2: furniture / equipment 3: radio / television 4: domestic appliances 5: repairs 6: education 7: vacation 8: retraining 9: business x: others
样本的响应变量,即设置为target角色,其它设为input角色。但创建的
新变量的信息代替了旧变量信息,所以在后面建模中要去掉旧变量,即 把good_bad、checking、duration、marital设置为rejected角色。 good_badN、good_checking、bad_checking、sex、martials五变 量New Measurement设为binary。
housing
input
nominal
installp
input
interval
installment rate in percentage of disposable income
job
input
ordinal
job 1: unemployed / unskilled non-resident 2: unskilled resident 3: skilled employee / official 4: management / self-employed / highly qualified employee / officer
IG(m) y 1 h g z
k
变量筛选
下面我们探索其它变量与目标变量的关联强度,这是寻找变量在识别响应
中的效果的工作。虽然,一元分析不能完全提示变量间的关系,但它是建立多
Model Role input input input
Measurement interval interval nominal or ordinal
Description age in years credit amount status of existing checking account 1: ... < 0 DM 2: 0 <= ... < 200 DM 3: ... >= 200 DM 4: no checking account
property
input
nominal or ordinal
purpose
input
nominal
resident savings
input input
interval nominal or ordinal
presen来自百度文库 residence since status of existing saving account or bonds 1: ... < 100 DM 2: 100 <= ... < 500 DM 3: 500 <= ... < 1,000 DM 4: ... >= 1,000 DM 5: unknown / no saving account telephone 1: none 2: yes, registered under the customer's name
数据探测
首先,我们要初步了解目标变量和其它变量的分布,目的是:
数据是否存在大量的缺失值; 数据是否可能存在严重影响建模稳定性的奇异数据; 变量服从的分布是否适合模型条件。
其次,我们要作一般变量与目标变量的交叉分析,以了解其它变量与目标 变量的相关性和优势率。目的是: 选择建模重要变量,减少参与建模的变量,提高计算效力; 检查变量间的共线性性,提高模型精度; 为模型解释作好准备。
coapp
input
nominal
other debtors/guarantors 1: none 2: co-applicant 3: guarantor number of dependents duration in months
depends durations
input input
interval interval
第三讲:信用评级模型
主讲:梁满发
工作目标
信用评级就是对贷款申请者进行信用评估,目的是减少贷方(银行、投资 公司、信用卡公司)的金融风险。 信用评级模型还可用于人才甄聘、绩效考核、投资风险评估、犯罪识别等 工作中。 现在我们以某金融机构对客户信用卡申请审批工作为背景,运用数据挖掘 方法建立信用评分的模型,对申请者给以信用评分,产生一个自动决策系统帮 助决定接受或拒绝信用申请。 我们把信用合格者视为响应,不合格者视为非响应。我们要作信用评级 就是寻找信用合格者与不合格者之间的行为模式或社会背景的差别,以此来 判别某种特定的申请者信用。因此,我们必须要有足够的高质量的客户信用
telephon
input
binary
具体工作目标:
(1)找出影响信用重要因素,决定信用评级考查的重要内容; (2)建立信用评分模型,找出信用高或信用低的人群特征; (3)编写信用评分模型程序代码; (4)计算申请者的信用得分,并完成准批还是拒绝工作。
数据抽样
•插入input data source节点,选取SAMPSIO库中的DMAGECR 数据文件;
观察数据,既要包括足够的响应和非响应,以及相应的客户金融行为信息和
社会背景信息,这些信息可是区别不同信用者因素。
在此,我们有某德国银行的客户信用的历史数据,数据文件名为 SAMPSIO.DMAGECR。数据含有1000个申请者观察,其中有21个变量, good_bad是表示信用的二值响应变量。它是从银行内部一个更大的数据库 中抽样出来的,原数据库中仅有10%的响应(信用不合格者),为了有足 够的响应数据供分析,才取了重抽样方式,抽取的样本中响应占样本数的 30%。 除good_bad变量外的其它20变量意义如下: 社会人口变量
personal status and sex 1: male -- divorced / separated 2: female -- divorced / separated / married 3: male -- single 4: male -- married / windowed 5: female -- single
P Y 1
因为Checking变量有四个值,信息冗余,不利解释响应变量,因此,
我们将Checking拆分为两个变量,即
good_Checking表示”好帐户“,即“余额大于200马克”为1,其它 为0; bad_Checking表示”坏帐户“,即“负余额”为1,其它为0。
一旦根据数据计算出 i ,就能得到
•Marital:性别与婚姻状况 •Age:年龄 •Resident:在现住所的居住年数 •Telephon:电话号码
个人和金融变量
•Checking:银行帐户情况 •Savings:存款数量 •History:使用信用卡情况 •Property:财富、保险情况 •Coapp:担保情况 •Job:职业类型 •Employed:工作年限 •Foreign:是否是外国职员
一方面,因Duration变量的平均值为20左右,分布偏左态;另一方面,
金融行业习惯将贷款分为”长期贷款“和”短期贷款“的概念。因此,决定 期”低于18月的称为“短期贷款”,变量值对应为“0”。新变量命名为 “deadline”。 将“贷款期”超过18月的称为“长期贷款”,变量值对应为“1”;将“贷款
employed
input
ordinal
present employment since 1: unemployed 2: ... < 1 year 3: 1 <= ... < 4 years 4: 4 <= ... < 7 years 5: ... >= 7 years number of existing credits at this bank foreign worker 1: yes 2: no
从图中看出,不可信任的客户有“bad”表示,即响应。而我们习惯 把响应值定为“1”,因此,需要把doog_bad变量重编码,即“bad”对应” 1“,“good”对应“0”。新变量命名为good_badn。 另外,从图中知目标变量响应比例为30%,这个比例不符合一般申 请人群响应的比例。这是由于为了得到足够的响应来分析响应行为,以 重抽样方式得到的样本。虽然不影响建模,但建模时应加以注意。经调 查,申请者总体中约为10%人为有信用风险,90%为没有信用风险。