评分卡模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
评分卡模型
0 引言
信用评分模型是消费信贷管理中的先进的技术手段,是银行、信用卡公司、个人消费信贷公司、电信公司、水电服务公司、保险公司等涉及消费信用的企业实体最核心的管理技术之一。
被广泛应用于信用卡生命周期管理、汽车贷款管理、住房贷款管理、个人贷款管理、其他消费信贷管理等领域,在市场营销、信贷审批、风险管理、账户管理、客户关系管理等各个方面都发挥十分重要的作用。
信用评分模型运用先进的数据挖掘技术和统计分析方法,通过对消费者的人口特征、信用历史记录、交易记录等大量数据进行系统的分析,挖掘数据中蕴含的行为模式、信用特征,捕捉历史信息和未来信用表现之间的关系,发展出预测性的模型,以一个信用评分来总和评估消费者未来的某种信用表现。
信用评分本质上是模式识别中的一类分类问题将企业或个体消费者划分为能够按期还本付息(即“好”客户)和违约(即“坏”客户)两类。
具体作法是根据历史上每个类别(如期还本付息、违约)的若干样本,从已知的数据中找出违约及不违约者的特征,从而总结出分类的规则,建立数学模型,用于测量借款人的违约风险(或违约概率),为消费信贷决策提供依据。
1 基于Logistic回归分析的客户信用评价卡模型
本文将采用 Logistic 逻辑回归分析方法对小额贷款公司的客户信用进行评价。
首先,建立信用评价模型,给出客户信用评分卡模型,并对客户样本进行初步分类预测。
下面的理论基础和变量选择都以该小额贷款公司为例。
1.1 建模的准备
1.1.1 目标变量的定义
研究的目标变量为客户是否具有“违约”行为,本文是以客户逾期未归还贷款定义为“违约”行为(即“坏”客户)。
1.1.2 定量指标的筛选方法
第一种定量指标的筛选方法:用随机森林法寻找自变量中对违约状态影响最显著的指标。
第二种定量指标的筛选方法:计算变量间的相对重要性,并通过相对重要性的排序,获取自变量中对违约状态影响最显著的指标。
第三种定量指标的筛选方法:通过自变量间的广义交叉验证法,获取自变量中对违约状态影响最显著的指标。
第四种定量指标的筛选方法:通过自变量的逐步回归法,获取自变量中对违约状态影响最显著的指标。
第五种定量指标的筛选方法:采用“Boruta”法,获取自变量中对违约状态影响最显著的指标。
1.1.3 定性指标的筛选方法
定性指标的筛选是通过IV值选出适用于建模的指标。
IV的全称是Information Value,中文意思是信息价值,或者信息量。
挑选入模变量过程是个比较复杂的过程,需要考虑的因素很多,比如:变量的预测能力,
变量之间的相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的通)等等。
但是,其中最主要和最直接的衡量标准是变量的预测能力。
“变量的预测能力”这个说法很笼统,很主观,非量化,在筛选变量的时候我们总不能说:“我觉得这个变量预测能力很强,所以他要进入模型”吧?我们需要一些具体的量化指标来衡量每自变量的预测能力,并根据这些量化指标的大小,来确定哪些变量进入模型。
IV就是这样一种指标,他可以用来衡量自变量的预测能力。
类似的指标还有信息增益、基尼系数等等。
从直观逻辑上大体可以这样理解“用IV去衡量变量预测能力”这件事情:我们假设在一个分类问题中,目标变量的类别有两类:Y1,Y2。
对于一个待预测的个体A,要判断A属于Y1还是Y2,我们是需要一定的信息的,假设这个信息总量是I,而这些所需要的信息,就蕴含在所有的自变量C1,C2,C3,……,Cn中,那么,对于其中的一个变量Ci来说,其蕴含的信息越多,那么它对于判断A属于Y1还是Y2的贡献就越大,Ci的信息价值就越大,Ci 的IV就越大,它就越应该进入到入模变量列表中。
前面我们从感性角度和逻辑层面对IV进行了解释和描述,那么回到数学层面,对于一个待评估变量,他的IV值究竟如何计算呢?为了介绍IV的计算方法,我们首先需要认识和理解另一个概念——WOE,因为IV的计算是以WOE为基础的。
这里以年龄(age)为例来帮组了解WOE和IV值的说明和计算公式。
理,假设离散化分为5组,#bad和#good表示在这五组中违约用户和正常用户的数量分布,最后一列是WOE值的计算,通过后面变化之后的公式可以看出,WOE反映的是在自变量每个分组下违约用户对正常用户占比和总体中违约用户对正常用户占比之间的差异;从而可以直观的认为WOE蕴含了自变量取值对于目标变量(违约概率)的影响。
再加上WOE计算形式与logistic回归中目标变量的logistic转换(logist_p=ln(p/1-p))如此相似,因而可以将自变量WOE值替代原先的自变量值;计算公式如下:
WOE i=ln(p yi
p ni )=ln(
B i B T
⁄
G i G T
⁄
)
式中:B i代表第i组“违约”用户的数量,B T代表“违约”用户的总数量,G i代表第i组“正常”用户的数量,G T代表“正常”用户的总数量,
同样,对于每个分组i,都有一个IV值,IV值的计算公式如下:
IV i=(B i
B T −
G i
G T
)∗ln(
B i B T
⁄
G i G T
⁄
)
IV=∑IV i
n
k=0
IV 值衡量的是解释变量对于目标变量的影响显著水平。
在使用 IV 值来考虑解释变量对于目标变量的影响时,解释变量筛选、解释变量赋值编码和模型稳健性评估这些有先后顺序的过程可以同时进行。
筛选出能够较好地预测目标变量的解释变量,并同时给出这些解释变量的一个合理的赋值编码结果。
在进行建模前选择入模变量一般选择IV值较大的变量。
1.1.4 WOE值计算
对入模的定量和定性指标,分别进行连续变量分段(对定量指标进行分段),以便于计算定量指标的WOE和对离散变量进行必要的降维。
对连续变量的分段方法通常分为等距分段和最优分段两种方法。
等距分段是指将连续变量分为等距离的若干区间,然后在分别计算每个区间的WOE值(计算的方法和公式在上面一节有介绍)。
最优分段是指根据变量的分布属性,并结合该变量对违约状态变量预测能力的变化,按照一定的规则将属性接近的数值聚在一起,形成距离不相等的若干区间,最终得到对违约状态变量预测能力最强的最优分段。
1.2 基于逻辑回归的标准评分卡实现
Logistic回归在信用评分卡开发中起到核心作用。
由于其特点,以及对自变量进行了证据权重转换(WOE),Logistic回归的结果可以直接转换为一个汇总表,即所谓的标准评分卡格式。
1.2.1 基本公式
Logistic回归模型其本身是一个非线性回归模型,经过logit转换(连接函数)将相应变量Y和线性自变量相联系,可以得到一个线性的形式,使用线性回归模型对参数进行估计,所以说logistic回归模型是一个广义线性模型。
下面简单地介绍下Logistic回归模型。
考虑具有n个独立变量的向量x=(x1,x2,…,x n),设条件概率P(y=1|x)=p为根据观测量相对于某事件x发生的概率。
那么Logistic回归模型可以表示为:
P(y=1|x)=
1
1+e−g(x)
这里f(x)=1
1+e−g(x)
成为Logistic函数。
其中g(x)=w0+w1x1+⋯+w n x n,那么在x 条件下y不发生的概率为:
P(y=0|x)=1−P(y=1|x)=1−
1
1+e−g(x)
=
1
1+e g(x)
所以这个比值称为事件的发生比(the odds of experiencing an event),简记为odds。
对odds取对数得到:
ln(P
1−P
)=g(x)=w0+w1x1+⋯+w n x n
1.2.2 建立模型
利用前面的定量指标和定性指标的筛选出来的指标作为建立模型的入模变量,利用这些变量构建Logistic回归模型,得到对应的回归方程和回归模型的系数。
1.2.3模型评估
通常一个二值分类器可以通过ROC(Receiver Operating Characteristic)曲线和AUC 值来评价优劣。
很多二元分类器会产生一个概率预测值,而非仅仅是0-1预测值。
我们可以使用某个临界点(例如0.5),以划分哪些预测为1,哪些预测为0。
得到二元预测值后,可以构建一个混淆矩阵来评价二元分类器的预测效果,如表2所示。
所有的训练数据都会落入这个矩阵中,而对角线上的数字代表了预测正确的数目,即TP + TN。
ROC全称是“受试者工作特征”(Receiver Operating Characteristic)曲线,我们根据模型的预测结果对样本进行排序,按此顺序组个把样本作为正例进行预测,每次计算出两个重要量的值,分别以它们为横、纵坐标作图,就得到了“ROC曲线”。
ROC曲线的纵轴是“真正例率”(True Postive Rate,简称TPR), 横轴是“假正例率”(False Postive Rate,简称TPR),基于表2中的符号,两者的定义如下:
TPR=
TP TP+FN
FPR=
FP TN+FP
显示的ROC曲线的图称为“ROC图”,如图1所示。
图1 ROC曲线和AUC
ROC绘图过程是:对于给定的样本集,根据建立的模型预测结果对样例进行排序,然后把分类阈值设为最大,即把所有样例均预测为反例此时真正例率和假正例率均为0,然后,将分类阈值设为每个样例的预测值,分别计算它们的TPR和FPR,得到一系列的FPR和TPR值,将它们为坐标画出ROC曲线图。
用下面的例子来详细讲解画图步骤。
假设已经得出一系列样本被划分为正类的概率,然后按照大小排序,下图是一个示例,图中共有20个测试样本,“Class”一栏表示每个测试
样本真正的标签(p表示正样本,n表示负样本),“Score”表示每个测试样本属于正样本的概率。
Inst# Class Score Inst# Class Score
1p 0.9 11 p 0.4
2p 0.8 12 n 0.39
3n 0.7 13 p 0.38
4p 0.6 14 n 0.37
5p 0.55 15 n 0,36
6p 0.54 16 n 0.35
7n 0.53 17 p 0.34
8n 0.52 18 n 0.33
9p 0.51 19 p 0.30
10n 0.505 20 n 0.1 接下来,我们从高到低,依次将“Score”值作为阈值threshold,当测试样本属于正样本的概率大于或等于这个threshold时,我们认为它为正样本,否则为负样本。
举例来说,对于图中的第4个样本,其“Score”值为0.6,那么样本1,2,3,4都被认为是正样本,因为它们的“Score”值都大于等于0.6,而其他样本则都认为是负样本。
每次选取一个不同的threshold,我们就可以得到一组FPR和TPR,即ROC曲线上的一点。
这样一来,我们一共得到了20组FPR和TPR的值,将它们画在ROC曲线的结果如下图:
而AUC(Area Under Curve)被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。
又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。
使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。
1.2.4 评分卡的创建
由逻辑回归的基本原理,我们将客户违约的概率表示为p,则正常的概率为1-p。
因此,可以得到:
odds=
p 1−p
此时,客户违约的概率p可表示为:
p=
odds 1+odds
评分卡设定的分值刻度可以通过将分值表示为比率对数的线性表达式来定义,即可表示为下式:
Score=A−Blog(odds)
其中,A和B是常数。
式中的负号可以使得违约概率越低,得分越高。
通常情况下,这是分值的理想变动方向,即高分值代表低风险,低分值代表高风险。
逻辑回归模型计算比率如下所示:
log(odds)=β0+β1x1+⋯+βn x n
其中,用建模参数拟合模型可以得到模型参数β0,β1,…βn。
式中的常数A、B的值可以通过将两个已知或假设的分值带入计算得到。
通常情况下,需要设定两个假设:
(1)给某个特定的比率设定特定的预期分值;
(2)确定比率翻番的分数(PDO)
根据以上的分析,我们首先假设比率为x的特定点的分值为P。
则比率为2x的点的分值应该为P+PDO。
代入式中,可以得到如下两个等式:
P=A−Blog(x)
P+PDO=A−Blog(2x)
通过上述的两个公式可以计算出A和B的值,评分卡刻度参数A和B确定以后,就可以计算比率和违约概率,以及对应的分值了。
通常将常数A称为补偿,常数B称为刻度。
则评分卡的分值可表达为:
Score=A−B(β0+β1x1+⋯+βn x n)
式中:变量x1是出现在最终模型中的自变量,即为入模指标。
由于此时所有变量都用WOE转换进行了转换,可以将这些自变量中的每一个都写(βiωij)δij的形式:Score=A−B{β0+(β1ω11)δ11+(β1ω12)δ12+⋯+(β2ω21)δ21+(β2ω22)δ22+⋯
+(βnωn1)δn1+(βnωn2)δn2)+⋯}
式中ωij为第i行第j个变量的WOE,为已知变量;βi为逻辑回归方程中的系数,为已知变量;δij为二元变量,表示变量i是否取第j个值。
上式可重新表示为:Score=(A−Bβ0)−(β1ω11)δ11−(β1ω12)δ12−⋯−(β2ω21)δ21−(β2ω22)δ22−⋯
−(βnωn1)δn1−(βnωn2)δn2)−⋯
此式即为最终评分卡公式。
如果x1…x n变量取不同行并计算其WOE值,式中表示的标准评分卡格式,如表3所示:表3表明,变量x1有k1行,变量x2有k2行,以此类推;基础分值等于(A−Bβ0);由于分值分配公式中的负号,模型参数β0,β1,…βn。
也应该是负值;变量x i的第j行的分值取决于以下三个数值:
(1)刻度因子B;
(2)逻辑回归方程的参数βi;
(3)该行的WOE值,ωij
2 实例-个人住房贷款
2.1 样本选择
本例利用了某国有商业银行下属支行2010年到2011年之间,共计3000个房按揭贷款申请者的资料。
本文所利用的变量包括 80余个基础变量及200多个衍生变量,其变量主要来源于贷款申请者的申请表数据及申请者的人民银行征信报告。
在数据探索与数据描述阶段,删除了缺失度超过 50%的变量及 IV(信息值)低于 0.1 的变量,初步形成了30 余个基础变量及 50多个衍生变量。
表2.1 变量展示表
结合个人住房贷款业务特点,评分卡模型更多的适用于对于已通过人工审核的贷款者的再判断。
因此,本文所建立的评分卡适用客群为已通过人工审核的个人按揭贷款者。
故而,本次评分卡项目的目标为对通过人工审核的贷款者进行风险再判断,识别出潜在违约客户,降低个人按揭贷款的整体不良率,增加银行整体收益。
好坏客户。
由于个人贷款周期较长,我们无法等到贷款合同结束后,准确了解到每个客户的表现再进行建模。
只有在表现时间窗内,将发生过某件不利事件的客户(此不利事件极大可能预示着可能给银行带来某些损失)定义为坏客户。
基于历史账户的滚动率分析,若连续逾期 6 次以上(包括 6 次),则滚动率近乎100%。
因此,本次评分卡项目中,将坏客户定义为在表现时间窗内,曾经发生过连续 6 次逾期及以上的客户;反之,则为好客户。
经过前述的数据探索阶段的单变量筛选过程,样本数据集共包含 30 余个基础变量,50 多个衍生变量,其来源主要有贷款时所提交的申请表数据及贷款者的人行征信报告。
将这些变量汇总为 4 大类别,分别为人口信息类、房屋信息类、收入负债类及公共信息类等。
由于变量众多,下表为部分变量展示如表2.1:
2.2 变量特征的筛选
在得到一个样本数据集后,就需要进行数据变量特征的探索和分析。
本例中,为了生成目标客群基本特征并便于统计,使“好”客户和“坏”客户在这些特征上有最明显的差别,变量选择十分重要。
要选择出供统计分析用的基本特征,亦即后期回归分析的变量,必须对基本信息进行筛选。
但在申请人提供的基本信息中,有些信息是不能分类、形成属性的,如姓名、住址、单位名称等,这类信息对于客户后期还款行为预测难以形成回归分析。
另有一些信息,如子女情况、单位规模等,虽然可以分类统计,但是鉴于该类信息的真实性无法核实或核实成本过高,也不适用于筛选作为基本特征。
2.3 变量属性基本分类
以基本变量“年龄”为例
1、基本变量“年龄”,可分 7 类(属性)。
以变量各属性并按“好”“坏”作分类统计,并
计算它的WOE值和IV值,结果如下表 2.2所示。
展示如表2.3:
变量的信息值在(0.1‐0.3)之间的话,变量解释能力较好;若大于 0.3,则变量的解释能力很强;若小于 0.1,则变量解释能力很弱。
以上所示变量,均有较好的解释能力,可考虑加入到初始模型中。
2.3标准评分卡模型
通常,得分越高表明违约风险越低;反之,得分越低表明违约风险越高。
在本文中,将
优比定义为 60:1(理论违约概率/理论正常概率),对应的分数定义为 600 分,双倍优比分数为 20 分。
因此,本项目中的得分与优比(ODDS)的关系如下:
Score=481.89−28.85log(odds)
由于所有变量均进行了 WOE 转换,我们可利用相关公式,轻而易举地将其系数转换为标准评分卡的各变量得分。
将变量系数进行标准评分卡的转换,有利于我们理解变量的重要性,并进行相关变量的比较。
在此只能列出以下部分变量的标准得分,如下表所示:
表 2.4 变量标准得分表。