评分卡模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
评分卡模型
公司标准化编码 [QQX96QT-XQQB89Q8-NQQJ6Q8-MQM9N]
评分卡模型
0 引言
信用评分模型是消费信贷管理中的先进的技术手段,是银行、信用卡公司、个人消费信贷公司、电信公司、水电服务公司、保险公司等涉及消费信用的企业实体最核心的管理技术之一。被广泛应用于信用卡生命周期管理、汽车贷款管理、住房贷款管理、个人贷款管理、其他消费信贷管理等领域,在市场营销、信贷审批、风险管理、账户管理、客户关系管理等各个方面都发挥十分重要的作用。
信用评分模型运用先进的数据挖掘技术和统计分析方法,通过对消费者的人口特征、信用历史记录、交易记录等大量数据进行系统的分析,挖掘数据中蕴含的行为模式、信用特征,捕捉历史信息和未来信用表现之间的关系,发展出预测性的模型,以一个信用评分来总和评估消费者未来的某种信用表现。
信用评分本质上是模式识别中的一类分类问题将企业或个体消费者划分为能够按期还本付息(即“好”客户)和违约(即“坏”客户)两类。具体作法是根据历史上每个类别(如期还本付息、违约)的若干样本,从已知的数据中找出违约及不违约者的特征,从而总结出分类的规则,建立数学模型,用于测量借款人的违约风险(或违约概率),为消费信贷决策提供依据。
1 基于Logistic回归分析的客户信用评价卡模型
本文将采用 Logistic 逻辑回归分析方法对小额贷款公司的客户信用进行评价。首先,建立信用评价模型,给出客户信用评分卡模型,并对客户样本进行初步分类预测。下面的理论基础和变量选择都以该小额贷款公司为例。
建模的准备
目标变量的定义
研究的目标变量为客户是否具有“违约”行为,本文是以客户逾期未归还贷款定义为“违约”行为(即“坏”客户)。
定量指标的筛选方法
第一种定量指标的筛选方法:用随机森林法寻找自变量中对违约状态影响最显着的指标。
第二种定量指标的筛选方法:计算变量间的相对重要性,并通过相对重要性的排序,获取自变量中对违约状态影响最显着的指标。
第三种定量指标的筛选方法:通过自变量间的广义交叉验证法,获取自变量中对违约状态影响最显着的指标。
第四种定量指标的筛选方法:通过自变量的逐步回归法,获取自变量中对违约状态影响最显着的指标。
第五种定量指标的筛选方法:采用“Boruta”法,获取自变量中对违约状态影响最显着的指标。
定性指标的筛选方法
定性指标的筛选是通过IV值选出适用于建模的指标。IV的全称是Information?Value,中文意思是信息价值,或者信息量。
挑选入模变量过程是个比较复杂的过程,需要考虑的因素很多,比如:变量的预测能力,变量之间的相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的通)等等。但是,其中最主要和最直接的衡量标准是变量的预测能力。
“变量的预测能力”这个说法很笼统,很主观,非量化,在筛选变量的时候我们总不能说:“我觉得这个变量预测能力很强,所以他要进入模型”吧我们需要一些具体的量化指标来衡量每自变量的预测能力,并根据这些量化指标的大小,来确定哪些变量进入模型。IV就是这样一种指标,他可以用来衡量自变量的预测能力。类似的指标还有信息增益、基尼系数等等。
从直观逻辑上大体可以这样理解“用IV去衡量变量预测能力”这件事情:我们假设在一个分类问题中,目标变量的类别有两类:Y1,Y2。对于一个待预测的个体A,要判断A属于Y1还是Y2,我们是需要一定的信息的,假设这个信息总量是I,而这些所需要的信息,就蕴含在所有的自变量C1,C2,
C3,……,Cn中,那么,对于其中的一个变量Ci来说,其蕴含的信息越多,那么它对于判断A属于Y1还是Y2的贡献就越大,Ci的信息价值就越大,Ci的IV就越大,它就越应该进入到入模变量列表中。
前面我们从感性角度和逻辑层面对IV进行了解释和描述,那么回到数学层面,对于一个待评估变量,他的IV值究竟如何计算呢为了介绍IV的计算方法,我们首先需要认识和理解另一个概念——WOE,因为IV的计算是以WOE为基础的。这里以年龄(age)为例来帮组了解WOE和IV值的说明和计算公式。
行离散化处理,假设离散化分为5组,#bad和#good表示在这五组中违约用户和正常用户的数量分布,最后一列是WOE值的计算,通过后面变化之后的公式可以看出,WOE反映的是在自变量每个分组下违约用户对正常用户占比和总体中违约用户对正常用户占比之间的差异;从而可以直观的认为WOE蕴含了自变量取值对于目标变量(违约概率)的影响。再加上WOE计算形式与logistic回
归中目标变量的logistic 转换(logist_p=ln(p/1-p))如此相似,因而可以将自变量WOE 值替代原先的自变量值;计算公式如下:
WWW W =ln (W WW WW )=ln ?(W W W W ⁄W W ⁄) 式中:B i 代表第i 组“违约”用户的数量,B T 代表 “违约”用户的总数量,G i 代表第i 组“正常”用户的数量,G T 代表 “正常”用户的总数量,
同样,对于每个分组i,都有一个IV 值,IV 值的计算公式如下:
WW W =(W W W −W W W )∗ln ?(W W W W ⁄W W ⁄) WW =∑WW W W
W =0
IV 值衡量的是解释变量对于目标变量的影响显着水平。在使用 IV 值来考虑解释变量对于目标变量的影响时,解释变量筛选、解释变量赋值编码和模型稳健性评估这些有先后顺序的过程可以同时进行。筛选出能够较好地预测目标变量的解释变量,并同时给出这些解释变量的一个合理的赋值编码结果。在进行建模前选择入模变量一般选择IV 值较大的变量。
WOE 值计算
对入模的定量和定性指标,分别进行连续变量分段(对定量指标进行分
段),以便于计算定量指标的WOE 和对离散变量进行必要的降维。对连续变量的分段方法通常分为等距分段和最优分段两种方法。等距分段是指将连续变量分为等距离的若干区间,然后在分别计算每个区间的WOE 值(计算的方法和公式在上面一节有介绍)。最优分段是指根据变量的分布属性,并结合该变量对违约状态变量预测能力的变化,按照一定的规则将属性接近的数值聚在一起,形成距离不相等的若干区间,最终得到对违约状态变量预测能力最强的最优分段。 基于逻辑回归的标准评分卡实现
Logistic 回归在信用评分卡开发中起到核心作用。由于其特点,以及对自变量进行了证据权重转换(WOE ),Logistic 回归的结果可以直接转换为一个汇总表,即所谓的标准评分卡格式。
基本公式
Logistic 回归模型其本身是一个非线性回归模型,经过logit 转换(连接函数)将相应变量Y 和线性自变量相联系,可以得到一个线性的形式,使用线性回归模型对参数进行估计,所以说logistic 回归模型是一个广义线性模型。
下面简单地介绍下Logistic 回归模型。考虑具有n 个独立变量的向量
x=(x 1,x 2,…,x n ),设条件概率P(y=1|x)=p 为根据观测量相对于某事件x 发生的概率。那么Logistic 回归模型可以表示为:
P (y =1|x )=11+W −W (W )
这里 f (x )=1
1+W −W (W )成为Logistic 函数。其中g (x )=W 0+W 1W 1+⋯+W W W W ,那么在x 条件下y 不发生的概率为:
P (y =0|x )=1−P (y =1|x )=1−
11+W −W (W )=11+W W (W )