评分卡模型

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

评分卡模型

0 引言

信用评分模型是消费信贷管理中的先进的技术手段,是银行、信用卡公司、个人消费信贷公司、电信公司、水电服务公司、保险公司等涉及消费信用的企业实体最核心的管理技术之一。被广泛应用于信用卡生命周期管理、汽车贷款管理、住房贷款管理、个人贷款管理、其他消费信贷管理等领域,在市场营销、信贷审批、风险管理、账户管理、客户关系管理等各个方面都发挥十分重要的作用。

信用评分模型运用先进的数据挖掘技术和统计分析方法,通过对消费者的人口特征、信用历史记录、交易记录等大量数据进行系统的分析,挖掘数据中蕴含的行为模式、信用特征,捕捉历史信息和未来信用表现之间的关系,发展出预测性的模型,以一个信用评分来总和评估消费者未来的某种信用表现。

信用评分本质上是模式识别中的一类分类问题将企业或个体消费者划分为能够按期还本付息(即“好”客户)和违约(即“坏”客户)两类。具体作法是根据历史上每个类别(如期还本付息、违约)的若干样本,从已知的数据中找出违约及不违约者的特征,从而总结出分类的规则,建立数学模型,用于测量借款人的违约风险(或违约概率),为消费信贷决策提供依据。

1 基于Logistic回归分析的客户信用评价卡模型

本文将采用 Logistic 逻辑回归分析方法对小额贷款公司的客户信用进行评价。首先,建立信用评价模型,给出客户信用评分卡模型,并对客户样本进行初步分类预测。下面的理论基础和变量选择都以该小额贷款公司为例。

1.1 建模的准备

1.1.1 目标变量的定义

研究的目标变量为客户是否具有“违约”行为,本文是以客户逾期未归还贷款定义为“违约”行为(即“坏”客户)。

1.1.2 定量指标的筛选方法

第一种定量指标的筛选方法:用随机森林法寻找自变量中对违约状态影响最显著的指标。

第二种定量指标的筛选方法:计算变量间的相对重要性,并通过相对重要性的排序,获取自变量中对违约状态影响最显著的指标。

第三种定量指标的筛选方法:通过自变量间的广义交叉验证法,获取自变量中对违约状态影响最显著的指标。

第四种定量指标的筛选方法:通过自变量的逐步回归法,获取自变量中对违约状态影响最显著的指标。

第五种定量指标的筛选方法:采用“Boruta”法,获取自变量中对违约状态影响最显著的指标。

1.1.3 定性指标的筛选方法

定性指标的筛选是通过IV值选出适用于建模的指标。IV的全称是Information Value,

中文意思是信息价值,或者信息量。

挑选入模变量过程是个比较复杂的过程,需要考虑的因素很多,比如:变量的预测能力,变量之间的相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的通)等等。但是,其中最主要和最直接的衡量标准是变量的预测能力。

“变量的预测能力”这个说法很笼统,很主观,非量化,在筛选变量的时候我们总不能说:“我觉得这个变量预测能力很强,所以他要进入模型”吧?我们需要一些具体的量化指标来衡量每自变量的预测能力,并根据这些量化指标的大小,来确定哪些变量进入模型。IV就是这样一种指标,他可以用来衡量自变量的预测能力。类似的指标还有信息增益、基尼系数等等。

从直观逻辑上大体可以这样理解“用IV去衡量变量预测能力”这件事情:我们假设在一个分类问题中,目标变量的类别有两类:Y1,Y2。对于一个待预测的个体A,要判断A属于Y1还是Y2,我们是需要一定的信息的,假设这个信息总量是I,而这些所需要的信息,就蕴含在所有的自变量C1,C2,C3,……,Cn中,那么,对于其中的一个变量Ci来说,其蕴含的信息越多,那么它对于判断A属于Y1还是Y2的贡献就越大,Ci的信息价值就越大,Ci的IV就越大,它就越应该进入到入模变量列表中。

前面我们从感性角度和逻辑层面对IV进行了解释和描述,那么回到数学层面,对于一个待评估变量,他的IV值究竟如何计算呢?为了介绍IV的计算方法,我们首先需要认识和理解另一个概念——WOE,因为IV的计算是以WOE为基础的。这里以年龄(age)为例来帮组了解WOE和IV值的说明和计算公式。

表 1 按“年龄”各属性的“好”、“坏”统计

Age #bad #good WOE

0-10 50 200 =ln((50/100)/(200/1000))=ln((50/200)/(100/1000))

10-18 20 200 =ln((20/100)/(200/1000))=ln((20/200)/(100/1000))

18-35 5 200 =ln((5/100)/(200/1000))=ln((5/200)/(100/1000))

35-50 15 200 =ln((15/100)/(200/1000))=ln((15/200)/(100/1000))

50以上10 200 =ln((10/100)/(200/1000))=ln((10/200)/(100/1000))

汇总100 1000

表1中以age年龄为某个自变量,由于年龄是连续型自变量,需要对其进行离散化处理,假设离散化分为5组,#bad和#good表示在这五组中违约用户和正常用户的数量分布,最后一列是WOE值的计算,通过后面变化之后的公式可以看出,WOE反映的是在自变量每个分组下违约用户对正常用户占比和总体中违约用户对正常用户占比之间的差异;从而可以直观的认为WOE蕴含了自变量取值对于目标变量(违约概率)的影响。再加上WOE计算形式与logistic回归中目标变量的logistic转换(logist_p=ln(p/1-p))如此相似,因而可以将自变量WOE值替代原先的自变量值;计算公式如下:

式中:B i代表第i组“违约”用户的数量,B T代表“违约”用户的总数量,G i代表第i组“正常”用户的数量,G T代表“正常”用户的总数量,

相关文档
最新文档