如何构建信用评分模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Full Population
Exclusions
Sample Window and Region
总体人群
排除情形(到达深圳时间 不超过3个月或最近3年 在深圳未活动)
观察窗口及分区
Goods
Bads
-5-
Intermediate
信用评分模型介绍-样本抽取
微服的样本数由3000个好客户和3000个坏客户组成(贷款发放后6个月 内没有过30天以上逾期定义为好客户用1表示,否则为坏客户用0表示 ),我 们将4万笔有表现的小额贷款客户分成两类,即4485笔坏客户和35515笔好 客户,然后分别进行随机抽样,各抽取3000笔贷款组成建模样本,这用统计 术语讲叫做“过抽样”,是为了使好坏客户在每个变量类别中都有足够的样 本进行区分,使得好坏客户样本平衡的一种处理方法,这是在坏客户样本较 少的情况下的一种普遍的做法。
-6-
信用评分模型介绍-模型变量选择
微服信用评分的变量分为两类:表现变量(因变量)和预测变量(自变量)。 表现变量分为好/坏客户,其定义为:贷款发放后6个月内没有过30天以上逾期 定义为好客户用1表示,否则为坏客户用0表示 。最终解释变量是从9大类, 48个标签,118个变量中经过严格的统计检验结合建模人员的业务经验筛选 而出,主要统计检验方法包括:卡法检验、相关性检验、多重共线性检验、 WOE变量分组技术、变量重要性判断(计算IV值)。
- 11 -
信用评分模型介绍-模型的制定-降维
1、减少候选变量的数量 通过分析118个单个变量的预测力,可以剔除没有预测力的变量。但保留下
来的具备较强预测力的候选变量集合里,变量的数量仍然30个,许多变量之间可 能会有不同程度的统计上的相关性。比如“在深圳社保累计缴纳单位个数”与 “在深圳社保累计年数”之间相关系数为0.89,存在严重相关性,这时如果继续 保留两个变量同时在模型中就会造成多重共线性,从而导致估计结果有偏,检验 指标失真。
- 19 -
需求评分模型介绍
微服需求评分模型,是结合客户的身份特质、消费习惯分析、行为爱好分析、 即时事件分析、综合需求评分等5个方面来量化潜在客户的贷款需求度,结合信 用评分来挑选有贷款需求,信用较好的客户。
需求度评分模型的构建过程与信用评分模型大同小异,区别之处有两个方面: 目标变量的定义和自变量的范围。 目标变量的定义:个人消费贷款成交客户定义为1,不成交客户定义为0 最终需求评分模型的自变量:
身份特质类(包括性别、年龄 、教育程度、配偶&小孩、来本地时间、现居 住地时间、现居住方式等)、工作类(现职工作时间、现公司规模、社保缴费记 录等)、行为事件类(最近1个月是否有购买房产、最近1个月有登陆贷款APP、 最近1个月网购的金额、是否半年类内结婚、是否半年内生小孩等)
- 20 -
需求度评分模型介绍
模型的制定
模型的检验 模型的实施与跟踪
微服信用评分模型SAS处理流程图
-4-
信用评分模型介绍-选择样本范围
微服的评分目标是所有20~60岁深圳常住人口,人数有2,3千万,如用全 量样本建模显然不合适。考虑到数据处理的效率和建模效率,我们从4万有表 现的小额贷款客户中采用分类抽样法随机抽取6000个客户样本组成建模样本。 建模样本人群流向图:
上班族
总体
非上班 族
- 10 -
信用评分模型介绍-模型的制定-分析单个变量
在确定了样本、界定了表现变量、提炼了预测变量、决定了模型分组以 后,下一步就是以适当的统计方法制定具体的评分模型。一般来说,模型的 制定包括几个方面:分析单个变量的预测能力、减少候选变量的数量、选择 适当的模型方法、确定模型的变量组合和权重。 1、分析单个变量的预测能力
二、模型的变量
- 21 -
谢谢
- 22 -
分析过程:以下章节,我们将结合微服数据的信用评分模型、需求评分模 型,简单介绍整个模型的分析过程。
-3-
信用评分模型介绍-模型开发过程
为简洁明了地量化客户的风险水平,微服数据信用评分的方法采用二元逻辑回 归,形成信用评分卡,下面简单从六个方面介绍微服信用评分模型的构建流程。
模型的样本
模型的变量
模型的分组
- 12 -
信用评分模型介绍-模型的制定-降维结果
为了解决这些问题,需要将候选变量进一步分组,每组内变量的相关性 很高,信息重叠度高,然后从每组中选择预测能力最强、信息有效性最高 的变量作为模型候选,从达到大大减少候选变量的数目,有效解决多维相 关性的问题,而又不遗漏过多有效的信息。
微服从118个变量中筛选出以下用于最终信用模型的变量:身份特质类 (性别、婚姻状况及子女、是否深户、文化程度、在目前住址时间、来深 圳年数、有无深圳驾照、现公司规模等级、现居住方式、在深圳社保累计 缴纳年数、配偶是否在本地)、工作收入类(从业情况、月偿债情况、个 人收入)、资产类(住房情况、车辆情况、抵押情况)、失信情况。
- 13 -
信用评分模型介绍-模型的制定-确定最终模型的变量和权重
微服采用经典的二元逻辑回归模型,以便于形成评分卡及对结果进行解释, 确定模型的变量组合和权重在经过以上各类统计和统计指标计算之后,我们得 到15左右变量进入最终模型,通过二元逻辑回归中的stepwise步结合分析人员 经验选择最终模型中变量的组合及权重。
行业应用:这种智能化、概率化的管理模式在金融领域的信贷行业几乎涵 盖了整个生命周期的各个阶段,包括从产品设计、精准营销、 信贷审批、从坏账催收到反欺诈等。
分析方法:常用的数据分析方法主要有类聚分析、逻辑回归、神经网络、 判别分析、决策树、多元回归、基因算法、RFM分析、共性过 滤分析等;不同的数据来源、不同的应用场景,采用不同的分 析方法,甚至采用多种方法相结合。
- 16 -
信用评分模型介绍-模型的检验(Lift值)
- 17 -
信用评分模型介绍-模型的检验(Lift值)
ROC=0.737
- 18 -
信用评分模型介绍-模型的实施和跟踪
经过各种技术手段的检验,如果管理人员满意模型的预测效果,批准模 型付诸实施,下一步就是如何正确实施,以及定期对模型效果进行跟踪,微 服每三个月会对全部模型用最新数据迭代一次。
-9-
ຫໍສະໝຸດ Baidu
信用评分模型介绍-模型的分组(采用聚类方法)
为了进一步提高模型的预测的准确度,分组是模型开发流程中常用且重要 的一环,在建模前先把总体数据根据一定的规则分组,以使每一组内的数据具 备同质性(homogeneity),而不同组之间的数据具备不同质性(heterogeneity), 微服模型为了提高模型的预测准确度,将总体根据客户类型分成上班族和非上 班族。
如何构建信用评分模型
2020.5
提纲
1 数据评分模型概述 2 信用评分模型构建 3 需求评分模型构建
-2-
数据评分模型概述
评分模型:实际上是运用现代的数理统计技术,通过对用户历史记录、业 务活动记录的深度数据挖掘、分析、提炼,发现蕴藏在复杂数 据中、反映用户特征和表现的知识和规律,并通过评分的方式 表现出来,作为管理决策的科学依据,这是国际上比较成功的 实践经验 。
-7-
信用评分模型介绍- 变量分组技术
WOE变量分组技术 实例:在深圳社保累计缴纳年数
高风险
低风险
-8-
信用评分模型介绍-变量分组结果
利用WOE变量分组技术可以反映每个特征变量中每个属性相对于其它属性 的风险高低,而特征变量自身的重要性大小可以由信息价值(IV值)来反映。他 们的计算公式如下: WOE attribute=log(p_goodattribute/p_badattribute), 其中 p_goodattribute=#goodattribute/#good p_badattribute=#badattribute/#bad IV=∑((p_goodattribute - p_badattribute)*woe attribute)
- 14 -
信用评分模型介绍-模型的最终结果
以下信用评分模型数据为 举例结果,并非微服的真正信用评分模型结果。
- 15 -
信用评分模型介绍-模型的检验(K-S)
在完成模型的制定以后,对最后输出的模型还需进行检验,以衡量模型预测 能力的强弱。模型检验的有两种方式:样本内检验和样本外检验。模型检验的常 用方法有:区分度、K-S指标、LIFT值、ROC曲线。
相关文档
最新文档