评分卡相关内容
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
含义 个数 百分比 累计个数 累计百分比 缺失值个数 0值个数
变量类型
日期范围 最小年月 …… 最大年月 MISSING 0值
变量分析指标 count count% total_count total_count%
含义 个数 百分比 累计个数 累计百分比 缺失值个数 0值个数
日期型变量
风险管理部
|
13 / 59
新开账户数
个人住房贷款-# 个人住房贷款平均-$
350,000
平均每户合同金额
300,000 250,000
150,000 100,000 50,000 0
200,000 150,000 100,000 50,000 0
2004Q1 2004Q3 2005Q1 2005Q3 2006Q1 2006Q3 2007Q1 2007Q3 2008Q1 2008Q3
• 对公司产品和数据现状的理解 • 提取数据
风险管理部
|
7 / 59
数据处理和分析
—业务调研和数据采集
对公司产品和数据现状的理解
• 理解公司产品特点
理解产品风险暴露的特点,包括产品的定义,审批过程,审批政策和策略,管理策略,历史上的重大变迁,及未来发展趋势等。
• 理解公司和本项目相关产品数据存储结构及数据内容
•
审批决策容易受主观因素影响、审批结果不一致,审批政策调控能力相对薄弱。
•
不利于量化风险级别,无法进行风险分级管理,影响风险控制的能力及灵活度,难以在风险与市场之间寻求合适的平衡点。
•
审批效率还有较大提升空间。
风险管理部
|
2 / 59
|
3 / 59
01
评分卡简介
原理:利用历史贷款客户数据预测未来申请贷款客户违约概率
—数据质量分析
含义 缺失值个数 0值个数 总个数 不同值个数 缺失值占比 0值占比 最小值 最大值 均值 方差 1分位数 5分位数 10分位数 25分位数 50分位数 75分位数 90分位数 95分位数 99分位数
变量类型
字符型变量
变量类别 类别1 类别2 …… MISSING 0值
变量分析指标 count count% total_count total_count%
开户时间 征信查询次数 逾期30天拖欠次数 居住状态 工作时间 现有客户 破产标识 审批决策 违约概率
25个月 0次 1次 租房 5+年 是 无
42 25 20 15 38 30 35 205 批准
+ + + + +
+ + +
+
批准
拒绝
2%
?
?
风险管理部
评分卡优势
• 信用评分卡具有客观性
它是根据从大量数据中提炼出来的预测信息和行为模式制定的,反映了借款人信用表现的普遍性规律,在实施过程中不会因审 批人员的主观感受、个人偏见、个人好恶和情绪等改变,减少了审批员过去单凭人工经验进行审批的随意性和不合理性。
• 信用评分卡具有一致性
在实施过程中前后一致,无论是哪个审批员,只要用同一个评分卡,其评估和决策的标准都是一样的。
• 信用评分卡具有准确性
它是依据大数原理、运用统计技术科学地发展出来的,预测了客户各方面表现的概率,使银行能比较准确地衡量风险、收益等 各方面的交换关系,找出适合自己的风险和收益的最佳平衡点。
评分卡相关流程介绍
2017年9月
人工审批难题
人工审批作业形式,审批依据是审批政策、客户提供的资料及审批人员的个人经验进行审批判断,存在 以下问题:
•
信审人员对申请人所提交申请资料真实性的认定基本依赖于受理申请资料的信贷业务员的职业操守和业务素质,审批人员对申请人资料的核实手段基本 依赖于电话核查,对申请核准与否基本依赖于自己的信审业务经验,授信审查成本高、效率低而又面临很大的欺诈风险,这种状况很难应对业务需要。
• 对于连续性变量,不能直接由频数分析得到其分布,而需要通过均值类统计方法检测均值、中位数、极 大值、极小值和一些区间值,从而进一步地检查数据的准确性以及判断该字段的分布是否符合逻辑和业 务实际。 一般来说,单变量分析主要检验主键唯一性(数据集)、缺失率(数据集)、逻辑性检查和其他检查(业 务范围场景)。
• 分箱。分箱的方法通过考察临近变量来平滑存储数据的值,存储的值被分布到一些箱中,拥箱中的中值 或者均值等替代箱中的变量,进行局部平滑。 • 聚类。将近似的值组织成“类”,然后用同一个值代表这一类。 • 计算机和人工检验结合。通过计算机和人工检查的办法来识别异常值。例如,制定一个规则找出可能有 异常的数据,然后人工筛选出真正的异常数据。
另剔除业务场景解释不会影响建模的变量后,可把变量类型分为:日期型、数值型和字符型变量,该部分 单独进行检查。
风险管理部
|
12 / 59
数据处理和分析
变量分析指标 MISSING 0值 count unique missing% zero% MIN MAX MEAN 数值型变量 VAR P1 P5 P10 P25 P50 P75 P90 P95 P99 变量类型
• 数据的完备性 • 数据的有效性 • 数据的一致性
• 数据的完整性
• 数据的及时性 • 业务要求
风险管理部
|
10 / 59
数据处理和分析
—数据质量分析
为了满足建模要求,需要对经过质量控制的数据进行数据质量分析,得出多种统计指标。通过 对每个字段的统计指标的观察,初步判断该字段是否可以建模的过程中使用。数据质量分析主 要有以下两项:
|
5 / 59
数据处理和分析
数据处理和分析 评分卡模型开发与 验证 评分卡应用策略开 发 监控报表
• • • • •
业务调研和数据采集 数据质量分析 数据清洗 衍生变量设计 数据进一步分析
风险管理部
|
6 / 59
数据处理和分析
—业务调研和数据采集
通过设计问卷调查、访谈、统计分析等专业数据分析方式,对公司进行业务调研,了解公司 的前端业务流、后台数据采集点、数据库设计及存储情况,深刻理解公司当前的数据现状、 业务实际及系统运行环境和产品结构,分析公司自有数据存在的缺失敞口,包括申请表数据、 央行征信数据、业务表现数据和其他三方数据等。该部分工作包括:
理解数据的存储系统及彼此关系,知晓其历史变更情况及其对数据获取及质量的可能产生的影响。
风险管理部
|
8 / 59
数据处理和分析
—业务调研和数据采集
提取数据:根据项目需求结合不同的产品特点和业务应用需求,提供具体的数据提取模板。
• 开发样本:开发样本包括开发开发风险模型,制定业务策略和跟踪报表所需要的数据。
• 缺失值处理 • 异常值处理 • 不一致数据处理
风险管理部
|
17 / 59
数据处理和分析
—数据清洗
缺失值处理:缺失值一般分为真缺失与假缺失,所谓真缺失是指该数据的的确确是没有,并且 不知道具体含义的情况;而假缺失往往是指虽然数据本身缺失,但缺失是一种特殊情况,具有 确实的含义,比如客户是否处于休眠状态这一字段,如果没有值意味着客户依然活跃。针对上 面真缺失与假缺失的不同情况,在处理缺失值的时候就要根据具体需求而定。假缺失可以通过 讨论并与业务情况给出具体的补足方案;而对于真缺失,可以采用如下几种方法进行处理:
• 单变量分析
• 生成双向或多维交叉表报告 • 账户状态的账龄分析(Vintage Analysis)
风险管理部
|
11 / 59
数据处理和分析
单变量分析
—数据质量分析
• 对字符型变量和某些连续性变量进行频数分析,进而了解数据中该字段的分布情况,判断是否符合逻辑 和业务实际,同时了解各个产品的特点。
风险管理部
|
9 / 59
数据处理和分析
—数据质量分析
根据数据提取需求模块进行数据提取后,为了保证后续的分析工作建立在高质量数据的基础上, 需从以下6个维度建立一系列测量指标,对数据进行评估,确保数据可用状态,识别数据中可 能存在的各种问题,探究数据缺陷的成因,制定数据清洗规则和实施框架,完成对原始数据的 整理,并对未能达到建模要求的数据提出补救方案,找到适合建模的数据维度。
数据处理和分析
—数据质量分析
风险管理部
|
14 / 59
数据处理和分析
—数据质量分析
生成双向或多维交叉表报告
• 双变量分析报告可帮助检测变量之间关系的正确性。多维交叉表报告方便工作人员全面地理解公司数据, 并更有助于发现潜在的异常情况。
个人住房贷款新开账户数和平均每户合同金额
250,000 200,000
首次放款日(季)
风险管理部
|
15 / 59
数据处理和分析
—数据质量分析
账户状态的账龄分析(Vintage Analysis)
• 通过账户状态的账龄分析(Vintage Analysis),可以了解不同产品在不同时间点或不同时间段的账户的 逾期比例的变化,从而了解资产质量变化。
个人购房贷款
30.00% 25.00%
•
信用评分是指根据客户的各种历史资料,利用一定的信用评分模型,得到不同等级的信用分数,根据客户的信用分数,授信者可以通过分析客户按时还 款的可能性,据此决定是否给予授信以及授信的额度和利率。
•wk.baidu.com
虽然授信者通过人工分析客户的历史信用资料,同样可以得到这样的分析结果,但利用信用评分却更加快速、更加客观、更具有一致性。 预测变量 变量值 分数 审批人1 审批人2
• 信用评分卡可以极大地提高审批效率
由于信用评分卡是在申请处理系统中自动实施,只要输入相关信息,就可以在几秒中内自动评估新客户的信用风险程度,给出 推荐意见,帮助审批部门更好地管理申请表的批核工作。
风险管理部
|
4 / 59
项目范围
数据处理和分析
评分卡模型开发 与验证
评分卡应用策略 开发
监控报表
风险管理部
开发风险评分模型可用的理想数据应最佳地反映未来要评分和使用估算的群体。因而,样本要足够新,从而能够代表目前和将来申请 人的状况,这一点是至关重要的。然而,为了开发一个稳定而强大的解决方案,账户必须有足够的历史来体现他们的行为表现,同时 也须有一定的信息量来描述其表现。开发不同的风险评分模型需要不同的数据,主要会包括申请信息、人口信息、内部关系数据、交 易信息、还款信息、利息收入信息、催收信息、成本信息等。信息的使用会在模型建立过程中详述。
• 忽略样本。若该条样本有多个变量存在缺失值,一般采取直接删除的方法。 • 使用一个全局量填充。将遗漏的变量用同一个常数(如“unknown”)替换。这样数据挖掘程序可能会 认为此数据项形成了一个新的概念,即都有一个相同的值—“unknown”。 • 均值/中位数补救法:对于数值型字段,可以使用样本均值或中位数补救;对于分类型字段,可以使用 中位数补救。 • 频度最高值补救法:对于分类型字段,使用出现频度最高的类别补救;对于数值型字段,可以通过先分 箱,然后使用出现频度最高的分箱的均值或者中位数进行补救。 • 使用推导的值填充值。使用聚类的均值补救或者基于分类的插值补救、回归、贝叶斯形式化方法或者判 定树归纳等基于推导的工具预测缺失值。
风险管理部
|
18 / 59
数据处理和分析
—数据清洗
异常值处理:异常值是测量变量的随机错误或偏差。识别异常值数据一般有四种方法。第一种 方法是可以为每个变量设定一个正常取值范围,连续变量的范围可以设定为其均值±3 倍的标 准差,分类变量的频数高于总体的1%;第二种方法建立在生成数据的过程是具有特定函数形式 的模型,如线性模型的假设基础之上,可以用已知数据拟合该模型,严重偏离被拟合模型的观 测值被视为极端值;第三种方法聚类算法将数据分为较小的子集,只包含较小数量观测值的子 集,被认定为噪音数据;第四种方法依靠决策树发现包含少量观测值的持续结点。将异常值识 别出之后,可采取以下四种方法来处理:
%逾期
20.00% 15.00% 10.00% 5.00% 0.00% 0 5 10 15 20 25 30 35
MOB
Jan-06 Jun-06 Jan-07 Jun-07 Jan-08
风险管理部
|
16 / 59
数据处理和分析
—数据清洗
数据清洗:高质量的决策必然依赖于高质量的数据,数据清洗可以改进数据的质量,从而有助 于提高其后的数据挖掘过程的精度和效率。本项目数据清洗所采用的方法主要有以下三种:
• 验证样本
模型开发结果必须经过验证,不论何种风险模型。在模型的开发过程中需要进行预留样本的验证和跨时间样本的验证。 预留样本验证是通过随机抽样的方式,选取一定比例的样本进行评分模型的开发,并用余下的样本进行评分模型的检验。其目的在于 使用未在任何建模过程使用的独立样本来判断评分模型的辨别力及其稳定性。 跨时间验证是一个在模型开发之后进行的验证工作。该验证的目是检验基于开发样本建立的模型在不同时点的样本上,是否有相似的 预测和排序能力及其跨时间稳定性。