贷款信用风险评分
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信用评分模型报告
信用评分是一种运用了数理统计和数据挖掘的相关技术。它通过对客户的基本信息、历史行为数据等进行分析,找到其中能够反映出消费者的风险特征和预期信贷表现的规律,并建立预测模型用以预测其未来违约的可能性,以评分的形式来进行综合评估。信用评分模型能够给消费信贷管理人员提供大量具有高度预测力的信息,帮助管理人员制定行之有效的管理策略,从而有效地开拓市场、控制风险、挖掘收益,实现管理。
原始变量
连续变量名义变量
决策树分段
信息值计算
Logistic回归
(变量选择)
最终模型变量
模型评估
信用评分模型的开发大致可以分为数据清洗(变量名更改)、变量分组(分段映射和降基映射)、信息值计算,Logistic回归(变量筛选),模型检验,评分
卡建立。
一、数据预处理
1数据清洗
○1将原来数据集中的Y和N数据分别换成1和0,以方便以后的数据分析。○2将性别变量中的缺失值设为0。
○3将变量名由初始变量名改为x1~x627,以方便之后的数据分析操作。
2数据分段
○1名义变量
通过SAS交互式数据分析模块观测发现,名义变量的基数很低,几乎都为0、1变量,所以不需要进行降低基数的处理。
○2连续变量
通过建立决策树来对连续变量的数据进行有效分段,一棵决策树由若干节点和分支组成,其中根节点代表整个样本数据集,每个分节点代表着不同的属性,而不同的属性值之间形成了不同的分支,叶子节点则对应最终的输出结果。
决策树的构造过程由两个步骤组成:
(1)如果样本数据集中所有样本都属于同一个类,或者满足其它终止条件,则不再划分,形成叶子节点
(2)否则,根据某种策略选择一个属性,按照属性的各个取值,对样本集进行划分,得到n个子样本集,再对每个子样本集迭代执行步骤。
通过SAS中的split过程步的宏程序%decision_tree,将所有的连续变量进行了最优分段,考虑到分段过细会造成模型的稳健性过低,而分段过粗会使模型的拟合度下降,因此将分段的上限设为四段,即为决策树分段的最大深度为2,
叶节点数也为2。
输出的分段结果在数据集rule_2_xi 中(xi 代表每个变量的序号),其中包含了有变量分段后每段的上下限、节点序数、此分段总观测数以及此分段中是否违约的分布频率,并根据分段结果将原始数据中的连续变量全部转换为有序的名义变量。 二、信息值
利用信息值用来衡量两个名义变量之间的关联性,这项指标可以判断候选自变量的预测力,用以去除被证明无法给模型带来额外价值的变量。
其定义为:
1011
11
000/()log()
/r
i i i i i n n n n IV n n n n ==−∑ 其中r 为变量分段的段数,11i n n 和00
i n
n 分别为第i 段中0,1记录的百分比。 下表为IV 值解释预测力:
利用建立的宏%iv 来计算数据集中的潜在名义自变量与是否违约(bad_good )之间的信息值,并将信息值从大到小进行排序。IV 值在0.2以上的变量如下所示。
三、Logistic回归
在经过数据预处理、变量分段和信息值计算后,通过宏程序%split对样本随机选取70000个观测值数据作为训练集,剩下的10000个观测值作为验证集来评价模型的评分效果。
首先,为了提取IV大于等于0.05的变量,我们使用了宏程序%extract_top 提取了IV值大于等于0.05的变量
之后,我们利用宏程序%logistic对训练集进行logistic回归,我们采用了逐步回归的方法对于IV值大于等于0.05的变量进行回归,并且设定了SLE和SLS的值都为0.05,即允许变量进入和保留在模型中的显著性水平都要Wald卡方的p值小于或者等于0.05,较高的p值对于此类预测性模型的解释力,。在经过logistic回归后,再带入验证集中得到估计违约概率。
分析训练集的样本数据,得到的回归结果如下所示:
x139 2 14 23.052 <.0001 x116 3 30 10.1925 0.017 x168 3 15 29.8785 <.0001 x188 3 31 10.0495 0.0182 x103 3 16 21.0738 0.0001 x167 3 32 10.7116 0.0134 x170 3 17 19.5461 0.0002 x420 2 33 7.2469 0.0267 x28 3 18 25.6528 <.0001
预测概率和观测响应的关联
一致部分所占百分比81.5 Somers
D
0.632
不一致部分所
占百分比
18.3 Gamma 0.633
结值百分比0.1 Tau-a 0.046
对179706439 c 0.816
从回归结果来看,最终通过逐步回归选择了33个变量,在模型中这33个变量的p值都小于0.05,显著性都比较好,根据关联统计量,一致部分所占百分比为81.5%,不一致部分所占百分比为18.3,c值为0.816,根据一般经验,在信用评分模型中c值大于0.75即认定为模型有意义,故可以认为本模型的解释力较好。对于ROC曲线,纵坐标敏感度代表的是在所有表现期违约的样本数据中,被准确地预测为违约的样本比例。横坐标特异性代表的是在所有表现期正常的样本中,被错误地预测为违约的样本比例。而对角线上的点则表
示随机模型的曲线,其位于对角线上方,说明分类准确的违约样本比例大于分类错误的正常样本比例。该曲线下方的面积为0.811,说明模型有着良好的区分能力。
最终选入的变量并经过适当分类汇总如下所示: