评分模型的评价指标
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
评分模型的评价指标
【摘要】如何评价一个评分模型的判别能力,一般在统计上用ROC、CAP (能力曲线)、K-S统计量、GINI系数统计量等图形工具或统计指标。其中ROC 曲线是较受欢迎的,而K-S统计量、GINI系数等和ROC曲线之间有一定的联系。
【关键词】评分模型评价指标
如果把业务上的二分类问题(例如信用评分中的“好”与“坏”、“拒绝”与“接受”)从统计角度理解,都在于寻找一个分类器(classifier),这个分类器可能是logistic模型,也可以是多元判别模型(Edward Altman1968年发展的基于财务指标建立的企业破产识别z得分模型),还可以使其它复杂形式的模型。
一、ROC曲线
ROC,英文全称Receiver Operating Curve,翻译成中文,简称受试者工作特征曲线。其在统计实务中应用甚广,尤其应用于处理医学研究中的“正常组”和“异常组”区分建模问题,用于评价分类模型的表现能力。
(一)ROC曲线原理。
要说清楚ROC曲线的原理,我们从一个简单的分类实例问题说起。假如我们有了基于商业银行企业贷款数据建立违约-非违约的业务分类模型,比如说我们是预测的所有样本的违约概率或者信用评级得分,比如信用评级得分,我们获得了关于两类样本的分布图形:
图 3.1 两类样本的违约率经验分布
1.基本假设
上面的图例可以看成一个基于银行债务人违约率分类的分类器。左边的分布表示历史样本数据中违约者预测得到的违约率的分布;右边的分布相应表示非违约者的分布,其中C点表示决策者做出决断的切分点(cutoff),对于该点有这样的经济意义:一旦我们确定了C点,不考虑其他业务处理,的样本被预测为违约者,反之被预测为非谓语这。对于一个固定的Cutoff点,我们可得到一些有实际意义的量化指标:
HR(C)=,表示在C点左边,对Defaulters的信用得分分布中,基于C点做决策时候,被正确命中的比率,这里H(C)表示被正确预测的违约者的样本个数,ND表示违约样本的总数。
HR(C)=,表示在C点左边,对non-Defaulters的信用得分分布中,基于C 点做决策时候,被错误预测的比率,这里F(C)表示被错误预测的违约者的样
本个数,NND表示非违约样本的总数。
2.ROC绘制方法
很显然,当我们移动C点的时候,我们得到了一个二维坐标点的集合,FAR (C),HR(RC)|C?缀信用得分区间}这里的FAR(C),HR(C)是风险管理领域的专用表示方法。将其用统计中的一些概念进行一般化处理,得到:FD(C)==,表示在C点左边违约样本个数,FD(C)表示在C点违约者信用得分的累积概率;FND(C)=FAR(C)则相应表示非违约者信用得分的累积概率;同样我们可得到二维坐标集合{FND(C),(C)|C?缀信用得分区间}。
我们将{FND(C),(C)|C?缀}在xy坐标平面上绘制,就得到了ROC曲线。
(二)ROC曲线与其他评价指标间关系。
1.K-S统计量
图 3.2 ROC曲线切线—K-S统计量
K-S检验,用于检验样本是否来自一个指定的分布或者检验两类样本是否同分布(独立)。对上述例子,两样本分布独立性的检验常用K-S统计量:D=MAX|FD(S)-FD(S)|,这里为了符合常识,我们用表示变量得分。
2.GINI系数/AR(accuracy rate)准确率
GINI系数和AR(accuracy rate)准确率实际上是同一个东西,GINI系数这一称呼不知道来源于哪,倒是AR(accuracy rate)准确率这一术语常常在金融风险管理中出现。它的计算方法是:ROC曲线和对角线之间的面积与perfect model (y=1直线)和对角线(y=x)围成的面积之比,用于度量模型精确性的一个相对指标。
AR=■,这里表示ROC曲线与对角线围成的面积,αpD表示y=1直线与对角线围成的面积。很容易计算:AR=2AUC-1。
3.LR(似然比)
考虑ROC曲线上的导数,很显然由这个关系式,我们得到在ROC曲线上某点的似然比(可以直接理解成得分的好坏比)为该点的导数,这一指标可以刻画模型局部的区分能力。
二、CAP曲线
CAP曲线,亦称能力曲线,被各大银行和评级机构用于对违约率(PD)类模型的检验,它检验模型的预测结果排序能力。
我们依然以上面信用评分模型为例子,能力曲线的绘制通过以下步骤得到:
1.对已经评分的银行客户按其预测的违约概率从高到低排序;
2.横坐标表示客户按违约率概率从高到低排序后得到样本总数的累计百分比,纵坐标表示违约客户总数的累计百分比;
3.曲线上任何一点的坐标具有如下意义:表示给定所有排序后客户样本的一个比例;表示在给定的条件下,违约客户概率大于等于比例的客户中最小概率样本个数占总的违约客户样本总数的比率。
很显然,对于任何水平方向的数值,曲线越高,表明模型的预测能力越强。
参考文献:
[1]郭英见,吴冲.基于信息融合的商业银行信用风险评估模型研究[J].金融研究,2009,01.