基于分类回归树的个人信用评价模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于分类回归树的个人信用评价模型

孟昭睿

(中国建设银行股份有限公司河南总审计室,河南郑州450003)

摘要:分类回归树作为一种基于统计理论、计算机实现的非参数识别技术,在个人信用评估领域有着良好的应用前景。文章主要探讨如何利用分类回归树建立个人信用评价模型。实证结果表明:该模型对个人信用评价可取得较好的效果。

关键词:分类回归树;信用评价;决策树

中图分类号:TP311文献标识码:A

文章编号:1006-8937(2009)02-0076-02

On the individual credit evaluation mode based on the assoeted recursive tree

MENG Zhao-rui

(Henan General Accounting Office,China Construction Bank Corporation,Zhengzhou,Henan 450003,China )

Abstract :The classified return tree takes one kind the non-parameter recognition technology which based on the statistical theory,the computer realizes,has the good application prospect in individual credit appraisal domain.How does the article mainly discuss establishes individual credit status model using the classified return tree.The real diagnosis result indicated:This model may make the good progress to individual credit status.Keywords :assoeted recursive tree;credit evaluation;decision tree

1引言随着金融的全球化趋势和银行业竞争的加剧,如何有

效地控制和防范商业银行的信贷风险正在受到越来越广泛的重视。如何在扩大信贷规模的同时准确分析客户的信用风险状况,确立合理的个人信贷标准是银行进行市场竞争的有力武器。目前,国内商业银行过去制定的个人消费信贷评价体系大多是基于专家或信贷员的经验,主观地设定各指标评分和权重。根据内部调查,许多银行反映其个人信用评估部分指标的设置和权重分配不合理,不能很好地判别申请客户的信用状态。建立科学有效的信用评价模型,对促进个人消费信贷业的发展,降低银行个人信贷风险无疑有着十分重要的作用。

2分类回归树原理

作为一种自动预测方法的分类回归树CART 不仅可以同时利用连续特征和离散特征来进行训练,并且也可以模拟非线性的关系。利用分类回归树可以自动探测出高度复杂数据的潜在结构,重要模式和关系。探测出的知识又可用来构造精确和可靠的预测模型,应用于分类客户、保险诈骗和信用风险管理。从技术上来讲,CART 技术可称为二元回归分解技术。CART 是一种有监督学习算法,即用户在使用他进行预测之前,首先需要提供一个训练样本集对CART 进行构建和评估,然后才能使用。

2.1构建分类树

构建分类树T max ,的过程,即为树的每个节点选择拆分规

则的过程。具体过程如下:所有的数据样本都属于树根节点t ,寻找第一个拆分规则即选择整棵树根节点的分支条件时,首先从第一个预测变量开始扫描,计算并记录样本数据中该变量的每一个取值或每两个相邻数据的中值作为拆分阀值时节点的不纯度函数下降值,然后扫描第二个预测变量,同样计算并记录该变量的各个不纯度函数下降值,直至扫描完最后一个预测变量,计算并记录完所有的拆分阀值对应的不纯度下降值。最后找出不纯度函数下降值最大时所对应的拆分变量和拆分阀值,将其定义为树根节点的拆分变量和拆分阀值。此时,已经将整个样本数据集分成两个子集,对于每一个子集,重复上述寻找树根节点拆分规则的扫描过程,寻找每个子集所属子树的根节点的拆分规则。

假设为寻找左子树的根节点t L 的拆分规则,也是从第一个预测变量开始扫描,计算并记录属于左子树的样本数据集中该变量的每一个取值或每两个相邻数据的中值作为拆分阀值时节点的不纯度函数下降值,直至扫描完最后一个预测变量,并找出使节点t L 不纯度函数下降值最大时所对应的拆分变量和拆分阀值,将其定义为左子树根节点的拆分变量和拆分阀值。同理寻找右子树的根节点拆分规则,则每棵子树又被拆分成两棵更小的子树。

整棵树的建立过程就是一个寻找更小子树根节点的拆分规则的过程。当节点满足以下条件之一时停止拆分操作。其一,节点很小:分支后的叶节点的样本数小于给定的值N

min (一般Nmin=5,

有时为1)。其二,纯节点:分支后的叶节点中的样本属于同一个类。其三,空属性向量集:无属性向量

收稿日期:2008-12-28

作者简介:孟昭睿(1970),女,中国建设银行股份有限公司河南总审计

室,中级会计师中级经济师.

第28卷第2期V ol.28No.2

企业技术开发

TECHNOLOGICAL DEVELOPMENT OF ENTERPRISE

2009年2月Feb.2009

77

用作分支选择。停止拆分后,根据节点t 中来自每个类的样

本比例,可以对每个节点t 指定类别标签。至此,就完成了分类树T max 的构建。

2.2修剪分类树

在进行分类树的创建过程中,由于数据中有噪声和孤立点,许多分支反映的是训练数据中的异常。修剪操作可以去掉不可靠的分支,从而使分类加速,提高分类能力。

CART 采取的是后剪枝方法,后剪枝方法是从一个充分生长的树中,修剪掉多余的分支。CART 算法所遵循的修剪原则是最小代价成本。

在修剪过程中,如果被修剪的节点成为一个叶节点,则将其标记为它所包含样本中类别个数最多的类别。而对于树中每个非叶节点,计算出若该节点被修剪后所发生的预期分类错误率及该节点不被修剪时的预期分类错误率。如果修剪导致预期分类错误率变大,则放弃修剪,保留相应节点的各个分支,否则就将相应节点分支修剪删去。在产生一系列经过修剪的有序子树集之后,利用一个独立的测试数据集,对这些经过修剪的决策树的分类准确性进行评价,保留下预期分类错误率最小的决策树。个人信用评估模型如图1

所示。

图1个人信用评估模型

3基于分类回归树的个人信用评价模型

3.1建模思路

在个人信用评估过程中,最关键的就是个人信用评估模

型的构建。本文所用到的方法主要有分类分析和拆分分析。

通常当样本数量足够大时,使用者可将数据划分为训练样本集与测试样本集两部分,其中训练样本集用来建构树结构,而测试样本则用来计算错误率。这样,建立个人信用评估模型的流程如图1所示。首先在训练样本集上进行模型

的训练,得到样本的各项属性与是否违约的内在隐含关系,然后在测试集上进行模型测试,如果符合要求,则表示模型可用于个人信用评估的实践。

3.2实证过程

本文利用德国某商业银行的个人信用贷款数据作为研究数据集。数据集中共有1000个样本,其中正常样本700个,违约样本300个。参照该银行的个人信用评价指标体系,每个样本都有20个属性,包括账户状态、账户存在月数、贷款目的、贷款额度、工作年限、年龄、房产状况等。按照7:3的比例将数据集划分为训练集和测试集,分别用作模型的训练和测试。

现在面临的问题是:如何从通过修剪所获得的树序列中选择出一棵最优树,作为最终的决策树。目前常用的方法是测试样本评估和交叉验证评估。其中前者适用于学习样本包括大量事件的情况。

这里采取测试样本评估。即将数据分为两部分,一部分建模求参数,另一部分用于检验建模效果,这种方法将产生错分率,并且计算效率相对较高。确切地讲,根据正常样本与违约样本的比例,将数据分为两部分,从好客户中随机选取其中490个好客户,从违约样本中随机选取其中210个坏客户,一共700作为确立指标评分体系的训练样本,剩下30条用作检验评分体系效果的检验样本。

分类回归树的输入参数有:样本数据、各类样本的先验概率、拆分准则和错分率。这里输入的参数分别为:700个训练样本数据、正常样本违和约样本的先验概率分别为0.7和0.3、错分率为0.1。选择Gini 不纯度函数作为拆分准则。即对于节点t 来讲,Gini

不纯度函数的定义为:

其中,表示属于t 节点的数据样本中,属于i 类

的样本概率。

为了适应分类回归树的分叉规则,这里对离散型变量进行处理,将各个取值按正常样本/违约样本比率递增排序,然后根据排序重新编号。

实证研究以Windows XP 为平台,数据存储在SQL 数据库中,实验工具为新西兰Waikato 大学的研究人员开发的一个数据挖掘工具(/~ml/weka/)。他提供有大量的机器学习算法,包括数据预处理、分类、回归、聚类、关联规则分析等。Weka 的图形界面对不会写程序的人来说非常方便,而且提供知识流(KnowledgeFlow )功能,允许将多个步骤组成一个工作流。

参考文献:

[1]张道宏,张璇,尹成果.基于BP 神经网络的个人信用评

估模型[J ].情报杂志,2006,

(3).[2]Vayssieres et al .Classification trees :an alternative non-para-metric approach for predicting species distributions [J ].

Journal of Vegetation Science ,2000,

(11).第28卷第2期孟昭睿:基于分类回归树的个人信用评价模型

相关文档
最新文档