互联网信贷信用风险预测研究--基于XGBoost算法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

3.最终得到的 FM (x) 即为最终的分类器。
(二)数据集切分
XGBoost是在GBDT 基础上的改进算法,其基本思想是组合多
在机器学习的模型开发中,一般会将完整数据集切分为三份, 颗决策树模型,形成一个分类性能和鲁棒性更加突出的模型。
即:训练集验证集和跨时间验证数据集。
(二)互联网信贷场景中常见的分类算法
金融视线 | Financial View
论商业银行小微企业信贷风险管理
吕伟伟 中国建设银行股份有限公司山西省分行 山西太原 030001
摘要:当前,小微企业已经成为促进我国经济增长的重要一环,多数商业银行已意识到小微企业的价值,纷 纷在利润、竞争驱使下拓宽了对小微企业的信贷业务。然而因小微企业自身运营模式较为特殊,信贷数额较小、 时间较短,再加上银行本身信贷流程、管理理念存在不足,极容易出现信贷风险。本文主要论述小微企业信贷的 定义、信贷风险特征,分析当前商业银行在小微企业信贷风险管理过程中存在的不足,并提出相应的改进措施, 目的在于降低信贷风险,促进银行运营发展。
关键词:互联网信贷;风险预测;XGBoost
近年来,随着互联网的不断发展,互联网技术开始与传统的消 决策树模型已经难以应对急剧增长的数据量以及动辄成千上万的特
费金融的结合,促成了互联网消费金融的产生。随着经济水平的不 征,近年来集成学习理论和算法的研究逐渐成为机器学习领域的一
断发展,人们消费观念的升级,互联网信贷也逐渐被更多消费者认 个热点。
yi = − ∂L(∂yFi ,(Fxi()xi )) F (x)=Fm−1(x) , i = 1, N
∑ [ ] 信信息如客户互联网访问点击行为、互联网搜索行为、位置迁移信
息、商品购买查看记录、出行旅游等各种方面等信息加工= 出的共计 am arg mina,β
3200个特征。
N i =1
yi − β h(xi ; a)
关键词:商业银行;小微企业;信贷;风险管理
最近几年,伴随着我国社会经济发展速度的逐步加快,越来 越多的小微型企业涌现出来,在促进国民经济增长方面发挥重要作 用。据相关数据统计发现,我国现有小微型企业约占所有企业总 量的90%以上。小微型企业逐渐突显出的价值引起了商业银行的重 视,逐步将其视为发展金融业务的重要领域,尤其是信贷服务。但 银行自身性质较为特殊,在运营管理期间容易出现各类风险,加之 小微型企业本身尚存部分问题,因而加大了控制信贷风险的难度, 目前,小微企业信贷风险管理已成为商业银行所要应对的重要事 项。以下简要针对其相关内容进行论述,仅供参考。
BP神经网络的风险评估模型,提出P2P网贷行业的信用风险评估指
GBDT算法是Boosting方法的一个实现,是Boosting方法中比
标体系。
较流行的一种算法,其在每一次迭代中,新的弱分类器的生成都依
eXtreme Gradient Boosting (XGBoost)是一种基于GBDT算法 据损失函数的梯度方向,在算法实施的过程中,先给定一个目标损
的一个改进算法,其原理是通过弱分类器的迭代计算实现准确的分 失函数,其定义域为所有可行的弱函数集合,GBDT算法通过迭代
类效果。本文将XGBoost 引入到互联网信贷信用风险预测中,基于 选择一个负梯度方向上的基函数来逐渐逼近该目标损失函数的局部
互联网信贷公司-A公司的真实客户数据,建立分类预测模型,为 极小位。其算法流程如下所示:
可。众多互联网金融公司的业务规模迅速扩大的同时也对互联网金
集成学习的基本原理是,训练多个弱分类器。然后用某种策略
融公司的风险管理能力提出了挑战。
将它们结合起来,最后可以产生比单一的分类器优越得多的性能。
早期西方商业银行在经营中,总结出了信用“5C”分析原则, 按照弱分类器的生成方式,目前的集成学习的方法分成两大类。其
针对A公司的数据,将数据中申请时点在2018年1月至2018年5
逻辑回归模型是在互联网信贷场景个人信用风险评估中被广泛
月的借款样本作为建模样本,并按照7:3的比例抽取出训练数据集和 运用的一种模型。逻辑回归模型属于分类模型的一种,主要用来计
验证数据集,将申请时点在2018年6月的借款样本作为跨时间验证数 算一组自变量(解释变量)与离散型因变量间的关系。
公司的放款决策提供依据。结果表明,与传统逻辑回归算法相比, XGBoost算法的分类准确性更高。
∑ 1.初始化弱分类器: F0 (x) = arg minρ
N i =1
L(
yi
,
p)

2.对于第m=1 to M次迭代:
一、数据描述
经客户授权,本次建模选用的数据是根据A公司客户基本信 息、客户行为信息、客户设备信息以及其他征信公司提供的外部征
用于分析借款人的信用等级。随着业务发展以及技术的进步,Milad 中一种是并行生成的学习器,学习器之间相关关系不大,这种方法
Mal 被称为Bagging。另一种是学习器之间是串行生成的,学习器互相
SVM、KNN等模型进行建模,李从刚、李淑锦、包丽艳等,基于 之间有很强的依赖性,这种方法被称为Boosting。
2
∑ (一)建模样本目标变量的定义
= ρm arg minρ
通过数据分析以及业务经验,将到期后出现超过30天的逾期的
N i =1
L(
yi
,
Fm−1 (
x)
+
ρh(
xi
;
am
))
客户定义为坏人,目标变量Y设为1;将到期后未逾期或逾期不超
= Fm (x) Fm−1(x) + ρmh(xi ; am )
过5天的客户定义为好人,目标变量Y设为0。其他客户作为中间样 本,目标变量Y设为空,不参与模型开发。
Financial View | 金融视线
互联网信贷信用风险预测研究
——基于XGBoost算法
昌 黎 上海理工大学 上海 200082
摘要:近年来,随着经济社会发展,互联网信贷行业呈现井喷式的扩大,如何正确有效的对客户的信贷风险 进行预测成为企业关注的重点。XGBoost算法是一种高效准确的分类算法,文中将XGBoost算法应用于申请贷款用户 的信用风险预测中,从而实现了准确预测用户贷后行为,为互联网信贷信用风险预测提供了一种有效的方法。
据集。
(三)模型评价指标
在互联网信贷场景中,相对模型的整体排序性,我们更看重模
二、模型开发
型预测风险系数最高的一批客户的真实表现,也就是模型预测为坏
(一)XGBoost算法介绍
人的客户中有多少是真的坏人。
随着计算机的发展以及大数据产业的兴起,传统的逻辑回归、
我们将以下四种情况分别定义为:
86 现代商业 MODERN BUSINESS
相关文档
最新文档