基于XGBoost的互联网金融贷前逾期识别与模型表达
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘要
摘要
本文主要基于XGBoost(eXtreme Gradient Boosting极限梯度提升)模型,研究在互联网金融场景中对有贷前逾期风险的用户进行识别的问题,并通过强大的SHAP(SHAPley夏普利)解释框架对模型进行可视化表达。
为了研究这一问题,本文选取了融360企业提供的公开数据集,在万级数据量以及匿名变量的场景中,实现对变量的清洗、模型的构造、比较、可视化,以此说明XGBoost模型的高精度以及在贷前逾期场景中可解释性。
本文一方面综合考虑各种变量的性质,对匿名变量的缺失值进行有规律地插补,以实现对变量的清洗,避免“垃圾进、垃圾出”(Garbage In Garbage Out)的情况发生。
另一方面,通过控制训练集和测试集的一致性,构造了逻辑回归(LR)、随机森林(RF)、梯度提升决策树(GBDT)三个模型,将这三个经典模型作为基线模型,通过精度对比说明XGBoost模型的优良性。
为了让模型评估指标更贴合实际场景,本文选取了三大类七个指标综合地评判各个模型的识别效果。
评价指标中包括模型的排序能力、对正样本的识别能力等,并构造了预期收益这一指标替代常规的准确率指标。
进一步地,为了提升模型的精度,本文对所建立的XGBoost模型进一步进行超参数调优。
最后,利用对集成模型的解释框架SHAP,将这一模型中各个变量的价值进行可视化处理,从变量角度和样本角度分别进行可视化,实现模型表达的效果。
并在匿名变量的场景下进行模拟解释,以便更好地解读其经济管理含义。
关键词:互联网金融;贷前逾期识别;参数调优;极限梯度提升模型;
夏普利解释框架;
Abstact
Abstract
Based on the XGBoost model, this paper studies the problem of identifying users with pre-lending overdue risks in the Internet financial scenario, and visualizes the model through a powerful SHAP framework. In order to study this problem, this paper selects the public data set provided by Rong 360 enterprise, realizes the cleaning of variables, the construction, comparison and visualization of the model in the scene of 10,000 data volume and anonymous variables, so as to illustrate the XGBoost model. High accuracy and interpretability in pre-lending overdue scenarios.
On the one hand, this paper comprehensively considers the nature of various variables, and regularly interpolates the missing values of anonymous variables to achieve the cleaning of variables and avoid the occurrence of Garbage In Garbage Out. On the other hand, by controlling the consistency of the training set and the test set, three models of Logistic Regression (LR), Random Forest (RF) and Gradient Boosting Decision Tree (GBDT) are constructed. These three classic models are used as baseline models. The accuracy comparison shows the superiority of the XGBoost model.
In order to make the model evaluation indicators more suitable for the actual scene, this paper selects three categories of seven indicators to comprehensively judge the recognition effect of each model. The evaluation indicators include the sorting ability of the model, the ability to identify positive samples, etc., and construct the expected return index instead of the conventional accuracy rate indicator. In order to improve the accuracy of the XGBoost model, this paper further performs hyperparameter tuning on the established XGBoost model. Finally, using the interpretation framework SHAP of the integrated model, the value of each variable in the model is visualized, visualized from the perspective of variables and samples, and simulated in the context of anonymous variables for better interpretation. Its economic management implications. Keywords:Internet finance,pre-lending overdue recognization , parameter tuning, eXtreme Gradient Boosting, SHAP
目录
目录
摘要 (I)
Abstract............................................................................................................................. I I 第1章绪论 .. (1)
1.1 课题来源与研究意义 (1)
1.2 传统金融的贷前逾期识别 (1)
1.3 互联网金融的贷前逾期识别 (2)
1.4 国内外研究现状 (3)
1.4.1 国外研究现状 (3)
1.4.2 国内研究现状 (5)
1.4.3 国内外文献综述 (7)
1.5 论文研究内容 (8)
第2章理论模型与方法 (10)
2.1 逻辑回归模型 (10)
2.1.1 逻辑回归模型的应用 (10)
2.1.2 逻辑回归模型的求解原理 (10)
2.1.3 逻辑回归模型的参数说明 (13)
2.1.4 逻辑回归的优缺点 (14)
2.2 随机森林模型 (15)
2.2.1 随机森林模型的应用 (15)
2.2.2 随机森林模型的求解原理 (15)
2.2.3 随机森林模型的参数说明 (18)
2.2.4 随机森林模型的优缺点 (18)
2.3 GBDT模型 (19)
2.3.1 GBDT模型的应用 (19)
2.3.2 GBDT模型的求解原理 (20)
2.3.3 GBDT模型的参数说明 (21)
2.3.4 GBDT模型的优缺点 (22)
2.4 XGBoost模型 (22)
2.4.1 XGBoost模型的应用 (22)
2.4.2 XGBoost模型的求解原理 (22)
2.4.3 XGBoost模型的参数说明 (24)
2.4.4 XGBoost模型的优缺点 (25)
目录
2.5 四个模型的可解释性 (26)
2.6 本章小结 (26)
第3章模型的建立和模型评价 (28)
3.1 数据来源与说明 (28)
3.1.1 数据背景 (28)
3.1.2 数据缺失情况 (29)
3.1.3 数据类型 (31)
3.2 评价基线与指标选择 (32)
3.2.1 评价基线的确定 (32)
3.2.2 评价指标的选择 (33)
3.3 基线模型的评价结果 (35)
3.3.1 逻辑回归模型的评价结果 (35)
3.3.2 随机森林模型的评价结果 (36)
3.3.3 GBDT模型的评价结果 (36)
3.3.4 基线模型小结 (37)
3.4 XGBoost模型的建立与评价结果 (38)
3.5 XGBoost模型的优化 (39)
3.5.1 参数调优 (39)
3.5.2 变量降维 (40)
3.6 本章小结 (40)
第4章XGBoost模型的可视化表达 (42)
4.1 XGBoost模型的解释性 (42)
4.1.1 变量的重要性 (42)
4.1.2 单棵决策树 (44)
4.1.3 解释能力的局限性 (45)
4.2 基于SHAP值的解释框架 (45)
4.2.1 SHAP含义 (45)
4.2.2 SHAP值的特性 (46)
4.3 XGBoost模型中变量与样本的重要性分析 (47)
4.3.1 变量重要性分析 (47)
4.3.2 单变量SHAP值的映射关系 (50)
4.3.3 单个样本的SHAP值计算 (51)
4.4 匿名变量的业务处理方案 (52)
4.5 本章小结 (53)
结论 (55)
目录
参考文献 (56)
攻读硕士学位期间发表的论文及其它成果 (60)
哈尔滨工业大学学位论文原创性声明和使用权限 (61)
致谢 (62)
哈尔滨工业大学管理学硕士学位论文
第1章绪论
1.1课题来源与研究意义
互联网金融是一种新型的金融业务模式。
在这一业务模式中,传统的金融机构借助互联网平台技术和信息通信技术与互联网企业进行合作,以实现资金的融通和支付、投资推荐和信息中介服务的功能。
互联网金融是联接小微企业和投资者的桥梁。
对小微企业而言,银行因风险要求对其贷款审核严格、周期漫长且利息高昂,而互联网金融能为小微企业融资发展提供重要支持,放宽要求、缩短周期、并动态调整合适的利息。
对投资者而言,投资者能将自己的资产配置到除了银行存款以外的理财产品上,以获得比银行利率更高的回报。
对国家而言,现代金融模式的发展能为实体经济提供活动和保障,同时也为大众创业、万众创新提供了物质支持。
而对互联网金融平台而言,风控就是平台的生命线,这是不言而喻的共识。
而贷前逾期识别又是互联网金融风险识别中的重要一环。
网贷平台有四种经营模式,陈初(2010)[1]将其总结如下:一是银行和企业合作进行双重的信用评定,二是银行将小额贷款业务外包给网贷平台,网贷平台与商业银行进行贷款超市类型的合作。
三是最为典型的P2P网贷模式,在这一模式中,平台自筹资金,并通过多种技术手段给借款人进行信用评级,并自担后续的账款监督、逾期催收、回款审计;四是为家庭贫困学生以及乡镇贫困人群提供贷款的网贷平台经营模式。
1.2传统金融的贷前逾期识别
同传统银行一样,互联网金融也需要对申请借贷资格的用户进行风险控制,以降低用户逾期行为对平台效益的伤害。
相比于传统银行风险控制门槛高、审核周期长,互联网金融的风险控制有着成本低、效率高、覆盖广、管理弱和风险大五个特点。
在互金模式的框架下,资金供求双方都能借助网络平台的系统特性,自助且流畅地完成身份信息的甄别、需求的匹配、利息的定价和资金交易的流程。
这一过程减少了传统中介的介入,降低了交易双方的时间和资金成本,减少了单一借贷方造成的垄断利润局面,优势是双向的。
不仅资金提供方节约了开设线下营业门店的资
哈尔滨工业大学管理学硕士学位论文
金和运营成本;而且贷款方能在平台上享有更加开放和透明的权利,并在此找到最满足自身需求的金融产品。
这一过程在一定程度上削弱了资金提供方和贷款方的信息不对称程度,使得放贷-借贷双方都能节约时间和精力。
而在这一环节中,如何判别借贷申请的用户风险,成为了各个平台的生命底线和利息运营的核心竞争力。
由于风控经验的不足,有些互联网金融企业并不具备类似银行的风控合规和清收机制,容易被不法分子趁虚而入而诱发各类系统性风险问题。
一旦P2P网贷平台停止服务甚至破产,资金提供方将承受巨大损失,而作为投资者散户将会被残忍地“割韭菜”。
目前我国地互金行业仍处于起步阶段,缺少严格法律法规的管控,也缺乏对借贷方的准入门槛标准,许多政策和法律风险都可能被犯罪分子利用。
并且,目前阶段中国尚未建成成熟的信用体系、尚未配套完善的互联网金融领域的法律法规,造成客观上的互联网金融违约成本低。
在这种情形下,非法集资、恶意骗贷、卷款跑路等标签也成了群众对P2P模型的另一个印象。
1.3互联网金融的贷前逾期识别
在互联网金融企业中,本文选取融360公司提供的数据作为研究对象。
融360公司成立于2011年,定位于提供移动金融智选服务的平台公司。
该公司的金融产品服务范围包括提供现金贷款、信用卡申请、理财咨询、以及产品的搜索比价。
该公司曾在2015年二季度推出名为“天机”大数据风控系统,将三大类用户信息,如身份认证、还款意愿和还款能力对应成用户的信用评分,并以此分值调整借贷者的利率和审核通过率。
该系统号称能实现对5万以内的小额贷款最快10分钟审批完成并当天放款。
相对于对同一类借款方的传统审核方式,即要求提供抵押物、收入流水证明等,资金获批的比例约为15%,而该系统决策并结合人工介入后,资金获批的比例翻倍至原来的2倍甚至更高。
由此看来,结合大数据模型的风控方式能为企业带来可观的效率提升。
本文研究数据来源于融360公司的一个业务场景。
机构A通过自建的风控模型进行放贷,初期获得了良好的收益。
但随着时间推移,在保持样本通过率5%不变的前提下,逾期率由2016年年初的5%升至2017年年中的15%,大量坏账使得该机构转盈为亏。
究其原因,在金融信贷场景中,资金提供方会通过模型评分筛选借款方,评分
哈尔滨工业大学管理学硕士学位论文
较好的借款方可以获得放款资格,评分中等的借款方可能会被抽样检验或通过提高利率进行风险对冲,而评分较差的借款方会被直接被拒绝,机构只能获得放款用户样本的好坏标签,而对于大量拒绝借款方的还款情况无法获得。
随着这一模型筛选-资金流动-用户反馈的过程进行,资金提供方得到的新的训练样本都是“评分较好”的借款方,而由此训练的模型天生有偏,即在评分好的借款方中表现越来越好,而在评分差的借款方中却无法得到验证。
即这一金融风控模型会降低好坏标准的阈值,在真实面对的客群时会导致通过大量应该被拒绝的坏用户,致使大量坏账出现,并造成巨大的经济损失。
因此,在只有最优质的放款用户好坏标签的情况下,如何保证建模对所有放款用户和拒绝用户都有良好的排序能力,是本文构建的金融风控模型需要解决的重要问题。
在这一业务背景下,企业提供了两份数据集:包含从2018.1.1到2018.5.1放款训练样本10万条,其中原模型信用评分前30%的样本因为参与了放款,所以能给出这些样本是否逾期的标签,而后70%样本中只有3000个样本参与的放款,所以只有3000个样本给出是否逾期的标签。
1.4国内外研究现状
目前国内外对贷前逾期识别风控方面的研究主要体现在对风控现状的描述、对研究变量的选择和影响论述、对模型工具的选择、对模型可解释性的论述、以及降低风险的建议上。
1.4.1 国外研究现状
在网络借贷平台存在的价值问题上,Samuel等(2008)[2]认为网络借贷的行为一定程度上降低了供求双方的信息不对称,有着无需借款人抵押担保,交易过程流畅、小额资金流动性强等良好特性。
Chen等(2014)研究网贷平台上借贷者的信用记录,得到历史借贷信息同样能有效增加解决信息的对称性[3]。
而过往的借贷信息今后在征信联网后,将成为一项公开的数据,这也是贷前逾期风险识别中很重要的一个环节。
Everett等(2015)[4]认为P2P贷款模式相比于公共贷款承担更低的道德风险,所以造成更高的逾期风险。
在对贷前逾期风险识别的变量研究上,Freedman等(2011)[5]在研究Prosper平台数据的基础上发现网站给予借款者的信用等级是其能否成功借款的最大影响因
哈尔滨工业大学管理学硕士学位论文
素。
但在P2P借款者人口特征变量的研究方面结论有所不同。
Sonenshein等(2011)[6]的研究数据显示种族、性别不是影响成功率的关键因素,但Pope等(2011)[7]得出种族和性别都极大影响借款成功率。
Emekter等(2015)[8]借助Lending Club的数据证明了借贷者的信用等级、债务收入比、FICO 评分最终极大影响贷款违约率。
在研究模型的选择和应用上,Malekipirbazari等(2015)[9]分别运用K均值聚类法、Logistic回归、支持向量机和随机森林的模型方法对社会贷款进行评估,结果显示随机森林的预测效果更优。
Harris(2015)等使用支持向量机的改进方法集群支持向量机CSVM,改善了支持向量机SVM在大数据量下的计算性能问题,使得这一非线性方法应用于信用计分卡的开发[10]。
Kozeny(2015)等使用改进的遗传算法,证明位掩码在准确性和灵敏度方面表现优异,且差异结果通过相应的统计学检验[11]。
Mahmoudi(2015)等[12]使用改进的Fisher判别函数,提高对业务场景中模型对假阴性样本的判别能力,使得决策成果利润最大化
Chen等(2016)[13]推出了GBDT模型地改进版本XGBoost,将梯度提升树模型进一步优化。
在此之后,有众多学者使用该模型在风控领域进行相关研究,其中Xiaojun等(2018)使用“多样本”和“多维”数据清理方法,对Lending数据库的真实P2P交易数据使用XGBoost和LightGBM建模并进行比较,指出通过机器学习算法的优化,Lending Club平台历史交易数据平均表现率上升1.28个百分点,可以使贷款违约减少约1.17亿美元,并同时发现贷款细节和经济评价水平是违约率的重要影响因子[14]。
对于复杂机器学习的解释,Erik等(2014)提出一种基于灵敏度的分析方法,以解释模型特征之间的交互和冗余,并通过122名参与者的对照试验表明该方法提高了参与者对模型的理解[15]。
Datta等(2016)提出定量输入影响测量(QII)方法,捕获输入对系统输出的影响程度,以提高决策过程的透明度[16]。
Caruana等(2015)将具有成对相互作用的附加模型(GA2M)应用于实际的医疗保健问题,产生具有最优精度的可理解模型[17]。
而在对复杂机器学习模型的可视化方面,Lundberg等(2017)系统介绍了SHAP 框架的解释性原理,以及可以识别重要特征和进行个别验证的原因,并通过Path(Output)、SHAP(Output)、Split count、Path(gain)、SHAP(gain)共5种框架的重要性对比,证明了集成树经典特征重要性评估方法是不一致的,而SHAP评估框架具有稳定性、一致性和合理性[17]。
在此基础上,进一步地提出了一个降低SHAP
哈尔滨工业大学管理学硕士学位论文
复杂度计算的代替方案,将SHAP的算法复杂度从指数时间降低到多项式时间,其中平衡树的算法复杂度为O(TLlog2L),非平衡树的算法复杂度为O(TLD2)。
Ribeiro等(2016)提出一种新的解释技术LIME,它通过在局部学习可解释模型,以可解释和守约的方式解释任何分类器的预测结果,通过以非冗余的方式呈现具有代表性的单个预测,将任务定义为子模型的优化问题。
并通过解释文本(如随机森林)和图像分类(如神经网络)的不同模型来证明这些方法的灵活性[19]。
Lundberg等(2017)[20]对比了LIME、DeepLIFT、Layer-Wise Relevance Propagation、和传统的SHAP值在深度学习场景中的效果,得出SHAP具有更好的一致性,更符合人们的理解和判断的结论。
关于合作模式方面,Glloway(2009)表明P2P网络借贷作为金融市场的一部分,银行的加入会保障平台资金池的充足,共享黑白名单标签并降低平台坏账风险[21]。
Lee等认为如果不同网站之间可以对接用户系统,这样就更容易获取借款人的软信息,可以减轻贷前逆向选择与贷后道德风险的难题[22]。
但企业的信息是企业重要的数字资产,很难进行对等的信息共享交换。
1.4.2 国内研究现状
关于风险识别模型的影响因素,余鲲(2017)等通过实证发现,互联网借贷平台上逾期率的主要影响因素为借贷利率、还款周期、借款人年龄、借款人工作时间、房产、借款人历史成功次数、月收入、历史借款数量、信用分数、授信额度、以及借款总额[23]。
郭弈(2011)实验研究拍拍贷平台上的数据后,得到借款者的越高的信用等级、越好的信用资质则可以匹配更低的借贷利率的结论[24]。
相似地,温小霓等(2014)发现借款人的借款金额与借款结果之间是反向影响关系[25],借贷利率越低说明逾期风险越低。
成冰清(2017)通过研究还款逾期的影响因素,得出收入相对较高且借款金额不是很大的借款者的还款逾期率低、年龄越大还款逾期的可能性也越大、有固定资产的借款者的还款逾期率低[26]。
肖曼君等(2015)用排序选择模型截取多个互联网金融借贷网站数据,得到个人特征、信用变量、历史表现、借款信息分别对网络借贷信用风险存在正向影响[27]。
夏雨霏(2017)借助二元贝叶斯分位数回归模型并与比较Logistic和Probit回归结果,识别P2P网借中个人风险的关键影响因素为人口统计学特征、贷款特征和借款人信用水平[28]。
除了能收集到的常规硬信息,软信息更难收集和衡量。
软信息最早用于银行业
哈尔滨工业大学管理学硕士学位论文
术语,是指不能按标准化办法收集和处理,从而无法以书面方式在借款人与银行之间、以及银行内部准确传递的信息。
借款方的性格、信用、社会关系、社会形象等均属于软信息。
相对而言借款方所提供的资产证明、外部机构评级、银行流水、贷款担保等,均属于硬信息。
而在软信息的研究上,苏静(2017)使用案例研究法,计算两个案例在硬信息和软信息不同权重搭配时的信用风险得分结果,发现当软信息权重增大时低风险企业的得分增大,而高风险企业的得分减小,二者分离得越彻底[29]。
这也说明了软信息在风险识别中起着关键作用,但难以被定量记录与描述。
在模型的选择上,周玉琴等(2016)采用随机森林模型,从33个原始变量中选出10个重要变量并建立预测模型,并将该模型与决策树、神经网络、支持向量机、贝叶斯、Logistic模型进行对比,得出随机森林模型的准确率最高,且得到借款人的历史借贷成功率、未还清的借款数量、收入认证和信用认证分别是影响借贷成功率前四个重要的因素[30]。
在使用XGBoost模型研究方面,沙靖岚(2017)选择Lending Club平台2007年至2017年第二季度的交易数据作为研究样本,通过LightGBM和XGBoost模型得到影响违约结果的四大维度,重要性顺序从高至低分别是借款详情>经济状况>信用状况>个人信息[31]。
王静月(2017)基于用户登录日志和用户信息更新日志的贷款交易数据,划分所有变量为基本信息、第三方数据、地理信息、登录日志、信息更新日志等六个子模块,并利用XGBoost算法框架得到准确性及稳定性均达预期水平的违约预测模型[32]。
高昊阳(2018)主要通过借款方的支付宝交易、京东交易、以及通讯记录等数据对授信模型进行训练,通过对比逻辑回归和XGBoost模型,选择最为准确的XGBoost-L授信模型[33]。
杜盼(2018)以互联网消费金融公司S的数据作为研究样本进行实证分析,通过与逻辑回归模型、支持向量机模型、高斯-贝叶斯模型的训练结果对比。
并综合模型的训练时长消耗、验证集准确率、TPR评价指标以及结果可解释性四大指标,证明XGBoost模型在识别借款方逾期关键影响因素上的优势[34]。
XGBoost算法在其他领域的应用方面,张昊等(2017)通过XGBoost算法,对电商平台用户信息中的浏览、加购、收藏、购买等交互行为进行数据挖掘,个性化地向用户推荐商品,有效提高用户购物效率的同时拉升商家收入[35]。
叶倩怡(2016)基于XGBoost 模型对实体零售业销售额进行预测,并对比了随机森林、GLMNET、
哈尔滨工业大学管理学硕士学位论文
LM、TSLM等不同模型对销售额的预测结果,表明XGBoost 模型的训练速度和RMSPE 评价标准指标都具有明显的优势[36]。
邱耀等(2018)[37]基于XGBoost算法深入挖掘了超过300个用户消费特征,建立消费预测模型。
杨贵军等(2019)[38]基于XGBoost算法对用户网络评论构建有效的评分预测模型,挖掘用户对汽车商品的偏好消费行为特征。
刘宇等(2019)[39]基于聚类和XGBoost算法的对心脏病进行预测。
苏天培(2019)[40]基于XGBoost对糖尿病风险进行预测;孙逸菲等(2018)[41]基于XGBoost方法对葡萄酒品质进行预测;伯毅(2018)[42]基于XGBoost模型进行短期股票预测。
宋国琴等(2018)[43]基于XGBoost模型对慕课翘课指数进行特征选择和模型建立。
杨立洪等(2018)[44]基于二次组合衍生出丰富而又切合业务场景的特征群,并基于XGBoost模型对用户行为预测。
在对XGBoost模型的使用和改进上,徐彬心(2017)结合ROC曲线、AUC值、敏感度、特异度等指标发现,Borderline-SMOTE算法结合XGBoost所得到的模型预测效果有所改进[45]。
陈明华等(2018)通过XGBoost建模得到暂态稳定特征重要度排序和决策图,从而可视化挖掘暂态稳定性特征的重要性关系,并且在预测精度和运算速度的平衡上具有极大优势[46]。
李晓刚(2018)提出拟袋装(quasi-bagging)方法对多数类进行随机分组,运用训练集中全部的样本信息对分类器进行构造,模型准确率较高[47]。
在可视化方面,国内学者在SHAP的研究应用上很少。
1.4.3 国内外文献综述
从整体上看,以上国内外学者的相关研究基本可以归纳为以下四个阶段。
第一阶段:研究逾期识别的影响因素与影响方向,比如收入越高,逾期可能性越低;年龄越大,逾期可能性越大[26]。
根据对变量的研究来看,基本涉及到的变量有人口信息变量,如性别、年龄,有借贷信息变量,如历史贷款水平,有信用水平变量,如平台的信用得分。
平台或提供借贷服务的企业会尽最大的努力收集用户的数据,以提高对用户的风险评价能力,目前对于用户信息的收集,更关注大数据场景下的数据应用,而不是关注个别指标的情况。
而信息收集的困难在于各个企业间的信息隔阂不会轻易被消解。
第二阶段:在具体场景和真实数据下进行实证研究分析,以衡量变量的影响大小,如通过Logistic模型研究是否逾期与变量之间的关系,并通过统计性指标验证
哈尔滨工业大学管理学硕士学位论文
模型显著性。
所以在这个情形下,各个互联网金融平台会收集尽量收集用户信息,并在自身有限的信息条件下,利用模型或策略实现最优化的人群配置。
而在这一阶段中,线性模型的准确率还无法满足量化预测的要求。
第三阶段:多维度、多变量并结合复杂的机器学习模型,建立变量与是否逾期之间的模型关系,并对模型间的预测效果进行比较。
随着复杂机器学习模型的发展,从线性到非线性模型的应用,模型评价的精度越来越高,但变量的解释性逐渐降低。
而对复杂模型的解释方面,近年出现的SHAP框架的应用在国内学术界仍没有被有效地推广,因而可视化显得尤其重要。
在这一阶段中,模型能比第二阶段的线性模型有更强大的预测准确率,但解释性降低,模型可视化效果差。
第四阶段:在复杂机器学习的场景上进行可视化,对第三阶段的应用价值进行完善补充。
而这一阶段的局限在于,目前可视化工具支持的内容有限,随着模型的复杂性增加,可视化效果会更难。
目前用XGBoost模型研究逾期风控问题的文章较少,其中一个原因是,XGBoost相比于支持向量机或者随机森林会更难解释。
而大多研究者对可视化的研究主要是基于数据可视化,对XGBoost模型本身的解释几乎是空白的。
1.5论文研究内容
本文主要基于XGBoost模型研究贷前逾期识别与模型表达,即通过XGBoost 模型建立各变量与逾期变量之间的关系,并在构造有实际意义指标的基础上,对比XGBoost模型和Logistic回归模型、随机森林模型和GBDT模型的表现,以期证明XGBoost模型的表现更好,并通过国外近年来兴起的SHAP解释性框架,解释变量与预测变量之间的关系。
研究该课题有流程改进和模型解释两个层面的意义。
流程改进主要体现在打通从数据处理、数据探索、指标构建和建模比较的流程,通过系统化方法,说明建模结果的科学性和有效性,以期最大化利用数据的真实信息。
另外,XGBoost作为当下热门的机器学习算法,复杂性和准确性高,但在具体应用领域,所带来的不可解释性已经成为目前一个可以优化的方向。
将模型的规则可视化至少有两个好处,一是能辅助相应的业务发展,将有限的资源配置到合理的领域去,这正是风控领域中的一个痛点;另一方面,国内学者在XGBoost可视化的研究方面还不够成熟。
本文的研究内容包括:选择并构建有实际意义的三大类七大指标,并在实际数据的基础上建立基线模型和XGBoost模型,说明XGBoost模。