基于数据挖掘技术的P2P借贷违约风险识别模型研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于数据挖掘技术的P2P借贷违约风险识别模型研究
在互联网经济日益扩张的今天,为满足多样化的投资和借贷需求,互联网金融产业下的P2P借贷业务快速扩张。但近年来,P2P借贷业务发展遇到了一系列问题,尤其是较高的违约率带来的坏账问题,导致P2P平台和投资者遭受损失。建立有效的P2P借贷违约风险识别模型,对于平台的风险控制和行业的长远发展,有着重要的意义。本文旨在运用当前较为主流的数据挖掘方法,寻找并构建能够有效识别P2P借贷违约风险的模型,从而实现P2P平台中潜在违约情况的及时预测,有效降低P2P平台因高违约率而带来的损失,进而提高生存能力。
本文首先对P2P借贷业务进行了基本分析,阐述了所采用的几类数据挖掘模型的基本思想和特点。然后,以“拍拍贷”公开的借款人数据集为例进行数据采集,对所采集得到的P2P借贷记录数据进行数据清洗和特征工程。此后,对清洗以后的数据集分别建立逻辑回归(Logistic)、神经网络、支持向量机(SVM)、C50决策树、随机森林、GBDT迭代树和XGBoost等P2P违约风险识别的数据挖据模型,并且选择准确度、精确度、召回度和F1统计值等评估指标来对各个模型的预测效果进行评估和对比。最后,分别选择其中表现效果较佳的XGBoost模型和逻辑回归模型作为基模型和第二阶段的模型,采用Stacking集成学习的方法,建立最终的违约识别组合模型。
本文的最终研究结果表明,运用开源工具R语言,基于包含P2P借款用户的基本信息、网络行为、教育信息、社交网络和第三方数据等多维度数据,采用当前流行的数据挖据模型XGBoost建立的Stacking模型组合在对P2P借贷违约风险的识别中具有比单一预测模型更好的预测效果。在测试数据的表现情况来看,该模型不仅能够识别出相当比例的违约用户,同时也能避免过度“误杀”正常借款用户。因此,本文的研究结果可以有效辅助P2P平台及时预测和识别潜在的违约风险,帮助投资者保障合法收益,并且促进P2P行业的监管。