基于融360数据的模型构建和用户贷款审批结果预测
基于XGBoost的互联网金融贷前逾期识别与模型表达
摘要摘要本文主要基于XGBoost(eXtreme Gradient Boosting极限梯度提升)模型,研究在互联网金融场景中对有贷前逾期风险的用户进行识别的问题,并通过强大的SHAP(SHAPley夏普利)解释框架对模型进行可视化表达。
为了研究这一问题,本文选取了融360企业提供的公开数据集,在万级数据量以及匿名变量的场景中,实现对变量的清洗、模型的构造、比较、可视化,以此说明XGBoost模型的高精度以及在贷前逾期场景中可解释性。
本文一方面综合考虑各种变量的性质,对匿名变量的缺失值进行有规律地插补,以实现对变量的清洗,避免“垃圾进、垃圾出”(Garbage In Garbage Out)的情况发生。
另一方面,通过控制训练集和测试集的一致性,构造了逻辑回归(LR)、随机森林(RF)、梯度提升决策树(GBDT)三个模型,将这三个经典模型作为基线模型,通过精度对比说明XGBoost模型的优良性。
为了让模型评估指标更贴合实际场景,本文选取了三大类七个指标综合地评判各个模型的识别效果。
评价指标中包括模型的排序能力、对正样本的识别能力等,并构造了预期收益这一指标替代常规的准确率指标。
进一步地,为了提升模型的精度,本文对所建立的XGBoost模型进一步进行超参数调优。
最后,利用对集成模型的解释框架SHAP,将这一模型中各个变量的价值进行可视化处理,从变量角度和样本角度分别进行可视化,实现模型表达的效果。
并在匿名变量的场景下进行模拟解释,以便更好地解读其经济管理含义。
关键词:互联网金融;贷前逾期识别;参数调优;极限梯度提升模型;夏普利解释框架;AbstactAbstractBased on the XGBoost model, this paper studies the problem of identifying users with pre-lending overdue risks in the Internet financial scenario, and visualizes the model through a powerful SHAP framework. In order to study this problem, this paper selects the public data set provided by Rong 360 enterprise, realizes the cleaning of variables, the construction, comparison and visualization of the model in the scene of 10,000 data volume and anonymous variables, so as to illustrate the XGBoost model. High accuracy and interpretability in pre-lending overdue scenarios.On the one hand, this paper comprehensively considers the nature of various variables, and regularly interpolates the missing values of anonymous variables to achieve the cleaning of variables and avoid the occurrence of Garbage In Garbage Out. On the other hand, by controlling the consistency of the training set and the test set, three models of Logistic Regression (LR), Random Forest (RF) and Gradient Boosting Decision Tree (GBDT) are constructed. These three classic models are used as baseline models. The accuracy comparison shows the superiority of the XGBoost model.In order to make the model evaluation indicators more suitable for the actual scene, this paper selects three categories of seven indicators to comprehensively judge the recognition effect of each model. The evaluation indicators include the sorting ability of the model, the ability to identify positive samples, etc., and construct the expected return index instead of the conventional accuracy rate indicator. In order to improve the accuracy of the XGBoost model, this paper further performs hyperparameter tuning on the established XGBoost model. Finally, using the interpretation framework SHAP of the integrated model, the value of each variable in the model is visualized, visualized from the perspective of variables and samples, and simulated in the context of anonymous variables for better interpretation. Its economic management implications. Keywords:Internet finance,pre-lending overdue recognization , parameter tuning, eXtreme Gradient Boosting, SHAP目录目录摘要 (I)Abstract............................................................................................................................. I I 第1章绪论 .. (1)1.1 课题来源与研究意义 (1)1.2 传统金融的贷前逾期识别 (1)1.3 互联网金融的贷前逾期识别 (2)1.4 国内外研究现状 (3)1.4.1 国外研究现状 (3)1.4.2 国内研究现状 (5)1.4.3 国内外文献综述 (7)1.5 论文研究内容 (8)第2章理论模型与方法 (10)2.1 逻辑回归模型 (10)2.1.1 逻辑回归模型的应用 (10)2.1.2 逻辑回归模型的求解原理 (10)2.1.3 逻辑回归模型的参数说明 (13)2.1.4 逻辑回归的优缺点 (14)2.2 随机森林模型 (15)2.2.1 随机森林模型的应用 (15)2.2.2 随机森林模型的求解原理 (15)2.2.3 随机森林模型的参数说明 (18)2.2.4 随机森林模型的优缺点 (18)2.3 GBDT模型 (19)2.3.1 GBDT模型的应用 (19)2.3.2 GBDT模型的求解原理 (20)2.3.3 GBDT模型的参数说明 (21)2.3.4 GBDT模型的优缺点 (22)2.4 XGBoost模型 (22)2.4.1 XGBoost模型的应用 (22)2.4.2 XGBoost模型的求解原理 (22)2.4.3 XGBoost模型的参数说明 (24)2.4.4 XGBoost模型的优缺点 (25)目录2.5 四个模型的可解释性 (26)2.6 本章小结 (26)第3章模型的建立和模型评价 (28)3.1 数据来源与说明 (28)3.1.1 数据背景 (28)3.1.2 数据缺失情况 (29)3.1.3 数据类型 (31)3.2 评价基线与指标选择 (32)3.2.1 评价基线的确定 (32)3.2.2 评价指标的选择 (33)3.3 基线模型的评价结果 (35)3.3.1 逻辑回归模型的评价结果 (35)3.3.2 随机森林模型的评价结果 (36)3.3.3 GBDT模型的评价结果 (36)3.3.4 基线模型小结 (37)3.4 XGBoost模型的建立与评价结果 (38)3.5 XGBoost模型的优化 (39)3.5.1 参数调优 (39)3.5.2 变量降维 (40)3.6 本章小结 (40)第4章XGBoost模型的可视化表达 (42)4.1 XGBoost模型的解释性 (42)4.1.1 变量的重要性 (42)4.1.2 单棵决策树 (44)4.1.3 解释能力的局限性 (45)4.2 基于SHAP值的解释框架 (45)4.2.1 SHAP含义 (45)4.2.2 SHAP值的特性 (46)4.3 XGBoost模型中变量与样本的重要性分析 (47)4.3.1 变量重要性分析 (47)4.3.2 单变量SHAP值的映射关系 (50)4.3.3 单个样本的SHAP值计算 (51)4.4 匿名变量的业务处理方案 (52)4.5 本章小结 (53)结论 (55)目录参考文献 (56)攻读硕士学位期间发表的论文及其它成果 (60)哈尔滨工业大学学位论文原创性声明和使用权限 (61)致谢 (62)哈尔滨工业大学管理学硕士学位论文第1章绪论1.1课题来源与研究意义互联网金融是一种新型的金融业务模式。
金融行业中贷款审批模型的建立与使用技巧
金融行业中贷款审批模型的建立与使用技巧随着金融行业的不断发展,贷款审批模型成为金融机构中不可或缺的工具。
正确建立和使用贷款审批模型,能够有效提高审批的准确性和效率。
本文将就金融行业中贷款审批模型的建立与使用技巧进行详细介绍,帮助金融从业人员更好地运用这一工具。
一、贷款审批模型的建立1. 数据收集与整理贷款审批模型的建立首先需要大量的数据作为基础。
金融机构应根据自身的实际情况收集相关的客户数据,如个人信息、财务状况、信用记录等。
同时,还需要收集与贷款申请相关的外部数据,如行业数据、宏观经济数据等。
数据的整理工作也十分重要,要对收集到的数据进行清洗和标准化处理,确保数据的准确性和一致性。
此外,还可以利用机器学习方法处理数据,提取有用的特征。
2. 特征选取与构建在建立贷款审批模型时,选择适当的特征对模型的准确性起着关键作用。
特征选取需基于实际情况和经验进行,选取那些与贷款违约风险相关的特征。
同时,还可以通过特征工程的方式构建一些新的特征,以增强模型的表现力。
特征的选取和构建需要结合实际经验和数据分析,在保持模型简洁性的同时,尽可能提高模型的预测性能。
3. 模型选择与训练模型的选择是建立贷款审批模型的重要一步。
常用的模型包括逻辑回归、支持向量机、决策树等。
不同模型有不同的特点和适用范围,金融机构应根据自身的情况选择合适的模型。
模型的训练是建立贷款审批模型的核心步骤。
金融机构应使用已整理好的数据集对选定的模型进行训练,并根据训练结果进行模型调优,提高模型的准确性和鲁棒性。
二、贷款审批模型的使用技巧1. 模型评估与监控贷款审批模型建立完成后,需要对模型进行评估和监控,确保模型的稳定性和准确性。
评估模型时,可以使用一些常见的评估指标,如准确率、召回率、精确率等,对模型的表现进行评价。
同时,还需要对模型进行监控,及时发现模型的异常表现和预测偏差,对模型进行调整和改进。
监控模型需要建立一套完善的流程和机制,确保模型能够及时适应市场的变化和风险的变化。
基于大数据分析的金融机构信贷风险评估模型构建
基于大数据分析的金融机构信贷风险评估模型构建金融机构信贷风险评估是银行和其他金融机构在放贷过程中必须进行的核心工作之一。
随着大数据技术的快速发展,金融机构开始利用大数据分析方法来构建更加准确和可靠的信贷风险评估模型。
本文将探讨基于大数据分析的金融机构信贷风险评估模型的构建方法和关键要素。
一、引言信贷风险评估是金融机构中最重要的工作之一。
传统的信贷评估模型主要基于贷款申请人的个人信用记录、资产负债表和收入等信息,并通过建立复杂的统计模型来预测违约风险。
然而,这种基于传统数据的评估模型往往无法准确地捕捉到贷款申请人的真实信用状况,容易导致信贷决策的不准确和不稳定。
二、基于大数据分析的金融机构信贷风险评估模型的构建方法1. 数据采集和准备构建基于大数据分析的信贷风险评估模型的第一步是收集和准备数据。
金融机构可以从内部和外部数据源中获取大量的数据,如贷款历史记录、个人信用报告、社交媒体数据等。
同时,还需要清洗和预处理数据,确保数据的质量和一致性。
2. 特征选择和特征工程在数据准备完成后,需要进行特征选择和特征工程。
特征选择是从大量的特征中筛选出对信贷风险有显著影响的关键特征。
特征工程则是通过对特征进行转换和组合,生成新的特征,以提高模型的预测能力。
3. 模型选择和训练在特征选择和工程完成后,就可以开始选择合适的模型来进行训练和预测。
常用的模型包括逻辑回归、决策树、支持向量机等。
此外,还可以采用集成学习的方法,如随机森林和梯度提升树,以进一步提升模型的性能。
4. 模型评估和优化模型训练完成后,需要对模型进行评估和优化。
常用的评估指标包括准确率、召回率、精确率和F1值等。
如果模型的性能不够理想,可以通过调整模型参数、增加训练样本或修改特征工程方法来优化模型。
三、基于大数据分析的金融机构信贷风险评估模型的关键要素1. 数据质量数据质量是构建准确信贷风险评估模型的基础。
要确保所使用的数据准确、完整和一致,并排除异常值和噪声。
基于大数据的不良贷款预测模型构建与评估研究
基于大数据的不良贷款预测模型构建与评估研究随着金融行业的发展,金融机构着重于不良贷款的风险控制。
不良贷款是指借款人不能按时或不完全偿还其贷款本金和利息的情况。
这种情况严重影响了金融机构的利润和稳定性。
因此,开发一种有效的不良贷款预测模型,对金融机构的风险控制和发展至关重要。
大数据技术的发展为不良贷款预测模型的构建提供了强有力的支持。
大数据可以从海量的数据中快速准确地提取出有价值的信息,并通过有效的数据分析技术来构建出一种高准确率的模型。
不良贷款预测模型的构建需要处理大量的数据,包括借款人的个人信息、贷款信息、职业信息、还款记录和交易信息等等。
数据分析技术可以对这些数据进行筛选、清洗、归类、处理和分析,以提取出对预测不良贷款影响较大的关键因素。
构建不良贷款预测模型有多种方法和技术可供选择,如逻辑回归模型、支持向量机模型、决策树模型和神经网络模型等。
这些模型的主要原理是将原始数据集分为训练集和测试集,通过大量数据的学习和分析,构建出一个高精度的预测模型。
在预测的过程中,通过分析模型的输出结果和实际情况的差异,不断调整和优化模型,以达到更加准确的预测效果。
同时,不良贷款预测模型的评估也非常重要。
评估的目的是确定模型的优劣、准确率和可靠性。
评估指标包括精度、召回率、F值、ROC曲线、AUC等。
精度指模型准确预测的正样本占所有样本的比例;召回率指模型识别的正样本占总正样本的比例;F值指精度和召回率的综合评价;ROC曲线指用真正率(TPR)表示的横坐标和假正率(FPR)表示的纵坐标的曲线;AUC则是ROC曲线下的面积,表示模型的预测能力。
总的来说,基于大数据的不良贷款预测模型构建和评估需要充分利用各种数据分析技术和模型构建技术。
通过综合运用这些技术,可以构建出一个高准确率、高预测能力的不良贷款预测模型,为金融机构的风险管理和发展提供重要支持。
人工智能在金融领域的贷款申请与审核中的应用与挑战
人工智能在金融领域的贷款申请与审核中的应用与挑战随着科技的不断发展,人工智能(Artificial Intelligence, AI)在各个领域发挥着越来越重要的作用,包括金融领域的贷款申请与审核。
借助人工智能技术,银行和金融机构可以更高效、准确地处理贷款申请,但同时也面临一些应用与挑战。
一、人工智能在贷款申请与审核中的应用1. 贷款申请预测评估:人工智能可以通过分析大量的客户数据和历史贷款记录,建立起预测模型,准确评估借款人的信用风险。
这种预测评估可以帮助金融机构更快速地决定是否批准贷款申请。
2. 自动化审批流程:传统的贷款审批通常需要人工操作和判断,非常耗时且容易出错。
而人工智能技术可以通过自动化流程,将大部分审批过程自动完成,极大地提高审批效率。
3. 反欺诈识别:借助机器学习算法,人工智能可以检测出潜在的欺诈行为。
通过分析借款人的个人信息、历史行为和交易模式等数据,系统可以发现异常行为,提前预警识别可能的欺诈。
二、人工智能在贷款申请与审核中面临的挑战1. 隐私与数据安全:在贷款申请与审核过程中,金融机构需要收集大量的个人数据。
但是,这些数据的安全性成为人工智能应用的重要问题,必须确保借款人的隐私不被泄露或滥用。
2. 解释性与可信度:人工智能的决策过程通常是基于复杂的算法和模型,普通人难以理解其具体的判断依据。
这使得人们对于人工智能的可信度产生疑虑,也加大了监管部门对于人工智能的审核和监管难度。
3. 数据偏见与歧视:人工智能系统的训练数据来自于历史记录,如果这些数据带有偏见或歧视,那么人工智能算法可能会在贷款申请与审核过程中重复和扩大这些偏见和歧视。
这可能对某些群体造成不公平对待,进而引发社会和道德问题。
三、解决挑战的途径与建议1. 加强数据隐私保护:金融机构应该建立严格的数据保护措施,保障借款人的隐私安全。
同时,在使用人工智能系统过程中,要遵循相关的隐私法规和道德准则,确保数据的合法使用。
基于大数据分析的个人信用评估与信贷风险预测模型研究
基于大数据分析的个人信用评估与信贷风险预测模型研究随着金融科技的迅猛发展和大数据技术的成熟应用,个人信用评估和信贷风险预测变得更为准确和可靠。
本文将探讨基于大数据分析的个人信用评估与信贷风险预测模型的研究,并探讨其在金融行业的应用和挑战。
一、概述个人信用评估和信贷风险预测是金融机构进行信贷业务的关键环节。
过去,传统的信贷评估主要依赖于客户的个人资产和还款记录等有限信息。
然而,这种评估方式存在信息不全、评估精度低、潜在风险无法识别的问题。
而基于大数据分析的个人信用评估与信贷风险预测模型则通过集成海量数据、构建全面的信贷风险模型,能够更准确地评估个体信用状况,提高信贷业务的效率和风险控制能力。
二、基于大数据的信用评估模型1. 数据收集和整合在构建基于大数据的信用评估模型时,首先需要收集和整合各种个人数据,包括但不限于财务状况、消费记录、社交网络活动、手机定位数据等。
这些数据来自于多个渠道,如银行、电商平台、社交媒体等。
2. 特征提取和选择通过数据预处理和挖掘技术,对收集到的海量数据进行特征提取和选择。
这一步旨在从庞杂的数据中选取对信用评估具有重要意义的特征,并剔除不相关或冗余的特征。
通常会采用机器学习算法和统计方法来辅助进行特征选择。
3. 模型构建和训练基于提取的特征,建立合适的信用评估模型。
常用的模型包括决策树、逻辑回归、支持向量机、神经网络等。
利用历史数据进行模型训练和参数优化,以捕捉相关特征与个体信用之间的潜在关系。
4. 评估模型性能完成模型训练后,需要进行模型性能评估。
可以采用精确度、召回率、F1分数等评估指标,计算模型的准确性和可靠性。
此外,还可以通过交叉验证等技术来评估模型的稳定性和泛化能力。
三、基于大数据的信贷风险预测模型1. 数据获取和整理信贷风险预测模型依赖于大量的历史数据,因此需要获取和整理贷款申请、客户信息、还款记录等相关数据。
这些数据通常来自于金融机构内部的数据库,同时也可以结合外部数据源获取更多的信息。
贷款预测模型及风险评估技术
贷款预测模型及风险评估技术随着金融科技的不断发展,贷款预测模型及风险评估技术已成为了现代金融业务中的不可或缺的一部分。
这些技术可以帮助银行和其他金融机构更好地评估贷款申请人的信用状况,从而减少风险,并更好地管理其贷款组合。
贷款预测模型的基本概念贷款预测模型是基于多种变量来预测贷款违约风险的一种数学模型。
这些变量可能包括贷款申请人的信用评级、历史贷款记录、社会经济状况、工作经历等等。
该模型可以给银行提供一个综合的评估结果,并帮助银行根据不同风险程度决定是否批准申请、授予多少额度以及采取什么样的贷款条件等。
一般来说,贷款预测模型可以分为两类:基于统计的模型和基于机器学习的模型。
基于统计的模型使用传统的回归、分类和聚类等统计学方法,依靠统计学假设来解释数据之间的关系,从而预测贷款违约风险。
而基于机器学习的模型,比如说支持向量机和神经网络,采用更加复杂的算法来预测贷款违约风险。
机器学习模型通过自我学习来识别有用的特征,并对它们进行分类或预测。
贷款风险评估的基本原则贷款风险评估是银行或其他金融机构判断贷款申请人还款能力和可靠性的一种过程。
这个过程的主要原则包括:1.信用评级。
银行通常会给每个贷款申请人一个信用评级,来识别不同的风险程度。
这个评级通常会基于申请人的信用历史、收入、债务水平等因素。
一般来说,评分越高,那么该申请人违约的可能性就越小。
2.债务收入比。
债务收入比是指借款人的债务总额与收入总额的比例。
一般来说,银行会要求借款人的债务收入比在一个相对较低的范围内,从而确保申请人有足够的收入来还款。
3.借款人财务状况。
银行也会对借款人的财务状况进行评估,包括财务报表、信用历史、其他负债等。
这些变量的分析可以揭示借款人的财务稳定性和信用可信度。
贷款预测模型的应用贷款预测模型可以应用在以下几个方面:1.风险评估。
银行可以使用贷款预测模型来评估每个贷款申请人的信用风险,并以此进行审核。
这有助于银行更好地控制风险,减少贷款违约率。
金融行业的贷款风险评估模型
金融行业的贷款风险评估模型金融行业的贷款风险评估模型是银行和其他金融机构用于确定贷款申请人的信用风险和违约可能性的工具。
这些模型基于历史数据和统计分析,以帮助金融机构合理地评估贷款风险,从而降低经济损失,并更好地管理贷款组合。
本文将介绍金融行业常用的贷款风险评估模型及其应用。
一、经典的贷款评估模型1. 信用评分模型信用评分模型是最常见的贷款风险评估模型之一。
它基于申请人的个人信用历史、收入状况、负债情况等因素,通过建立一个评分系统来预测违约概率。
该模型通过量化个人信用状况并进行加权,得出一个信用评分。
评分越高,代表贷款违约可能性越低,银行则更愿意批准该笔贷款。
2. 基于统计的模型基于统计的模型使用历史数据和统计方法来确定违约概率。
这些模型可以是二元逻辑回归模型、决策树模型、随机森林模型等。
统计模型通过分析大规模的历史数据集,寻找与违约相关的因素,并建立预测模型。
金融机构通过将申请人的信息输入到模型中,来获得该申请人违约的概率。
二、先进的贷款评估模型1. 人工智能模型随着人工智能技术的发展,金融行业越来越多地应用人工智能技术来评估贷款风险。
人工智能模型可以处理非线性和复杂的数据关系,并能够自动学习和优化模型。
通过深度学习、神经网络等技术,人工智能模型能够更准确地预测违约可能性,提高贷款评估的准确性和效率。
2. 大数据模型大数据模型利用大规模的数据集和数据挖掘算法来评估贷款风险。
金融机构可以利用大数据技术从海量数据中提取有价值的信息,进而识别潜在的风险因素。
通过分析大数据集,金融机构可以建立预测模型,更好地判断贷款违约可能性。
三、模型应用和挑战贷款风险评估模型在金融行业有着广泛的应用。
它可以帮助金融机构准确地评估申请人的信用风险,避免不良贷款的风险,同时也能降低信贷风险和损失。
然而,贷款风险评估模型也面临一些挑战。
首先,模型的准确性依赖于历史数据的质量和可靠性。
如果历史数据不准确或不完整,模型的预测效果将会受到影响。
金融风控模型中的不良贷款预测与评估技术研究
金融风控模型中的不良贷款预测与评估技术研究近年来,随着金融业的快速发展与市场竞争的加剧,银行面临着越来越多的风险挑战。
其中,不良贷款风险是银行面临的最为严重的风险之一,因此,建立准确可靠的不良贷款预测与评估技术尤为重要。
不良贷款预测与评估的目的是根据历史数据和各种特征变量,对未来可能出现的不良贷款情况进行预测和评估。
通过建立合适的风险模型,银行可以及时识别潜在的风险贷款,采取相应的措施进行风险管理。
现有的金融风控模型中,常用的不良贷款预测和评估技术包括传统的统计模型和机器学习模型。
传统的统计模型包括Logistic回归模型、判别分析模型等,这些模型建立在一定的假设条件下,通过建立指标体系进行不良贷款的预测和评估。
而机器学习模型则利用大数据和强大的计算能力,通过自动学习和优化算法,构建更加准确和精细化的不良贷款预测模型。
在不良贷款预测和评估技术中,常用的特征变量包括客户的个人信息、贷款信息、历史信用记录等。
通过分析客户的个人信息和贷款信息,可以了解客户的还款能力和还款意愿;而通过分析客户的历史信用记录,可以评估客户过去是否有逾期还款的记录等。
根据这些特征变量,可以构建合适的预测模型,对不良贷款进行准确预测。
当建立不良贷款预测模型时,首先需要进行数据预处理。
这包括数据清洗、缺失值处理和特征选择等步骤。
数据清洗是指对数据中的异常和错误值进行处理,保证数据的质量和准确性;缺失值处理是指对缺失值进行填充或删除,避免对模型建立带来影响;特征选择是指通过各种算法和方法,选择对不良贷款预测有较大影响的特征变量,提高模型的预测能力。
在选择合适的不良贷款模型时,需要考虑模型的可解释性、预测准确性和稳定性等因素。
传统的统计模型具有较好的可解释性,可以分析指标的影响因素和相关关系;而机器学习模型则具有更高的预测准确性和稳定性,适用于大规模数据的建模和预测。
在模型评估方面,常用的评估指标包括准确率、召回率、F1值等。
准确率是指模型预测结果中正确预测的比例;召回率是指模型正确预测的正样本占所有正样本的比例;F1值是综合考虑了准确率和召回率的综合评价指标。
互联网金融授信风险预测模型构建与优化
互联网金融授信风险预测模型构建与优化随着互联网金融的快速发展,授信成为了互联网金融行业的重要环节之一。
然而,对于借款人的信用风险评估一直是金融机构面临的挑战。
为了准确评估授信风险,各种预测模型被提出和应用于互联网金融行业。
本文将重点探讨互联网金融授信风险预测模型的构建和优化。
首先,构建互联网金融授信风险预测模型的关键在于数据的收集和处理。
互联网金融平台拥有大量的用户数据,这些数据包括个人信息、历史借款记录、还款情况等。
对于构建预测模型,我们需要从这些数据中选取相关特征,并对其进行预处理。
特征选择的关键在于选择与信用风险相关的特征,并确保特征之间没有冗余。
预处理的关键在于对数据进行清洗、缺失值填补、异常检测和标准化处理,以确保数据的质量。
其次,选择合适的预测模型是构建互联网金融授信风险预测模型的重要步骤。
常用的预测模型包括逻辑回归、支持向量机、决策树、随机森林等。
每种预测模型都有自己的优缺点,适用于不同的场景和数据。
在选择预测模型时,需要综合考虑预测准确度、计算复杂度、解释性能力等因素。
在实际应用中,可以通过交叉验证等方法来评估不同模型的性能,并选择最优的模型。
另外,数据不平衡问题是互联网金融授信风险预测模型中常见的挑战之一。
由于正常用户的数量远远多于风险用户,数据不平衡会导致预测模型的性能下降。
为解决这一问题,我们可以采取过采样和欠采样等方法。
过采样通过增加风险用户的样本数量来平衡数据,而欠采样则通过减少正常用户的样本数量来达到平衡。
此外,集成学习方法,如集成多个分类器、调整分类阈值等,也可以有效提高预测模型的性能。
在构建互联网金融授信风险预测模型之后,模型的优化也是非常重要的。
模型优化可以在多个方面进行,包括特征筛选和调参。
特征筛选可以通过评估特征的重要性来选择最具有预测能力的特征,减少不相关的特征对模型性能的影响。
调参是指对预测模型的参数进行调整,以使模型在预测效果和计算效率之间取得平衡。
此外,模型的实时更新和监测也是优化的重要环节。
python数据分析案例实战——融360客户贷款风险预测(信用卡)
python数据分析案例实战——融360客户贷款风险预测(信⽤卡)数据源:融360-⽤户贷款风险预测参考资料:流程如下:项⽬⽬标数据解读数据预处理特征⼯程1.基于业务理解筛选2.基于机器学习筛选模型建⽴⼀、项⽬⽬标通过举办⽅提供的⽤户基本信息,消费⾏为,还款情况等,建⽴准确的逾期预测模型,以预测⽤户是否会逾期还款。
⼆、数据解读相关专业名词可以去举办⽅融360官⽹上搜索1.数据概述:⽤户的基本属性user_info.txt银⾏流⽔记录bank_detail.txt⽤户浏览⾏为browse_history.txt信⽤卡账单记录bill_detail.txt放款时间loan_time.txt逾期⾏为的记录overdue.txt(注意:并⾮每⼀位⽤户都有⾮常完整的记录,如有些⽤户并没有信⽤卡账单记录,有些⽤户却没有银⾏流⽔记录。
同时需要注意的是数据做过脱敏处理:(a) 隐藏了⽤户的id信息;(b) 将⽤户属性信息全部数字化;(c) 将时间戳和所有⾦额的值都做了函数变换。
)2.数据详细描述:(1)⽤户的基本属性user_info.txt。
共6个字段,其中字段性别为0表⽰性别未知。
⽤户id,性别,职业,教育程度,婚姻状态,户⼝类型6346,1,2,4,4,2(2)银⾏流⽔记录bank_detail.txt。
共5个字段,其中,第2个字段,时间戳为0表⽰时间未知;第3个字段,交易类型有两个值,1表⽰⽀出、0表⽰收⼊;第5个字段,⼯资收⼊标记为1时,表⽰⼯资收⼊。
⽤户id,时间戳,交易类型,交易⾦额,⼯资收⼊标记6951,5894316387,0,13.756664,0(3)⽤户浏览⾏为browse_history.txt。
共4个字段。
其中,第2个字段,时间戳为0表⽰时间未知。
⽤户id,时间戳,浏览⾏为数据,浏览⼦⾏为编号 34724,5926003545,172,1(4)信⽤卡账单记录bill_detail.txt。
基于大数据的银行客户信用风险预测模型构建
基于大数据的银行客户信用风险预测模型构建随着信息技术的快速发展,大数据分析在各行各业中发挥着越来越重要的作用,尤其是在银行业中,大数据分析可以帮助银行对客户信用风险进行准确预测。
本文将介绍基于大数据的银行客户信用风险预测模型的构建过程和相关技术。
一、数据收集和准备银行客户信用风险预测模型的构建首先需要收集和准备相关的数据。
这些数据包括客户的个人信息、财务状况、历史交易记录等。
数据的收集可以通过银行内部数据库、第三方数据供应商等途径获取。
在准备数据时,需要进行数据清洗、去重和归一化等处理,确保数据的质量和一致性。
二、特征工程和选取在构建预测模型之前,需要对数据进行特征工程处理,将原始的数据转化为有意义且可用的特征。
特征工程包括特征提取、特征变换和特征选择等过程。
特征提取可以通过统计分析、聚类算法等方法提取出反映客户信用风险特征的指标。
特征变换可以通过数学变换、标准化等方法将原始数据转化为符合模型要求的输入格式。
特征选择可以通过相关性分析、主成分分析等方法选择出与目标变量相关性较高的特征。
三、模型选择和建立在完成特征工程后,需要选择合适的预测模型来建立银行客户信用风险预测模型。
常用的预测模型包括逻辑回归、决策树、支持向量机、随机森林等。
选择模型时需要综合考虑模型的准确性、解释性、计算效率等因素。
建模时需要将数据集划分为训练集和测试集,通过训练集训练模型、通过测试集评估模型的准确性。
四、模型优化和验证在建立模型之后,需要对模型进行优化和验证,以提高其预测准确性和稳定性。
模型优化可以通过参数调整、特征选择和模型融合等方法进行。
模型验证可以通过交叉验证、ROC曲线、混淆矩阵等方法评估模型的性能。
同时,还需要进行模型的稳定性测试和验证,确保模型能够在新数据上具有良好的泛化性能。
五、模型应用和监控在完成模型的构建和优化后,需要将模型应用于实际的信用风险预测中。
银行可以根据模型的预测结果对客户进行信用评估,并根据评估结果决定是否提供贷款、信用卡等金融服务。
贷款风险预测模型的建立方法与案例分析
贷款风险预测模型的建立方法与案例分析近些年来,贷款业务的需求逐渐上升,而贷款风险的出现也是不可避免的。
因此,建立一种预测贷款风险的模型就成了极其必要的事情。
本文将介绍一种贷款风险预测模型的建立方法,并通过案例分析,验证其可行性。
一、数据采集及处理首先要做的便是数据采集,这些数据可以是贷款申请人的一些基本信息,或者是银行当地的经济数据等。
在收集到数据后,接下来的任务就是对数据进行处理。
数据处理包括数据预处理和特征工程。
数据预处理主要涉及数据清洗、缺失值处理和异常值处理等。
而特征工程则是将原本的数据进行一些变换,使得训练模型时可以更好地拟合。
特征工程的处理包括数据标准化、特征选择和特征组合等。
二、模型的选择在确定数据处理的方向后,接下来就是要选择对数据进行分析的模型了。
常见的模型有决策树、逻辑回归、支持向量机、神经网络等。
这些模型各有优缺点,根据数据的特征选择适合的模型进行建模。
三、模型的建立及调优在选择好模型后,接下来就是建模及调优。
一般的方法是将数据集分为训练集和测试集,利用训练集进行模型训练,然后用测试集验证模型准确度。
当模型准确度达到一定的阈值后,就可以将这个模型应用到真实数据当中了。
模型的调优就是在模型训练过程中,通过调整模型参数来提高模型准确度和鲁棒性。
调优的过程需要不断进行实验,试错,寻找最优模型的参数配置。
四、案例分析为了更好地阐述贷款风险预测模型,本文以某银行为例详述。
该银行有一些存量的贷款数据,我们可以利用这些数据来建立模型,对新贷款进行风险预测。
首先,我们收集了该银行的客户购房和汽车的信息,客户的收入及征信信息等。
然后对数据进行数据预处理和特征工程,调整完善后,我们选择基于决策树的贷款风险预测模型。
之后,我们利用训练集数据进行模型训练和调优,最终在测试集上得到了约87%的预测准确度。
在该预测模型中,关键特征包括客户收入、征信记录、借款用途、借款额度、贷款种类等。
五、结论贷款风险预测模型的建立可以有效预测贷款风险的出现,为银行提供贷款风险控制和管理的参考。
融360贷款安全吗
融360贷款安全吗融360是一家知名的互联网金融信息服务平台,致力于为用户提供全面的金融产品信息比较和贷款申请服务。
在这个信息爆炸的时代,人们对于金融产品的安全性越来越关注,尤其是对于贷款这样涉及到个人资金安全的产品。
那么,融360贷款安全吗?这是很多用户关心的问题。
首先,融360作为一家专业的金融信息服务平台,一直以来都非常重视用户信息的安全和隐私保护。
平台拥有严格的信息安全管理制度,采取多种手段保障用户信息的安全,包括但不限于数据加密、安全防护、风险控制等措施。
用户在融360上填写个人信息申请贷款时,平台会对用户的信息进行加密处理,防止信息泄露和被恶意利用。
其次,融360对接的合作金融机构也都是经过严格筛选和合规监管的,用户在融360上申请贷款,所获得的贷款产品都是来自于合法合规的金融机构,用户的资金安全得到了保障。
同时,融360平台也会对合作金融机构进行定期的风险评估和监测,确保用户的利益不受损害。
此外,融360平台还拥有专业的风控团队,他们会对用户的贷款申请进行严格审核和风险评估,确保用户真实的资质和信用状况,避免用户因贷款而陷入风险和债务困境。
这也是融360保障用户资金安全的重要举措之一。
总的来说,融360作为一家专业的互联网金融信息服务平台,对用户的资金安全和隐私保护非常重视。
平台拥有严格的信息安全管理制度、合规的合作金融机构、专业的风控团队,这些都为用户提供了可靠的贷款申请服务。
当然,作为用户,在申请贷款时也要提高警惕,谨慎选择贷款产品,了解清楚贷款的相关条款和费用,确保自己的权益不受损害。
综上所述,融360贷款是安全的,但用户在使用过程中也需要谨慎对待,以免因个人原因造成不必要的风险和损失。
希望本文对您有所帮助,谢谢阅读!。
银行金融中的信贷模型建立与风险评估
银行金融中的信贷模型建立与风险评估银行是社会经济发展的重要组成部分,负责资金的融通和风险的管理。
在金融业务中,信贷是银行重要的盈利来源之一。
银行需要建立有效的信贷模型来评估借款人的信用风险,并通过风险评估工具来准确的评估借款人的还款能力和借款项目本身的风险程度。
一、信贷模型建立在银行金融业务中,信贷模型是对借款人及借款项目进行客观评估的工具。
信贷模型的建立首先需要收集大量的数据,这些数据可以包括借款人的个人信息、财务状况、历史信用记录等,同时还要考虑借款项目的类型、金额、还款期限等因素。
银行可以借助现代技术手段,如人工智能和大数据等,对大规模数据进行分析和挖掘。
通过对历史数据的研究,银行可以找到隐藏在庞大数据背后的规律,建立相应的信贷模型。
这些模型可以通过机器学习和算法优化来不断提升准确性和预测能力。
二、风险评估信贷模型的建立是信贷风险评估的基础。
在进行风险评估时,首先需要对借款人进行信用评级。
信用评级是根据借款人的个人信息、财务状况和信用记录等多个维度进行评估,以确定借款人的信用等级。
信用评级越高,表示借款人的还款能力越强,风险越低。
信用评级可以通过常用的评估方法进行。
例如,基于经验法就是将借款人的信息与历史案例进行比对,从而确定信用等级;而基于统计学方法则是根据大规模数据分析建立数学模型,并通过模型对借款人进行评估。
除了信用评级,银行还需要评估借款项目本身的风险程度。
风险评估的方法多样,可以基于历史数据和专业知识进行,也可以借助其他外部指标。
其中,历史数据可以包括借款项目的还款表现、相关行业的发展情况等;而外部指标可以包括宏观经济指标、竞争对手情况等。
三、风险评估的意义风险评估在银行金融中的意义重大。
首先,通过风险评估,银行可以客观准确地评估借款人的还款能力和借款项目的风险程度,从而决定是否批准贷款申请。
这有助于银行控制不良债务的风险,提升整体资产质量。
其次,风险评估还有助于优化银行的资金配置和资金成本。
融360案例分析完整版
杭州电子科技大学2015-2016学年第2学期期末课程作业《电子商务案例分析》指导教师:***学生姓名: 胡清清李水英班级: 13031611学号: ******** ********专业: 电子商务目录一、基本概况 (1)二、商业模式 (1)1.愿景和使命 (1)2.目标用户 (1)3.产品和服务 (2)4.盈利模式 (2)5.核心能力 (3)三、融360技术模式 (5)1、“天机”大数据 (5)2、云平台 (5)四、融360的经营模式 (6)1.经营方式 (6)2.同行分析 (7)五、融360管理模式 (8)1.团队式的管理 (8)2.企业文化的管理 (8)3.人力资源管理 (8)六、融360资本分析 (8)七、分析结论与建议 (9)融360一、基本概况融360( ),北京融世纪信息技术有限公司,成立于2011年10月,是中国领先金融垂直搜索平台。
提供贷款、信用卡、理财等金融产品的搜索比价及申请服务。
融360 是“互联网+金融”典型业态,是新型的网络金融服务公司,利用大数据、搜索等技术,让上百家银行的金融产品可以直观地呈现在用户面前。
2015年3月12日,证监会领导走访了金融产品搜索平台——融360,对公司的融资情况、上市意向、盈利模式进行调研,并对融360发出明确邀请:“希望融360和蚂蚁金服一起,成为第一批在国内上市的互联网金融创业公司。
”2015年3月22日,新闻联播首次头条报道互联网金融,题为《互联网+金融加出融资高效率》为题,新闻报道时长6分钟,阐述了互联网金融在我国的迅猛发展。
新闻报道中采访了工商银行行长易会满,垂直搜索平台融360CEO叶大清。
2015年5月,融360推出“天机”大数据风控系统——通过大数据分析,系统会根据身份认证、还款意愿和还款能力三个大维度,给申请贷款的用户进行评分,依据分值来为合作机构提供放贷建议。
针对特定细分市场,融360的目标是力争5万以内的小额贷款最快10分钟审批、当天放款。
基于大数据分析的信用评分模型构建与优化
基于大数据分析的信用评分模型构建与优化信用评分模型是金融行业中重要的工具之一,它通过综合考量个人或机构的信用历史、财务状况、市场表现等数据,对其进行评估和等级划分。
而随着大数据技术的发展,越来越多的金融机构开始利用大数据分析方法构建和优化信用评分模型。
基于大数据分析的信用评分模型的构建与优化,可以帮助金融机构更准确地评估借款人的信用风险,降低贷款风险,提高贷款的放款率和回收率。
本文将从数据源的选取、特征工程、模型构建和模型优化四个方面,阐述基于大数据分析的信用评分模型的构建和优化过程。
首先,数据源的选取是信用评分模型构建的基础。
金融机构可以通过获取公共数据、自有数据和第三方数据来丰富数据来源。
其中,公共数据包括政府的征信数据、国家统计局的宏观数据等;自有数据包括金融机构自身的用户数据、交易记录等;第三方数据包括各类数据提供商提供的数据,如手机运营商数据、电商数据等。
选取适当的数据源并对数据进行预处理是构建可靠信用评分模型的第一步。
其次,在特征工程方面,金融机构需要根据业务需求和数据特点,进行特征的选择、提取和变换。
特征的选择是关键,金融机构可以利用统计分析、专家经验以及机器学习算法进行特征选取。
同时,为了消除特征之间的相关性和噪声,金融机构可以通过主成分分析、因子分析等方法进行特征的降维和优化。
此外,对于缺失值、异常值的处理也是特征工程的重要环节,金融机构可以选择适当的填充和清洗方法,提高数据质量和模型的准确性。
接下来是模型构建阶段,根据业务需求和数据特点,金融机构可以选择不同的模型进行信用评分模型的构建。
常用的模型包括逻辑回归、决策树、随机森林、支持向量机等。
逻辑回归是最常用的分类算法之一,它可以把特征值线性组合后映射成概率值;决策树和随机森林通过树状结构对数据进行分层划分,简单易解释,但容易出现过拟合问题;支持向量机通过支持向量确定决策边界,对于高维和非线性问题有较好的处理能力。
金融机构在模型选择时需要考虑模型的准确性、可解释性、计算复杂度等因素,并进行模型训练和调参,以得到最优的模型预测效果。
金融科技中的在线借贷风险评估模型
金融科技中的在线借贷风险评估模型近年来,随着金融科技快速发展,互联网借贷平台逐渐成为现代金融的重要组成部分。
但与此同时,风险评估和控制也成为互联网借贷平台面临的重要挑战。
为了有效应对这一挑战,金融科技领域涌现出了在线借贷风险评估模型,它在精确度和效率方面带来了革命性的突破。
一、背景介绍金融科技中的在线借贷风险评估模型是一种基于大数据和人工智能技术的风险评估工具,旨在通过收集、整合和分析大量的借贷数据,帮助金融机构评估借款人的信用风险和还款能力。
使用这种模型,金融机构可以更准确地判断借款人的风险水平,进而制定更科学合理的贷款策略和风险管理措施。
二、模型原理在线借贷风险评估模型的核心思想是基于大数据分析和机器学习技术。
首先,通过收集大量的借贷数据,包括个人信息、信用历史、还款记录等,形成一个庞大的数据库。
然后,利用机器学习算法对这些数据进行分析和建模,从中提取特征和规律。
最后,通过对新借款申请进行特征匹配和分析,评估借款人的信用水平和还款风险。
三、模型优势在线借贷风险评估模型相较于传统的风险评估方法具有多项优势。
首先,利用大数据和机器学习技术,模型能够分析和处理复杂的非线性关系,提高了风险评估的准确性。
其次,模型在评估过程中能够考虑到更多的因素,包括个人信息、社交网络、消费行为等,使评估结果更加全面和客观。
此外,采用在线模型的借贷平台可以实现实时评估,更快速地对借款人进行风险评估,提高了业务处理效率。
最重要的是,模型能够不断学习和改进,随着数据和算法的迭代更新,不断提升自身性能。
四、模型应用在线借贷风险评估模型已经广泛应用于各类金融科技平台。
借款人在申请贷款时,平台会通过模型对其进行风险评估,根据评估结果决定是否批准贷款以及贷款金额与利率等具体细节。
同时,模型还可以帮助金融机构监测和预警借款人的逾期风险,及时采取风险控制措施,有效防范风险。
五、模型挑战与展望在线借贷风险评估模型在实际应用中仍然面临一些挑战。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
word格式文档数据挖掘课程论文—基于融360数据的模型构建及用户贷款审批结果预测XXXX摘要本文的主要工作是运用数据挖掘的相关技术对申请贷款的客户的大量数据进行数据挖掘,发现隐藏在大量数据中的隐含模式,最终得到风险评估模型。
本文的内容主要分为数据获取与探查、数据预处理、模型建立和结果分析与应用四个部分。
在模型建立的过程中使用了SAS企业数据挖掘模块,基于决策树、回归和神经网络的方法, 充分利用已有数据建立模型, 对申请贷款客户进行科学归类, 从而帮助金融机构提高对贷款信用风险的控制能力。
关键词:SAS 分类技术数据挖掘预测贷款风险评估目录:1.绪论 (2)1.1项目背景 (2)1.2文献综述 (2)2.数据获取与探查 (4)2.1数据获取 (4)2.2数据简介 (4)2.3字段说明 (4)2.4数据探查 (6)3.数据处理与建模 (6)3.1数据预处理 (6)3.2数据建模过程——决策树 (11)3.3数据建模过程——神经网络 (13)3.4数据建模过程——回归 (14)3.5最佳模型选择 (15)4.结果分析与应用 (16)5.项目评估与收获 (19)5.1项目改进 (19)5.2收获 (20)参考文献 (20)1.绪论1.1项目背景金融是现代经济的核心,各类金融机构则是现代金融的支柱。
各类金融机构在社会经济发展过程中, 发挥着筹集融通资金、引导资产流向、提高资金运用效率和调节社会总需求的作用。
中国加入WTO后, 中外金融机构的竞争日益激烈, 中国商业银行必须加快改革步伐, 尽快打造自己的核心竞争力。
但是中国金融机构的信贷资产质量较差, 不良贷款的规模大、比例高, 严重阻碍中国金融业的发展。
有效控制不良贷款信用风险已经成为中国金融机构面对的主要课题。
1.2文献综述目前国际银行业对不良贷款信用风险评估的方法主要采用的是古典分析法和多元统计法[ 1-2] 。
古典分析法是指银行经营者依赖一批训练有素的专家的主观判断对贷款人进行信用分析。
多元统计分析的基本思想是根据历史累积样本建立数学模型, 并对新样本发生某种事件的可能性进行预测的方法,具体包括线性概率模型、LOGIT法、PROBIT法以及判别分析法(MDA)[ 1] 。
巴塞尔委员会于2001 年1月公布了《新巴塞尔资本协议》草案, 新协议给出了两种计量信用风险的方法, 即标准法和内部评级法(IRB), IRB法对标准法中的风险加权系数进行了修正。
新协议允许银行使用内部评级方法, 使新协议的监管规则有一定的灵活性。
但目前, 金融界使用最多的两个信用风险评估模型是信用度量制(Credit Metrics)模型和KMV模型。
Credit Metrics是J.P. Morgan于1997年开发的一种基于VAR方法的信贷风险管理模型 [3] 。
所谓VAR就是衡量一项资产或者负债在一定时间内、在一定的置信水平下其价值的最大损益额。
Credit Metrics 是一种盯市(MTM)模型, 认为如果信用资产的信用等级发生了变化, 就产生了信用损失的可能性, 这种损失是多状态的, 不只是违约和不违约两种状态。
KMV模型是KMV公司利用期权定价原理, 提出了以预期违约频率为核心的信用风险管理模型。
KMV模型将资产的状态分为违约和不违约两种, 信用损失只发生在违约的时候。
而且KMV模型有一个核心的假设, 就是当公司的资产价值下降到一定程度之后, 公司就会对其债务违约。
由于受样本数量限制, 国内已有学者对信用风险评估方法进行研究, 着重研究某一具体方法在信用风险评估中的应用。
王春峰等[ 4-7] 运用线性判别法、LOGIT法、遗传规划模型、神经网络模型, 以及距离判别法与神经网络方法相结合的组合预测法对信用风险评估方法作了研究。
施锡铨等[ 8] 运用线性多元判别方法对上市企业的信用风险评估进行了研究, 得出评价上市企业信用风险水平的线性判别模型。
以上所述方法虽然被广泛应用, 但是它们只是针对某一方面如财务, 进行分析建模, 不能够充分利用有关客户和信贷产品的大量且全面的信息。
在信贷风险评估中, 对信用风险的评价, 不仅要考虑贷款者的财务能力, 还要考虑贷款者所需求产品的信息等各方面因素, 仅靠单一指标的评价体系不足以对信用风险予以充分揭示。
因此, 研究如何从贷款样本数据中挖掘更丰富的信用信息, 建立更完备的信用风险评估模型将成为一种必然。
本文使用了SAS企业数据挖掘模块,基于决策树、回归和神经网络的方法, 充分利用已有数据建立模型, 对申请贷款客户进行科学归类, 从而帮助金融机构提高对贷款信用风险的控制能力。
2.数据获取与探查2.1数据获取本文的实验数据获取于数据堂,来源于融360。
融360是中国最大的网络贷款平台,平台的一端是数亿的有借款需求的小微企业和个人消费者,另一端是数万的有贷款资金的金融机构(银行、小贷、担保、典当等)和数百万的金融产品,平台通过搜索和推荐服务来撮合借款用户和贷款。
通常,用户进入平台后,会通过搜索和推荐服务找到合适的贷款产品,填写自己的个人基本资料,最终提交贷款订单。
金融机构通过平台收到订单后,对用户资质进行风控审核,最终决定是否通过用户的订单。
2.2数据简介数据包含了user, product, quality和order四张表,下面结合业务流程解释一下四个数据的产生过程。
第一步:用户访问融360网站搜索合适的贷款产品,这就产生了user数据,它包含了用户在网站的点击、搜索和下单记录,这里面的date字段记录了是哪一天;第二步:用户在提供的贷款产品中搜索符合自己需求的,在些产品保存在product数据中,包含了产品的申请金额、期限、申请所需的材料等信息;第三步:找到合适产品的用户会在线填写申请,这部分数据保存在quality 数据中,包含了用户的年龄、性别、职业、收入等信息;第四步:把用户订单提交给相应的金融机构,金融机构在进行风控审核后会决定是否通过用户的订单,这部分数据保存在order数据中,其中包含用户与其申请的产品编号、订单的申请金额和期限等基本信息以及订单是否审核通过。
具体每表的说明如下:order_train.txt:用于训练的订单数据product_final.txt:产品相关数据,包含训练集和测试集出现的所有产品quality_final.txt:用户申请信息相关数据,包含训练集和测试集出现的所有用户user_final.txt:用户访问信息相关数据,包含训练集和测试集出现的所有用户order_test_no_label:用于测试的订单数据,与训练数据相比缺少最终结果标签。
2.3字段说明user表变量说明user_id 用户idpv 总pvpv_inde x_loan:贷款首页PVpv_apply_total 申请次数pv_ask 问答页Pvpv_calculator 计算器页PVorder_count_loan 贷款下单量pv_daikuan 贷款总PVpv_credit 信用卡总PV pv_search_daikuan 搜索页pv_detail_daikuan 贷款详情页PVdate 不同日期product表变量说明product_id 产品idcity_id 城市idbank_id 产品所属机构id product_type 产品类型guarantee_type 产品担保类型loan_term_min 最短期限loan_term_max 最长期限loan_term_type 期限类型decision_cycle 审批时间loan_cycle 放款时间repayment_type 还款方式loan_quota_min 最小额度loan_quota_max 最大额interest_rate_type 利率类型guarantee_required 是否必须有担保quality表变量说明user_id 用户idcity_id 城市idapplication_type 申请类型application_term 申请期限application_limit 申请金额op_type 职业类型col_type 房产类型user_loan_experience 两年内征信情况user_has_car 是否有车user_social_security 缴纳社保年份qid77 是否有公积金cash_receipts 现金收入user_income_by_card 打卡收入user_work_period 工作年限user_age 用户年龄company_type 公司类型col_value 房产价值com_op_period 经营年限com_month_flow 月流水qid123 文化程度qid122 婚姻状况qid135 公司规模qid139 居住类型qid93 是否办过营业执照qid57 能提供流水数order表变量说明user_id 用户idproduct_id 产品iddate 不同日期term 申请期限limit 申请金额Result 0表示未被批准,1表示被批准2.4数据探查我们利用SAS EM观察到以下有关各个变量的基本统计指标的异常情况:偏度偏大(>5)的有:loan_term_max,loan_quota_min,loan_quota_max,limit,application_ter m,application_limit.缺失值过多(>50%)的有:user_age,qid93,qid78,qid135,qid133,qid123,qid122,col_has_morgage 取值过于单一且集中的有:term,pv,,loan_term_max,loan_quota_min,loan_quota_max,limit,fangku an_num,decesion_cycle,apply_num3.数据处理与建模3.1数据预处理3.1.1导入EM之前的处理在将数据导入EM之前,先将四张表的数据整合到了一起,这里使用的是链接的方法,具体语句如下:在这里使用了DISTINCT,是为了将重复数据去除。
为了观察数据,先将数据导入EM中进行分析,使用INSIGHT节点,发现TOTAL 一共含有79万多条记录,100多个字段。
通过INPUT发现,许多字段的缺失值比例已经达到60%以上,有的甚至超过了95%,达到了100%。
这样的字段是毫无意义的,所以我们在后续的处理中可以直接REJECTED。
另外,通过之前的观察发现,有些字段之间是有关联的,比如说EARLY_REPAYMENT字段和PENALTY字段,前者代表是否可以提前还款,后者代表提前还款是否需要交纳违约金,对于后者,如果前者为0或者缺失,那么后者也就自然为缺失值,造成缺失值比例升高,同时,我们也注意到,如果采用后面的REPLACEMENT节点,使用的方法也是会产生歧义,因为EARLY_REPAYMENT字段为0的时候,PENALTY字段本身就是缺失的,而使用REPLACEMENT节点反而会导致错误的结果。