基于知识图谱的小微企业贷款申请反欺诈方案

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

摘要：近年来，在各大商业银行竞相开展小微企业信贷业务的同时，贷款欺诈风险也随之产生。针对小微企业信贷业务的特点，提出了一种基于全方位企业画像与企业关联图谱的贷前反欺诈模型。通过整合多源信息，形成完整的企业属性特征，并结合从图谱中提取的关系网络结构特征，把特征共同输入模型，以定量评估小微企业客户的欺诈风险。实验表明，使用隐含在关系图谱中的信息比单纯使用企业自身特征建模在测试集上的AUC提高了5%，有助于银行机构准确地对企业申贷欺诈行为进行评估。

关键词：反欺诈; 企业画像; 关联图谱

1 引言

随着我国经济发展步入新常态，小微企业快速发展，并逐渐成为我国市场经济中较活跃的主体。据相关数据统计，目前我国约有近1亿户小微企业，这些小微企业广泛分布于实体经济的各行各业。作为经济发展和社会稳定的重要支柱，小微企业在促进人才有序流动、维护市场活力、推动科技创新等方面发挥着不可或缺的作用。然而相对于大中型企业而言，小微企业在市场竞争中仍处于弱势地位，融资问题导致其很难保证经营的稳定性与持续性。

银行贷款是企业融资的重要手段，为缓解小微企业的经营压力并满足强烈的融资需求，商业银行的小微贷款业务逐步扩张，各类信贷产品应运而生。截至2018年第三季度，小微企业在银行机构的贷款总额达33.04万亿元，贷款授信户数超过1 800万户。但由于小微企业在提供自身资讯上的天然弱势，“不透明”“内部化”的非对称数据信息使得银行难以在业务申请阶段把控小微客户实质性的信贷风险，对小微企业信贷产品的管理比大型企业也困难得多。如今，欺诈风险已经成为消费金融业务面临的主要风险之一，反欺诈也对银行的风险控制技术提出了更高的要求。科学合理地进行小微企业贷款欺诈风险管理已经成为商业银行亟须解决的问题。

小微企业贷款业务是近年来兴起的一种贷款手段，由于其“新”的特征，在金融行业内对小微信贷欺诈尚没有一个通用的定义。商业银行在信贷申请欺诈风险的防范工作方面已经积累了很多经验，但是当前的工作多为面向大中型企业或面向个人信贷的反欺诈方案。不论是较为原始的黑白名单甄别、实现自动决策的规则引擎，还是基于人工智能技术的风险量化与无监督的欺诈模式识别，反欺诈的分析和度量技术在小微企业领域仍在探索的过程中。

为解决以上难题，本文针对小微企业的信贷业务特点提出了一种基于全方位企业画像与企业关联图谱的贷前反欺诈模型。该模型从企业自身、企业实控人、企业干系人以及企业网络关系图谱四大维度提取特征，然后在金融行业知识的辅助下，通过数据挖掘、特征筛选等方法定义多个欺诈场景，并利用LightGBM分类器对欺诈进行概率推断。相比传统的信贷欺诈分析模型，本文方案将关系型信息和企业节点自有属性信息有机地结合，能够有效地挖掘小微企业与欺诈目标的非线性关系，有助于全面、有效地在申请阶段评估小微企业的欺诈风险状况。相比于传统的企业风控反欺诈，本文方案的创新点如下。

● 针对小微企业信息不对称的特点，整合多源数据集，在提取企业自身特征的同时，利用其关联实控人及相关干系人的基本信息与征信状况生成全方位企业画像，更加完善地刻画小微企业可能存在的信贷风险。

● 结合图知识和金融行业知识，挖掘欺诈场景，通过分析小微企业命中欺诈场景的情况，输出欺诈概率。

● 挖掘并构建企业与企业间的关联信息，建立企业关联图谱，有利于识别出异常的欺诈行为。

● 归约掉图谱中的非企业节点，将复杂、庞大的异构关系网络折叠为仅保留小微企业实体的同构网络。这既解决了网络存储的开销问题和网络特征提取的计算复杂度高的问题，又能够隔离无关节点的干扰，直观地呈现企业之间的联系。

● 使用LightGBM 分类框架，采用有监督学习模式在构建的关联图谱上进行基于节点自身属性特征与网络特征的欺诈概率预测，从关系和实体属性两个角度共同进行欺诈评估。

2 相关工作

2.1 企业传统信贷反欺诈

商业银行在贷款业务申请阶段的反欺诈手段主要集中在配置规则引擎和建立机器学习模型上。规则引擎起源于基于规则的专家系统，用来模拟人的行为，以实现计算机自动决策。它是一种建立在对欺诈行为的特点与模式充分认知的基础上，针对单一或组合欺诈行为设计的启动和触发机制。规则引擎主要用来核实信息的真实性，如是否存在不良征信记录、是否命中风险名单等，但无法检测复杂的欺诈模式。

有监督学习是当下反欺诈检测中应用广泛的机器学习方法，能够基于历史数据（即已知的欺诈申请和正常申请）建立分类模型，输出欺诈概率，更好地量化欺诈风险。该方法收集客户

申请信息并将其作为训练集，训练出的机器学习模型通过对用户特征的抽象理解，分析特征间的隐藏关系，填补并增强规则引擎无法覆盖的复杂欺诈行为。业界常用的模型算法包括逻辑回归、决策树、支持向量机、XGBoost和神经网络等。

2.2 基于关联图谱的信贷反欺诈

在反欺诈场景中，除了考虑单一信息点的属性，企业间的隐藏关联往往包含更多未知的潜在信息。因此，企业信贷欺诈的识别问题也可以转化为企业关系图挖掘或社交网络分析问题。基于知识图谱的信贷反欺诈旨在将多源异构的数据整合成机器可以理解的知识，将“单点”的信息转换成“平面”的相互关联的图谱，进行异常风险检测，从而实现欺诈的识别与防御。

基于构建好的知识图谱，可以使用半监督或无监督的方式进行异常子图挖掘、社群发现或标签染色。除此之外，对网络特征（包括中心度、一度二度关联特征）的直接提取也可以供各类有监督风险评估模型使用。另外，随着深度学习算法的普及，知识图谱的关联分析引入了网络嵌入这种图表示学习的思想。在尽量保留网络信息的前提下，根据图谱中的拓扑关系，用低维向量表示每个节点与其周围节点的关联特性。作为一种表征学习的方法，图嵌入可以解决图数据的高维度、稀疏性等问题。经过向量的表征后，再利用大量算法进行边的预测、分类、聚类。

2.3 小微企业信贷反欺诈的难点

尽管商业银行在反欺诈方面已经展开了较多尝试，但是针对小微企业贷前的欺诈识别仍处于探索阶段。其难点主要集中在以下方面。

（1）小微企业信息透明性差

小微企业与传统的银行贷款业务有很大差异，如果采用无差异化的风控模型和放贷标准，绝大部分小微企业无法通过审核。具体地，对于传统的中大型企业信贷业务，银行通常采用申请评分卡（application score card）的方式决定是否放贷以及贷款额度。这样的方式对企业申请贷款时提交信息的完整性和真实性有极高的要求，如果信息造假或者有缺值，评分卡方式很难准确判断企业的信用情况。中大型企业通常采用标准的财务审计制度，经营信息也相对透明，是可以通过评分卡的方式授信放贷的。但是对于小微企业而言，其经营规范性差、信息透明度差，评分卡的方式在很大程度上并不适用于小微信贷业务。