知识图谱在互联网金融行业的应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

3.高级应用:通过借款人的其他信息进行推理出其 相关信息进行验证
通过借款人的身份证号和姓名可以获得他的学历信 息和年龄,通过学历信息和年龄可以推算出其工作 年限,再根据其所在城市,行业,职位,结合互联 网上的招聘网站数据推理出其薪水范围,进而验证 他的收入水平;甚至可以通过不同借款人之间的同 事关系,验证其工作单位的真假。
• 随着深度学习在人工智能领域的地位变得越来越重要, 基于概率的推理也成为目前研究的热点。
案例一:知识推理方法--机器学习
案例二:知识推理系统--计算知识引擎
四、知识图谱服务商
• 国外有Palantir,Kensho (已被 S&P Global 收购),IBM i2, derivo GmbH,MAANA,GraphPath。
• 国内有海翼知(PlantData),明略数据(MiningLamp),海致 企业知识图谱(海致星图),文因互联(Memect),智器云科技 (火眼金睛、月光宝盒、天罗地网),艾匀科技(iEven),同 时代理IBM i2,智言科技(Webot),达观数据(Data Grand), 海知智能(ruyi.ai),渊亭科技(DataExa)。
4.通过知识推理得出隐藏的信息
• 推理能力是人类智能的重要特征,使得我们可以从已 有的知识中发现隐含的知识。常用的推理算法包括基 于逻辑的推理和基于概率的推理。
• 基于逻辑的推理:“父亲”的“父亲”可以推理出 “祖父”的关系。
• 基于概率的推理:张三的朋友很多也是李四的朋友, 那我们可以推测张三和李四也很有可能是朋友关系。
不一致性验证
当融合来自不同数据源的信息构成知识图谱 时,有一些实体会同时属于两个互斥的类别 (例如同时在两个不同的城市工作),或某 个实体所对应的一个属性(同一个人的住址) 对应多个值,这样就会出现不一致性,这个 不一致性即可判定为潜在的可疑点。
案例一:在下面的这个图中,李明和李飞两个人都注明了 同样的公司电话,但实际上从数据库中判断这俩人其实在 不同的公司上班,这就是一个矛盾点。
另外,对于稍微复杂的搜索语句比如 “Who is the wife of Bill Gates”,Google能准确返回他的妻子Melinda Gates。这就说明搜 索引擎通过知识图谱真正理解了用户的意图。
2.知识图谱的定义
• 知识图谱就是把所有不同种类的信息连接在 一起而得到的一个关系网络。在知识图谱里, 每个节点表示现实世界中存在的类别、实体、 属性等对象,每条边为对象之间的关系。知 识图谱提供了从“关系”的角度去分析问题 的能力。
知识图谱,作为关系的直接表示方式,可以很好地解决这两个问题。 1. 首先,知识图谱提供非常便捷的方式来添加新的数据源。 2. 其次,知识图谱本身就是用来表示关系的,这种直观的表示方法可以
帮助我们更有效地分析复杂关系中存在的特定的潜在风险。
反欺诈的核心是人,首先需要把与借款人相关的所有的数 据源打通,并构建包含多数据源的知识图谱,从而整合成 为一台机器可以理解的结构化的知识。在这里,我们不仅 可以整合借款人的基本信息(比如申请时填写的信息), 还可以把借款人的消费记录、行为记录、网上的浏览记录 等整合到整个知识图谱里,从而进行分析和预测。这里的 一个难点是很多的数据都是从网络上获取的非结构化数据, 需要利用机器学习、自然语言处理技术把这些数据变成结 构化的数据。
四、知识图谱服务商
五、参考资料
一、什么是知识图谱 1. 知识图谱简介 2. 知识图谱的定义 3. 知识图谱的表示
1.知识图谱简介
• 知识图谱这个概念最早由Google提出,主要是用来 优化现有的搜索引擎。不同于基于关键词搜索的传 统搜索引擎,知识图谱可用来更好地查询复杂的关 联信息,从语义层面理解用户意图,改进搜索质量。 比如在Google的搜索框里输入Bill Gates的时候, 搜索结果页面的右侧还会出现Bill Gates相关的信 息比如出生年月、家庭情况等等。
基于规则提取特征
案例一:从图中我们很容观察到二度关系中有两个实体触 碰了黑名单(黑名单由红色来标记)。
案例二:通过条件搜索指定的节点可以筛选调查风险节点, 如:“电话号码”节点的关联方大于1的节点。
3.应用案例
• 用户画像 • 组团欺诈识别 • 关联方探查
用户画像
1.基础应用:可以在图谱中直接搜索某个具体的人名字或者公司名 字,获取该人或者公司的基础信息画像,如电话,地址,关联方的 信息。
知识图谱在互联网金 融行业的应用
目录
一、什么是知识图谱 1.知识图谱简介 2.知识图谱的定义 3.知识图谱的表示
二、知识图谱的应用 1.最主要的应用 2.分析方法 3.应用案例 4.基于大数据的反欺诈
三、知识图谱的技术 1. 获取海量数据 2. 清洗数据 3. 把非结构化数据处理成结构化
数据 4. 通过知识推理得出隐藏的信息
• 明略数据张旭:知识图谱落地金融,让AI更懂业务 • 中数智汇:加强非金融行业精准营销业务,研发企业知
识图谱平台 • 肖仰华:领域知识图谱落地实践中的问题与对策
组团欺诈识别
• 相比虚假身份的识别,组团欺诈的挖掘难 度更大。这种组织在非常复杂的关系网络 里隐藏着,不容易被发现。当我们只有把 其中隐含的关系网络梳理清楚,才有可能 去分析并发现其中潜在的风险。知识图谱, 作为天然的关系网络的分析工具,可以帮 助我们更容易地去识别这种潜在的风险。
举一个简单的例子,有些组团欺诈的成员 会用虚假的身份去申请贷款,但部分信息 是共享的。下面的图大概说明了这种情形。 从图中可以看出张三、李四和王五之间没 有直接的关系,但通过关系网络我们很容 易看出这三者之间都共享着某一部分信息, 这就让我们马上联想到欺诈风险。虽然组 团欺诈的形式众多,但有一点值得肯定的 是知识图谱一定会比其他任何的工具提供 更佳便捷的分析手段。
3.把非结构化数据处理成结构化数据
• 在大数据时代,很多数据都是未经处理过的非结构化 数据,比如文本、图片、音频、视频等。特别在互联 网金融行业里,我们往往会面对大量的文本数据。
• 怎么从这些非结构化数据里提取出有价值的信息是一 件非常有挑战性的任务,这对掌握的机器学习、数据 挖掘、自然语言处理能力提出了更高的门槛。
关联方探查
通过图谱可以调查某个人或者某家申请贷款 公司的关联方信息。在贷款审核期间,申请 贷款主体的关联方信息中有借贷纠纷的诉讼 事件,担保方过多等可关注的风险点。在贷 款发放后,有时出现贷款方失联的情况,无 法通过申请贷款时提交的信息联系到借款方, 可以通探寻更“深远”的关联方找到失联的 贷款方。
案例一:借贷纠纷关联
案例二:失联客户管理
基于大数据的反欺诈
反欺诈是风控中非常重要的一道环节。基于大数据的反欺诈的难点在于: 1. 如何把不同来源的数据(结构化、非结构)整合在一起,并构建反欺
诈引擎,从而有效地识别出欺诈案件(比如身份造假、团体欺诈、代 办包装等)。 2. 不少欺诈案件会涉及到复杂的关系网络,这也给欺诈审核带来了新的 挑战。
三、知识图谱的技术问题
1. 获取海量数据 2. 清洗数据 3. 把非结构化数据处理成结构化数据 4. 通过知识推理得出隐藏的信息
1.获取海量数据
• 知识图谱需要结合大数据才能真正发挥作用。 • 行业中数据是否海量,是否有真正的大数据场景很重要。比如我
们熟知的公共安全和金融,数据量很大且丰富。公共安全系统中 的人、车、地、物、组织、出行、住宿甚至是快递数据繁多,才 形成了一个丰富数据的真实场景。 • 只有在真正的大数据场景下,知识图谱的作用才能够更好显现。
• 精准营销需要从大量客户中筛选出特定用户重点 营销,由于用户信息不全、用户数量巨大,使用 知识图谱的效果不如传统数据库。
• 风控的用户数量比营销要小若干数量级,而且用 户申请时填写了大量信息,使用知识图谱深度挖 掘用户信息,可以优化风控的各个环节。
2.分析方法
• 异常分析 • 不一致性验证 • 基于规则提取特征
案例一:五岳
案例二:国家、首都
3.知识图谱的表示
案例一:张三是李四的父亲,李四有一个电话
案例二:医疗
案例三:BAT相关影视传媒
二、知识图谱的应用
1.最主要的应用 2.分析方法 3Βιβλιοθήκη Baidu应用案例 4.基于大数据的反欺诈
1.最主要的应用
知识图谱在互联网金融中最主要的应用 是风险控制
知识图谱的需要的数据量大、技术复杂、运算时间 长、使用成本高于传统数据库,适用于数量较少、 信息较多、高价值用户的深度分析,不适合用于海 量低信息量用户的筛选。
2.中级应用:聚合各类数据源,逐步绘制出借款人 的用户画像,从而针对性识别欺诈风险。
以一个借款人举例,可以有身份证号、手机号、学 历等个人信息;可以有担保人或是亲属好友;有住 址、银行流水、工作单位等信息。
这些信息可由借款人自己填写、或是数据提供商提 供、或是在互联网上获得、甚至通过推理得到,往 往具有冗余性,可以通过一致性验证来确定信息的 可靠性。
异常分析
a. 静态分析
所谓的静态分析指的是,给定一个图形结构和某个时间点,从中去 发现一些异常点(比如有异常的子图)。下图中我们可以很清楚地 看到其中五个点的相互紧密度非常强,可能是一个欺诈组织。所以 针对这些异常的结构,我们可以做出进一步的分析。
b. 动态分析
所谓的动态分析指的是分析其结构随时间变化的趋势。我们的假设 是,在短时间内知识图谱结构的变化不会太大,如果它的变化很大, 就说明可能存在异常,需要进一步的关注。分析结构随时间的变化 会涉及到时序分析技术和图相似性计算技术。
• 问题:你了解的金融相关知识图谱服务商?
五、参考资料
• 2017云栖大会知识图谱专场 • AI赋能商业银行-海致智能金融知识图谱峰会 • 如何用机器学习和知识图谱来实现商业智能化? | CCAI
演讲实录 • 沈春泽:哪些黑科技正在改变金融?详解知识图谱应用
• 百度王海峰:知识图谱是AI的基石,百度知识图谱服务 规模增长160倍
2.数据清洗
• 数据中存在着很多的噪声,需要清洗数据。
• 第一,目前积累的数据本身有错误,所以这部分错误数据需要纠 正。
• 第二, 数据的冗余。比如借款人张三填写公司名字为“普惠” , 借款人李四填写的名字为“普惠金融” ,借款人王五则填写成 “普惠金融信息服务有限公司” 。虽然这三个人都隶属于一家 公司,但由于他们填写的名字不同,计算机则会认为他们三个是 来自不同的公司。那接下来的问题是,怎么从海量的数据中找出 这些存在歧义的名字并将它们合并成一个名字? 这就涉及到自 然语言处理中的“消歧分析”技术。
相关文档
最新文档