软通动力-如何构建基于Ai的金融风控系统
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2. 深度学习的本质是特征学习的过程。对于人工难以加工的海量非结构化数据,基于深度学习的特征生成框架自动生成特征,能够弥补 人工定义特征的局限性。
数据源
神经网络算法、模型构建与训练
文本历史数据
数据ETL
机器组合算法
机器建模
3
时序实时数据 专家经验
数据向量化
样本特征网络设计 样本特征工程维度初设
机器调参
3
挑战:大数据时代,金融风控之痛
1. 多源异构数据难以融合; 2. 数据模式动态变迁困难, 当客户新需
求、业务新认知时程序员需痛苦的 修改数据结构及业务逻辑,带来扩 展性差、对客户响应慢、维护成本 高等不良情况。 3. 非结构化数据计算机难以理解; 4. 数据使用专业程度过高:复杂的检 索代码、传统关系型数据库。 5. 分散的数据难以统一消费利用。
风控决策低效耗时,员工成本 很高,坏账率则更高。
4
战略:构建基于AI的金融风控系统
数据采集
数据融合与知识图谱构建
深度学习特征工程与风控模型集成
全域互联网行为
高价值黑名单
全 域
第三方征信
金
融
交易数据
大
数
运营商
据
工商法院
申请资料
申请资料图片
高
价
上
值
千 维
全
金 融 属
度域 性
的 变
金 融
的 特 征
量知
映识
构建基于AI的金融风控系统
背景:大数据时代,传统的金融风控方法已经难以适应
消费信贷
40万亿元
(2019年)
35%的信用覆盖率
中国的消费信贷市场从2015年20万 亿元,到2019年将达到40万亿元, 而征信覆盖率并没有保持与市场规 模的同步。
消费金融领域只有35%的客户是有 征信记录的,剩下65%没有信用记 录,所以并不能用传统、成熟的风 险评估方法去评估这些人的风险。
在实际应用中,时序类特征可能是通话记录或者交易记录,所以它的特征不只是在一个阶段面上去提取,还在时间轴 上去提取。
金融场景中,我们把通话记录分成了不同的周期,按照不同的周期构建了三个LSTM子网络,并且会对这三个时序模式 LSTM子网络做一个混合, 这样能大大减少时序数据分析和提取特征的工作量。
集成模型
集成学习模型
欺骗侦查 违约等级
……..
模
型
借贷历史
层 Rules
消费偏好 GBDT
公共信用 DNN
互联网风 险
DNN
………..
Others
数 据
互联网行为
源
申请资料
通讯数据
信用报告
12
金融风控系统构建后:业务逻辑示例
数据源
特征提取工程
金融画像
风险评分
业务场景
13
基于AI的风控系统技术架构
全量数据特征工程(机器) (>200个)
新数据机器打标签 1
新数据
2 机器训练模型
.
8
深度学习特征工程示例1:文本类(历史)数据特征DNN提取
通过复杂的词向量模型将文本转化为词向量,结合卷积神经网络提取向量空间中关系,特征提取过程完全是黑盒 ,自动生成抽象脱敏的特征表征
金融风控过程中其实会遇到很多这样的非结构化数据,比方说申请资料的文本信息,或者是经过授信和合规要求的通讯文本。对于这些 文本的分析,通过NLP领域的CNN。而在金融场景中也能提取一些特征。如果这些特征能进入接下来的分类网络中去,它也可以去学习 到好人或者坏人的特征。
高质量的深度学习特征,并且与专家人工特征结合共同融入模型。融合特征才会交给下一步模型去学习。
11
金融AI风控系统构建步骤(3):集成模型,实现AI与业务深度结合
不同维度/领域的数据具有不同的特点,需要使用不同的建模方法,集成学习框架可以支持不同类型模型算法作 为子模型单独领域的子模型可以快速迁移应用到新业务领域,实现快速成型和持续优化。
6
知识图谱--重新定义数据架构体系,快速实现金融AI
全域金融知识图谱的价值:解决“金融风控”数据层面的挑战
7
金融AI风控系统构建步骤(2):基于深度学习的特征工程
超越人工定义的深度以穷尽风险:解决“金融风控”技术层面的挑战
1. 数据量大,维度很高是消费金融风控必然会遇到的实际问题。此外,还会遇到很多非结构化数据,例如文本、图像等。这些都不是传 统征信会遇到的问题,而这些必须借助深度学习得以解决。
10
深度学习特征工程示例3:融合机器和专家经验,实现全量价值提取
基于深度学习操作系统,使用不同网络结构拟合不同的数据类型,自动从大量庞杂非架构化数据中生成高质量的深 度学习特征,并与专家人工特征结合共同融入模型
我们相信专家多年积累下来的成熟的风险评估方法也很有效。 基于深度学习的特征智能生成框架,使用不同网络结构拟合不同的数据类型,自动从庞杂、非结构化的数据中生成
价值困境:意识到大数据的价值,但不知如何从数据中挖掘有用的信息。
高维困境:对于65%未被传统征信覆盖的人群来说,他们的特征维度非 常高,会产生上千维变量,那该如何处理高维特征?如何将其融合?
敏捷困境:技术发展的同时,欺诈演变速度也非常快。单一的个体欺诈也 正在演变成有组织、有规模的群体欺诈。
数据层面
产品 开发
风控引擎
特征引擎 规则引擎
典型引擎 日志与监控
技术 实施
软件 部署
硬件 配置
特征工程
全域金融知识图谱
实体融合
知识更新
冲突管理
只是获取 文本抽取
D2R
知识建模
业务知识输入
解析
数据处理层
清洗
数据整合
数据接入
智能推荐/搜索/问答 反欺诈
企业信用评估
业务文档自动写作
合规自动检查
社交网络分析 法规与案例搜索 产业链智能分析
跨市场对标
………..
专家先验知识 行业积累知识
大数据平台主题数据
历史数据
实时数据
第三方数据
射图
到谱
用
户
深度学习特征提取
特征模型
--风控引擎--
特征引擎
典型引擎
Fra Baidu bibliotek
规则引擎
日志与监控
风控应用
大数据风控 信用流量运营 信用流量增值
5
金融AI风控系统构建步骤(1):全域金融知识图谱构建
语义搜索 图计算
应用能力层
智能问答
关联探索
计算能力层
推理
资源标引
可视化分析 语义计算
业务赋能
知识融合 实体对齐
图谱构建层
实践的第一步是文本数据预处理,提取分词或者是关键词,并将每一个词做向量化的表示,然后这些向量化表示会进入一个卷积神经网 络,并从这个卷积神经网络中去提取特征。下一步,这些特征会进入一个全连接的神经网络去学习分类,做成分类器。
9
深度学习特征工程示例2:时序类(实时)数据特征DNN提取
合并学习不同周期和时序模式的循环神经子网络,有效捕捉时序数据的特征隐含信息及不同时序模式下的协同影响
数据源
神经网络算法、模型构建与训练
文本历史数据
数据ETL
机器组合算法
机器建模
3
时序实时数据 专家经验
数据向量化
样本特征网络设计 样本特征工程维度初设
机器调参
3
挑战:大数据时代,金融风控之痛
1. 多源异构数据难以融合; 2. 数据模式动态变迁困难, 当客户新需
求、业务新认知时程序员需痛苦的 修改数据结构及业务逻辑,带来扩 展性差、对客户响应慢、维护成本 高等不良情况。 3. 非结构化数据计算机难以理解; 4. 数据使用专业程度过高:复杂的检 索代码、传统关系型数据库。 5. 分散的数据难以统一消费利用。
风控决策低效耗时,员工成本 很高,坏账率则更高。
4
战略:构建基于AI的金融风控系统
数据采集
数据融合与知识图谱构建
深度学习特征工程与风控模型集成
全域互联网行为
高价值黑名单
全 域
第三方征信
金
融
交易数据
大
数
运营商
据
工商法院
申请资料
申请资料图片
高
价
上
值
千 维
全
金 融 属
度域 性
的 变
金 融
的 特 征
量知
映识
构建基于AI的金融风控系统
背景:大数据时代,传统的金融风控方法已经难以适应
消费信贷
40万亿元
(2019年)
35%的信用覆盖率
中国的消费信贷市场从2015年20万 亿元,到2019年将达到40万亿元, 而征信覆盖率并没有保持与市场规 模的同步。
消费金融领域只有35%的客户是有 征信记录的,剩下65%没有信用记 录,所以并不能用传统、成熟的风 险评估方法去评估这些人的风险。
在实际应用中,时序类特征可能是通话记录或者交易记录,所以它的特征不只是在一个阶段面上去提取,还在时间轴 上去提取。
金融场景中,我们把通话记录分成了不同的周期,按照不同的周期构建了三个LSTM子网络,并且会对这三个时序模式 LSTM子网络做一个混合, 这样能大大减少时序数据分析和提取特征的工作量。
集成模型
集成学习模型
欺骗侦查 违约等级
……..
模
型
借贷历史
层 Rules
消费偏好 GBDT
公共信用 DNN
互联网风 险
DNN
………..
Others
数 据
互联网行为
源
申请资料
通讯数据
信用报告
12
金融风控系统构建后:业务逻辑示例
数据源
特征提取工程
金融画像
风险评分
业务场景
13
基于AI的风控系统技术架构
全量数据特征工程(机器) (>200个)
新数据机器打标签 1
新数据
2 机器训练模型
.
8
深度学习特征工程示例1:文本类(历史)数据特征DNN提取
通过复杂的词向量模型将文本转化为词向量,结合卷积神经网络提取向量空间中关系,特征提取过程完全是黑盒 ,自动生成抽象脱敏的特征表征
金融风控过程中其实会遇到很多这样的非结构化数据,比方说申请资料的文本信息,或者是经过授信和合规要求的通讯文本。对于这些 文本的分析,通过NLP领域的CNN。而在金融场景中也能提取一些特征。如果这些特征能进入接下来的分类网络中去,它也可以去学习 到好人或者坏人的特征。
高质量的深度学习特征,并且与专家人工特征结合共同融入模型。融合特征才会交给下一步模型去学习。
11
金融AI风控系统构建步骤(3):集成模型,实现AI与业务深度结合
不同维度/领域的数据具有不同的特点,需要使用不同的建模方法,集成学习框架可以支持不同类型模型算法作 为子模型单独领域的子模型可以快速迁移应用到新业务领域,实现快速成型和持续优化。
6
知识图谱--重新定义数据架构体系,快速实现金融AI
全域金融知识图谱的价值:解决“金融风控”数据层面的挑战
7
金融AI风控系统构建步骤(2):基于深度学习的特征工程
超越人工定义的深度以穷尽风险:解决“金融风控”技术层面的挑战
1. 数据量大,维度很高是消费金融风控必然会遇到的实际问题。此外,还会遇到很多非结构化数据,例如文本、图像等。这些都不是传 统征信会遇到的问题,而这些必须借助深度学习得以解决。
10
深度学习特征工程示例3:融合机器和专家经验,实现全量价值提取
基于深度学习操作系统,使用不同网络结构拟合不同的数据类型,自动从大量庞杂非架构化数据中生成高质量的深 度学习特征,并与专家人工特征结合共同融入模型
我们相信专家多年积累下来的成熟的风险评估方法也很有效。 基于深度学习的特征智能生成框架,使用不同网络结构拟合不同的数据类型,自动从庞杂、非结构化的数据中生成
价值困境:意识到大数据的价值,但不知如何从数据中挖掘有用的信息。
高维困境:对于65%未被传统征信覆盖的人群来说,他们的特征维度非 常高,会产生上千维变量,那该如何处理高维特征?如何将其融合?
敏捷困境:技术发展的同时,欺诈演变速度也非常快。单一的个体欺诈也 正在演变成有组织、有规模的群体欺诈。
数据层面
产品 开发
风控引擎
特征引擎 规则引擎
典型引擎 日志与监控
技术 实施
软件 部署
硬件 配置
特征工程
全域金融知识图谱
实体融合
知识更新
冲突管理
只是获取 文本抽取
D2R
知识建模
业务知识输入
解析
数据处理层
清洗
数据整合
数据接入
智能推荐/搜索/问答 反欺诈
企业信用评估
业务文档自动写作
合规自动检查
社交网络分析 法规与案例搜索 产业链智能分析
跨市场对标
………..
专家先验知识 行业积累知识
大数据平台主题数据
历史数据
实时数据
第三方数据
射图
到谱
用
户
深度学习特征提取
特征模型
--风控引擎--
特征引擎
典型引擎
Fra Baidu bibliotek
规则引擎
日志与监控
风控应用
大数据风控 信用流量运营 信用流量增值
5
金融AI风控系统构建步骤(1):全域金融知识图谱构建
语义搜索 图计算
应用能力层
智能问答
关联探索
计算能力层
推理
资源标引
可视化分析 语义计算
业务赋能
知识融合 实体对齐
图谱构建层
实践的第一步是文本数据预处理,提取分词或者是关键词,并将每一个词做向量化的表示,然后这些向量化表示会进入一个卷积神经网 络,并从这个卷积神经网络中去提取特征。下一步,这些特征会进入一个全连接的神经网络去学习分类,做成分类器。
9
深度学习特征工程示例2:时序类(实时)数据特征DNN提取
合并学习不同周期和时序模式的循环神经子网络,有效捕捉时序数据的特征隐含信息及不同时序模式下的协同影响