强监管下数据智能如何赋能金融科技

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

强监管下数据智能如何赋能金融科技文I沈志勇
沈志勇，博士，招商金科副总经理，首席创新官。

前百度云首席数
据科学家”曾任百度研究院大数据实验室副主任，长期从事大数据
和人工智能技术在各行业应用的探索与实践。

现为大数据分析技术
国家工程实验室学术委员会成员，大数据流通与交易技术国家工程
实验室专家委员，深圳市金融科技协会人工智能专委会委员。

文简述了金融科技的发展以及大数据和人工智
上4能（简称为“数据智能”©）起到的重要作
用。

在近年来的强监管背景下，金融科技的发展有一
些新的特点。

一方面，数据智能为监管赋能，让监管
更有全面性与穿透力；另一方面，数据智能也在努力
适应监管，尤其是在个人数据隐私问题受到监管约束
的情况下。

1.数据智能与金融科技
1.1金融行业的发展趋势
金融领域的信息化水平在众多行业中具有领先地
位，近年来更有着突飞猛进的发展，主要体现在两个
方向：
1.1.1从互联网化到移动互联网化
金融业务的互联网化，如网上银行等的出现，将
金融服务从机构内部，推送到用户端，用户可以远程
操作自己的金融账户，完成交易等相关操作。

随着移
动互联网的发展，不仅提高了金融服务的效率和拓展
了服务范围，也提升了客户的体验与便利度。

而移动
支付等移动金融服务，更广泛地改变了人们的生产、
生活的模式。

1.1.2从数据驱动到智能化
所有行业都处在信息化的进程中，不论完成度如何，都会或多或少地产生数据。

如何使用这些数据来提升用户馅佥，优他获臧为人们思考的问题，这也是前些年大数据浪潮的根源。

再者，为了提升多媒体数据与自然文本等类型数据的可用性，即数据被机器理解和使用，并在此基础上让机器直接替人参与业务流程。

因此，人工智能技术因此日益被重视。

金融行业作为除了互联网行业以外信息惬度最高的行业之一，因此数据驱动已经比较成熟。

1.2金融科技的具体应用
金融科技是金融领域信息化在现阶段所涌现的新兴技术的一个总称，其中以数据相关的技术（如大数据、区块链等）以及与人工智能化相关的技术（生物识别、智能投顾等）为典型，在这里我们合在一起称为“数据智能”。

有了数据，我们可以更全面细致地了解个人与企业，而人工智能让机器有了判断力与表达能力。

具体典型应用举例如下：
◎金融产品的风控与营销：风控与营销，就像一个硬币的两面，都是基于对服务对象、个人或者企业的深入了解。

前者是希望对服务对象是否怀着欺诈等恶意进行防范，对偿还能力等指标进行评估；后者是希望发现潜在服务对象，找到一些特定人群（如高净值人群），并对其消费愿望等指标进行评估。

基于丰富的数据资源与不断发展的数据分析技术，风控与营销的执行粒度变得更细，覆盖面也变得更广，令各个细分人群可以得到量身定做的金融产品与服务，也让金融服务的受众面也变得更广。

现时，互联网金融的发展带来的大量长尾用户的金融需求，如果没有数据智能的发展，是无法被”普惠”到的。

在个人金融服务流程中，验证确认客户的身份也是风控反欺诈的重要举措，基于人工智能的生物识别技术，如人脸、虹膜识别等，在其中起到了重要的作用。

在这个方向上，存在着“道高一尺，魔高一丈”的博弈，欺诈者们同样通过人工智能技术伪造人脸等生物信息试图蒙混过关，因此活体识别等进阶技术在近年间也有长足进步。

◎投资辅助：在金融投跡域，无论是几级市场，无论是面向专资者飓面向业余投资者，娠智能都发挥了重要的赋能作用。

对于专业投资者，比如就基金经理和投资经理而言，信息是投资博弈中的优势来
①百度也曾提出过能”的概念，主要是指基于大数据与机器学习技术，提馳据中馳含的有价值的信息和知识，使数据具有“智能”,并iSj&B立模型寻求现有问题的解决方案
以及实现预测（如"百度预测”产品）等，笔者当时恰巧是百度预测的算法负责人。

在本文中，为行文简洁，笔者将人工智能和大数据简称为"数据智能”。

13
June2019
源，而数据则是投资决策所需信息的载体，数据的采集
与从数据中加工萃取信息的能力，影响着投资的成败。

在大数据技术的浪潮下，数据的流转与交换更加高效，
互联网也带来了丰富的数据资源，而人工智能技术则提
升了其中的多媒体以及自然语言等非结构化数据的解读
能力，比如有些投行或者对冲基金，禾」用遥感图像的分
析和对互联网上新闻与网民言论的智能分析，做投资参
考，这被称作”另类数据"(Alternative Data)o
对于日益壮大的非专业的投资者人群，需要大量
的投资顾问来指导投资，这会带来不现实的成本消
耗，越来越多的机构尝试通过机器来替代投资顾问。

这需要两方面的技术支持，一方面需要基于数据分析
技术，对投资人的风险偏好等进行分析，制定合理的
资产配置与投资方案；另一方面可以通过对话机器人
技术，让机器自主地与投资人交流，自动回答相关疑
问。

2.强监管下的金融科技
金融科技的发展催生出一些新的金融^务与商业模
式，女口国内的互联网金融P2P理财、领消费贷款等，
新的模式在满足更加广泛和丰富的金融需求的同时，也
带来了新的风险，如个人信息泄漏、变相非法吸收公众存款、非法集资及暴雷跑路等事件层出不穷。

这些风险造成了不良的社会影响，也造成了大量的社会经济损失。

因此近两年来，国家陆续出台相关法律法规，对金融行业与机构的各类行为进行了严格监管。

在上述背景下，一方面，监管机构基于科技加强对金融财的监管发展了”监管軼(Suptech)”,金融出于为了在强监管的背景下自查自纠检验自己业务机构合规性也发展了”合规科®(Regtech)”,二者都离不开数据智能的赋能。

对此，后文将详细介绍。

另_方面，随着监管的加强，尤其是对个人隐私等数据的流通性进行严格的限制，以数据智能为基础的金融科技发展也受到了限制，如何在个人数据有限流通的前提下做好数据智能的赋能，也成了金融科技的新课题。

3.科技赋能监管：监管科技
2017年以来，“一行两会”等监管机构发布诸多的监管法律法规、通知办法、指导意见，在原有的机构监管、功能监管和行为监管之外，“监管科技”与“穿透式监管”等成了新的关键词。

比如在2018年5月沈志勇
中国证券监督管理委员会(下称“证监会”)的一次
关于“监管科技总体建设方案”的高级研讨会上，就
明确提出：
“要紧紧抓住当前的历史性机遇，实施资本市场大数据战略，推动构建人力和科技深度融合的监管新
模式。

在电子化、网络化监管的基础上，进一步解决
科技化、智能化监管问题。

要紧紧围绕证监会各项监
管职能，利用大数据、人工智能等技术，在行政审
批、打击违法违规行为、上市公司监管等工作环节加
快行动、有所突破。

要提升金融风险的甄别能力，实
现穿透式监管、全面性监管，切实保护投资者的合法
曲”
从中不难看出数据智能在监管科技中的重要性。

数据智能技术的出现，令科技监管超越了市场内结构
化的交易行为数据的分析，而是将公司财报、网络舆
情、券商研报等半结构化乃至上述材料影印版的非结
构化数据也纳入了处理研究、关联分析的范畴。

具体
14
知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得至啲一个关系网络。

知识图谱提供了从“关系”的角度去分析问题的能力。

而言，側据技术中的复杂网络分析、聚类分析、异常检测、流式数据分析等技术，人工智能中的自然语言处理、光学字符识su等技术从中发挥了重要的作用。

以在资产管理中的应用为例，穿透式监管的难点在于发掘各类资管产品背后的实际控制人以及资管产品与各利益相关实体之间的关联关系。

这些关系除了公开披露并无其他信息来源。

也正是因为难以发现这些隐藏的关系，监管部门并未在这一领域有太多约束。

随着数据智能技术的发展，公开的、非公开的结构化数据库信息和非结构化文本信息可以被有效地利用起来：抽取其中的实体和关系，包括各类机构、个人等；利用实体和关系构造编织成具有上十亿实体和百亿关系的庞大网络，包括但不限于股权关系网络、个人机构关系网络、资金流转网络、客户关系网络等。

监管部门可以利用这张巨大的关系网络，挖掘出隐藏在复杂交易结构之后的真相，从而实现资产管理的穿透式监管。

4.科技适应监管：个人隐私强监管背景下的金融科技
数据智能领域最近流行一句话：“关于个人的数据越来越私密，关于企业的数据越来越透明。

”这句话形象地反映了数据智能技术发展的两大趋势。

在当前的个人隐私数据强监管的态势下，金融科技应该如何使用数据智能以及将企业数据作为个人数据以外新的着力点，成了金融科技的新趋势。

4.1针对个体隐私保护的大数据技术
在数据流转中通常将ID等敏感字段通过散列(Hash)际等方式匿名化个人隐私。

磁样做并不能百分之百保护个人隐私，而且在严格的数据保护的法规下，也会限制一些非敏感字段的流通。

因此更多高阶的保护数据隐私的数据智能技术应运而生。

4.1.1隐私保持的数据挖掘技术
隐私保持的数据挖掘(Privacy Preserving Data Mining,简称PPDM)是指采用数据扰乱、数据重构、密码学等技术手段，能够在保证足够精度和准确度的前提下，使数据挖掘者在不触及实际隐私数据的同时，仍能进行有效地挖掘工作。

其目的是通过对原始数据或者挖掘算法进行某种改进，在不向外界泄漏隐私信息的同时，发现原始数据的某些统计规律或隐含的知识和规则。

例如，数据里包含了某人的家庭地址为“北京市朝阳区XX小区XX号楼X单元X室”、年龄为”45”岁、年收入为“120万人民币”,尽管该人士的姓名身份证号等信息被散列化加密，但这里面还是有两个重大的隐私泄露：首先是信息足够定位到具体自然人，其次是暴露了该个体的具体收入信息。

但如果我们的任务是理财产品的推荐，可以将各个字段模糊为"北京市朝阳区”、“中年人”、“高收入人士”，在无法定位具体个体的同时，保留了足够的信息用来判断该人士是理财产品的高潜力客户。

4.1.2差分隐私(Differential Privacy)技术
设想_个受信任的金融机构或者金融服务机构持有涉及众多人的个人信息(例如银行交易、证券账户余额或定位等)的数据集，并对外提供一个全局性的统计数据。

在通常情况下，人们难以想到这样的综合性统计数据服务也有暴露个体隐私的风险。

此外，即使将姓名等乱码化等匿名化的做法，个人隐私保护也会遭到挑战。

如链接两个或多个分别无害化处理的数据库来识别个人信息时。

此时，各种匿名化的特殊方法都将失效。

而差分隐私就是为防护这类统计数据库脱匿名技术而形成的_个隐私框架。

举例来说，在Netflix等著名推荐系统大赛的训练数据中，所有客户ID已用随机分配的ID替代。

有人将Netflix的匿名化训练数据库与IMDb数据库(根据用户评价日期)相连后，能够将部分Netflix的训练数据库反匿名化。

这样，将危及到部分用户的身份信息。

还有人将匿名化的GIC数据库(包含每位患者的出生日期、性别和邮政编码)与选民登记记录相连后，找出马萨诸塞州州长的病历。

上述反隐私的攻击被称作“差分攻击”，简单来说，就是发布100个人的信息，以及另外99个人的信息，可以将两组信息比对之后获取第100个人的信息。

差分隐私的核心思想就是：对于差别只有一条记录的两个数据集，查询它们获得相同
15
June 2019
值的概率非常接近，这样就保护了第100个人的隐私。

4.1.3 安全多方计算(Secure Multi-Party
Computation )与联邦学习(Federated Learning )
安全多方计算最早由华裔图灵奖获得者姚启智教授表达为百万富翁问题：两个百万富翁想知道他们两
人谁更富有，但他们都不想让对方知道自己财富的任何信息。

在双方都不提供真实财富信息的情况下，如
何比较两人的财富多少。

解决参与的各方之间在无可信任的第三方的情况下，如何保护隐私的协同计算问题。

其中，安全多方
计算在得到正确的计算结果的同时，不泄露各输入值
给其他成员。

每个参与方除了计算结果外，不能得到其他方的任何私有信息。

安全多方计算在电子选举、电子投票、电子拍卖、秘密共享、门限签名等场景中
起着重要的作用。

主流多方安全计算框架的核心用了加密电路和不经意传输等密码学技术。

针对复杂的跨多方的机器学习问题，有人提出了
联邦学习的概念。

在现有的法规下，不同的金融机构很难粗暴地把双方数据加以合并，并针对风控、营销任务做大数据的机器学习建模。

联邦学习希望做到各
个企业的自有数据不出本地，通过加密机制下的参数交换方式，即在不违反数据隐私法规情况下，建立一
个虚拟的共有模型。

这个虚拟模型将各方聚合在一起建立的最优模型。

但是在建立虚拟模型的时候，数据本身不移动，也不泄露隐私和影响数据合规。

最终，
建好的模型仅为本方的目标而服务。

在这样一个联邦机制下，各个参与者的身份和地位相同，而联邦系统
帮助大家建立了 “共同富裕”的策略，因此叫做“联邦学习”。

4.2企业大数据技术进展
随着怡隐私的miWW *
12格，欝肖、风控等大数据技术的资源和能力被更多地i 够到与之相似的企业大数据分析上，包括企业与相关实体间的关系分析，生产要素知识的图谱化亥企业的监管合规等。

參考文献
[1] W ang et. al. A brief survey on secure multi-party
computing in the presence of rational parties.Springer JAIHC, 2015-12.
[2] Mendes et. al. Privacy-Preserving Data Mining:
Methods, Metrics, and Applications. IEEE Access, 20 仃-06.
知识图谱是一种基于图的数据结构，由节点
(Point)和边(Edge)组成。

在知识图谱里，每个节
点表示现实世界中存在的“实体”,每条边为实体与
实体之间的“关系”。

知识图谱是关系的最有效表示方式。

通俗地讲，知识图谱就是把所有不同种类的信
息(Heterogeneous Information )连接在一起而得到的一个关系网络。

知识图谱提供了从“关系”的角度去
分析问题的能力。

其中，“实体”为企业和企业的“董监高”等关键人员的图谱，是最典型的企业知识图谱。

这类图谱
的构建通常基于工商部门的公开信息，再加上从公开
网页上禾U 用信息抽取(Information Extraction )技术分析得到企业和相关个人信息以及他们之间的关系。

另外，企业相关的涉诉以及舆情也会补充到企业知识图
谱中，作为更丰富的企业的画像与刻画。

“实体”也可以是生产要素，比如原材料、零配件等其他更丰富的类型。

企业相关度知识图谱在金融领域已经得到了广泛的应用，如用作风控、投资等任务。

5.小结
在科技的世界里充满着“双刃剑”的现象：金融
科技既可以用来赋能监管，让金融活动运营得更加健康合规，保护各方的利益；也可以被用来突破与规避
监管，带来不良的后果。

在个人隐私的监管上受到的挑战尤其严峻。

随着基于人工智能的数据釆集手段的
丰富与发展，比如通过人脸重识别技术对人的行踪进行监控，通过语音识别加自然语言处理，监听并了解
谈话内容，人们更多维度的隐私将会在更多场合暴露。

一方面，我们需要通过法律法规对这些行为进行
约束与规范，比如国外已经有一些区域禁止在公共场
所采集人脸信息。

另一方面，我们也要提倡如本文的后半部分详细介绍的那样：1.订技术的发展主动适应监管，在个人隐私监管的前提下发展能兼顾到隐私的数据智能算法；2.要寻找新的技术突破方向，另辟路径
将更多的研发精力投入到更加透明的企业数据智能中去。

责任编辑丨余健仪
编辑I 李慧
实习编辑丨冼雨彤
16。