大数据风控的现状、问题及优化路径
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据风控的现状、问题及优化路径
2016-04-11巴曙松侯畅唐时达互联网金融互联网金融
iefinance互联网金融与金融互联网、互联网等模式,主要包括(p2p网贷、虚拟货币、众筹模式、第三方支付、互联网银行、电商小贷、金融服务等)进行研究与分析。发布的内容也请转发到朋友圈。本账号编辑转载目的在于传递信息对真实性不负责,版权及观点归原作
者所有。4:54 Yiruma - Do You来自互联网金融
文/巴曙松;侯畅(东北大学工商管理学院);唐时达(北京大学光华管理学院博士后流动站)
摘要:在互联网技术和信息技术的推动下,大数据在金融行业的风控中获得了引
人注目的进展,但是在实际运用中其有效性还需进一步提高。当前大数据风控有效性不足既有数据质量的障碍,也有大数据风控的理论性障碍,还有数据保护的制度障碍。消除这些障碍、提高大数据风控的有效性,需要金融企业、金融研究部门和政府监管部门的共同努力。
关键词:互联网金融;大数据;风险控制
大数据已经撼动了世界的方方面面,从商业科技到医疗、政府、教育、经济、人文以及社会其他各个领域。早在1980年,阿尔文∙托夫勒(Alvin Toffler,1980)在《第三次浪潮》一书中就预言大数据将成“第三次浪潮”。奥巴马政府将大数
据定义为“未来的新石油”。凯文∙凯利(Kevin Kelly,2014)认为所有的生意都是数据生意。2013年互联网金融将“大数据”推向了新的高度。金融的核心是风险控制,将风控与大数据结合、不断完善和优化风控制度和体系,对于互联网金融企业和传统金融企业而言都同等重要。
大数据风控发展迅速,但有效性不佳
在应用层面,金融行业利用大数据进行风控已经取得了一定的成效。使用大数据进行风控已成为美国等发达国家互联网金融企业的标准配置。
美国Zest Finance公司开发的10个基于学习机器的分析模型,对每位信贷申请人的超过1万条原始信息数据进行分析,并得出超过7万个可对其行为做出测量的指标,而这一过程在5秒钟内就能全部完成。
为网上商家提供金融信贷服务的公司Kabbage主要目标客户是ebay、Amazon、PayPal等电商,其通过获取这些企业网店店主的销售、信用记录、顾客流量、评论、商品价格和存货等信息,以及他们在Facebook和Twitter上与客户的互动信息,借助数据挖掘技术,把这些店主分成不同的风险等级,以此来确定提供贷款金额数量与贷款利率水平。
中国互联网金融企业对于大数据风控的运用也如火如荼。
阿里推出了面向社会的信用服务体系芝麻信用,芝麻信用通过分析大量的网络交易及行为数据,对用户进行信用评估,这些信用评估可以帮助互联网金融企业对用户的还款意愿及还款能力做出结论,继而为用户提供相关的金融和经济服务。腾讯的微众银行推出的“微粒贷”产品,其风控核心就是,通过社交大数据与央行征信等传统银行信用数据结合,运用社交圈、行为特征、交易、基本社会特征、人行征信5个维度对客户综合评级,运用大量的指标构建多重模型,以快速识别客户的信用风险。
对于大数据风控的理论研究尚处于萌芽阶段,本文以“大数据风控”为主题在CNKI数据库进行搜索,与此相关的文献数量可以从侧面反映大数据风控的理论研究现状。
CNKI数据库中以“大数据风控”为主题的文献共46篇。在这些文献中,以报道性的文章较多,重要报纸全文库和特色期刊总共为33篇,占比72%;而理论研究的文章较少,中国学术期刊总库为12篇,占比26%;尚没有CSSCI2014—2015年的来源期刊(如图1)。
图1 CNKI数据库与大数据相关的文献数量和分类
虽然大数据风控在实践上已经有所进展,但是其有效性也受到一些挑战。
例如,以大数据风控为基石的P2P平台就频频暴露出各种各样的问题来。对于P2P平台来说,由于其纯线上操作的特点,大数据风控的有效性是决定其经营状况的重要因素,如果大数据风控有效性较差,则面临的坏账压力较大,容易出现提现困难甚至跑路的问题。
网贷之家的数据显示,2015年上半年新增问题平台419家,是2014年同期的7.5倍,已超过2014年全年问题平台数量。截至2015年10月底,全国问题平台数累积已达1115家。
二.当前大数据风控有效性不足的原因分析
一些学者对于大数据风控的有效性问题进行了研究。
王强(2015)指出当前个人大数据征信的问题,一是数据的真实性,二是数据收集的法律障碍,三是坏账的不可预测性问题。
甚至有作者认为大数据风控是无效的,陈宇(2015)援引各种证据认为大数据风控是无效的。
总体而言,当前大数据风控有效性欠佳的原因主要有以下几个方面:
(一)数据的质量问题
当前大数据风控的有效性欠佳,其首要原因就是数据的真实性不高,包括社交数据和交易数据两个方面。
1.社交数据的真实性问题
美国lending club和facebook合作获取社交数据,在中国宜信也曾大费周折的收集借款人的社交数据,最后两者得出的结论都是社交数据根本就不能用。美国很多大数据征信公司的信息错误率高达50%,垃圾进、垃圾出。
2.交易数据的真实性问题。
当前许多电商平台的刷单现象非常严重,这将导致交易数据的严重失真。随着网购的火爆,有关电商平台“刷单”的报道屡见报端。
电商“刷单”有两种方式,一种是商家找所谓的消费者进行“刷单”。卖家买快递单号,其收件人和寄件人与实际的买家、卖家不一致。
另一种是快递公司发空包,但快递公司并未完成配送,而帮助商家完成平台上的物流信息。
(二)大数据风控的理论有效性问题
从IT技术层面论证大数据风控的实践性案例已经很多,但是在经济金融的理论层面,大数据风控还面临一些问题需要解决。
1.金融信用与社会信用的相关性不确定
目前大数据主要来源于互联网,而人们在网络中的表现并不能完全反映其真实的一面。相同的人群在不同场合呈现的特征是不一样的,尤其是目前人们在线上、线下割裂的状态,其行为方式往往会出现强烈的反差。
例如有些人不善交际,却将自己做的美食展示在微博上,吸引大量关注,粉丝暴增。因此网络并不能确切地证明某人的社交圈子,也就是说互联网的数据很难还原用户现实中的信息。
2.大数据对于“黑天鹅”事件的滞后性
在现实世界,总会出现不可预测的“黑天鹅”事件,一旦出现则有可能冲击大数据风控模型的基本假设,进而影响大数据风控的有效性。大到美国的次贷危机,小到个人意外事件的发生,在某种程度上大数据风控是无法预测的,但这些事件的发生,对宏观经济和微观主体都会产生重大的影响。