大数据时代的思维变革
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据时代的思维变革
作者:贾凯
来源:《现代审计与经济》 2016年第4期
贾凯
大数据是这几年互联网领域的一大热门话题。最近,这个话题的热度已经不仅局限在互联
网领域了,正在逐渐拓展到其他领域,成为全社会关注的话题。那么,什么是大数据?大数据
的特点是什么?为什么现在才有大数据?大数据的应对方法是什么?大数据时代能带来哪些变革?这些变革对于审计工作有什么影响?这一系列问题都有待回答,本文将量力而行,给以上
问题做出初步回答。
一、什么是大数据
毫无疑问,大数据是一个新鲜概念。对于这样的新鲜概念,其定义也要经过时间的积淀才
能明确。就目前而言,业界公认度高的是IDC的“ 4V” 理论,即
Volume(数据量大)、Variety(数据多样性)、Velocity(数速大)和Value(价值密度低),在此基础上,IBM重新定义并完善了“ 4V”理论,将最后一个“ V” 改而解释为Veracity(真实性)。但大数据技术的战略意义不在于
掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理,从大数据中提取、挖掘
对业务发展有价值的潜在知识,找出趋势,做出预测性分析。
二、为什么现在才有大数据
可以从数据的产生、采集、存储三个步骤来分析:一是生产信息的门槛降低了。要想知道
现在数据产生有多方便,可以首先回顾一下以前的数据产生方式:20年前,如果想让别人知道
你的观点,只能是向报纸投稿,或者出版著作,这要求的写作技能太高了,对普通人来说是不
可能的。10年前,博客开始流行,稍有写作水准的人都可以发表文章。4年前,微博大行其道,只要不是文盲,就能玩转这最多只有140个字的小玩意儿。现在呢,手机拍照,分享到微信朋
友圈,已经成为大多数人的新选择,朋友圈甚至都不鼓励用户发纯文本的状态。在这个时代,
几乎人人都可以玩转朋友圈了。可以看到,每一次变革都极大地降低了生产信息的难度,极大
地扩充了具备生产数据能力的人群。所以说,技术的进步给了普通人发表观点的机会。
二是数据采集的难度降低了。这一点主要得益于现实世界的不断数字化,线下的内容不断
向线上迁移,具体表现为两个方面。首先是,原来需要专业技术人员才能干的事情,现在普通
人也能干了。比如给人物留影,从画家蜕变为摄影师,到现在人人都能拍照。再比如测量地理
位置,以前要专业的测绘人员,现在打开手机地图应用就可以了。其次是,以前不可能实现的
数据采集,现在也能实现了。例如,顾客在每样商品前的停留时间。在传统的商店里,采集这
个数据是不可能完成的任务,而在淘宝上,顾客在每个商品页面的驻留时间,是一目了然的事情。
三是数据存储的成本降低了。大约十几年前U盘的卖点是1MB只需要1块钱,现在京东上
1T的硬盘,价钱不到400元,更别提企业的大规模采购价了。
以上三点,决定了大数据时代只有在现在才能到来。其中第二条更是可以说明,为什么大
数据最先兴于互联网领域,因为互联网领域的数据采集难度最低。但是,随着传感器技术的进
步和物联网的发展,大数据将无疑会渗透到各行各业。
三、大数据时代的思维变革
大数据究竟能带来哪些思维变革,维克托﹒迈尔在他著名的《大数据时代》中提出了以下三点可以参考:
一要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。假设要研究人与人之间的互动关系,现在不需要去进行繁琐的调查问卷发放、填写、回收、统计工作了。只需要分析中国移动用户的通话记录,就足以发现人与人之间联系和人际圈子形成的奥秘。又假设要研究北京市人口随时间的流动,只需要收集到北京地铁卡的进站和出站数据,就能获取精确的人口流动记录。类似的例子还有很多,春节时期腾讯发布的春运地图,就是利用其旗下QQ、微信等客户端在不同地域登录的数据,分析全国人口的流动性的。可以说,在大数据时代,抽样分析已经是落伍的技术,那只是在技术受限的特定时期被迫采用的技术而已。
二要接受数据的纷繁复杂,而不再追求精确性。在小数据时代,对数据的预处理是十分关键的一步,而预处理的一大部分工作内容就是剔除野值。在大数据时代,数据的精确性已经不再是决定性的因素,数据的规模才是。假设要测量北京各区域的温度,如果在每个区域只有一支温度计,那么就必须确保这个温度计是准确的。然而,假设现在用智能手机来测量温度,单个手机的测量结果自然不精确,随便玩玩游戏上上网什么的都会导致手机发热。不过不要紧,考虑到现在手机的普及程度,在一个区域拥有上万台手机是很正常的。综合利用这是上万台手机的数据,再利用手机温度和气象温度的相关性,一定能得到比单支温度计更精确的结果。
三要关注事物的相关关系,而不是难以捉摸的因果关系。迈尔的这个观点最受争议。通常来说,发现因果关系是一个更难的问题,对于大规模复杂系统更是如此。因此,将注意力转移到相关关系上是一个更为经济的做法。什么是相关关系,就是B事物发生与A事物相关。互联网上常见的推荐引擎,比如亚马逊推荐相关产品,豆瓣推荐相关书籍,网易推荐相关新闻,这些技术的原理都是在发觉数据之间的相关性。至于为什么B事物的发生与A事物有关系,这当然很重要,但已经不是重点了。在大数据时代,知道“ 是什么” 比知道“ 为什么” 重要的多。
四、大数据的应用
大数据目前在互联网行业已经有非常多的成功例子,在其他领域也有斩获。按照应用层次的不同,粗略的可以分为以下三类:
(一)以数据本身为商品
一种情况是公司不愿意来开发利用这些数据:例如twitter,它本身拥有海量的数据,但是它并不利用这些数据。另一种情况是公司不能利用这些数据:farecast是一个机票价格预测网站,帮助消费者买到更便宜的机票,ITAs oftware为farecast提供预测机票价格所需要的历史票价数据。为什么ITA不能利用这些数据来预测机票价格,因为ITA本身作为卖机票的网站,不可能做出任何损害航空公司利润的行动。到目前为止,国外已经出现了专门的数据买卖平台,中国也在去年启动了数海大数据交易平台。
(二)利用大数据来改进传统业务
机器翻译,这是在计算机领域的经典问题,以前的算法都是基于语言文法进行转换的。现在的机器翻译已经彻底改变思路,利用数据而非文法来改进翻译结果,通过搜集互联网上大量的双语文本,利用统计算法来分析两种语言之间的相关性。谷歌翻译团队有一个广为流传的笑话“ 每辞退一个语言学家,我们的翻译结果就能改进不少” 。再比如,我们先给出一个算法(公式),需要用WRDS里面近10年的财务数据做数据分析来得出一个平均行业指数,每个行