理性看待大数据-读《大数据时代》有感-2016.10
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
理性看待大数据——读《大数据时代》有感
还在大二的时候,本科的王艳明老师就向我们推荐了维克托.迈尔-舍恩伯格和肯尼思.库克耶所著的这本《大数据时代:生活、工作与思维的大变革》(下文“《大数据时代》”均为概述简称),直到前段时间我才找将它从书架上拿下来品读。
这本在2013年由浙江人民出版社出版的有关的大数据的著作在社会上掀起大数据热的时代,对众说纷纭的大数据的概念和特点以及有关问题进行了清晰地阐述,既给我补了很多有关大数据的知识,让我对大数据有了进一步的认识,之前一直是只闻其声而不见其庐山真面目,但同时也引发了我对大数据热的思考,特别是作为一名档案人,对当前档案行业中此起彼伏的“大数据热”的呼声有了清醒的认识。
一、《大数据时代:生活、工作与思维的大变革》书目解读
《大数据时代》主要包含三部分:
第一部分:大数据时代的思维变革
这个部分主要是阐述了大数据时代下数据的三个特点,亦即更多、更杂、更好。
作者通过“穿孔卡片与美国人口普查”“大数据与乔布斯的癌症治疗”“Xoom 与跨境汇款异常交易报警”等生动、形象的实实在在的案例使读者信服庞大的数据在社会生活、商业活动等中所发挥的前所未有的作用,完美地体现“更多”的特点。
试想,在需要数据运用的活动里,如果你所采用的样本不是随机的少数样本,而是以所需要的全部数据作为样本,那么你的最终结果将是多么的科学合理?
而在对“更杂”这一特点的阐述中,作者更是颠覆性地强调了数据的混杂性而不是普遍认为的精确性。
同样是通过“微软与语料库数据增加”“英国石油公司与无线感应器”来肯定增加必要的“误差”的意义。
在一直追求更小误差的科学活动中,这种方式无疑会扩大误差,因为数据量很小,那么一个数据的误差就可能会造成这个结果的不准确性大大提高,而在大数据时代,当面对的是全部数据时,那某些数据的大误差对研究结果的影响难道不能刻意忽略不计?这本来是很容易理解的一个道理,然而在之前却并没有意识到。
在大数据时代,作者强调人民应该而且完全可以更多地强调数据或者现象的相关关系,而不是紧盯着它的因果关系不放。
可以说,相关关系隶属于因果关系,因果关系作为社会与自然界中的重要关系当然是我们要努力探索和追寻的,但很多时候我们并不需要了解事件之间的因果,也不容我们慢慢了解“为什么”。
特别是在商业活动中,各种机遇稍纵即逝,那
么,相比“为什么”,“是什么”要更为容易,也更加迫切。
第二部大数分:据时代的商业变革
“大数据发展的核心动力来源于人类测量、记录和分析世界的渴望”。
“如今的信息技术的变革的重点在‘T(技术)’上,而不是在‘I’(信息)上。
现在,我们是时候把聚光灯打向‘I’,开始关注信息本身了”。
这一部分,维克托.迈尔-舍恩伯格认为一切事物都可以“量化”,“用手机数据预测疾病传播和城市繁荣”“睡眠活动数据库和睡眠模式预测”这些例子中都说明了“量化”的巨大价值。
作者提出了将文字、方位甚至沟通变成数据后的神奇作用,同时又强调了数据化和数字化的区别,不要将二者混淆:数字化是指把模拟数据转换成用“0”和“1”表示的二进制码,而所说的数据化则是将现象转变为可制表分析的量化形式的过程。
在这一部分,作者还阐述了数据创新的巨大价值和技术、思维与数据这三个数据时代的角色的定位。
认为现在以思维和以技术为王的时代应该让位于以数据为主宰的时代。
以数据为主宰,拥有了数据就拥有了一座巨大的宝库,很快还是一座取之不尽用之不竭的数宝库。
第三部分:大数据时代的管理变革
作者深入谈论了让数据主宰一切的隐忧和风险,谈到了对自由与责任并举的信息管理的掌控问题。
其中,让我印象深刻的是“预测与惩罚,不是因为‘所做’,而是因为‘将做’”和“个人隐私保护,从个人许可到让数据使用者承担责任”。
当下,人们对数据分析功能和信息推送服务乐此不疲,很少考虑到其在法律乃至伦理中的应用,但作者就屏辟蹊径地谈论了基于大数据的信息分析可能存在的问题。
认为,倘若将来分析到了一个人的信息使用记录而推断出其可能会违法犯罪,并因此而让执法人员破门而入去抓捕“罪犯”,理由是他将要犯罪,想想,是不是会很滑稽而且很可能会让社会恐慌?是的,这样的确保障了社会安全,但同时也严重损害了司法公正。
而在个人隐私方面,过于强调隐私导致谈信息而色变也是万万不可取的,但,我们是不是就应该忽略个人隐私保护呢?绝对不是。
首先,许许多多有用的数据并非是个人隐私信息,许多信息在搜集时并不会侵犯个人隐私,也无意用作其它用途,而且最终还产生了非常大的价值。
其次,面对问题不是逃避,该做的是补救和解决。
要通过各种手段去迎接个人隐私侵犯的挑战。
二、对大数据时代的理性思考
阅读《大数据时代》让我对大数据的概念和特点有了系统的了解,也让我能够更为清楚、理性地去看待大数据,去看待四面八方传来的此起彼伏的各种对大数据时代的呼声。
大数据是洪水猛兽还是福音?这全在人类怎么合理地使用。
另外,《大数据时代》让我这位即将跨入档案工作者行列的档案学专业学生对自身专业领域内大数据的呼声甚至可以说是对“大数据”现象有了新的思考。
作为一名不太受社会和工作单位重视的、感受不到“钱途”的准档案工作者,一方面是希望档案行业也能够在大数据时代中分一杯羹,希望能够让档案信息发挥更大的价值,借此让社会和单位领导能够对档案工作和档案人员予以足够的重视,从而带来“钱途”和前途。
但,我还是不得不考虑一下这种美好愿景实现的可能性,到这,很抱歉要泼一盆冷水了。
简单地从技术和数据两个方面来谈谈我认为档案人所没有的明显优势。
技术上,档案人员基本上是不具备优势的。
对信息技术的理论掌握和实践操作的熟练程度都是远远不如其他专业的人,特别是计算机技术和网络技术人员,甚至连档案学近亲-图书情报工作者都未必比得过。
数据库、文件管理系统、档案管理系统、文档一体化管理系统
等,又有多少人有深入地了解?更不用说设计和开发了。
当然,你或许会说,为什么要自己深入了解和进行开发,而不是交由专门的技术人员?如果自己没有深入地了解,就难以和技术人员去很好地沟通,无法理解对方所说的功能等,只能表达自己想要的,而对方也未必懂你说的,只能双方装作都懂了的样子。
而且,不自己掌握技术,就好像核心知识被别人控制,依然没有主动权。
而从数据角度来看,在这个数据为王的大数据时代(姑且认为已经进入了这个时代),对数据的掌控是核心,是关键。
不可否认,档案包含了丰富的、权威的、真实的有价值的数据,是其他很多信息源无法比拟的。
但是,仍然有着两大独有的劣势。
一方面,档案信息很多都是具有保密性的,至少公开的范围是有严格的限制,而在秘密保存期限上也是很长久的,那么,这就造成了很多有价值的信息根本无法大范围流通,进而难以发挥其真正的价值,这种小范围流通的特点,注定了无法让这些数据大面积地在数据世界里自由流转。
而另一方面,虽然档案信息的量是非常巨大的,但,档案是由符合条件的文件转化而来,对文件附加一系列约束之后才能被归档而形成档案。
这就决定了档案的量相对于文件、文献、资料等的量就是劣势。
数据量即竞争力的大数据时代,又如何能强有力地竞争?
诚然,我虽希望大数据时代下档案工作者能够拥有适应大数据时代的素质,我希望能够使档案工作能够和大数据完美结合,能够于这个美好的时代走出一条更广阔而又不失自己本质和特色的路径。
我希望我上面考虑的问题实际上不是问题。
总而言之,《大数据时代:生活、工作与思维的大变革》这本书不仅让我对大数据有了系统了解,而且因为它,更是启迪我思考更多大数据的问题,思考到档案界对大数据的反应。
作为档案人,我想呼吁人们都要理性地看待大数据,不要被响亮的口号所蒙蔽,特别是档案工作者,切不可因一叶障目而不见泰山。