大数据简介
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
重新认识“大数据”
2011年5月,麦肯锡全球研究院发布了名为《大数据:创新、竞争和生产力的下一个前沿》的研究报告,报告中指出大数据将成为企业的核心资产,对大数据的分析将成为竞争的关键,并会引发新一轮生产力的增长与创新,对海量数据的有效利用将成为企业在竞争中取胜的最有利武器。麦肯锡的报告发出后,大数据的概念迅速得到了IT界的热捧。在美国,对大数据的关注也很快上升到了国家竞争的战略层面。2012年3月29日,奥巴马政府发布了《大数据研究与发展计划倡议》,宣布启动对大数据的研发计划,将新投入超过2亿美金推动大数据提取、存储、分析、发现等领域技术与工具的发展。同时奥巴马政府号召面临挑战的行业、科研院所与非盈利机构和政府携手,共同迎接大数据所创造的机会。
现在,大数据的热度已从最初的IT行业延伸到社会生活的各个领域,被认为将会带来生活、工作与思维的重大变革。IBM、谷歌、亚马逊、阿里巴巴等国内外企业在利用大数据方面所做的工作使数据行业看到了新的发展路径。大数据在教育、医疗、汽车、服务性行业的应用前景所彰显的能量使企业、研究者对大数据的未来充满信心。“大数据”时代似乎已然来临。但是,到底什么才是“大数据”?是经典的Hadoop那头玩具小象?是千万级别的用户信息还是动辄XXXTB的数据量?似乎没几个人能够真正说清楚。本文梳理了近几年来关于大数据的一些观点和思想,希望能对大家认识大数据,了解大数据有所帮助。
“大数据”不等于大量数据,也不等于全部数据
如今在很多场合,一提起大数据,基本都会说“日处理数据量XXGB,上传图片XXGB”、“Hadoop集群拥有XXXX节点,总存储XXPB”……诸如此类的技术语言。但并不是数据大了,就可以达到大数据的境界。大数据的成本是非常大的,数据备份的成本、人才的培养及挖掘等都需要很大的成本。企业要首先判断哪些数据是重要的,需要被优先使用。要有目的性地去搜集数据,而不是盲目地求大求全。数据越大其中枝节越多,错误也就越多。
关于数据量与数据价值的关系,中国工程院院士、中国互联网协会理事长邬贺铨认为,数据大与价值大未必成正比。例如将一个人每分钟的身体数据记录下来,对了解该人的身体状况是有用的,但如果将他的每毫秒的身体数据都记录下来,数据量将较前者高6万倍,与按每分钟记录的数据相比,其价值并不能增加。大数据的价值在于样本数的普遍性。统计一个人每分钟的身体状况数据与统计60个人每小时的身体状况数据相比,可能后者在统计上更有意义。大数据往往是低价值密度。大数据中多数数据可能是重复的,忽略其中一些数据并不影响对其挖掘的效果。因此可以说大数据的价值好似沙里淘金和海底捞针。
网络数据是大数据的重要来源,但网络的数据并非都可信
邬贺铨院士指出,网络的数据并非都可信。网络数据中真伪混杂,特别是微博传播不实消息散布很快,而微信圈子内的消息不易监控,对信息内容管理提出挑战。过去往往认为“有图有真相”,事实上图片可以移花接木、张冠李戴、时空错乱,或者照片是对的,可是文字解释是捏造的,这样的事情已经屡见不鲜。鉴于“谣言转发500次就是传谣”,一些网站规定所有帖子不论是否真实一律对转发自动封顶不超过499次,从舆情收集效果看,人为的截尾导致失去真实性。
以Google的流感指数为例,在2008年H7N1流感爆发时Google流感指数给出的预测比美国疾控中心早两周发布,与其数据相似度0.9。美国纽约州2013年1月流感流行状况十分严峻,政府发布了“公共健康紧急状态”的通告,大众媒体的广泛报道,影响了谷歌用户的搜索因为,导致Google的流感指数估值出现了假阳性,远高于疾控中心的统计数值。在谷歌流感指数的启发下,纽约罗切斯特大学利用Twitter的数据进行了尝试,可以提前8天预报流感对人体的侵袭状况,而且准确率高达90%,不过Twitter的使用者大部分是年轻人,而季节性流感的袭扰对象多为抵抗力较弱的老年人和儿童,因此基于Twitter的微博判断流感有片面性。
“大数据”不但对企业非常重要,在社会管理方面同样可以发挥巨大作用
来自36大数据的一篇文章中提到,在国内,政府各个部门都握有构成社会基础的原始数据,比如,气象数据,金融数据,信用数据,电力数据,煤气数据,自来水数据,道路交通数据,客运数据,安全刑事案件数据,住房数据,海关数据,出入境数据,旅游数据,医疗数据,教育数据,环保数据等等。这些数据在每个政府部门里面看起来是单一的,静态的。但是,如果政府可以将这些数据关联起来,并对这些数据进行有效的关联分析和统一管理,这些数据必定将获得新生,其价值是无法估量的。
具体来说,现在城市都在走向智能和智慧,比如,智能电网、智慧交通、智慧医疗、智慧环保、智慧城市,这些都依托于大数据,可以说大数据是智慧的核心能源。从国内整体投资规模来看,到2012年底全国开建智慧城市的城市数超过180个,通信网络和数据平台等基础设施建设投资规模接近5000亿元。“十二五”期间智慧城市建设拉动的设备投资规模将达1万亿元人民币。大数据为智慧城市的各个领域提供决策支持。在城市规划方面,通过对城市地理、气象等自然信息和经济、社会、文化、人口等人文社会信息的挖掘,可以为城市规划提供决策,强化城市管理服务的科学性和前瞻性。在交通管理方面,通过对道路交通信
息的实时挖掘,能有效缓解交通拥堵,并快速响应突发状况,为城市交通的良性运转提供科学的决策依据。在舆情监控方面,通过网络关键词搜索及语义智能分析,能提高舆情分析的及时性、全面性,全面掌握社情民意,提高公共服务能力,应对网络突发的公共事件,打击违法犯罪。在安防与防灾领域,通过大数据的挖掘,可以及时发现人为或自然灾害、恐怖事件,提高应急处理能力和安全防范能力。
数据增值的关键在于整合,但自由整合的前提是数据的开放
北京大学传播学系教授,中国市场研究协会会长刘德寰认为,开放是大数据的题中之义,也是我国政府、企业在大数据时代必须适应的转变,而我们目前面临的情况仍然是一个平台一个数据,数据壁垒造成的局面是:有所有数据,同时又什么数都缺。比如在医疗领域,大数据被认为为医疗领域带来希望—计算机可以在模仿人类专家在直觉方面更进一步,而不必依赖EBM这样的小数据集了。医疗信息体系仍在使用陈旧的数据屏障,在这个体系中,只有通过审核的、标准的、被编辑过的数据才能被接收,由于缺乏一致性,许多可用的数据被拒之门外。这个屏障创造了同质化的数据,而排除了能使系统真正有用的多样性。
再以新浪、搜狐、网易、腾讯四大微博的数据平台为例,四家公司的数据各自为阵,相互独立,关于微博用户行为分析都是基于对自己现有用户的分析,这种封闭的数据环境下,很多层面的具体分析都将受到很大的局限,比如重叠用户的分析,什么特征的人群会只在一个平台上开设账号,什么特征的人会在不同平台上都开设账号,在不同平台上使用风格是否相同,在不同账号下活跃度是否相同?这是在封闭的数据环境下无法进行分析的。
刘德寰认为,数据是企业最重要的资产,而且随着数据产业的发展,将会变得更有价值。但封闭的数据环境会阻碍数据价值的实现,对企业应用和研究发现来讲都是如此,因此我们需要合理的机制在保护数据安全的情况下开放数据,使数据得到充分利用。有效的解决办法之一是公正的第三方数据分析公司、研究机构作为中间商收集数据、分析数据,在数据层面打破现实世界的界限,进行多家公司的数据共享而不是一家公司盲人摸象,这才能实现真正意义上的大数据,赋予数据更广阔全面的分析空间,才会对产业结构和数据分析本身产生思维转变和有意义的变革。
“大数据”时代,“小数据”同样具有重要的分析价值
国内能利用大数据背后产业价值的行业目前还主要集中在金融、电信、互联网、能源、证券、烟草等超大型、垄断型企业,其他行业谈大数据价值为时尚早。从现在业界拿出来的大数据应用实例来看,依然只是在利用传统意义上的数据分析与BI,只是巧妙地把这笔账都记在了大数据上了,海量数据时代的数据应用并没有给多少企业数字运算带来革命性的变化。