大数据时代来临你准备好了吗_
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
近来,“大数据(Big Data )”一词快速升温,无数专家和媒体频繁提到“大数据”时代已经来临,那么到底什么是大数据,仅从字面来理解,大数据的主要特点就是“大”:除了以往传统方法获取的数据外,新的数据来源层出不穷、源源不断,形成一个随时间变化的巨大数据流。这股数据流摧毁了当前的数据监测和研究行业,也彻底颠覆了人们的理解和想象。 事实上,“大数据”并不是一项技术,而是由于不断增长的数据量和数据种类而逐渐衍生出来的一种现象。因此,“大数据”在业内并没有统一的定义。不同厂商,不同用户,站的角度不同,对大数据的理解也不一样。 因为大数据的概念听起来很美好,似乎利用大数据的大门在不久的将来
就会打开。但一切并没有那么简单。
在这种大背景下,北京市科技信息中心主办的“2012大数据时代科技信息资源创新服务研讨会”在云南昆明举行。来自北京、上海、广东等全国7省市24家单位的40余位从事科技信息服务行业的代表参加了研讨会。 信息技术的发展日新月异,利用新的信息技术和资源展示方法,实现个性化、定制化的知识服务,是科技信息资源创新服务的研究热点。当前大数据时代背景下,这方面的深入研究更为迫切。北京市科委积极探索和尝试科技信息资源的创新服务,从2009年开始建设北京科技成果产业化情报系统,以“大数据”为基础,提供数据统一检索和信息关联挖掘服务,为北京市科委的业务工作发挥了一定的支撑作用。此次研讨会旨在为业界提供沟通和交流的平台,共同促进国内科技信息服务方面的发展和提高。
2012大数据时代科技信息资源创新服务研讨会上,既有理论探讨又有实际交流,与会代表就自身感兴趣的主题畅所欲言,无论是理论上的思考,还是实践中的经验,对于促进科技创新的发展,完善科技产业发展环境,都具有重要价值。
大数据时代来临
你准备好了吗?
“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,
所有领域都将开始这种进程。”——哈佛大学社会学教授加里·金
大数据会不会造成新的“数据鸿沟”?
大数据体现出三大特征
回顾历史,30年前我国大学里还没有一个计算机系,而30年后的现在每个像样的大学都有计算机系;现在大学里还没有任何一个数据科学系,而30年以后所有学校都会有。
我认为,大家所说的大数据并非横空出世的海量数据,大数据有很多因素支撑着它。主要体现在以下几个方面: 一是超大数量,数量之大超越常规管理和处理;二是超高增速,过去2年的数据超过以往所有历史数据;三是成长中的大数据分析产业。比如,一家以大数据分析为口号的IT 搜索引擎公司Splunk 2012年4月19日在Nasdaq 首日上市IPO 即上涨109%,翻了一倍多,与2011年5月LinkedIn 创造的网络公司IPO 业绩最高记录持平。 另外,大数据还体现出新的特征,也就是“三V 特征”:Volume (数量)、Variety (多样化)、Velocity (增速)。 具体来说,数量方面,据估计,目前世界数据总量已经达到zettabytes (1021 bytes)的数量级, 大企业的数据量已经达到petabytes (1015 bytes )数量级。多样化表现在两个方面,一是世界上已有数据的80%是非结构化的,二是数据间的互相作用使得其关联性更加复杂。增速方面,以2010年为例,每分钟35小时录象上传Youtube 、每月60亿张照片上传Facebook 、每天2亿Tweets 上传Twitter 、每天3000亿件电子邮件发送 。由此可见,大数据发展的前景是一种新的“知识基础设施”正在形成,一个大数据的新时代正在
到来,其对商业、政府、民主和文化的影响将是巨大的。
大数据背后的核心是人,那就是数据科学家。数据科学家应具备三大核心技能,一是具备数学知识为数据集构模,二是具备工程技能建成数据模型分析系统,三是发现见解,从数据中讲出故事来。目前,数据人才面临的最大问题是数据人才的挑战。2011年6月麦肯锡报告称,到2018美国将短缺14万~19万具有高级技能的数据分析家,还需增加150万能提出正确问题和利用分析结果的管理者和分析师。 对于大数据会不会造成新的鸿沟的问题?我的观点是肯定的,我认为,能不能利用大数据将造成新的“数据鸿沟”、大数据利用能力将成为这种差距的放大器。
两大关键词解读美国大数据计划 2012年3月29日美国政府发布大数据研发倡议(Big Data R&D Initiative ),涉及政府六大部门。如何解读美国大数据国家战略,我认为要从两个关键词进行解读。美国政府大数据研发倡议为什么值得关注?如果说,以往大数据还只是ICT 领域的重大发展趋势的话,那么这个倡议的出场,赋予大数据以国家战略的重要意义。不仅是以往我们认识到的经济、技术、城市发展和产业意义,还可能影响国家的军事战略,我们单位的研究小组跟踪大数据有一两年,对大数据的快速增长还没有足够的预料。
我自己是从两个关键词来看这个大数据研发倡议的国家战略意义的。
一是“initiative ”(通常译为“倡
缪其浩 上海科学技术情报研究所研究员
议”),查了维基百科,“倡议”确是其本意,即政府提出一个想法,比如对宪法提出一个修正案,接下去要全民公决(referendum ,当然真正通过十分困难),但是在有些情况下initiative 就是一个政府计划,最近常常听到的有“开放政府倡议”(在这类情况下可能应该译为“计划”)。我记得当年里根政府的星球大战计划,原文就是Strategic Defense Initiatives ,那可是个庞然大物。所以说initiative 可大可小。这次的大数据研发倡议直接的资金不多,才2亿美元,但是涉及6大联邦部门,而中间两个与国防有关:国防部和国防高级研究计划局,所以不可忽视。当然目前不必过度反应,当年曾经有“星球大战计划引诱苏联政府投入巨大资源开展军备竞赛,以致促使其加速解体”一说,尽管可能是无稽之谈(苏联垮台的根本原因在于内部),但是当时无论苏联还是中国确实将这个探索性的计划看得过重确是事实。但是这个大数据计划可能造就一场军事战略的革命,作为一个大国肯定是忽略不得,更是输不起的。
其二是“deal ”。奥巴马宣布这个计划的当天,白宫网站发表美国科技政策办公室负责政策的副主任Tom Kalil 的文章,标题为“big data is a big deal ”,这个deal 当然是交易、买卖的意思,但是如果要翻译的话我建议译为“大数据是个大政”。“大政”这个说法是不是重了点?我的依据是,当年罗斯福的“新政”,原文就是“New Deal ”。他们经常喜欢用些貌似“低俗”的说法来称呼重大的事情,在美国这就是政治。