大数据(Big Data)科学问题研究

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

973计划信息领域战略调研材料之三

大数据（Big Data）科学问题研究

李国杰

1、前言

1.1 什么是大数据？

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合（维基百科定义）

用传统算法和数据库系统可以处理的海量数据不算“大数据”。

大数据= “海量数据”+“复杂类型的数据”

大数据的特性包括4个“V”: Volume，Variety，Velocity，Value

●数据量大：目前一般认为PB级以上数据看成是大数据；

●种类多：包括文档、视频、图片、音频、数据库数据等；

●速度快：数据生产速度很快，要求数据处理和I/O速度很快；

●价值大：对国民经济和社会发展有重大影响。

1.2目前大数据的规模

工业革命以后，以文字为载体的信息量大约每十年翻一番；1970年以后，信息量大约每三年就翻一番；如今，全球信息总量每两年就可以翻一番。2011年全球被创建和被复制的数据总量为1.8ZB (1021),其中 75%来自于个人。IDC认为，到下一个十年（2020年），全球所有IT部门拥有服务器的总量将会比现在多出10倍，所管理的数据将会比现在多出50倍。根据麦肯锡全球研究院（MGI）预测，到2020年，全球数据使用量预计将暴增44倍，达到35ZB（1ZB=1021Byte）。医疗卫生、地理信息、电子商务、影视娱乐、科学研究等行业，每天也都在创造着大量的数据。数据采集成本的下降推动了数据量的剧增，新的数据源和数据采集技术的出现大大增加了数据的类型，数据

类型的增加导致数据空间维度增加，极大地增加了大数据的复杂度。

1.3大数据公司的现状：

●Google 公司通过大规模集群和MapReduce 软件，每个月处理

的数据量超过400PB。

●百度的数据量：数百PB，每天大约要处理几十PB数据，大多

要实时处理，如微博、团购、秒杀。

●Facebook：注册用户超过8.5亿，每月上传10亿照片，每天生

成300TB日志数据

●淘宝网：有3.7亿会员，在线商品8.8亿，每天交易数千万，

产生约20TB数据。

●Yahoo!的数据量：Hadoop云计算平台有34个集群，超过3万

台机器，总存储容量超过100PB。

1.4 网络大数据的特点

（1）多源异构：描述同一主题的数据由不同的用户、不同的网站产生。网络数据有多种不同的呈现形式，如音视频、图片、文本等，导致网络数据格式上的异构性。

（2）交互性：不同于测量和传感获取的大规模科学数据，微博等社交网络兴起导至大量网络数据具有很强的交互性。

（3）时效性：在网络平台上，每时每刻都有大量新的网络数据发布，网络信息内容不断变化，导致了信息传播的时序相关性。（4）社会性：网络上用户根据自己的需要和喜好发布、回复或转发信息，因而网络数据成了对社会状态的直接反映。

（5）突发性：有些信息在传播过程中会在短时间内引起大量新的网络数据与信息的产生，并使相关的网络用户形成网络群体，体现出网络大数据以及网络群体的突发特性。

（6）高噪声：网络数据来自于众多不同的网络用户，具有很高的噪声。

2、国家重大战略需求

数据已成为与自然资源、人力资源一样重要的战略资源，隐含巨大的价值，已引起科技界和和企业界的高度重视。如果我们能够有效地组织和使用大数据，人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用，孕育着前所未有的机遇。O'Reilly公司断言：“数据是下一个‘Intel Inside’，未来属于将数据转换成产品的公司和人们。”

过去几十年，我们一直大力发展信息科学技术和产业，但主要的工作是电子化和数字化。现在，数据为王的大数据时代已经到来，战略需求正在发生重大转变：关注的重点落在数据（信息）上，计算机行业要转变为真正的信息行业，从追求计算速度转变为大数据处理能力，软件也从编程为主转变为以数据为中心。

实验发现、理论预测和计算机模拟是目前广泛采用三大科研范式。现在，数据密集型研究已成为科研的第四范式。不论是基因组学、蛋白组学研究，天体物理研究还是脑科学研究都是以数据为中心的研究。用电子显微镜重建大脑中所有的突触网络，1mm3大脑的图像数据就超过1PB。取之不尽的实验数据是科学新发现的源泉。

大数据分析技术不仅是促进基础科学发展的强大杠杆，也是许多行业技术进步和企业发展的推动力。大数据的真正意义并不在于大带宽和大存储，而在于对容量大且种类繁多的数据进行分析并从中萃取大价值。采用大数据处理方法，生物制药、新材料研制生产的流程会发生革命性的变化，可以通过数据处理能力极高的计算机并行处理，同时进行大批量的仿真比较和筛选，大大提高科研和生产效率。数据已成为矿物和化学元素一样的原始材料，未来可能形成“数据探矿”、“数据化学”等新学科和新工艺模式。大数据处理的兴起也将改变云计算的发展方向，云计算正在进入以AaaS(分析即服务)为主要标志的Cloud 2.0时代。

现有的数据中心技术很难满足大数据的需求，需要考虑对整个IT 架构进行革命性的重构。存储能力的增长远远赶不上数据的增长，设计最合理的分层存储架构已成为信息系统的关键，数据的移动已成为

信息系统最大的开销。信息系统需要从数据围着处理器转改变为处理能力围着数据转，将计算用于数据，而不是将数据用于计算。大数据也导致高可扩展性成为信息系统最本质的需求，并发执行（同时执行的线程）的规模要从现在的千万量级提高10亿级以上。

近十年来增长最快的是网络上传播的各种非结构化或半结构化的数据。网络数据的背后是相互联系的各种人群。网络大数据的处理能力直接关系到国家的信息空间安全和社会稳定。未来国家层面的竞争力将部分体现为一国拥有数据的规模、活性以及解释、运用数据的能力。国家的数字主权体现在对数据的占有和控制。数字主权将是继边防、海防、空防之后，另一个大国博弈的空间。从心理学、经济学、信息科学等不同学科领域共同探讨网络数据的产生、扩散、涌现的基本规律，是建立安全和谐的网络环境的重大战略需求，是促使国家长治久安的大事。

3、国内外研究动向与基础

3.1 科研“第四范式”

60年前, 数字计算机使得信息可读；20年前，Internet使得信息可获得；10年前，搜索引擎爬虫将互联网变成一个数据库；现在，Google 及类似公司处理海量语料库如同一个人类社会实验室。数据量的指数级增长不但改变了人们的生活方式、企业的运营模式，而且改变了科研范式。

2007年，已故的图灵奖得主吉姆•格雷（Jim Gray）在他最后一次演讲中描绘了数据密集型科研“第四范式”（the fourth paradigm）的愿景。2008年9月《Nature》杂志出版了一期专刊—“Big Data”，2011年2月，《Science》期刊联合其姊妹刊推出了一期关于数据处理的专刊—“Dealing with data”，从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面介绍了海量数据所带来的技术挑战。