大数据学科发展现状与趋势调研报告

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

0

大数据学科发展现状与趋势调研报


1

目录
1 大数据学科发展现状与趋势 ................................................................................................... 1
1.1 大数据学科发展现状 ............................................................................................... 1
1.2 大数据学科发展趋势 ............................................................................................... 2
2 大数据热点问题与技术发展趋势 ........................................................................................... 4
2.1 大数据热点问题 ....................................................................................................... 4
2.2 大数据技术发展趋势 ............................................................................................... 5
3 中国大数据发展战略与建议 ................................................................................................... 9
3.1 大数据基础研究的发展战略与建议 ....................................................................... 9
3.2 大数据产业的发展战略与建议 ............................................................................. 13
1

1 大数据学科发展现状与趋势
1.1 大数据学科发展现状
 大数据研究还处于积累数据、分析现象为主的前科学阶段
不少学者认为,目前的“大数据”主要表现为“研究对象”,是一种需要探
索的“现象”。随着采集数据成本的大幅度降低,各行各业都涌现大量非结构化
的数据,正在探索存储、处理、分析大数据的新方法,尚未形成反映大数据共性
规律的科学理论。观察现象,积累科学数据,从现象中发现规律,是形成物理、
化学等科学理论走过的路。牛顿力学就是建立在大量天文学观察的基础上。研究
人类社会活动规律的社会科学、以复杂网络为研究对象的网络科学等还处在牛顿
力学诞生前的积累数据、分析现象阶段。
现有的大数据理论与模型高度依赖于其他学科,如统计分析、机器学习、分
布式系统等,还没有建立起独立于其他学科的理论体系与研究方法论。但大数据
基础研究可能不是传统科学的复制和延续,大数据有别于传统数据处理的本质是
数据之间的相互关联,相互关联的数据跨越了物理空间、信息空间和人类社会,
形成了三元空间交织融合的“数据界”(Data Nature)。数据界的存在仅仅一个
现象还是在现象之下的隐藏着一套全新的“数据科学”理论与“数据哲学”理论,
目前尚不清晰。
大数据研究将促使科研第四范式逐渐形成,但第四范式的建立也是一个过
程,需要发展与已有的三种范式不同的科研方法。科研范式的改变和大数据共性
规律的发现可能会交织在一起。估计还需要一段时间的努力大数据才能形成独立
的学科。
 大数据的科学研究与产业应用脱节
当前经济形势下,纯粹依靠物质资源发展经济的老路已难以为继,而数据是
贯彻国家“创新驱动发展”战略的最重要资源。过去几年来,以“BAT”为代表
的大型互联网企业已具有与国际大公司竞争的经济实力和技术基础,他们依托自
身拥有的巨量数据和现实的应用需求,已经发展出一些初步满足各自底层次需求
的大数据解决方案,但在新技术引领未来的竞争优势方面存在诸多不足。我国在
2

部署大数据科技创新布局时,要抓住当前难得的机会与条件,继续将大数据研究
重点放到“网络大数据”方向,真正实现科学研究促进产业的跨越式发展。
另一方面,大数据研究在推进农业生产、工业制造和科学研究等方面尚未出
现大规模聚集效应,直接从数据中产生知识的方法论尚未形成体系。所谓“第四
范式”还有待研究界从基础问题体系和方法论层面进行提炼和挖掘。由于缺乏真
正的大数据,不了解大数据应用的真实需求,科技界对大数据应用发挥的作用还
不明显。在大数据基础研究中,科学研究和应用的脱节还表现在信息领域的科技
人员与应用领域的科技人员开展深度合作十分困难,而没有这两类科技人员的深
度合作,大数据基础研究很难取得突破性进展。
因此,国家在部署大数据基础研究时,一定要特别强调和重视信息领域和其
他应用领域科研人员的密切合作,从制度上为跨领域的合作创造条件。同时要加
大跨学科人才培养力度,安排充足的经费用于跨学科人才培养。
 大数据基础研究的问题体系尚不清晰
从2012年以来,科技部、国家自然科学基金委等部门通过973计划、重点
课题资助计划等陆续支持了若干大数据基础研究类项目,聚集了一批来自于国内
高校、科研院所以及企业前瞻研究部门的优秀人才与团队,开展了与大数据处理
相关的基础研究。总体上来看,已有科研项目团队对大数据科学问题的定义,大
数据研究的角度、粒度、深度等方面存在着较大差异,有些问题在概念层面就非
常模糊。研究界尚未形成一个相对清晰的大数据基础研究问题体系。为提高科研
效率,促进科学交流,形成真实的创新成果,在一定程度上需要顶层规划和科学
引导。

1.2 大数据学科发展趋势
尽管针对大数据的科学研究工作还存在上面阐述的各种问题,但以从数据中
提取信息和知识进而辅助决策为目标的数据科学逐渐得到认可和关注。在CCF
大数据专家委员会于2012年12月发布的《大数据热点问题与2013年发展趋势
分析》报告和2013年12月发布的《2014年大数据发展趋势预测》报告中都预
测数据科学将作为一门新的交叉学科逐步兴起。甚至,类似波色子的发现,数学、
生物、物理、化学、材料等领域将在一定程度上依赖数据科学才能取得突破性进
3

展。但上述报告同时还指出,数据科学作为一项新的科学,还有很多根本问题没
有解决,甚至很多问题还没有被提出。所以,数据科学真正的兴起并成为一个支
柱学科,还需要学术界更多的努力。作为对上述预测的一个印证,我们注意到,
国家自然科学基金委员会在2014年组织的未来五年的“十三五”规划中,特别
尝试设立了“数据与计算科学”这一专门面向大数据的学科方向,还具体定义该
方向是研究数据的感知、收集、传输、管理、分析与应用的交叉性学科,旨在揭
示数据的内在规律,探索数据计算理论,实现从数据到知识的转化,为大数据的
科学计算以及在重要应用领域的预测、决策与应用提供基础。该项规划还指出,
数据与计算科学主要包括两大内涵:一方面是数据内在规律,主要研究人--机--
物三元数据空间的内在规律、大数据关联与演变机理等;两一方面是数据计算理
论,研究大数据计算的基础理论、计算模式与新型体系架构等。
与大数据技术与应用走在了大数据研究前面的情形类似,尽管数据科学作为
一门学科尚未完全建立,但世界各地的科研院所与培训机构都在积极探索大数据
人才培养的课程与学位体系。许多大学(如美国的加州大学伯克利分校、哥伦比
亚大学和纽约大学;英国的伦敦大学院、帝国理工大学;荷兰的埃因霍温技术大
学;我国的清华大学、人民大学、北京航空航天大学、香港中文大学等)都设立
了大数据研究中心或研究所。许多大学和研究所已经设立了面向本科生和研究生
课程或学位来培养大数据专业人才,包括数据科学家和数据工程师。大数据作为
横跨信息科学、数学、社会科学、网络科学、系统科学、心理学、经济学等多个
学科的方向,运用到来自许多不同领域的理论、方法与技术,诸如信号处理、概
率模型、机器学习、统计学习、计算机编程、数据工程、模式识别、可视化、不
确定性推理、数据仓库与高性能计算等。因此,面向大数据的学科体系也将在很
大程度上以其他学科的理论与方法为其基础。
4

2 大数据热点问题与技术发展趋势
2.1 大数据热点问题
数据科学作为一门新兴的学科,目前尚未建立起完整的基础理论体系,数据
学科基础问题体系本身就是大数据领域的研究热点。大数据作为一门以数据及数
据处理技术为研究对象的科学,更侧重于具体应用,与常规的信息处理体系框架
类似,也存在着功能、性能、易用性、输入输出、系统安全等方面的问题。
 大数据科学问题
“科学”的定义是“反映自然、社会、思维等的客观规律的分科的知识体系”,
大数据作为一门新兴的科学,其学科基础问题体系尚不明朗,数据科学自身的知
识体系还不完备,还有待于学科理论基础的进一步突破。大数据所带来的数据复
杂性、计算复杂性和系统复杂性的挑战,将会引领学科基础知识体系的逐步完善
和发展。
 大数据分析的性能问题
以Hadoop为代表的分布式计算框架本身就是为了解决面向大数据的计算性
能和可靠性问题而出现的,在这个方向上仍然需要进一步的研究。传统的
Hadoop/MapReduce框架在执行离线批处理任务时会有较好的表现,但在诸如实
时流处理、交互式计算等方面却不尽人意。如何提升分布式计算平台的性能是大
数据领域的研究热点,目前也出现了一些积极的研究成果。
 大数据分析的功能问题
当前大数据分析的典型应用还体现在如何将传统数据处理平台的功能在更
大、更复杂的数据集合上实现,如检索、查询统计、通用数据挖掘算法等。如何
充分挖掘蕴藏在数据中的价值,实现基于传统数据处理平台无法突破的新功能,
还需要各领域研究人员进一步的探索。这方面的一个典型例子是:大数据分析应
用方面的领先企业谷歌、IBM等依靠基于大数据的深度学习,在人工智能方面已
经取得了突破性的进展。
 大数据平台的易用性问题

相关文档
最新文档