大数据学科发展现状与趋势调研报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据学科发展现状与趋势调研报
告
目录
1 大数据学科发展现状与趋势 (1)
1.1 大数据学科发展现状 (1)
1.2 大数据学科发展趋势 (2)
2大数据热点问题与技术发展趋势 (4)
2.1 大数据热点问题 (4)
2.2 大数据技术发展趋势 (5)
3中国大数据发展战略与建议 (9)
3.1 大数据基础研究的发展战略与建议 (9)
3.2 大数据产业的发展战略与建议 (13)
1大数据学科发展现状与趋势
1.1大数据学科发展现状
大数据研究还处于积累数据、分析现象为主的前科学阶段
不少学者认为,目前的“大数据”主要表现为“研究对象”,是一种需要探索的“现象”。随着采集数据成本的大幅度降低,各行各业都涌现大量非结构化的数据,正在探索存储、处理、分析大数据的新方法,尚未形成反映大数据共性规律的科学理论。观察现象,积累科学数据,从现象中发现规律,是形成物理、化学等科学理论走过的路。牛顿力学就是建立在大量天文学观察的基础上。研究人类社会活动规律的社会科学、以复杂网络为研究对象的网络科学等还处在牛顿力学诞生前的积累数据、分析现象阶段。
现有的大数据理论与模型高度依赖于其他学科,如统计分析、机器学习、分布式系统等,还没有建立起独立于其他学科的理论体系与研究方法论。但大数据基础研究可能不是传统科学的复制和延续,大数据有别于传统数据处理的本质是数据之间的相互关联,相互关联的数据跨越了物理空间、信息空间和人类社会,形成了三元空间交织融合的“数据界”(Data Nature)。数据界的存在仅仅一个现象还是在现象之下的隐藏着一套全新的“数据科学”理论与“数据哲学”理论,目前尚不清晰。
大数据研究将促使科研第四范式逐渐形成,但第四范式的建立也是一个过程,需要发展与已有的三种范式不同的科研方法。科研范式的改变和大数据共性规律的发现可能会交织在一起。估计还需要一段时间的努力大数据才能形成独立的学科。
大数据的科学研究与产业应用脱节
当前经济形势下,纯粹依靠物质资源发展经济的老路已难以为继,而数据是贯彻国家“创新驱动发展”战略的最重要资源。过去几年来,以“BAT”为代表的大型互联网企业已具有与国际大公司竞争的经济实力和技术基础,他们依托自身拥有的巨量数据和现实的应用需求,已经发展出一些初步满足各自底层次需求的大数据解决方案,但在新技术引领未来的竞争优势方面存在诸多不足。我国在
部署大数据科技创新布局时,要抓住当前难得的机会与条件,继续将大数据研究重点放到“网络大数据”方向,真正实现科学研究促进产业的跨越式发展。
另一方面,大数据研究在推进农业生产、工业制造和科学研究等方面尚未出现大规模聚集效应,直接从数据中产生知识的方法论尚未形成体系。所谓“第四范式”还有待研究界从基础问题体系和方法论层面进行提炼和挖掘。由于缺乏真正的大数据,不了解大数据应用的真实需求,科技界对大数据应用发挥的作用还不明显。在大数据基础研究中,科学研究和应用的脱节还表现在信息领域的科技人员与应用领域的科技人员开展深度合作十分困难,而没有这两类科技人员的深度合作,大数据基础研究很难取得突破性进展。
因此,国家在部署大数据基础研究时,一定要特别强调和重视信息领域和其他应用领域科研人员的密切合作,从制度上为跨领域的合作创造条件。同时要加大跨学科人才培养力度,安排充足的经费用于跨学科人才培养。
大数据基础研究的问题体系尚不清晰
从2012年以来,科技部、国家自然科学基金委等部门通过973计划、重点课题资助计划等陆续支持了若干大数据基础研究类项目,聚集了一批来自于国内高校、科研院所以及企业前瞻研究部门的优秀人才与团队,开展了与大数据处理相关的基础研究。总体上来看,已有科研项目团队对大数据科学问题的定义,大数据研究的角度、粒度、深度等方面存在着较大差异,有些问题在概念层面就非常模糊。研究界尚未形成一个相对清晰的大数据基础研究问题体系。为提高科研效率,促进科学交流,形成真实的创新成果,在一定程度上需要顶层规划和科学引导。
1.2大数据学科发展趋势
尽管针对大数据的科学研究工作还存在上面阐述的各种问题,但以从数据中提取信息和知识进而辅助决策为目标的数据科学逐渐得到认可和关注。在CCF 大数据专家委员会于2012年12月发布的《大数据热点问题与2013年发展趋势分析》报告和2013年12月发布的《2014年大数据发展趋势预测》报告中都预测数据科学将作为一门新的交叉学科逐步兴起。甚至,类似波色子的发现,数学、生物、物理、化学、材料等领域将在一定程度上依赖数据科学才能取得突破性进
展。但上述报告同时还指出,数据科学作为一项新的科学,还有很多根本问题没有解决,甚至很多问题还没有被提出。所以,数据科学真正的兴起并成为一个支柱学科,还需要学术界更多的努力。作为对上述预测的一个印证,我们注意到,国家自然科学基金委员会在2014年组织的未来五年的“十三五”规划中,特别尝试设立了“数据与计算科学”这一专门面向大数据的学科方向,还具体定义该方向是研究数据的感知、收集、传输、管理、分析与应用的交叉性学科,旨在揭示数据的内在规律,探索数据计算理论,实现从数据到知识的转化,为大数据的科学计算以及在重要应用领域的预测、决策与应用提供基础。该项规划还指出,数据与计算科学主要包括两大内涵:一方面是数据内在规律,主要研究人--机--物三元数据空间的内在规律、大数据关联与演变机理等;两一方面是数据计算理论,研究大数据计算的基础理论、计算模式与新型体系架构等。
与大数据技术与应用走在了大数据研究前面的情形类似,尽管数据科学作为一门学科尚未完全建立,但世界各地的科研院所与培训机构都在积极探索大数据人才培养的课程与学位体系。许多大学(如美国的加州大学伯克利分校、哥伦比亚大学和纽约大学;英国的伦敦大学院、帝国理工大学;荷兰的埃因霍温技术大学;我国的清华大学、人民大学、北京航空航天大学、香港中文大学等)都设立了大数据研究中心或研究所。许多大学和研究所已经设立了面向本科生和研究生课程或学位来培养大数据专业人才,包括数据科学家和数据工程师。大数据作为横跨信息科学、数学、社会科学、网络科学、系统科学、心理学、经济学等多个学科的方向,运用到来自许多不同领域的理论、方法与技术,诸如信号处理、概率模型、机器学习、统计学习、计算机编程、数据工程、模式识别、可视化、不确定性推理、数据仓库与高性能计算等。因此,面向大数据的学科体系也将在很大程度上以其他学科的理论与方法为其基础。