大数据发展现状与未来发展趋势研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据发展现状与未来发展趋势研究
朱孔村
(江苏省科学技术情报研究所,江苏南京210042)
【摘要】数据是信息化时代的“新石油”资源,如何利用好这种“新石油”资源需要大数据技术的支持。文章介绍了大数据技术及其发展历程,概括了当前国内外大数据的发展现状并展望了大数据技术和产业方面的未来发展趋势。
【关键词】大数据;现状;趋势
【中图分类号】TP391【文献标识码】A【文章编号】1008-1151(2019)01-0115-04 Research on the Current Situation and Future Development Trend of Big Data Abstract: Data is the “new petroleum” resource of the information age and how to make good use of this “new petroleum” resource needs the support of big data technology. This paper first introduces the big data technology and its development process and summarizes the current development of big data at home and abroad. Finally, the future development trend of big data technology and industry is prospected.
Key words: big data; current situation; trend
1 大数据技术概述
1.1大数据技术
随着物联网、云计算、移动互联网等技术的成熟,以及智能移动终端的普及,全社会的数据量呈指数型增长,全球已经进入以数据为核心的大数据时代。大数据并不是一个新的概念,信息技术发展的每一个阶段都会遇到数据处理的问题,人类需要不停的面对来自数据的挑战。为满足商业结构化数据存储的需求而产生了关系型数据库,为满足互联网时代非结构化数据存储需求而产生了NoSQL技术,而大数据技术的产生是为了解决大型数据集分析的问题。
大数据技术目前还没有一个确切的定义,各行各业有着自己的见解,但总体而言,其关键在于从数量庞大、种类繁多的数据中提取出有用的信息。维基百科从数据处理的角度将大数据定义为一个超大的、难以用现有常规的数据库管理技术和工具处理的数据集。国际数据公司(IDC)给出的报告指出,大数据技术描述了一种新一代技术和构架,以很经济的方式、以高速的捕获、发现和分析技术,从各种超大规模的数据中提取价值[1]。
少量的数据看似杂乱无章,但是当数据累积到一定程度时,就会呈现出一种规律和秩序。大数据的价值就在于数据分析,利用大数据分析技术,从海量数据中总结经验、发现规律、预测趋势,最终为辅助决策服务。《大数据时代》的作者克托·迈尔-舍恩伯格认为:“大数据开启了一次重大的时代转型”,他指出大数据将带来巨大的变革,改变人们的生活、工作和思维方式,改变人们的商业模式,影响人们的经济、政治、科技和社会等各个层面。
1.2大数据发展历程
1.2.1萌芽阶段
20世纪90年代,“大数据”这个术语开始出现。1998年SGI首席科学家John Masey在USENIX大会上提出大数据的概念,他当时发表了一篇名为Big Data and the Next Wave of Infrastress的论文,使用了大数据来描述数据爆炸的现象。但是那时的大数据只表示“大量的数据或数据集”这样的字面含义,还没有涵盖到相关的采集、存储、分析挖掘、应用等技术方法与特征内涵
1.2.2发展阶段
从20世纪末到21世纪初期是大数据的发展期,在这一阶段中大数据逐渐为学术界的研究者所关注,相关的定义、内涵、特性也得到了进一步的丰富。2003至2006年,Google 发布的GFS、MapReduce和BigTable三篇论文对大数据的发展起到重要作用。2006至2009年,大数据技术形成并行运算与分布式系统。2009年,Jeff Dean在BigTable基础上开发了Spanner数据库。随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术如数据仓库、专家系统、知识管理系统等开始被应用。
1.2.3成熟阶段
2011年至今,是大数据发展的成熟阶段,越来越多的研究者对大数据的认识从技术概念丰富到了信息资产与思维变革等多个维度,一些国家、社会组织、企业开始将大数据上升为
总第21卷233期大众科技Vol.21 No.1 2019年1月Popular Science & Technology January 2019
【收稿日期】2018-11-06
【作者简介】朱孔村(1985-),男,山东临沂人,江苏省科学技术情报研究所实习研究员,从事电子政务相关工作。
- 115 -
重要战略。学术界及企业界纷纷开始将大数据研究由学术领域向应用领域扩展,大数据技术开始向商业、科技、医疗、政府、教育、经济、交通、物流及社会的各个领域渗透。
2 国内外大数据发展现状
当前,许多国家都认识到了大数据的重要作用,纷纷将开发利用大数据作为争夺新一轮竞争制高点的重要举措,实施大数据战略,为大数据技术、产业的发展提供有利的条件。
2.1国外发展现状
当前,大数据所蕴含的战略价值已经引起多数发达国家政府重视,各国相继出台大数据战略规划和配套法规促进大数据应用与发展。在各国政府大数据战略部署和政策推动下,政府部门、企业、高校及研究机构都开始积极探索大数据应用,下面以美国、英国、日本3个国家为例具体说明。
美国政府将大数据视为强化美国竞争力的关键因素之一,2012年3月29日,美国发布《大数据研究与发展计划》,将大数据的研究和发展上升为国家战略层次。之后,12个联邦部门启动开展了82个大数据相关项目[2],涵盖了国防、国土安全、国家安全、能源、医疗卫生、食品药物、航空航天、人文社会科学、地质勘查等众多领域,美国希望借助大数据技术实现这些领域的技术突破。企业也借助于大数据政策的东风,强化对大数据的技术研发和创新应用。
2013年10月31日,英国发布《把握数据带来的机遇:英国数据能力战略》,战略旨在促进英国在数据挖掘和价值萃取中的世界领先地位。为实现上述目标,战略从强化数据分析技术、加强国家基础设施建设、推动研究与产研合作、确保数据被安全存取和共享等几个方面做出了部署,并做出11项明确的行动承诺,确保战略目标真正得以落实。
2013年6月,日本公布了新的IT战略——《创建最尖端IT国家宣言》,全面阐述了2013~2020年期间以发展开放公共数据和大数据为核心的日本新IT国家战略。日本政府推出了数据分类网站(data.go.jp),目的是提供不同政府部门和机构的数据供使用,向数据提供者和数据使用者开放数据。日本的企业如富士通、日立、NTT DATA等也在积极开发大数据业务。
2.2国内发展现状
我国政府、学术研究、产业界都高度重视大数据的研究和应用工作,纷纷制定相关发展计划。
在政府层面,2014年大数据首次写入政府工作报告,我国大数据产业进入蓬勃发展时期。2015年,《促进大数据发展行动纲要》发布,大数据上升为国家战略。2016年,国家大数据战略作为“十三五”十四大战略之一,首次被写进五年规划中,大数据创新应用向纵深发展。2017年,《大数据产业发展规划(2016-2020年)》正式发布,全面部署“十三五”时期大数据产业发展工作,推动大数据产业健康快速发展。
在学术研究方面,大数据研究机构、大数据学术组织纷纷成立,如中国计算机学会和中国通信学会都成立了大数据专家委员会,教育部在人民大学成立了“大数据分析和管理国际研究中心”,北京大数据研究院、电子科技大学和国家信息中心共建了大数据研究中心。大数据相关的学术活动也相继举行,如CCF大数据学术会议、中国大数据技术大会和中国国际大数据大会等。
在产业层面,由于各级政府和企业大力推进,目前我国的大数据产业处于高速发展阶段,技术创新取得明显突破,大数据应用推进势头良好,产业体系初具雏形,支撑能力日益增强;另外我国的数据资源量十分庞大,这些数据资源的积累也为大数据产业的发展提供了非常良好的机遇与环境。国内大数据产业发展格局已经形成了京津地区、长三角地区、珠三角地区、成渝地区四大聚集区域。北京、上海、广东是发展的核心地区,这些地区拥有知名互联网及技术企业、高端科技人才、国家强有力政策支撑等良好的信息技术产业发展基础,形成了比较完整的产业业态,且产业规模仍在不断扩大。以贵州、重庆为中心的大数据产业圈,虽然地处经济比较落后的西南地区,但是贵州、重庆等地依托政府对其大数据产业发展提供的政策引导,积极引进大数据相关企业及核心人才,实现了大数据产业在当地的快速发展。
3 大数据发展趋势
3.1关键技术发展趋势
3.1.1数据采集技术
数据采集是大数据挖掘和分析的基础,有效的数据采集方案对大数据挖掘研究具有重要意义。目前,不同领域有不同的数据采集方法与采集工具,如Facebook的Scribe、Apache Hadoop的chukwa、LinkedIn的Kafka、Cloudera的Flume等常用于互联网领域的日志采集,网络爬虫和网站公开API等方式常用于互联网领域的网络数据采集的,埋点技术等则应用于企业app产品数据采集;企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。
大数据采集大致可以分为软采和硬采,未来软采的发展趋势是建立统一的数据采集框架,通过在待采集数据的系统中预留接口,直接和大数据平台的采集接口对接。这个统一的数据采集框架能够适应多种多样的数据源,并且能适应大数据数据量大、更新快的特点,自动对采集的数据进行一些预处理,删除重复数据,可靠快速地完成数据采集。硬采方面,未来将出现更多的低功耗智能传感器,可以达到人力无法到达的层面获取数据。另外未来可以建立数据集市和开放数据平台,通过数据分享方便大数据平台的数据采集。
3.1.2数据存储技术
大数据存储就是用存储器把采集到的数据存储起来,建立相应的数据库,便于后续的管理和调用。随着结构化数据和非结构化数据量的持续增长,以及大数据的大量、多样性、低密度等特点,大数据对存储设备的容量、读写性能、可靠性、系统可扩展性等提出了更高的要求,此前存储系统的设计已经无法满足大数据应用的需要。目前大数据存储主要应用于分布式文件系统、NoSQL数据库技术、NewSQL数据库技术实现。
- 116 -