探析大数据时代的数据库的创新与发展

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

探析大数据时代的数据库的创新与发展

摘 要:大数据时代的到来,使得传统的数据库在进

行百TB 以上处理尤其是PB 级数据的统计、查询和分析等应 用上存在限制,大数据量的应用需要不断的创新和发展,并 从中获得良好的用户体验。在当前互联网的冲击下,世界数 据库在格局上也发生了革命性变化,由原来的通用数据库

(OldSQL )为主体转变为 NewSQL 、OldSQL 与NoSQL 来共同

支撑起多种类应用。大数据已经成为信息化一个崭新的发展

的数据库创新和发展进行探究和分析。

关键词:大数据 数据库 系统 创新 发展

1 引言 随着社会的迅猛发展,信息化的逐步推进,所产生的海

量数据也开始逐渐走入人们的视线之中,并引起了全球广泛 关注。而“大数据”也引领了新一轮的数据技术革命。

在 2011 年 5 月份美国 EMC 公司就在拉斯维加斯举办了

核心理念为帮助企业更高效利用 IT 变革EMC World 大会,并

Data )”这一主题,从此“大数据”概念被正式抛出。

据2012年IDC 在《数字世界》研究项目统计,全球的数

将引 阶段,并将 发更多大量应用创新。本文主要对大数据时代

且大会还着重强调“云计算与大数据相遇( Cloud Meets Big

字资源于2010 年首次突破了ZB 级别,与之形成对比的是05

年的130Eb,在这短短的5年时间里增长了10倍。如果持续

这种爆炸式的增长速度,在2020 年,其规模将超过40ZB,

也就是世界上每个人都将有着超过5200GB 的数据,大数据时代已经开始融入我们生活之中。

我国的工信部也于2011 年1 2月发布物联网的“十二五”

规划,并将关键技术创新工程放入其中。其中就包括海量数据存储、数据挖掘以及图像视频智能分析等,这些是大数据技术的重要组成成分。并且当前信息传输技术、信息安全技术、信息感知技术都离不开“大数据” ,为此,我国也对大数据技术也在进行不断的创新和发展。

2大数据时代

2.1大数据的定义针对大数据,一些权威机构和企业也都给予了自己的

解和定义,其中数据集规模远远超过传统的数据库软件获取、

存储及管理、分析能力,这是麦肯锡的观点。IBM 公司根据

3个特,即数量、种类和速度,来进一步定义大数据,其认为大数据是一个跨多个信息技术领域的活动,而不是一个事物,大数据技术主要是对新一代的技术和架构进行描述,被利用高速的发现、采集或分析,来进一步从超大容量的多样数据中进行经济价值的提取。

2.2大数据特征

大数据的特征主要表现在以下这样几个方面:庞大的数量。由于大数据涵盖数据量极大,并呈现持续

增长状态。相对可供使用的数据量虽然也在增长,但是在处理、分析和数据的理解能力中所占的比例却不断下降。

种类繁多。伴随着技术的进步,数据源的增加,数据类

型也呈现多样化。不仅包括传统的关系型数据,还有一些来自网页、搜索索引、电子邮件、论坛、互联网、传感器数据等原始的、半结构化或是非结构化数据。

速度快。因为数据收集的种类和数量都发生改变,所以

其生成和数据处理速度也发生了很大的改变。数据流动的速度不断加快,可以实现大数据的有效处理,并能够针对数据变化过程进行实时的分析和处理。

具有商业价值。在如今信息化时代,信息往往都具有极

强的商业价值,同时还具有一定的生命周期,这些数据价值会伴随着时间的迁移而降低。此外,数据量庞大,种类繁多,价值密度也就极低,这也就为快速分析海量数据并得出有价值数据产生了挑战,对数据进行挖掘和分析,成为数据分析的一大难点。

数据真实性。这也是一个衍生的特征。信息量的爆炸式

增长,使得对数据真实性和安全性控制成为重点和难点,因此要对大数据进行有效的信息治理。

3 大数据时代的数据库在索引和创新方面所面对的重大

挑战

更新理念,大数据作为一种全新的发展模式,其索引和

数据库在观念上也在不断地发展变化,来顺应社会的需要。

并且注入商业思维,更为充分的利用大数据来获取经济价值。

数据其价值生命周期短暂,并且数据产生飞速,而对这

些数据中所隐含的商机进行及时的发现并付诸以行动,制定有针对性的策略才可以获取价值。

可集成性分析,如果将分析集成到与数据所要面临的大

背景下,对信息分析速度进行加快,使得分析结果能够真正实现可操作化。

对大数据要采用新型的方法来处理,将规模较小的数据

集分析为大规模数据集,这样可以对数据源所产生的数据规模进行有效控制。

4大数据时代数据库的创新与发展

4.1 云计算基于网络计算、分布式处理与并行处理所发展起来的,

这是一种新兴的共享式的基础架构方法。它实现了自我维护和对庞大的虚拟计算资源(包括存储服务器、宽带资源和计算服务器等)进行管理功能,并且具备高可靠性、按需付费、跨越了地域、快速部署能力。从另一个角度分析,云数据库是数据库技术未来的发展趋势。

4.2虚拟化

虚拟化是由计算虚拟化、网络虚拟化和存储虚拟化来共

同组成,该技术可以将多台虚拟计算机运行于一台主机之中,很多用户都可以共享这一台高性能设备,在整个过程中大大节约了使用成本,并为云计算打好了坚实的技术基础。

4.3存储数据

利用新的数据存储技术和工具可以满足大数据的需要。

当前一些新型的大数据存储系统可以实现大容量、高可用性、高性能、高成本、大容量、高度自治、访问接口多样化这样几个特点,所以,大数据存储的主流架构都是以优秀具有可扩展能力的分布式来进行存储。

4.4数据分析对数据进行处理,当前有这样两大主流。一种是以

Map Reduce为首的分布式NoSQL方向,另一种为MPP数据库,也就是大规模并行数据库为首的并列关系数据库方向。

为了是大数据分析更为准确,还需要创建敏捷的计算平台,全方位的实现用户体验,根据聚类分析等高级分析理论和方法,使得数据的可视化技术更为方便易用。

参考文献:

[1]张华强;;关系型数据库与NoSQL数据库[J];电脑知

相关文档
最新文档