大数据时代索引与数据库技术的发展与创新55.pptx
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
单位:ZB
在 2011年12月,我国工信部发布了物联网 “十二五”规划, 提出了4项关键技术创新工程。信息处理技术的内容包括海量
数据存储、数据挖掘、图像视频智能分析等,都是大数据技 术的重要组成部分;另外3项关键技术创新工程,包括信息感
知技术、信息传输技术、信息安全技术,这些也都与“大数 据”密切相关。我国也对大数据技术给予了足够的重视。
最后,信息社会的快速建立,信息成为越来越重要的经济资 源,也是大数据时代到来的重要原因。
在信息时代,数据已经成为社会资源的重要组成部分,基于 数据的处理、分析、挖掘等服务都被信息服务机构广泛应用 和开展,信息的经济价值越来越大,人们对数据的重视程度 越来越高,由此也产生了大量的数据。
◦ (3)大数据时代的到来,必定会对索引和数据库事业也 产生重大影响。
IBM公司认为,可以用3个特征相结合来定义大数据:数量 (Volume)、种类(Variety)和速度(Velocity),即庞大 容量、极快速度和种类丰富的数据。
IDC公司认为,“大数据不是一个事物,而是一个跨多个信息
技术领域的现象。大数据技术描述了新一代的技术和架构, 通过使用高速(Velocity)的采集、发现或分析方法,从超大 容量(Volume)的多样(Variety)数据中经济地提取价值 (Value)。”
本文将论述大数据为索引和数据库带来的机遇和挑战,探讨 大数据时代索引和数据库事业的发展与创新,以引起业界学 者对相关问题的关注与探讨。
3.1 索引事业的发展现状
◦ 按照钱亚新教授的说法,“将一种书报或一套书报中讨论 所及的人名、物名、事名、地名、时名或篇名等分析而组 合,用一定的方法排列它们的次序,并表明它们在书报中 所在的地位的表,叫作索引。换言之,索引是一种检查指 定范围内的书报所有特项知识的工具。”
根据IDC《数字世界》研究项目在2012年的 统计,2010年全球数字资源的规模首次突破 了ZB(1ZB=1万亿GB)级别,达到了 1.227ZB;而2005年只有130Eb,五年增长 了10倍。如果保持这种爆炸式的增长速度, 到了2020年,我们的数字资源规模将超过 40ZB,相当于世界上每个人拥有超过 5200GB的数据。无疑,我们已进入了大数 据时代。
非结构化的数据是指没有固定结构,通常无法直接知道其内 容,保存为不同类型文件的数据,如各种图像、视频文件。
◦ 根据目前大数据的发展状况,未来数据增长的绝大部分将 是半结构化或非结构化的数据。
2.2 大数据时代已经到来
◦ (1)大数据时代已经到来
理论的提出:2008年,《Nature》杂志出版一期专刊,专门 讨论未来的大数据(Big Data)处理相关的一系列技术问题 和挑战。
大数据时代索引与数据库 事业的发展与创新
引言 大数据时代 索引与数据库的发展现状
大数据时代索引与数据库事业面临的挑战及创新
结语
◦ “大数据”(Big Data)已经在全球引起了广泛关注,正 在引领了又一轮数据技术的革命。
美国EMC公司于2011年5月在美国拉斯维加斯举办第11届 EMC World大会,大会的核心是帮助企业利用IT变革的重要 趋势。此次大会以“云计算相遇大数据(Cloud Meets Big Data)”为主题,着重展现当今两个最重要的技术趋势,正 式提出了“大数据”概念。
◦ 基于以上概述,我们认为,大数据时代已经到来,已经对
我们的社会产生了重大影响。本文将尝试对大数据时代我 国的索引和数据库事业的发展与创新进行研究和展望。
2.1 大数据的定义和特征
◦ 许多权威机构和企业对大数据给予了不同的定义。
麦肯锡认为,“大数据所涉及的数据集规模已经超过了传统 数据库软件获取、存储、管理和分析的能力。”
现实的节点:2007年是人类创造的信息量有史以来第一次在 理论上超过可用存储空间总量的一年。
Fra Baidu bibliotek
◦ (2)大数据时代到来的原因
首先,信息技术和计算机网络技术的发展,为大数据时代的 到来奠定了坚实的技术基础。
各种技术的发展,使得数据的来源、类型、数量变得越来越 多,由此产生出了的数目庞大且不断急剧增长的非结构化数 据、半结构化数据,整个社会发展进入到了大数据时代。
(3)速度快(Velocity)。除了收集数据的数量和种类发生
变化,需要处理和生成数据的速度也在变化。数据流动的速 度在加快,要有效的处理大数据,需要在数据变化的过程中 实时的对其进行分析,而不是滞后的进行处理。
(4)价值量(Value)。在信息时代,信息具有很重要的商
业价值。但是,信息具有生命周期,数据的价值会随时间快 速减少。另外,大数据的数量庞大,种类繁多,变化也快, 数据的价值密度很低。如何从大量多样的数据中尽快的分析 出有价值的信息非常重要。对海量的数据进行挖掘和分析, 这也是大数据技术的难点。
◦ 综合以上几种不同的见解,我们认为,具备以下特征的就 是大数据。
(1)数量大(Volume)。大数据所包含的数据量很大,而 且在急剧增长之中。但是,在可供使用的数据数量不断增长 的同时,可处理、理解和分析的数据比例却在不断下降。
(2)种类多(Variety)。随着技术的发展,数据源不断增
多,数据的类型也不断增加。不仅包含传统的关系型数据, 还包含来自网页、互联网、搜索引擎、论坛、电子邮件、传 感器数据等原始的、半结构化和非结构化数据。
(5)真实性(Veracity)。这是一个衍生特征。真实有效的 数据才具有意义。随着新数据源的增加,信息量的爆炸式增 长,我们很难对数据的真实性和安全性进行控制,因此需要 对大数据进行有效的信息治理。
◦ 大数据在结构类型上也有其特点:大多数的大数据都是半 结构化或非结构化的。
半结构化的数据是指具有一定的结构性并可被解析或者通过 使用工具可以使之格式化的数据,如包含不一致的数据和格 式的员工薪酬数据。
其次,大量智能终端的广泛应用与网络应用的不断增长,为 大数据时代的到来奠定了坚实的物质基础。
通过互联网和社交网络、数码相机等工具,每个人的日常生 活正在被数字化,人们可以随时方便的根据自己的需要,产 生大量的非结构化数据、半结构化数据。特别是智能手机和 笔记本电脑的普及,是当前数据量爆炸增长的一个重要原因。
在 2011年12月,我国工信部发布了物联网 “十二五”规划, 提出了4项关键技术创新工程。信息处理技术的内容包括海量
数据存储、数据挖掘、图像视频智能分析等,都是大数据技 术的重要组成部分;另外3项关键技术创新工程,包括信息感
知技术、信息传输技术、信息安全技术,这些也都与“大数 据”密切相关。我国也对大数据技术给予了足够的重视。
最后,信息社会的快速建立,信息成为越来越重要的经济资 源,也是大数据时代到来的重要原因。
在信息时代,数据已经成为社会资源的重要组成部分,基于 数据的处理、分析、挖掘等服务都被信息服务机构广泛应用 和开展,信息的经济价值越来越大,人们对数据的重视程度 越来越高,由此也产生了大量的数据。
◦ (3)大数据时代的到来,必定会对索引和数据库事业也 产生重大影响。
IBM公司认为,可以用3个特征相结合来定义大数据:数量 (Volume)、种类(Variety)和速度(Velocity),即庞大 容量、极快速度和种类丰富的数据。
IDC公司认为,“大数据不是一个事物,而是一个跨多个信息
技术领域的现象。大数据技术描述了新一代的技术和架构, 通过使用高速(Velocity)的采集、发现或分析方法,从超大 容量(Volume)的多样(Variety)数据中经济地提取价值 (Value)。”
本文将论述大数据为索引和数据库带来的机遇和挑战,探讨 大数据时代索引和数据库事业的发展与创新,以引起业界学 者对相关问题的关注与探讨。
3.1 索引事业的发展现状
◦ 按照钱亚新教授的说法,“将一种书报或一套书报中讨论 所及的人名、物名、事名、地名、时名或篇名等分析而组 合,用一定的方法排列它们的次序,并表明它们在书报中 所在的地位的表,叫作索引。换言之,索引是一种检查指 定范围内的书报所有特项知识的工具。”
根据IDC《数字世界》研究项目在2012年的 统计,2010年全球数字资源的规模首次突破 了ZB(1ZB=1万亿GB)级别,达到了 1.227ZB;而2005年只有130Eb,五年增长 了10倍。如果保持这种爆炸式的增长速度, 到了2020年,我们的数字资源规模将超过 40ZB,相当于世界上每个人拥有超过 5200GB的数据。无疑,我们已进入了大数 据时代。
非结构化的数据是指没有固定结构,通常无法直接知道其内 容,保存为不同类型文件的数据,如各种图像、视频文件。
◦ 根据目前大数据的发展状况,未来数据增长的绝大部分将 是半结构化或非结构化的数据。
2.2 大数据时代已经到来
◦ (1)大数据时代已经到来
理论的提出:2008年,《Nature》杂志出版一期专刊,专门 讨论未来的大数据(Big Data)处理相关的一系列技术问题 和挑战。
大数据时代索引与数据库 事业的发展与创新
引言 大数据时代 索引与数据库的发展现状
大数据时代索引与数据库事业面临的挑战及创新
结语
◦ “大数据”(Big Data)已经在全球引起了广泛关注,正 在引领了又一轮数据技术的革命。
美国EMC公司于2011年5月在美国拉斯维加斯举办第11届 EMC World大会,大会的核心是帮助企业利用IT变革的重要 趋势。此次大会以“云计算相遇大数据(Cloud Meets Big Data)”为主题,着重展现当今两个最重要的技术趋势,正 式提出了“大数据”概念。
◦ 基于以上概述,我们认为,大数据时代已经到来,已经对
我们的社会产生了重大影响。本文将尝试对大数据时代我 国的索引和数据库事业的发展与创新进行研究和展望。
2.1 大数据的定义和特征
◦ 许多权威机构和企业对大数据给予了不同的定义。
麦肯锡认为,“大数据所涉及的数据集规模已经超过了传统 数据库软件获取、存储、管理和分析的能力。”
现实的节点:2007年是人类创造的信息量有史以来第一次在 理论上超过可用存储空间总量的一年。
Fra Baidu bibliotek
◦ (2)大数据时代到来的原因
首先,信息技术和计算机网络技术的发展,为大数据时代的 到来奠定了坚实的技术基础。
各种技术的发展,使得数据的来源、类型、数量变得越来越 多,由此产生出了的数目庞大且不断急剧增长的非结构化数 据、半结构化数据,整个社会发展进入到了大数据时代。
(3)速度快(Velocity)。除了收集数据的数量和种类发生
变化,需要处理和生成数据的速度也在变化。数据流动的速 度在加快,要有效的处理大数据,需要在数据变化的过程中 实时的对其进行分析,而不是滞后的进行处理。
(4)价值量(Value)。在信息时代,信息具有很重要的商
业价值。但是,信息具有生命周期,数据的价值会随时间快 速减少。另外,大数据的数量庞大,种类繁多,变化也快, 数据的价值密度很低。如何从大量多样的数据中尽快的分析 出有价值的信息非常重要。对海量的数据进行挖掘和分析, 这也是大数据技术的难点。
◦ 综合以上几种不同的见解,我们认为,具备以下特征的就 是大数据。
(1)数量大(Volume)。大数据所包含的数据量很大,而 且在急剧增长之中。但是,在可供使用的数据数量不断增长 的同时,可处理、理解和分析的数据比例却在不断下降。
(2)种类多(Variety)。随着技术的发展,数据源不断增
多,数据的类型也不断增加。不仅包含传统的关系型数据, 还包含来自网页、互联网、搜索引擎、论坛、电子邮件、传 感器数据等原始的、半结构化和非结构化数据。
(5)真实性(Veracity)。这是一个衍生特征。真实有效的 数据才具有意义。随着新数据源的增加,信息量的爆炸式增 长,我们很难对数据的真实性和安全性进行控制,因此需要 对大数据进行有效的信息治理。
◦ 大数据在结构类型上也有其特点:大多数的大数据都是半 结构化或非结构化的。
半结构化的数据是指具有一定的结构性并可被解析或者通过 使用工具可以使之格式化的数据,如包含不一致的数据和格 式的员工薪酬数据。
其次,大量智能终端的广泛应用与网络应用的不断增长,为 大数据时代的到来奠定了坚实的物质基础。
通过互联网和社交网络、数码相机等工具,每个人的日常生 活正在被数字化,人们可以随时方便的根据自己的需要,产 生大量的非结构化数据、半结构化数据。特别是智能手机和 笔记本电脑的普及,是当前数据量爆炸增长的一个重要原因。