大数据时代索引与数据库事业的发展与创新

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
RCCSE 中国科学评价研究中心
16
2 大数据时代
• 最后,信息社会的快速建立,信息成为越来越 重要的经济资源,也是大数据时代到来的重要 原因。 • 在信息时代,数据已经成为社会资源的重要组 成部分,基于数据的处理、分析、挖掘等服务 都被信息服务机构广泛应用和开展,信息的经 济价值越来越大,人们对数据的重视程度越来 越高,由此也产生了大量的数据。
17
RCCSE 中国科学评价研究中心
2 大数据时代
(3)大数据时代的到来,必定会对索引和数 据库事业也产生重大影响。
• 本文将论述大数据为索引和数据库带来的机遇 和挑战,探讨大数据时代索引和数据库事业的 发展与创新,以引起业界学者对相关问题的关 注与探讨。
RCCSE 中国科学评价研究中心
18
3 索引与数据库的发展现状
RCCSE 中国科学评价研究中心
21
3 索引与数据库的发展现状
• 在国际,SCI等三大索引在科技界形成了重大影 响,其他领域的索引应用也取得了广泛的成果。 • 在国内,各种类型的中文全文文献数据库纷纷 上网,为科研工作者提供了很好的帮助,传统 索引事业也稳步发展。网络信息检索工具是国 内外索引研究和应用的热点,影响越来越大。
9
2 大数据时代
• (2)种类多(Variety)。随着技术的发展, 数据源不断增多,数据的类型也不断增加。不 仅包含传统的关系型数据,还包含来自网页、 互联网、搜索引擎、论坛、电子邮件、传感器 数据等原始的、半结构化和非结构化数据。 • (3)速度快(Velocity)。除了收集数据的数 量和种类发生变化,需要处理和生成数据的速 度也在变化。数据流动的速度在加快,要有效 的处理大数据,需要在数据变化的过程中实时 的对其进行分析,而不是滞后的进行处理。
大数据时代索引与数据库 事业的发展与创新
大纲
引言
大数据时代
索引与数据库的发展现状
大数据时代索引与数据库事业面临的挑战及创新
结语
RCCSE 中国科学评价研究中心
2
1 引言
“大数据”(Big Data)已经在全球引起了广 泛关注,正在引领了又一轮数据技术的革命。
• 美国EMC公司于2011年5月在美国拉斯维加斯举 办第11届EMC World大会,大会的核心是帮助企 业利用IT变革的重要趋势。此次大会以“云计 算相遇大数据(Cloud Meets Big Data)”为 主题,着重展现当今两个最重要的技术趋势, 正式提出了“大数据”概念。
28
RCCSE 中国科学评价研究中心
3 索引与数据库的发展现状
至今,数据库的许多概念、应用领域,甚至某 些原理都有了重大的发展和变化,形成了数据
库领域众多的研究分支和课题,产生了一系列
新型数据库。如:分布式数据库、联合数据库、 大规模并行处理数据库等。 国外数据库的发展大致经历了四个阶段:
RCCSE 中国科学评价研究中心
3
1 引言
• 根据IDC《数字世界》研究项目在 2012年的统计,2010年全球数字资 源的规模首次突破了ZB(1ZB=1万 亿GB)级别,达到了1.227ZB;而 2005年只有130Eb,五年增长了10 倍。如果保持这种爆炸式的增长速 度,到了2020年,我们的数字资源 规模将超过40ZB,相当于世界上每 个人拥有超过5200GB的数据。无疑, 我们已进入了大数据时代。
11
RCCSE 中国科学评价研究中心
2 大数据时代
• (5)真实性(Veracity)。这是一个衍生特征。 真实有效的数据才具有意义。随着新数据源的 增加,信息量的爆炸式增长,我们很难对数据 的真实性和安全性进行控制,因此需要对大数 据进行有效的信息治理。
大数据在结构类型上也有其特点:大多数的大
3.1 索引事业的发展现状
按照钱亚新教授的说法,“将一种书报或一套 书报中讨论所及的人名、物名、事名、地名、 时名或篇名等分析而组合,用一定的方法排列
它们的次序,并表明它们在书报中所在的地位
的表,叫作索引。换言之,索引是一种检查指 定范围内的书报所有特项知识的工具。”
19
RCCSE 中国科学评价研究中心
数据都是半结构化或非结构化的。
RCCSE 中国科学评价研究中心
12
2 大数据时代
• 半结构化的数据是指具有一定的结构性并可被 解析或者通过使用工具可以使之格式化的数据, 如包含不一致的数据和格式的员工薪酬数据。 • 非结构化的数据是指没有固定结构,通常无法 直接知道其内容,保存为不同类型文件的数据, 如各种图像、视频文件。
5
RCCSE 中国科学评价研究中心
1 引言
基于以上概述,我们认为,大数据时代已经到 来,已经对我们的社会产生了重大影响。本文
将尝试对大数据时代我国的索引和数据库事业
的发展与创新进行研究和展望。
RCCSE 中国科学评价研究中心
6
2 大数据时代
2.1 大数据的定义和特征
许多权威机构和企业对大数据给予了不同的定 义。
25
RCCSE 中国科学评价研究中心
3 索引与数据库的发展现状
此外,自从改革开放到现在,我国的索引从业 人员数量一直在稳步增加,这一方面与国家重
视图书馆的建设有关,另一方面也是索引事业
发展的需要。
但是我们与国外相比,索引事业的从业人员仍
然数量偏少,素质有待提高。特别是在索引教 育方面,我们取得的成绩还不够,比如我们至 今没有一本公认的比较权威的索引学教材。
RCCSE 中国科学评价研究中心
14
2 大数据时代
(2)大数据时代到来的原因
• 首先,信息技术和计算机网络技术的发展,为 大数据时代的到来奠定了坚实的技术基础。
• 各种技术的发展,使得数据的来源、类型、数 量变得越来越多,由此产生出了的数目庞大且 不断急剧增长的非结构化数据、半结构化数据, 整个社会发展进入到了大数据时代。
29
RCCSE 中国科学评价研究中心
3 索引与数据库的发展现状
• 1970年以前为初步发展阶段; • 1970-1980年数据库数量迅速增加,开始进入联 机检索阶段; • 1980年至2010年数据库数量剧增,类型也发生 了巨大变化,而且开始全球化,是数据库的深 入发展阶段; • 2010年至今,数据的类型和数量均发生了重大 变化,数据库也必须随之发生改变,于是进入 了变革发展阶段。
RCCSE 中国科学评价研究中心
8
2 大数据时代
综合以上几种不同的见解,我们认为,具备以 下特征的就是大数据。
• (1)数量大(Volume)。大数据所包含的数据 量很大,而且在急剧增长之中。但是,在可供 使用的数据数量不断增长的同时,可处理、理 解和分析的数据比例却在不断下降。
RCCSE 中国科来自百度文库评价研究中心
RCCSE 中国科学评价研究中心
10
2 大数据时代
• (4)价值量(Value)。在信息时代,信息具 有很重要的商业价值。但是,信息具有生命周 期,数据的价值会随时间快速减少。另外,大 数据的数量庞大,种类繁多,变化也快,数据 的价值密度很低。如何从大量多样的数据中尽 快的分析出有价值的信息非常重要。对海量的 数据进行挖掘和分析,这也是大数据技术的难 点。
• 麦肯锡认为,“大数据所涉及的数据集规模已 经超过了传统数据库软件获取、存储、管理和 分析的能力。”
7
RCCSE 中国科学评价研究中心
2 大数据时代
• IBM公司认为,可以用3个特征相结合来定义大 数据:数量(Volume)、种类(Variety)和速 度(Velocity),即庞大容量、极快速度和种 类丰富的数据。 • IDC公司认为,“大数据不是一个事物,而是一 个跨多个信息技术领域的现象。大数据技术描 述了新一代的技术和架构,通过使用高速( Velocity)的采集、发现或分析方法,从超大 容量(Volume)的多样(Variety)数据中经济 地提取价值(Value)。”
RCCSE 中国科学评价研究中心
15
2 大数据时代
• 其次,大量智能终端的广泛应用与网络应用的 不断增长,为大数据时代的到来奠定了坚实的 物质基础。 • 通过互联网和社交网络、数码相机等工具,每 个人的日常生活正在被数字化,人们可以随时 方便的根据自己的需要,产生大量的非结构化 数据、半结构化数据。特别是智能手机和笔记 本电脑的普及,是当前数据量爆炸增长的一个 重要原因。
RCCSE 中国科学评价研究中心
23
3 索引与数据库的发展现状
• 第二,传统的索引理论的研究仍然占据重要地 位。国内外学者对传统索引理论的研究仍然非 常重视。相对而言,国外学者的理论研究更具 全面性和系统性。 • 第三,索引的应用研究将成为索引研究中的重 要内容,国外的应用研究相对国内更为广泛。 国外对索引的实践与应用的研究已经深入到了 引文分析、文献计量学、科学计量学、评价、 绩效评估、医学等多个具体领域。
RCCSE 中国科学评价研究中心
24
3 索引与数据库的发展现状
• 第四,与其他学科相结合开展研究可能成为未 来索引研究的发展趋势之一。在索引研究的过 程中注重与其他学科的结合,一方面可以引入 新的理论与方法,如社会学、本体、知识地图、 元数据等,为索引理论和方法的研究带来新的 视角;另一方面,索引的方法与研究成果也可 以应用于其他学科,为促进其他学科研究的发 展做出贡献。
RCCSE 中国科学评价研究中心
26
3 索引与数据库的发展现状
3.2 数据库事业的发展现状
数据库(Database)是按照数据结构来组织、 存储和管理数据的仓库。 相对于索引事业,数据库事业的发展更为迅猛。
目前,全世界大约有书目型数据库、参考型数
据库、参考文献数据库、全文型数据库等几十
种不同类型的数据库。各种数据库的具体数量
3 索引与数据库的发展现状
一般来说,索引的编制有手工和计算机编制两 种方式,随着科技和时代的发展,目前基本都 使用计算机编制索引的方式。
九十年代以来,随着当代数字化、网络化、智
能化技术的发展,索引研究对象也随之从传统 的印刷型扩大到了数字型,出现了索引数据库、 文摘数据库、全文数据库,以及网页索引、网 址索引、搜索引擎、学科导航等各种新兴工具,
RCCSE 中国科学评价研究中心
22
3 索引与数据库的发展现状
根据本中心的研究,目前国内外在索引领域的 研究表现出明显的差异性,但发展趋势基本一
致。
具体表现在以下四个方面:
• 第一,国内外对电子索引技术的研究日益成熟, 在国内正处于研究网络的中心,而在国外已逐 渐处于网络边缘。这与国内信息技术研究比国 外起步稍晚的原因是分不开的。
RCCSE 中国科学评价研究中心
4
单位:ZB
RCCSE 中国科学评价研究中心
1 引言
• 在 2011年12月,我国工信部发布了物联网 “十二五”规划,提出了4项关键技术创新工程。 信息处理技术的内容包括海量数据存储、数据 挖掘、图像视频智能分析等,都是大数据技术 的重要组成部分;另外3项关键技术创新工程, 包括信息感知技术、信息传输技术、信息安全 技术,这些也都与“大数据”密切相关。我国 也对大数据技术给予了足够的重视。
根据目前大数据的发展状况,未来数据增长的
绝大部分将是半结构化或非结构化的数据。
RCCSE 中国科学评价研究中心
13
2 大数据时代
2.2 大数据时代已经到来
(1)大数据时代已经到来
• 理论的提出:2008年,《Nature》杂志出版一 期专刊,专门讨论未来的大数据(Big Data) 处理相关的一系列技术问题和挑战。 • 现实的节点:2007年是人类创造的信息量有史 以来第一次在理论上超过可用存储空间总量的 一年。
更是难以估计。
RCCSE 中国科学评价研究中心
27
3 索引与数据库的发展现状
1980年以前,数据库技术的发展,主要体现在 数据库的模型设计上。
进入90年代后,计算机领域中其它新兴技术的
发展对数据库技术产生了重大影响。数据库技
术与网络通信技术、人工智能技术、多媒体技
术等相互渗透,相互结合,使数据库技术的新 内容层出不穷。
检索语言、标引方法和索引技术等领域都有了
新的突破。
RCCSE 中国科学评价研究中心
20
3 索引与数据库的发展现状
目前使用最多的索引产品是数据库索引,南京 政治学院上海分院信息管理系的张琪玉教授直
接提出了现代的索引就是数据库的判断。 目前国内外的索引事业随着计算机和网络技术
的发展也取得了很大的进展。
相关文档
最新文档