信息存储与检索基础概要

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第一节 信息存储与检索原理
一、社会发展与信息需求 社会信息需求是信息存储与检 索理论赖以产生和发展的基础,了 解当前社会信息需求的特点对于推 动现代信息存储与检索理论和技术 的发展是十分有利的。
1. 从学术研究到社会生活全方位信息需求
近10年来,“信息热潮”影响着社会各界,逐步 改变着人们传统的生产、经营、竞争和消费方式。 为了提高生活质量,人们需要学术研究方面的信 息资源,也需要检索医药、旅游、休闲、政策法 规、商品营销、文化沙龙、美食天地、访亲交友 等方面的信息资源。
第2章 信息存储与检索基础
2.1信息存储与检索原理 2.2信息存取发展与类型 2.3索引的结构与类型
• 通过本章的学习,要掌握:
– – – – – – 信息存储与检索的基本概念、原理 信息存储基本形式及发展(P31-40,自学) 信息检索模型 信息存储与检索系统的发展历程(补充) 信息存储与检索的基本类型 索引的概念及其类型划分
矢量模型
• 矢量模型通过分派非二值权重给查询和文档中 的索引项来实现检索目标。 • 这些权重用于计算系统中的每个文档与用户的 查询请求的相似程度,矢量模型通过对文档按 照相似程度降序排列的方式,来实现文档与查 询项的部分匹配。 • 这样做的结果,使得结果中的文档排列顺序比 通过布尔模型得到的结果要合理得多。
3.数据库标准与建设研究
-----数据库是信息资源存储与共享的主要方式,也 是信息检索系统重要的组成部分。 ----研究内容包括数据库系统的标准与法令、书目 数据库、全文数据库、超文本数据库、图像数据 库与多媒体数据库信息组织模型、关键技术及其 维护与更新等问题。
-----与此时同,还要关注支持快速查询与并列处理 的并行数据库、智能数据库、模糊数据库和以网 络为基础的WEB数据库、虚拟数据库的研究与 开发、数据挖掘和数据仓库的研究动态等。
• 在该模型中,与(ki,dj)相关联的权重wi,j是一 个非二值数。 • 文档dj的矢量可以表示为Wj=(w1,j,w2,j, w3,j………wt,j), • 查询中的索引项也是有权重的,设wi,q是与(ki, q)相关联的权重,且wi,q≥0, • 则查询矢量Q被定义成Q=(w1,q,w2,q, w3,q…………wt,q),其中,t是系统中所有索引 项的数目,
检索过程
Docs
Index Terms
doc
match
Information Need Ranking
query
信息存储与信息检索关系图
信息存储 信 息 资 源 M 主题 分析 系 统 标 形 转换成 识 式 概 索引标识 语 言 念 信息检索 检 形 转换成 式 课题 索 提 概 系统标识 念 分析 问 M
2. 从文字资料到声音与活动画面的信息需求
虽然以纸质载体为主的书刊资料仍然是信息资源的主 要保存与交流方式,但是近10年来,随着超文本技术、 全文本数据库技术、多媒体信息网络技术和电子出版 技术的进步,人们越来越乐于按受能同时被耳朵、眼 睛等感官接受的多媒体资源。
3. 从完备信息趋向对即时信息的需求
------现代信息用户对信息的需求绝大多数表现为 对某一主题、某种知识、某一事件、某些事物、 某方面状况的信息需求,而不管其来自何种形态 的信息载体、以何种形式表现、来自何处、采用 何种文字描述等特征。 -------这样用户对自动化信息检索途径与检索工具 的易用性要求也愈来愈高,希望获得信息的渠道 更多、查询操作更加简单、计算机界面更加友好 等。
• 布尔模型的缺点也是明显的。
– 首先:它的检索策略是基于二值决策准则, 即一个文档只被判断成相关的或不相关的, 无任何等级变化; – 其次:当用布尔表达式表示精确语义的时候, 很难将信息表达为一个布尔表达式。 – 尽管如此,布尔模型目前仍然是商业文档数 据库的主流模型,并为一些新的领域提供了 一个好的起点。
• 矢量模型通过Wj和Q的相关度来评价文档dj和 查询q的相关度。这种关系可以用定量表示, 一般使用两个矢量之间的夹角余弦值来计算。
sim(dj , q)
w
i 1 t i 1
t
i, j
wi , q
2 w i, q i 1 t
2 w i, j
• 矢量模型的优点:
– 索引项的加权改善了检索的性能,其部分匹 配的策略允许所检索的文档与查询条件相近 似, – 其余弦排序公式按照文档与查询的相似程度 对文档进行排序。
6.检索策略研究
-----检索策略是在分析检索提问的基础上,确定检 索途径与检索用词,明确各检索词间关系与查找 步骤的科学安排。 ----检索策略研究包括用户需求分析、检索式构造、 检索工具与检索途径的选择、检索策略的调节与 控制等内容。
五、信息存取模型
• 1.信息存取模型概念(P40)
– 也叫检索模型,是用于描述信息(文档)表 示、用户查询及其相互关系(主要指相关性 和度量)的框架形式,是存取系统中用于实 施查询的相关性的度量模式。
IT技术的发展,使得用户面临着全球范围的通 信空间、信息查询空间和信息发布空间。 在这种环境下,用户占有丰富无比与十分完备的 信息资源相对比较容易,而信息的及时性和准确 性难以保证,因此信息用户的需求正日益从完备 充分向及时精确的信息资源转变。
4. 从注重信息载体物理性质到注重信息 本身
------传统信息用户通常对某一形态的信息载体提出特定 信息需求,如某一图书、某一刊物、某篇文章等,这 些信息需求通常由文献信息机构给以满足。
文献检索:联合国教科文组织(UNESCO) 在《文献与情报工作词典》中对狭义的文献 检索的定义是“文献检索就是一个从文献集 合中查找出专门文献的活动、方法与程序”, 其中文献集合指按一定顺序排列组织起来的 存储记录,如各类数据库、索引、目录与文 摘系统等。
情报检索:狭义的理解是从众多情报中查找出 包括有情报提问中所指定特征或含有用户所需 事实与情报的过程。
补充资料
• 信息检索模型定义:是将文档表示、查 询以及它们之间的关系进行建模的框架, 由三元体组成。 F{D,Q,R(qi,dj)}
D Q 文档集中一组文档逻辑视图 一组用户信息需求的逻辑视图
R(qi,dj) 排序函数,该函数输出一个与查询
qi和文档表示dj相关的实数
信息检索模型→分类
信息检索模型ห้องสมุดไป่ตู้
6. 从传统的手工信息检索到Internet引 擎查检
------广大用户将从利用传统的文本式、卡片式、 缩微胶片式检索工具转达向利用国际互联网及各 种联机数据库引擎查询; -----从一般手检方式转向计算机网络检索。 -----传统的文献机构也将突破原来的收集、整理、 保存与传递文献信息的模式,逐渐步入网络化、 电子化和数字虚拟化的时代。
信息检索的相关学科
信息检索是一门交叉学科,其相关学科涉及到信 息管理科学、计算机科学、数学、系统论和语言 学等多个学科领域。
四、信息检索研究(补充)
信息检索是一门发展中的学科,目 前国内外正从不同的角度展开全面 的研究:
1.信息检索理论与技术研究
----目前,关于信息检索的理论与技术研究呈现多元 化趋势,涉及内容十分广泛。 ----如关于信息检索概念研究、信息检索原理研究、 全文检索系统研究、多媒体检索、CD-ROM存储与 检索、超文本检索、图像检索的理论与技术等研究 均已取得十分瞩目的成果。
2.信息存取系统研究
-----信息存取系统是信息检索赖以实现的基础。 -----包括信息检索系统模型、系统建设与开发利用 中的信息组织技术、建库原理与技术、自然语言 接口技术、用户界面、存取系统的功能及其评价、 维护与更新、新一代的具有中国特色的信息检索 软件的研制、智能信息存取系统的研究与实验等。
4.信息存取的语言处理
-----研究内容包括各类索引语言的兼容与事例、汉 语自动标引、汉字字符串的自动识别与切分、汉 字分类排序、自然语言处理、跨语言网络信息检 索和不同索引语言的转换等问题。
5.现代信息检索工具比较研究
------现代信息检索工具是伴随着计算机网络技术、 光盘存储技术和光纤通信技术的发展而诞生的。 -----其研究包括信息检索工具的类型、原理、性能、 检索效率以及WEB网络的目录型检索工具、数 据库式检索工具、超文本式浏览工具和诸如查询 图像、声音、地图等专门信息资源检索工具的原 理、特性、结构、检索效率等比较研究,并于功 能强大的、多语种兼容性搜索引擎的开发应用等。
二、 信息存储与检索原理
1.信息存储与检索的概念(P28)
信息存储与检索(Information Storage and Retrieval)是信息检索的全称形式或广义的信 息检索,它既包括采用多种形式记录信息、排 序信息的信息存储过程,也包括通过一定的设 备、采用一定的手段与技巧从信息系统中快速、 准确地搜寻所需信息的方法与过程。
信息检索:伴随着社会信息化程度的提 高及信息资源爆炸性增长与信息高速公 路的实现而出现的,反映传统的情报检 索已从专业化走向社会信息化,已由专 门开展的情报服务走向公众的信息服务 事业。
知识检索:是随着知识经济的发展而逐 渐趋于成熟的学术概念。知识表示的是 通过大脑思维重新组合与系统化的信息。
4. 信息检索的类型:
检索模型 内容模型 结构模型
浏览模型
布尔 矢量 概率 模型 模型 模型
非重叠 邻近节 链表模型 点模型
平坦 结构导 超文本 模型 向模型 模型
传统信息检索模型→布尔模型
• 布尔模型是基于集合理论和布尔代数的 一种简单检索模型。 • 布尔模型为普通用户提供了一个容易掌 握的框架。 • 在模型中,查询被描述为具有精确语义 的布尔表达式,其特点简单而整齐,为 现代许多商业系统所用。
情报的概念:发展中的概念。 ----我国最早的定义(1939年10月版辞海): “战时关于敌情之报告,日情报。”反映了 两个基本条件,情与报,即情况、消息的报 导与交流。有情不报或报而无情,都不能构 成情报。
----现在人们较多的是从知识、信息及情报的 社会功能的角度来认识情报的概念,并认为 只是编辑出版、提供文献、索引,已不能满 足社会需要,强调情报服务的针对性、有用 性。
布尔检索模型
简单实例 • q = 病毒 AND (计算机 OR 电脑)AND NOT医 • •d1: …据报道,计算机病毒近日猖獗… • •d2: …小王虽然是学医的,但对研究电脑病毒也很 感兴趣,最近发明了一种… • •d3: …计算机程序发现了爱滋病病毒的传播途径… • 哪些文档会被检索出来?
-----目前国内外学者应在对分布式信息存取、概率 模型、模糊检索、向量检索和概念检索理论与技 术进行研究的基础上,关注对智能信息存取系统 的研究,对大型的、高效的、分布式的文本与多 媒体数据库存储与知识发现原理与技术的研究, 对多种语言交叉存取的研究,对以人为中心的诸 如用户界面设计、文本与多媒体检索的可视化和 数据挖掘等问题以及基于图像外观的索引技术研 究。
通常包括4种类型,
一是关于文献的检索; 二是关于某事实或事项的知识检索; 三是关于数值或数据的情报检索; 四是关于图象信息的信息检索。
三、 信息检索相关学科
作为一门学科的信息检索
现代信息检索是以计算机科学与技术、网络技术、 光盘技术、通信技术等现代信息技术在信息存储 与检索中的应用为基础,全面探讨适应现代信息 处理的信息描述、信息存储、信息检索和信息提 供之理论、技术与方法的应用性学科。
5. 从馆藏需求到国际互联网络共享
-----传统观念上的信息用户大多习惯于对信息服 务机构(图书馆、情报部门、档案馆)的馆藏资 源或者一定范围内的信息资源提出查阅或查询要 求。 -----现代信息技术的发展,使得人的活动空间更大, 需求更加广泛和社会化。许多政府部门、企业和 个人也陆续连通了Internet。
信息集合M
ABC D…M检索 系统 答复 M
2. 信息存储与检索的基本原理
查询语言(检索提问)和系统标识语言 所进行的“相符性比较”与“匹配运 算”。
(1)过程的详细说明:P28 (2)相符性比较:P29 (3)匹配运算:
3.信息存储与检索的发展:
走过了文献检索、情报检索的过程, 正向知识检索的领域迈进。
相关文档
最新文档