信息存储与检索重点
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
内容的揭示深度和检索入口,并直接影响
到用户查询的检索方式和检索途径。其功
能是用系统规定的规范化词语描述用户的
检索询问,包括对用户询问进行概念分析
和概念转换两个过程,也包括按照系统的
既定规则制定检索策略和构建检索式。该
子系统完成对数据库的查找过程,并与交
互子系统共同完成信息检索系统的检索功
能。
19
《信息存储与检索》
22
2.2.1 布尔模型
❖定义 对于布尔模型而言,标引词权值变量都是二 值的,即wi,j∈{0, 1},查询q是一个常规的布尔表达 式。用qdnf表示查询q的析取范式,qcc表示qdnf的任意 合取分量。文档dj和查询q的相似度可以定义为:
sim(d
j
,
q)
1
0
如果qcc (qcc qdnf ) (ki , gi (d j ) gi (qcc )) 其它
现 实 的
(2)表示机理
信 息
需 求
(3)比较机理
输出检索结果 图1-2 信息检索的一致性匹配作用机理
(4)判断机理 (5)选择机理
5
《信息存储与检索》
1.1.2 信息检索的原理
1、提取机理:从现实的信息和现实的需求 中提取出能够揭示特定信息和特定需求的语 法特征和语义特征。可以归纳为内容特征和 形式特征。
交 互 子 系 统 用户群
词语子系统 查 询 子 系 统
数据库
匹配子系统
图1-9 信息检索系统逻辑结构
标
采
引
选
子
子
系
系
统
统
信息源
16
《信息存储与检索》
1.2.4 信息检索系统的逻辑结构
1、采选子系统:是建立信息检索系统的和数 据库的逻辑起点、前提和基础,其功能是 从外部的各种信息源向系统进行输入操作。 输入要根据系统的既定方针和用户需求进 行,输入过程由信息的采集、鉴别和筛选 组成。采选方法有三种:人工采选、人机 结合采选和自动采选。
它们的逻辑结构大体上都是相同或相似的,
只有组成部分多与少的区别。如前所述,
信息检索系统的两大基本功能是存储和检
索,这两大基本功能可以分解为6个子系统
或功能模块,它们共同构成了信息检索系
统逻辑结构。这6个子系统是采选子系统、
词语子系统、标引子系统、查询子系统、
15
《信息存储与检索》
1.2.4 信息检索系统的逻辑结构
2、词语子系统:该子系统的功能主要是对采
用规范化词语的系统在标引和查询时所使
用的词语进行规范化的控制和处理。
17
《信息存储与检索》
1.2.4 信息检索系统的逻辑结构
3、标引子系统:该子系统决定着揭示数据库
记录内容的深度和检索入口,并直接影响
到信息检索系统的检索方式和检索途径。
其功能是使用系统规定的规范化词语对输
• 尽管布尔模型有着种种的优点, 但是它的缺点 仍然是明显的, 它存在的主要缺陷有以下几点:
(1)布尔逻辑式的构造不易全面反映用户的需
求。
25
2.2.2 向量模型
• 向量模型又叫向量空间模型(Vector Space Model,简称VSM)。由于使用二值权值(binary weight)的布尔检索存在太多的局限,信息检 索研究中便提出了一种框架以便能够进行部 分匹配,即通过给查询和文档中的标引词分 配非二值权值(non-binary weight)来实现这个 目标。该权值用于计算存储在系统中的文档 和用户查询之间的相似度,向量模型通过对 检出文档按相似度降序排列的方式来实现文 档与查询的部分匹配。
如相果关sim((dj,q)=1,则布尔模型表示文档与查询
也可能不相关),否则文档dj与查询q不相关。
23
2.2.1 布尔模型
• 例如检索式是“图书馆”and“档案馆”,基 于表2-1的内容进行检索,那么得到的结果是 文档2,假如检索条件是“图书馆”or“档案 馆”,则检索结果是文档1、文档2和文档3。
2、表示机理:用适当的符号表示信息和需 求的各种特征。
3、比较机理:在检索项类型相同的情况下, 对代表特定信息的特征符号与代表特定需求 的特征符号进行对比。
4、判断机理:在比较的基础上,对信息是 否符合需求以及符合6 的程度加以判断。《信息存储与检索》
1.1.2 信息检索的原理
信息检索的一致性匹配作用机理实质是简
1.2.4 信息检索系统的逻辑结构
5、匹配子系统:该子系统功能是对查询子系 统形成的检索式进行相应的加工、展开和 变换,按照系统规定的匹配模式、条件和 程序,与标引子系统最终形成的数据库记 录进行比对并决定取舍,最后向用户提交 检索结果。
6、交互子系统:它也称为用户/系统界面子
系统,其功能是保证系统和用户能够进行
浏览器
浏览器
Internet
Web
数
据
服 务 器
库 服 务 器
浏览器 图1-6 基于Internet的浏览器/服务器结构(B/S)
9
《信息存储与检索》
1.2.3 信息检索系统的物理结构
用户 用户 用户 用户 用户
搜索引擎 Web服务器
网 络
检
索
搜
索
引
索
器
器
器
索引库
页面库
图1-7 搜索引擎系统结构
Web站点
4
《信息存储与检索》
1.1.2 信息检索的原理
• 从由此可见,信息存储和信息检索的直接
图成检配了1索 作-2信的 用所息一 机示检致 理。
符号化表示
比较
符号化表示
包括5个机理:
判断
(1)提取机理
现 实 的
信息特征提取
选择
需求特征提取
21
2.2.1 布尔模型
• 设文本集D中某一文本i, 该文本可表示为:Di = ( t1, t2, ... , tm ) ,其中, t1, t2, ⋯, tm 为标引词, 用以反映i的内容。另设用户某一检索式如 下:qj = ( t1 and t2) or ( t3 not t4) 或者qj = ( t1 ∧ t2) ∨ ( t3 - t4)。对于该检索式, 系统响应并输 出的一组文本应为: 它们都含有标引词t1和t2, 或者含有标引词t3, 但不含有标引词t4。
或页面;后者通过一些计算机程序搜寻页
面,提取信息。索引器是用户检索的基础,
它负责分析搜集器所搜集到的信息,建立、
维护和更新索引数据库。检索器将用户的
11
《信息存储与检索》
1.2.3 信息检索系统的物理结构
用户 用户 用户
检索式处理
检 索 请 求 与 结 果
检 索 代 理 接 口
检索结果处理
图1-8 元搜索引擎系统结构
FTP站点
网
新闻组站点
络
Gopher站点
Web站点
10
《信息存储与检索》
1.2.3 信息检索系统的物理结构
搜索引擎的系统结构如上图所示。搜集器
负责发现、跟踪和搜集网上的各种信息资
源,在页面上按照某种策略对远程数据进
行自动搜索和获取。搜集方式通常采用人
工和自动相结合,前者由专门人员根据一
定的原则和标准,跟踪和选择有用的站点
检索策略,重新构造检索式,反复进行检
3
《信息存储与检索》
1.1.2 信息检索的原理
从图1-1中还可以看出,信息存储和信息检 索有两个交汇处:一个是直接的,即表达 信息主题内容的词语与表达需求主题内容 的词语之间进行对比的交汇;另一个是间 接的,即通过检索语言进行沟通,确保把 存储用词和检索用词都统一到同一个检索 语言体系中(对于自然语言检索系统来说, 不存在存储与检索的间接交汇处)。
③超文本浏览,检索结果是完全可以直接阅 读的Web页面,可以13 非线性地随时从一《信个息存储与检索》
1.2.3 信息检索系统的物理结构
④界面最友好,屏蔽了各个局域网之间的各
种物理差异(如硬件系统、软件平台、地
理位置、存储方式、通信协议等),极大
地提高了系统的透明度,用户使用通用的
图形窗口检索界面,即可访问和检索各种 异构系统的数据库,在通过Web浏览器访 问过程中,无需关心一些技术细节。
良好的沟通。一方面,要全面、准确的反
映用户的需求,形成明确的检索目标。另
一方面,要把与用户查询全部或部分匹配
20
《信息存储与检索》
2.2.1 布尔模型
• 布尔模型(Boolen Model)是基于集合理论和 布尔代数的一种简单的检索模型,它假定 标引词在文档中要么出现,要么不出现。 因此,标引词的权值全部被设为二值数据, wi,j∈{0, 1},查询q由连接词not、and、or连 接起来的多个标引词所组成,如“奥运 会”、“奥运会”and“中国”、“奥运 会”and(“中国”or(not“体操”))等, 通过对标引词与用户给出的检索式进行逻 辑比较来检索文本。
建立的人从各种各样的信息资源中,搜集
有用的信息,对有用信息进行主题内容分
析,找出能够全面、准确表达该信息主题
内容的概念,借助于检索语言把分析出来
的概念转换成检索系统所采用的词语,再
按照一定的规则和方式将这些有用信息组
织成可供检索用的数据库,并存储在一定
的介质上。 2
《信息存储与检索》
1.1.2 信息检索的原理
化现实的信息和现实的需求之间的匹配。
把内容与形式都非常复杂的信息简化成信
息特征的符号化表示,再把内容与形式都
非常复杂的需求也简化成需求特征的符号
化表示,将这两个非常简单的特征符号化
表示进行比较、判断和选择,从而变复杂
为简单,化模糊为清晰,大大提高了匹配
效率。当然,这种简化也会造成误检和漏
7
《信息存储与检索》
入的信息中具有检索价值的特征进行表示
和描述。标引包括对输入信息进行概念分
析和概念转换两个过程。标引作业可以是
人工标引、半自动标引和全自动标引。例
如搜索引擎会对信息中的所有词汇都进行
标引。经过对信息的组织,标引的最终成
18
《信息存储与检索》
1.2.4 信息检索系统的逻辑结构
4、查询子系统:该子系统决定着对用户查询
⑤ 操作最简便,良好的交互式作业、多种导
航和编辑功能、及时获得在线帮助和指导
以及符合大多数用户检索习惯的用户接口
使得检索简单易行,不必经过太多的培训
14
《信息存储与检索》
1.2.4 信息检索系统的逻辑结构
• 系统的逻辑结构主要是指该系统所包括的
子系统或功能模块及其相互之间的逻辑关
系。不管信息检索系统的物理结构如何,
单搜索引擎 单搜索引擎 单搜索引擎
12
《信息存储与检索》
1.2.3 信息检索系统的物理结构
网络检索系统的特点是:
①检索空间无限,检索范围覆盖了全球性、 开放性Internet所能延伸到的世界各地,用 户不必知道某种资源的具体地址。
②检索内容极其丰富,包括网上所有领域、 各种类型、各种媒体(文本、图像、声音、 视频、动画等)的信息资源,如Web、FTP、 Telnet、Usenet、Gopher等。
2、检索过程:用户首先对自己的需求进行
主题内容的分析,找出能够全面、准确表
达该需求主题内容的概念,也要借助于检
索语言把分析出来的概念转换成检索系统
所采用的词语,再按照一定的检索规则和
方式指定检索策略,构造检索式,从数据
库中查找并获得自己所需要的信息,最后
输出检索结果。检索的全过程还包括对检
索结果的评价、反馈、或许还要重新制定
1.1.2 信息检索的原理
信息检索的基本原理可以用下图表示 信息存储过程
信
信
信
信
词
息
息
息
息
语
资
搜
分
表
转
源
集
析
达
换
检
索 语
数据库
检索结果
言
信
信
需
需
词
息
息
求
求
语
用
需
分
表
转
户
求
析
达
换
信息检索过程 图1-1 广义信息检索的基本原理
1
《信息存储与检索》
1.1.2 信息检索的原理
在上图中包括两个过程:
1、存储过程:负责信息检索系统和数据库
24
2.2.1 布尔模型
• 布尔检索模型是最早提出的一个信息检索模 型,它具有简单、易理解、易实现等优点, 故 得到广泛的应用。1967年后, 布尔检索正式被 大型文档检索系统采用, 并渐成为各种商业性
联机检索系统的标准检索模式,服务信息情 报界30多年, 直到现在, 大多数商用检索系统 仍采用布尔检索。
26
2.2.2 向量模型
• 一个向量空间是由一组线性无关的基本向量 组成,向量维数与向量空间维数一致,并可 以通过向量空间进行描述。设文档集D中某一 文档i,该文档可表示为:Di = ( t1, t2, ... , tm ) , 其中, t1, t2, ⋯, tm 为标引词, 用以反映i的内容。 则相应的特征项tn能够代表文档Di能力的大小, 体现了特征项在文档中的重要程度,文档Di 的向量可以表示为Di (wi,1, wi,2, ... , wi,m),其中 wi,1, wi,2, ... , wi,m分别代表文档D 特征项t1, t2, ... , tm的特征项权重。相似度S指两个文档 内容相关程度的大小,当文档以向量来表示
1.2.3 信息检索系统的物理结构
(3)网络检索系统的物理结构
数据库
数据库
数据库
服务器
服务器
数据库
数据库
交 换
路 由
机
器
Internet
路 由 器
交 换 机
数据库
客
客
客
户
户
户
机
机
机
客
客
客
户
户
户
机
机
机
图1-5 基于Internet的客户机/服务器结构(C/S)
8
《信息存储与检索》
1.2.3 信息检索系统的物理结构