信息储存与检索考点归纳
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1. 信息检索的原理:
从下图可以看出,信息存储和信息检索有两个交汇处:一个是直接的,即表达信息主题内容的词语与表达需求主题内容的词语之间进行对比的交汇;另一个是间接的,即通过检索语言进行沟通,确保把存储用词和检索用词都统一到同一个检索语言体系中(对于自然语言检索系统来说,不存在存储与检索的间接交汇处)。
2.信息检索系统的物理结构一般包括硬件 软件 数据库3个部分。
信息检索系统的逻辑结构
3.信息检索的研究内容包括以下几个方面:(1)信息检索理论研究(2)信息检索方法研究
(3)信息检索技术研究(4)信息检索语言研究(5)信息检索系统研究
(6)信息检索服务研究(7)信息检索评价研究。
4. 任何检索策略都包括3 个部分:文档表示 查询表示 匹配函数。
5..信息检索模型到底是什么?其描述如下:
信息检索模型是一个四元组/D ,Q ,F ,R(qi, dj)/:
(1)D 是文档集中的一组文档逻辑视图(表示),称为文档的表示;
(2)Q 是一组用户信息需求的逻辑视图(表示),这种视图(表示)称之为查询;
信息检索过
图1-1 广义信息检索的基本
图1-9 信息检索系统逻辑结构
(3)F是一种机制,用于构建文档表示,查询及它们之间关系的模型;
(4)R(qi, dj)是排序函数,该函数输出一个与查询qi ∈Q和文档表示dj ∈D有关的实数,这样就在文档之间根据查询qi定义了一个顺序。
6经典模型: 布尔模型向量模型概率模型。
7对于布尔模型而言,标引词权值变量都是二值的,即wi,j∈{0, 1},查询q是一个常规的布尔表达式。用qdnf表示查询q的析取范式,qcc表示qdnf的任意合取分量。文档dj和查询q的相似度可以定义为:
地址是指该行所在展开表中的地址;
匹配成功时转向地址AFD,给出一旦在检索词与文献记录中标引词匹配成功时,下一步应该处理的提问检索词在提问表中的地址;
匹配不成功时转向NFD地址,给出一旦检索词与标引词匹配失败时应该转向展开表中的地址;
“层级值” 栏表示当前检索词在提问式中的层次级别;
.
8.布尔模型优缺点:优点:
一是实现起来比较容易,速度快,计算的代价相对较少;
二是查询语言表达简单,用户可以使用任意复杂的查询表达式,故得到广泛的应用.
缺点;1布尔逻辑式的构造不易全面反映用户的需求。
2匹配标准存在某些不合理的地方。
3检索结果不能按照用户定义的重要性排序输出。
9.( t1 and t2) or ( t3 not t4) 或者qj = ( t1 ∧t2) ∨( t3 t4)。
10.计算机信息检索的基本原理仍是“匹配运算”,但是却不同于手工检索的“匹配运算”方式。
计算机匹配过程中,需要将检索提问式转化成计算机可以识别的形式,并且要使用系统中特定的检索指令、检索词和检索策略,由计算机自动对数据库中各文档记录进行查找。当检索标示、检索策略与数据库中的信息标示关系一致时,即为命中,将结果输出给用户。11.逻辑提问式即为Q=A*B*C*D.
表展开法是将每个逻辑提问式转换成一个展开表, 如果有N个提问式就可做N个展开表。每个检索词对应表中的一行。其一般格式如下:
展开表的生成,根据算法描述的顺序方向划分为两大部分:前处理部分和后处理部分。
前处理部分,也叫正向扫描处理部分。按照逻辑提问式各项因子出现的先后顺序从左到右依次处理。
前处理算法描述:
后处理算法: 1. 从最后一行条件满足指向栏往上推,如果遇到空,则置入下面最临近的且级位小于该栏的条件满足指向栏的内容,或最后一行条件满足指向栏的内容 2. 从最后一行条件不满足指向栏往上推,如果遇到空,则置入下面最临近的且级位小于或等于该栏的条件不满足指向栏的内容,或最后一行条件不满足指向栏的内容 例:逻辑提问式(A+B)﹡(C+D)﹡E 的展开表形式
11.布尔检索 截词检索怎么实现的?
布尔检索就是利用布尔代数中的逻辑与、逻辑或、逻辑非等运算符,将检索提问式转换成布尔表达式,计算机根据表达式查找符合限定条件的文献。
所谓截词(truncation ),是指检索者将检索词在自己认为合适的地方截断;
而截词检索,则是用截断的检索词的一个局部去数据库中进行检索,凡是能与这个词局部中的所有字符(串)相匹配的文献,即为命中文献。
一)字段检索:字段检索是限定检索词在数据库记录中出现的字段范围的一种检索方法。
(二)使用限制符的限制检索:大部分信息检索系统都提供了一类限制符,使用这类符号进行检索,可以从文献的外部特征方面来限制检索结果。
词频加权检索:词频加权检索是根据检索词在文档记录中出现的频率来决定该词的权值,而不是由检索者来指定检索词的权值。在这一方面,词频加权就消除了人工干预因素。 级位 条件满足指向 检索词代号 地址
条件不满足指向 字段号 比较条件 检索词
A B C D E 1
2
3
4
5 3 3 5 5 1 0 1 0 0 命中 不命中 不命中 不命中
2 4 ( 略 )
14.全文检索的技术指标既包含几种算法:
一)索引膨胀系数二)检索速度邻接检索同记录检索
15多媒体包含:
磁盘、磁带、光盘等;另一是指信息的表现或传播形式,如声音、文字、图像、动画等。多媒体的含义
并非多媒体本身,二是处理与应用它的一整套技术。
多媒体技术的关键特征
1)多样(2)集成性(3)交互性(4)实时性(5)互补性
这5个特性缺一不可。其中,多样性、实时性和互补性是基础,集成性是手段、方式或形式,交互性是核心或灵魂。
多媒体数据模型概述:
数据模型就是在计算机数据世界中建立的计算机能接受的对现实世界中所要研究对象的抽象描述。
多媒体系统的数据模型的基本任务是:
1.表示各种不同媒体数据的构造及其属性特征;
2.指出不同媒体数据之间的相互关系。
多媒体数据模型概述:
二)多媒体数据模型的体系结构
一个完整的多媒体数据模型应该是对多媒体信息系统的信息和数据的内容、不同媒体对象或由它们合成的复合对象的表现、内容与表现之间的映射/对应关系进行组织结构上的抽象概括和规范描述的一个整体。
内容表现
多媒体数据压缩的基本要求
。对数据进行压缩处理一般具有以下基本要求:
(1)可还原(2)压缩比高(3)重现质量好(4)计算成本低(5)实时性好
视频压缩的标准.;/
视频压缩的一个重要标准是MPEG,即运动图像专家组(Moving Picture Expert Group)