信息存储与检索复习资料

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、填空题(每空1分,共计25分)

二、名词解释(每题3分,,共计15分)

三、选择提(每题2分,,共计20分)

四、简答题(每题5分,共40分)

第一章:

1、信息检索就是对信息项进行表示、存储、组织与存取的全过程。

信息存储是指将有用信息按照一定方式组织和存放起来,信息检索是指当用户需要这些信息时,再把它们从存放的地方查找和提取出来。

2、信息检索的原理:参见书上图1-1理解

3、信息检索的一致性匹配机理:提取机理、表示机理、比较机理、判断机理、选择机理。

4、信息检索的类型:(1)按照检索对象的性质分为文献检索、数值检索、事实检索;(2)按照计算机检索技术分为脱机检索、联机检索、光盘检索、网络检索。

5、在手工检索阶段,人们常用的概念是检索工具,在计算机检索阶段,人们使用数据库,在网络检索阶段。人们使用搜索引擎。

6、信息检索系统物理结构组成,逻辑结构的组成和原理。

7、信息检索产生于美国,其发展经历了起步期(以单词检索为特征)、成长期(以脱机检索为特征)、发展期(以联机检索为主)、成熟期(检索转向个人终端)、开放期(以网络检索为主)。

8、信息检索的趋势:跨语言检索、多媒体检索、信息检索可视化、信息检索智能化、信息检索个性化、信息检索多样化。

第二章:

1、检索策略一般都包含文档集的逻辑表示、查询的表示、相似性匹配及其排序三个要素。

2、经典的检索模型:布尔模型、向量空间模型、概率模型。要求了解三种模型的思想和原理。

3、TF-IDF加权策略:对特征项计算权重的方法,该策略由簇内相似性和簇间不相似性两种效果来衡量。

4、将文本内容中的信息与文档结构信息结合起来进行检索的模型叫做结构化检索模型。包括费重叠链表模型、邻近节点模型、平坦模型(扁平浏览模型)、结构导向模型、超文本模型。

第三章:

1、记录是作为一个单位来处理的有关数据的集合,它是对某一实体的属性进行描述的结果。常见的书目记录是MARC记录结构,不同的国家有不同的记录格式,但为了进行不同机构间的目录交换,机读目录必须在物理结构、内容标识符、内容数据方面做到统一。

2、对文本信息进行检索的主要技术是顺排文档和倒排文档。顺排文档检索方法主要有表展开法和逻辑树法两种,其中表展开法的处理过程是重点。倒排表是面向单词的一种索引数据结构,包括单词表和事件表(置入表)组成,了解倒排表和后缀数组的区别。掌握倒排文档和顺排文档的区别,以及倒排文档的检索步骤。

3、其他一些文本检索技术主要有:布尔检索、截词检索、限制检索、加权检索等

4、文本聚类是利用同类文档相似度大、不同文档相似度小的原理对文本信息进行有效组织和分类的技术。

5、文本聚类的方法主要有等级聚类法、动态聚类法和启发式聚类法。

6、全文检索的技术指标:索引膨胀系数、检索速度。全文检索包括邻接检索、同句检索、同字段检索、同记录检索等方式。

第四章:

1、多媒体对象的表示和存储是尤为重要的,数据建模既要体现多媒体数据的特性又要保证在这种数据上的各种操作的灵活可靠。

2、多媒体一词含义很多,但在计算机领域中主要有两层含义:一是指信息的物理载体,二是指信息的表现或传播形式。多媒体的关键特征主要有:多样性、集成性、交互性、实时性和互补性。

3、多媒体数据模型要能揭示多媒体数据的内容特征和语义特征,因此一个完整的多媒体数据模型要能描述多媒体的三种层次:应用层、信息员层、数据元层,多个数据元组成信息元,多个信息元组成应用中的信息集合。目前常用的多媒体数据模型是HCM层次模型。

4、图像数据模型中物理特征主要有颜色、纹理、形状、轮廓等视觉信息,音频数据模型的底层特征主要有音强、音色、音调、响度、过零率、带宽等,视频数据模型主要分为帧、镜头、场景和故事情节四个层次。

5、数据压缩是以一定的质量损失为容限,按照某种方法从给定的信息源中推出简化的数据表述,通过减少信号空间容量,使信号能安排到给定的信息集或样本中。多媒体数据之所以能够被压缩是因为原始的多媒体数据存在很大的冗余。

6、多媒体压缩的基本要求:可还原、压缩比高、重现质量好、成本低、实时性好。

7、多媒体压缩的分类:(1)有损压缩和无损压缩;(2)预测编码、变换编码、统计编码、分析-合成编码、混合编码。

8、图像、音频、视频的压缩标准

9、基于内容的多媒体检索就是从媒体数据中提取特定的信息线索,然后根据这些线索从大量的多媒体数据库中找寻需要的多媒体信息。

10、多媒体信息检索系统的结构:数据插入子系统、信息查询子系统、媒体处理子系统、多媒体数据库。

第五章:

1、Web资源检索方法主要有三种:基于超文本/超媒体的浏览方式、基于目录的信息查询、基于搜索引擎的信息检索。

2、Web信息组织主要包括:超文本、标记语言(SGML/HTML/XML)、超文本传输协议、超文本浏览器。

3、元数据是关于数据的组织、数据域及其关系的信息,简言之就是关于数据的数据主要包含四种元数据类型。

4、搜索引擎的概念、功能、组成结构、原理和类型,

第六章:

1、并行信息检索和分布式信息检索是信息检索理论与应用的提高,并行处理是指把计算机任务划分为更小的子任务,然后利用多个处理器处理同一个任务的不同子任务,各处理器采用并行工作方式,从而提高检索效率。

2、根据指令流和数据流的不同将计算机分为四种体系结构:SISD、SIMD、MISD、MIMD。

3、并行检索技术分为数据并行和功能并行。在数据并行技术中,利用倒排表进行并行检索又分为数据集(文档集)分割和项分割两种,其中文档集分割又分为物理文档分割和逻辑文档分割,了解两者之间的区别与联系。

4、分布式检索主要是指在分布式的环境中,利用分布式计算机和移动代理技术从大量的、异构的信息资源中检索出对用户有用信息的过程,分布式检索典型的特征就是具有异构性。一个简单的分布式信息检索系统由多个数据集服务器和一个和多个代理处理器两大部分组成。

5、分布式检索模式:基于元搜索引擎的分布式检索、基于Z39.50的分布式检索、基于XML的分布式检索、基于Web服务的分布式渐叟。

6、数据集选择就是指怎样选择最合适的信息资源库的子集,并保证这些子集可能包含与提问式相关的文献的数量最大。

7、异构数据库是指结构相异的数据库,这里的异构包含系统级异构和语义级异构。

8、跨库检索是指以多个异构数据库的数据源为对象的检索。

相关文档
最新文档