信息检索题库

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第1章绪论

1. 什么是信息检索?信息检索定义中的三要素是什么?信息检索的本质是什么

2. 信息检索技术与数据库技术之间的区别是什么?

3、信息检索系统的典型系统结构图

4、信息检索在发展过程中经历了那些阶段?

5、什么是搜索引擎?搜索引擎的核心支撑技术是什么?

6、什么是跨语言信息检索

7、信息过滤与信息检索的区别是什么?

第02章信息检索模型

1、给出信息检索系统的形式化表示

2、信息检索模型有哪些类型?理论基础分别是什么?

3、试分析布尔模型的优缺点

4、试分析向量空间模型的优缺点

第03章文本索引和搜索

1、什么是索引?建立索引的目的是什么?常用的索引技术有哪些?

2、什么是倒排索引

3、倒排索引的记录表中可以存放哪些内容?

4、倒排索引的建立方法有哪些?各方法具体如何实现?

5、进行倒排索引的批量插入时需要注意哪些问题?

6、如何从倒排索引中删除一个文档?

7、为什么要进行倒排文档的压缩?

8、对倒排文档进行压缩的优缺点有哪些?

9、试分析倒排索引的优缺点

10、什么是后缀数组(Suffix Array)

11、如何使用后缀数组进行检索?

12、试分析后缀数组的优缺点

13、试分析签名文件的优缺点

14、试进行签名文件、倒排文件和全文扫描之间的性能比较

15、文本搜索技术主要应用于哪些场合?

16、全文扫描的优缺点

17、BM算法步骤

18、KMP算法与BM算法的相同点与不同点

第04章信息标引方法与技术

1、IR中文本处理的主要内容有哪些?

2、文档空间密度与标引性能之间的关系

第05章查询处理技术

1、Query修改的基本思路

2、查询扩展根据扩展源可以分为哪几类?

3、全局分析法的基本思想?优缺点?

第06章信息检索评价

第07章Web检索技术

1、和纯文本相比,网页有哪些特殊之处?这些特点给搜索引擎带来哪些帮助和挑战?

2、搜索引擎系统与传统的IR系统在组成有什么区别?

3、基于指纹识别(fingerprinting)的网页去重方法的基本思想是什么?

4、PageRank与Hits算法都有哪些不同之处?

第08章分布式信息检索

第09章文本分类与聚类

1、层次聚类法的基本思想

2、k-Means方法的基本思想

3、用于动态聚类法中初始聚类中心选的择重心法与密度法的区别

4、二分k-Means方法的基本思想

5、渐变中心的k-Means方法与k-medoid算法的基本思想

相关文档
最新文档