信息检索模拟复习题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
名词解释
Text Information Retrieval文本信息检索:它与图象检索、声音检索、图片检索等都是信息检索的一部分,是指根据文本内容,如关键字、语意等对文本集合进行检索、分类、过滤等。
Query expansion 查询扩展:为了改善资讯检索召回率(Recall),而将原来查询句增加新的关键字来重新查询,此一技术称为扩展查询。
Text categorization 文本分类:给定分类体系,将文本集中的每个文本分到某个或者某几个类别中,这个过程称为文本分类。
R-precision R准确率:计算序列中前R个位置文献的准确率。R指与当前查询相关的文献总数。
特征选取:依照某一准则从从众多原始特征中选择部分最能反映模式类别的统计特性的相关特征。
Small world theory小世界理论:又称为六度分离理论(six degrees of separation),理论指出:你和任何一个陌生人之间所间隔的人不会超过五个,喻指任何两个素不相识的人,通过一定的方式,总能够产生必然联系或关系。
相关性:信息检索系统针对用户的查询(query)从文档集中检出的文档与查询之间的一种匹配关系。
Recall and precision. 查全率和查准率:查准率(精度):检出的相关文献与检出的全部文献的百分比;查全率(召回率):检出的相关文献与全部相关文献的百分比。
Zipf’s law齐普夫定律:一个词在一个有相当长度的语篇中的等级序号(该词在按出现次数排列的词表中的位置,他称之为
rank,简称r)与该词的出现次数(他称为frequency,简称f)的乘积几乎是一个常数(constant,简称C)。用公式表示,就是r × f = C 。
pseudo relevance-feedback伪相关反馈:也称之为盲式相关反馈,提供的是一种自动局部分析方法,它可以自动化相关反馈的手动操作部分,因此用户可不用参与额外的交互也可以获得更好的检索性能。
TF/IDF:是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数(TF)成正比增加,但同时会随着它在语料库中出现的频率(IDF逆向文件频率)成反比下降。
Bibliographic Coupling:文献耦合是指文献通过参考文献进行的耦合。当两篇文章共同引用文献时,这两篇文章之间的关系就是文献耦合。
Inverse document frequency:逆文档频率是文档频率的倒数,主要用于TF-TDF中。Idf=log2(N/df)
Meta-Search Engines:元搜索引擎,是通过一个统一的用户界面来帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现
搜索操作,是对分析于网络的多种检索工具的全局控制机制
简答
1、与信息检索有关的研究领域有哪些?简要介绍各领域的主要内容。数据库管理:研究重点是对结构化数据的存储和利用,而不是对自由文本,再者是用SQL语言高效处理明确定义的查询,提供对数据和查询的更明确的语义。数据库近来向半结构化数据(XML)的发展加强了与信息检索的联系。
图书情报学:研究重点是信息检索的用户视角(人机交互、用户界面、可视化),它与人类知识的有效分类有关以及与引文的分析和文献计量学(信息结构)相关。数字图书馆是计算机科学(CS)和IR的结合。
人工智能:研究重点在于对知识、推理和智力活动的形式化,以及对知识和查询的形式化。网页文体和智能信息代理是它与IR的联系。自然语言的处理:研究重点在于自然语言文本的语法、语义和语用的分析,它能避免关键字查询的一些缺点。关系:语义消歧、信息抽取和识别关键片段。
机器学习:专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。关系:文本分类、文本聚类、文本挖掘和信息提取的学习。
2、简要说明信息检索与数据库查询的区别与联系
数据库查询常指数据检索,数据检索是根据数据库的结构化属性来搜索,确定哪些文档的属性中包含用户查询的关键字。数据检索属于信息检索的范畴,这便是两者的联系。
区别在于信息检索涉及到用户的信息需求和提交的信息查询不
总是结构化的,而且具有语义模糊性,而数据检索设计的数据常具有完好定义的结构和语义。
3、机器学习技术在文本信息检索领域的应用?
①文本表达;②文本信息抽取;③文本分类与聚类。
4、网络信息的特点?网络信息检索与传统的文本信息检索的区别?
特点:(1)数量庞大、增长迅速(2)内容丰富、覆盖面广(3)信息质量参差不齐,有序与无序并存(4)信息共享程度高、使用成本低
区别:web search 分布式数据、不稳定数据、大容量、非结构化和冗余数据、数据质量不齐
5、齐普夫定律的含义是什么?这一分布定律在网络世界中也多有体现,请举三个例子。
(1)对网页中入度/出度数量的影响(2)对网页的长度有影响(3)对网页的点击率
6、针对同一查询提问,为什么不同的搜索引擎会返回不同的结果集?
(1)数据源不一样:网页抓取阶段、抓取策略不同(2)信息检索模型不一样(3)相似度的计算不一样
7、停用词处理和截词处理对倒排文档的大小有什么影响?对查询结果有什么影响?
截词处理:缩小倒排文档,提高查全率,降低查准率
停用词处理:缩小倒排文档,提高查准率,降低查全率
8、k近邻分类算法(KNN)的主要思想是什么?为什么这一算法被称为懒惰学习法?
基本思想:对于一个测试文本,计算它与训练样本集中每个文本的相似度,依照该相似度找出K个最相似的训练文本,然后在此基础之上给每一个文本类打分,分值是K个训练文档中属于该类的文本与测试文本之间的文档相似度之和。按分值进行排序,依分值指定测试文本的类别。
原因:近邻分类是基于眼球的懒散的学习方法,即它存放所有的训练样本,并知道新的样本需要分类时才建立分类。这种方法在训练时比急切学习法快,但分类时慢。
9、为什么说“相关性是一种主观的判断”?
10、Pagerank算法的基本思想是什么?