2015年中国人民大学信息检索618考研真题

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2015年中国人民大学信息检索618考研真题
2015 年
一、简答题
1、百科全书的特点及类型
百科全书是汇集各学科或某一学科的专门术语、重要名词,以词典的方式进行编排,对每一词目都加以全面系统而又客观简明的阐述,并对新的研究成果加以反映的大型工具书。

百科全书涉及各个领域,其内容之丰富、规模之宏大、检索功能之完备是其他工具书所不能及的。

在各类工具书中,百科全书堪称“工具书之王”。

西方百科全书的编纂可以追溯到古希腊、古罗马时期。

古希腊哲学家斯珀西波斯和古希腊哲学家、科学家亚里士多德,编纂过概述各种学问的百科全书式的著作,被认为是百科全书的先驱者。

亚里士多德还是最早对科学进行分类的人,他的思想和实践对后世百科全书的编纂有较大影响,人们称他为“百科全书
之父”。

到了中世纪,出现了一批具有代表性的百科著作。

英国学者钱伯斯,编纂了《百科全书,或艺术
与科学综合大辞典》,概述影响较大,钱伯斯因而被称为“现代百科全书之父”。

我国于清朝末年开始编译外国百科全书。

百科全书一般具有以下特点:
(1)概括性:百科全书取材广泛,是百科知识的总汇,它用准确精练的语言,系统概述了人类各个知识领域或某个知识领域的基本事实、基本概念和基本理论,提供了各种事物的基本知识、历史和现状。

(2)权威性:著名的百科全书通常设立阵容强大的编辑机构,各条目的编纂,都是由各个领域、各门学科的著名专家学者来完成的,以保证其质量。

如《中国大百科全书》总编辑委员会及其下设的各学科卷的编辑委员会,都由我国各学术领域的权威人士组成。

(3)易用性:百科全书集中了日臻完善的编排方式、索引和参见系统,重要条目后都附有参考条目,或在文中注明征引资料的出处等,读者能从多种角度,用最短的时间检索到所需的知识。

如《中国大百
科全书》就设有七种检索渠道,以供检索与查考,是迄今为止我国出版的所有印刷型工具书中最完备的。

百科全书包罗万象,能为人们提供人类各个知识领域的基本知识,是学习和工作中最常用的、必备的工具书之一。

人们往往称之为“没有围墙的大学”、“知识的小宇宙”、“精简的图书馆”。

百科全书通常可以划分为以下几种类型:
(1)按内容范围分:有综合性百科全书和专科专题性百科全书。

前者如《中国大百科全书》、《简明不列颠百科全书》等;后者如《社会科学百科全书》、《中国企业管理百科全书》、《中国农业百科全书》、《中国医学百科全书》等。

(2)按地区范围分:有国际性百科全书和地域性百科全书。

前者如英、美、法、德等国有名的大百科全书,力图反映世界文化遗产和现代成就,具有国际性;后者侧重反映某一地域、某一国家、某一省的各种情况,如《亚洲百科全书》、《加拿大百科全书》、《北京百科全书》等。

(3)按读者对象分:有成人学术性百科全书、成人普及性百科全书和青少年通俗性百科全书。

成人学术性百科全书,如《中国大百科全书》、《社会科学百科全书》、《科学技术百科全书》等;成人普及性百科全书,如《环华百科全书》、《中华常识百科全书》等;青少年通俗性百科全书,如《少年百科全书》等。

目前,外国百科全书把5年以上的资料都看作过时的资料,因而很重视修订工作。

利用百科全书,可以系统学到某一学科的基本知识,了解各学科的发展水平。

2、元搜索引擎的含义及特点
元搜索引擎,又称多元搜索引擎或集合式搜索引擎。

是一种将多个独立搜索引擎集成在一起,提供统一的检索界面,将用户的检索提问同时提交给多个独立的搜索引擎,并将检索结果一并返回给用户的网络检索工具。

元搜索引擎没有自己的网页数据库。

元搜索引擎通过向其它独立搜索引擎发送搜索请求来处理用户的搜索请求,然后把这些搜索结果按照一定的方式集成在一起返回给用户。

元搜索引擎是建
立在已有的独立搜索引擎服务之上的一种搜索引擎,可以将它理解为工具书的工具书,它并不直接针对一次网络资源本身,而是利用下层多个独立搜索引擎提供的服务向上提供统一的检索服务,自身不采集文档,也没有索引,只是维护它所管理的搜索引擎的参数信息。

它最大的优点是省时,能同时查询多个搜索数据库,检索的综合性、完整性较好。

因而,元搜索引擎技术现在成为检索工具的发展方向。

元搜索引擎的特点主要如下:
(1)一次检索可以实现对多个搜索引擎的检索:元搜索引擎定制了调用多个独立搜索引擎的统一界面,将用户递交的提问提交给它可支持和调用的多个独立搜索引擎,因此,用户的一次查询可以同时检索多个独立搜索引擎。

(2)基于独立搜索引擎结果的二次加工:元搜索引擎的结果基于独立搜索引擎的查询结果。

除了一小部分元搜索引擎只能简单地直接调用原始的结果页面外,大部分元搜索引擎都会将各个独立引擎的结果回收之后进行相应的整合,排除相同的结果,并按照一定的排序标准,把二次加工和整理后的结果以统一的格式提供给用户。

(3)标明结果记录的来源搜索引擎及相关度:元搜索引擎和独立搜索引擎的很大一个区别在于其检索结果的显示页面。

随着元搜索引擎技术的不断发展,一些元搜索引擎在用户提问的页面,与独立搜索引擎几乎没有什么明显的区别。

而在检索结果的反馈时,在每个检索结果中都清楚地标明了它的来源搜索引擎,有的还标注了该检索结果的相关度。

元搜索引擎的功能很大程度受独立搜索引擎的限制,而且结构相对比较简单,因此不可避免地存在一定局限性:
(1)检索功能简单:实现检索语法转换的能力是有限的,一般只提供一个公共接口供用户输入查询词,实际查询在各个独立搜索引擎中实现。

对于简单的布尔逻辑检索和词组检索,元搜索引擎的检索效果很好,但对于复杂的检索功能,效果并不是十分理想。

因此,元搜索引擎一般只支持通用的检索句法,多数元搜索引擎不支持指定字段检索等特殊检索,掩盖了独立搜索引擎中效果较好的高级查询功能,
抹杀了各个独立搜索引擎的特色功能,也在一定程度上影响了检索效果和质量。

(2)在调用搜索引擎和检索结果的数量上都存在一定的局限:大部分元搜索引擎只支持调用几个主要的搜索引擎,有许多大型搜索引擎被排除在外,影响了信息搜索的覆盖面。

检索速度的限制从一个侧面反映出了元搜索引擎在检索结果的数量上的局限性,这也就是意味着只能从各个独立的搜索引擎中检索少量的最符合要求的命中记录,因此必然影响了检索结果的全面性。

(3)在返回结果的精确性方面,元搜索引擎不如独立的搜索引擎:元搜索引擎将一次提问同时检索多个搜索引擎,扩大了检索覆盖的范围,提高了查全率。

但其结果主要来自独立搜索引擎查询结果中排名靠前的记录,在一定程度上默认了独立搜索引擎的查准效果,而目前独立搜索引擎自身在查全率与查准率提高方面存在着各种问题。

因此,元搜索引擎在为用户提供更全面、综合的结果的同时,难以控制各独立搜索引擎的无关输出。

3、怎样构造检索表达式
检索表达式,简称“检索式”或“提问式”,是指计算机信息检索中用来表达用户检索请求的逻辑表达式。

检索式一般由检索词和各种逻辑运算符组成,它将检索词之间的逻辑关系、位置关系等用检索系统规定的各种算符连接起来,成为计算机可以识别和执行的命令形式。

从某种意义上讲,检索式是检索策略的具体体现,或者说是检索策略应用的一个结果。

检索式构造的优劣关系到检索策略的成败。

检索式质量的高低,将关系到检索策略的应用成败;而检索式的质量,则取决于对用户信息需求的主题是否有全面、正确的逻辑分析,取决于是否全、选准了检索词汇以及是否能合理运用各种连接组配符号对检索项进行组配。

检索式主要有逻辑表达式、加权表达式和其他表达式,其中,最为常用的是逻辑表达式。

通常情况下,检索表达式的构造步骤如下:
(1)分析信息需求(检索课题),明确检索要求
这是人们进行信息检索的出发点,不同类型的检索课题,信息需
求的范围和程度也不尽相同。

在这一环节中,要明确检索目的,明确检索课题内容涉及的主要学科范围和相关概念。

在分析课题的基础上,要清楚检索信息的类型,以及要求查找文献信息的时间范围、学科范围等,通过以上分析,对检索需求作出全面的认识。

操作中应尽可能掌握检索课题的研究背景,了解检索课题所属的学科领域,学术发展史和现状,借助有关工具书来进一步开拓背景材料,以便于选择正确的检索标识和检索范围。

利用掌握的资料的相关背景,经过分析、推敲、拓展,发现更多有参考价值的文献线索,再通过这些已知的线索,了解与检索课题有关的学者、科研机构、学术刊物,以增加检索途径,提高检索效率。

(2)选择检索系统
依据对信息需求的分析,选择和检索课题相符、收录信息质量较高、检索功能比较完善的信息检索系统。

检索系统的选择要求我们对目前可利用的检索系统有一个大概的了解,如检索系统收录的信息所涉及的学科领域,信息类型,时间范围,检索途径和检索方法,检索费用等等。

(3)选择检索途径和检索方法,确定检索词或检索式
检索词的确定是建立在检索课题概念分析的基础上,有时,检索课题会包含复杂的主题内容,应明确组成课题内容的直接概念和相关概念,通过一定的逻辑组配或其它方式形成一定的复合概念或概念关系来表达用户的信息需求。

在确定检索词时,应考虑它表达概念的确切性及其与系统存储标识的一致性。

(4)处理检索结果
在实施检索的过程中,根据检索结果的实际情况,可以调整检索词、检索式、检索途径和检索方法等,也可以充分利用信息检索系统提供的缩检和扩检功能,完善检索结果,直到达到满意的效果。

实施检索之后,将所获得的检索结果加以系统整理,筛选出符合课题要求的相关文献信息,选择检索结果的著录格式,辨认文献类型、文种、著者等项记录内容,输出检索结果。

(5)获取原始文献
使用的信息检索系统不同,原始文献的获取方式也不尽相同。

比如,利用联机信息系统,可以用联机传递或脱机邮寄方式获取原始信息;利用有关全文数据库,可以直接打印或下载原始信息。

4、影响自动分类的因素
著名的经济学家、诺贝尔经济学奖获得者赫伯特·西蒙早在20多年前就指出:在信息时代,最稀缺的资源不再是信息本身,而是对信息的处理能力。

信息处理已经成为人们获取有用信息不可缺少的工具,信息自动分类是信息处理的重要研究内容之一。

自动分类是指由计算机系统自动提取信息的特征项,依据一定的算法,将信息按内容或属性归到一个或多个类别的过程。

主要包括自动归类和自动聚类两个部分。

自动归类和自动聚类都是在信息标引技术的基础上,用计算机系统进行文本自动分类的过程,且广泛运用于搜索引擎领域。

二者主要区别于自动聚类不需要事先定义好分类体系,而自动归类则需要确定好类别体系。

自动分类质量的优劣,直接影响到计算机的查全率和查准率,影响到用户利用信息的效率。

影响自动分类的因素有许多,包括知识库规模、特征词选择、分类算法、分类体系、评价方法等。

第一,知识库规模。

知识库是对原始数据进行预处理、兴趣度过滤以及相关数据挖掘后得到的训练结果,是进行自动分类的主要依据。

如果对原始数据进行训练过程中, 各项过滤以及度量指标设置过高,则得到的知识库的规模较小,扩展的类目数量小,但数据严格,用这样的知识库进行自动分类,得到的结果是正确率较高,但会出现一部分类目的数据漏分。

如果知识库规模过大,虽然得到的扩展类目较多, 但同时也会因为使用弱规则致使知识库质量下降,而庞大的知识库将会使得分类的时间大大增加。

如何平衡知识库(训练数据)的规模与正确率和分得率是进行自动分类研究必须要考虑的问题。

第二,特征词选择。

特征词选择是指从初始特征集合中抽取出比较重要的、能够表达文献主题内容的标引词,它是影响自动分类正确与否的重要基础因素。

目前特征词选择的方法有很多, 如文献频率法、信息增益法、互信息法、开方拟合实验法等。

研究表明,特征词选取
方法与实验数据集合分类算法等密切相关,需要在实际应用中比较各种方法的优劣。

第三,分类算法。

目前存在着多种分类方法,如层次分类(二次分类)方法、集成分类方法等。

以《中图法》为例,《中图法》是一部详尽专深的综合性分类法,仅社会科学11个大类就有上万个类目,其中几个大类中,如经济、法律和教育等几个类目存在着一定的语义概念交叉、特征词相近的情况,在分类上较难把握和定量衡量特征词的区分能力。

若待分类文献集由某一社科期刊混杂构成时, 调用某类知识库分类时,就会把许多文献误分到相近类目中去,极大影响分类的正确率,这种情况在社会科学的政治、法律、文化、艺术等大类中尤为明显。

针对上述情况,,采取灵活的二次分类方法,即先粗略分类再进一步细分类,则可以在分类正确率上会提高5%左右。

第四,分类体系。

分类表,也称分类体系、分类架构,有单层、复层和多层分类两种。

单层和复层基本是在类别较少的情况下,目前很多的自动分类系统的研制都是建立在这种分类体系之上。

多层分类则类别较多且类别间关系复杂,区分度小,这样的分类表类别越往下位类分,类别间的主题就越接近,越难作出区分,分类难度与分类架构的设计有很大关系。

研究发现分类体系的设计结构会极大程度地影响分类效果。

以《中图法》社科大类为例, 很多分类都是先按照地区分, 再按照主题分, 这样就导致了文本内容相似却分在不同大类的情形。

此外,由于社科中的许多大类,如政治、经济、文化等类别,由于其包含的特征项在别的类别中也会出现,而目前的文本分类方法都是基于词的方法,无法正确描述特征词之间的语义信息,使得社科中许多类别相似的类目的分类正确率大大降低。

第五,评价方法。

目前对自动分类的测评大多是沿用英国Cranfield项目的测评方法, 采用类似信息检索领域的检全率和检准率来评估的。

即用计算检全率的方法计算自动分类的召回率(或称其为分得率),用计算检准率的方法计算自动分类的分准率,采用分准率、分得率和F1 三个参数来评价,这样的评价方式在实际应用中产生了许多问题。

正确率很大程度受不相关数据(非本类数据、干扰数据)的
影响, 因此若一个
测试集包含本类数据较多,而包含其他杂类数据较少,作出的测试结果会比较乐观;反之,作出的测试结果有可能会相对下降。

分准率、分得率、F1 也存在一定的问题,在实际中会有很多高分准率、低分得率,和高分得率、低分准率的情况,这样的数据用F1来综合衡量时, 得出的数据同样会比较乐观。

此外,采用F1 值综合考量分类效果也不是非常恰当,因为对于特定的系统和用户来说,分准率和分得率不一定都是用户需要的。

此外,还有一些其他因素同样也影响着自动分类的效果,如抽词词典、词长及同义词等。

抽词词典是针对某一领域有检索意义的词所构成的集合,是文本分类的基础,抽词词典的规模是影响分类质量的重要因素之一。

信息检索领域与自然语言处理领域的不同之处在于,前者只选取有检索意义的实词。

因此构建抽词词典时选取的词汇尽量要专指,词长要稍长,这样在抽取的时候可以避免一些通用词的干扰,提高匹配效果。

而且词长不仅在抽词过程, 在分类匹配的过程中也是需要考虑的重要因素。

另外,目前的分类算法基本都是把特征词看作独立的个体,不考虑词间的语义关系,但是自然语言中却存在着大量的同义词、准同义词。

这些词在语义上是等同的,但在词形上却存在很大的表述差异,计算机难以识别,因此同义词也是影响自动分类的因素之一。

随着计算机技术、信息技术和网络技术的发展与应用,网上文本信息资源以指数级的速度增长,庞大的数字化信息与人们获取所需要信息能力间的矛盾日益突出,有效的信息检索、内容管理及信息过滤等应用变得越来越重要和困难。

传统的做法是对信息进行人工分类、组织和整理,为人们提供了一种相对有效的信息获取手段。

但这种人工做分类的做法存在许多缺陷,主要表现在:一方面是周期长、费用高、效率低,并且要有专业知识的人员才能胜任;另一方面是存在分类结果一致性较低的问题。

而自动分类是一个有效的解决办法,已成为一项具有实用价值的关键技术,它在信息检索、信息过滤与获取、信息组织与管理、网上信息搜索等方面有着十分广泛的应用,从而有
效地提高了网络信息服务的质量。

由于互联网络技术和多媒体技术的进一步发展与应用,文本信息分类技术将与图像识别和语音识别融合,如图像文本分类、多媒体数据库索引、语音文本分类等,这就要求文本分类技术在文本的处理方法、克服噪声干扰、分类的精度与效率等方面有进一步提高。

二、论述题
1、怎样提高查全率和查准率
信息经济时代,科技普及的结果,就是信息的量与存取频率普遍提高。

面对汹涌而至的信息,我们刚高兴不一会儿,接踵而来的却是束手无措和莫名的无奈。

因为信息量的增加带来的是信息烟雾,使得盼望信息的我们却最终挣扎于在信息烟雾之中。

要知道尽管google可以搜索到数不清的条目,但是有多少是确切符合要求的呢,有多少是没有搜索到的呢?从确定关键词,到筛选结果,这是一个复杂的过程,现在还脱离不了人工。

就算花了很大心思整理以后,得到的也只是潜在结果的一个子集而已。

虽然数据库的应用确实使我们对信息的处理能力有了飞跃,但我们对数据库的应用已不满足于检索,因为检索到的海量信息已超过我们的分析和判断能力。

那么,如何促进信息检索的效果,提高检索结果对用户需求的满足程度呢?无疑,查全率和查准率是评价检索效果最常用的两项关键指标,不断提高信息检索的查全率和查准率,对于提高系统的信息检索能力至关重要。

提高查全率,意味着要扩大检索范围,即扩检。

可以采用以下方法:
(1)降低检索词的专指度。

即选用的检索词范围面要广一些,泛指性要强一些。

除选择恰当的主题词外,还应该选择比恰当的主题词内容范围更广的上位词。

例如,在“中国期刊网”中,检索关于“网络信息资源组织”方面的文章,选择高级检索,从篇名途径,输入“网络信息资源”和“组织”,检索到269篇文献。

如果想提高查全率,可以选择降低“网络信息资源”的专指度,输入“信息资源”和“组织”,仍然选择篇名途径,检索到了427篇文献,其中包括一批扩建出来额相关文献。

(2)增加同义词、近义词或相关词的逻辑或运算。

进行课题检索时,不仅要选择较为规范的主题词,而且要考虑与该主题词相关的同义词或近义词。

反映同一概念的检索词越多,则越能保证查全率。

比如,一个词语在英文中往往有多个单词与之对应。

如“保护”一词在英文中即由conservation、preservation、protection等词与之对应,在构建检索
式时,应尽可能考虑到相关的同义词和近义词。

对于一些表示整体的概念,如果想提高查全率,可以将整体概念进行拆分,并用逻辑或连接。

比如,要检索关于“欧洲能源”方面的文献,通过背景知识和课题分析,可以知道欧洲能源也包括英国的天然气、法国的石油等,因而,检索式可以表达为:(欧洲OR英国OR 法国OR德国OR意大利OR……)AND(能源OR天然气OR石油OR 煤OR……)。

(3)选用截词检索。

为防止漏检,得到比较全面的结果,可以利用截断的词的一个局部进行检索,利用一组相关词词首一致的特性,进行相关扩检。

这种方法比较简单易行,通过一个检索词查出许多相关或相近的文献,可避免输入多个词干相同而词缀不同的检索词,从而简化检索过程,节约用户的时间,提高检索速度。

截词检索对于提高查全率具有明显的作用,在西文检索中更是应用广泛。

西方语言虽然彼此间有差别,但它们存在着一个共同特点:构词灵活,在词干上加上不同性质的前缀和后缀,就可以派生出很多新的词汇。

由于词干相同,派生出来的词在基本含义上是一致的,形态上的差别多半只具有语法上的意义。

正式由于这个原因,检索者如果不在提问式中列出一个词的所有派生形式,在检索时则很容易出现漏检。

无论是西文还是中文检索,截词方法不仅仅能提高查全率,扩大检索范围,而且还可以减少检索词的输入量,简化检索步骤。

(4)增加和调整检索途径。

如可将主题检索和分析检索结合起来,将主题途径与非主题途径结合起来使用,也可以调整检索途径。

例如,要查找有关我国外交政。

相关文档
最新文档