2016年中国人民大学信息检索618考研真题及答案

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2016年

一、简答题

1、简述图像检索技术

随着多媒体技术的迅猛发展,网络传输速度的提高,以及新的有效的图像/视频压缩技术的不断出现,对海量多媒体信息的需求日渐增强,在这一背景下,基于内容的多媒体信息检索技术应运而生。它作为一种先进的检索技术,广泛地应用于多媒体数据库、知识产权保护、数字图书馆、远程医疗、天气预报以及军事指挥系统等。它与传统数据库技术相结合,可以方便地实现海量多媒体数据的存储和管理;与网络搜索引擎技术相结合,可以用来检索互联网中丰富的多媒体信息,具有广阔的发展前景。基于内容的多媒体检索技术具有与传统文本检索不同的特征,实施的是一种相似性检索,摒弃了传统的精确匹配,采用近似匹配或局部匹配的方法和技术逐步求精,来获得查询和检索的结果。根据所检索媒体对象的不同,基于内容的多媒体检索技术又可分为基于内容的图像检索技术、基于内容的视频检索技术和基于内容的音频检索技术等。

基于内容特征的图像检索技术CBIR(Content-based Image Retrieval)主要依据图像固有的特征来标引和检索。所谓图像特征包括:图像的画面内容特征,如图像颜色分布、纹理结构等;图像描述对象特征,如人、物、景等;图像的相关信息,如作者、时间、地点及其他物理特征;图像的移动和组合特征等。

基于内容的图像检索技术通过分析图像的内容,建立特征索引,并存储在特征库中。用户在检索查询时,可以从图像自身的特征将查询需求描述出来,就可以在大容量图像库中找到所需的图像。基于内容的图像检索技术包括的关键技术有颜色特征提取、纹理特征提取、形状特征提取、相关反馈等等。目前比较成功的应用基于内容的图像检索技术的系统有IBM公司的QBIC系统、MIT媒体实验室的Photobook系统、新加坡国立大学的CORE系统等。

基于内容的图像检索方式主要有3种:

(1)选择颜色的比例、轮廓形状以及纹理图案的图样进行查询。例如用户可以给出红、绿、蓝三种颜色的百分比,或从系统所提供的图例中选择某个作为检索图样。

(2)草图查询。用画图工具生成草图,从系统中查询与草图颜色分布、形状或纹理相似的结果。

(3)示例查询。选择系统中的一幅图像,要求系统检索与之类似的图像。用户一般是通过浏览选择系统提供的实例作为查询条件,然后再通过不断修改实例最终找到匹配目标。

2、简述网络环境下主题语言的发展

主题语言使用语词对信息进行揭示和组织,直接用语词标识信息内容,可以较好地满足用户的特性检索需要,主题语言在网络环境下仍然是一种重要的检索语言。互联网的普及、网络信息资源的迅猛增长和信息检索用户的改变对主题语言的发展产生了较大的影响,网络环境下的主题检索语言主要表现为以下几种形式:

(1)传统主题检索语言在网络信息检索系统中的应用

传统主题检索语言在网络信息检索中的应用主要表现在标题语言、叙词语言和关键词语言在网络信息检索系统中的应用。采用主题词表,叙词表的网络检索系统一般是学术性较强的专业网站。如图书馆网站的书目信息检索系统、网络联机数据库检索系统等。关键词语言在网络环境中的主要应用形式是搜索引擎的关键词搜索。搜索引擎的易用性和良好的检索性能,使得其已成为目前世界上最流行的检索方式。

(2)辅助词表的应用

辅助词表的主要类型有后控词表、禁用词表、同义字词典和反义字词典等。

①后控词表:也称为词间关系表,是利用受控语言的基本原理和方法编制的自然语言检索用词表。后控词表的主要特点是:①词汇只用于检索,不能用于标引。②词汇控制不如先控词表严格,一般只对同义词、近义词和不同书写形式进行控制,适当处理部分与相关关系。③收词丰富,包括同义词、近义词、俗称、缩写、流行俚语等。④动态性强,及时更新和增补新主题概念。⑤有较强的灵活性和自由度,标引工作简单、编制简便。⑥具有面向文献和用户的特点,文献保障和用户保障能力强。

后控词表只对系统的输出阶段进行控制,它的控制处理相对受控语言检索系统比较简单,无需标引人员花费很长时间去分析文献的主题概念,选用合适的检索词进行标引、归类,检索者也不必花太大的精力分析检索要求,考虑用符合标准的检索语言来表达自己的信息需求。后控词表展现了比较完整的语义关系,用户通过浏览词表选用检索词,大大减轻了构造检索策略的负担,提高了检索速度,节省了检索时间。后控词表作为自然语言和受控语言相结合的产物,对于提高自然语言检索系统查全率和查准率具有重要的意义,为用户准确选词、精确检索、扩检和缩检、改变检索范围、进行相关检索提供了捷径。

②禁用词表:也称停用词表、禁用词典、禁用单元词表等,是将一些单独使用时无检索意义,或者出现频率过高的词作为检索系统的非检索用词,以对检索词的有效性进行控制。禁用词表按收入词的类型,一般可分为普通禁用词表和条件禁用词表。普通禁用词表是指在任何情况下都无实际检索意义的词所构成的词表,如包含介词、连词、代词等的词表。条件禁用词表是指由在一定条件下才成为禁用词的词汇构成的词表。这种禁用词表主要出现在专门性的检索系统中,因此,不同网络检索系统在理论上其禁用词表不会兼容。条件禁用词表除了收录条件禁用词外,通常还包括无实际检索意义的普通禁用词。

③同义字词典和反义字词典:是根据把用户检索标识转换成规范性叙词,或者扩展出所有可能出现的同义词、近义词和反义词以提高查全率的目的编制,基于主题语言,显示概念等同关系原理而产生的。同义字词典和反义字词典除了能够提高用户的查全率外,对自然语言与受控词表的一体化、系统与检索用户的交互选择、自动扩展的智能化检索的发展也起到非常重要的作用。

3、简述《Web of Science》的特点及其在科研中的应用

Web of Science是美国Thomason Scientific公司基于WEB开发的产品,包括三大引文库(SCI、SSCI 和A & HCI)和两个化学数据库(CCR、IC),以ISI Web of Knowledge作为检索平台。三大引文数据库包括:①《科学引文索引》(Science Citation Index Expanded, SCI),收录6300多种科学技术期刊;②《社会科学引文索引》(Social Science送Citation Index, SSCI),收录1800多种社会科学期刊;③《艺术和人文科学引文索引》(Arts & Humanities Citation Index, A & HCI),收录1100多种艺术与人文类期刊。

Web of Science可以极大地方便用户查找文献资料。通过引文检索功能,我们不但可以查找相关研究课题各个时期的学术文献,获取论文摘要,而且还可以得到所引用参考文献的记录等。为文献研究,以及获取文献原文找到了一个方便的途径。

Web of Science的检索分为基本检索(Search)、被引文献检索(Cited Ref Search)、结构检索(Structure Search)和高级检索(Advanced Search)。基本检索主要按问问先的主题、篇名、作者、期刊名、作者的地址、出版年份等进行检索。被引文献检索主要按被引用文献的特征检索,包括被引用的作者、被引用的期刊名或者书名、文献发表的年份。结构检索主要针对两个化学数据库,检索化合物、化学反应、化学结构等。这部分数据库内容需要安装Web of Science的插件,并且几乎没有文献内容。高级检索需要用户组配好检索式进行提问。高级检索较基本检索和被引文献检索多了两个区域,一个是“检索字段代码和布尔逻辑运算符”区,帮着用户组配检索式的;另一个是“语言和文件格式选项”区,可以让用户限定检索文献的语言和文件格式。

Web of Science不仅是世界著名的检索工具,也是一个评价学术水平的工具,其具有研究分析功能。其分析工具使用非常简便,可以帮助研究人员方便地对文献信息进行统计。

相关文档
最新文档