浅谈信息检索中的查询扩展技术

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

浅谈信息检索中的查询扩展技术

滕菁武汉大学信息管理学院

【摘要】随着计算机技术、大容量的硬盘存储器以及可共享信息的网络导致人们可利用的数据越来越庞大,为了发掘信息,为人们所用,诞生了信息检索技术。本文介绍了信息检索的理论以及工作步骤,在总结了前人研究的工作基础上,详细的阐述了关键步骤使用的查询扩展技术。

【关键词】信息检索查询扩展技术

一、引言随着计算机、互联网技术的快速发展,其应用越来越广泛,因此,互联网络上的信息也日益增长,网络技术的应用大大的拓宽了人们日常生活中获取信息的通道,但是,海量的信息虽然为人们的工作、生活和学习带来极大的便利,但是也给人们带来了极大的困扰,使得人们在泛滥的海量信息利用过程中,无从下手,不知所措。目前,如何从海量信息中检索出有用的信息,已经成为诸多科学研究者的研究热点,成为信息检索领域的一个重要的课题。搜索引擎的诞生为人们进行信息检索提供了便利的工具,但是,由于信息检索过程中,搜索引擎面对的是用户输入的信息,由于各种用户的学识不一,因此其递交的查询信息表达不完整,与网络上的文档信息无法匹配,无法发挥信息检索的优势。未解决这个问题,一些学者提出了查询扩展技术,该技术可以使用相应的方法和策略,初始化用户查询词,对其进行重构和扩展,从而可以大大的改善信息检索性能,提高信息检索结果的准确性。本文详细的介绍了现代信息检索理论和相关的查询

扩展技术,为人们进行信息检索提供参考,具有非常高的应用价值。

二、信息检索理论信息检索技术以一定的数据组织方式,对数据进行组织和排列,并针对用户的需求定义等输入,查找用户需要的文献信息。信息检索的本质是用户根据自身的需求,使用检索方法,查找需要的信息,目前在信息检索的过程中,提高信息检索的效率和有效性成为诸多科学工作者研究的重点,许多研究科学工作者已经提出了很多的信息检索分析方法。

信息检索的过程通常由以下几个基本的步骤组成:1.分析检索课题。信息检索开始,需要审视课题涉及的相关内容。

明确用户的信息需求,定位用户的查找目标,其中包括需要清楚信息检索过程中所需的信息类型,包括语种,文献类型,出版时间等各个相关信息要求,以便查找的结果准确无误。

2.选择合适的检索系统和信息数据库。在分析信息检索的目的之后,明确了信息检索的范围和基本要求,我们就要针对这些内容选择一个合适的检索引擎以及信息库,正确的引擎选择,使得提高了检索效率,选择正确的信息库,保证了信息检索的准确性。

3.选择合适的检索方法。在信息检索过程中,检索方法对检索结果起着决定性作用,常用的检索方法有主题检索、题名检索以及分类检索等,根据用户检索的目标需求,根据学科的发展现状,选择合理的检索方法,是非常重要的。

4.查找文献线索,并获得检索结果。在完成上述步骤之后,信息检索工具已经输出了文献检索的基本索引,这些索引可以根据各种

标识进行排列,因此我们就可以获得详细的检索结果,比如文献号、文献篇名、文献出处等基本内容,基于文献线索对其进行整理之后,我们就可以获得检索结果。

三、查询扩展技术迄今为止,人们常用的信息检索系统,都是基于关键词等符号进行匹配的方法进行信息检索,因此,当用户输入的查询词在被检索的文档中出现,文档才能被系统检索出来,但是人类使用的自然语言中,大多数时候,同样的概念会因不同的情景而表示不同的意思,另外还有不相同的概念在某些特殊的情况下会表示出相同的意思,这就使得信息检索的查准率及查全率大大降低,对系统的检索性能产生影响。运用查询扩展技术可以有效的解决在信息检索过程中出现的用词不匹配和术语歧义等问题。使用信息检索系统来进行检索以前,首先要通过某些方式及策略同时根据用户查询的信息将与用户查询相关联的词和词组组成新的查询,然后通过对扩展之后的查询对文档进行再次检索,使得系统检索出更多与之相关的文档。随着近年来信息技术的飞速发展。

国内外的专家学者对查询扩展的方法提出了很多建议,大致可总结为三种:基于全局分析的查询扩展、基于用户相关反馈的查询扩展和基于伪相关反馈的查询扩展。以下将分别介绍这三种查询扩展方法。

1.全局分析的查询扩展。在信息检索过程中,人们提出查询扩展的目的是为了解决检索过程中用户输入的词无法匹配等二义性问题。

为了提高查询扩展技术准确度,最早使用的优化查询扩展的方法是全局分析查询扩展,该方法的基本思想可以描述为:针对所有的信息文档中的词或者是词组进行关联分析,然后计算每对词或者词组之间的关联度,进而构造叙词表,从表中选择与用户输入的查询词关联度最大的词语作为扩展词,将该扩展词加入到原查询中,以便实现查询扩展。目前,比较有代表性的基于全局扩展优化措施的查询扩展技术使用的策略主要分为三种:基于潜在语义索引、基于全局聚类方法和基于相似性词典的方法。

2.基于用户相关反馈的查询扩展。在基于用户相关反馈的方法针对查询进行优化扩展的过程中,系统首先根据用户输入的原始查询词初步检索文档集,并且将检索结果输出给用户,用户根据初始结果进行关联性判断,只需判断排在前面的n篇文档,最后,系统能够自动的采用某种策略或方法,从用户选择的最相关文档集合中提取检索词,以便完成用户的检索目的。在基于用户的相关反馈的查询扩展过程中,用户随时可以参与其中,因此使得最终查询结果与初始结果关系更加紧密,更能快速的达到用户的需求,该过程可以重复的迭代进行,以便在信息检索过程用户更能精确的定位自己的需求。

3.基于伪相关反馈的查询扩展。基于伪相关反馈的查询扩展通常也被人们称为自动局部分析的查询扩展,该方法的主要思想描述为:假设系统初始检索结果中的前n篇文章是关联文章,然后系统根据这n篇文档进行自动分析,基于分析结果为查询依据进行扩展。在基于相关反馈的查询扩展方法中,由于用户必须与系统交互,增加了

负担,二自动局部反馈方法则恰好解决了该问题,降低用户负担;同时,全局分析利用得到的全局关系词典进行扩展,局部分析则是使用两次查询的方法解决了扩展问题,因此二者相比,局部分析的计算量较小。目前。

该方法主要包括基于局部聚类的查询扩展和基于局部上下文分析的查询扩展两种策略,已经取得非常好的效果。

四、结语总而言之,__________随着信息技术的快速发展,计算机网络已经广泛的应用于人们的工作、生活和学习过程中,影响着人们的日常决策,为了能够从海量信息中获得有用信息,信息检索使人们首先的方法。因此,随着更多的科学工作者参与数据分析方法的研究,使得诸如自然语言技术越来越高,随着管理信息系统的应用,人们已经能够设计出具有友好交互界面的检索系统,因此人们进行信息检索的过程将会变得更加快捷有效。

参考文献:

何淑娟.基于XML信息检索技术的研究[J].信息技术.2011(01)

王婷.网络信息检索发展趋势[J].中国科技信息.2008(18)

严华云,刘其平,肖良军.信息检索中的相关反馈技术综述[J].计算机应用研究.2009(01)

张克状,刘友华,黄芳,李寅.一种面向用户兴趣的个性化语义查询扩展方法[J].现代图书情报技术.2008(08)

相关文档
最新文档