用户信息检索中相关性反馈模型研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

用户信息检索中的相关性反馈模型研究

摘要:本文提出一种通过获取用户建立和更新信息相关反馈模型的思想。通过观察用户在浏览web 页面时所采取的动作来获取反馈信息,利用检索算法将用户信息量化,并利用这些信息建立与更新用户模型。一方面用户对检索结果的评价输入到用户模型上,另一方面,检索系统通过学习跟踪用户信息并优化用户模型。

关键词:信息检索相关性反馈用户需求

中图分类号:g203 文献标识码:a 文章编号:1674-098x(2012)09(c)-0050-02

当今进入了信息时代,随着网络技术与智能技术不断创新计算机应用环境,网上关键词不能按需要进行扩检、缩检或作相关检索,从而达不到理想的检索效果,目录型网络信息检索分类处理跟不上信息扩张的速度且类目难以统一组织。高质量的信息检索需要用户提供准确的兴趣描述,然而面对今天浩如烟海的信息,信息技术领域的一个热点问题就是如何帮助用户高质量地检索,以获取真正有用的信息,这样可以节省科研时间,提高工作效率,同时避免重复研究,加快科技创新的速度,充分挖掘分析信息从而制定高明的市场谋略。近年来,各种学者研究出基于各种检索模型下的反馈方法,均已成为当前能够产生实效的新研究课题。

1 相关性反馈概念和原理

信息检索的种类有许多种,但对于任何一种方法,其根本内容都是一样的,即检索项与标引项的匹配问题。对事先组织好的文档,

可以按用户提出的检索条件去进行匹配运算,符合条件的即为命中,否则为不命中。检索过程就是对记录的内容再细分的过程,而检索条件就是细分的根据。对于同一个检索题目,可以产生很多种方法,其反映了标引的逆向过程。

如图1所示,用户需要的内容主要通过信息检索来实现,但在检索的过程中存在一些不确定因素从而使该目标无法实现。自然语言的复杂性和模糊性是影响检索系统性能的根源,其中包括文档和查询的表达方式、文档和查询相关性的匹配能力、查询结果的排序和用户进行相关反馈的机制等。

就这种检索系统来说,当前的信息检索工具普遍存在这样的一些问题。

(1)检索比较模糊,精准性不强。用户所需要的文献可能由于计算机系统检索精确性低而不能完全检测到,而不相关和相关度较低的文档则被频繁的检索出来。

(2)检索工具在编制技术上存在问题。比如,只反映参考文献的第一作者,若从第二作者入手查,就无法使用检索工具;同一来源在索引中反复著录多次,浪费了许多篇幅,不经济;同名著者不能区分,同一作者的不同名字不易控制和合并,等等。

(3)无法实现一次性复杂检索。传统的信息检索系统允许多次简单条件进行“二次检索”,即在第一次检索的基础上,根据检索要求,在二次检索框中输入相应的检索词再次进行检索,逐步缩小范围。

与传统的检索方式相比较,基于用户的信息检索具有以下优势:(1)利用反映用户信息需求的特征来进行检索。

(2)相关反馈检索,即根据检索库中各个被检索单元与用户检索需求的相关程度而二次检索。

传统的信息检索通常是不区分用户所处的社会环境、受教育的程度和个人的能力这些因素而进行检索的,因而大多数用户无法从检索方法、检索策略和检索结果中获取个人的需要。例如,输入“番茄”关键词查询有关番茄的信息,得到的结果中一定含有“番茄”,而“西红柿”、“圣女果”都可以表达相同的概念,却由于词形上的差异不能满足关键词匹配的要求。又比如“航天飞机”和“太空梭”虽然指的概念是一样的,但在中文检索工具上用“航天飞机”是查不到“太空梭”的主页的。显然,相关反馈检索是相当有用的。

在改进的检索系统中用户可以评估文档,并且把信息反馈到检索系统中,另一方面系统通过获取用户感兴趣的领域和用户的检索行为建立用户模型库,并执行一次新的查询。

相关反馈技术能够提供更为智能化、知识化的服务的技术,它可以使检索性能得到很大的提高,在检索过程中,它提供了一个受控查询改变的过程,在强调某些重要的检索词的同时,削弱了另外一些检索词。系统根据用户的查询要求返回检索结果。用户对检索系统进行评价和标记,并将这些信息反馈给系统,将查询操作划分成一个个小的查询过程,以逐渐接近用户想要的目标文档。系统则根据这些信息进行学习,并返回新的查询结果,从而使检索结果更加

满足用户的要求。在此过程中系统需要为用户建立模型以用来存储用户的兴趣、检索习惯、用户背景等信息,用户所要做的工作是处理文档所包含的思想和概念。

首先,用户提出一个查询请求,检索系统开始进行原始的查找,检索系统根据用户文档修改用户查询条件,并对用户提问查询进行重新查找;其次,用户罗列出返回的那些内容是关联性大的,然后检索系统会自动的使用其中检索词来进行扩检查询,基于用户相关性来形成新的查询。通过这种用户与相关反馈系统的相互作用不断完善和精确用户的查询请求。同时,相关反馈过程也是一个不断重复的过程。我们要解决的重点是,怎样收集并组织相关文献,怎样优化查询,怎样选定新的检索词,而相关反馈模型检索能比较完善的解决了这个问题。

2 基于用户的相关反馈模型机制

检索系统通过观察用户与系统之间的交互动作获取用户的个人兴趣,从而利用相关反馈来扩展对用户的查询。因而基于用户的相关反馈模型能够根据用户的使用情况,适时调整系统的主题和全局模式,以满足用户的需要,将使系统更加灵活。例如,当全社会掀起创建和谐社会时,对于互帮互助、雷锋精神相关的文献需求量可能会增加;在进行高科技技术学习时,可能对航空航天相关文献的需求又会增加。对于这种需要,虽然事先无法预料,但可以通过对用户检索内容的分布情况的分析来对主题和全局模式进行调整。

2.1 采集用户查询行为信息

在进行采集用户行为信息前要进行需求分析,即明确采集目标。需求分析是整个信息采集的出发点,也是整个信息采集工作效率高低和成败的关键。在采集过程中根据信息采集的需求不同,要采用不同的采集。不同类型、不同内容的用户信息,获取的途径和方法也不一样。用户查询行为的采集应采用调查问卷、启发式采集、现场搜集等方式来获取,例如用户的移动手持设备,方便用户,充分发挥手持设备的优势,利用拍照和录音功能实现用户查询行为信息采集、信息采集的“移动化”、“零手写”。利用河南移动公司的设备定位技术,实现信息采集地点的自动定位,提高信息采集的效率。采用查全率和查准率来对反馈技术在经过前处理的检索模型和

没有经过前处理的模型上的有效进行分析。

查全率=检出相关信息量/系统中相关信息总量×100%

查准率=检出相关信息量/检出信息总量×100%

根据实验结果可以看出基于反馈技术在信息检索模型上是有效的,但是实验结果说明该种方法还需进一步的论证,从而提高查全率和查准率。

经过比较可以得出结论:前处理技术一定程度上提高了相关反馈的查准率,而查全率和未经过处理前的模型差不多。

2.2 用户检索结果的相关度研究

在实际检索中,假设用户检索最终结果的数量超过了一定的条数,或者页码过多,那么用户只能重点浏览前面的检索结果,而对后面的内容漠不关心。因此,就要对检索结果进行相关度排序,把

相关文档
最新文档