信息检索模型研究综述_孟凡淇

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

信息检索模型研究综述

孟凡淇

(盐城师范学院数学科学学院,江苏盐城224002)

摘要:随着互联网的发展和普及,信息检索技术越来越多地被应用于互联网搜索,用户群也由专业人士扩大到非专业网民,特别是在Google,百度等商业化搜索引擎取得巨大成功之后,信息检索领域进入一个全新的蓬勃发展时期。文章主要研究综述了布尔检索模型、向量空间模型、概率检索模型和统计语言模型四类检索模型的实现方法及其不足。

关键词:信息检索;模型;实现方法

中图分类号:TP319文献标识码:A文章编号:1673-1131(2013)03-0076-01

1布尔检索模型

布尔检索模型(Boolean Retrieval Model)是最早提出的一种比较简单的信息检索模型,其数学理论基础是集合论和布尔代数。它将文档看成由词(Term)组成的集合,如果词典中的某个词在文档中出现,标识为1,否则标识为0,这样词典中的词和所有文档就构成了一个关联矩阵(Incidence Matrix)。用户的查询用词和布尔运算符组成的布尔表达式(Boolean Ex-pression)表示,布尔运算符有AND、OR、NOT三种,信息检索系统根据布尔表达式布尔运算的结果来决定是否将文档作为检索结果返回。

布尔检索模型比较简单,在早期被广泛应用于文献数据库的检索中,现如今仍然用于某些著名的文献数据库中,比如PubMed,但是布尔检索模型有一些明显的缺陷和不足,首先布尔检索模型基于布尔表达式的真假对文档进行检索,每个文档要么和查询相关,要么和查询不相关,而无法量化地表示文档和查询相关的程度,因此无法按照相关性对返回的文档进行排序;其次在布尔检索模型中,要进行高效率的检索,用户对自己要检索的话题要非常了解并具备一定的专业知识,并且能够把自己的信息需求准确地转化为布尔表达式,这些对于非专业的用户是很难做到的。

布尔检索模型的这些缺陷决定了它不适合应用在现在主流的互联网搜索中。

2向量空间模型

向量空间模型(Vector Space Model)最早由Gerard Salton 提出,如今已成为现代信息检索系统中最常用的模型,Salton 等人基于向量空间模型开发的SMART信息检索系统也成为后来信息检索实验系统的样板。

同布尔检索模型一样,向量空间模型也将文档看成由词组成的集合,不同的是向量空间模型将文档和查询都表示成由词组成的向量,与向量空间模型紧密相连的是信息检索领域里最重要的两个概念:词频(Term Frequency)和逆文档频率(Inverse Document Frequency)。词频是指某个给定的词在文档中出现的次数,该值通常会利用文档长度、取对数或者最大TF值进行归一化(Normalized)。逆文档频率是对一个词重要程度的度量,IDF值越大说明该词越重要。

向量空间模型将文档和查询都表示为向量,因此线性代数中对向量的运算都可以直接应用于信息检索领域。一个最直接的应用就是通过计算查询向量和文档向量之间夹角的余弦值作为查询和文档的相似度量。

向量空间模型、词频和逆文档频率几乎构成了现代信息检索的基础,它们简单,易于实现和量化,并在实际的系统中取得了较好的效果,现有的绝大多数商业或实验信息检索系统都是基于向量空间模型。向量空间模型的一个缺点是它的假设词与词之间是独立的,但这个假设与实际的应用场景是相悖的。3概率检索模型

概率检索模型(Probabilistic Retrieval Model)最早由Maron 和Kuhns于1960年提出,试图利用概率论来解决信息检索的相关性排序问题,后来Robertson和Sparck Jones又在此模型的基础上提出了二项独立模型(Binary Independence Model)。

概率检索模型的基本思想是给定文档D,定义一个指示D 是否与查询相关的随机变量R(R=1表示D与查询相关,R=0表示D与查询不相关),那么将文档按照概率值P(RI10)降序排序,即可实现相关性排序。M.Cooper和S.E.Robertson将这一基本思想形式化,提出了概率排序原则(Probability Rank-ing Principle),所有的概率检索模型都是基于概率排序原则的,只是采用的估计概率值P(RI10)的方法不同。

很多实用信息检索系统采用的相关性排序算法基于概率检索模型,比如非常著名的BM25和BM25F算法就是以概率检索模型为基础,这两个算法也会在资讯相关性排序中用到。4统计语言模型

由于概率检索模型依赖于一个相关性指示随机变量R,而在实际的信息检索系统中文档集的相关性信息不容易获得,因此就有研究者将在语音识别、统计机器翻译中取得巨大成功的语言模型(Language Model)应用于信息检索中。Ponte和Croft于1998年首次将语言模型应用于信息检索。

与概率检索模型不同,给定文档d和查询q,首先为d建立一个语言模型Md,即文档中词汇的概率分布,这样查询q 就可以看作Md的一个随机取样,因此由估算概率p(R=1/D)改为估算概率P(q/Md)。

统计语言模型以一个全新的视角看待检索问题,为相关性排序算法的设计开辟了一个新的方向,其最大的难题在于要利用大规模的训练数据估计语言模型Md,虽然研究者们提出了很多数据平滑技术来解决这一问题,但离实用的距离还比较远,目前统计语言模型多用于一些实验信息检索系统中,还没有实际商用信息检索系统采用统计语言模型。

5结语

本文通过对布尔检索模型、向量空间模型、概率检索模型和统计语言模型四类检索模型的对比分析,总结出向量空间模型和概率检索模型在实际商用中比较广泛应用,布尔检索模型和统计语言模型应用较少。

作者简介:孟凡淇(1983-),男,黑龙江绥化人,研究方向为软件工程。

2013年第3期(总第125期)

2013

(Sum.No125)信息通信

INFORMATION&COMMUNICATIONS

76

相关文档
最新文档