基于向量空间模型的信息检索技术

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于向量空间模型的信息检索技术

作者:张朝阳摘要:向量空间模型是信息检索技术中使用的最原始、最简单、最成熟、最有效的模型,它以文本的向量表示为基础展开后续的计算工作。本文讲解了文本的向量表示法和文本相似度的计算方法。在文本检索之前往往需要对原始文本集进行分类和聚类,以减小查找的范围,提供个性化的信息推荐。本文介绍了最常用的文本分类和聚类的方法。

关键字:向量空间模型,文本相似度,特征选择和特征抽取,文本分类与聚类

1.引言

信息检索的一般情形是由用户给出检索项,应用程序从系统文档集中查找与检索项最匹配(亦即最相似)的文档返回给用户。说起来简单,实际上这之间经历了复杂的过程,如图1.1所示。

图 1.1信息检索基本步骤

文本预处理包括去除标记,去除停用词,词根还原。比如我们收集的原始文档是一些HTML文件,则首先要把HTML标签和脚本代码去除掉。停用词指像“的”、“吧”这样几乎不包含任何信息含量的词。词根还原指把同一个词的动词、形容词、副词形式都还原为名词形式。经过词频统计后我们得到每个文档里包含哪些词以及每个词出现的次数。如图 1.2所示。

图 1.2文档词频统计

D表示文档,Wi,j表示单词i在相应文档中出现了j次。

在实际的根据关键词进行信息检索过程中,为避免在每篇文档中使用冗长的顺序查找关键词,我们往往使用倒排序索引,如图 1.3所示。

图 1.3文档倒排序索引

W 表示单词,Di,j 表示相应的单词在文档i 中出现了j 次。

建立倒排序索引后,就可以直接根据关键词来查找相关的文档。找到相关文档还需要对文档进行排序再返回给用户,即要把用户最希望找到的文档排在最前面。这里引入文档和查询词之间的相似度(Similarity Coefficient,SC )的概念,相似度越大,表明文档与查询词的相关度越大,与用户的需求越接近。

在信息检索的研究与应用中人们用到了很多常用的模型,包括向量空间模型、概率模型、语言模型、推理网络、布尔检索、隐性语义检索、神经网络、遗传算法和模糊集检索。向量空间模型是最原始最简单的模型,在实际应用中也十分的成熟,它通过把文档和查询词展示为词项空间的向量,进而计算两个向量之间的相似度。

2.向量空间模型

2.1.文档向量表示

向量空间空间模型由哈佛大学G Salton 提出,他把文档表示为一个向量:

11()((),(),...,())

i i i n i v d w d w d w d =n 表示文本特征抽取时所选取的特征项的数目。

w i (d j )表示第i 个特征项在文档d j 中的权重。

特征词频率用tf 表示,指特征词在一个文档中出现的频率。文档频率用df 表示,指出现某一个特征词的文档数量。显然tf 越大,特征词在文档中的权重就应该越大,而df 越大,表明特征词越不能表示文档之间的差异性,特征词对于文档的权重就应该越小。经过综合考虑调整之后特征词权重的计算公式为:()i j w d =tf ij 是第i 个文本特征项在文档d j 中出现的频率。

N 为全部文档的数目。

N i 为出现第i 个文本特征项的文档数目。

上述特征词权重计算公式实际上忽略了几外因素的影响:文档长度的差异,文档越长,其中包含的特征词权重就应该越小,因为单个的特征词越无法表示文档全部的特征;特征项长度的差异,一般来说较长的特征项能够表达更为专业的概念,应该赋予更高的权重,而有些短小的特征词虽然出现的频率较高,但往往包含的信息量较少;特征项在文档中出现的位置,显然出现在标题、摘要中的特征词应该赋予很高的权重。

2.2.文档相似度

把用户输入的查询关键词同样当成一个文档来处理,把它表示为一个文档向量。接下来的问题就是如何计算两个文档之间的相似度。下面介绍几个常用的公式。

内积法:

1(,)()

n

i j ki kj k SC d d w w ==×∑

余弦法:(,)cos(,)n i j i j SC d d d d ==距离法:

11(,)||n p

p i j ki kj k SC d d w w =⎡⎤=−⎢⎥⎣⎦∑上面公式中wki 表示特征项k 在文档i 中的权值。还有其他的计算方法如Dice 系统法和Jaccard 系数法,用的最多的是内积法和余弦法。内积法是计算两个文档向量的内积,内积越大相似度越大。由内积法引出的余弦法是计算两个文档向量之间的夹角,夹角越小相似度越大。

3.文本分类和聚类

文本分类和聚类是一种集机器学习、模式识别、统计分析和信息检索于一体的文本挖掘方法。它对于用户获取信息的作用表现在:(1)合理组织检索结果;(2)提供可视化多文档摘要;(3)加速检索过程;(4)个性化信息推荐。

3.1.特征选择

特征选择(feature selection,FS )和特征抽取(feature extraction,FE )是文本分类和聚类的首要任务,具有降低向量空间维数、简化计算、去除噪声等作用。文本特征提取与特征选择的区别在于:特征项选择是通过判断特征项的重要性来决定是否保留作为最终的特征项;特征值提取是直接使用线性或非线性的变换将冗余或者无效的信息映射到相对较少的维度上去。

特征项选择的方法有:文档频率(document frequency,DF )、信息增益(information

gain,IG )、互信息(mutual information,MI )、2χ(CHI)统计量、期望交叉熵(expected cross

entrop,ECE )。

文档频率是包含了特征项的文档数目,当文档频率低于某个设定的阈值时就把该特征项删除。在实际中一般不直接使用该方法,因为总体上稀有的单词可能在某一类文本中并不稀有,而且包含着重要的判断信息。

信息增益是一种在机器学习领域较为广泛的特征选择方法,是一个基于熵评估的方法,定义为某特征项在文本中出现前后的信息熵之差,其函数公式为:

相关文档
最新文档