信息检索中的特征提取过程

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
条 w不出现,() i P 为 类值的出现概率,(n ) c ; Pcy 为词条出现时属于第 i w 类的条件概率。 这个定义比较综合地应用在二元分类模型中, 这种计算包括估算给定词条类的条件概率 和在这个定义中的嫡计算。 概率估计有时间复杂度 O N 和空间复杂度 O N , N是训练 () ( )其中
法比 较复杂, 检索操作执行速度慢, 随着大童新词语的加与 会使概念空间上的检索性能下降,
因而它要求初始的训练集足够大 , 也可当新词语太多时重新进行 S D计算。 V
3 结论
本文主要阐述了信息检索中特征提取的方法, 这些方法同样可以应用于对图像、 声音等数 据的检索系统中。 随着 It nt ne e的迅速发展和网络信息的不断丰富, r 为了帮助用户有效地获取 有用信息, 对于互联网上信息检索的研究已经成为一个重要课题。
2 7 9
24 隐含语义索引 .
通过以上方法所获得的特征项仅仅依赖于表面的共现信息, 由于自 然语言的多样性 , 例如 词汇的同义和多义现象, 可能特征项之间意义相近 , 甚至存在包含关系, 即彼此的独立性不强 , 概括性差, 很难全面地反映文本内容。 传统信息检索技术是把用户提供的术语与文档词条相匹配, 即以关键词为基础的信息检 索技术。问题是用户所提供的术语可能不在用来索引文档的词条中, 而从语义角度来看, 这些 术语又与索引文档的词条相似, 甚至具有同样的语义。因此, 基于关键词的信息检索技术提取 的信息常常缺乏准确性, 并且容易丢失相关信息。 解决传统信息检索技术的不足的方法之一是隐含语义索引。L I S 方法不仅使用了词条出 现的信息, 而且提取出了在数据中存在的某些基本的潜在语义结构信息。 它使用强有力的充分 自动的统计方法, 揭示了词条和文件的联系, 创立了一个语义或概念空间, 利用词条和文件的 语义匹配索引和提取信息。 实际上 ,S 就是用 T维词条空间中前 k LI 个主分量方向来近似原始 的T维词条空间, NX 使用 T的文档一词条矩阵来估计这个方向。 S 方法不仅降低了空间维 LI 度, 而且引入语义信息, 提高了检索的精度. LI S 方法的步骤如下: () 1 运用上述方法构造文档一词条矩阵, 使矩阵的列是文件中出现的词条的集合, 矩阵的 行是各个文档的集合。

r L



,. 几 J
一I
F L
0 ‘ J .

K lr Shm M. r cil Ca ii Dcm n U i vr w o s I, c d g o oe D aa i He r c l lsy g u et sg F W r . Po ei s l , ia h ay sfn o s n e e y d n re n f te h e aoaC ne ne Mah e ri , 7 h 1t It ntnl f ec o ci Lan g 19 4 nr i o r n n e n 9 Y n Y, e e J A m a t e d o Fa r Sl tn et eoi tn It c d g ag Pdr n C pr i Suy et e e i iT x C t rao. Poe i s e s . o av t n u eco n a g z i n r e n
P( A ) w c ; M (, =习p g w) c) I ) wc (l P( P(; co ; )
其中 PwA ; c 定义为 w和c的同现概率,( ) ( ) i Pw 定义为 w出现的概率,() Pc定义为 。 出现 的概率。从概率上说, 如果某个词和某一类别在分布上统计独立, Pw八 i ( ) 那么 ( c =P w X ) P ()从而有MI c=0也就是说词w的出现对于预测类别。 。, 。 ( ) , w, 没有什么信息量。 在实际计算 中, 这些概率可以用训练集中相应的出现频率予以近似。 互信息没有考虑单词发生的频度, 这是互信息一个最大的缺点, 因为它造成了互信息评估 函数经常倾向于选择稀有单词。
q=O ,一 VS ‘ 。
隐含语义索引适用于以下几个方面信息的检索: () 1 缺少特征描述的信息.
28 9
() 2 用户的查询和被检索信息中含有大量噪音的场合, 即信息的查询和信息源中含有大 量无关的条 目。 () 3 不需要翻译的不同语言的交叉检索, 主要应用L I S 创建的语义空间。 对于同一语义运 用不同语言描述 , 其在语义空间中的位置是一致的, 如果把各种语言建立的语义空间中同一事 物的概念加以适当标记索引, 通过适当的转换, 实现不同语言的交叉检素是完全有可能的。 采用隐含语义索引法检索, 检索精度要高于按关键词匹配方法进行的检索, 可获得更好的 检索效果. 但这种方法采用潜在的语义结构, 缺乏直观意义, 不便理解, 而且隐含语义索引法算
信息检索中的特征提取过程
陈建 王东龙 李茂青
厦门大学自动化系, 厦门, 10 3 05 6
摘 要 在信息检索中, 被广泛采用的向量空间模型的核心间题就是如何进行特征提取。本文着 重讨论了特征提取的方法, 并针对基于关键词的传统信息检索技术的不足, 应用隐含语义索引方 法, 获得数据中的潜在语义信息, 提高检索的精度, 同时提出了隐含语义索引在实际应用中存在的
2 特征提取
特征提取操作一般是根据词条出现频率的特性来进行, 所提取的词条应具有以下两个特
性:
() 词条能够确实表示文档内容; 1 完全性: () 词条能够区分各个文档. 2 区分性: 基于以上两点可以进行一些初始特征筛选。在所有文档中都有很高出现频率的常用词和 在所有文档中出现次数很少的稀有词都不适合作为特征项。 在具体操作过程中, 通常是建立一 个包含常用词的s p t 并设立一个词频瓶颈值, t - 表, o l i s 然后将文档中所有属于s p l 中的 t -i o s t 词和所有词频小于瓶颈值的词全部删除。 即使通过初始特征筛选, 仍会留下大量的特征, 所以有必要对特征进行进一步的筛选。通 常采用的方法是, 用某种权重函数独立地对每个特征打分, 然后按照分值的高低, 提取预定数 目 个分值最高的特征。下面分别介绍一些常用的权重函数— T -IF ] F D C, Z 信息增益C, s互信 7
息[以 ‘ 及隐含语义索引(a nSm nc ei , , 〕 Lt t at I x gLI e e i n n SP3 d
21 信息增益 .
信息增益在机器学习中常被用作特征词评判的标准, 它是一个基于嫡的评价方法, 涉及较
26 9
多的数学理论和复杂的嫡理论公式, 定义为某特征在文档中出现前后的信息嫡之差。 根据训练 数据, 计算出各个特征词的信息增益, 删除信息增益很小的词, 其余的按照信息增益从大到小 排序。如果以信息增益最大者为根结点, 建立一棵决策树, 就可以进行决策数的分类挖掘。 信息增益评估函数被定义为 r, 、 今 。 , , 1 、 _ 、 _ 。 ,、 n , ( 一互 - - -
文档的数量, 是词条的长度, L 嫡计算有时间复杂度 O L ) (m ,
22 互信息 .
互信息是普遍应用在相关词统计语言建模中, 假设有词条 w和类 C 是 w出现时属于类 A 。 的次数, Y是 w出现时不属于类 c 的次数, Z是类 。 中不出现 w的次数 , N是总的文档数, w 和。 互信息定义为
L w一L ; P;一 k 合r h ’ I J (’ r J ( k " 2 l} lc c0 ) , g W c ;
A 1 2 W) 9 0
、 c A 尸(; w)
一Pw) (八 , (- 1w, (, c w)9' (; ) 艺P 、 12 c A 0 一 -一 P
{ =1 c二 表示目 ;, } 标空间的类集。 * , 为特征词条, V 其中Pw 为词条出现的概率,, () w 表示词
2 3 F D . T -I F权
根据完全性可知词条权正比于词条在文档内的频数, 根据区分性可知词条权反比于该词 条在文档集合中出现的频数。从而得出词条权的两个主要组成部分是:
() Tr Fe ec,F , 1 词条频数(e r u yT )就是指词条向 m q n 量中的每个词条分量乘以 这个词条在
文档中出现的频率;
() 2 文档频率倒数( vr D cm n FeunyIF , I e e u et qec, )它的典型定义是 l ( /k n s o r D o N n )也就 g ,
是包含词条 k的文档占整个文档集合的比例的倒数的对数, N为文档总数,、 n 表示词条 t的 ‘ 文档频数。IF权偏向于仅在很少文档中出现的词条。使用 IF的对数而不是直接使用 IF D D D 的原因是使这个权对文档总数 N不特别敏感。 T -IF权就是特定词条在特定文档中的 T F D F权和IF权的乘积, D 常用T -IF权作为 F D 词条的权值。
Байду номын сангаас
A 二 US T V
A =认5VT , S , , 其中U 是 U的前 K列, 是 V的前K列,‘ ‘ 叭 S 包含 A的前 K个最大的奇异值, 产 , U U二
1 产, , , V =1 V k K为语义空间的维数.
K值选择具有关键的意义, 可以降低矩阵的维数, 还可以消除信息中的噪音。U 和 V 分 、 k 别说明文件和词条在该空间中的位置, 对角矩阵S 的奇异值常用来刻度该空间的坐标轴。 , 在这个空间中, 语义紧密相关的词条、 文件彼此靠的很近。 () 3 确定查询请求在语义空间中的位置 把用户的一个查询 Q看成一个虚拟的文档, 首先根据它包含的若干词条, 得到它的文档 一词条向量 O, 然后运用下列公式求出它在语义空间中的位置。
-1 习
一百 L
口 d
o te h entnl f ec o Mah e ri , 7 f 1t It aoaC ne ne ci L a n 19 h 4 nr i o r n n en g 9 D e e r , u a S T ,F ra G W. Lnae T K , a h a R Idx g妙 Lt t e w t S D m i . uns r e . s . . , adur . H r m n nei . s . n an e
不足 。
关键词 信息检索, 向量空间模型, 隐含语义索引
1 引言
G Sln 提出的向量空间模型( e o Sa Moe V M)l . t ao V c r c dl S I是将文档( cm n) t p e , ' d u et与词 o 条( r ) t m 看作文本的两个基本组成部分, e 以文档为对象, 词条为变量构成文档一词条矩阵, 每 个文档都以向量形式表示, 其中的向量元素为词条权( 即该词条相对文档的重要程度)特征提 。 取就是从文本中提取出可以表征文本的一系列词条并确定词条权的过程。本文主要讨论信息 检索( ) ( 中特征提取的过程。 I R
() 2 奇异值分解(i ur u Dc psi , P3 S gl V l e m otnS D n a ae o i V o
S D是处理矩阵分解的强有力的工具。S 的核心步骤是通过 S D把文档一词条矩阵分 V LI V 解成 3 个矩阵。 其中 A为 NXT的文档一词条矩阵, R是 A矩阵的秩, 假定 U为 NXR的正交矩阵, V为 T R的正交矩阵, 为 R X S XR的对角矩阵, S 并且 矩阵的对角矩阵元素全部由正值构成, T UU =1V V=1 ,T 。用 U表示每篇文档间的相互关系, V表示各个词条间的相互关系。 由于矩阵 U和 V是线性独立的, 为了减少计算量, 可以用近似矩阵 A 来代替 A进行语 k 义分析 :
相关文档
最新文档