向量空间模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息检索模型
Information retrieval model
Document: 文档集合 Query: 查询集合 Frame: 对文档和查询建模的框架 Ranking: 排序函数,给查询 qi 和文档 dj 之间的相关度赋予一个排序值
IR Model = < D, Q, F, R(qi,dj) >
对长文档有利 内积用于衡量有多少词项匹配成功,而不计算有多少词项匹配失败 长文档包含大量独立词项,每个词项均多次出现,因此一般而言,和查询式 中的词项匹配成功的可能性就会比短文档大。
相似度计算 – 余弦相似度
相似度计算 – 二值化
VSM 优缺点
优点: 简洁直观,可以应用到很多其他领域(文本分类、生物信息学) 支持部分匹配和近似匹配,结果可以排序 检索效果不错
缺点: 不适合处理过长的文件,因为近似值不理想(过小的标量积以及过高的次元) 检索词组必须要完全符合文件中出现的词组;不完整词组(子字串)会产生false positive 语言敏感度不佳;情境相同但使用不同语汇的文件无法被关连起来,这产生所谓的 false negative 无法表示 Term 在文档中出现的顺序 权重带有主观直觉性, 标引项之间的独立性假设与实际不符:实际上,Term的出现之间是有关系的,不是完 全独立的。如:“王励勤”“乒乓球”的出现不是独立的
权重计算
“俄罗斯频繁发生恐怖事件,俄罗斯的安全部门加大打击恐怖主义的力度。”
相似度计算 –来自百度文库内积
sim(D1 , Q) = 2*0 + 3*0 + 5*2 = 10 sim(D2 , Q) = 3*0 + 7*0 + 1*2 = 2
相似度计算 – 内积
内积值没有界限 不象概率值,要在(0,1)之间
谢谢! 谢谢!
IR Model: 如何对查询和文档进行表示,依照用户查询,对文档集合进行相关排序 的一组前提假设和算法。本质上是对相关度建模。 本质上是对相关度建模。 本质上是对相关度建模
IR 模型分类
向量空间模型
Vector Space Model
模型
信息
文档集的一般表示
向量空间中的N个文档可以用一个矩阵表示 矩阵中的一个元素对应于文档中一个词项的权重。“0”意味着该词项在文档中 没有意义,或该词项不在文档中出现。
TERM 选择
Term是能代表文档内容的特征 Term粒度:Term可以是字、词、短语或者某种语义单元(比如:所有同义词作为 1维),最简单的是采用全文标引(full text indexing),即用文档中出现的所有的字 或者词作为标引词。 降维:VSM中向量的维数很大(以中文词索引为例,向量维数会上10万)时,往往 也同时引入了很多噪音。因此,实际应用中,会采用一些降维策略: 去停用词 对英文进行词干还原 只选择名词作为Term 将Term聚成的不同类作为一个个Term 选择出现次数较多的词作为Term等等 切词
权重计算 - TF-IDF
Term Frequency–Inverse Document Frequency
------该词出现次数 ------所有字词出现次数和
------——--文件总数 ----包含词语的文档数
Gerard Salton[1]
(1927-1955)
[1] G. Salton, A. Wong, and C. S. Yang (1975), "A Vector Space Model for Automatic Indexing,“ Communications of the ACM, vol. 18, nr. 11, pages 613–620. (Article in which a vector space model was presented)
FREE OPEN SOURCE SOFTWARE
Apache Lucene Lucene是一套用于全文检索和搜寻的开放源码程式库,由Apache软件基金会支持 和提供 SemanticVectors 基于Lucene 的概念标注算法提供语义分割功能 Gensim 一个 Python+NumPy 框架,包括了TF-IDF, 潜在语义索引,随机推测和潜在边界 分配等 的增量算法。 Compressed vector space in C++ Text to Matrix Generator (TMG) [5] SenseClusters
相关文档
最新文档