现代信息检索第3章-IR模型(再次再次修正版)
2019-2020年人教统编信息检索课件第3章课件
3.1.1因特网基础
1997年—今,是Internet在我国最为快速发展的阶 段。国内Internet用户数97年以后基本保持每半年翻 一番的增长速度。
2010年7月15日,中国互联网络信息中心(CNNIC)在 京发布了《第26次中国互联网络发展状况统计报告》 (以下简称《报告》)。《报告》数据显示,截至 2010年6月,我国网民规模已达4.2亿,互联网普及率 进一步提升,达到31.8%。我国手机网民半年内新增 4334万,达到 2.77亿人,增幅为18.6%。手机上网已 成为我国互联网用户的新增长点。
3.1.1因特网基础
手机网民成为拉动中国总体网民规模攀升的主要动力。 《报告》显示,截至2010年6月底,手机网民用户达到 2.77亿,在整体网民中的占比攀升至 65.9%,相比2009年 底增加了4334万人,增幅达18.6%,其中,大约有4914万 的网民只使用手机上网,占网民总数的11.7%。移动互联 网展现出了巨大的发展潜力。
3.1.1因特网基础
1994年—1996年,起步阶段。1994年4月,中关村地区 教育与科研示范网络工程进入Internet,从此中国被 国际上正式承认为有Internet的国家。之后, Chinanet、CERnet、CSTnet、Chinagbnet等多个 Internet网络项目在全国范围相继启动,Internet开 始进入公众生活,并在中国得到了迅速的发展。至 1996年底,中国Internet用户数已达20万,利用 Internet开展的业务与应用逐步增多。
如Medical World Search、Medical Matrix等。
3.1.3 Web通用检索工具
2.工作原理
定期运行搜索软件,收集信息。 利用索引软件进行自动标引,建立数据库。 在Web上建立检索界面,由用户输入检索式。 通过检索软件进行检索,给出结果。
现代信息检索教程第三章(中文10春)
检索方法 全国报刊索引》编排方式是按类编排, 《全国报刊索引》编排方式是按类编排,同时每期后 面附有著者索引, 面附有著者索引,因此该检索工具的检索途径主要有分 类途径和著者途径。 类途径和著者途径。 检索有关国内“音乐事业”的文献。 例:检索有关国内“音乐事业”的文献。 检索工具《全国报刊索引》哲社版2008 12期 2008第 ①检索工具《全国报刊索引》哲社版2008第12期 检索途径: ②检索途径:分类途径 检索过程:查分类目录,一级类艺术J ③检索过程:查分类目录,一级类艺术J,二级类为 J6音乐,其下又有三级类J69音乐事业,页码P295,翻 J6音乐 其下又有三级类J69音乐事业 页码P295, 音乐, 音乐事业, 到该处浏览, P295得 篇文献是切题的。 到该处浏览,在P295得3篇文献是切题的。 检索结果: 篇相关文献,顺序号为:081217152、 ④检索结果:得3篇相关文献,顺序号为:081217152、 081217153、 081217154。 081217153、 081217154。
返回目 录
4.其它重要百科全书 钱伯斯百科全书》 《钱伯斯百科全书》、《美国学术百科全 世界图书百科全书》 书》、《世界图书百科全书》、《计算机 科学与技术百科全书》、《柯克-奥斯莫化 科学与技术百科全书》 柯克工大全》)、《布罗克豪斯百科全书》 工大全》)、《布罗克豪斯百科全书》、 拉鲁斯大百科全书》 《拉鲁斯大百科全书》、《苏联大百科全 书 》 等。
返回目 录
百科全书(Encyclopedia) 二、百科全书(Encyclopedia) 百科全书是汇总浓缩人类所有知识门类或某一知 识门类的全部知识、 识门类的全部知识、按辞典形式编排的大型参考 工具书。以其知识广博、资料精确、释文严谨、 工具书。以其知识广博、资料精确、释文严谨、 文字简明、体例严密, 文字简明、体例严密,以及兼具多种参考工具书 功能的特质,被称为“工具书之王” 功能的特质,被称为“工具书之王”、“精简的 没有围墙的大学” 图书馆” 图书馆”、“没有围墙的大学”,是参考工具书 中最重要的类型, 中最重要的类型,已成为衡量一个国家科学文化 发展的尺度之一。 发展的尺度之一。
信息检索与利用-第三章
中国古代字书(字典、词典)
以字形为系——《说文解字》系统 继(东汉)许慎《说文解字》后,主要有晋吕忱《字林》、北魏江 式《古今文字》、南北朝梁顾野王《玉篇》、宋司马光的《类篇》、明 梅膺祚的《字汇》、清张自烈的《正字通》和张玉书等奉敕编纂的《康 熙字典》等。 以字音为系——韵书系统 韵书的特点是对汉字审音辨韵,依韵编排。主要有三国魏李登的 《声类》、晋吕静的《韵集》、南北朝梁周颙的《四声切韵》和沈约的 《四声谱》、隋陆法言的《切韵》、宋陈彭年等人的《广韵》和丁度等 人的《集韵》、金王文郁的《平水新刊礼部韵略》、元熊忠的《古今韵 会举要》、明乐韶风的《洪武正韵》、清李光地的《音韵阐微》等。 以字义为系——雅类系统 相传汉初学者缀辑周汉诸书旧文而成《尔雅》,是按事物性质将汉 字分门别类加以解释的字书,晋代郭璞和宋代邢昺为之注疏。有汉孔鲋 《小尔雅》和刘熙的《释名》(《逸雅》)、三国魏张揖《广雅》、宋 陆佃的《埤雅》和罗愿的《尔雅翼》、明朱谋玮的《骈雅》和方以智的 《通雅》、清吴王搢的《别雅》和史梦兰的《叠雅》等。
一、书 目
(二)书目的类型
古典书目:有官修书目、史志目录、私家书目、版本目录、推
荐书目等。 汉朝刘向在典校古籍时,撰有《别录》。后来,他的儿子刘歆以 《别录》为基础撰成《七略》,这是我国第一部分类目录。
一、书 目
现代书目:
1. 登记书目、通报书目、新书目录、推荐 性书目、书目之书目 2. 综合性书目、专题(学科)书目、地 方文献书目、个人著述目录 3. 馆藏目录、联合目录 4. 现行书目、回溯性书目、新书预告目 录、古籍目录 5. 图书目录、报纸目录、期刊目录、丛 书目录、方志目录、乐谱目录、非书资料目 录 6. 印刷型书目、机读目录、网络版书目
《信息检索模型》PPT课件
索引词(标引词,关键祠):可以用于指代文档内容的预选词 语,一般为名词或名词词组.
词干提取(英文中)
countries => country,interesting => interest
组合词: 北京大学
中文分词(word segmentation),或称切词,主要在中文信息
处理中使用,即把一句话分成一个词的序列。如,“网络与分
任何命题公式的主析取范式都是存在的, 并且是唯一的。
精选课件ppt
18
布尔检索模型
首先,将查询转化为一个析取范式DNF
范式存在定理任一命题公式都存在着与之等值 的析取范式和合取范式
精选课件ppt
17
离散数学相关概念
主析取范式 定义 形如A=A1∨A2∨……∨An
基中Ai(I=1,2,3……n) 为极小项 记为:∑(m1m2……m2n-1)
极小项 在n个变元的简单合取式中,若每个变元与其否 定不同时存在,而二者之一必出现且仅出现一次,这 种合取式叫做极小项
检索: 用 特别检索 户 过滤 任 务
浏览
布尔模型 向量模型 概率模型
结构化模型 非重叠链表模型 邻近结点模型
代数模型 广义向量模型 潜语义标引模型 神经网络模型
概率模型 推理网络模型 信任度网络模型
浏览
扁平式模型 结构导向模型 超文本模型
精选课件ppt
11
经典信息检索模型
布尔模型 向量空间模型 经典概率模型
精选课件ppt
13
布尔模型(Boolean Model)
精选课件ppt
14
布尔检索模型
一种简单的检索模型,它建立在经典的集合论和 布尔代数的基础上。
遵循两条基本规则: 每个索引词在一篇文档中只 有两种状态:出现或不出现,对应权值为 0或1。
IR 计算模型
• 设 – N 所有文档个数 – ni 包含标记词 ki 的文档个数 – freq(i,j) dj 中 标记词 ki 出现的个数 • 范式化的 tf 定义为 – tf(i,j) = freq(i,j) / max(freq(l,j)) – 其中max(freq(l,j)) 是文档dj 中出现最高频率词的频 率。 – idf 定义为 – idf(i) = log (N/ni) – 使用 log 主要为了更好地使 tf 和 idf 匹配,因为N可 能很大。
文本
词汇集合
Image
文本+image 的特征(feature)
图像帧序列以及音频
Video
文本文档逻辑视图
• D是一个文档集合,通常由文档逻辑视图来表示。可以 是一组索引词或关键词。既可以自动提取,也可以是由 人主观指定。
倒排文档表示方法
Inverted Files
Word-Level Inverted File
文档的向量空间模型
• •词典, ∑={k1,k2,…kt} • •d=<w1,w2,…wt > • –此时,变量wi称为权值,非负;表示对应 词项ki对于判断d和查询q相关性的重要程度 (注意,这里的q是一般的,而d是具体的) • •q=<v1,v2,…vt> • –变量vi的含义类似于wi • •两个基本问题:如何定义wi和vi;如何计算 R(d,q)?
如用利用文档关键词集合的交集与并集的比。
相似度往往被用做作为相关度的近似,因为计算 机难以理解文档的内容。
经典的信息检索
基本假设:
每篇文档都可以用一组有代表性的关键词(标 引词index term)表示。 =>每个文档可以用集合 或向量表示出来 标记词一般是名词,因为名词含有语义。但实 际上很多情况下是文档的所有非停用词都作为 标记词。 问题词频的影响?
信息检索模型
例子:
q = 病毒 AND (计算机 OR 电脑)AND NOT医 d1: …据报道,计算机病毒近日猖獗… d2: …小王虽然是学医的,但对研究电脑病毒也很感兴趣,最近 发明了一种… d3: …计算机程序发现了爱滋病病毒的传播途径… 哪些文档会被检索出来?
布尔模型的优点
到目前为止,布尔模型是最常用的检索模型, 因为:
信息检索模型
信息检索模型是指如何对查询和文档进行表示,然 后对它们进行相似度计算的框架和方法。 本质上是对相关度建模。 信息检索模型是IR中的核心内容之一。
信息检索模型
一个信息检索模型是由文档表示、查询、关 系、模型框架构成的四元组。 四元组:System=(D,Q,F,R(dj,qi)) D 文档集的表示 Q 用户需求的表示 F 文档表示、查询表示和他们之间关系的 模型框架(Frame) R(dj ,qi) 给出Query qi和Document dj 的评 分
1
Sim(dj,q)=
如果存在qcc|(qcc∈qdnf)且对于任意ki, 有
gi(dj) = gi(qcc)
0 其他 例如: 文档集合D存在两篇文档d1和d2,其中,d1含有关键 词k1和k2,d2含有关键词k1和k3,则它们的文档向量分别为: d1 =(1,1,0) , d2 =(1,0,1) 根据匹配函数的定义,显然,d1与提问式q = k1 and (k2 or not k3)的匹配函数值是1,即d1与提问q是相关的; d2与 提问式q的匹配函数值是0, 表明d2与提问q是不相关的。
信息检索模型
内容提要
信息检索系统的形式化表示 布尔逻辑模型 向量空间模型 概率模型 其他检索模型
什么是模型?
模型是采用数学工具,对现实世界某种事物 或某种运动的抽象描述 面对相同的输入,模型的输出应能够无限地 逼近现实世界的输出
现代信息检索简明教程第三章PPT课件
本章的主要内容为:计算 机信息检索的发展过程 、计 算机信息检索系统的组成和工 作原理、计算机检索的策略 。
1
第一节 计算机信息检索的发展过程
计算机信息检索的发展过程主要内容 包括:
计算机信息检索技术的发展 计算机信息检索技术的特征
2
一、计算机信息检索技术的发展
14
数据库类型
(1) 参考数据库(reference database)
数目数据库(bibliographic 指南数据库(referral
database)
database)
15
(2) 源数据库(source database)
数值数据库(numeric database) 文本—数值数据库(textual-numeric database)
辅助功能完善
4
第二节 计算机信息检索系统的组成和工作原理
一、计算机信息检索系统的组成
(一) 计算机信息检索系统
一个完整的信息检索系统,通常由信息源、 信息组织管理、系统功能、用户接口和系统支 持技术等几个有机部分组成。
5
1. 信息源
信息源是指计算机检索系统信息或数据 的来源。信息检索系统中的数据主要来自各 种公开文献,如一次文献中的期刊、图书、 研究报告、会议论文、专科文献、政府出版 物、学位论文;二次文献中的摘要、索引和 目录;三次文献中的百科全书、专科词典、 名录、指南、手册等。
23
4. 传输环节
传输子系统的功能主要是通过计算机与通 信线路的连接,完成信息编码的传递、转接、 接收与处理等工作。
12
联机系统软件构成的示意图
通 讯 管 理 程 序
现代信息检索第3章-IR模型(再次再次修正版)
中国科学院研究生院课程2006
向量空间模型(3)
权重计算(1)
Term的频率TF:Term在文档中出现的次数,TF 越高权重越高。TF取0或1称为布尔权重。 TF的归一化:将一篇文档中所有Term的TF值归 一化到[0,1]之间。 通常可以采用以下三种方式之一:
Maximum Normalization
i i
d •q Jaccard: Sim( d , q ) = = 2 2 || d || + || q || − d • q
∑ (a * b ) ∑ a + ∑ b − ∑ (a
i i i 2 2 i i i i i
i
* bi )
中国科学院研究生院课程2006
向量空间模型(8)
向量空间模型经过不断发展,也提出了 很多公式,下面是一个最常用的公式:
布尔模型(1) 基于模糊集的模型(3) 扩展布尔模型(4)
基于代数论的IR模型(Algebraic models)
向量空间模型(2) 潜性语义索引模型 (5)
基于概率统计的IR模型(Probabilistic models)
回归模型(6) 二元独立概率模型(7) 语言模型建模IR模型(8)
中国科学院研究生院课程2006
普通集合和模糊集合
普通集合论
对于论域U上的一个子集A,可以定义函数:
χ A ( x) = ⎨
⎧1, if x ∈ A , 即χ A: U → {0,1} 0, if x ∉ A ⎩
该函数刻画了论域U上的元素x到A的隶属度,当隶属度为1时, x属 于A,当隶属度为0时,x不属于A,该函数是二值函数 例子:“大于1的实数”用集合表示为 A={x|x>1, x∈R}
《现代信息检索》课件
现代信息检索的发展趋势
深度学习在信息检索 中的应用
探讨深度学习技术在信息检索 中的应用和影响,如神经网络 和卷积神经网络。
大数据时代的信息检 索方法
了解大数据时代下的信息检索 方法,如分布式索引和机器学 习算法。
跨语言检索技术的发 展
介绍跨语言检索技术的发展和 应用,如机器翻译和多语种索 引构建。
总结与展望
回顾本课程涉及的知识点,总结信息检索的关键概念和方法。展望信息检索 领域的未来发展,如知识图谱和个性化推荐。
探索信息检索在搜索引擎、 数字图书馆、电子商务等领 域的广泛应用。
信息检索领域的主要挑 战
深入了解信息检索面临的挑 战,如大数据处理、多语言 处理和机器学习技术。
信息检索的基础知识
1
虚拟机器和原型模型的介绍
2
探讨虚拟机器和原型模ቤተ መጻሕፍቲ ባይዱ在信息检索中
的应用和优势。
3
结构化数据的索引方式
4
了解结构化数据的索引方式,包括B树、 哈希索引和空间索引。
语言模型和主题模型的应用
探讨语言模型和主题模型在信息 检索中的应用和效果评估方法。
检索效果评估
1 相关性评估指标的介绍
详细介绍信息检索中常用的相关性评估指标,如准确率、召回率和F1值。
2 TREC评测工具的使用方法
了解如何使用TREC评测工具来评估信息检索系统的性能。
3 检索系统参数调节的技巧
分享检索系统参数调节的技巧,以提升检索效果和用户满意度。
《现代信息检索》PPT课 件
欢迎来到《现代信息检索》PPT课件!本课程将介绍信息检索的定义和应用领 域,以及信息检索的基础知识、检索模型和效果评估。我们还会探讨现代信 息检索的发展趋势和展望。
IR计算模型
IR模型
R(qi,dj) 是一个排序函数,它给查询qi和文档 dj 之间的相关度赋予一个排序值
如目前往往按与关键词匹配的数量和Google的 pageRank的值。
第14页/共49页
信息检索模型的分类
三类: 基于内容的信息检索模型,结构化模型, 浏览型数学模型.
基于内容的信息检索模型(计算查询与文档相 似度的理论模型)有
第8页/共49页
倒排文档表示方法
第9页/共49页
Inverted Files
第10页/共49页
Word-Level Inverted File
第11页/共49页
Word-Level Inverted File
lexicon
posting
Query: 1.porridge & pot (BOOL) 2.“porridge pot” (BOOL) 3. porridge pot (VSM)
Hale Waihona Puke Answer第12页/共49页
信息检索模型
• Q是一个查询集合,用户任务的表达,由查询 需求的逻辑视图来表示。 – 目前主要是关键词(布尔表达式),或高级 检索的分层的布尔表达式。 – 未来可能是自然语言句子、文档的样本,图 像,草图,有向标记树
• F是一个框架,用以构建文档,查询以及它们之 间关系的模型 –检索系统的理论框架,包括预处理、中间处 理(分类、聚类、索引)
基本假设:
每篇文档都可以用一组有代表性的关键词(标 引词index term)表示。 =>每个文档可以用集合 或向量表示出来
标记词一般是名词,因为名词含有语义。但实 际上很多情况下是文档的所有非停用词都作为 标记词。
IR信息检索模型
信息检索模型刘挺哈工大信息检索研究室2004年秋提纲信息检索模型的概述布尔模型向量空间模型(VSM)扩展的布尔模型潜在语义索引模型(LSI)概率模型基于统计语言模型的信息检索模型 基于本体论的信息检索模型信息检索模型的概述什么是模型?模型是采用数学工具,对现实世界某种事物或某种运动的抽象描述面对相同的输入,模型的输出应能够无限地逼近现实世界的输出举例:天气的预测模型模型和实现的区别一个模型可以用多种方法实现例如:布尔模型可以用倒排文档(inverted file)实现,也可以用B-tree实现信息检索模型四元组[D, Q, F, R(q i, d j)]D: 文档集的机内表示Q: 用户需求的机内表示F: 文档表示、查询表示和它们之间的关系的模型框架(Frame)R(q i, d j): 给query q i和document d j评分信息检索模型决定于:从什么样的视角去看待查询式和文档基于什么样的理论去看待查询式和文档的关系如何计算查询式和文档之间的相似度模型分类布尔模型(Boolean Model)布尔模型文档表示一个文档被表示为关键词的集合查询式表示查询式(Queries)被表示为关键词的布尔组合,用“与或非”连接起来,并用括弧指示优先次序匹配一个文档当且仅当它能够满足布尔查询式时,才将其检索出来不同的系统可以使用:不同的去除停用词(stopword removal)策略和stemming策略 索引中不同类型的辅助信息不同的实现方法强调到目前为止,布尔模型是最常用的检索模型,因为:由于查询简单,因此容易理解通过使用复杂的布尔表达式,可以很方便地控制查询结果相当有效的实现方法相当于识别包含了一个某个特定term的文档经过某种训练的用户可以容易地写出布尔查询式布尔模型可以通过扩展来包含排序的功能,即“扩展的布尔模型”问题布尔模型被认为是功能最弱的方式,其主要问题在于不支持部分匹配,而完全匹配会导致太多或者太少的结果文档被返回非常刚性: “与”意味着全部; “或”意味着任何一个如果“我想要n个词中m个词同时出现的文档”,怎么表示?不可能企望用户自己规定m值系统可以从m=n开始,然后逐渐减少m,但很麻烦很难表示用户复杂的需求很难控制被检索的文档数量原则上讲,所有被匹配的文档都将被返回很难对输出进行排序不考虑索引词的权重,所有文档都以相同的方式和查询相匹配很难进行自动的相关反馈如果一篇文档被用户确认为相关或者不相关,怎样相应地修改查询式呢?向量空间模型统计模型基于关键词(一个文本由一个关键词列表组成)根据关键词的出现频率计算相似度例如:文档的统计特性用户规定一个词项(term)集合,可以给每个词项附加权重未加权的词项:Q=〈database; text; information 〉加权的词项: Q = 〈database 0.5; text 0.8; information 0.2 〉 查询式中没有布尔条件根据相似度对输出结果进行排序支持自动的相关反馈有用的词项被添加到原始的查询式中例如:Q ⇒〈database; text; information; document〉统计模型中的问题怎样确定文档中哪些词是重要的词?怎样确定一个词在某个文档中或在整个文档集中的重要程度?怎样确定一个文档和一个查询式之间的相似度?在WWW中,什么是文档集(collection),链接、文档结构以及其它形式特征(如字体、颜色等)对统计模型有何影响?向量空间模型若干独立的词项被选作索引项(index terms) or词表vocabulary 索引项代表了一个应用中的重要词项计算机科学图书馆中的索引项应该是哪些呢?体系结构总线计算机数据库….XML计算机科学文档集文档集中的索引项向量空间模型向量空间模型实际上,这些词项是相互关联的 当你在一个文档中看到“计算机”, 非常有可能同时看到“科学”当你在一个文档中看到“计算机”,有中等的可能性同时看到“商务”当你在一个文档中看到“商务”,只有很少的机会同时看到“科学”向量空间模型2个索引项构成一个二维空间,一个文档可能包含0, 1 或2个索引项d i= 〈0, 0 〉(一个索引项也不包含)d j= 〈0, 0.7 〉(包含其中一个索引项)d k= 〈1, 2 〉(包含两个索引项)类似的,3个索引项构成一个三维空间,n个索引项构成n维空间一个文档或查询式可以表示为n个元素的线性组合图示文档集相似度计算相似度是一个函数,它给出两个向量之间的相似程度 查询式和文档都是向量,各类相似度存在于:两个文档之间两个查询式之间一个查询式和一个文档之间人们曾提出大量的相似度计算方法,因为最佳的相似度计算方法并不存在。
现代信息检索讲义
目录上篇图书馆概述第一章图书馆概述第二章数字图书馆下篇信息检索第三章信息检索基础知识第四章数据事实检索第五章特种文献检索第六章国外部分重点检索工具第七章网络信息资源检索与利用第八章学术论文撰写及发表第一章现代图书馆概述一、图书馆史略文字的产生和文献的出现,是人类社会进入文明阶段的重要标志。
当人类意识到需要将经验和知识用文字记录下来以供利用时,最古老的文献便产生了。
当人们认识到需要对已产生的文献进行连续不断的收集,并将收集到的、有一定数量的文献有序地存放在一起以便长久保存和利用时,最早的图书馆便诞生了。
考古发现,在约公元前3000年的河南安阳的殷墟的一个窖穴里,有2万多块甲片整齐地摆放在一起,这是已知最早的图书馆。
中国最早的文献形态,是公元前14~前11世纪,商代后期的甲骨文献和金文文献。
商代设有史官,掌管记录统治者的言行及重大事件的图书档案。
周代除王室有收藏文献的库室外,各诸侯国也有本国的文献库室,因为最晚在春秋战国时已流行以竹木和缣帛为载体的文献,记录文字较前便利得多。
在以上这段时期,图书和档案工作是结合在一起的。
隋唐写本书盛行,推动了图书馆事业的发展。
唐代发明的雕版印刷术,至宋代得到普遍推广,文献的生产更加方便,五代十国曾一度凋敝的图书馆事业又迅速复兴起来,并且出现了新的图书馆类型—书院藏书。
金、元两代图书馆没有重大发展。
明代又掀起高潮,以私人藏书成绩最为可观,成了图书馆事业的主流。
清代无论是官府藏书还是私家藏书在数量和规模上都大大超越了前代。
鸦片战争以后,封建时代的图书馆事业逐渐向近代公共图书馆事业过渡。
1902年,浙江绍兴的徐树兰以一己之力筹建古越藏书楼,于1904年正式开放。
湖南图书馆和湖北图书馆也先后成立。
北京图书馆的前身京师图书馆1910年开始筹建,1912年正式开放。
近代大学图书馆的产生,在时间上要早于近代公共图书馆。
1902年由中国人自己创办的京师大学堂(北京大学前身)图书馆为最早;由外国人在中国创办的教会大学图书馆,以1894年成立的上海圣约翰大学图书馆为最早。
信息检索模型
概率模型
基本假设前提和理论 a.相关性独立原则。文献对一个检索式的相关性与文献集合 中的其他文献是独立的。 b.词的独立性。标引词和检索式中词与词之间是相互独立。 c.文献相关性是二值的,即只有相关和不相关两种。 d.概率排序原则。该原则认为,检索系统应将文档按照与查 询的概率相关性的大小排序,那么排在最前面的是最有可能 被获取的文档 e.贝叶斯(Bayes)定理,用公式表示为: P(R I d)=(d I R)· P(R)/P(d)
布尔模型(Boolean Model)
布尔模型:查询和文档均表示为标引词(“是否存 在”) 的布尔表达式,通常表示成D(t 1,t 2,⋯ ,t i)的形 式。 布尔操作(关系) :与(AND) 或(OR) 非(NOT) 相似度计算:查询布尔表达式和所有文档的布尔表 达式进行匹配,匹配成功的文档的得分为1,否则 为0。 类似于传统数据库检索,是精确匹配
权重计算
标引词的文档频率DF(Document Frequency):标引词在 整个文档集合中出现的文档篇数,DF反映了标引词的区分 度, DF越高表示标引词越普遍,因此其区分度越低,其权 重也越低。 逆文档频率(Inverse DF ,IDF)DF的倒数,通常采用如下 公式计算:(N是文档集合中所有文档的数目)
布尔模型的优点
简单、易理解、易实现 现代很多搜索引擎中仍然包含布尔模型的思 想,如Google的高级检索
布尔模型的局限性
只能严格匹配,文献要么相关、要么不相关,并没有一个相 关级别的概念,因此很难有好的检索效果 构造布尔逻辑式不容易,对于一般用户而言,很难用AND、 OR、NOT运算符的结合来准确地表达一个检索语句,标引 词的简单组配不能完全反映用户的实际需要; 检索输出完全依赖于布尔提问与文献的匹配情况,很难控制 输出量的大小 结果不能按用户定义的重要性排序输出,用户只能从头到尾 浏览输出结果才能知道哪些文献更适合自己的需要
信息检索模型nlp -回复
信息检索模型nlp -回复NLP中的信息检索模型信息检索(Information Retrieval,简称IR)是指根据用户的信息需求,在大规模的文本数据中找到与之相关的文档。
随着自然语言处理(Natural Language Processing,简称NLP)的发展,越来越多的关注被放在将NLP技术应用于信息检索任务上。
本文将以"信息检索模型NLP"为主题,逐步介绍NLP在信息检索中的应用及相关模型。
1. 信息检索的挑战在海量的文本数据中,有效地寻找与用户需求相关的文档是一个巨大的挑战。
用户通常通过自然语言进行查询,而文档中的内容也是以自然语言描述的。
为了解决这个问题,NLP技术被引入到信息检索中。
2. NLP在信息检索中的应用NLP技术在信息检索中的应用主要包括以下几个方面:2.1 语义理解在信息检索过程中,理解用户查询的语义是至关重要的。
传统的基于关键词匹配的检索方法可能无法准确捕捉到用户的意图。
NLP技术可以帮助将用户查询转化为更准确的语义表示,从而提高检索的准确性。
2.2 文本摘要当用户在信息检索中得到大量的文档作为结果时,阅读和理解所有文档可能是不现实的。
NLP技术可以用来自动生成文本摘要,帮助用户快速了解文档的主要内容。
2.3 文本分类根据用户的信息需求,将文档进行分类是信息检索中的常见任务。
NLP 技术可以将文本进行特征提取,并使用机器学习算法进行分类。
2.4 相关性排序在信息检索的结果页面上,通常会将与用户查询最相关的文档排在前面。
NLP技术可以帮助建模文档与查询之间的语义相关性,从而提高排序的准确性和用户满意度。
3. NLP在信息检索中的模型下面将介绍几种常见的NLP模型在信息检索中的应用:3.1 词袋模型词袋模型是一种简单而常用的模型,它将文本视为词的无序集合,忽略了词语的顺序和语义关系。
在信息检索任务中,词袋模型可以用来提取文本的特征并计算与用户查询的相关性。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息检索模型分类
从所使用的数学方法上分:
基于集合论的IR模型(Set Theoretic models)
布尔模型(1) 基于模糊集的模型(3) 扩展布尔模型(4)
基于代数论的IR模型(Algebraic models)
向量空间模型(2) 潜性语义索引模型 (5)
基于概率统计的IR模型(Probabilistic models)
TFdoc TFq IDF
公式(1)
长度规整
中国科学院研究生院课程2006
向量空间模型(9)
优点:
简洁直观,可以应用到很多其他领域(文本分类、生 物信息学)。 支持部分匹配和近似匹配,结果可以排序 检索效果不错
缺点:
理论上不够:基于直觉的经验性公式 标引项之间的独立性假设与实际不符:实际上, Term的出现之间是有关系的,不是完全独立的。 如:“王励勤” “乒乓球”的出现不是独立的。
布尔模型(1) 基于模糊集的模型(3) 扩展布尔模型(4)
基于代数论的IR模型(Algebraic models)
向量空间模型(2) 潜性语义索引模型 (5)
基于概率统计的IR模型(Probabilistic models)
回归模型(6) 二元独立概率模型(7) 语言模型建模IR模型(8)
中国科学院研究生院课程2006
i
t1 d
i
d •q Cosine: Sim( d , q ) = = || d || × || q ||
∑ (a
i i i
× bi )
q
2 i i
∑a ×∑b
2 i
t2
Dice:
Sim( d , q ) =
2×d •q = || d ||2 + || q ||2
2∑ (ai × bi ) ai 2 + ∑ bi 2 ∑
中国科学院研究生院课程2006
向量空间模型(6)
权重计算(4)
对TF进行缓冲:1+log(TF), 1+log(1+log(TF)) 对DF进行缓冲:1+log(N/DF) log的作用:将值域拉平,使得函数的变化更平 缓
中国科学院研究生院课程2006
向量空间模型(7)
相似度计算
Dot: Sim( d , q ) = d • q = ∑ (ai × bi )
中国科学院研究生院课程2006
布尔模型匹配的集合表示
2006 世界杯
2006 AND 世界杯 AND NOT 小组赛
小组赛
中国科学院研究生院课程2006
布尔模型(3)
形式化表示:
任一布尔查询都可以写成析取范式(DNF):如 q=a∧(b∨¬c)=abc∨ab ¬ c∨a ¬ b ¬ c
qbnf = (1,1,1) ∨ (1,1,0) ∨ (1,0,0) 任一文本可以写成所有Term的交,如 doc=a ∧ b ∧ c ∧ d ∧ e 因为doc q,所以相似度为1
i i
d •q Jaccard: Sim( d , q ) = = 2 2 || d || + || q || − d • q
∑ (a * b ) ∑ a + ∑ b − ∑ (a
i i i 2 2 i i i i i
i
* bi )
中国科学院研究生院课程2006
向量空间模型(8)
向量空间模型经过不断发展,也提出了 很多公式,下面是一个最常用的公式:
回归模型(6) 二元独立概率模型(7) 语言模型建模IR模型(8)
中国科学院研究生院课程2006
布尔模型(1)--Boolean Model
布尔变量:只有“真”、“假”取值的变量
如:命题 一篇文档中存在“世界杯”这个词 的结果 变量就是一个布尔变量。 计算机中常常用1表示“真”,0表示“假”
布尔操作(关系):
布尔模型回顾
查询为布尔表达式,每个文档也是布尔表达 式,相似度计算的过程实际是布尔表达式的匹 配过程,结果要么是1要么是0。 缺点:不能对结果进行排序,不支持部分匹配 和模糊匹配。 以下讲到的基于模糊集的IR模型和扩展布尔模 型都是针对上述缺点对原始布尔模型进行改 进。
中国科学院研究生院课程2006
查询q:2006 世界杯 举办地 文档d1:2006 世界杯 在 德国 举行,本 届 世界杯 的 冠军 是 意大利 队。 文档d2:2002 世界杯 在 韩国 和 日本 举行,最后 的 冠军 得主 是 巴西 队。
中国科学院研究生院课程2006
信息检索模型分类
从所使用的数学方法上分:
基于集合论的IR模型(Set Theoretic models)
N IDF = DF
向量空间模型中通常采用TF*IDF的方式计算权重。
中国科学院研究生院课程2006
向量空间模型(长,d1包含一个主题A,d2包含多 个主题A、B、C,对于主题A,两篇文档中出现的词频 率信息相似,那么Cosine归一化之后d2中和A相关的词权 值偏低(分母较大),因此,检索时,短文档d1优先。 Pivoted Normalization:对短文档进行惩罚,对长文档进 行补偿,保持公平性。
现代信息检索 Modern Information Retrieval
第三章 信息检索模型(IR models) 授课人:王斌 wangbin@ /~wangbin/ 2006年9月
中国科学院研究生院课程2006
提纲
模型定义及分类 布尔模型 向量空间模型 概率模型 统计语言建模IR模型
中国科学院研究生院课程2006
布尔模型(4)
课堂思考题:
想查关于今年超女 5进4 比赛的新闻,用布 尔模型怎么构造查询?
中国科学院研究生院课程2006
我的解答
(2006 OR 今年) AND (超级女声 OR 超女 OR 超级女生) AND (6进5 OR 六进五 OR 六 AND 进 AND 五) 表达式相当复杂,构造困难! 不严格的话结果过多,而且很多不相 关;非常严格的话结果会很少,漏掉很 多结果。
只能严格匹配(得分不是0就是1),不能近似或者部分匹 配,多个结果无法排序 一般用户构造查询不是很容易,构造不利可能造成结果过 多或者过少
中国科学院研究生院课程2006
信息检索模型分类
从所使用的数学方法上分:
基于集合论的IR模型(Set Theoretic models)
布尔模型(1) 基于模糊集的模型(3) 扩展布尔模型(4)
普通集合和模糊集合
普通集合论
对于论域U上的一个子集A,可以定义函数:
χ A ( x) = ⎨
⎧1, if x ∈ A , 即χ A: U → {0,1} 0, if x ∉ A ⎩
该函数刻画了论域U上的元素x到A的隶属度,当隶属度为1时, x属 于A,当隶属度为0时,x不属于A,该函数是二值函数 例子:“大于1的实数”用集合表示为 A={x|x>1, x∈R}
中国科学院研究生院课程2006
查询和文档进行向量的相似度计算:夹角余弦或者内积
向量空间模型(2)
标引项(Term)的选择:
标引项必须是能代表文档的特征 单位可以是字、词、短语、N-gram或者某种语义单 元(比如:所有同义词作为1维),最简单的是采用全 文标引(full text indexing),即用文档中出现的所有 的字或者词作为标引词。 采用全文标引,向量的维数很大(以中文词索引为 例,向量维数会上10万),而且引入了很多噪音。因 此,实际应用中,会采用一些降维策略(如:去停用 词、对英文进行词干还原、只选择名词作为Term、 Term组等等)
文档表示成多个Term的集合 通常用词来表示,但是也可以用其他语言单位来表 示 Term可以看成关键词 (key words)
标引项的权重(Weight)
不同标引项作用是不同的 通过权重加以区分
中国科学院研究生院课程2006
信息检索模型分类
从所使用的数学方法上分:
基于集合论的IR模型(Set Theoretic models)
中国科学院研究生院课程2006
向量空间模型(3)
权重计算(1)
Term的频率TF:Term在文档中出现的次数,TF 越高权重越高。TF取0或1称为布尔权重。 TF的归一化:将一篇文档中所有Term的TF值归 一化到[0,1]之间。 通常可以采用以下三种方式之一:
Maximum Normalization
中国科学院研究生院课程2006
布尔模型(2)
布尔模型:查询和文档均表示为布尔表达式, 其中文档表示成所有词的“与”关系。
例子:
查询: 2006 AND 世界杯 AND NOT 小组赛 文档1: 2006年世界杯在德国举行。 文档2: 2006年世界杯小组赛已经结束。
相似度计算:查询布尔表达式和所有文档的布 尔表达式进行匹配,匹配成功得分为1,否则 为0。 类似于传统数据库检索,是精确匹配
中国科学院研究生院课程2006
信息检索模型
信息检索模型是指如何对查询和文档进行表 示,然后对它们进行相似度计算的框架和方 法。 本质上是对相关度建模。 信息检索模型是IR中的核心内容之一。
原始查询 查询表示 文档表示 原始文档
相关度计算
中国科学院研究生院课程2006
相关概念
标引项(Index Term)
基于代数论的IR模型(Algebraic models)
向量空间模型(2) 潜性语义索引模型 (5)
基于概率统计的IR模型(Probabilistic models)
回归模型(6) 二元独立概率模型(7) 语言模型建模IR模型(8)
中国科学院研究生院课程2006
向量空间模型(1)
向量空间模型(Vector Space Model)是康奈尔大学 Salton 1970年代提出并倡导,原型系统SMART 查询和文档都转化成标引项(Term)及其权重组成的向量 表示,都可以看成空间中的点