第二章布尔检索
布尔逻辑检索的名词解释
布尔逻辑检索的名词解释
嘿,你知道布尔逻辑检索不?这可太重要啦!布尔逻辑检索啊,就
像是一把神奇的钥匙,能帮你打开知识宝库的大门呢!比如说吧,你
想找关于“猫咪”和“可爱”的信息,布尔逻辑检索就能让你精准地找到。
它主要有三个运算符,“与”“或”“非”。
“与”就像是两个好朋友手牵手,必须同时满足条件才行。
比如说找既喜欢音乐又喜欢绘画的人,
这就是“与”的作用啦。
“或”呢,就像一个大口袋,把满足其中一个或多个条件的都装进去。
比如找喜欢唱歌或者跳舞的人,这就是“或”在发
挥作用呀。
“非”则像是一个排除器,把不想要的给去掉。
就像你想找
除了红色之外的其他颜色的东西,这时候“非”就派上用场了。
咱再打个比方,布尔逻辑检索就像是一个超级智能的管家,你告诉
它你的需求,它就能迅速又准确地给你找出你想要的东西。
你想想,
要是没有它,你在那茫茫的信息海洋里得多迷茫啊!
它在我们的学习、工作和生活中可都有着大用处呢!比如你在写论
文的时候,用布尔逻辑检索能快速找到相关的文献资料,多省事儿啊!在工作中找数据、做调研,它也是得力小助手呢!
总之啊,布尔逻辑检索真的是超级厉害的!它让我们找信息变得轻
松又高效,难道你还不赶紧去试试吗?我的观点就是:布尔逻辑检索
是非常重要且实用的工具,每个人都应该学会使用它,让它为我们的
学习和工作助力!。
第二章 信息检索
2.检索技巧和提示
(1) 广泛浏览数据库 进入数据库前,需阅读数据库的说明,包括:出版、结构(权威性),出版类 型(期刊、会议、报告、专利…),文献类型(全文、文摘、题录…),收集年限,使 用权限,文献版本,服务方式(光盘、联机、专线、镜象、出国),连接方式,帐 号、密码,咨询联系等。现在许多数据库被组织到信息服务中心的web网页 上,并提供了有关介绍,应当充分地利用它们。
(1)积木型 积木型检索策略的含义是:把检索课题剖析成若干个概念面,先分别 对这几个概念面进行检索;在每个概念面中尽可能全和多地列举相关词 、同义词、近义词,并用布尔算符OR连接成子检索式,然后再用布尔算 符AND把所有概念面的子检索式连接起来,构成一个总检索式。 优点是:能够提供较明确的检索逻辑过程,以后容易检索和理解,还可 部分或全部地用作保留检索。一般地,“积木型”策略用于较复杂的检 索课题。 • 如“肺癌”与“吸烟”可以分成两个概念面,这两个概念面的各种形式 的检索词有: cancer smoker(s) • • carcinoma lung(s) cancer smoking cigar
(二)截词检索
截词检索:是指在检索时使用词的一个局部(某些 位置上的字符被截去)进行检索匹配,并认为凡满足这 个词局部中的所有字符要求的记录,都为命中结果。 截词检索需要使用专门符号(截词符),以指定截词 的具体位置与截断字符的数量。 • 按照截词位置的不同,截词检索分为: 右截词、左截词和中间截词三种。 例如:检索式 “wom?n”可检索到含有woman、women的结果。 截词检索实际上是一种隐含“逻辑或”的运算,能提 高查全率,扩大检索结果,是防止漏检的有力手段。
第二部分事实与数据检索工具
讨论事实、数据资源检索,其检索的对象是大量的、 常用的那些具体的科学技术数据和事实,如物理量、 物质特性、参数、规格等技术数据以及价格、产量、 公司名录、人名录等商业、经济等各种实用信息。 它们的检索工具包括:百科全书、年鉴、手册、词 典、机构指南和人名录、书目及书目指南等参考工 具。
第二章_信息检索基础之二
检索表达式示例
字段代码与字段 名称对照
位臵检索
位臵检索又称邻近检索,主要是通过 检索式中的特定符号来规定检索词在结果 中出现的顺序和词间距。
例如检索“生物防治”的文献,若用 检索式“biological*control”检索,则 会将“抑制生物”(control biological) 的文献也查出来,这显然不是所需文献。
字段代码方式
在进行检索时,通常在检索式中加入字段代 码来限定检索字段。字段代码与检索词之间可用 后缀符“/”或前缀符连“=”接起来。各个系统的 字段代码和前缀后缀符号可能各有不同。有的系 统不分前缀后缀限定。 例如,美国专利局数据库的高级检索界面便使 用了字段限制代码,用户需用这些字段限制代码 构造检索式,在检索框中输入检索命令来进行检 索。
字段限制检索主要有两种方式:
菜单选择方式
在检索系统的界面上设臵的字段下拉菜单中 进行选择,在相应的检索框中输入检索词,就可 完成字段限制检索。目前大多数检索系统都设臵 了此种检索方式。 例如,在中国期刊全文数据库检索界面中, 可在其提供的字段下拉菜单中选择合适的字段名 称进行检索。
字段限制检索主要有两种方式:
字段限制检索
字段检索是限定检索词在记录中出现的字段范围, 检索时,计算机只对限定字段进行查找。 这种检索技术可以缩小检索范围,提高检索的准 确率。 一般而言,一条记录中主要用来表达文献内容 特征的字段称为基本索引字段,如题名、文摘、叙词、 自由词等。常用的基本索引字段及其代码如表所示。 表达文献外部特征的字段称为辅助索引字段,如著者、 机构名称、语种、刊名、来源、出版年等。常用的辅 助索引字段及其代码如表所示。
截词检索
有限截断比较精确,只检出用户需要的词汇,而无限 截断作用时必须注意词干不要太短,否则会检出许多无关 文献。 在中文数据库中作用最多的是后截断,即立脚前方一 致检索。例如,金盘书目系统的查询方式。 金
布尔检索
1、双引号把搜索词放在双引号中,代表完全匹配搜索,也就是说搜索结果返回的页面包含双引号中出现的所有的词,连顺序也必须完全匹配。
百度和Google 都支持这个指令。
例如搜索:“seo方法图片”2、减号减号代表搜索不包含减号后面的词的页面。
使用这个指令时减号前面必须是空格,减号后面没有空格,紧跟着需要排除的词。
Google 和百度都支持这个指令。
例如:搜索-引擎返回的则是包含“搜索”这个词,却不包含“引擎”这个词的结果3、星号星号*是常用的通配符,也可以用在搜索中。
百度不支持*号搜索指令。
比如在Google 中搜索:搜索*擎其中的*号代表任何文字。
返回的结果就不仅包含“搜索引擎”,还包含了“搜索收擎”,“搜索巨擎”等内容。
4、inurlinurl: 指令用于搜索查询词出现在url 中的页面。
百度和Google 都支持inurl 指令。
inurl 指令支持中文和英文。
比如搜索:inurl:搜索引擎优化返回的结果都是网址url 中包含“搜索引擎优化”的页面。
由于关键词出现在url 中对排名有一定影响,使用inurl:搜索可以更准确地找到竞争对手。
5、inanchorinanchor:指令返回的结果是导入链接锚文字中包含搜索词的页面。
百度不支持inanchor。
比如在Google 搜索:inanchor:点击这里,返回的结果页面本身并不一定包含“点击这里”这四个字,而是指向这些页面的链接锚文字中出现了“点击这里”这四个字。
可以用来找到某个关键词的竞争对收,而且这些竞争对手往往是做过SEO 的。
研究竞争对手页面有哪些外部链接,就可以找到很多链接资源。
6、intitleintitle: 指令返回的是页面title 中包含关键词的页面。
Google 和百度都支持intitle 指令。
使用intitle 指令找到的文件是更准确的竞争页面。
如果关键词只出现在页面可见文字中,而没有出现在title 中,大部分情况是并没有针对关键词进行优化,所以也不是有力的竞争对手。
布尔检索模型
表二 D1和D2相异度的计算
布尔检索模型
XXXX
布尔检索模型
• 概述
布尔检索法是指利用布尔运算符连接各个检索词,然后由计 算机进行逻辑运算,找出所需信息的一种检索方法。 • 设文本集D中某一文本i, 则该文本可表示为: 其中 设另一用户检索表达式为 Q j (t1 t 2) (t 3 t 4) 对于该检索式,系统响应并输出的一组文本应为:它们都含 有标引词 t 1 和 t 2 或者含有标引词 t 3 和 t 4 。
▲其中id代表特征的唯一表示,Doic表示出现了该特
征的文档的唯一标识符。当两篇文档相互比较而相异 结果为1时,就将它们分别插入它们之间不同的特征 链表中;否则,插入相同特征链表中。 ▲当再有新的文档需要比较时,根据该文档中出现的 特征,选择应该与它相同的集合,以减少比较次数。
布尔模型在网页查重中的应用
• 使用这种算法的优点:
• 由于一些词在所有文档中都大量出现,这些词将 不会作为文档的特征值,可以忽略大量常用停用 词的影响,如in,and,the等,这样读取文档时 就不需要特别过滤常用词,节约了处理文档和提 取特征的时间。 • 特征值的比较结果只有1和0两种状态,节约资源 ,易于实现。
布尔模型在网页查重中的应用 相异度的计算:
布尔算符
• 运算符之间的优先级: NOT > AND > OR,如检索表达式:雪花 NOT 啤酒 AND 歌曲 OR 小说,搜索结果为:名字叫 《雪花》的歌曲或者小说。 • 利用小括号()可以设置出个性化的检索方程。 例如检索出不包含日本在内的有关教育或法律方 面的信息: (university OR college) AND ( education OR Law )NOT Japan
基本检索方法
基本检索方法一、布尔检索利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种方法。
常用的布尔逻辑算符有三种,分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。
用这些逻辑算符将检索词组配构成检索提问式,计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。
下面以“计算机”和“文献检索” 两个词来解释三种逻辑算符的含义。
(1)“计算机”AND“文献检索”,表示查找文献内容中既含有“计算机”又含有“文献检索”词的文献。
(2)“计算机”OR“文献检索”,表示查找文献内容中含有“计算机”或含有“文献检索”以及两词都包含的文献。
(3)“计算机”NOT“文献检索”,表示查找文献内容中含有“计算机”而不含有“文献检索”的那部分文献。
检索中逻辑算符使用是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。
用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。
另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。
布尔算符使用正确但不能达到应有检索效果的事情是很多的。
二、截词检索截词检索就是用截断的词的一个局部进行的检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。
按截断的位置来分,截词可有后截断、前截断、中截断三种类型。
不同的系统所用的截词符也不同,常用的有?、$、*等。
分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。
下面以无限截词举例说明:(1)后截断,前方一致。
如:comput?表示computer,computers,computing等。
(2)前截断,后方一致。
如:?computer表示minicomputer,microcomputers等。
(3)中截断,中间一致。
如?comput?表示minicomputer,microcomputers等。
布尔检索
检索词A和检索词B用“或”组配,检索式为:
A OR B,或者 A+B 它表示检出所有含有A词或者B词的记录。
2-4
逻辑“非”
逻辑“非”是一种具有概念排除关系的组配,用“–”或 “NOT”算符表示。
检索词A和检索词B用“非”组配,检索式为: A Not B,或者 A-B
它表示检出含有A词,但同时不含B词的记录。
常用的检索技术
检索技术是指应用于信息检索过程
的原理、技术、方法、策略的总称,是 检索系统为了提高检索效率,从概念相 关性、位置相关性等方面对检索提问进 行组配、加权、扩展、截词、邻近、限 定的比较和运算处理技术。
2-1
布尔检索
布尔检索(boolean retrieval)是用
布尔逻辑算符将检索词、短语或代码 进行逻辑组配的一种技术,也是目前 最常用的一种检索技术。
2-11
(F)算符
(F) 算符是“Field”的缩写,表示在此运算符 两侧的检索词必须同时出现在文献记录的统 一字段内,如出现在篇名字段、文摘字段、 叙词字段、自由词字段,但两个词的前后顺 序不限,夹在两个词之间的词的个数也不限。 要求被连接的检索词出现在统一的字段中, 字段类型和词序均不限。例如: environmental(F) impact/DE,TI表示这两个词 必须同时出现在叙词字段和篇名字段中。
2-18
确定检索词
2.删除 删除是对自然语言中不具有实质性检索意义的虚词 (如介词、连词、副词等),或者使用频率较低的 词,或者专指性太高、过分宽泛的词,或者过分具 体的限定词、禁用词,或者不能表达课题实质的高 频词,或者存在蕴含关系可以合并的词,一律予以 删除,使自然语言转换成为关键词和主题词的集合。 如上例中的“与”、“的”、“关系”、“研究” 。 例2:检索“中国非常规天然气工业的发展前景研 究”方面的相关文献。进行拆分以后,工业、发展、 前景、研究这四个自由词具有一定的检索意义,但 是由于或者是意义过于宽泛、或者是不能表达课题 实质、或者是存在蕴含关系的原因,没有必要全部 作为检索词,根据需要可以保留1-2个作为检索词。
第二章 检索模型
Also, documentD2 (0.2,0.7) What does their similarity comparisonyield?
sim(Q, D2 )
(0.4*0.2) (0.8*0.7) [(0.4)2 (0.8)2 ]*[(0.2)2 (0.7)2 ]
0.64 0.98 0.42
2.2.3 模糊集合模型的主要缺点
(1)由于它建立在布尔检索的框架内,故它也带有传统布 尔模型的某些缺陷。
(2)模糊集合的运算规则导致其排序能力不能全面反映标 引词的重要程度。例,
A and B D1:(A,0.8) (B,0.1), D2:(A,0.2) (B,0.1), 哪篇文献会排到前面?
2.2 模糊集合模型
最早从事模糊集合模型研究的有C.V. 内戈伊塔(Negoita)、V.塔哈尼(Tahani) 和T· 拉德基(Radecki)等人。内戈伊塔 1973年就尝试用模糊逻辑来解释情报检 索原理。塔哈尼1976年提出了他的模型 。由于系统中标引词集合的容量可能很大 ,检索过程要处理的项很多。为了节省处 理时间,提高响应速度,拉德基等人提出 为提问中每个词选定一个阈值A(o≤A≤1) ,将小于A的项去掉,以简化运算过程。
nk the number of documentsin C that contain Tk
idfk
log
N nk
2.3.1 向量模型的描述
根据TF-IDF公式,文档集中包含某一词条的文档越多,说明它 区分文档类别属性的能力越低,其权值越小;另一方面,某一 文档中某一词条出现的频率越高,说明它区分文档内容属性的 能力越强,其权值越大。
2.3.1 向量模型的描述
1)文档D(Document):也称文献向量, 泛指文档或文档中的一个片段(如文档 中的标题、摘要、正文等)。 2)特征项t(Term):也称为属性向量, 指出现在文档中能够代表文档性质的基 本语言单位(如字、词等),也就是通 常所指的检索词。 3)文献向量的表示:这样一个文档D就 可以表示为D(t1,t2,…,tn),其中n就代表 了检索字的数量。
计算机检索基础知识
(N)算符是“near”的缩写,表示此算符两边 的检索词必须紧密相连,此间不允许插入其他 单词或字母,但词序可以颠倒;
(nN)算符则表示在两个检索词之间最多可以 插入n个单词,且词序可以颠倒。如,?S econom?? ?(2N)recovery , 可 以 检 出 : economic recovery, recovery of the economy, recovery from economic troubles。 词位臵检索是很有用的检索技术,它可以规 定词组中各词的前后次序,防止错误的搭配和 输出。
第二节 计算机检索技术
一、基本检索技术 1 布尔检索 几乎所有的网络信息检索系统都支持布 尔逻辑检索,但不同的检索工具又有差别. 2 截词检索
3 短语检索
在网络检索工具中,
若在检索框内输入两个或两个以上的检 索词,且两个检索词之间没有任何其它符号, 该检索系统会将这两个检索词之间的关系设 为默认值(AND或OR);
目前加权检索在网络检索工具中的运用 还很不完善,尚不能根据用户的需求来确定 某一个具体语词的权值大小从而确定它对检 索结果的影响程度。
现在很多网络检索工具采用“+”、“-” 来表示检索词在检索提问中的分量。在某个 检索词前面带上“+”表示该检索词必须在检 索结果中出现,反之,若某个检索词前面带 上“-”,则表示该检索词一定不能出现在检 索结果中。 AltaVista、HotBot、Infoseek等都 支持这种形式的加权检索。
作者
文献类型 刊名 语种 出版年
4 位臵逻辑检索符
又称全文查找逻辑算符,相邻度检索算符, 原文检索符。由于布尔检索的“AND”运算要求 AND两边的检索词在同一记录中同时存在才能 命中文献,这就可能会引起误组配而造成大量 误检,而位臵逻辑检索是以原始记录中检索词 与检索词特定的位臵关系为逻辑运算的对象, 检索词用位臵算符相连,就可以弥补布尔检索 的缺陷。 位臵逻辑检索可分为词位臵检索、同句检 索、字段检索和记录检索。
布尔检索技术
布尔检索技术
布尔检索技术是一种用于信息检索的基本技术,它基于布尔逻辑运算符(与、或、非)来连接检索查询的关键词或短语,从而筛选出符合查询条件的文档。
布尔检索技术的基本原理是将查询表达式转化为逻辑表达式,通过匹配文档中的关键词来确定文档的相关性。
布尔检索技术的优点是检索速度快,简单有效。
它可以将查询条件进行灵活组合,能够满足用户复杂的检索需求。
另外,布尔检索技术适用于处理大规模的数据集。
然而,布尔检索技术也存在一些限制。
它仅考虑关键词的存在与否,而忽略了关键词的重要性和上下文信息,因此可能产生大量的无关结果。
此外,布尔检索技术还不适用于处理复杂的语义查询,如问答型和自然语言查询。
搜索引擎概述之布尔检索
搜索引擎概述之布尔检索阅读本篇⽂章⾸先要对“词汇⽂档矩阵”和“倒排索引”有个基本的认识,要了解相关的知识可以阅读上⼀篇⽂章:。
布尔检索是最基础,也是使⽤最⼴泛的信息检索模型了。
所谓布尔查询就是通过AND、OR、NOT等逻辑操作符将检索词连接起来的查询。
⽐如:李⽩ AND (杜甫 OR ⽩居易) NOT 苏轼那么,布尔检索时如何利⽤倒排索引进⾏查询的呢?我们还是先从词汇⽂档矩阵说起吧~从词汇⽂档矩阵说起我们先假设我们有⼀个词汇⽂档矩阵,如下所⽰:当我进⾏布尔查询的时候,其实本质就是在为⽂档矩阵中的每⾏1和0组成的⼆进制数做布尔逻辑运算。
李⽩ AND 杜甫=110001 AND 110100=110000AND操作就是,相同的位同时为1,则结果为1,否则为0。
李⽩ AND 杜甫最终得出的结果就是⽂档1和⽂档2杜甫 OR ⽩居易=110100 OR 110111=111111OR操作就是,相同的位有⼀个位1,则结果为1,都为0结果才是0。
杜甫 OR ⽩居易最终得出的结果就是所有的⽂档。
李⽩ NOT 苏轼=110001 NOT 010000=110001 AND 101111=100001NOT操作就是先将NOT之后的内容取反,再进⾏AND操作。
李⽩ NOT 苏轼最终得出的结果就是⽂档1和⽂档6。
我们可以发现使⽤词汇⽂档矩阵的话,进⾏布尔检索⼗分简单。
但是我们在“搜索引擎概述之倒排索引”(回复“倒排索引”查看)中说过,词汇⽂档矩阵是稀疏的,极其浪费空间资源,使⽤这种结构存储⼤量的数据是不现实的。
因此,我们要使⽤的是倒排索引。
倒排索引的布尔查询那么在倒排索引中我们如何进⾏布尔查询呢?⾸先我们先将上边的词汇⽂档矩阵转换为倒排索引:那么,如果我们进⾏:“李⽩ AND ⽩居易”的查询则会进⾏如下操作:1、在词典中定位“李⽩”2、返回其倒排记录:“1,2,6”3、在词典中定位“⽩居易”4、返回其倒排记录:“1,2,4,5,6”5、对另个倒排记录表求交集最终的得到的结果就是“1,2”,也就是⽂档1和⽂档2。
如何利用布尔逻辑检索
如何利用布尔逻辑检索
布尔逻辑检索是一种检索技术,可以帮助用户更准确地搜索所需的信息。
以下是如何利用布尔逻辑检索的步骤:
1.确定关键词:将搜索主题转化为几个关键词,并使用适当的运算符
连接它们。
例如,如果搜索主题是"夏季度假",则可以使用关键词"夏季"和"度假"。
2.使用逻辑运算符:布尔逻辑检索使用三个逻辑运算符:AND(与)、OR(或)和NOT(非)。
当使用AND运算符时,搜索结果必须包含所有关
键词;OR运算符则表示搜索结果可以包含任何一个关键词;而NOT运算
符则表示搜索结果不应该包含某个关键词。
3.把关键词和运算符组合起来:将关键词和逻辑运算符组合到一起,
形成一个搜索字符串。
例如,可以使用"夏季AND度假"搜索夏季度假的信息,或使用"夏季OR暑假"搜索与夏季有关的任何信息。
4.编写搜索语句:将搜索字符串输入到搜索引擎的搜索栏中,并按下
搜索按钮。
搜索引擎会返回与搜索字符串匹配的结果。
5.重复尝试和调整搜索:如果搜索结果不符合所需的要求,则可以尝
试更改关键词、运算符或搜索字符串中的语法。
通过不断地调整搜索,可
以得到更准确的结果。
例如,假设您正在搜索有关饮食健康的信息。
您可以使用以下搜索字
符串执行布尔逻辑检索:"饮食AND健康AND烹饪NOT快餐"。
该搜索将返
回与饮食和健康有关,并包含烹饪但不包括快餐的信息。
专利检索算法 布尔检索
专利检索算法布尔检索
专利检索是使用特定算法从大量的专利数据中筛选出与特定关键词或查询相关的专利的过程。
这些算法主要基于文本挖掘和机器学习技术。
在布尔检索中,我们使用逻辑运算符(如AND、OR、NOT)来过滤结果。
以下是一个基本的布尔检索的例子:
AND:返回同时包含两个关键词的专利。
OR:返回至少包含一个关键词的专利。
NOT:返回不包含特定关键词的专利。
例如,如果我们想找到同时包含“创新”和“技术”两个关键词的专利,我们可以使用以下查询:
创新 AND 技术
如果我们想找到包含“创新”或“技术”的专利,我们可以使用以下查询:
创新 OR 技术
如果我们想找到包含“创新”但不包含“技术”的专利,我们可以使用以下查询:
创新 AND NOT 技术
然而,这只是最基础的检索方式,更高级的检索方式可能包括使用更复杂的逻辑运算符(如NEAR、WITHIN等),或者使用更复杂的关键词组合。
此外,许多专利数据库还支持使用通配符、短语搜索、词干搜索等高级功能。
值得注意的是,布尔检索虽然强大,但也有其局限性。
例如,它无法处理同义词或近义词,也无法处理语义上的复杂性。
因此,对于更复杂的检索需求,可能需要使用更高级的检索技术,如自然语言处理或深度学习。
布尔逻辑检索
布尔检索名词解释
布尔检索名词解释
布尔检索是计算机情报检索的一种基本方式,也是使用最广泛的信息检索模型。
它的基本原理是:检索系统中的每一条记录(文献或数据条目)用一组标引词表示其特征(称为文献表示),用户的问题(信息需求)则用布尔逻辑表达式表示,简称为需求表示或提问式。
检索作业是在系统的倒排档中进行的,系统对用户问题的响应是输出含有提问式中指定的检索词且逻辑关系亦相符合的记录集合。
例如,对于提问式Q来说,只有那些同时含有词a和词b,或者含有词a但不含有词b的记录,才会被系统判定为命中而输出给用户。
这种检索方式简单、易实现,能处理结构化问题,在情报检索中得到广泛应用。
但其缺陷是用户构造一个理想的提问式难度大,提问式中各个检索词的重要程度不能加以区分,检索结果不能按相关度或重要程度排序输出,易产生零输出或输出过量,匹配规则不尽合理。
第二章布尔检索
信息检索与数据挖掘 2011
2011/3/2
20
【内容无关】基于关联的模型
• 基本思想:同一个类型下的两个对象,如果经常连
接到相同的其他对象,那么这两个对象的相似性应 该很高。
• 示例( Simrank算法) • 1.利用文章的相互之间的引用关系计算文本的相似度。
• ----两个文档的引文相同,那么这两个文档的相似性很高。
信息检索与数据挖掘 2011
2011/3/2
3
上节内容要点回顾:IR & DM
• 信息过载( Information Overload) • 数据爆炸性的增长:如Email、网站、社会化媒体、视频、图 片数量的增长;主机数量、网站数量、社会网络规模的增长 • 数字化地球、数字中国、物联网、移动互联网、感知中国 • 信息检索( Information Retrieval) • 从大规模的非结构化数据(通常是文本)的集合(通常保存在 计算机上)中找出满足用户信息需求的资料(通常是文档)的 过程。 • 数据挖掘(Data Mining) • 从大量的、不完全的、有噪声的、模糊的、随机的实际应用数 据中,提取隐含在其中的、人们事先不知道的、但又是潜在有 用的信息和知识的过程
信息检索与数据挖掘 2011
2011/3/2
12
【基于内容】布尔模型:定义
• 文档表示 • 一个文档被表示为关键词的集 合 • 查询表示 • 查询式(Queries)被表示为关键词 的布尔组合,用“与、或、非” 连接起来(主析取范式DNF ) • 相关度计算 • 一个文档当且仅当它能够满足 布尔查询式时,才将其检索出 来 • 检索策略是二值匹配
信息检索与数据挖掘 2011
2011/3/2
4
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 标引词(index term)
• 标引项的权重(Weight)
信息检索与数据挖掘 2011
2011/3/2
23
小结3-3:信息检索模型之经典模型
• 集合论模型 (Set Theoretic models) • 布尔模型( Boolean Model, BM)、模糊集合模型、扩展 布尔模型 • 代数模型 (Algebraic models) • 向量空间模型(Vector Space Model, VSM)、广义向量 空间模型、潜在语义标引模型、神经网络模型 • 概率模型 (Probabilistic models) • 经典概率论模型(PM)、推理网络模型、置信网络模型
T1
D2 = 3T1 + 7T2 + T3 • D1比D2更接近Q吗? • 怎样衡量相似程度?夹角还是 投影
T2
7
信息检索与数据挖掘 2011
2011/3/2
16
【基于内容】向量空间模型:特点
• 特点 • 基于关键词(一个文本由一个关键词列表组成);根据关键词的出现频 率计算相似度例如:文档的统计特性 • 用户规定一个词项(term)集合,可以给每个词项附加权重 • 未加权的词项: Q = database; text; information • 加权的词项: Q = database 0.5; text 0.8; information 0.2 • 查询式中没有布尔条件 • 根据相似度对输出结果进行排序 • 支持自动的相关反馈 • 有用的词项被添加到原始的查询式中 • 例如:Q database; text; information; document • 三个关键问题 • 怎样确定文档中哪些词是重要的词?(索引项) • 怎样确定一个词在某个文档中或在整个文档集中的重要程度?(权 重) • 怎样确定一个文档和一个查询式之间的相似度?(相关度)
信息检索与数据挖掘 2011
2011/3/2
12
【基于内容】布尔模型:定义
• 文档表示 • 一个文档被表示为关键词的集 合 • 查询表示 • 查询式(Queries)被表示为关键词 的布尔组合,用“与、或、非” 连接起来(主析取范式DNF ) • 相关度计算 • 一个文档当且仅当它能够满足 布尔查询式时,才将其检索出 来 • 检索策略是二值匹配
想知道:哪些剧本包含Brutus和Caesar但是不包含 Calpurnia? • 一种方式是采用Unix下的grep程序,先找出所有包 含Brutus和Caesar的剧本,然后在将包含 Calpurnia的剧本排除 • 但是很多情况下,采用上述线性扫描的方式是远远 不够的。为什么?
信息检索与数据挖掘 2011
• 文档集合(Collection):所有待检索的文档构成的集合
• 相关(relevant)、相关度(relevance)
查询
文档文档Βιβλιοθήκη 相关度信息检索与数据挖掘 2011
2011/3/2
6
课程内容
• • • • • • • • • • • • • •
„ 1章 绪论 第 第2章 布尔检索及倒排索引 第3章 词典查找及扩展的倒排索引 第4章 索引构建和索引压缩 第5章 向量模型及检索系统 第6章 检索的评价 第7章 相关反馈和查询扩展 第8章 概率模型 第9章 基于语言建模的检索模型 第10章 文本分类 第11章 文本聚类 第12章 Web搜索 第13章 多媒体信息检索 第14章 其他应用简介
2011/3/2
11
两大类信息检索模型
• 基于文本内容的检索模型 • 布尔模型 第2章 布尔检索及倒排索引 • 向量空间模型 第5章 向量模型及检索系统 • 概率模型 第8章 概率模型 • 统计语言模型 第9章 基于语言建模的检索模型 • 与内容无关的其他检索模型 • 基于链接分析的模型 第12章 Web搜索 • 基于关联的模型 第10章 文本分类 • ……
Query R
Searching
Text R Text Collection
Ranked Docs
Ranking
Retrieved Docs
信息检索与数据挖掘 2011
2011/3/2
5
上节内容要点回顾:相关度是基本问题
• 用户需求(User Need):用户需要获得的信息 • 信息需求(Information Need) • 文档(Document):检索的对象
• 2.利用文章的一些外部信息(关联)计算文本的相似度。 • ---文档外部信息(作者,发表会议) • ---两个文档有共同的作者,发表到共同的会议上,那么这两个文 档的相似度很高。
信息检索与数据挖掘 2011
2011/3/2
21
小结3-1:信息检索模型的使命
• 信息检索模型是指如何对查询和文档进行表示,
信息检索与数据挖掘 2011
2011/3/2
14
【基于内容】向量空间模型:定义
• 文档表示 • 一个文档被表示为关键词构成的向量。 • 一个文档D就可以表示为D(t1,t2,…,tn),其中n就代表了关 键字的数量。 • 特征项权重Wk(Term Weight):指特征项tn能够代表文 档D能力的大小,体现了特征项在文档中的重要程度。 • 查询表示 • 一个文档被表示为关键词构成的向量Q(t1,t2,…,tn) 。 • 相关度计算 • 向量间的距离: D(t1,t2,…,tn), Q(t1,t2,…,tn)
Query:
Document:
Relevant? How relevant?
信息检索与数据挖掘 2011
2011/3/2
9
检索模型的定义
• 信息检索模型是描述信息检索中的文档、查询和
它们之间的关系(匹配函数)的数学模型。
模型F
文档 D
匹配函数 R(qi,dj)
查询 Q
信息检索与数据挖掘 2011
信息检索与数据挖掘 2011
2011/3/2
7
第2章 布尔检索及倒排索引
• 2.1 信息检索模型概述 • 2.2 一个简单的搜索示例 • 2.3 倒排索引 • 2.4 布尔检索模型 • 2.5 布尔检索模型的优化与扩展
信息检索与数据挖掘 2011
2011/3/2
8
如何度量相关性?
• 确定文档和查询之间的相关度是IR的核心问题
2011/3/2
26
一个信息检索的例子
• 上述方式不合适的原因: 1. 对于大规模文档的搜索太慢 2. 有时我们需要更灵活的匹配方式。比如,要求
Ka (1,1,0) (1,0,0) (1,1,1)
Kb
Kc
q ka (kb kc )
qdnf (1,1,1) (1,1, 0) (1, 0, 0)
信息检索与数据挖掘 2011
2011/3/2
13
【基于内容】布尔模型:优缺点
• 优点 • 由于查询简单,因此容易理解 • 通过使用复杂的布尔表达式,可方便地控制查询结果 • 相当有效的实现方法 • 经过某种训练的用户可以容易地写出布尔查询式 • 布尔模型可以通过扩展来包含排序的功能 • 缺点 • 弱。不支持部分匹配,完全匹配会导致结果太多或太少 • 非常刚性: “与”意味着全部; “或”意味着任何一个 • 原则上讲,所有被匹配的文档都将被返回 • 不考虑索引词的权重,所有文档都以相同的方式和查询相匹配 • 很难进行自动的相关反馈 • 如果一篇文档被用户确认为相关或者不相关,怎样相应地修改 查询式呢?
信息检索与数据挖掘 2011
2011/3/2
4
上节内容要点回顾: IR系统组成
User Interface Text query Text operations Logical View User feedback Query Operations Indexing Collection Manager
信息检索与数据挖掘 2011
2011/3/2
15
【基于内容】向量空间模型:距离图示
举例:
D1 = 2T1 + 3T2 + 5T3 D2 = 3T1 + 7T2 + T3 Q = 0T1 + 0T2 + 2T3 5
T3
D1 = 2T1+ 3T2 + 5T3
Q = 0T1 + 0T2 + 2T3
2 3
信息检索与数据挖掘 2011
2011/3/2
20
【内容无关】基于关联的模型
• 基本思想:同一个类型下的两个对象,如果经常连
接到相同的其他对象,那么这两个对象的相似性应 该很高。
• 示例( Simrank算法) • 1.利用文章的相互之间的引用关系计算文本的相似度。
• ----两个文档的引文相同,那么这两个文档的相似性很高。
• P(南京市长)P(江大桥|南京市长) <<
P(南京市)P(长江大桥|南京市)
• P(中国科技大学) >> P(中国大学科技)
信息检索与数据挖掘 2011
2011/3/2
19
【内容无关】链接分析模型
• 对于超文本(例如WWW上的网页 ),超链结构
是个非常丰富和重要的资源,如果能够充分利用的 话,可以极大地提高检索结果的质量。 • Sergey Brin 和Larry Page 在1998 年提出了 PageRank 算法 • J.Kleinberg 于1998年提出了HITS 算法 • 其它一些学者也相继提出了另外的链接分析算法, 如SALSA,PHITS,Bayesian等算法。
信息检索与数据挖掘 2011
2011/3/2
3
上节内容要点回顾:IR & DM
• 信息过载( Information Overload) • 数据爆炸性的增长:如Email、网站、社会化媒体、视频、图 片数量的增长;主机数量、网站数量、社会网络规模的增长 • 数字化地球、数字中国、物联网、移动互联网、感知中国 • 信息检索( Information Retrieval) • 从大规模的非结构化数据(通常是文本)的集合(通常保存在 计算机上)中找出满足用户信息需求的资料(通常是文档)的 过程。 • 数据挖掘(Data Mining) • 从大量的、不完全的、有噪声的、模糊的、随机的实际应用数 据中,提取隐含在其中的、人们事先不知道的、但又是潜在有 用的信息和知识的过程