北理工--信息检索课件-4 索引技术 PART2

合集下载

信息检索技术(讲授版)PPT课件

开始浏览，沿着专题链接层层查找，直至找到有关的内容为止。然后用“书签”
保存这个页面的URL，转向另一个分支。这种方法可以迅速获得较多的相关地
址，然后进行筛选。就使用引擎而言，国外专家也建议先用链接页面多、响应
时间快的引擎。
-
3
2.引文法(跟踪法)
文献之间的引证和被引证关系揭示了文献之间存在的某种内在联系，引文法(也有称为跟踪法)就是利用文献后所附的参考文献、相关书目、推荐文章和引文注释查找相关文献的方法。这些材料指明了与用户需求最密切的文献线索，往往包含了相似的观点、思路、方法，具有启发意义。
这里需要说明的是，在Windows 环境下，尤其是在中文数据库及网站中，逻辑检索可以用算符将检索要求编成综合表达式向计算机一次输入检索提问，也可以用窗口上的逻辑指令按钮（与、或、非）进行分步组配提问和检索。
-
36
案例
-
37
布尔逻辑算符
布尔逻辑算符是规定检索词之间逻辑关系的算符，利用布
尔逻辑算符进行检索词或代码的逻辑组配，是计算机信息检索
例 2：《法国的邮电事业》的类号为“F635.65” ，“F63” 代表世界各国邮电事业，“565”为世界地区复分号，是法国的代号。如主表类目没有注明依世界地区表复分时，则在世界地区复分号上加国家区分号“（）”以示区别
例3：《上海市现代摄影作品集》是“J426.51”，“J426”代表现代摄影作品集，“51”为中国地区复分号，指上海市。
-
5
另一种较为普遍的查法是由近及远地追溯，这样由一变十，由十变百地获取更多相关文献，直到满足要求为止。这种方法适合于历史研究或对背景资料的查询，其缺点是越查材料越旧，追溯得到的文献与现在的研究专题越来越疏远。因此，最好是选择综述、评论和质量较高的专著作为起点，它们所附的参考文献筛选严格，有时还附有评论。

信息检索技术PPT课件

2021/4/4
.
19
信息检索的统计模型
一个信息检索模型IRM 是一个三元组
D是文档的集合；
Q是用户需求的集合；
R：D×Q→ R R是集合D与Q的笛卡尔乘积到实数集R的一个映射，对每个用户查询 q∈Q，每个文档d∈D ，映射R将 (q d）映射为一个实数，称为用户查询q与文档d的相关度。
2021/4/4
1996年正式提出“超链分析”概念并发表了相关文章，1997年2月申请了专利——“超链分析技术”（Hypertext document retrieval system and method，专利号5，920，859 ）。超链分析技术的发明，一改互联网搜索杂乱无章、信息冗余的局面，使搜索效果大幅提升。
PXY1,… … ,Yn
该条件概率表示该节点与其父节点 Y1,……,依Yn赖关系
的强度，在贝叶斯网络中，一个节点仅条件依赖于它的父节点。
2021/4/4
.
28
概率模型
索引词节点 k i
文档节点 d j
用户查询 q
边有2种类型：贝叶斯网络的3个层次
2021/4/4
.
29
概率模型
可见：
2021/4/4
2021/4/4
.
13
信息检索中的系统的评价
精确度-召回率曲线分析
2021/4/4
.
14
信息检索系统中的评价
许多用户对信息检索系统精确度要求较高，他们希望尽快查到相关的文档，而不把时间浪费在无关的文档上。另外一些用户则认为召回率更加重要，他们认为相关文档占检索返回的文档比例越高，系统效果则越好。
.
38
搜索引擎
2021/4/4

《信息检索第二章》PPT课件

– TCP是传输控制协议，处理由于路径不同及其它可能原因造成的数据包颠倒、数据丢失、数据失真等问题。
– IP是网际协议，利用路由算法解决路由选择的问题。
精选ppt
17
Internet 的管理
• 2.IP地址：是Internet上每台主机和用户终端的识别标识。 IP地址在全球范围内都是唯一的。 IP 地址的表示：211.83.48.13
精选ppt
5
第二部分考试说明与实施要求
• 考核的能力层次表述：
• 大纲在考核目标中，按照“识记”、“理解”、“应用” 三个能力层次规定其应达到能力层次要求。各能力层次为递进等级关系，后者必须建立在前者的基础上，其含义是：
• 识记：能知道有关的名词、概念、知识的含义，并能正确认识和表述，是低层次的要求。
• 3、阅读完每章教材后，认真完成老师布置的作业，要求熟练掌握！并独立完成老师安排的4套复习模拟题，注意答题技巧和答题方法。
精选ppt
9
考试大纲要求掌握的章节
• 第一章因特网信息资源（8分） • 第二章因特网信息检索概论（17分） • 第三章搜索引擎（17分） • 第四章目录型网络检索工具（14分） • 第五章元搜索引擎（14分） • 第六章多媒体信息检索（11分） • 第七、八章学术信息的网上检索与获取（11分） • 第九章参考信息的网上检索（8分）
• （二）、多项选择题
• 1、下列属于因特网信息资源的是（）。
• A．WWW信息资源
B.RSS信息资源
Ｃ. FTP信息资源
• D. 用户服务组信息资源Ｅ.Telnet信息资源
• （三）、名词解释题
• 1、布尔逻辑检索
• （四）、简答题

信息检索PPT第2章

第2章图书信息检索
目录
2．1 图书馆概述 2．2 图书信息检索 2．3 电子图书检索
2．1 图书馆概述
2．1．1 图书馆信息资源介绍 2．1．2 图书馆职能 2．1．3 图书馆的服务类型及项目
2．1．1 图书馆信息资源介绍
1．图书馆资源的类型 1）纸介质资源：图书、期刊、报纸等； 2）非纸介质资源：电子图书、电子期刊等各种数据库、随书光盘、磁带、VCD、DVD及网上资源。
2．1．2 图书馆职能
1．文献资源保存职能 2．文献资源整序职能 3．文献资源传递职能 4．社会教育职能 5．开发信息产品职能 6．开展网络导航职能
2．1．3 图书馆的服务类型及项目
各级各类图书馆的情况不同、条件各异，提供的网上服务也不尽相同，一般的服务主要： 1．馆藏数据检索 2．网络资源信息导航 3．参考咨询服务 4．网上电子图书馆、虚拟图书馆资源的利用
2．图书馆馆藏资源的选择和利用
1）《中国图书馆分类法》（简称《中图法》）
2）《中国科学院图书分类法》（简称《科图法》）
3）《中国人民大学图书馆图书分类法》（简称《人大法》）
4）杜威十进分类法DDC（Dewey Decimal Classification，简称DC/DDC）
5）国际十进分类法UDC（Universal Decimal Classification）
2．2．2 图书信息检索的查询
现在图书收藏信息主要是通过查询各图书馆的书刊目录检索系统（Online Public Access System，简称 OPAC），公共联机书目查询系统。它是利用计算机终端来查询图书馆馆藏数据信息资源的一种现代化检索方式。 1．馆藏目录的查询 2．联合目录的查询 3．其他途径

信息检索课件

02
信息检索基础
布尔模型
基于逻辑运算符的模型，将查询词与文档进行简单的匹配，常用符号包括 AND、OR、NOT。
聚类分析
将相似的文档聚集成一类，根据文档之间的相似度进行分类，有助于缩小检索范围。
决策树模型
基于决策树的分类模型，通过训练样本建立一棵决策树，用于预测新样本的类别。
03
信息检索相关技术
语义理解能力不足
传统的信息检索技术主要基于关键词匹配，无法很好地理解用户的真实意图，这在很大程度上影响了检索结果的准确性和相关性。
语义网的发展
语义网的概念和应用
语义网是一种基于XML技术的互联网应用，它可以将互联网上的文档统一转化为计算机可读的格式，从而使得计算机能够更好地理解文档内容，提高信息检索的准确性。
F1得分
• F1得分：是查准率和查全率的调和平 2 (查准率查全率) / (查准率 + 查全率)。
平均倒数排名（MRR）
• MRR：是一种衡量排序效果的指标，将所有相关文档按照排序位置的倒数平均值进行加权，再求和得到。公式为： MRR = 1 / (1/第一相关文档 + 1/第二相关文档 + ... + 1/ 第N个相关文档)。
文本预处理
01
02
03
文本清洗
去除文本中的标点符号、停用词、拼写错误等冗余信息，提高文本的可读性和信息含量。
分词技术
将文本切分成词汇单元，便于后续的词频统计和语义分析。
词性标注
对词汇进行语法标注，有助于理解词汇在句子中的角色和语义。
倒排索引
基本原理
倒排索引是一种基于词汇表的索引结构，每个词汇对应一个包含该词汇的文档列表。

《信息检索技术》PPT课件

– 探究、搜索与发现
上帝之眼
换个立场看世界
搜索引擎给这个世界开凿了一扇门。
门的这边是无数个和你一样充满求知欲的教师，
而门的那边那么是浩瀚无边的信息海洋。
对于信息时代的教师，搜索正在悄无声息地改变我们的学习方式和工作方式。
用GOOGLE识破骗局用GOOGLE拉近距离用GOOGLE改变生活用GOOGLE促进学习 ……
李开复博士
谷歌全球副总裁、大中华区总裁用户为先：谷歌做好三件事: 客观、公平的搜索结果，从每次到永远！坚持不懈地改进搜索，帮助用户得到正确的答
案和正确的体验。创新、创新、还是创新！！——不断的创立
新的搜索技术标杆
人名词典
英汉词典
赟字怎么读？
斌—文武斌，下面加个“贝〞字，怎么读？
?信息检索技术?PPT课件
本课件PPT仅供大家学习使用学习完请自行删除，谢谢！本课件PPT仅供大家学习使用学习完请自行删除，谢谢！本课件PPT仅供大家学习使用学习完请自行删除，谢谢！本课件PPT仅供大家学习使用学习完请自行删除，谢谢！
Google还用学吗？
搜索引擎？
不就是输入一两个关键词，然后按搜索键嘛！
你真的认为，互联网界an
Google是一种问题解决的方法
谷歌意识
一种主动求知与自主问题解决的意识与行为习惯
有人说，会搜索才叫会上网!
搜索引擎在我们日常生活中的地位已是举足轻重。
google搜索在默哀三分钟的时候与中国一起停顿
建利
——焦
2
知识管理技术
GOOGLE
……
站在巨人的肩膀上
2006年1月11日
Google 学术搜索提供可广泛搜索学术文献的简便方法。您可以从一个位置搜索众多学科和资料来源：来自学术著作出版商、专业性社团、预印本、各大学及其他学术组织的经同行评论的文章、论文、图书、摘要和文章。Google 学术搜索可帮助您在整个学术领域中确定相关性最强的研究。

信息检索课件第4章

3 词干处理
将单词转化为其词干形式，以匹配更多的相关文档。
常见的信息检索算法
1
TF-IDF
基于词频和文档频率计算匹配的相关程度。
2
PageRank
评估网页的重要性，通过链接分析产生排名。
3
BM25
改进的TF-IDF，解决了词频过度调整的问题。
布尔检索模型及其优缺点
优点
• 简单 • 可靠 • 易于理解
PageRank
通过网页之间的链接关系来确定网页的重要性和排名。
HITS
通过分析网页的链接和内容，确定网页和链接的权重和重要性。
BM25F
结合文档的内容和链接关系，综合计算关键词匹配的重要性和文档的相关性。
搜索引擎的优化技巧
1 关键词研究
2 网页结构优化
3 用户体验优化
依据用户需求和搜索习惯，调整关键词的数量和选择，提高匹配准确性和页面排名。
信息检索系统的组成
服务器端
负责索引存储的数据和响应用户请求。
客户端
提供用户接口，用于输入查询、展现搜索结果和相应操作。
数据存储
存储检索所需的数据，包括文本、图像和视频等。
信息检索中的数据预处理
1 分词
将文档和查询分成单独的词或短语，提高匹配的召回率。
2 去除停用词
去除出现频率高但信息含量低的词，例如“a”和“the”等。
调整页面结构和元素标记，提高网页质量和展现效果，提高页面自然排名。
提高页面响应速度，提供简洁明了的内容和导航，提高用户留存率和转化率。
信息检索中的未来发展趋势与关键技术
未来发展趋势
人工智能和自然语言处理将推动信息检索领域的快速发展。

信息检索技术基础知识讲义(ppt 97页)

AB
A
B
A
B
逻辑或 A+B
逻辑与 A*B
逻辑非 A-B
18
2.2.1 布尔逻辑
运用“布尔算符”的注意事项：
• 布尔逻辑运算符运算顺序为： not→and→or • 运算符遵循数学运算法则;
(a) 括号优先；(A or B) and C not D (b) 在检索式中只有and或or前后的检索标识可
• 单元词：指从信息内容中抽出的最基本的词汇。 • 关键词语言：关键词是从文题、文摘或正文中
抽出，具有实质意义，能够代表文献内容主题的名词术语。关键词可直接用于文献标引。
6
叙词语言
• 叙词：指从信息的内容中抽出的、能概括表达信息内容基本概念的名词或术语，它是经规范化处理的自然语言词汇。
• 叙词受叙词表控制，有组配功能。运输飞机设计
3
2.1 信息检索语言
检索语言
描述文献内容特征
分类语言
主题语言
关键词语言单元词语言标题词语言叙词语言
描述文献外表特征
题名（书名、刊名、篇名）著者出版事项
代码/序号
4
2.1 信息检索语言
• 主题语言（内容特征） • 按照主题性质的不同可分为：
• 标题词 • 单元词 • 叙词 • 关键词
12
2.2.1 布尔逻辑检索
在进行信息检索时，检索项之间概念有相交关系、同义关系或相关关系，这时采用布尔逻辑进行检索项之间的逻辑组配。
用“与”（AND）、“或”（OR）、“非” （NOT）来表达。
13
2.2.1 布尔逻辑
• 布尔逻辑检索：在进行信息检索时，检索项
之间概念有相交关系、同义关系或相关关系，这时采用布尔逻辑进行检索项之间的逻辑组配。 • 布尔逻辑算符有三种：逻辑与、逻辑或、逻辑非用“与”（AND）、“或”（OR）、“非” （NOT）来表达。

信息检索技术第2章中国知网简明教程PPT课件

第2章中国知网(CNKI)
图2.12 CNKI跨库高级检索
第2章中国知网(CNKI)
检索结果分析：
分析检索命中文献，数量偏多(114篇)，不宜逐个阅读，若要得到更合适的文献，即可以通过增加检索控制条件进行二次检索，还可通过分组浏览的方式，有重点地查阅命中文献。 (1) 按照来源数据库浏览，可以在选定的数据库中查阅命中文献，如中国博士学位论文全文数据库中命中文献有3篇，见图2.13-A。 (2) 按照学科浏览，可以根据检索者的研究学科需求，选择指定学科的命中文献浏览，如交通运输经济学科的命中文献有15篇，见图2.13-B。 (3) 按照机构浏览，可以根据文献作者的所在机构，选择文献浏览，如北京交通大学有命中文献9篇，见图2.13-C。 (4) 按照基金浏览，根据文献的支持基金情况，选择文献浏览，如国家自然科学基金支持的命中文献有1篇，见图2.13-D。
第2章中国知网(CNKI)
2.4.2 中国知网出版物检索 CNKI知识发现网络平台(简称KDN平台)的特色之一就是统一了出版物导航检索，包括期刊导航、博士学位授予单位导航、硕士学位授予单位导航、会议论文集导航、报纸导航、年鉴导航和工具书导航。统一导航页面中有字母导航和分类导航，左侧文献分类目录帮助用户快速定位导航的分类。分类导航检索可以采取鼠标滑动展现的方式实现导航操作，读者可直接按照分类浏览基本信息，按期查找出版物，见图。
检索控制件
图2.11 CNKI 跨库高级检索
第2章中国知网(CNKI)
【检索示例2.4】利用CNKI跨库高级检索模式，检索2013年发表的“城市交通枢纽换乘客流预测”方面的文献。检索步骤： (1) 检索分析，检索内容可以设定为：城市交通、交通枢纽、客运枢纽、交通换乘、乘客换乘、客流预测、换乘客流等。 (2) “跨库选择”，选定期刊、特色期刊、博士学位论文、硕士学位论文、国内会议论文、国际会议论文、学术辑刊、硕士_2013增刊和成果9种数据库。 (3) 选择检索项为“主题”。 (4) 选择检索词：交通枢纽、客流预测、交通换乘、城市交通；设定“交通枢纽”和“交通换乘”为“或含”关系；“客流预测”和“城市交通”为“ 或含”关系。 (5) 时间范围控制：2013年到2013年，或2013年1月1日到2013年12月31 日。 (6) 命中文献114篇。如图2.12所示。

信息检索课件第4章

本作业要求从天网大学课程在线上下载一部指定的视频教程。这也将是本课程
期末考试的必考题目之一，请用心掌握下述操作技巧。
2013
用天网妹子搜索到的大学课程在线
2013
大学课程在线项目理念
来源于如下一些理想中的场景：
场景一：新疆石河子大学计算机系讲授《计算机体系结构》的张
老师对他的学生说：关于“指令流水线部分”的内容请大家点播“大学课程在线”上北京大学李老师相关的视频，我们的答疑时间是本周星期四。
的文件: 如文本文件、二进制的可执行程序、科学论文、图像文件、压缩文件、
声音文件等。因此有大量有价值的信息资源存储在Internet网上的FTP服务器上, 获
取这些资源也是信息检索的一项内容。
2013
4.1.2FTP的工作原理
FTP(File Transfer Protocol) 是 TCP/IP 协议的一种, 它是在Internet网上使用最广
泛的一种服务, 它可被用来在两台位于Internet网上的计算机之间传输文件, 它是一
种实时的联机服务, 使用时, 用户应首先登录到对方的主机上, 登录成功后, 可以进
行文件搜索和文件传送的操作, 如列文件目录, 改变当前目录, 设置传送参数等。
2013
4.1.3什么是P2P
P2P在IT界最初的含义是Peer-to-peer（点对点）。现在P2P已经被更广泛的理解为Point-to-Point, PC-to-PC等等。简单来说，P2P就是指数据的传输不再通过服务器，而是网络用户之间直接传递数据。
2013
作业4 迅雷在线搜索
本作业要求，对2006年最火爆的“明星学者” 易中天先生的力作：CCTV百家讲坛《易中天品三国》在迅雷上进行搜索，将这套系列视频教程的总目录列出来（据说有30多集），按演讲顺序编号，并附上资源发布站点的屏幕抓图，以使读者能够方便地下载自己需要的讲座内容。

信息检索技术PPT课件

从形式上分正式主题词非正式主题词
按按照照选选词词方方式式的的不不同同划划分分
2020/3/21
标题词单元词
叙词关键词
13
2.1.2 主题语言
标题词语言
最早使用的主题语言之一，以规范化的自然语义作为标识来表示文献涉及的主题概念。其中表达主题的词语称为标题词
单元词语言
从文献内容中抽选出来的最基本的词汇，将代表最一般、最基本的、不可再分割的概念的词作为单独标引文献的单位单元词是构成标题词的组件，绝大部分单元词都不是具体的标题。
检索词A和检索词B用“与”组配，检索式为：
A AND B，或者 A * B
它表示检出同时含有A、B两个检索词的记录。
例：图书馆教育 library AND education
2020/3/21
21
2.3.1 布尔逻辑检索逻辑“或”
一种具有概念并列关系的组配，用“OR” 或“+”或“|”算符表示
检索词A和检索词B用“或”组配，检索式为：
2020/3/21
23
2.3.2 截词检索
定义：用给定的词干做检索词，用以检索出含有该词干的全部检索词的记录。又称为通配符，不同的检索系统中使用的符号不同，通常用“*”、“？” 来表示。
方式：后截断、前截断、中间截断代码: *—无限截断？—有限截断
作用：扩大检索范围、提高查全率、减少检索词的输入量、节省检索时间等作用。
2.1.3 代码语言、自然语言
代码语言
是指对事物的某方面特征，用某种代码系统来表示和排列事物概念，从而提供检索的检索语言。通常用数字、字母或用它们结合的形式或以分段的方式来表示其各部分的含义。适用：科技报告、专利文献

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• 搜索引擎通常通常将这些功能隐藏在高级搜索下。
拼写校正
• carot corrot
拼写校正基本的原则
• (1) 对于一个拼写错误的查询，在其可能的正确拼写中，选择距离“ 最近” 的一个。 • 2) 当两个正确拼写查询邻近度相等（或相近）时，选择更常见的那个。
– 语料库 – 检索日志 – Eg：grnt grant，grunt
(1) 用户对查询的拼写不太确定（比如，如果不能确定是 Sydney 还是 Sidney，就采用通配符查询 S*dney）； (2) 用户知道某个查询词项可能有不同的拼写版本，并且要把包含这些版本的文档都找出来（比如color 和 colour）； (3) 用户查找某个查询词项的所有变形，这些变形可能还做了词干还原，但是用户并不知道搜索引擎是否进行了词干还原（比如 judicial 和 judiciary，可采用通配符查询 judicia* ）； (4) 用户不确定一个外来词或者短语的正确拼写形式（如查询 Universit* Stuttgart）。
• 操作系统往往以数据块为单位进行读写。因此，从磁盘读取一个字节和读取一个数据块所耗费的时间可能一样多。数据块的大小通常为 8 KB、16 KB、32 KB 或 64 KB。我们将内存中保存读写块的那块区域称为缓冲区（buffer）。
• 数据从磁盘传输到内存是由系统总线而不是处理器来实现的，这意味着在磁盘 I/0 时处理器仍然可以处理数据。
root-n-o-m-e-l。
• 同时使用B-树和反向B-树，我们可以处理更一般的单通配符查询，比如se*mon。
一般方法
通配符查询 qw 布尔查询Q
过滤普通查询
轮排索引
• 我们在字符集中引入一个新的符号$，用于标识词项结束。
• 对原始词轮转，生成所有可能的轮转结果。并指向原始词。
• 轮排词汇表：可以采用查询树存储
方法分类
• 词项独立（isolated-term）的校正：
– 每次只考虑一个词项的校正，也就说在校正时词项之间是相互独立的。 – 很难检测到上下文错误，如：查询 flew form table, jump onto river.
• 上下文敏感（context-sensitive）的校正。
编辑距离
拼写校正的服务方式
• (1) 输入查询 carot，系统往往在返回包含 carot 的文档的同时，也返回包含 carot 多种可能拼写校正结果（如 carrot 和 tarot）的文档。 • (2) 当 carot 不在词典中时，采用第 1 种做法。 • (3) 当原始查询返回的文档结果数目少于预定值（比如少于 5 篇文档）时，采用第 1 种做法。 • (4) 当原始查询返回的文档数目少于预定值时，搜索界面中会给用户提供一个拼写建议（spelling suggestion），建议中会包含拼写校正之后的结果。因此，这实际上相当于搜索引擎和用户进行交互：“你是在找 carrot 吗”？
回目录
词典及容错式检索
• • • • 词典搜索的数据结构通配符查询拼写校正基于发音的校正技术
回目录
词典搜索的数据结构
• 给定倒排索引及查询，那么我们的首要任务是确定每个查询词项是否在词汇表中 • 两大类解决方案：哈希表方式和搜索树方式。
(1) 关键字的数目有多少？ (2) 关键字的数目是固定的还是经常变化？在变化的情况下，是只插入新关键字，还是同时要删除某些旧关键字？ (3) 不同关键字的相对访问频率如何？
• 利用 k-gram 索引来查找与查询具有很多公共 k-gram 的词项。 • 只要对“具有很多公共 k-gram”进行合理定义。 • 实际上是对查询字符串 q 中 k-gram 的倒排记录表进行单遍扫描的过程。
查询bord：返回包含上面 3 个 2-gram 中的至少 2 个词项，对倒排记录表的单遍扫描（会返回满足该条件的所有词项：aboard、boardroom 及 border。
• 例2：查询red*
– 构造布尔查询 $re和red – 返回中包含retired，进行后过滤（postfiltering） – 普通查询
discussion
• 通配符查询的处理是非常耗时的：除了最后要在普通倒排索引中查找之外，还要：
– 在特定索引（如轮排索引或 k-gram 索引）中进行查找、 – 在结果中进行过滤等操作
• 寻道时间: 平均在 5 ms 左右。 • 寻道时间：连续读取的数据块也应该在磁盘上连续存放。 • 例：大概只需要 0.2 秒钟就可以将一个连续存放的 10MB 数据块从磁盘传输到内存，但是如果上述数据存放在 100 个非连续的块中，那么，需要移动 100 次磁头，因此总时间可能会需要 0.2 + 100 × (5 × 10 −3 ) = 0.7 s。
• 我们可以利用这一点来加速数据的传输过程，比如将数据进行压缩然后再存储在磁盘上。假定采用一种高效的解压缩算法的话，那么读磁盘压缩数据再解压所花的时间往往会比直接读取未压缩数据的时间要少。
• IR 系统的服务器往往有数 GB 甚至数十 GB 的内存 • 服务器磁盘空间大小一般比内存大小要高几个数量级：TB-PB。
回目录
4 索引构建
• • • • • 4.1 硬件基础 4.2 基于块的排序索引方法 4.3 内存式单遍扫描索引构建方法 4.4 分布式索引构建方法 4.5 动态索引构建方法
4.1 硬件基础
0.01us = 10-8s
IR 系统的设计相关的硬件基本性能参数
• Caching：访问内存数据比访问磁盘数据快得多（ 5 × 10 −9s VS 2 × 10 −8s），尽可能地把数据放在内存中.
将 B、F、P 和 V 转换为 1；将 C、G、J、K、Q、S、X 和 Z 转换为 2；将 D 和 T 转换为 3；将 L 转换为 4；将 M 和 N 转换为5; 将 R 转换为 6。
(4) 将连续出现的两个同一字符转换为一个字符直至再没有这种现象出现。 (5) 在结果字符串中剔除0，并在结果字符串尾部补足 0，然后返回前四个字符(一个字母加上 3 个数字) 例：Herman H655
• 给定两个字符串，两者的编辑距离定义为将 s1 转换成 s2 的最小编辑操作数。
– (i) 将一个字符插入字符串； – (ii) 从字符串中删除一个字符； – (iii) 将字符串中的一个字符替换成另外一个字符。带权重的编辑距离：
时间复杂度: O （|s1 | × |s2 |）
ห้องสมุดไป่ตู้
拼写校正中的 k-gram 索引
哈希表
• 每个词项通过哈希函数映射成一个整数 • 难以处理查询词项存在轻微变形的情况（如单词resume的重音符和非重音符版本） • 很难处理前缀式查询, 如查找以automat开始的词项所在的文档 • 哈希函数可能在几年内很快失效
搜索树
B-tree
通配符查询
• 通配符查询往往适用于如下任何一种场景：
四字符简化方法
• Observation：
（1）在名称转录时，元音是可以互换的；（2）发音相似的辅音字母归成同一类。这就会导致相关的名称通常有相同的 soundex 编码结果。
• 汉语可以用拼音进行操作。
四字符简化方法
(1) 保留词项的首字母。 (2) 将后续所有的A、E、 I、 O、 U、 H、W 及 Y 等字母转换为 0。 (3) 其他字母的转换规则如下：
Introduction to information Retrieval
Talk 4 Indexing
Lin Dai dailiu@ 2012.9
提纲
1. 2. 3. 4. 5. 布尔检索支持短语检索的索引词典及容错式检索索引构建索引压缩
回目录
混合索引机制
• 二元词索引和位置索引这两种策略可以进行有效的合并: 对某些查询使用短语索引或只使用二元词索引，而对其他短语查询则采用位置索引。 • 短语索引所收录策略：
• 因为通配符*在查询字符串末尾仅出现一次，所以一个诸如 mon* 的查询称为尾通配符查询（trailing wildcard query）。 • 基于搜索树的词典结构对于处理尾通配符查询来说非常方便。 • 反向 B-树（reverse B-tree）结构，处理首通配符查询：*mon 形式的查询。
• 用字符$来标识词项的开始或者结束：
– $ca、cas、ast、stl、tle 、le$
查询处理
• 对于给定的查询，引入$符号，旋转，在k-gram索引中进行布尔查询，得到terms • 对terms在倒排索引中查询，得到最终结果。
查询处理
例1：查询 re*ve
– 构造布尔查询 $re AND ve$ – 查询k-gram表，得到relive、remove 及 retrieve 的词项 – 在普通倒排索引中查找这些返回的词项
• 采用雅可比系数（Jaccard coefficient）就可以对先前的线性扫描合并方法进行修正： J =|A∩B|/|A∪B| 输出雅可比系数超过预定的阈值的索引项。
combination
• 编辑距离 + K-GRAM：
– 首先使用 k-gram 索引返回可能是q 的潜在正确拼写形式的词项集合，然后计算该集合中的每个元素和 q 之间的编辑距离并选择具有较小距离的那些词项。 – 限制计算编辑距离后得到的词汇表大小 – 提高性能
– 最后，普通倒排索引查询。
轮排索引的缺点
• 轮排索引的一个最大缺点是其词典会变得非常大，因为它保存了每个词项的所有旋转结果。
• 对于一部英语词典来说，这种增长可能达到 10 倍左右。
支持通配符查询的 k-gram 索引

北理工--信息检索课件-4 索引技术 PART2

信息检索技术(讲授版)PPT课件

信息检索技术PPT课件

《信息检索第二章》PPT课件

信息检索PPT第2章

信息检索课件

《信息检索技术》PPT课件

信息检索课件第4章

信息检索技术基础知识讲义(ppt 97页)

信息检索技术第2章中国知网简明教程PPT课件

最新第2章信息检索基本知识ppt课件

信息检索课件第4章

信息检索技术PPT课件