信息检索中效率问题的研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
编辑ppt
12
实现倒排表的随机访问
• 高频词(Term)的Posting lists长度通常1Mbytes以上 (随着文档数据库规模增大,它会快速增长),称 作“long Posting lists”。如果对它作顺序访问,从磁 盘读入内存会耗费很长时间,同时占用系统大量的 I/O带宽,从而降低整个系统的吞吐量。解决的方法 是将对long Posting lists的顺序访问变成随机访问 (random access Posting lists), long Posting lists被按 照“文档号”分割成长度较小的数据块,在“AND” 和“Proximity search”操作时可以有选择地访问部分 数据,不可能相关的文档所在数据块被“跳过” (skip)。它增加了按编照辑p“pt 文档号”索引数据,以13空
• 如果维护一个全局稳定的词典(固定单
词的标识,便于维护),系统的TermID
可能成为稀疏的整数,可以组织成B+树
实现从TermID到指针的映射。
编辑ppt
9
数据组织(一)
• 倒排文件中单词对应的posting lists部分必 须存储在磁盘中,不同单词的posting lists 长度差别很大,可以区别对待。
• 面向对象的概念更能简洁地描述倒排文件的结构,采
用面向对象数据库系统(OODBS)是更好的选择。 下面是两个被一些IR系统使用的例子:
用持久对象存储(Persistent Object Store)Mneme管 理倒排文件,Mneme不但提供基于对象的数据缓存和 良好的磁盘空间分配策略,还可以用它高度的可扩展
缺点是灵活性差,效率也有所损失。
• 嵌入式数据库系统Berkeley Database
(Berkeley DB),是一个开放源代码产品,它
提供简单高效的功能(三种访问方法 B+tree,
hash, recno ),实现key/value的存取,这已
完全能满足索引管理的需求,可以替代OODBS
(在WebBase项目中使用)。
• 文本信息检索效果的提高依赖于自然语言 处理(NLP);信息的指数增长使得检索效 率也成为不可忽略的问题。
编辑ppt
3
信息检索(IR)的基本概念(三)
• 信息检索系统的组成部分:
编辑ppt
4
信息检索(IR)的基本概念(四)
• 基本用户查询(query):
– 逻辑操作(AND,OR,NOT)。 – 位置邻近查找(Proximity Search),短语查找
件的全文本索引(full-text inverted file)形
式,它记录了每次出现的位置等信息,要
占用较多的存储空间。如果去掉位置信
息,仅可以支持逻辑查询形式。
编辑ppt
7
词典的组织(一)
• 索引单词项的集合构成词典,系统通过查 找词典定位该单词对应的posting lists,这是 从单词到指针的映射。有两种词典的组织 方式:
• 汉字之间没有空格,可以对汉字字符索 引,也可以索引做切词处理后的词组。
现代汉语中大部分是两个字的词组,单个的
字符表示的意义很不确定,所以对词组建索
引可以提高查询的效果。切词对查询效率也
有重大影响。
编辑ppt
6
倒排文件的组织
• 将文档分割成独立的单词项(term),按单词 项索引形成倒排文件。
单词tj对应的posting lists是{( di , fi, a*)+( di+k , fi+k, a*)+…},fi表示tj在di的出 现次数,也是后面a的数量。这是倒排文
• 存储管理的方法在DBMS已经有深入研
究。在倒排文件中,每个单词的posting
lists的访问模式是顺序扫描(sequential
scanning) ,作为一个对象看待最合适。
关系数据库管理系统(RDBMS)用于倒
排文件的缺点是不太灵活,而且SQL语
句的开销比较大。
编辑ppt
ห้องสมุดไป่ตู้
10
数据组织(二)
性,根据数据的特性定制存储。
ObjectStore是商业上最成功的面向对象数据库系统之一,
它用内存映射技术实现持久对象存储,和程序语言
(C,C++,JAVA)完全集成,既有程序设计语言的灵
活,又可以高效的存储数据,是另一个很好的索引管
理工具。
编辑ppt
11
数据组织(三)
• “天网”中用多个文件实现倒排文件的存储, 优点是实现简单,可以利用文件的缓存机制,
✓DBMS的每次事务的结果是确定的,IR系 统的任务是找到用户需要的信息,其结果 是不精确的。
编辑ppt
2
信息检索(IR)的基本概念(二)
• 信息检索的两大问题:效率(efficiency)、 效果(effectiveness)。
效果指标:查准率(precision)和查全率 (recall)。
效率指标:响应时间(response time)和吞吐量 (throughput)。
– 直接用B+树等方式组织单词的字符串。 – 用哈希(hash)的方式——速度更快,可以将
所有单词装入内存中。
编辑ppt
8
词典的组织(二)
• “天网”中用哈希的方法实现从单词字符 串到单词标识(TermID,整数)的转换,单 词的标志是在每次创建索引是赋予的 (不是固定的),所有单词的标志是从 零开始的连续整数。
信息检索的缓冲区管理(一)
• 利用文件系统的缓存往往不能得到最佳的性能,根
据Posting lists的顺序访问模式,可以采用基于对象
(Phrase Search)。
• 对原始信息创建索引加快检索速度:
Inverted file , signature file等。
• 倒排文件是最广泛使用的技术,它组织 结构灵活,可以满足多种查询方式。
编辑ppt
5
对文档的预处理
• 在英语等语言中做“stem”,索引单词的 “主干”。—— 可以提高查全率,降低 查准率。
信息检索中效率问题的研究
报告人:赵江华
北京大学计算机科学与技术系 网络与分布式系统实验室
2002年4月21日
编辑ppt
1
信息检索(IR)的基本概念(一)
• 信息检索和数据库管理系统(DBMS)的区 别:
✓DBMS处理对象是结构化数据,IR处理大 量的非结构化数据。
✓DBMS只是管理数据,IR要管理数据的内 容——内容管理(content management)。