第四章 Web信息检索基础

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

信息检索agent
• 搜索引擎、元搜索引擎等的缺点：
– Web信息检索系统通常作为一种大型的服务器程序运行，同时响应多个用户的请求。这些系统不能够根据用户的兴趣需求来定制检索结果。即使同一个用户，在不同的时期也有所侧重。 – 此外，上述系统的检索工作是用户驱动的，即由用户显式地提出检索请求，系统给出响应。在一段时间中，每个用户的检索需求相对稳定，但上述系统缺乏对Web信息进行监控并在出现用户感兴趣的新信息时主动地通知用户的能力。因此检索活动是一种耗时的、重复活动。
搜索技术面临的基本问题
• 测试问题：如何衡量一个搜索系统的准确性。
– 准确性有哪些指标？ – 做什么样的实验能够得出中肯的评价？
搜索技术面临的基本问题
• 人机交互问题：什么样的搜索系统易于用户使用。
– 用户界面是什么？ – 衡量用户体验的指标有哪些？ – 什么机制可以提高系统的易用性？
Web搜索
目录
• • • • • • • • 信息检索介绍布尔检索索引的创建搜索的准确性全局排序排序过程搜索的评价搜索引擎的架构
布尔检索（Boolean Retrieval）
• 用户的信息需求通过词和布尔代数表示。例子： • 在莎士比亚的戏剧集中，查找包含Brutus和 Caesar但不包含Calpurnia的戏剧。 • 查询语句： Brutus AND Caesar AND NOT Calpurnia
• 搜索（Ad-hoc Search）
– 用户通过关键字描述自己的信息需求，系统在文档集中找到满足用户信息需求的文档。
• 过滤（Filtering）
– 给定一个文档，找到可能对它感兴趣的用户。
• 分类（Classification）
– 对文档进行分类，以便用户浏览。
• 问题回答（Question Answering）
什么是信息检索？
• 广义：关于如何满足人们的信息需求的学问。 • 狭义：信息搜索技术。
• 其他人的定义：“Information retrieval is a field concerned with the structure, analysis, organization, storage, searching, and retrieval of information.” (Gerard Salton, 1968)
– 在文档中找到具体问题的答案。
搜索技术面临的基本问题
• 相关性问题：如何确定文档是否能满足用户的信息需求。
– 相关性包含哪些方面？ – 通过什么去衡量相关性？ – 如何衡量相关性？
搜索技术面临的基本问题
• 性能问题：如何建立一个反映速度快且数据容量大的搜索系统。
– 系统的体系结构是什么？ – 什么样的机制可以加快搜索的速度？ – 什么样的机制可以加大系统的容量？
• 三种形式
– Specific queries encyclopaedia, libraries
• Exploit hyperlink structure
– Broad queries web directories
• Web directories: classify web documents by subjects
目录
• 目录，例如Yahoo，OpenDirectory，Snap等，与搜索引擎的工作方式不同
• 由人工收集或者由Web站点的作者主动提交文档 • 人工对Web站点和文档进行评价、分类并给出简要描述 • 按照主题分类并以树状的形式对Web信息资源进行组织（浏览） • 对Web信息资源的分类以及描述信息建立索引（检索）
1 1 1 1 0 0 0
0 0 0 0 1 1
0 1 1 0 0 1 1
0 0 1 0 0 1 1
1 0 1 0 0 1 0
Brutus AND Caesar AND NOT Calpurnia
1 表示包含, 0 表示不包含
Sec. 1.1
搜索方法
• 每个词对应一个由0和1组成的向量. • 将Brutus, Caesar的向量和Calpurnia的逆向量做按位与操作. • 110100 AND 110111 AND 101111 = 100100.
– 目前Yahoo包含有指向500,000个站点的链接，分布在25,000个分类中。
目录
搜索引擎与目录
• 搜索引擎和目录这两种Web信息检索系统各有所长。
– 通常，由于搜索引擎具有庞大的全文索引数据库，因此适用于检索难以查找的信息或者一些比较模糊的主题； – 而目录有助于逐步缩小主题或者查找某个主题的常见的、质量较高的信息。
– Vague queries search engines
• index portions of web
Web信息的特点
• Web本身：
– – – – – – – Large volume:8亿个页面(1999),每两年翻番。 Distributed: 分布在280万个Web Server上。 Dynamic：created,changed,moved,deleted No-structure、heterogeneitiy：pictures、audio… Variety of language:more than 100 Duplication :nearly 30% High linkage: averagely more than 8 links to others.
元搜索
• 第一步：Web server that sends query to
– Several search engines – Web directories – Databases
• • • •
第二步：Collect results 第三步：Unify them (Data fusion) Aim: better coverage 关键问题：
– Translation of query – Uniform result (fusion rankings, e,g, pages retrieved by several engines) – Wrappers
元搜索引擎
• 主要工作原理： – 任务分解：元搜索引擎首先对用户的查询请求进行预处理，分别转换为若干个底层搜索引擎能处理的格式，并将其发送给各个搜索引擎。 • 例如，MetaCrawler同时检索Yahoo，LookSmart，AltaVista 等九个主要的搜索引擎。 – 信息融合：在各个搜索引擎返回检索结果后，元搜索引擎进行组合，并向用户返回最终的检索结果。 • 优点： – 建立在搜索引擎的基础之上，因此对于设计人员而言，不需要建立和维护庞大的索引数据库，也不需要使用复杂的检索机制； – 对于用户而言，提供了一个能够同时查询多个搜索引擎的集成界面，将各个搜索引擎的位置、接口等细节屏蔽了起来，同时也有可能获得更好的检索效果。
搜索引擎与目录
• 第一个搜索引擎 : WWWW（World Wide Web Worm） [McBryan94]:Colorado大学 • 搜索引擎的基本设计思想是： – 使用robot遍历Web，将Web上分布的信息下载到本地文档库 – 对文档内容进行自动分析并建立索引 – 检查索引找出与用户查询相匹配的文档（或链接） • 最为著名的搜索引擎有 Google,NorthernLight，AltaVista， Infoseek 等。其中， NorthernLight 和 AltaVista 所索引的 Web 页面都已经超过了100,000,000。
WEB INFORMATION RETRIEVAL!!!
• 99%的信息对99%的用户是没用的。
Web信息检索系统的分类
用户
信息检索agent
元搜索引擎
搜索引擎
目录
Web
The Taxonomy of Web Information Retrieval Systems
Web信息检索系统的分类
• Web信息检索系统作为用户层和Web信息层之间的中间层，可以进一步地划分为三个层次，包括：搜索引擎与目录、元搜索引擎、信息检索agent。 • 在层次分类中，每一层都建立在其下各层的基础之上，并向其上各层提供信息检索服务。 • 这些层次分类构成了Web信息检索中的一条生产／消费链：Web信息 → 搜索引擎与目录 → 元搜索引擎 → 信息检索agent → 用户。 • 下面，我们对各个层次的特点、设计思想及相互关系分别加以考察。
迫切需要新一代的信息检索技术
• 用户
– Ill-formed queries: 未经专门培训，查询请求短、不精确 – Wide variance in users:每个用户在needs,expectations,knowledge等各方面均不同。 – Specific behavior：85%只看第一页、78%never modify their very first query.
数据库的查询
• SQL查询系统：
– 例如：查2011年1月1日账户余额大于5000的用户 – 特点：
• 精确 • 快速 • 功能多样
文档的查询
• 搜索引擎
– 例如：查找莎士比亚的作品 – 特点：
• 模糊 • 通用
结构化和非结构化数据的演变
1996
DB2
结构化和非结构化数据的演变
2009
文档信息检索的基本任务
Web信息技术
第四章 Web信息检索-基础
目录
• • • • • • • • 信息检索介绍布尔检索索引的创建搜索的准确性全局排序排序过程搜索的评价搜索引擎的架构
什么是信息检索？
• 你如何回答如下问题？
– 迈克. 杰克逊的生日是哪一天？ – 圣彼得堡有哪些名胜古迹？ – 美国南北战争为什么会发生？ – 今年的畅销小说有哪些？信息需求 Information Needs
Sec. 1.1
词和文档的关系矩阵 (Bitmap)
Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth
Antony Brutus Caesar Calpurnia Cleopatra mercy worser
1 1 1 0 1 1 1
信息检索agent
• 为此，Oren Etzioni等人将人工智能领域中的agent概念和技术应用于到Web信息检索，引入了信息检索agent这种截然不同的Web信息检索系统[Etzioni96]。 • 信息检索agent的功能：
– 能够从用户日常的检索、浏览等行为中学习用户的兴趣、推理用户的需求，并利用搜索引擎等系统提供的现有服务主动地从Web 上检索相应信息，甚至能够监控信息源的变化，及时地报告给用户。 – 例如：Carnegie Mellon大学开发的WebWatcher[Armstrong95]， Washington大学开发的ShopBot[Doorenbos97]，Stanford大学开发的 Fab[Balabanovic97]等。 – 在这些系统中，信息检索工作的开展不需要用户的参与，而由 agent利用自身的控制机制、知识等进行任务规划、问题求解，从而实现主动的、个性化的信息检索。
信息检索系统
信息库
有信息需求的人
• 结构 • 目录信息检索系统 • 索引 •…
信息检索系统举例
• • • • 书图书馆数据库搜索引擎
信息在计算机中的存在形式
• 数据库记录 – 结构化数据
– 例如：银行系统中的帐号、户名、余额、联系方式、等等。
• 文档 – 非结构化数据
– 例如：网页、电子邮件、电子书、Word文档、短信、等等。
• 由于这两种系统彼此互补，因此将两者特点结合起来的一些混合系统也开始出现LookSmart等。
– 现有的一些著名的搜索引擎和目录也呈现出逐渐融合的趋势。例如，Yahoo在目录检索服务的基础之上，已经开始使用Inktomi的Web全文索引数据库提供与搜索
元搜索引擎
• 用户经常需要检索多个系统以改善检索的效果。各个搜索引擎的用户接口是异构的，有其特定且复杂的界面和查询语法，这给用户同时使用多个系统带来了不便。 • 一些研究人员针对这种状况而开发了元搜索引擎，其中比较著名的有MetaCrawler，SavvySearch等。