第四章 Web信息检索基础

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

信息检索agent
• 搜索引擎、元搜索引擎等的缺点:
– Web信息检索系统通常作为一种大型的服务器程序运行,同时响 应多个用户的请求。这些系统不能够根据用户的兴趣需求来定制 检索结果。即使同一个用户,在不同的时期也有所侧重。 – 此外,上述系统的检索工作是用户驱动的,即由用户显式地提出 检索请求,系统给出响应。在一段时间中,每个用户的检索需求 相对稳定,但上述系统缺乏对Web信息进行监控并在出现用户感 兴趣的新信息时主动地通知用户的能力。因此检索活动是一种耗 时的、重复活动。
搜索技术面临的基本问题
• 测试问题:如何衡量一个搜索系统的准确 性。
– 准确性有哪些指标? – 做什么样的实验能够得出中肯的评价?
搜索技术面临的基本问题
• 人机交互问题:什么样的搜索系统易于用 户使用。
– 用户界面是什么? – 衡量用户体验的指标有哪些? – 什么机制可以提高系统的易用性?
Web搜索
目录
• • • • • • • • 信息检索介绍 布尔检索 索引的创建 搜索的准确性 全局排序 排序过程 搜索的评价 搜索引擎的架构
布尔检索(Boolean Retrieval)
• 用户的信息需求通过词和布尔代数表示。 例子: • 在莎士比亚的戏剧集中,查找包含Brutus和 Caesar但不包含Calpurnia的戏剧。 • 查询语句: Brutus AND Caesar AND NOT Calpurnia
• 搜索(Ad-hoc Search)
– 用户通过关键字描述自己的信息需求,系统在 文档集中找到满足用户信息需求的文档。
• 过滤(Filtering)
– 给定一个文档,找到可能对它感兴趣的用户。
• 分类(Classification)
– 对文档进行分类,以便用户浏览。
• 问题回答(Question Answering)
什么是信息检索?
• 广义:关于 如何满足人们的信息需求 的学 问。 • 狭义:信息搜索技术。
• 其他人的定义:“Information retrieval is a field concerned with the structure, analysis, organization, storage, searching, and retrieval of information.” (Gerard Salton, 1968)
– 在文档中找到具体问题的答案。
搜索技术面临的基本问题
• 相关性问题:如何确定文档是否能满足用 户的信息需求。
– 相关性包含哪些方面? – 通过什么去衡量相关性? – 如何衡量相关性?
搜索技术面临的基本问题
• 性能问题:如何建立一个反映速度快且数 据容量大的搜索系统。
– 系统的体系结构是什么? – 什么样的机制可以加快搜索的速度? – 什么样的机制可以加大系统的容量?
• 三种形式
– Specific queries encyclopaedia, libraries
• Exploit hyperlink structure
– Broad queries web directories
• Web directories: classify web documents by subjects
目录
• 目录,例如Yahoo,OpenDirectory,Snap等,与搜索引擎 的工作方式不同
• 由人工收集或者由Web站点的作者主动提交文档 • 人工对Web站点和文档进行评价、分类并给出简 要描述 • 按照主题分类并以树状的形式对Web信息资源进 行组织(浏览) • 对Web信息资源的分类以及描述信息建立索引( 检索)
1 1 1 1 0 0 0
0 0 0 0 1 1
0 1 1 0 0 1 1
0 0 1 0 0 1 1
1 0 1 0 0 1 0
Brutus AND Caesar AND NOT Calpurnia
1 表示包含, 0 表示 不包含
Sec. 1.1
搜索方法
• 每个词对应一个由0和1组成的向量. • 将Brutus, Caesar的向量和Calpurnia的逆向 量做按位与操作. • 110100 AND 110111 AND 101111 = 100100.
– 目前Yahoo包含有指向500,000个站点的链接,分布在25,000个分类 中。
目录
搜索引擎与目录
• 搜索引擎和目录这两种Web信息检索系统各有所 长。
– 通常,由于搜索引擎具有庞大的全文索引数据库,因 此适用于检索难以查找的信息或者一些比较模糊的主 题; – 而目录有助于逐步缩小主题或者查找某个主题的常见 的、质量较高的信息。
– Vague queries search engines
• index portions of web
Web信息的特点
• Web本身:
– – – – – – – Large volume:8亿个页面(1999),每两年翻番。 Distributed: 分布在280万个Web Server上。 Dynamic:created,changed,moved,deleted No-structure、heterogeneitiy:pictures、audio… Variety of language:more than 100 Duplication :nearly 30% High linkage: averagely more than 8 links to others.
元搜索
• 第一步:Web server that sends query to
– Several search engines – Web directories – Databases
• • • •
第二步 :Collect results 第三步 :Unify them (Data fusion) Aim: better coverage 关键问题:
– Translation of query – Uniform result (fusion rankings, e,g, pages retrieved by several engines) – Wrappers
元搜索引擎
• 主要工作原理: – 任务分解:元搜索引擎首先对用户的查询请求进行预处理, 分别转换为若干个底层搜索引擎能处理的格式,并将其发送 给各个搜索引擎。 • 例如,MetaCrawler同时检索Yahoo,LookSmart,AltaVista 等九个主要的搜索引擎。 – 信息融合:在各个搜索引擎返回检索结果后,元搜索引擎进 行组合,并向用户返回最终的检索结果。 • 优点: – 建立在搜索引擎的基础之上,因此对于设计人员而言,不需 要建立和维护庞大的索引数据库,也不需要使用复杂的检索 机制; – 对于用户而言,提供了一个能够同时查询多个搜索引擎的集 成界面,将各个搜索引擎的位置、接口等细节屏蔽了起来, 同时也有可能获得更好的检索效果。
搜索引擎与目录
• 第 一 个 搜 索 引 擎 : WWWW(World Wide Web Worm) [McBryan94]:Colorado大学 • 搜索引擎的基本设计思想是: – 使用robot遍历Web,将Web上分布的信息下载到本地 文档库 – 对文档内容进行自动分析并建立索引 – 检查索引找出与用户查询相匹配的文档(或链接) • 最为著名的搜索引擎有 Google,NorthernLight,AltaVista, Infoseek 等。其中, NorthernLight 和 AltaVista 所索引的 Web 页面都已经超过了100,000,000。
WEB INFORMATION RETRIEVAL!!!
• 99%的信息对99%的用户是没用的。
Web信息检索系统的分类
用户
信息检索agent
元搜索引擎
搜索引擎
目录
Web
The Taxonomy of Web Information Retrieval Systems
Web信息检索系统的分类
• Web信息检索系统作为用户层和Web信息层之间的 中间层,可以进一步地划分为三个层次,包括: 搜索引擎与目录、元搜索引擎、信息检索agent。 • 在层次分类中,每一层都建立在其下各层的基础 之上,并向其上各层提供信息检索服务。 • 这些层次分类构成了Web信息检索中的一条生产 /消费链:Web信息 → 搜索引擎与目录 → 元搜 索引擎 → 信息检索agent → 用户。 • 下面,我们对各个层次的特点、设计思想及相互 关系分别加以考察。
迫切需要新一代的信息检索技术
• 用户
– Ill-formed queries: 未经专门培训,查询请求短、不精确 – Wide variance in users:每个用户在needs,expectations,knowledge等各方面 均不同。 – Specific behavior:85%只看第一页、78%never modify their very first query.
数据库的查询
• SQL查询系统:
– 例如:查2011年1月1日账户余额大于5000的用 户 – 特点:
• 精确 • 快速 • 功能多样
文档的查询
• 搜索引擎
– 例如:查找莎士比亚的作品 – 特点:
• 模糊 • 通用
结构化和非结构化数据的演变
1996
DB2
结构化和非结构化数据的演变
2009
文档信息检索的基本任务
Web信息技术
第四章 Web信息检索-基础
目录
• • • • • • • • 信息检索介绍 布尔检索 索引的创建 搜索的准确性 全局排序 排序过程 搜索的评价 搜索引擎的架构
什么是信息检索?
• 你如何回答如下问题?
– 迈克. 杰克逊 的生日是哪一天? – 圣彼得堡有哪些名胜古迹? – 美国南北战争为什么会发生? – 今年的畅销小说有哪些? 信息需求 Information Needs
Sec. 1.1
词和文档的关系矩阵 (Bitmap)
Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth
Antony Brutus Caesar Calpurnia Cleopatra mercy worser
1 1 1 0 1 1 1
信息检索agent
• 为此,Oren Etzioni等人将人工智能领域中的agent概念和 技术应用于到Web信息检索,引入了信息检索agent这种截 然不同的Web信息检索系统[Etzioni96]。 • 信息检索agent的功能:
– 能够从用户日常的检索、浏览等行为中学习用户的兴趣、推理用 户的需求,并利用搜索引擎等系统提供的现有服务主动地从Web 上检索相应信息,甚至能够监控信息源的变化,及时地报告给用 户。 – 例如:Carnegie Mellon大学开发的WebWatcher[Armstrong95], Washington大学开发的ShopBot[Doorenbos97],Stanford大学开发的 Fab[Balabanovic97]等。 – 在这些系统中,信息检索工作的开展不需要用户的参与,而由 agent利用自身的控制机制、知识等进行任务规划、问题求解,从 而实现主动的、个性化的信息检索。
信息检索系统
信息库
有信息需求的人
• 结构 • 目录 信息检索系统 • 索引 •…
信息检索系统举例
• • • • 书 图书馆 数据库 搜索引擎
信息在计算机中的存在形式
• 数据库记录 – 结构化数据
– 例如:银行系统中的 帐号、户名、余额、联系 方式、等等。
• 文档 – 非结构化数据
– 例如:网页、电子邮件、电子书、Word文档、 短信、等等。
• 由于这两种系统彼此互补,因此将两者特点结合 起来的一些混合系统也开始出现LookSmart等。
– 现有的一些著名的搜索引擎和目录也呈现出逐渐融合 的趋势。例如,Yahoo在目录检索服务的基础之上,已 经开始使用Inktomi的Web全文索引数据库提供与搜索
元搜索引擎
• 用户经常需要检索多个系统以改善检索的效果。各个搜索 引擎的用户接口是异构的,有其特定且复杂的界面和查询 语法,这给用户同时使用多个系统带来了不便。 • 一些研究人员针对这种状况而开发了元搜索引擎,其中比 较著名的有MetaCrawler,SavvySearch等。
相关文档
最新文档