Web 搜索概述.ppt

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
依据搜索范围分 依据爬行器特征分 根据功能特点分
1.1.1 Web搜索分类
根据技术原理不同,搜索引擎可以分为:
爬行器式搜索引擎 目录式搜索引擎 元搜索引擎
爬行器式搜索引擎
爬行器(Crawler)
爬行器是一种可以在Web上漫游并发现、下载页面的计 算机程序,也称为蜘蛛(Spider)、机器人(Robot)。 爬行器自动在网上爬行,将搜索到的页面自动下载加 入到本地数据库中,经索引后提供用户检索服务。 特点
精化器(Distiller)
➢ 用于从网页中抽取、识别主题相关链接,并将其增加到待 爬行队列中。
IBM Focused crawler
应用实例 InfoMine
一个网络学术资源服务 引擎,它利用IBM主题爬 行器采集相关主题的信息。 构建了一个的Web信息 采集器。
个性化爬行器
个性化爬行器(Customized web Crawler)
Agent特点
自治性:Agent运行时不直接由人或其它东西控制, 它对自己的行为和内部状态有一定的控制权 社会能力:多个Agent体之间信息交换和协作 反应能力:对环境的感知和影响 知识学习能力
➢ 例如:在基于用户个性化的采集中,它能像人一样感知用 户的兴趣变化,并根据实际情况自主地迅速地灵活地智能 地调整采集策略。
多语种与跨语种搜索引擎
多语种搜索引擎
采用语种辨别技术识别用户提问语种,检索对应语 种数据库,返回相应语种结果。 Google等支持多语种检索。 关键技术是语言识别。
跨语种搜索引擎
用一种语言提交查询,搜索引擎将其转换成多种语 言查询式,实现对多种语言数据库的检索,返回与 用户问题相关的多语言相关文献。 核心技术机器翻译。
专业搜索引擎为满足特定需求而开发的,它是一种基于特定条件的 信息搜索引擎,可以针对某一主題(如纳米技术)、某一地区(如 台湾)、某一类型的信息(如个人简历、主页、电影、音乐、FAQ 等)或某一特定群体(如小学生)等。
CiteSeer
➢ 它是一个专门收集有关计算机科学方面的PDF、PS格式的学术期 刊和会议论文资料的搜索引擎。
http://www.base-search.net/
德国比勒费尔德大学图书馆开发的深层数据库资源的全 文搜索引擎,目前覆盖1555个数据库近2300多万篇文献, 提供集成检索、原文链接服务。
1.1.4 搜索引擎分类
根据功能特点分类 : 多语种与跨语种搜索引擎 多媒体搜索引擎 自然语言搜索引擎 语义搜索引擎
GoogleScholar、GoogleBook
1.1.3 搜索引擎分类
依据爬行器特征,搜索引擎可分:
基于通用爬行器(Scalable Web Crawler)的搜索引擎 基于主题爬行器(Focused Web Crawler)的搜索引擎 基于个性化爬行器(Customized Web Crawler)的搜索引擎 基于智能代理(Agent based Web Crawler)的搜索引擎 基于可迁移爬行器(Relocatable Web Crawler)的搜索引擎 面向深层Web信息(Deep Web Crawler)的搜索引擎
数据库
Church in Bellevue Open hours: 9-5pm Built: 1950 …….
自然语言搜索引擎
自然语言搜索引擎
用户以自然语言方式提问,系统返回以自然 语言方式组织的检索结果 主要技术:机器翻译、语义理解及人机会话 等 相关搜索引擎
➢Ask Jeeves(www.aj.com) ➢AnswerBus (www.answerbus.com) ➢……
搜索引擎被广泛利用
OCLC 2005年调研大学 生信息获取方式:
72%用户选择搜索引擎 24%用户选择图书馆 4%用户选择书店
Hitwise 3月19日统计
Top 10 Websites
Hitwise 3月19日统计
Top 10 Search Engines
1.1 Web搜索分类
根据技术原理分
深层Web爬行器
深层Web爬行器(Deep Web Crawler)
Web上80%的内容是存储在数据库中的动态信息, 它因为没有固定的URL,所以对普通搜索引擎是不 可见的(invisible Web, hidden web),对这类信 息的采集用深层Web爬行器。 与静态网页资源相比,数据库资源不但质量高,而 且,用户访问量也比静态资源高,且大多数数据支 持开放访问。 对数据库资源揭示成为当前研究热点。
不同的用户对一个搜索引擎提交同一个检索词, 他们期望的返回结果是不同的。 根据用户兴趣、个性需求制定采集策略、采集 个性化信息。 采集结果可以直接提供给用户,也可以先存储 起来经个性化处理后再提供。 个性偏好信息一般有两个来源:
➢用户手工设置 ➢系统学习
–通过跟踪用户的浏览习惯和兴趣等自动获得
应用实例 - SPHINX
将深层网络资源开放给搜索引擎
DP9
弗吉尼亚大学DP9项目为每个OAI数据库定义一个爬 行器入口网页(entry page),爬行器通过该网页中 的链接就可以爬行到OAI数据库中的所有数据。 厦门大学有相似作法。
深层Web爬行器
DQM (Deep Query Manager)
BrightPlanet公司开发的“深层网络资源查询 管理器”,实现对7万多个数据库的搜索、 全文索引。 支持深层网络资源的自动发现、自动配置查 询表单、制动抽取查询结果,自动配置查询 表单的成功率达85%以上 。
实例三:Sindice http://sindice.com/
1.2 搜索引擎评价标准
Web 搜索
1. Web搜索概述 2. Web搜索系统结构 3. Web搜索相关技术 4. 基于主题的Web搜索 5. 搜索引擎实例分析
互连网的发展
据2011年1 月公布的第 27次中国互 连网络发展 状况调查报 告统计,中 国大陆网民 数和IPv4数 已分别达到 4.57亿和
2.78亿。
网络资源的发展
基于Agent的爬行器
应用实例一: InfoSpiders
美国爱荷华大学设计的一个模拟生态系统发展和演 变的Web信息采集器。 它以一个能表明用户兴趣的文件作为采集起点,通 过分析这些起点周围区域和链接关系来发现新的相 关页面。
➢ 通过判断采集到页面是否真跟相关性预期相符,来增加和 减少能量.
➢ 当能量很高时,还可以生出新的孩子(新的子树),而当能 量过低时,它就死亡。
基于字典的机器翻译
多媒体搜索引擎
两种类型
基于文本属性描述的多媒体搜索引擎 基于内容的多媒体搜索引擎
关键技术
自动排除:过滤指定多媒体特征的信息 自动标引:包括属性标引与内容标引
应用实例:Photo2Search
这是个什么 建筑物?
应用实例:Photo2Search
应用实例:Photo2Search
➢缺点是需要人工介入、维护量大、信息更新不及 时。
代表性引擎
➢Yahoo、Opendirectory、Looksmart等。 ➢爬行器式搜索也提供目录式服务,如Google的网
页目录
元搜索引擎
元搜索引擎(Meta Search Engine)
自己没有网页数据库,当用户提交一个查询请求时, 它把用户查询转发给多个其他搜索引擎,返回多个 结果,进行归并后返回给用户。 多数元搜索引擎只提取出每个搜索引擎的结果中前 面10~50条信息。 优点同时覆盖多个搜索引擎,缺点是无法使用特定 搜索引擎的特殊功能,用户需要做更多的筛选。 主要代表
Powerset
语义搜索引擎
语义搜索引擎(Semantic Search Engine) 面向语义网络空间,发现用户指定主题及其 语义相关信息。
W3C Linked Data Cloud
实例一:Marbles (http://marbles.sourceforge.net/ )
实例二:Swoogle http://swoogle.umbc.edu/
一个基于Java工具开发的交互式个性化信息采集器,用户的个性化 设置嵌在工作台里,并且针对指定的站点进行个性化采集。在 Sphinx基础上,产生了Websphinx,它增强了个性化定制能力。
SPHINX爬行器 个性化定制界面
SPHINX爬行器 可视化呈现界面
基于智能代理的爬行器
Agent
是一种计算机系统,为了实现设计目的而灵活地自 主地活动。智能代理主要应用于主题信息采集和个 性化信息采集。
DQM数据库自动查询过程
深层Web爬行器
HiWE (Hidden Web Exposer)
斯坦福大学提出一面向特定主题的深层Web爬行器HiWE。 HiWE通过模仿人的操作实现查询表单自动填写、提交以及 结果页面URL的解析。
深层Web爬行器
BASE (Bielefeld Academic Search Engine )
主题爬行器
主题爬行器(Focused Crawler)
主题爬行器爬行有限的网络空间,有选择性地搜寻与指定主 题相关的页面。 基本原则
➢ 尽可能多地下载与指定主题相关的网页 ➢ 尽可能少地下载与指定主题无关的网页
主题描述方式
➢ 关键词 ➢ 样本文档 ➢ Ontology
特点
➢ 因为不采集与主题无关的页面,所以极大地节省了硬件和网络资 源,保存的页面也少,更新快。
静态网页(浅层网络资源) Google
2005年底80亿张 2008年4月5日用”the” 搜 索 Google , 相 关 记 录录:112亿。 2009年4月8日用“the” 搜 Google 有 124.5 亿 页 。 2010年4月8日用”the” 搜索有190亿网页。 2011年3月26日用”the” 搜索有252亿网页。
可迁移爬行器
可迁移爬行器
可迁移爬行器(Relocatable Web Crawler)
将爬行器上载到它所要采集的服务器中,在当地进 行采集,并将采集结果压缩后,回传到本地。
特点
爬行及分析操作在远程主机上,节省了网络资源。 爬行器可能不被采集对象所信任,解决办法:
➢ 建立一种信任机制,采集器由权威的信任机构评估并授权 ➢ 将采集器迁移到离被采集站点比较近的地方实施采集。
网络资源的发展
数据库资源(深层网络资源)
数 量 大 , 根 据 BrightPlanet 的 研究报告,网络数据库资源 约是静态网页资源的500倍。 增长速度快,同期增长速度 是浅层资源9倍。 资源稳定,质量高,不但包 括大量经对等评审的学术论 文,而且一般资源也都经过 专业人士的筛选、著录、标 引,内容可参考性更强,格 式更规范
➢ ixQuick、SurfWax、Dogpile、Vivisimo等。
Fra Baidu bibliotek
1.1.2 Web搜索分类
依据搜索范围不同,Web搜索分两类:
普通搜索引擎(general-purpose search engines)
普通搜索引擎的目标是覆盖所有领域的信息资源 最負盛名的是Google等。
专业搜索引擎(domain-specific search engines)
➢ 信息覆盖范围广、自动化程度高、维护费用少; ➢ 返回信息过多,包括大量无关信息。
具有代表性的爬行器式搜索引擎
➢ 国外:Google、Lycos等 ➢ 国内:百度、天网等。
目录式搜索引擎
目录式搜索引擎
特点
➢采用人工或半自动方式搜索、采集以及编辑、组 织信息,支持分类浏览、关键词检索;
➢因为加入了人的智力劳动,所以信息准确、导航 质量高;
问题
➢ 如何有效定义、描述主题? ➢ 如何判定主题相关性? ➢ 如何控制查全率、查准率等?
IBM Focused crawler
IBM Focused crawler
核心部件
分类器(Classifier)
➢ 采集系统首先保存一个经典的主题分类体系,并且为每一 个主题类目都保存若干个内容样本,用于评价采集文本是 否与主题相关
➢ 用户兴趣通过机器学习和相关反馈的方法进行调整。
基于Agent的爬行器
应用实例二: Amalthaea
MIT设计的基于用户个性化需求的元信息采集器。
Information Filtering Agent Information Discovery Agent
系统分为五层
➢ 用户及其反馈 ➢ 个性化Web浏览界面 ➢ 信息过滤 ➢ 信息搜索 ➢ 分布式信息源
相关文档
最新文档