第1章 搜索引擎概述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
自动方式通常是由网络机器人来完成的。“网络机器人”
是一种自动运行的软件,其功能是搜索因特网上的网站或 网页
一般来说,人工方式收集信息的准确性要远优于“网络机
器人”,但其收集信息的效率及全面性要低于“网络机器 人” 21/62
1.5.2 信息预处理技术
信息预处理包括信息格式支持与转换以及信息过滤
有将近10000项
1/62
1.1 搜索引擎的概念和原理
1.1.1 搜索引擎的概念
搜索引擎是指根据一定的策略、运用特定的计算机程序搜集互联网上的信
息,在对信息进行组织和处理后,并将处理后的信息显示给用户的为用户 提供检索服务的系统 (名词解释)
搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好
1994年7月20日,数据量为54000的Lycos正式发布。除了相
关性排序外,Lycos还提供了前缀匹配和字符相近限制, Lycos第一个在搜索结果中使用了网页自动摘要
Infoseek(Steve Kirsch Announces Free Demos Of the
Infoseek Search Engine)是另一个重要的搜索引擎。 Infoseek沿袭Yahoo!和Lycos的概念,它具有友善的用户界 面和大量的附加服务,而使它成为一个强势搜索引擎
这种模型在查询结果处理中加入模糊逻辑运算,将
检索的数据库文档信息与用户的查询要求进行模糊 逻辑比较,按照相关的优先次序排列查询结果
模糊逻辑模型可以克服布尔型信息检索模型在查询
中其结果具有无序性的问题。例如,查询“搜索引 擎”,则出现关键词“搜索引擎”多的文档将排列 在较前的位置上
17/62
向量空间模型
1.6 主要搜索引擎介绍
Google的不足
其数据的更新速度无法进一步提高
无法搜索动态生成的网页
中文状态下的Google没有成人内容过滤功能 目前对中国的用户还不支持“OR”和“*”等符号
的使用
可能题型:填空,选择,判断,简答
25/62
百度(baidu)搜索
百度是世界上规模最大的中文搜索引擎,致力于向 人们提供最便捷的信息获取方式
利用布尔逻辑关系构造查询并提交,搜索引擎根 据事先建立的倒排文件确定查询结果
标准布尔逻辑模型为二元逻辑,并可用逻辑符
“and”、“or”、“not”来组织关键词表达式。布 尔型信息检索模型的查全率高,查准率低
目前大多搜索引擎均使用布尔逻辑检索模型,查
询结果一般不进行相关性排序
16/62
模糊逻辑模型
对搜索结果进行处理和排序:所有相关网页针对该关键词
的相关信息在索引库中都有记录,只需综合相关信息和网页 级别形成相关度数值,然后进行排序,相关度越高,排名越 靠前。最后由页面生成系统将搜索结果的链接地址和页面内 容摘要等内容组织起来返回给用户
4/62
1.2 搜索引擎的历史与发展趋势
搜索引擎至今已经经历了三代发展阶段: 第一代搜索引擎出现于1994年,主要特征为集中式检索
12/62
1.3.3 元搜索引擎
元搜索引擎在接受用户查询请求时,同时在其他 多个引擎上进行搜索,并将结果返回给用户。著 名的元搜索引擎有InfoSpace、Dogpile、Vivisimo 等,中文元搜索引擎中具代表性的有北斗搜索。 在搜索结果排列方面,有的直接按来源引擎排列 搜索结果,如Dogpile,有的则按自定的规则将结 果重新排列组合,如Vivisimo
现代意义上的搜索引擎的祖先是1990年由蒙特利尔大学学生
Alan Emtage发明的Archie,这是第一个自动索引互联网上 匿名FTP网站文件的程序,但它还不是真正的搜索引擎 Computer Robot是指某个能以人类无法达到的速度不断重 复执行某项任务的自动程序 由于专门用于检索信息的Robot程序像蜘蛛(Spider)一样在网 络间爬来爬去,因此,搜索引擎的Robot程序被称为 Spider(Spider FAQ)程序 1994年初,Washington大学的学生 Brian Pinkerton 开始了 他的小项目 WebCrawler ( Brian Pinkerton Announces the Availability of WebCrawler )
从互联网上抓取网页:利用能够从互联网上自动收集网页
的Spider系统程序,自动访问互联网,并沿着任何网页中 的所有URL爬到其它网页,重复这过程,并把爬过的所有 网页收集回来。 建立索引数据库:由分析索引系统程序对收集回来的网页 进行分析,提取相关网页信息(包括网页所在URL、编码 类型、页面内容包含的关键词、关键词位置、生成时间、 大小、与其它网页的链接关系等),根据一定的相关度算 法进行大量复杂计算,得到每一个网页针对页面内容中及 超链中每一个关键词的相关度(或重要性),然后用这些 相关信息建立网页索引数据库
13/62
1.3.4 分布式搜索引擎
分布式搜索引擎按区域、主题或其他标准创建分布式索引
服务器,索引服务器之间相互可以交换中间信息,且查询可 以被重新定向
由于分布式搜索引擎将索引数据库划分到几个分布的数据
库中,每个数据库变得小一些,但所有搜索引擎覆盖的范围 变大,且很少有信息重复,而作为分布式系统特性之一的可 扩充也是分布式搜索引擎的优点之一
然而分布式搜索引擎需要多个索引数据库协同工作,实现
较困难,因此目前尚未有真正的、实用的分布式搜索引擎
14/62
1.4
搜索引擎的信息检索模型
布尔逻辑模型
模糊逻辑模型
向量空间模型
概率模型
可能题型:填空,选择,判断,简答
15/62
布尔逻辑模型
布尔型信息检索是最简单的信息检索模型,用户
3/62
在索引数据库中搜索排序:当用户输入关键词搜索后,由
搜索系统程序从网页索引数据库中找到符合该关键词的所有 相关网页。因为所有相关网页针对该关键词的相关度早已计 算好,所以只需按照现成的相关度数值排序,相关度越高, 排名越靠前。最后,由页面生成系统将搜索结果的链接地址 和页面内容摘要等内容组织起来返回给用户
向量空间模型用检索项的向量空间来表示用户的
查询要求和数据库文档信息。查询结果是根据向 量空间的相似性而排列的
向量空间模型可方便地产生有效的查询结果,能
提供相关文档的文摘,并对查询结果进行分类, 为用户提供准确的信息
18/62
概率模型
基于贝叶斯概率论原理的概率模型利用相关反馈的 归纳学习方法,获取匹配函数,这是一种较复杂的 检索模型
使它迅速到达当时搜索引擎的顶峰。AltaVista是第一 个支持自然语言搜索的搜索引擎,AltaVista是第一个 实现高级搜索语法的搜索引擎
8/62
检索结果处理技术 (选择题,填空题或简答)
纯净搜索引擎
元搜索引擎 集成搜索引擎 垂直搜索引擎
9/62
1.3 搜索引擎的分类
搜索引擎和常规意义上的全文检索主要区别:
搜索速度更大、更新、更快
百度在中文互联网中,支持搜索8亿中文网页,是世 界上最大的中文搜索引擎
为中文用户度身定做
关键词自动提示:用户输入拼音,就能获得中文关 键词正确提示
27/62
1.6.4 北大天网搜索
北大天网搜索引擎简介
“天网资源检索系统”(即天网搜索)是中国教育 和科研计算机网示范工程应用系统课题之一,是国 家“九五”重点科技攻关项目“中文编码和分布式 中英文信息发现”的研究成果,由北京大学计算机 系网络研究室设计开发,并于1997年10月29日正式 在中国教育和科研网(CERnet)向广大Internet用 户提供Web信息导航服务
7/62
1995年,第一个元搜索引擎Metacrawler出现。用户只
需提交一次搜索请求,由元搜索引擎负责转换处理后 提交给多个预先选定的独立搜索引擎,并将从各独立 搜索引擎返回的所有查询结果,集中起来处理后再返 回给用户
1995年12月DEC的 AltaVista登场亮相,大量的创新功能
10/62
1.3.1 全文搜索引擎
通过从互联网上提取的各个网站的信息(以网页文
字为主)而建立的数据库中,检索与用户查询条件 匹配的相关记录,然后按一定的排列顺序将结果返 回给用户
全文搜索引擎有全文搜索、检索功能强和信息更新
速度快等优点,但同时也有其不足之处,虽然提供 的信息多而全,然而可供选择的信息太多反而降低 了相应的命中率,导致层次结构不清晰,往往给人 一种繁多杂乱的感觉
11/62
1.3.2 目录索引搜索引擎
目录索引虽然有搜索功能,但在严格意义上算不上是
真正的搜索引擎,仅仅是按目录分类的网站链接列表 而已。用户完全可以不用进行关键词(Keywords)查 询,仅靠分类目录也可找到需要的信息 与全文搜索引擎的区别在于它是由人工建立的,通过 “人工方式”将站点进行了分类,不像全文搜索引擎 那样,将网站上的所有文章和信息都收录进去,而是 首先将该网站划分到某个分类下,再记录一些摘要信 息
核心技术:超链分析
超链分析技术,是新一代搜索引擎的关键技术,已 为世界各大搜索引擎普遍采用。在学术界,一篇论 文被引用得越多就说明其越好,学术价值就越高。 超链分析就是通过分析链接网站的多少来评价被链 接的网站质量,这保证了用户在百度搜索时,越受 用户欢迎的内容排名越靠前
26/62
百度(baidu)搜索
第二代搜索引擎系统大约出现在1996年,大多采用分布
式检索方案,即多个微型计算机协同工作来提高数据规 模、响应速度和用户数量
第三代搜索引擎系统出现在1998年到2000年间,这一时
间是搜索引擎空前繁荣的时期
它的发展的三大特点
(可能为简答、判断、选择、填空) 5/62
1.2.1 搜索引擎的发展史
目前,因特网上的信息发布格式多种多样,这就要
求搜索引擎支持多种文件格式。从实际情况看,所 有的搜索引擎都支持HTML格式,而对于其他文件 格式的支持则不同的搜索引擎有不同的规定,最多 的能支持200多种文件格式
22/62
信息预处理要做的工作:
关键词的提取 重复或转载网页的消除 链接分析 网页重要程度的计算
6/62
1994年1月,第一个既可搜索又可浏览的分类目录EINet
Galaxy(Tradewave Galaxy)上线。除了网站搜索,它还 支持Gopher和Telnet搜索
1994年4月,Stanford University的两名博士生,美籍华人
Jerry Yang(杨致远)和David Filo共同创办了Yahoo
的网页索引数据库
真正意义上的搜索引擎,通常指的是收集了Internet上几千万到几十亿个
网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的ห้องสมุดไป่ตู้ 文搜索引擎
当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页
都将作为搜索结果被搜出来
2/62
1.1.2 搜索引擎的原理
可以分为四步:(简答题)
19/62
1.5 搜索引擎的关键技术
信息收集和存储技术
信息预处理技术
信息索引技术
可能题型:填空,选择,判断,简答
20/62
1.5.1 信息收集和存储技术
网上信息收集和存储一般分为人工和自动两种方式 人工方式采用传统信息收集、分类、存储、组织和检索的
方法。研究人员对网站进行调查、筛选、分类、存储。由 专业人员手工建立关键字索引,再将索引信息存入计算机 相应的数据库中
可能题型:填空,选择,判断,简答
23/62
1.5.3 信息索引技术
信息索引就是创建文档信息的特征记录,以便用户 能够快速地检索到所需信息。(名词解释)
建立索引主要涉及到几个以下问题:
信息语词切分和语词词法分析 进行词性标注及相关的自然语言处理 建立检索项索引 检索结果处理技术
24/62

数据量
内容相关性 安全性 个性化和智能化
搜索引擎按其工作方式主要可分为三种:
全文搜索引擎(Full Text Search Engine)
目录索引搜索引擎(Search Index/Directory)
元搜索引擎(Meta Search Engine)
可能题型:填空,选择,判断,简答
第1章 搜索引擎概述
随着互联网的飞速发展,人们越来越依靠网络来
查找他们所需要的信息
由于网上的信息源数不胜数,如何有效地去发现
我们所需要的信息,就成为一个很关键的问题, 为了解决这个问题,搜索引擎应运而生
百度2005年在纳斯达克成功上市,Google在全球
市场突飞猛进
仅在开源社区SourceForge上,搜索引擎的项目就
相关文档
最新文档