搜索引擎ppt

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Google 的查询界面
设置搜索偏好, 包括每个网页 上默认的搜索 结果数量、界 面语言,以及 查询语言
直接进入最符合 搜索条件的网页
《Google》

特点
支持多达一百多种语言 提供1万多亿个搜索网页,涵盖内容齐全 搜索速度快 结果命中率高 搜索结果摘录查询网页的部分具体内容,而不仅仅是网站


(1)直接浏览 用户使用最为广泛,最原始的获取信息的方法。 (2)利用导航网站、门户网站 基于专业人员对网络信息资源分布的了解,对 网络信息进行评价、组织、分类等工作,再按一 定的专业或学科形成具有良好分类体系的网络资 源指南。
搜索引擎的概念及工作原理
概念:(Search Engine)从广义上讲是用 来对网络信息资源管理和检索的一系列软 件,在Internet网上查找信息的工具或系 统。 组成:WWW服务器,搜索程序(如 spider、crawler、robot),索引数据库 (包括成千上万甚至上亿个网页),检索 程序(用来处理用户的检索请求)
《Google》检索功能
基本检索(高级检索功能)

可以排除某个特定站点的网页(限定网域) 可以对检索结果页面的语言类型进行限制(限定语 种)
可以限定检索结果的时间范围(更新日期) 可以限定关键词出现的位置(字词位置) 可以检索链向某一个网页的所有页面(键连功能) 可以检索与某一个网页相关的所有网页(相似网页

第四代:用户中心时代(以移动互联网为标志的个人 需求精准搜索) 第四代,也就是我们所用的搜索引擎技术也是互联 网上面用的最普遍的。主要是以用户为中心。当客 户输入查询的请求时候,同一个查询的请求关键词 在用户的背后可能是不同查询要求。这一代搜索引 擎主要是以用户为中心。这就是第四代搜索引擎。
来自百度文库 网络信息资源检索方法
第二代:文本检索时代(海量自动获取与排序清单) 到了这一代,搜索引擎查询信息的方法则是通过用 户所输入的查询信息提交给服务器,服务器通过查 阅,返回给用户一些相关程度高的信息。这代的搜 索引擎的信息检索模型主要包括例如布尔模型、概 率模型或者向量空间模型。通过这些模型来计算用 户输入的查询信息是否与网页内容相关程度高低, 将相关度高的则返回给用户。采取这种模式的搜索 引擎主要是一些早期的搜索引擎,例如像Alta Vista、Excite等等。这就是搜索引擎第二代。
检索)
搜索引擎优点
网络的资源非常丰富,对于一个普通网民来
说在这浩如烟海的信息流中寻找对自己有用 的信息成为一件十分困难的事。搜索引擎的 作用就在于整合网络资源,为用户提供贴心 的搜索服务,提高效率。
搜索引擎缺点
搜索结果里的排名很大程度上与广告费用有
关,这就局限了我们的视野。有些搜索引擎 的搜索结果中广告、垃圾网站和死链比较多; “网页快照”经常打不开等等问题,世间万 物都有缺点,关键是合理使用并找到自己想 要的信息。
研究目的与意义
常用搜索引擎介绍及示例
《Google》(中文)
网址:http://www.google.com
《Google》
概述
Google是由美国斯坦福大学的两位博士生拉里· 佩吉和谢
尔盖· 布林于1998年创建的 其优势在于掌握的信息量以及检索模型和检索速度。它 可为世界各地的用户提供适需的搜索结果,而且搜索时 间通常不到半秒 Google采用全文标引方式,提供每日更新。

第一代:分类目录时代(人工时代)
不知道大家时候在自己的搜索引擎首页是否有设置过导航 网站这个网址作为自己的首页呢?其实这个网址就是搜索引 擎第一代的代表。我们可以从这个导航网站这个网站里面看 到,里面几乎都是一些分类网址,几乎在互联网上的,这个 网站里面都一应俱全,从这里我们可以看出,这个网站是一 个导航网站,也可以说分类目录网站,用户可以从这个分类 目录里找到自己想要的东西,这就是搜索引擎第一代。
简介 智能化的“手气不错”功能,提供可能最符合要求的网页 “网页快照”功能,能从Google服务器里直接取出缓存的 网页
检索功能
基本检索
其它检索语法 搜索的关键词包含在URL链接中:inurl: 搜索的关键词包含在网页标题中:intitle: 搜索的关键词包含在网页的“锚”中:inanchor: 或 allinanchor: 搜索所有链接到某个URL的网页:link:
互联网应用模式
------------------常用搜索引擎
市场营销41341
搜索引擎发展历史

所有搜索引擎的祖先,是1990年由Montreal的 McGill University三名学生(Alan Emtage、 Peter Deutsch、Bill Wheelan)发明的Archie (Archie FAQ)。Alan Emtage等想到了开发一个可以用 文件名查找文件的系统,于是便有了Archie。Archie是第 一个自动索引互联网上匿名FTP网站文件的程序,但它还不 是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表, 用户必须输入精确的文件名搜索,然后Archie会告诉用户哪 一个FTP地址可以下载该文件。 由于Archie深受欢迎,受 其启发,Nevada System Computing Services大学于 1993年开一个Gopher(Gopher FAQ)搜索工具Veronica (Veronica FAQ)。Jughead是后来另一个Gopher搜索 工具。
搜索引擎缺点
搜索引擎对常见词的搜索存在缺陷,因为这
些词曝光率太高了,以至于出现在成百万网 页中,使得它们事实上不能被用来帮你找到 什么有用的内容。
问题解决建议
小心使用多义词,比如搜索“Java”,你要
找的信息究竟是太平洋上的一个岛、一种著 名的咖啡、还是一种计算机语言?
不要输入错别字

第三代:整合分析时代(立体搜索与结果整合) 这一代的搜索引擎所使用的方法大概是和我们今天 的网站的外部链接形式基本相同,在当时,外部链 接代表的是一种推荐的含义,通过每个网站的推荐 链接的数量来判断一个网站的流行性和重要性。然 后搜索引擎再结合网页内容的重要性来和相似程度 来改善用户搜索的信息质量。
相关文档
最新文档