搜索引擎

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


检索方式

①基本检索
多个检索词之间支持ቤተ መጻሕፍቲ ባይዱ辑组配检索,空格表示 “and‖关系,“OR‖表示并列关系,“-”表示排除 关系。 ; 不支持“通配符”(*) 搜索; 不区分英文字母大小写,所有的字母均当做小写处 理; 添加英文双引号来搜索英文短语;
采用了停用词表技术,对可能被忽略的关键词进行 强制搜索时,需要在该关键前加上英文“+”号
按照包含检索工具的数量划分
* 独立搜索引擎 独立搜索引擎又称单一搜索引擎或常规搜索引擎,它有自己 的数据库,搜索时通常只检索自己的数据库,并根据数据库 的内容反馈出相应的查询信息或链接站点。如Yahoo!, Google,AltaVista,百度,Excite,搜狐,Excite, AllTheWeb,Infoseek等。
Google的大学搜索(http://www.google.com/intl/zhCN/options/universities.html) ;
Google视频搜索(http://video.google.com/) ; Google邮购搜索(http://catalogs.google.com) ; Google博客搜索(http://blogsearch.google.com/) ; 除上述之外,Google还具有计算器、货币转换、错别 字改正、股票查询、天气查询、邮政区号查询、手机号码 所在区域查询、农历日历转换查询、名词定义查询等诸多 的特色服务。

②高级检索

Google的检索结果
搜索时间 检索结果总数
Google的检 索结果按相关 性有大到小排 列输出,其相 关性判断的依 据除了检索词 在网页中的出 现频率、位置 等外,另一个 重要的依据是 通过它所链接 的网页与提问 的匹配程度来 判断其相关度 大小。
网页标题 网页文本大小
网页内容摘要
网页目录搜索
(http://www.google.com/dirhp?hl=zh-CN)
地图搜索
(http://ditu.google.com)
地图资料涵盖了全国146 个城市,提供了四大服务, 分别是:动态查看网上电 子地图、地图搜索、周边 地点搜索和行车路线查询 服务。
学术搜索
(http://scholar.google.com/)
•搜索结果按照相关性进行排序。
同组文章 – 查找您可能看 标题 – 链接到文章摘要或整篇文章(如果文章可 到的同属这组学术研究成 在网上找到) 果的其他文章,可能是初 始版本,其中有预印本、 摘要、会议论文或其他改 写本
引用者 – 提供引用该组文章的其他论文。 相关文章 – 查找与本组文章类似的其他论文 网络搜索 – Google 搜 图书馆链接(在线) – 通过 索中关于该研究成果的 您已建立联属关系的图书馆资 信息 源找到该项成果的电子版本。 在您登录校园网后将自动显示 这些链接。
1 搜索引擎的概念:特征
没有经过编辑 不同的信息类型 不同的用户类型 信息的覆盖面较大 信息新颖 大多对搜索结果按相关度排列 检索过程不收费

2、搜索引擎的分类
按检索机制划分 *目录浏览型搜索引擎[常被称为指南 (Directory)或目录(Catalog),如 Yahoo!] *关键词检索型搜索引擎(典型代表有 Altavista、Excite、Google、Infoseek 等等。 )
限制检索(Field
Limiting)

另一种限制检索表现为对检索资源类型的 限制,如限制检索范围是图片(image)、 新闻组(Newsgroup)和E-mail限制等。
自然语言检索(Natural
Language)
直接采用自然语言中的字、词或句子作提问 式进行检索,同一般口语一样。如“What is Blog?”或“What is Clinton?” 支持自然语言检索的搜索引擎有英文的 Google、AltaVista,Excite,Infoseek, HotBot,Ask Jeeves等。
货币转换
计算器
给单词下定义Define,what is,what are
(2) 百度

简介
百度的起名,源于辛弃疾《青玉案· 元 夕》―众里寻她千百度”和西方的突破“事 儿做到九十九度就是做到头”的说法,百 度就是想要力争做到一百度,做到顶上开 花的境界。 百度公司(Baidu.com,Inc)于 1999年底成立于美国硅谷,它的创建者 是资深信息检索技术专家、超链分析专利 的唯一持有人――百度总裁李彦宏,及其 好友――在硅谷有多年商界成功经验的百 度执行副总裁徐勇博士。2000年1月百度 回国发展,在北京中关村成立百度中国公 司。

优势和特色
搜集的网络信息资源全面; 系统响应速度快; 支持多语种; 搜索效率高;
简繁转换、网页翻译功能;
“网页快照(Cached)”功能; “类似网页”(Sinilar pages)功能;
不足之处
数据更新比较慢;
图像检索目前仍是基于关键词;
视频和音频检索尚缺等 ;
网站首页
3、搜索引擎的检索技术
布尔逻辑检索
词组或短语检索
截词检索
字段限制检索
自然语言检索
多语种检索
区分大小写检索
布尔逻辑检索
*逻辑与 AND (*) *逻辑或 OR (+)(l) 并行搜索
*逻辑非 NOT, AND NOT(-) 排除无关结果
实例
* * * * * * 武汉 AND 大学 (*) 社会保障*美国 武汉 OR 湖北( +) 网络出版+数字出版 大学 NOT 武汉大学(-) 玉米—甜玉米
限制检索(Field
Limiting)
一种限制检索体现在要求检索词出现在特 定的位置,以此来控制检索结果的相关性, 提高检索效果。
* * * * * * Title(ti): Wuhan University url:gov.cn Py>=2004 La=english Link: whitehouse.gov admission site:www.harvard.edu

按照数据收录范围划分
* 综合型(通用型) 在采集和标引信息时不限制资源的主题范围和数据类型,是通 用型检索工具,用户可以利用它们检索几乎所有方面的资源。 Google、Yahoo!、百度、搜狐等 * 专题型(专业型) 专题型搜索引擎专门采集某一主题范围的信息资源,并使用更为 详细和专业的方法对信息资源进行加工处理,在检索机制中也设 计、利用较多的专业知识和方法。 如MacherSearch(其搜索的 内容只与犹太文化有关 ),Checkdomain (域名实时搜索引擎, 查询世界各国域名 )。 * 特殊型 特殊型搜索引擎是指专门用来检索某一类型信息或数据的检索 工具,例如查询电话号码、地图、图像、音频、视频等信息的 工具。
图书搜索
(http://books.google.com/)
Google购物搜索
(http://www.google.com/products)
商品查价。 Froogle不支持中 文搜索,但是你 同样可以据此查 看到某项商品的 图片、等级、性 能和一些文字说 明,而且知晓世 界各地的同种商 品价格,至少能 预测该项物品的 价格走向,对自 己购物一定很有 帮助
•来自学术著作出版商、专业性社团、预印本、各大学及其他学术 组织的经同行评论的文章、论文、图书、摘要和文章 ; •用户可以查找特定作者、特定文章标题、特定主题的文献信息, 只要在检索框中输入对应的检索词即可 ;
•每一搜索结果都提供了文章标题、作者以及出版信息等编目信息, 这些编目数据来自于该组文章中的信息以及其他学术著作对这些文 章的引用情况 ;
多语种检索
即提供多种语言环境供检索者选择,系 统按用户选定的语种进行检索并输出检索 结果。如Yahoo!和Google。
区分大小写检索
大写检索词与小写检索词代表的含义将有 所不同。大写检索词被当作专有名词看待 (如Internet专指因特网);小写检索词被 当作普通词看待(如internet则代表一般的 计算机网络)。
* 元搜索引擎 元搜索引擎其本质是对多个单一搜索引擎的集成。元搜索引 擎在查询时通过网上一个统一的用户界面,调用其他多个搜 索引擎,对结果简单合并和去重后返回给用户。如 Vivisimo,All-in-one,Dogfile,Ixquick Metasearch, Exploratorius,Profusion,Mamma,Metacrawler, 万纬等。
截词检索(Truncation/Wildcat)
截词检索一般在英文搜索引擎中采用。常 有左截断、右截断、中截断和中间屏蔽4种 形式。 大多数搜索引擎只提供右截断法,截词符 常采用星号“*”。如输入cat*可以检索出 cat,cats,catalog,catalogue,category等。

按照资源组织形式划分
*分类目录型
搜索引擎系统将搜索到的Internet资源按主题分为若干 大类,每个大类下又分设二级类目、三级类目等,一些搜 索引擎可细分到十几级类目。
*全文检索型
全文检索型搜索引擎处理的对象是因特网上所有网站中 的每个网页。用户得到的检索结果,通常是一个个网页的 地址和相关文字。在检索结果所列出的网页中,一定有用 户查询时输入的词组或与之相关的内容。 分类目录搜索引擎数据库中,搜索保存的是因特网上各网站 的站点名、网址和内容提要等信息;而全文检索型搜索引擎 数据库中,搜索保存的则是因特网上各网站的每一个网页的 全部信息内容,其信息资源搜索的范围要大得多。
第五章
搜索引擎
Outline
搜索引擎概述(概念、工作原理、特征) 搜索引擎的分类 搜索引擎的检索技术 常用搜索引擎介绍 搜索引擎的缺点 使用搜索引擎要注意的问题

1 搜索引擎概述

概念 在因特网/万维网上进行信息搜索、分 析、索引、检索与服务的信息检索系统。

工作原理
搜索程序
4、常用搜索引擎介绍
独立搜索引擎 (1) Google 简介 两位斯坦福大学的博士 生Larry Page 和 Sergey Brin 在1998 年创立了 Google。 掌握信息量大,检索速度 快,界面简洁,检索准确 度高。

简介



Google原名Googol,意思是10的100次方,是个巨大的 数字。Google的胃口如同它的名字,大得出奇。编入 其索引的有80多亿页面,超过10亿幅图片和超过10亿 个新闻公告。 2000年搜索引擎2000年大会上,按照Google公司总裁 Larry Page的演讲,Google正在用3,000台运行Linux 系统的个人电脑在搜集Web上的网页,而且以每天30台 的速度向这个微机集群里添加电脑,以保持与网络的 发展相同步。 自1998年至今,Google由于对搜索引擎技术的创新而 获奖无数,如美国《时代》杂志评选的“1999年度十 大网络最佳技术奖"之一、《个人电脑》杂志授予的 “编辑选择奖"、The Net授予的“最佳搜索引擎奖"等。
网址

Google其他的常用搜索服务功能
图片搜索
(http://images.google.com/)
新闻搜索 (http://news.google.com/)
论坛搜索
(http://groups.google.com/)
Google 网上论坛是一项免费 的服务,其宗旨是实现通过电 子邮件和网络来协助群体之间 进行有效地交流。论坛中有超 过十亿条来自新闻组公告牌服 务的的帖子,而且帖子发布日 期最早可以追溯到 1981 年。
练习
* 查找网络有关的信息
Internet OR (World Wide Web) OR Web
短语检索
(Phrase Search,Exact Search




―Wuhan University‖ ― The World Intellectual Property Organization‖ ―George W. Washington‖ ―Washington D.C.‖ ―Global Information Infrastructure‖ ―Foreign Trade Law‖ 除用双引号外,有的搜索引擎还是用短横线(-)来 代表词组,如digial-library-definition。
相关文档
最新文档