3搜索网上信息
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
评价: Google中文搜索引擎技术专精,实力出众。界 面很具人性化,首页设计简捷、鲜明、大方,完全突 出了检索功能。操作简单易用,查询结果相关度很高。 不足之处是其数据的更新速度无法进一步提高。由于 数据量庞大,使Google搜索引擎的数据更新无法早于 30天,在一定程度上影响了用户对信息的时效需求。
一、搜索引擎概念
搜索引擎(search engine)
根据一定的策略、运用特定的计算机程序搜集 互联网上的指定信息,在对信息进行组织和处理后, 并将处理后的信息显示给用户,是为用户提供检索 服务的系统。
它实际是一个专用的WWW服务器,搜索 Internet上的网页、网站及数据库等信息,组成庞 大的索引数据库。
例子:利用“”和*构成一个简单的语句(“the best search engine in the world is *”) 在Google.cn查询中获得第一位的搜索结果是: the best search engine in the world is Google 依次类推,你还能发现不少类似的搜索结果:
(3)在索引数据库中搜索排序。
当用户输入搜索关键词后,由搜索系统程序从网页 索引数据库中找到符合该关键词的所有相关网页。 因为所有相关网页针对该关键词的相关度早已算好, 所以只需按照现成的相关度数值排序,相关度越高, 排名越靠前。
三、搜索引擎的分类
最常见的划分方法是按照它们信息搜集方法和服务提 供方式的不同,可以大致划分为三大类型。 机器人搜索引擎 由一个称为蜘蛛的机器人程序自动访问 Web 站点,提取站点 上的网页,并根据网页中的链接进一步提取其他网页,或转移 到其他站点上。由索引器为搜集到的信息建立索引,由检索器 根据用户的查询输入检索索引库,并将查询结果返回给用户。 其优点是信息量大、更新及时、毋需人工干预,缺点是返回信 息过多,有很多无关信息,用户必须从结果中进行筛选。
百度的一大特色是其“相关检索”功能。 例如:我们在搜索栏中输入“mp3”,在搜索结果输 出页面上可以看到百度搜索引擎为我们提供“其他用 户搜索过的相关搜索词语”作为参考。 比较而言,Google的检索功能强大、灵活。百度更 注重服务的本地化,更多地融入了中文检索的特点, 更新也更快。
百度常用搜索
这类搜索引擎的代表是Yahoo、新浪、搜狐等。
元搜索引擎 本身并没有存放网页信息的数据库,当用户查询一 个关键词时,它把用户的查询请求转换成其他搜索 引擎能够接受的命令格式,并访问数个搜索引擎来 查询这个关键词,把这些搜索引擎返回的结果处理 后再返回给用户。对于返回的结果,系统会进行重 复排除、重新排序等处理。 服务方式为面向网页的全文检索。
2、搜索引擎Baidu(百度)功能概述
Baidu公司是中国领先的互联网软件技术提供商和 平台运营商,是目前全球最优秀的中文信息检索与传 递技术供应商。1999年底,李彦宏及徐勇于美国硅 谷创立百度,2000年回中国发展。目标是开发真正 符合中国人习惯的互联网核心技术,研发拥有自主知 识产权的可扩展的网络应用软件。
二、搜索引擎的工作原理
搜索引擎一般由以下3个部分构成: (1)在因特网上抓取网页。
专门用于检索信息的机器人程序如蜘蛛程序在网络 间爬来爬去,自动收集、访问网页,并沿着网页中的 所有URL爬到其他网页,蜘蛛程序不断重复这一过程, 把到过的所有网页收集回来。
(2)建立索引数据库。
由分析索引系统程序对收集回来的网页进行分析, 提取相关网页信息,根据一定的相关度算法进行大 量复杂计算,得到每一个网页针对页面文字中及超 链中每一个关键词的相关度或重要性,然后用这些 相关信息建立网页索引数据库。
技巧2:使用多个关键字 您还可以通过使用多个关键字来缩小搜索范 围。用空格分隔每个关键词,表示逻辑“与”, 输入的关键词越多,查询到的结果越少越准确。 例1,如果想要搜索有关佛罗里达州迈阿密市的信 息,则输入两个关键字“Miami”和“Florida”。如 果只输入其中一个关键字,搜索引擎就会返回诸 如Miami Dolphins足球队或Florida Marlins棒球队 的无关信息。 例2:
五、从五方面进行搜索
1文字搜索 2图片搜索 3音乐搜索
4视频搜索 5人肉搜索
下一页
六 搜索时的一些技巧
技巧1:使用具体的关键字
如果想要搜索以鸟为主题的Web站点,您可以 在搜索引擎中输入关键字“bird”。但是,搜索引 擎会因此返回大量无关信息,如谈论羽毛球的 “小鸟球(birdie)”或烹饪game birds不同方法的 Web站点。为了避免这种问题的出现,请使用更 为具体的关键字,如“ornithology”(鸟类学,动物 学的一个分支)。您所提供的关键字越具体,搜索 引擎返回无关Web站点的可能性就越小。
技巧4:
使用加号(+) 在关键词的前面使用加号,也就等于告诉搜索引擎该单词 必须出现在搜索结果中的网页上。 例如,在搜索引擎中输入“+电脑+电话+传真”就表示要查找的 内容必须要同时包含“电脑、电话、传真”这三个关键词。 使用减号(-) 在关键词的前面使用减号,也就意味着在查询结果中不能 出现该关键词。例如,在搜索引擎中输入“电视台-中央电视 台”,它就表示最后的查询结果中一定不包含“中央电视台”。
比如全球最大的集成搜索引擎第九门,域名 为:http://www.9om.com,就可以在300多个 搜索引擎上进行搜索。
四、搜索引擎Google与Baidu功能概述
1、搜索引擎Google概述
搜索引擎Google是美国斯坦福Stanford大学的博 士生Lar-ryPage和SergeyBrin在1998年9月创建的搜 索引擎。面世至今,获得多项业界大奖(美国《时代》
例如:百度文档
技巧7:在指定网站内搜索 在一个网址前加“site:”,可以限制只搜索某个 具体网站、网站频道、或某域名内的网页。
例如, [电话 site:www.baidu.com] 表示在www.baidu.com网站内 搜索和“电话”相关的资料; [竞价排名 site:baidu.com] 表示在baidu.com网站内搜索 和“竞价排名”相关的资料; [intel site:com.cn] 表示在域名以"com.cn"结尾的网站内 搜索和"intel"相关的资料; [门户 .cn] 表示在域名以"cn"结尾的网站内搜索和"门户"相 关的资料;
The best computer in the world is your brain
The best woman in the world is my mother.
技巧6:在类别中搜索
许多搜索引擎(如Yahoo!)都显示类别,如计算机和 Internet、商业和经济。如果您单击其中一个类别, 然后再使用搜索引擎,您将可以选择搜索整个 Internet还是搜索当前类别。显然,在一个特定类 别下进行搜索所耗费的时间较少,而且能够避免大 量无关的Web站点。
图像搜索: 据称,Google 可以检索 3.9亿张图片。Google 通过 分析页面上图像附近的文字、图像标题以及许多其他 元素来确定图像的内容,还使用复杂的算法来删除重 复的内容,确保在搜索结果中首先显示质量最好的图 像。
独树一帜的网页级别PageRankTM技术:
打破了传统网络分类概念,基于网页的自然结构,即 任何网页均可迅速直接地链接到另一网页。
默认情况下,2 个单词的查询(如 circus elephant)视为 一个正确的短语进行检索。 默认情况下,3 个单词的查询(如 new york orchestra)将 检索这些单词彼此接近、但顺序不限的短语。
技巧3:使用布尔运算符 许多搜索引擎都允许在搜索中使用两个不同的布 尔运算符:AND和OR。 如果您想搜索所有同时包含单词“hot”和“dog”的 Web站点,只需要在搜索引擎中输入如下关键字: hot AND dog 如果想要搜索所有包含单词“hot”或单词 “dog”的Web站点,您只需要输入下面的关键字: hot OR dog
这类搜索引擎的代表是 Google、百度等。
引擎目录式搜索引擎 是以人工方式或半自动方式搜集信息,由编辑人员 查看信息之后,人工形成信息摘要,并将信息置于 事先确定的分类框架中。信息大多面向网站,提供 目录浏览服务和直接检索服务。
该类搜索引擎因为加入了人的智能,所以信息准确、 导航质量高,缺点是需要人工介入、维护量大、信 息量少、信息更新不及时。
第3章 搜索网上信息
早期的“搜索引擎” 把因特网中资源服务器的地址收集起来,因其 提供资源类型的不同而分成不同的目录,再一层层 地进行分类。人们要找自己想要的信息可按它们的 分类一层层进入,就能最后到达目的地,找到自己 想要的信息。
只适用于因特网信息并不多的时候。
“搜索引擎”的原型
随着因特网信息呈几何式增长,这才出现了真 正意义上的“搜索引擎”,这些“搜索引擎”知道 网站上每一页的开始,随后搜索因特网上的所有超 级链接,把代表超级链接的所有词汇放入一个数据 库,这就是现在“搜索引擎”的原型。
返回
技巧8:在标题中搜索
在一个或几个关键词前加“intitle:”,可以限制 只搜索网页标题中含有这些关键词的网页。 例如, [intitle:南瓜饼] 表示搜索标题中含有关键词"南瓜 饼"的网页; [intitle:百度 互联网] 表示搜索标题中含有关键词" 百度"和"互联网"的网页。
这类搜索引擎的优点是返回结果的信息量更大、更 全,缺点是用户需要做更多的筛选。 这类搜索引擎的代表是WebCrawler、飓风搜索通 等
源自文库
集成搜索引擎
集成搜索引擎是通过网络技术,在一个网页上 链接很多个独立的搜索引擎,查询时,点选或指定 搜索引擎,一次输入,多个搜索引擎同时查询,搜 索的结果由各个搜索引擎分别以不同的页面显示。
杂志评选的“1999 年度十大网络技术”之一;《个人电脑》 杂志授予其“最佳技术奖”;The Net 授予其“最佳搜索引擎 奖”等)。
数据库容量可达2 073 418 204张网页,查询速度极 快,能找到其他引擎找不到的网页。 Google 支持多达 132 种语言,其中包括简体中文 和繁体中文。
除了强大的搜索功能外,Google 还有不少其 特有的特殊功能: 网页快照: Google 在访问网站时,会将看过的网页复制一份 网页快照,以备在找不到原来的网页时使用。当搜 索内容站点或网页不存在时,用户可以调用 Google 事先为用户储存的大量应急网页,经 Google 处理 后,搜索项均用不同颜色标明,另外还有标题信息 说明其存档时间日期,并提醒用户这只是存档资料。
搜索结果排序的重要指标是网页级别,重要的、高质 量的网页可获得较高的网页级别,从而在搜索结果中 可获较高的排位。
Google不以人工评估网页,也不推荐网站,更不向各网 站收取登录费,从而保证了排名的客观公正。
瞬时搜索功能:
可以在输入的同时呈现搜索结果,随着不断的输 入新的关键字,Google给出的搜索建议和随时刷 新的搜索结果页面都会跟着发生变化。
百度的产品及服务有三种:
基于全球互联网的中文网页检索,基本解决了目前 中文搜索引擎存在的准确性差、查全率低。 企业级的信息检索解决方案,即网事通系列软件, 它包括网页检索、实时信息监控系统及数据库检索。 利用遍布在全国的庞大CDN网络提供的信息传递技 术(即网站加速及网络缓存技术)。门户网站只需将 用户查询内容和一些相关参数传递到Baidu搜索引 擎服务器上,后台使用高性能的“网络蜘蛛”程序 就会自动工作并将最终结果返回给网站。
例:搜索所有包含“教育”但不含“计算机”的中文 网页。 搜索:教育(空格)-计算机 注意:这里的“-”号,是英文字符,而不是中文字符
技巧5: (“”)以及(*)(?)的使用。
例1:查询we love brad pitt和"we love brad pitt" 使用“引号”来检索精确的短语。 符号 * 仅用作右截词符;它将查找所有形式的单 词。 例如,检索 econom* 将查找 "economy"、 "economics"、economical" 等。