2.2因特网信息的查找

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第三代搜索：网页搜索
它们都属于网页自动搜索引擎，有的还带有智能分析或FTP、P2P搜索功能
1.3 搜索引擎的分类

按工作方式划分按检索内容划分
（1）按工作方式划分

全文搜索引擎目录索引类搜索引擎元搜索引擎
全文搜索引擎
全文搜索引擎的工作原理
因特网
爬行器（蜘蛛）
索引生成器（网页数据库）
2.2因特网信息的查找
网络信息资源种类
1. 2.
WWW信息资源：web网页 FTP信息资源：远程计算机上的文件夹
3.
4.
Blog信息资源：博客、播客等等信息资源
Telenet信息资源：直接调用远程主机
5.
6.
BBS 、新闻组信息资源：相当于论坛信息
P2P信息资源：私人计算机上的信息资源
7.
数据库和收费网站：如三大库三大馆
第三步：检索界面的建立

当用户输入关键词搜索后，由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好，所以只需按照现成的相关度数值排序，相关度越高，排名越靠前。最后，由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
查询检索器（用户查询）

搜索引擎至少由三部分组成：
爬行器（即机器人、蜘蛛等搜索程序）
索引生成器（即网页索引数据库）查询检索器（即用户检索界面）随着搜索引擎的发展，许多搜索引擎在此基础上增加特色功能。如百度增加了监控程序。
第一步：从互联网上抓取网页
利用能够从互联网上自动收集网页的Spider 系统程序，自动访问互联网，并沿着任何网页中的所有URL爬到其它网页，重复这过程，并把爬过的所有网页收集回来。
每个搜索引擎都必须向用户提供一个良好的信息查询界面。

全文搜索引擎原理
从互联网上抓取网页→建立索引数据库→在
索引数据库中搜索排序。
大多数搜索引擎并不真正搜索互联网，它搜
索的实际上是预先整理好的网页索引数据库。
搜索引擎也不能真正理解网页上的内容，它
只能机械的匹配网页上的文字。
全文搜索引擎的工作原理
（2）按检索内容划分
通用型专题型
通用型搜索引擎
通用型搜索引擎在采集标引信息资源时不限制资源的主题范围和数据类型，又称为综合型检索工具。
如：Google、百度、 AltaVista、Excite、 Yahoo等也有这种混合功能。右图是Yahoo的检索界面，既有检索窗口，也有分类浏览目录。

网络信息检索第2章张胜光制作
因特网
17
第二步：建立索引数据库
由分析索引系统程序对收集回来的网页进行分析，提取相关网页信息（包括网页所在URL、编码类型、页面内容包含的关键词、关键词位臵、生成时间、大小、与其它网页的链接关系等），根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及超链中每一个关键词的相关度（或
所有搜索引擎的祖先，是1990年由蒙特利尔
早期的另一个搜索工具Gopher

由于Archie深受欢迎，受其启发，Nevada System Computing Services大学于1993年开发了一个Gopher（Gopher FAQ）搜索工具 Veronica（Veronica FAQ）。Jughead是后来另一个Gopher搜索工具。它只支持文本，不支持图像

现在这个工具主要用在国外大型图书馆的信息检索上。
第二代搜索：目录式搜索 Yahoo!

1994年4月，斯坦福大学的两名博士生，美籍华人杨致远和David Filo共同创办了Yahoo）。随着访问量和收录链接数的增长，Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的，所以不能真正被归为搜索引擎，事实上只是一个可搜索的目录。Yahoo!中收录的网站，因为都附有简介信息，所以搜索效率明显提高。 Yahoo!---几乎成为20世纪90年代的因特网的代名词。

1.4.1 Google检索步骤

确定检索需求构建检索策略
点击检索
评估检索结果点击浏览保存所需信息
1.4.2 Google检索技巧

正确选择搜索字词大小写、自动使用“AND” 合理利用 “与/或”的搜索：OR 搜索中不包括的词：NOT 搜索中包括或不包括的词：+、搜索特定词组：“ ” 网页快照利用高级检索使用“更多”功能
网络信息资源的特点

信息量大、传播广泛信息类型多样、内容丰富

信息时效性强、变化频繁
信息分散无序、但关联程度高

信息缺乏管理、良莠不齐
所以在网络信息检索中，我们常常要借助于搜
索引擎来帮助我们“大海里捞针”。
1.1 搜索引擎的定义
搜索引擎是一个提供信息“检索”服务的
网站，它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。

的McGill University三名学生发明的 Archie(Archie FAQ)。Alan Emtage等想到了开发一个可以用文件名查找文件的系统，于是便有了 Archie。Archie是第一个自动索引互联网上匿名 FTP网站文件的程序，但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表，用户必须输入精确的文件名搜索，然后Archie会告诉用户哪一个FTP地址可以下载该文件。

Eric Schmidt 博士董事长兼首席执行官
Larry Page 创始人之一兼产品总裁
Sergey Brin 创始人之一兼技术总裁
www.google.com www.google.cn www.G.cn www.g.cn www.guge.com www.guge.cn 中文念法：古狗、狗狗中文名称：谷歌
搜索引擎常常是用户利用网上资源的第一
途径。
1.2搜索引擎的发展历史
1.2搜索引擎的发展历史
Archie 1990 Gopher 1993
第三代搜索网页搜索
Yahoo! 1994
元搜索引擎 1995
Google 1996 Baidu 1999 ……
第二代搜索目录搜索
搜索引擎的起源——Archie
注意：“+”为英文字符 “+”与前面一个检索词之间要有空格 “-”与后面一个检索词之间不能有空格
注意： “-”为英文字符 “-”与前面一个检索词之间Fra Baidu bibliotek 有空格 “-”与后面一个检索词之间不能有空格
查找其他类型文件
Google可以支持13种非HTML文件的搜索。除了PDF文档， Google现在还可以搜索Microsoft Office (doc, ppt, xls, rtf）、Shockwave Flash (swf)、PostScript (ps)和其它类型文档。新的文档类型只要与用户的搜索相关，就会自动显示在搜索结果中。例如，如果您只想查找 PDF或Flash 文件，而不要一般网页，只需搜索：关键词 filetype:pdf

www.baigoogledu.com
一款理想的元搜索引擎应具备的特点和功能

含盖较多的搜索资源，可随意选择和调用源搜索引擎；具备尽可能多的可选择功能，如资源类型（网站、网页、新闻、软件、 FTP、MP3、图像等）选择、返回结果数量控制、结果时段选择、过滤功能选择等强大的检索请求处理功能（如支持逻辑匹配检索、短语检索、自然语言检索等）和不同搜索引擎间检索语法规则、字符的转换功能（如对不支持“NEAR”算符的搜索引擎，可自动实现由“NEAR”向“AND”算符的转换等详尽全面的检索结果信息描述（如网页名称、URL、文摘、源搜索引擎、结果与用户检索需求的相关度等）支持多种语言检索。
元搜索引擎

同时在其他多个引擎上进行搜索，并将结果返回给用户。没有自己的数据库，利用一个统一的界面，查询其他独立的搜索引擎。优点：快捷，信息覆盖面更加广泛缺点：高级检索功能不完善，检索结果没有经过处理著名的元搜索引擎有InfoSpace、 Dogpile、Vivisimo等（元搜索引擎列表），中文元搜索引擎中具代表性的有北斗、等。图 Dogpile界面
好听不好用的元搜索引擎

1995年，一种新的搜索引擎形式出现了——元搜索引擎（Meta Search Engine）。用户只需提交一次搜索请求，由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎，并将从各独立搜索引擎返回的所有查询结果，集中起来处理后再返回给用户。第一个元搜索引擎，是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜索引擎概念上好听，但搜索效果始终不理想，所以没有哪个元搜索引擎有过强势地位。
专题型检索工具
专题型检索工具指那些专门用来检索某一类型信息和数据的检索工具，如查询地图的检索工具 “MapBlast”、查询图像的检索工具“WebSEEK” 等。
图 Go2map.com的界面
www.sowang.com
1.4 Google及其使用技巧

由两个斯坦福大学博士生Larry Page与Sergey Brin于1998年 9月发明。他们于1999年创立Google公司，现在分别是 Google的产品与技术总裁。 Eric Schmidt 博士于 2001 年加盟 Google，担任董事长兼首席执行官。约搜索80亿张网页，界面的可用语言100 多种,搜索结果所采用的语言35种。已占有全球搜索市场的80%。Google 在中国的搜索市场的市场份额也已突破30%，并且增长速度迅猛，在中文搜索市场有举足轻重的作用。

自动"and"查询
默认情况下，Google 只返回包含所有搜索字词的网页。在字词之间无需添加"and"。请记住，字词键入的顺序会影响搜索结果。要进一步限制搜索，只需加入更多字词。

大小写
Google 搜索不区分大小写。不论您如何键入，所有字母都会视为是小写的。例如，搜索 george washington、George Washington 和 gEoRgE wAsHiNgToN所返回的结果是一样的。
关键词 filetype:swf”
货币转换
要使用我们的内臵货币转换器，只需在 Google
搜索框中键入您需要完成的货币转换，并单击
“回车”键或 Google Search 按钮即可。【实例】
3.5 USD =? RMB
10新加坡元等于多少印度卢比 8人民币换成泰国的货币 30 人民币每公升 =? 美元每加仑
目录索引类搜索引擎

通过用户浏览层次类型目录来寻找所需信息。分类一般按主题分类，并辅之以年代、地区等分类。网站多以此方式组织。例如：新浪>分类目录>计算机与互联网> 硬件>行情报价。优点：使用户清晰方便地查找到某一大类信息，尤其适合那些希望了解某一范围内信息，并不严格限于查询关键字的用户。缺点：搜索范围较全文搜索引擎要小许多，尤其是当用户选择类型不当时，可能遗漏某些重要的信息源。代表性的目录式搜索引擎是Yahoo、搜狐、新浪网站
全文搜索引擎

从搜索结果来源的角度，全文搜索引擎又可细分为两种，一种是拥有自己的检索程序，并自建网页数据库，搜索结果直接从自身的数据库中调用；另一种则是租用其他引擎的数据库，并按自定的格式排列搜索结果，如Lycos引擎。优点：是查询全面、充分，用户能够对各网站的每篇文章中的每个词进行搜索，检索直接、方便，而且可使用布尔逻辑检索、短语检索等高级功能。缺点：繁多而杂乱的感觉。代表性的全文搜索引擎是Google、百度。

重要性），然后用这些相关信息建立网页索引数据库。

搜索引擎的Spider一般要定期重新访问所有网页（各搜索引擎的周期不同，可能是几天、几周或几月，也可能对不同重要性的网页有不同的更新频率），更新网页索引数据库，以反映出网页内容的更新情况，增加新的网页信息，去除死链接，并根据网页内容和链接关系的变化重新排序。这样，网页的具体内容和变化情况就会反映到用户查询的结果中。