因特网信息的查找课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
好听不好用的元搜索引擎
1995年,一种新的搜索引擎形式出现了——元搜 索引擎(Meta Search Engine)。用户只需提交 一次搜索请求,由元搜索引擎负责转换处理后提交 给多个预先选定的独立搜索引擎,并将从各独立搜 索引擎返回的所有查询结果,集中起来处理后再返 回给用户。
第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元 搜索引擎概念上好听,但搜索效果始终不理想,所 以没有哪个元搜索引擎有过强势地位。
所有搜索引擎的祖先,是1990年由蒙特利尔
的McGill University三名学生发明的 Archie(Archie FAQ)。Alan Emtage等想到了开 发一个可以用文件名查找文件的系统,于是便有了 Archie。Archie是第一个自动索引互联网上匿名 FTP网站文件的程序,但它还不是真正的搜索引擎 。Archie是一个可搜索的FTP文件名列表,用户必 须输入精确的文件名搜索,然后Archie会告诉用 户哪一个FTP地址可以下载该文件。
搜索引擎常常是用户利用网上资源的第一 途径。
1.2搜索引擎的发展历史
1.2搜索引擎的发展历史
Gopher 1993
Archie 1990
第三代搜索 网页搜索
1996
Yahoo! 1994
元搜索 引擎 1995
Baidu 1999 ……
第二代搜索 目录搜索
搜索引擎的起源——Archie
图 Dogpile界面
www.google.com www.google.cn www.G.cn www.g.cn www.guge.com www.guge.cn 中文念法:古狗、狗狗 中文名称:谷歌
如何辨别网站的性质
.edu 教育学术 .gov 官方政府单位 .net 网络管理或服务机构 .org 财团法人或基金会等非官方的一般机构 .int 国际性组织 .com 代表商业企业团体与组织 .ac.cn 中国科学研究机构
2.2因特网信息的查找
网络信息资源种类
1. WWW信息资源:web网页 2. FTP信息资源:远程计算机上的文件夹 3. Blog信息资源:博客、播客等等信息资源 4. Telenet信息资源:直接调用远程主机 5. BBS 、新闻组信息资源:相当于论坛信息 6. P2P信息资源:私人计算机上的信息资源 7. 数据库和收费网站:如三大库三大馆
它只支持文本,不支持图像 现在这个工具主要用在国外大型图书馆的信息
检索上。
第二代搜索:目录式搜索 Yahoo!
1994年4月,斯坦福大学的两名博士生,美籍华 人杨致远和David Filo共同创办了Yahoo)。随着 访问量和收录链接数的增长,Yahoo目录开始支持 简单的数据库搜索。因为Yahoo!的数据是手工输 入的,所以不能真正被归为搜索引擎,事实上只是 一个可搜索的目录。Yahoo!中收录的网站,因为 都附有简介信息,所以搜索效率明显提高。 Yahoo!---几乎成为20世纪90年代的因特网的代名 词。
与互联网> 硬件>行情报价。 优点:使用户清晰方便地查找到某一大类信息,尤其
适合那些希望了解某一范围内信息,并不严格限于查 询关键字的用户。 缺点:搜索范围较全文搜索引擎要小许多,尤其是当 用户选择类型不当时,可能遗漏某些重要的信息源。 代表性的目录式搜索引擎是Yahoo、搜狐、新浪网站
元搜索引擎
网络信息资源的特点
❖ 信息量大、传播广泛 ❖ 信息类型多样、内容丰富 ❖ 信息时效性强、变化频繁 ❖ 信息分散无序、但关联程度高 ❖ 信息缺乏管理、良莠不齐 所以在网络信息检索中,我们常常要借助于搜
索引擎来帮助我们“大海里捞针”。
1.1 搜索引擎的定义
搜索引擎是一个提供信息“检索”服务的 网站,它使用某些程序把因特网上的所有 信息归类以帮助人们在茫茫网海中搜寻到 所需要的信息。
根据搜索引擎使用个数经加权调整后的 市场份额——北京
*雅虎搜索 6.1%
新浪 其他搜索引擎
搜狐 3.7%
3.5%
wk.baidu.com4.3%
百度 60.0%
*Google 22.4%
总结
每种搜索引擎都有不同的特点,只有选择合 适的搜索工具才能得到最佳的结果。 随着Web查询技术的发展,新的搜索引擎 必将不断涌现,已有搜索引擎的功能也会 不断改善,在优胜劣汰中进步。
优点:是查询全面、充分,用户能够对各网站的每篇文章中的每个词 进行搜索,检索直接、方便,而且可使用布尔逻辑检索、短语检索等 高级功能。
缺点:繁多而杂乱的感觉。 代表性的全文搜索引擎是Google、百度。
目录索引类搜索引擎
通过用户浏览层次类型目录来寻找所需信息。 分类一般按主题分类,并辅之以年代、地区等分类。 网站多以此方式组织。例如:新浪>分类目录>计算机
搜索引擎的分类
全文搜索引擎 目录索引类搜索引擎 元搜索引擎
全文搜索引擎的工作原理
全文搜索引擎
从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有 自己的检索程序,并自建网页数据库,搜索结果直接从自身的数据库 中调用;另一种则是租用其他引擎的数据库,并按自定的格式排列搜 索结果,如Lycos引擎。
同时在其他多个引擎上进行搜索, 并将结果返回给用户。
没有自己的数据库,利用一个统一 的界面,查询其他独立的搜索引擎。
优点:快捷,信息覆盖面更加广泛 缺点:高级检索功能不完善,检索
结果没有经过处理 著名的元搜索引擎有InfoSpace、
Dogpile、Vivisimo等(元搜索引 擎列表),中文元搜索引擎中具代 表性的有北斗、等。
早期的另一个搜索工具Gopher
由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发 了一个Gopher(Gopher FAQ)搜索工具 Veronica(Veronica FAQ)。Jughead是后来 另一个Gopher搜索工具。