第五章网络信息检索
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
InfoSeek
• 编制者:Infoseek属于Infoseek Corporation 公司,创立者是Steve Kirsch ,1995年提供服务。曾在PC Computing中,被评比为最佳的搜 索服务节点。 • 服务范围与规模:其提供的搜索服务除WWW节点搜索外,还有 Gopher、FTP、Usenet Newsgroup的文章查询,并且提供与电脑相关 的报纸、杂志、电传新闻(news wires)、工商信息、电影/书籍/录影 带评论等全文搜索。 • 检索性能: 管道检索,这是Infoseek的独特功能,即用管道符()连 接两个或更多的检索词。 Infoseek有一套自定义的标识符,例如词组 检索要求把词组用“”括起来;对所要搜索的关键词加方括号[ ],表 示方括号内的词在文字中出现时,其间隔不超过100个词。“+”放在单词
(1)目录型检索工具(subject directory)
• 目录型检索工具也称作catalogue • 目录型检索工具 是按照某种主题分类体系编制的一种可供检 索的的等级结构式目录。在每个目录类及子类下提供相应的 网络资源站点地址,并给以简单的描述。 • 优点:目录型检索工具经过信息管理专业人员、分类专家的 人工设计和编制,所收录的网络资源经过专业人员的鉴别、 选择和组织,保证了检索工具的质量,提高了检索的准确性。
(3)多元搜索引擎(metasearch engine)
• 多元搜索引擎(metasearch engine或megasearch engine)
又称为集合式搜索引擎。多元搜索引擎是将多个搜索引擎集 成在一起,并提供一个统一的检索界面。它可分为两种类型: 搜索引擎目录和元搜索引擎。 – 搜索引擎目录: 也即检索工具的检索工具,它将主要的搜索引擎集中起 来,并按类型或按检索问题等编排组织成目录,帮助、导引 用户根据检索需求来选择适用的搜索引擎。 它集中罗列检索工具,并将用户导引到相应的工具去检 索; 检索的还是某一搜索引擎自己的数据库,与普通单一 搜索引擎的检索是一样的。只不过是设立了又一层门户,通 过其组织、检索界面,为用户选择适用的检索工具提供积极 的帮助,以克服用户面对众多的检索工具的无所适从。较典 型的搜索引擎目录有:All-in-One,CUSI, iTools!等。
• 局限性: – 其更新、维护的速度或周期要受系统人员工作时间的制约,导致检索 工具的新颖性不够; – 若用户不熟悉其分类体系或对类分标准理解与系统人员不一致,就会 影响其检索; – 在某些主题下收录范围不够全面,使检索到的信息数量有限。
• 目录型检索工具比较适合于查找综合性、概括性的主题概念, 或对检索准确度要求较高的课题。最著名的目录型检索工具 是Yahoo!(URL:www . yahoo.com)。
• 搜索引擎的特点:
– 由自动索引软件生成数据库,收录、加工信息的范围广、 速度 快,能及时地向用户提供新增信息。 – 检索时直接输入关键词或词组、短语,无需判断类目归 属,比较方便。
• 局限性:
– 但由于标引过程缺乏人工干预,准确性较差,加之检索 软件的智能化程度又不很高,导致检索误差较大; – 虽一次检索输出的结果可能很多,但会包含许多的重复、 虚假信息,即检索噪音较大。 – 不同的搜索引擎有不同的检索项选择、 检索界面,不同 的句法要求和对符号、标识符的处理,因此检索策略的 构造和输入方式也会直接影响检索结果。
2。网络信息检索工具的类型:
网络检索工具一般可分为: – Web 资源检索工具:以Web 资源为主要检 索对象, 又以Web形式提供的检索工具。 – 非Web 资源检索工具:即以非Web 资源为 检索对象的检索工具, Archie,Veronica,WAIS 等。
Web 资源检索工具 • (1)目录型检索工具(subject directory) • (2)搜索引擎(search engine) • (3)多元搜索引擎(metasearch engine)
新浪搜索
• 新浪搜索引擎是面向全球华人的网上资源查询系统, 提供网站、中文网页、英文网页、新闻、软件、游戏 等查询服务。是互联网上最大规模的中文搜索引擎之 一。 • 新浪搜索具有URL自动检测功能,并提供个性化服务 给经常使用新浪搜索的用户:所见即所得——我的书 签、桌面上搜索引擎——新浪点点通两种服务。 • 新浪搜索提供“分类检索”和“关键词查询”两种查 找方式。
• 搜索引擎适合于检索特定的信息及较为专、深、具 体或类属不明确的课题。 • 较有代表性的英文搜索引擎有AltaVista,Excite, Lycos, Hotbot等。
• 目录型检索工具和搜索引擎之间的界限越来越模糊:
– 大多数流行的网络检索工具同时提供两种方式的检索,从 而将目录型工具的组织、导引功能与搜索引擎的检索功能 更好地结合起来。这种担负了网络资源主题指南和索引双 重责任的混合型检索工具似乎代表了网络检索工具的发展 趋势。 – 如:著名的目录型检索工具 Yahoo!曾与搜索引擎的典型 代表AltaVista相挂接,当检索提问在Yahoo!的分类目录指 南数据库中未找到相关的记录时,可自动转向AltaVista的 索引数据库中继续检索,并将有关的结果提供给用户,从 而加强了Yahoo!的检索功能。 – 其他一些著名的搜索引擎,如:Excite,Lycos,Magellan, WebCrawler等均在过去主要 提供索引服务的基础上,增 设了各种形式的分类目录,以强化其组织、导引、浏览等 功能。这种发展趋势使得许多用户已将上述两种工具混为 一谈,均称为搜索引擎。
• 元搜索引擎 是将多个搜索引擎集成在一起,提供一个统一的检索界面;且将一个检索 提问同时发送给多个搜索引擎,同时检索多个数据库,再经过聚合,去重 之后输出检索结果。它是一种集中检索的方式,与Dialog联机检索中的跨 文档检索 OneSearch非常类似。 • 优点:省时,不用就同一提问一次次地访问所选定的搜索引擎,每次均要 输入同样的检索词等。且检索的是多个数据库,检索的综合性、 完整性也 有所提高。 • 缺点:由于不同的搜索引擎的检索机制、算法及对提问式的解读均不同, 没有一个共同规范,使检索的准确性要相对差一些,并且速度也较慢。有 时多元搜索引擎检索出的结果可能还不如单个搜索引擎检索出的结果多, 或给出的检索结果描述可能也不够详细,使用户虽得到了更多的检索结果, 却缺少做进一步判断、阅读的相关指导信息。为此,有些检索人员提出避 免使用多元搜索引擎。但仍有些检索专家建议,在查询一些较模糊的提问, 或就某一课题的网络资源进行快速调查、摸底、综览时使用多元搜索引擎。 较常用的多元搜索引擎有:Dogpile,Metacrawler,Inference Find, SavvySearch,Highway61等。
前表示该词出现在检索结果中。
• 评价:Infoseek庞大的全文数据库保证了它的查全率,而它独特的检索 算法和检索功能,又提高了它的查准率,同时由于其丰富的服务内容, 使得Infoseek由一个检索工具变为一个强大的信息服务中心。 Infoseek 曾被PC Week杂志称为最全面的检索工具
搜狐
• 原名http//www.sohoo.com.cn • 搜狐是由爱特信公司1998年开始研制的。搜狐是针对国际互联网上中文信 息日渐丰富、查找困难的实际情况,根据中国人的文化传统专门为中国用 户度身设计推出的网络分类式查找引擎。曾被路透社誉为“the most popular website destination in China”。 • 搜狐的全面战略及内容合作伙伴有英特尔(Intel),道· 琼斯(Dow Jones), 热连线(Hot Wired),时代华纳,NBA和新华社等。 • 搜狐提供了一个分类详尽的Web目录,采用树型结构对站点进行层次性分 类,根据相应的网页内容,将所有的网页分为地区类、工商经济类、计算 机与互联网、教育等18个类别,在18个大类下面又分成几百个小类。在关 键词检索方面,搜狐自动在全部网页目录中利用全文检索的办法找到相关 网页。
(2) 搜索引擎(search engine)
• 搜索引擎的工作原理:
– 发现、搜集网页信息。首先需要有高性能的Robot程序去 自动地在互联网中搜索信息 – 索引库的建立。建立信息索引就是创建文档信息的特征 记录,使检索者能够快速地检索到所需信息 – 检索及结果输出。代替用户在数据库中查找出与提问匹 配的记录,并返回结果且按相关度排序输出。
第五章 网络信息检索
一、网络信息资源 二、网络信息检索工具 三、重要的网络检索工具
一、网络信Biblioteka Baidu资源
网络信息资源的特点 网络信息资源的类型
1。网络信息资源的特点
– – – – – 无序性 开放性 动态性 多样性 用户广
2。网络信息资源的类型
(1)按信息的内容划分为:
政府信息,科研信息,教育信息,文化信息,娱乐消闲信息 等
网络信息检索工具的一般构成
自动索引程序: – 大多数网络检索工具一般采用一种称为Robot(又称 Spider,Crawler,Worms,Wanders等)的网络自动跟踪索 引程序 数据库:
– 自动索引程序将采集和标引的信息汇集成数据库,作为 该网络检索工具提供检索服务的基础。不同的网络检索 工具的数据库的收录范围不同,标引方式也不同,规模 大小不同。 检索代理软件: – 当用户提出检索查询时,由检索软件负责代理用户在数 据库中进行检索。不同的网络检索工具所采用的检索机 制、算法有所不同,布尔逻辑检索是较普遍采用的一种 机制。
Yahoo!
• Yahoo 是“Yet Another Hierarchical Officious Oracle”的缩写。 Yahoo!是最早开发的互联网搜索引擎,是Internet搜索工具的 “元老”,也是目前WWW环境中最著名最常用的搜索工具。它 是由美国斯坦福大学两位博士生开发的。 • Yahoo!不同于其他搜索工具在于它提供了全面的分类体系。它提 供14个宽泛的类目,用户可以利用它的引擎以关键词检索方式查 询它的目录。Yahoo!目录的最大特点在于信息的分类工作由十几 位专家手工进行,与其他由计算机自动分类的搜索引擎相比, Yahoo!的目录更具科学性。 • Yahoo!提供分类查询方式。 • Yahoo!也提供主题查询方式。通过简单关键词或关键词高级检索 方式进行信息查询。 • Yahoo!提供强大的全球信息查询功能,目前已有法国、意大利、 挪威、瑞典、加拿大、澳大利亚、日本等13个国际站点。
三、重要的网络检索工具 • • • • •
目录型网络检索工具 Yahoo! ( http://www.yahoo.com) InfoSeek (http://infoseek.go.com) 搜狐 (http://www.sohu.com.cn) 新浪搜索 (http://search . sina . cn) 网易搜索 (http : //www . yeah . net)
(2)按采用的网络传输协议不同划分为:
万维网信息资源,Telnet信息资源,FTP 信息资源,用户服 务组信息资源,Gopher 信息资源
(3)按网络信息资源传播范围划分 : 光盘局域网信息资源 传统联机检索信息资源 Internet网络信息
二、网络信息检索工具
1。网络信息检索工具及一般构成 • 网络信息检索工具是指在因特网上提供信息检索服务的计 算机系统,其检索对象是存在于因特网信息空间中各种类 型的网络信息资源。 • 早期的搜寻FTP资源的Archie,检索Gopher网站资源的 Veronica和Jughead,查询 Usenet新闻组资源的WAIS等, 以及Yahoo, Alta Vista, Lycos等 Web检索工具。 • 所谓Web检索工具是指利用超文本(超媒体)技术在因特 网上提供网上信息资源导航、检索服务的专门Web 服务器 或网站。由于Web检索工具既以Web 形式提供服务,又以 Web资源为检索对象,检索范围还涉及其他网络资源形式, 如Usenet ,Gopher , FTP等,所以Web检索工具成为人们 获取因特网信息资源的主要检索工具和手段。