第三章网络信息检索工具
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章网络信息检索工具
【知识框架】
信息检索的一般流程
网络经贸信息资源的概念与类型
网络资源查询方法及检索工具
▪按检索机制分:
目录型(Subject directory, catalogue)
索引型:搜索引擎(Search Engine)
混合型(Hybrid tools)
▪按检索内容分:
综合型
专题型
特殊型
▪按包含检索工具数量分:
单一型(Singular search tools)
集合型(Collective search tools):元搜索引擎
(Metasearch Engine或Megasearch Engine 目录型检索工具(Subject directory catalogue)
搜索引擎(Search Engine)
▪单一搜索引擎
▪集成搜索引擎
检索工具的工具——指南类检索工具和元搜索引擎
▪(一)网络资源指南(Resource Guide)
也称学科门户SIG
▪(二)元搜索引擎
集合式搜索引擎、索引式搜索引擎
▪(三)手工检索工具的“工具书指南”、网址簿
网络版参考咨询工具(Reference Tools)
智能搜索代理和搜索软件
补充教材第二章:
检索工具与语言
检索策略
【主要内容】
1、信息资源检索的一般流程
分析问题
▪问题分类
▪分析已知和欲知信息
▪分析需求主题
▪广泛利用文献
▪选择检索范围
选择检索工具
▪熟悉各种检索工具
从检索工具中查找所需信息
获取原文
2、网络信息资源的概念和类型
1)按传输方式分:
●WWW
●FTP
●Usenet/Newsgroup
●LISTSERV/Mailing List
●Telnet
●Gopher
●WAIS
2)按内容加工
一次加工信息
▪网上图书、期刊、报纸、专利、政府出版物、会议资料等 二次加工信息
▪文摘索引数据库、搜索引擎、网站导航等
三次加工信息
▪百科全书、手册指南等参考型网站
3)格式与后缀
3、网络检索工具的分类
按检索机制分:
▪目录型(Subject directory, catalogue)
▪索引型:搜索引擎(Search Engine)
▪混合型(Hybrid tools)
按包含检索工具数量分:
▪单一型(Singular search tools)
▪集合型(Collective search tools):元搜索引擎(Metasearch Engine或Megasearch Engine
4、目录型检索工具(Subject directory catalogue)
1)网络资源目录
这是一种独立型检索工具,网站自身包含可检索的数据库。网络资源目录又称网站目录、分类站点目录、专题目录或主题指南、站点导航系统、主题词典型检索工具等。这是一种将网络资源搜集后,按某种分类法进行组织整理,并和检索法集成在一起的信息检索方式。
特点:
▪人工设计和编制的、供检索的等级结构式目录(指南、导航系统)
▪所收录资源经过鉴选和组织
▪减少了检索中的噪音,提高了检索的准确性
▪数据库的规模相对较小
▪新颖性不强,(会有“死链接”dead link)
▪用户要熟悉其分类体系
目录型检索工具比较适合于查找综合性、概括性的主题概念,或对检索准确度要求较高的课题
原理:
网络资源目录一般:
▪采用人工方式采集网络信息;
▪通常以某种分类体系为依据,将网络信息资源分为若干领域的主体范畴,然后再细分为各学科专题目录。
网络资源目录的分类通常采用主题分类法、学科分类法、体系分类法。一个网络资源目录包括许多层,第一层是总目录,将网络资源分成若干领域的主题范畴,然后链接到第二层专题目录,再链接到第三层子目录,依次而下,直至具体的信息资源,形成一个由信息链组成的树状结构。
有代表性的目录型检索工具:Yahoo 分类目录检索;开放目录项目(Open Directory Project ,简称ODP);
5、搜索引擎(Search Engine)
特点:
-收录、加工信息的范围广、速度快;
-检索功能强,一般可称为网络资源的关键词索引;
-检索时直接输入关键词或词组、短语,无需判断类目归属,比较方便;
-标引过程缺乏人工干预,准确性较差
-检索误差(噪音)较大
搜索引擎适合于检索特定的信息,及较为专、深、具体或类属不明
确的课题
工作过程:
单一搜索引擎的结构一般由三部分构成:信息采集、索引数据库、用户检索。用户所熟悉的只是占搜索引擎很小部分的人机交互界面——用户通过这一界面输入需要检索的信息,系统则反馈给用户相关的信息。构成搜索引擎主要内容的是不为用户熟悉的后台部分,即作为搜索软件程序的“Robot”、“Crower”、“Spider”。这类程序能自动地在网上漫游,从一个或一组URL开始访问,并进行本地索引,同时记录该URL所指的HTML文件中所有的新的URL链接,不停地以找到的URL为起点进行本地索引,直到再没有满足条件的新的URL地址或超出了某些限制。
自动采集信息是搜索引擎的主要功能。自动索引程序要对HTML文档中的超文本标记进行分析,提取出符合用户需要的主要内容,并存放在信息库中。这些软件会定期或不定期地拷贝所访问的国际互联网主机的内容,然后由提供检索服务的公司或单位统一进行标引和组织。
自动索引程序将采集和标引的信息汇集成索引数据库,并随时顺着链接跟踪网上新加入的主页,为其建立索引,这是搜索引擎提供检索服务的基础。