网络信息资源检索.ppt

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
d、实时活动型:如各种投资行情和分析,BBS讨论组, 网上商务贸易等。
(5)按发布机构分:
a、企业站点信息资源
这类资源站点一般以com为一级或二级域名注 册。如中国石化公司http://www.sinopec.com。其 信息资源一般以初始信息为主,如提供公司整体概 况,各类产品信息、商业服务信息等,更新及时、 动态性强。
(4)按照信息的表现形式划分:
a、全文型:各种报纸、期刊文献的全文,政府出版物、 专利、标准以及全文型的其他网站。如我国的中国期刊网, 能提供几千种国内出版期刊的全文数据查阅服务。
b、数值型:如主要提供统计数据、产品或商品的规格 及价格的网站或网页。
c、书目、索引、文摘型:如图书馆公共联机检索系统 就是典型的这类资源。ISI网站上的“Web of Science”是 著名的SCI SSCJ AHCI的Web版,能查阅各类引文数据。
(2)自动索引程序是现在大多数网络检索工具搜集信息 资源时使用的程序。通过采用一些网络自动跟踪索引程序 (如Robot、Spider、Crawler、Worms、Wander等)来完成。 这种索引程序在网络上自动检索网络资源,并跟踪记录其网 址、描述其特征及内容,建立索引数据库,并不断地自动更 新数据库。这种程序保证了入库信息的及时性。不同的自动 索引软件采用的标引、搜索策略不同,自动索引软件搜寻、 标引网页的方式对信息检索的质量有直接影响。现在许多网 络检索工具采取自动采集和人工标引相结合的方式建立数据 库。
全文搜索引擎是通过从互联网上提取的各个网站的信息 (以网页文字为主)而建立的数据库中,检索与用户查询条 件匹配的相关记录,然后按一定的排列顺序将结果返回给Байду номын сангаас 户,因此他们是真正的搜索引擎。
国外具代表性的有Google、Fast/AllTheWeb、AltaVista、 Inktomi、Teoma、WiseNut等;国内著名的有百度Baidu)。
第六章 网络信息资源检索
本章内容
▪ 一、网络资源概念及划分 ▪ 二、网络资源检索方法 ▪ 三、网络资源检索工具 ▪ 1.分类 ▪ 2. baidu,google搜索引擎 ▪ 3.图书馆加工整理并定期更新的免费
资源 ▪
一、网络信息资源(Network Information Resource):
1、概念:
从搜索结果来源的角度,全文搜索引擎又可细分为:
A、拥有自己的检索程序(Indexer),俗称“蜘蛛” (Spider)程序或“机器人”(Robot)程序,并自建网页数 据库,搜索结果直接从自身的数据库中调用,如上面提到的7 家引擎;
a、基于超文本传输协议(HTTP)的信息资源
万维网(World Wide Web,简称WWW,或Web)信息资源是 一种典型的基于HTTP的网络信息资源。HTTP是浏览器与Web服 务器之间相互通信的协议。即Web客户机和服务器用于在网上 传输、响应用户请求的协议。 当用户以http://开始一个链 接的名字时,是告诉浏览器去访问使用HTTP的Web页。
b、基于文件传输协议(FTP)的信息资源
FTP协议的主要功能是完成从一个系统到另一个系统完整 的文件复制,即在网络的联网计算机之间传输文件。通过FTP 可以获得的信息资源类型广泛。广义地说,如何以计算机方 式存储的信息都可以通过FTP协议获取,包括书籍、图像、声 音、多媒体、一些书籍的电子版、电子期刊、某些政府机构 发布的信息、大量的免费与共享软件等。
网络信息资源是以电子计算机技术、通信 技术、多媒体技术相互融合而形成的以电子网 络为传输性载体和传输媒介的信息资源。
2、分类:
根据不同的划分标准,可以获得不同的分 类结果,主要有:
(1)按人类信息交流的方式划分:
a、非正式出版信息。 指流动性、随意性较强的,信息量大、信息质量难以保证和
控制的动态性信息。 如电子邮件、专题讨论小组和论坛、电子会议、电子布告版
不同的网络检索工具,采用的检索软件不同,提供的检 索功能、支持的检索技术不同,对检索结果的处理方式不同。 检索软件功能的强弱直接影响检索效果。
检索软件功能强弱的判定,主要是看检索界面是否友好、 检索技术是否灵活多样、检索途径多少等几方面。
(三)类型:
1、Web资源检索工具:
Web检索工具是指利用超文本(或超媒体)技术在因特 网上建立的一种提供网上信息资源导航、检索服务的专门 web服务器或网站。
3、网络信息资源的特点:
(1)信息量大,传播广泛; (2)信息层次多,品种多样; (3)自由发布,交流直接; (4)信息传播速度快,变化频繁; (5)检索方便,价廉实惠; (6)分散无序,缺乏管理; (7)内容庞杂,质量不一。
二、网络信息检索方法:
1、直接浏览:
(1)网址查询:如果用户要访问已知地址的信息资源, 可以在浏览器地址栏中输入已知的网站或网页地址,直接进 行浏览。
e、Gopher信息资源
Gopher又称信息鼠,这是一种基于菜单的网络服务, 类似万维网的分布式客户机/服务器形式的信息资源体系。 它是因特网上一种分布式信息查询工具,各个Gopher服务 器之间彼此连接,全部操作都在一级级菜单的指引下,用 户只需在菜单中选择和浏览相关内容,就完成了对因特网 上远程联机信息系统的访问。此外,Gopher还可提供与前 文所提及的其他多种信息系统的连接,如WWW、FTP、 Telnet等。
c、数据资料型:通常是按内容、地域、时间、出版所有 权或者其它分类,组织起来的相关数据集合。如地区或城市介 绍,工程实况及记录,企事业机构名录、指南,字典、百科全 书、年鉴、手册、产品样本等参考工具等,也包括一些统计数 据,产品或商品的规格及价格,各种投资行情和分析等。
d、即时资料型:指在网上论坛、新闻组、留言板等上面 实时产生的信息资源。这类网络信息由于发表方便,随意性较 大,动态性强。
b、学校、科研院所站点信息资源
这类站点一般以edu或ac为一级或二级域名注 册,如http://lib.sytu.edu.cn(江南大学)现名: lib.jiangnan.edu.cn。主要提供学术性较强的各种 信息,如科研活动介绍、学术动态、信息检索、远
c、信息服务机构站点信息资源
这类站点一般以net、com、gov或行政区域为一级或二级 域名注册。如http://www.chinainfo.gov.cn(中国科技信息 网),http://www.libnet.sh.cn/(上海图书馆)。主要提 供各类专题信息。广泛开展信息资源的开发与利用服务,网 络功能的开发与应用服务,如全文数据库查询、建立搜索引 擎等。
新闻等工具上的信息。 b、半正式出版信息。 又称“灰色”信息,指受到一定产权保护但没有纳入正式出
版信息系统中的信息。 如各种学术团体和教育机构、企业和商业部门、国际组织和
政府机构、行业协会等单位介绍宣传自己或其产品的描述性信息。 c、正式出版信息。 指受到一定的产权保护,信息质量可靠、利用率较高的知识
c、基于远程登录(Telnet)的信息资源
这是指通过Telnet协议所访问到的网络信息资源。如 各类图书馆的公共查询目录系统、信息服务机构的综合信 息系统等。
d、用户服务组信息资源
包括新闻组(Usenet Newsgroup)、电子邮件群 (Listserv)、邮件列表(Mailing List)、专题讨论组 (Discussion Group)等。它们是由一组对某一特定主题 有共同兴趣的网络用户组成的电子论坛,是网络用户间的 信息交流;但又各具特色和用途,锁定各自特定的用户。
因此,数据库的内容一般有网站的名称、标题、网址 URL、网页的长度、网页的时间、相关的超文本链接点、内 容简介或摘要等。
不同的数据库的规模差异也很大,如google收录索引 了近33亿个网页,百度收录索引了一亿多个中文网页。数据 库规模的大小决定了查询到的信息是否全面。
3、检索代理软件负责处理用户的检索提问,并将检索结果 提交给用户。
2、数据库是网络检索工具提供检索服务的基础。不同的网 络检索工具,数据库收录网络资源的类型与范围不同,标引 方式也不同:
有的收录各种类型的资源,如Web、Usenet、FTP、 Gopher等,有的只收录Web、Usenet等;
有的标引主页的地址、标题、特定的段落和关键词;
有的对主页的全文进行标引。
获取网址的方法: a、用户可以充分利用浏览器中的收藏夹功能,保存 和管理浏览过的感兴趣的网站或网页。 b、可以通过创建书签(Bookmark)或热链 (Hotlink,Hotlist),来将一些常用的,优秀的站点地址 记录下来,组织成目录以备今后之需。 c、可以通过与他人的交流获取相关的网址。 d、可以在一些刊物上有一些专门介绍某些专业网络 资源的文章,也可供我们参考使用。
d、行业机构站点信息资源
这类站点一般以所属上级部门为域名注册,有com、ac、 gov等,如http://www.chinaauto.ac.cn(中国汽车行业经济 技术信息网)。它们一般是再现行业信息、系统性、完整性 较好。主要信息内容有企业名录、市场行情、行业论坛、政 策和法规、统计信息等。
(6)按传输协议分:
b、二次网络信息资源
对一次网络信息资源的搜集、加工和处理,主要指搜 索引擎、虚拟图书馆等,是网络检索工具的重要组成部分。 这类网络信息资源是用户经常利用的工具,是获取一次网 络信息资源的门户和入口。
c、三次网络信息资源
对二次网络信息资源的搜集和对已搜集二次网络信息 资源的组织,以元搜索引擎为其典型。
2、通过网络资源指南来查找信息
对于有目的的网络信息发现具有重要的指导、导引作用。 综合性的主题分类树体系的网络资源指南,如:Yahoo!专 业性的网络资源指南。
局限性在于:由于其管理、维护跟不上网络信息的增长 速度,导致其收录范围不够全面,新颖性、及时性可能不够 强;且用户还要受标引者分类思想的控制。
三、网络信息检索工具:
(一)概念:
网络信息检索工具是指在因特网上提供信息检索服务 的计算机系统,其检索的对象是存在于因特网信息空间中 各种类型的网络信息资源。
(二)一般构成:
网络检索工具一般由索引程序、数据库和检索代理软 件组成。
1、网络检索工具搜集信息资源主要有两种类型的 程序:
(1)人工程序是由专门的信息人员收集网上信息,并按 规范进行分类标引,组建成索引数据库。这种采集方式可以 保证所收集信息的质量和标引质量,但是效率低,更新慢。
性、分析性信息,用户一般可通过Web查询到。 如各种网络数据库、联机杂志和电子杂志、电子图书、电子
报纸等。
(2)按照信息的加工程度划分:
a、一次网络信息资源
因特网的原始信息,包括电子图书、电子期刊、电子 报纸、电子邮件、网络会议论坛、网络新闻组、企业网站 (不包括虚拟的网络型网站的商业网站,如Yahoo,搜狐、 新浪等)、政府网站、教育科研机构网站等等。
(3)按照网络信息的内容和用途划分:
a、普通型:主要是反映某个组织或个人相关信息、某类 学科知识或者某一方面的信息,一般不具备站内强大的搜索功 能,只是通过链接来组织各种内容信息。
b、专门资料型:主要指以查检为目的,为用户提供全面 内容信息的网络信息资源类型,如网络数据库、搜索引擎、专 利检索网站等等,它通常具有全文检索的功能,以免费或收费 的方式提供服务。这类网络信息资源是我们进行信息检索时经 常利用到的信息资源。
目前发展最为迅速、最受人们欢迎的信息检索工具是 WWW(即万维网)上的检索工具——搜索引擎。
搜索引擎是一个为你提供信息“检索”服务的网站,它 使用某些程序把因特网上的所有信息归类以帮助人们在茫茫 网海中搜寻到所需要的信息。
搜索引擎主要分为以下类型:
(1)全文搜索引擎(Full Text Search Engine):
(2)偶然发现
即在日常的网络阅读、漫游过程中、意外发现一些 有用信息。这种方式的目的性不是很强,其具有不可预见 性、偶然性。
(3)顺“链”而行
指用户在阅读超文本文档时,利用文档中的链接从 一网页转向另一相关网页。这种方法可以在很短的时间内 获得大量相关信息,但也有可能在“顺链而行”中偏离了 检索目标,或迷失于网络信息空间中:而且找到合适的检 索起点也不容易。
相关文档
最新文档