网络信息组织的原理, 方法与问题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
●王知津,孙 鑫
(南开大学国际商学院信息资源管理系,天津 300071)
网络信息组织的
原理、方法与问题
[关键词]网络;信息资源;信息组织
[摘 要]网络环境下,海量信息给人们利
用信息资源带来阻碍,如何对网络信息进行有效的组织就显得尤为重要。本文从原理、方法和问题三个方面对网络信息组织进行了论述。 [中图分类号]G250.72;G 250.73 [文献标识码]A
[文章编号]1005-8214(2006)03-0065-03
1 网络信息组织的原理
信息组织是采用各种方法、手段使信息序化的过程。信息组织将分散无序的信息,通过描述、揭示和报导信息的特征,再现重组信息联系,规范控制信息流向,以便用户有效利用。在网络环境中,海量的、形式繁多的、成分复杂的信息对网络信息组织提出了更高的要求。网络信息组织必须根据网络信息资源本身的特点,基于事物属性,运用各种工具和方法,通过加工、整理、排列、组合,对网络信息资源外在和内容特征进行表征和序化,从而使网上分散的、杂乱的信息便于存储、传播、检索和利用,以满足人们的网络信息需求。
信息组织作为一个序化的过程,这个过程可分为两个
阶段,即序化阶段与优化阶段。[1]
信息的序化是按照一定的方法将无序的信息组织成为有序信息的过程,信息的优化则是在序化的基础上针对某种目的,依照结构功能优化原理对信息进行再序化的过程,是信息序化的继续和升华。网络信息组织同其他信息组织一样,需经过序化阶段和优化阶段两个过程对信息进行整序。语言学、逻辑学、系统科学、信息科学是其理论基础。
网络信息组织的原理如下图所示
:
图 网络信息组织原理
网络信息资源的类型多种多样,按照不同的划分标准
可以划分为不同的类型,在这里,我们将网络信息资源在整体上划分为概念、事实、数据和文献4种类型。网络信息资源具有数量巨大,增长迅速;内容丰富,形式多样;变化频繁,价值不一;结构复杂,分布广泛的特点,因
此,对网上信息资源的搜索就显得十分重要。
[2]
急剧增加的网上信息资源给信息搜索带来了很大困难,因此必须遵循全面性、针对性、新颖性、可靠性、科学性、计划性等原则,在实际操作中不断总结和应用各种检索技能。只有尽可能地搜索到相关的网络信息资源,才能为以后的信息描述和标引打下良好的基础。
信息描述是根据一定的管理规则和技术标准,对信息的外在特征和部分内容特征进行全面描述并给予记录的过程。信息标引是在对信息内容进行描述的基础上,根据一定的规则给信息的内容属性以标识。在信息描述和标引过程中将形成一条条信息线索,并将这些线索系统地排列,使大量的分散无序的信息变成有组织、有系统的信息,这就是网络信息的序化过程。分析与评价过程是对网上信息资源的特点和网上用户信息需求特点进行分析,是对网上信息资源进行组织的基本出发点。通过一般序化的信息还远远达不到使用的要求,必须在此基础上对信息进行分析,从中提出有价值的信息。信息过滤是对信息资源净化和防范的必要手段,其实质是对信息进行优化选择。用户可根据自己的需求选择服务项目与内容,通过过滤机制快速找到所需要的信息资源,同时可对网络的信息流量、流向及流速进行有效的控制和合理的调度,使网络传递更加畅通。因此我们说分析与评价、过滤与筛选是信息优化的过程。在实际的操作过程中,网络信息的序化与优化设计没有十分明显的界限,它们是一个辩证统一的过程。2 网络信息组织的方法
网络信息资源的类型非常丰富,并且由于网络信息资源采用数据形式表达,通过网络利用,内容广泛,分布分散,难以规范和结构化;同时内容特征抽取复杂,用户界面要求很高。另外在网络环境下,信息资源在其数量的巨大,分布和传播范围的广泛,信息内涵的扩大,信息类型的多样以及信息传递的快速等方面,远远超出了传统的非网络信息资源组织管理方式和技术所能覆盖的范围。网络环境为信息资源的组织与管理制造了空前复杂的环境,对网络信息资源的组织与管理提出了更高的要求。因此,我
・
56・
们从以下几个方面探讨网络信息组织的方法。
2.1 分类法在网络信息组织中的应用
分类是人类思维的基本方式,是认识世界的基本方法。[3]分类法在网络信息组织中的运用主要表现在四个方面:
(1)分类法提供对非文献资源组织的途径
由于数值、声音、图形、图像等非文本信息的内容特征难以用文字来表示,分类法的聚类功能及其代码标识为非文献资源提供了一条可行的途径。按事物与学科范畴分类组织信息资源层次清晰,符合人们查询信息的思维习惯。对于那些难以用主题词表示的非文本信息特征进行粗分类,将同类信息集中在一起,赋予分类号,再结合其他方式使之有序化。
(2)分类法提供对超文本信息资源的组织
分类法的语义关系网络与超文本系统有某种相似之处,将它用于超文本系统可以起到指南作用,对用户的检索过程和检索范围进行控制,为不同知识水平的用户提供了查询信息的捷径。利用分类法的聚类功能,以节点为基本单位,各节点之间以链路相连,将超文本信息有机地编织在一起,使用户可以从任一节点开始多向成类地从不同角度浏览和查询信息。
(3)分类法用于网络浏览工具
传统分类法是典型的树型结构体系,对知识的组织是采用从一般到具体、从宽到窄层层划分的方式,这种组织方式非常符合人类认识事物的基本思维方式。目前流行的网络浏览工具G opher、Yahoo和主题树,都是建立在等级结构上的。DDC、UDC和L CC等分类法都已用来构建主题树,基于DDC的主题树已运行于Internet上。
(4)分类法在搜索引擎中的使用
多数搜索引擎提供的分类目录都是由编辑者自行设计的,使用传统图书分类法作为分类目录的搜索引擎比较少。大部分搜索引擎的一级类目都控制在20个左右,二级类目则有多有少,有的搜索引擎主页上未列二级类目。各个搜索引擎的类目在位置上和名称上有很大的相似之处,反映了用户的共同需求。大多数搜索引擎都能提供多种检索途径,但分类目录一般只设一套,也有少数搜索引擎的分类目录采用的分类标准是多重的,反映了信息的不同属性。
2.2 主题法在网络信息组织中的应用
(1)主题法用于主页信息的字顺主题组织
目前各类网络关于机构、事物名称或个人的信息几乎都毫无例外地采用主题字顺组织方式构建查询系统。该系统能够按照所提供事物的主题名称将有关机构或个人的信息集中在一起,以便用户对机构或个人信息进行全面查询。
(2)创建主题树指引库技术组织和揭示网络信息资源
创建主题树指引库不仅便于浏览器把某一或某些相关主题的节点进行集中,按主题标识组织起来,而且便于指引用户查询所需信息资源。
(3)用关键词法与叙词法相互结合的形式组织与揭示网络信息资源
关键词组织揭示网络信息速度快,专指性高,便于用户检索文献。但由于选词不规范,常给数据交换和网络检索带来困难。所以对网络信息资源进行组织与揭示时,可同时给出关键词与叙词,有利于用户利用自然语言组织文献,也有利于对网络信息资源的准确描述与科学组织。2.3 网络环境下新的信息组织方法:元数据
元数据Matadata是关于数据的数据,用来描述Inter2 net上的数据和资源的属性,促进网络信息资源组织和发现的数据,帮助信息的描述、定位、搜寻、评估、选择等。[4]此外,从系统的角度审视元数据,元数据还提供浏览及检索的功能、管理功能以及组合各个对象的再呈现等。通过元数据能够了解到某个Internet站点的资源类型,某个页面的标题、作者、主题、关键词和内容摘要等信息。分布在全球Internet上的Web页面,像一个庞大的有许多电子文献的图书馆,它的信息资源需要有序地按一定标准组织起来,而元数据在本质上具有电子目录的功能,可以揭示各类型电子文献的内容和特征,达到网络信息资源的组织、分类、索引等目的。在这里我们主要探讨两种主要的元数据:
(1)机读目录格式(MARC)
MARC的全称为Machine-Readable Cataloging re2 cord。它是计算机编目的产物,是将文献数据以代码的形式和特定的格式结构记录在计算机存储载体上,以便能够被计算机识别并编辑输出书目信息的目录形式。MARC 是一种描述型的元数据。
MARC有严格的语义规则和完整的描述字段。所有的MARC格式都符合ISO2709“书目资料磁带交换格式”,它定义了记录的结构,但在结构中并不描述记录的内容。ISO2709指出:一条MARC记录必须由一些具有字段指示符的变长字段组成;该记录必须有一个记录标识、字段分隔号、记录分隔号以及目次。所有的MARC 都受到结构限制,但随着不同国家的使用,不同的MARC具有不同数量的字段,也有不同的字段编码去识别书目资料的形式。在MARC标准中,有的字段是必备的,有的是可选择的;有的是不可重复的,有的是可以重复的。
MARC的记录随着新需求的增加而显得日益复杂。目前,MARC被越来越多的人拿来当作描述网络信息资源的工具,并且发展了一个新的字段,即856字段,用来记录电子资源的检索方式与地址。856字段已被InterCat Project(1995—1996)用来作为实验的基础。该项目有200多个图书馆参与,其中60%是学术图书馆,以美国地区为主。而现今已被世界各国广泛使用。
(2)都柏林核心(Dublin Core)
Dublin Core全称为Dublin Core Metadata Element Set (都柏林核心元数据元素集),是在1995年3月由OCL C 联合召开的第一届元数据专题研讨会上产生的,目的是寻求一套简洁有弹性,且非专业图书馆人员也可轻易掌握和使用的信息资源著录格式,以提高网络信息资源的开发利用率。操作对象局限于网络上的电子文本资源。目前, Dublin Core可说是全球应用最为广泛的元数据。
DC可通过体系限定词,把MARC/AACR的优点和各种已有的分类法、主题词表等控制语言吸收进来,极大地丰富和增强了DC的描述和权威性。DC具有可扩展性(extensibility)、语法独立性(Syntax independence)、可
・
6
6
・