信息组织期末复习资料
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息检索需求的多样化
(1)文献检索:是以文献为检索对象的信息检索。它为用户提供的是与用户的信息需求相关的文献信息,它的目的是相关文献的出处和收藏处所。文献检索的结果是提供与课题相关的数篇文献的线索或原文,供用户参考. (2)数据检索:是以数值和图表形式表示的数据为检索对象的信息检索。数据检索是一种确定性检索.(3)事实检索:是以从文献中抽取的事项为检索内容的信息检索。
信息标引:就是对信息内容进行分析并充分而有效地予以揭示。揭示信息的内容是检索信息、利用信息的
前提条件。从学科属性揭示信息内容就是分类标引,从主题特征揭示信息内容就是主题标引。准确标引信息要求准确的内容分析,否则就会出现错误标引。
信息系统组织:信息通过特征描述和内容揭示,获得了表示信息的标识,但这只是针对某一文献和信息
单元的,把这些信息有序地组织起来才完成了信息组织的过程,这个过程就是信息系统组织。信息系统组织
是把描述和标引的信息实体和信息记录组织成一个有序的系统。
一、信息组织方法:(一)按组织对象分:文献实体组织与信息内容组织(二)按信息组织的层次分:语法信息组织、语义信息组织与语用信息组织(三)常用信息组织方法: 1.分类组织法 2.主题组织法 3.
集成组织法
三、信息组织手段1、人工组织2、自动组织
1、分类检索语言:分类检索语言习惯简称分类语言或分类法,分类检索语言语族主要有三个语支,即(1)等级体系分类语言(2)分析综合分类语言(3)半分析综合分类语言。
2、主题检索语言(1)标引词语言(2)单元词语言(3)叙词语言
检索语言词汇控制的意义:检索语言构成材料就是词汇,把词汇按某种方式组织起来构成检索语言词
典,它是标引和检索的工具。检索语言的词汇控制又称规范化处理。由于表述信息内容的词汇非常庞杂,日
常的自然语言词汇并非都能准确表达信息的学科和主题内容。
自然语言缺点(1)词汇的同义现象。(2)词汇的多义现象。(3)词汇语义不清或语义不确定。(4)词量庞大(5)词间关系不明晰在现行的一些检索系统中,也比较广泛地直接采用自然语言检索,它虽然节省了词汇控制的成本,但却是以牺牲检索效率为代价的。因此,完全采用自然语言进行信息组织的系统并不是理想的检索系统。即便是面对互联网急剧增长的信息资源,人们也越来越感到需要进行规范化控制。由此有了规范化检索语言在网络信息组织中的应用研究,有了网络本体语言的开发。网络信息组织从自由走向规范足以说明词汇控制的意义。
检索语言词汇控制的内容:词汇控制的目的是为了使检索词符合唯一性、规律性、定型性、通用性和准
确性。为了达到这个目标,应该从以下几方面进行词汇控制。
(1)词量控制。词量控制是指对收入词表的词汇进行压缩、精选,使之与所要标引的信息数量和检索要求相适应。(2)词类控制。自然语言词汇有多种类别,如名词、动词、形容词、副词、介词、叹词,还有大量的词组。(3)词形控制。词汇也存在不同的书面表达方式,如不同的次序、简繁体、单复数、不同拼写法,以及标点符号、字符、数字等,为了实现每个词词义和词性的唯一性,必须进行词形控制。(4)词义控制。检索语言中的每个词汇都只表示一个概念,即使检索语言词汇一般都比较精炼和简短,也会出现一词多义和同形异义现象。因此,必要时在主题词或类目词后加限定词,加含义及范围注释,或附加简明定义等。(5)词间关系控制。在情报检索语言词典编制中,对词汇语义和词间关系必须控制,这是为了词典中每个词汇都有独立的语义,词间关系能形成一个语义网。(6)专指度控制。检索语言词汇的专指度是指其
语义的内涵与外延与信息主题内容的切合程度。
信息检索系统由六个子系统构成:(1)信息选择子系统(2)标引子系统(3)词表子系统(4)检索子系统(5)用户与系统之间的交互子系统(6)匹配子系统即对信息标引与提问标引进行匹配的子系统。
从系统构成分析可见,检索语言和标引是系统的中心环节,它起着承上启下,连接用户与系统的关键作用。概念之间的关系(一)属种关系:它是指一个概念的外延包含另一概念的全部外延,其中,外延大的概念叫属概念,外延小的概念叫种概念。(二)同一关系:它是指两概念在外延上完全重合。(三)交叉
关系:
即两种概念之间有且只有一部分外延是重合的。
概念逻辑方法
(一)概念的限定与概括
概念的限定是指通过增加概念的内涵以缩小概念的外延,即由属概念过渡到种概念的逻辑方法。对一概念进行限定,从语言上说一般是增加限制词,如定语、状语等,例如,给“人”加上“大”就成为“大人” 增加的限制词应是恰当的,不能与原概念矛盾或重复。
概念的概括是与概念的限定相反的一种逻辑方法,它是通过减少概念的内涵从而扩大其外延,由外延较小的种概念过渡到属概念。如把“先进工人”抽去“先进的”这一内涵就变成“工人” ,再减去“从事工业生产的”这一内涵就变成“人” ,这就是一个概括的过程。概括的方法可以使我们的认识上升到一定高度,加深对事物本质的了解。
(二)概念的划分概念的划分就是以事物的某种属性为分类标准,将一个属概念的外延分成若干个种概念的方法。事物有各种各样的属性,根据不同的属性就可做不同的划分。如按图书的文字可以把“图书”分为“中文图书” 和“外文图书” ,按图书的学科类别又可以划分成“自然科学图书” 、“社会科学图书”等,按图书的装订形式还可以划分成“平装图书” 、“精装图书”,等等。
概念的划分的基本规则是:划分得到的子项的外延之和应当等于母项的外延,划分得到的各子项的外延必须互相排斥,每次划分应当使用同一标准进行,划分必须是按层次逐级进行。
分类检索的类型
分类检索的基本形式有三种,即浏览式检索、直接检索、浏览与直接相结合的检索
1、浏览检索:就是按照信息系统的分类体系,以线性的方式沿着某一个起点,一层一层地在逐级查找,也
就是知识树或知识地图浏览方式。
2、直接检索:当信息被组织在数据库中后,某些对系统比较熟悉的用户,对需求明确的信息可以进行直接
检索,即在系统中直接输入分类号、类名、关键词进行检索。这种形式的检索往往还要借助于该系统所使用的分类法。
3、浏览与直接相结合的检索:这种检索方式是电子分类法和网络信息分类系统特有的功能,就是在进行浏
览式检索过程、在一个特定类目的限定下输入要检索信息的某些特征语词,以便迅速将该类信息定位;
或者先输入信息的某个特征,初步判断、确定它的类属,在此基础进行浏览检索。
分类法的宏观结构一般包括(1)编制说明(2)基本类目表(3)分类法主表(4)辅助分类体系(5)分类法附表(6)分类法索引(7)分类法使用手册与附录
分类法的微观结构一般包括(1)分类号(2)类名(3)类级(4)类目注释和参照分类法编制的基本程序(一)分类法的功能分析与定位(二)系统用户需求(三)分类体系设计
(四)分类标记设计(五)分类法结构设计(六)分类法主表设计(七)分类法辅助分类体系设计(八)分类法辅助表设计(九)分类法索引设计(十)试标引与修订
按标记制度划分的分类标记
1. 层累标记制
2.顺序标记制
3.混合标记制
4.分面标记制
5. 回归标记制
6.起讫标记制
扩展同级类编号法
编号的方法是:某类的子类较多,本身的号码不敷使用,就借用相邻空余的同位类号,并将其扩展成与该子类相匹配的同级号码,为剩余的子类配号。此种扩号法的特点是使同位类都有相同长度的号码。
子顺扩号法当某类下同位类很多,但无须再进一步划分,且同位类有不可预见性时,可使用类名的首字母进行扩号,即类号+字母。例如:
M675 法国文学作品:按作家分
M675B 巴尔扎克作品狄更新作品
M675M 莫泊桑作品
M675D
主题法的含义
所谓主题法,一般是指直接以表示文献主题的语词作标识,提供字顺检索途径,并主要采用参照系统揭