信息组织与存储考试
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、名词解释
1、著录:在编制文献目录时,对文献信息的各种特征进行分析、选择和记录的过程。
也就是说,按照一定的条例或标准,将文献的内容特征(分类、主题)、外表特征
(题名、著者、来源出处、出版地、出版者、出版时间等)和物质特征(文献类型、页册数、图表、开本、装订、价格等)加以描述,并记录于目录载体上的工作称为
文献信息著录。
2、标题法:标题(标题词)是主题标目的简称,英文名称为Subject Heading,是将
通用语言中事物现成的“名”经过词汇控制而成的一种文献主题标识。标题法是用规
范化了的自然语言的语词做标识,直接表达文献的主题内容,通过参照系统揭示各
主题之间的各种关系而按字顺排列的主题标识系统。
3、单元词法:单元词又称元词,是从文献中抽取出来并经过控制处理的,能表达文献
主题最小、最基本的在概念上不能再分解的,并能独立描述文献所论及或涉及的事
物——主题的词汇单位。
4、叙词法:所谓叙词,是取自自然语言,经过规范化处理的,以基本概念为基础的表
达文献信息主题的词或词组,我国称为主题词。
5、关键词法:关键词是指在文献的标题、摘要或正文中出现的、对文献主题内容具有
实质意义、能作为检索入口的、具有关键性描述作用的词汇。不做规范化处理或极
少规范化处理,文献中现成的词汇,非控制语言,能由计算机进行自动抽词进行标
引
6、DDC:
杜威十进分类法,DDC是用传统的学科来分类,总共以10个主要的学科(main classes)来涵括所有的知识体系,每个大类下细分10类(divisions),接着又再分成10小类(sections)。DDC中每个学科都会给予特定范围的数字来表示,DDC除了主要的分类表外,另有六个复分表
10、信息组织:本质:信息组织是序化信息的一种信息管理活动
概念:人们根据信息本身的特点,运用适宜的工具和方法,依据一定的标准和规则,对其进行加工整理,排列组合,使之有序化、系统化、规律化、高级化,增强信息对象的表现效能和运用效能,以满足人们信息需求的过程和活动。
11、UDC:又称为通用十进制分类法。国际通用的多文种综合性文献分类法。
1905,比利时目录学家保罗·奥特勒在杜威《十进分类法》基础上编制
首先将全部科学知识分为10类,用数字0-9加以分类,每大类又可以添加新的数字0-9,并以此再进行细分。
10.受控语言:是一种规范化的人工语言,包括具有较强族性检索功能的分类语言和具有较强特性检索功能的主题语言。
11.自然语言:通常是指一种自然地随文化演变的语言,它是一种由人蓄意为某些特定目的而创造的语言,如英语、汉语等。
二、简答题:
1、信息自动聚类的原理
1、信息自动聚类的方法和原理
自动聚类是指从待分对象中提出特征,再将提出的全部特征进行比较,并根据一定的原则将具有相同或相近特征的对象定义为一类,设法使各类中包含的对象大体相等。一般是在语词共现的基础上,通过词频统计、相似性比较,将相关文献聚集在一起。
自动聚类可以分为基于语词特征的自动聚类和基于非语词特征的自动聚类
基于语词特征的自动聚类
通过标引词描述文献主题,如果描述文献内容的词汇相同或相近,就把这些文献归为一类。两篇文献所拥有的共同标引词越多,说明这两篇文献的距离越近,通过计算两篇文献的相似度,生成待进行聚类分析的文献集
基于非语词特征的自动聚类
文献分类还可以在非语词特征的基础上形成,尤其是基于各种形式的引文链接
1)利用直接引文进行文献聚类(A、X、Y;因为X、Y都引用了A,这三者及有可能涉及共同的主题领域)
2)运用“引文耦合”原则进行文献聚类(文献X、Y紧密连接是因为它们都引用了文献A、B、C;Z和X、Y连接不是太紧密)
3)利用共同被引进行文献聚类(A、B、C共同被X、Y引用)
2、切分标记法的过程和原理
以下是他的原理过程见书本
切分标记法是将能够断开词和词组或表示汉字之间联系关系的汉字集合组成字典,这个字典称为切分标记字典。切分标记字典中包括的内容有:标点符号、表示汉字之间联系关系的汉字(如词首字、词尾字、不能构词的单字或非用字和条件字)。切分方法无须构造词典,它根据仿读思路,用字典和模式实现汉子自动标引。
具体切分过程为:用切分标记先将文本分割成词组或短语,再将它们按一定的分解模式分割成单词或专用词。
3、正向最大匹配法原理
先说说什么是最大匹配法:最大匹配是指以词典为依据,取词典中最长单词为第一个次取字数量的扫描串,在词典中进行扫描(为提升扫描效率,还可以跟据字数多少设计多个字典,然后根据字数分别从不同字典中进行扫描)。例如:词典中最长词为“中华人民共和国”共7个汉字,则最大匹配起始字数为7个汉字。然后逐字递减,在对应的词典中进行查找。
正向即从前往后取词,从7->1,每次减一个字,直到词典命中或剩下1个单字。
4、逆向匹配法原理
逆向即从后往前取词,其他逻辑和正向相同。
三、论述题
1、信息标引的类型作用
通过标引人员把文献和文献用户联系起来,使用户能在大量的文献中,全面、准确、迅速地查找到特定的文献。
信息标引所用的检索语言主要是分类语言和主题语言,因此信息标引就有分类标引和主题标引两种类型。以及解释。。。见书本
分类标引的作用:
揭示每种书、每篇文章的内容性质,形式体裁,立场观点和读者用途
把相同的文献聚集在一起,把不同性质的文献区分开来
根据各类文献之间的关系组成一个系统
主题标引的作用:
主题标引的目的是建立主题检索系统。
以主题标引为基础的主题检索是用户查找、检索文献的重要途径。
主题检索以其直观、专指以及特性检索之特点必将在资源的发现与检索中发挥越来越大的作用。
2、自然语言检索系统在网络信息组织中的应用
自然语言检索:全文检索,搜索引擎.
首先得益于数字化文本,全文信息源。
全文检索系统是从全文数据库中,通过各种逻辑关系,允许用户使用自然语言进行检索,直接获取原文中的信息。
核心技术:高效索引。
以关键词的形式与索引数据库进行匹配,包括字符串检索、截词检索、位置检索等技术。
搜索引擎的检索思想源起于全文信息检索理论,一般以词为单位。通过计算机程序扫描每个网页中的每个词,建立词索引。
网络检索工具的近十年的发展,搜索引擎已融合了多种技术完善自身检索能力:智能扩展技术、自动反馈技术、个性化检索、关联检索、检索结果组织等。
3 搜索引擎的工作原理和类型
搜索引擎工作原理
SEO是对网站开展针对搜索引擎的优化工作,因此了解搜索引擎的工作原理有利于优化工作的开展。搜索引擎通过一个称之为Spider的程序从一个网页或多个网页出发,逐步遍