信息检索教程 第三章 信息著录与标引

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

专指度
一致性
11
第3章 信息著录和标引
3.3.2 信息标引的步骤
信息标引的步骤包括主题分析和概念转换,也就是先 要对文献的内容进行分析,明确文献的主要内容和主题概 念,然后用分类法或主题法将其充分、准确地表达出来。
3.3.2.1 主题分析
1. 主题类型和结构
(1)单主题和多主题 (2) 显性主题和隐性主题
17
概念 交叉 组配
概念限 定关系 组配
连接 关系 组配
第3章 信息著录和标引
3.5 自动标引
3.5.1 自动标引概况 自动标引指直接通过计算机的操 作处理,赋予检索标识的活动。
词频统计法 加权标引法 n-Gram标引法 统计学习标引法 句法分析标引法 语义分析标引法 JAKS标引法、WorldViews 标引法和MedIndEx标引法
2
第3章 信息著录和标引
《文献著录总则》
我国著录标准体系
《普通图书著录规则》 《连续出版物著录规则》 《非书资料著录规则》 《档案著录规则》 《古籍著录规则》 《地图资料著录规则》 《检索期刊条目著录规则》 《文后参考文献著录规则》 ……
颁布时间:1983年7月
著录项目:① 题名与责任者项
② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨ 版本项 文献特殊细节项 出版发行项 载体形态项 丛编项 附注项 文献标准号及有关记载项 提要项
6
第3章 信息著录和标引
中文文献的著录主要采用的是CNMARC,以共享我国图 书馆和信息部门的中文书目记录;西文文献的著录则采用 USMARC,以共享国外权威的西文书目记录。这里重点介绍 CNMARC。
CNMARC 记录
记录头 标区
地址目 次区
数据字 段区
记录分 隔符
注:各字段数据元素及其标准详细情况参见教材P83-87
3.3.1 信息标引的含义和质量控制
3.3.1.1 信息标引的含义
信息标引是指在分析文献内容的基础上,用某种 检索语言把文献主题以及其他有意义的特征标识出来, 它是文献存储与检索依据的一种文献处理过程。
信息标引 分类标引 主题标引
10
第3章 信息著录和标引
3.3.1.2 信息标引的质量控制
信息标引质量的优劣,直接影 响到计算机的查全率和查准率,影 响到用户利用检索系统的效率。尤 其是随着大型数据库的开发和利用, 对于海量的数据,必须组织大规模 的集体标引才可能完成任务因而, 关于信息标引的质量控制就显得尤 为重要。 标引深度 影响标引质量的因素
0
第3章 信息著录和标引
3.1.1 信息著录的含义和作用
3.1.1.1 信息著录的含义
3.1 信息著录 的含义和标准
信息著录简称著录,是指在组织检 索系统时对文献内容和形式特征进行选 择和记录的过程。 3.1.1.2 信息著录的作用 信息著录的目的是为了报道和检索 信息,通过著录可以浓缩文献信息的特 征,起到揭示文献、报道文献,帮助人 们快速地了解文献,进而选择自己所需 文献的作用。
注:各种类型主题文献的分类标引具体规则参见教材P97-99
16
第3章 信息著录和标引
3.4.2 主题标引
主题标引指依据一定的主题词表,对文献的内容先进行 主题分析,再赋予文献语词标识的过程。目前,国内主要采 用《汉语主题词表》及其相关的专业词表进行主题标引。
选词 规则 组配 规则 主题词组配标引的形式
3
第3章 信息著录和标引
著录格式:
指款目中各个著录项目的排列次序和表达方式。分为卡片式 款目著录格式和书本式款目著录格式两种。
正题名=并列题名:副题名及说明题名文字[文献类型标识]/第一 责任者;其他责任者.—版次及其他版本形式/与本版有关的责任 者.—出版发行地:出版发行者,出版发行日期(印刷地:印刷 者,印刷日期) 页数或卷册数:图;尺寸或开本+附件.—(丛编名/责任者,国际 标准连续出版物编号;丛书编号.附属丛编) 附注 国际标准编号;中国文献标准编号(装订):价格 提要 Ⅰ.书名 Ⅱ.著者 Ⅲ.主题 Ⅳ.分类号
7
第3章 信息著录和标引
3.2.2 元数据
元数据的英文为Metadata,意为关于数据的数据。 在Internet中,元数据是指描述任何Internet数据和
资源,促进Internet信息资源的组织和发现的数据,以协
助对网络资源的识别、描述、指示其位置。
8
第3章 信息著录和标引
影响最为深远、使用最为广泛的元数据国际标准是都柏林核心元素集
图3-1 卡片式款目著录格式
4
第3章 信息著录和标引
正题名=并列题名:副题名及说明题名文字[文献类型标 识]/第一责任者;其他责任者.—版次及其他版本形式/与 本版有关的责任者.—出版发行地:出版发行者,出版发行 日期(印刷地:印刷者,印刷日期).—数量及其单位:图 及其他形态;尺寸或开本+附件.—(丛编名/责任者,国际 标准连续出版物编号;丛书编号.附属丛编).—附注.— 国际标准编号;中国文献标准编号(装订):价格 提要
14
第3章 信息著录和标引
3.3.2.2 概念转换 主题概念转换是以主题分析为基础,将确定的主题概 念赋予检索标识的过程。 主题概念转换按其复杂程度可以分为两种: ( 1 )直接转换:这种转换比较简单,标引人员从词 表中直接选择与主题概念对应的分类号或主题词即可; (2) 分解转换:将复杂的主题概念首先进行分解, 然后再选择相应的主题词或分类号。 概念转换结束后,还要进行标引结果的审核,即审核 文献的分类或主题检索标识是否正确,包括文献主题分析 的正确性、充分性,检索标识的正确性等。
12
第3章 信息著录和标引
主体因素
文献类型因素
主题因素 五方面
通用因素
时间因素
位置因素
13
第3章 信息著录和标引
2. 主题分析方法
wk.baidu.com
主题分析方法一般有两种:
一种是先找出文献论述的对象,再进一步查明是论述 了对象哪个方面的具体问题,可以按照事先设计好的主题 结构模式提炼相关主题要素,分析主题要素之间的关系。 另一种是先找出文献所涉及的各种概念,并查明它们 之间的相互关系。文献中包含哪个因素就分析哪个因素, 有的因素不只一个就要全部分析出来,以便筛选和进行匹 配,然后,再将各个因素按照主题结构模式进行分析。
1
第3章 信息著录和标引
3.1.2 信息著录的标准
信息著录标准是指在描述信息过程中所要依据的 规则和条例,是实现信息著录标准化的前提和根本。 信息著录标准包括国际标准和国家标准。 信息著录标准化进程中,近年来受到广泛关注的 热点之一,是网络信息资源的描述问题,亦即元数据 的记录问题。与传统信息资源相比,网络资源在资源 类型、结构、形式、描述环境、描述主体等方面存在 这不同,其描述规范也因此呈现多样化。
第3章 信息著录和标引
本章要点
●介绍信息著录和标引的含义 与作用 ●叙述信息著录和标引的发展 ●介绍元数据的定义与作用
信息著录和标引是使 信息序化的过程。它通过 揭示信息的内在以及外在 特征,将分散无序的信息 重组,规范控制信息流向, 以便用户有效利用。
●比较机读目录MARC和都柏林
核心元数据集DC ●介绍网络信息描述自动处理 方法——自动标引与自动分 类
15
第3章 信息著录和标引
3.4 分类标引 和主题标引 3.4.1 分类标引
1
2
学科属性原则
专指性原则 实用性原则 系统性原则 一致性原则
文献分类标引是指依据一定的分 3 类检索语言,对文献内容的学科性质 及其有检索意义的形式特征进行分析、 4 归纳,赋予文献分类检索标识(分类 号)的过程。目前,国内主要依据 《中国图书馆分类法》来进行分类标 5 引。
核心元素集(Dublin Core Elements Set) 都柏林核心元数据集(Dublin Core Elements Set) 是一种跨领域的信息资源描述标准,其应用的资源类型没 有根本性的限制。
注:DC的十五个元素及其定义与详细解释见教材P89-90
9
第3章 信息著录和标引
3.3 信息标引 的含义和步骤
图3-2 书本式款目著录格式
5
第3章 信息著录和标引
3.2.1 机读目录 3.2 机读目录 与元数据
机读目录 ( MARC )即机器 可读目录的简称,来自英文 Machine-Readable Catalogue , 是 利用计算机识读和处理的目录。 机读目录是描述文献著录项目 的国际标准格式,是实现计算 机处理书目信息及资源共享的 基础。
统计标引 法
自动分类
自动 标引 方法
语言分析 标引法 人工智能 标引法
自动归类
自动聚类
18
案例:文献主题标引的实例(P107)
19
作业
1、信息著录的含义和作用是什么? 2、简述信息标引的含义和步骤。
20
相关文档
最新文档