第三章 信息检索教程
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
术。
http://ztflh.jourserv.com/
中图分类号查询
22
举例:期刊2
23
期刊著录格式
24
期刊的著录
写出下面期刊文献著录:
25
小节练习1
1. 什么是文献著录? 2.文献著录的结果是—— 3. 既著录主要项目,还著录全部选择项目的著录级次称为—— 4. 既著录主要项目,还著录部分选择项目的著录级次称为——
7
信息著录的结果表现形式
信息著录的结果是款目,款目有书本式款目、卡片式款目。 卡片式款目:将文献信息手写或印刷在纸上,卡片一般采 用7.5cm×12.5cm。 书本式款目:为了装订成册后形成书本目录,如《四库全 书总目纲要》。 http://ds.eywedu.com/sikuquanshu/
8
卡片式款目
第3章 信息著录和标引
本章要点
●了解信息著录和标引的含义与作用 ●掌握著录项目及格式、MARC格式及特点 ●了解都柏林核心元数据集DC的格式及作用 ●了解信息标引的含义与作用 ●了解网络信息描述自动处理方法——自动标引与自动 分类
0
3.1 信息著录
信息著录简称著录,是指在组织检索系统 时对文献内容和形式特征进行选择和记录 的过程。
蓝色 标注 的为 主要 项目
正题名=并列题名:副题名及说明题名文字[文献类 型标识]/第一责任者;其他责任者.—版次及其 他版本形式/与本版有关的责任者.—出版发行地: 出版发行者,出版发行日期(印刷地:印刷者, 印刷日期)
页数或卷册数:图;尺寸或开本+附件.—(丛编名 /责任者,国际标准连续出版物编号;丛书编号. 附属丛编)
著录的对象是信息,包括图书、期刊、文 件、网络资源等等。 信息著录的结果是款目或称记录。
1
著录、款目、目录的关系
文献:图书、期 刊、论文等
信息著 录
款目:题名、作者、 版本项等
款目(记录):对文献的内容和外 表特征作出的一条记录,根据著录 法编制出来的,信息著录的结果。 目录:将众多的款目按一定的方法 加以组织、排列,即形成目录。
26
3.2 机读目录与元数据
3.2.1 机读目录
机读目录(MARC)即机器可读目录的简称, 来自英文Machine-Readable Catalogue,是利用计 算机识读和处理的目录。 机读目录是描述文献著录项目的国际标准格式, 是实现计算机处理书目信息及资源共享的基础。
卡片目录与机读目录的区别? 一个机读记录相当一条书目款目。 在卡片目录中,设有分类目录、题名目录。 在机读目录中,计算自动生成分类、题名、著者、主题、 ISBN等检索目录。
注:DC的十五个元素及其定义与详细解释见教材P52-53
40
41
42
• 都柏林核心元数据使用说明: 描述一条记录可以使用上面的15个元素,也 可以选择使用,不同国家、地区、行业、文 件类型在应用时可以根据需要挑选其中的元 素或者增加其它必要的字段。
43
3.2.3 都柏林核心元数据和机读目录的比较
组织排 列
目录:作者目录、 题名目录、主题目 录等
2
著录标准
《文献著录总则》 颁布时间:1983年7月 颁布目的:旨在根据各种类型文献的共同特点,确定文献 著录原则、内容、标识符号、格式等的统一规定(即著录 的标准)。
3
《文献著录总则》中规定的著录项目
著录项目: ① 题名与责任者项 ② 版本项 ③ 文献特殊细节项 ④ 出版发行项 ⑤ 载体形态项 ⑥ 丛编项 ⑦ 附注项 ⑧ 文献标准号及有关记载项 ⑨ 提要项
1. 著录的对象不同
DC与 MAR C的比
较
2. 数据的形式不同 3. 著录的主体不同 4. 著录的详简程度不同
5. 标识的方法不同
44
小节练习2
1、什么是机读目录,一条CNMARC机读目 录的组成? 2、头标区数据元素: 00123cbm1#2200277###52## 其中c、b、m、1分别表示什么? 3、什么是元数据?
附注 国际标准编号;中国文献标准编号(装订):价格 提要 Ⅰ.书名 Ⅱ.著者 Ⅲ.主题 Ⅳ.分类号
图3-1 卡片式款目著录格式
9
书本式款目
蓝色 标注 的为 主要 项目
正题名=并列题名:副题名及说明题名文字[文 献类型标识]/第一责任者;其他责任者.—版次 及其他版本形式/与本版有关的责任者.—出版发 行地:出版发行者,出版发行日期(印刷地:印刷 者,印刷日期).—数量及其单位:图及其他形态; 尺寸或开本+附件.—(丛编名/责任者,国际标准 连续出版物编号;丛书编号.附属丛编).—附 注.—国际标准编号;中国文献标准编号(装订): 价格
(6)技术标准[S](standardization) (7)报纸[N](newspaper article)
(8)科技报告[R](report)
15
图书著录中的ISBN
16
教材的ISBN号:978-7-300-09671-1,为什么多了个978?
2007年1月1日以前,各国ISBN机构尚没有分配完的10 位的ISBN可以在前面加前缀978,一旦现有的10位的 ISBN号用完了,新申请的ISBN号码全部以979开始。 即979前缀目前用于两种情况,一是新建出版社首次申 请ISBN和已有出版社在2007年1月1日以后申请ISBN号, 二是如果以978为前缀的号码先用完,那么就只能用 979。
35
地址目次区
36
3.2.2 元数据
元数据的英文为Metadata,意为关于数据的数据。 在Internet中,元数据是指描述任何Internet数据和 资源,促进Internet信息资源的组织和发现的数据,以协 助对网络资源的识别、描述、指示其位置。
37
元数据举例
下面是契诃夫的小说《套中人》中的一段, 描写一个叫做瓦莲卡的女子:
27
机读目录的数据存放
28
29
机读目录的基本概念
30
哪些是定长字段?哪些是变长字段?哪些是可重复字段?哪些是必备字段?
31
32
中文文献主要采用的是CNMARC,以共享我国图书 馆和信息部门的中文书目记录;西文文献的著录则采用 USMARC,以共享国外权威的西文书目记录。这里重点 介绍CNMARC。
17
图书的著录(参考文献著录规则)
18
写出下面图书文献的著录:
19
期刊的著录(参考文献著录规则)
20
期刊的刊号介绍
刊号即国际标准连续出版物编号,是根据国际标准ISO3297 制定的连续出版物国际标准编码,其目的是使世界上每一种 不同题名、不同版本的连续出版物都有一个国际性的唯一代 码标识。
中国标准连续出版物刊号结构: ISSN ××××-×××× CN ××-××××/×× 缺一不可
著录级次:
著录级次指著录文献的祥简程度。《文献著录总则》把著录项目 分为主要项目和选择项目两种。
主要项目包括:题名和责任者项的正题名、第一责任者;版本项; 出版发行项的出版发行地、出版发行者、出版发行日期;载体形态项。
选择项目包括主要项目之外的所有其余著录项目。
6
著录级次分类
按著录的详略程度分三级: (1)简要级次:款目仅著录主要项目,又称第一著录级次; (2)基本级次:著录主要项目的同时,还著录了部分选择 项目,也称第二著录级次; (3)详细级次:著录主要项目和全部的选择项目,也称第 三著录级次。
提要
图3-2 书本式款目著录格式
10
思考
教材后面的图书在版编目中的数据分别对应的是我们 《文献著录总则》的哪些项目?
11
不同类型文献的著录在依据总则的基础上,制定有相应的具 体条文,作为文献著录的直接依据,如《普通图书著录规 则》、《连续出版物著录规则》、《非书资料著录标准》、 《档案著录规则》、《古籍著录规则》、《地图资料著录规 则》、《检索期刊条目著录规则》、《参考文献著录规则》 等。它们共同构成了我国比较完备的著录标准体系。
一条记录由记录头标区、地址目次区、数据字段区、记 录分隔符组成。
CNMARC 记录
记录头标区
地址目次区
数据字段区
记录分隔符
注:各字段数据元素及其标准详细情况参见教材P83-87
33
ISO-2709的机读目录标准
34
头标区
如:“n”是第5位,代表“记录状态”,表示“新记录”。 请问“m”表示什么?
45
3.3 信息标引
信息标引的含义 信息标引是指在分析文献内容的基础上,用某种
检索语言把文献主题以及其他有意义的特征标识出来, 它是文献存储与检索依据的一种文献处理过程。
信息标引
分类标引 主题标引
46
信息标引的步骤: 信息标引的步骤包括主题分析和概念转换,也就是先
要对文献的内容进行分析,明确文献的主要内容和主题概 念,然后用分类法或主题法将其充分、准确地表达出来。 (1)主题分析:对文献内容进行分析,明确文献的主要内 容和主题概念。 (2)概念转换 (3)信息标引(分类法或主题法)
数量极其单位、图及其他形态、尺寸或开本、附 件等。
正从编名、并列从编名、副丛编名及说明丛编名 文字、从编责任者等
主要是描述文献的著录正文进行补充和说明。
文献标准编号及有关记载项 提要项
国际标准文献编号(ISBN)、中国标准文献编号、 装订、价格。
对文献的内容进行简要的介绍。
5
第3章 信息著录和标引
12
图书的著录(参考文献著录规则)
13
14
图书著录中的文献类型标志
常用文献类型用单字母标识,具体如下: (1)期刊[J](journal)
(2)专著[M](monograph) (3)论文集[C](collected papers)
(4)学位论文[D](dissertation) (5)专利[P](patent)
4
《文献著录总则》的具体内容
著者项目
具体内容
题名与责任者项 版本项
正题Biblioteka Baidu、并列题名、说明题名、文献类型标识、 第一责任者、其他责任者。
版次及版本形式、与本版本有关的责任者
文献特殊细节项 出版发行项 载体形态项 从编项 附注项
著录文献出版物的 卷期起迄、图的比例尺和投影 法等
出版地或发行地、出版者或发行者、出版日期或 发行日期、印刷地、印刷者、印刷日期。
文献的分类或主题检索标识是否正确,包括文献主题分析 的正确性、充分性,检索标识的正确性等。
49
3、信息标引 (1)分类标引
文献分类标引是指依据一定的分类检索语言, 对文献内容的学科性质及其有检索意义的形式特征 进行分析、归纳,赋予文献分类检索标识(分类号) 的过程。目前,国内主要依据《中国图书馆分类法》 来进行分类标引。
ISSN:前7位数字为顺序号,最后一位是校验位。 ISSN由设在法国巴 黎的国际ISDS中心管理。目前已有近5000种中文期刊分配了ISSN号 并进入了国际ISSN数据系统。ISSN通常都印在期的封面或版权页上。
21
举例:期刊1
CN 号前面2位数字表示地区(各省、自治区、直辖市地区号),中间4
个数字表示序号,/后面的字母为图书分类号,其中TP表示的是自动化技
48
2、概念转换 主题概念转换是以主题分析为基础,将确定的主题概
念赋予检索标识的过程。 主题概念转换按其复杂程度可以分为两种: (1)直接转换:这种转换比较简单,标引人员从词
表中直接选择与主题概念对应的分类号或主题词即可; (2)分解转换:将复杂的主题概念首先进行分解,
然后再选择相应的主题词或分类号。 概念转换结束后,还要进行标引结果的审核,即审核
对应文献或图书的元数据有哪些? 作者、书名、ISBN(图书)、ISSN/CN(期 刊)、出版地、出版日期…
39
第3章 信息著录和标引
3.2.2.2 都柏林核心元素集(Dublin Core Elements Set)
都柏林核心元数据集(Dublin Core Elements Set) 是一种跨领域的信息资源描述标准,其应用的资源类型没 有根本性的限制。
(她)年纪已经不轻,三十岁上下,个子高挑, 身材匀称,黑黑的眉毛,红红的脸蛋--一句话, 不是姑娘,而是果冻,她那样活跃,吵吵嚷嚷,不 停地哼着小俄罗斯的抒情歌曲,高声大笑,动不动 就发出一连串响亮的笑声:哈,哈,哈!
元数据:年龄、身高、相貌、性格
38
如:《个人情况登记表》其中包括姓名、性 别、民族、政治面貌、一寸照片、学历、职 称等等……这一套元数据才算比较完备。
47
1. 主题分析 主题分析方法一般有两种:
一种是先找出文献论述的对象,再进一步查明是论述 了对象哪个方面的具体问题,可以按照事先设计好的主题 结构模式提炼相关主题要素,分析主题要素之间的关系。
另一种是先找出文献所涉及的各种概念,并查明它们 之间的相互关系。文献中包含哪个因素就分析哪个因素, 有的因素不只一个就要全部分析出来,以便筛选和进行匹 配,然后,再将各个因素按照主题结构模式进行分析。