第2讲 信息资源管理技术-组织技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
网址:http://www.nii.ac.jp/dc2001/
第十次会议(意大利· 弗罗伦萨)
e-Government Search engines and metadata Educational metadata: improving communication Knowledge management Use of DC metadata for commerce and intranets Semantic web: roles of standard cataloguing, indexing, metadata and ontologies Metadata interoperability: tools and protocols Cultural heritage metadata
标记语言
显示能力强、描述信息能力差,不能表达语义。
DC元数据由来
DC,Dublin Core 94年第二次WWW国际会议讨论引出 DC 源于1995年3月由OCLC与NCSA发起的第一届元数 据研讨会在美国俄亥俄州的都柏林镇召开,由会议讨 论通过的元数据标准集,称为“都柏林核心元素集” ( Dublin Core Element Set) 最新版本为version 1.1,1999年7月2日发布执行 http://dublincore.org/
第三次会议(美国· 华盛顿)
对网络图像资源的描述问题进行了探讨,促进了 描述、发现和组织网络图像的标准和协议的发展。 增 加 了 两 个 DC 元 素 , Description ( 说 明 ) 、 Rights(权限) 网站:http://dublincore.org/workshops/dc3/
字段指示符
指明该字段数据特征的符号,2位
分隔符
字段分隔符、记录分隔符
MARC头标区
记 录 长 度 记 录 状 态 记 录 类 型 目 空 字 子 数 录 白 段 字 据 级 指 段 起 别 示 标 始 符 识 地 长 符 址 度 长 度
1 2 1 1 5
记 空 目 目 待 录 白 录 录 用 级 区 中 别 字 字 段 段 长 起 度 始 长 度
1 2 1 1 2
5
1
1
目次区格式
每个数据字段将在目次区中增加一个目次 目次区总长度: 12*N+1(其中N为字段个数) 目次区格式:
字段标识符(3) 字段长度(4) 字段数据起始位置(5)
数据区
固定长数据区 (001记录标识,008固定长数据单元) 可变长数据区
数据区标识符分类
DC元数据的发展简史
已召开了十七次会议,前8次每次会议都可视为是DC发展的里程 碑。以后的会议主要为应用会议。下次会议将于2010年10月20-22日 在美国匹兹堡召开。
1995.3 美国都柏林 2002.10 意大利弗罗伦萨
1996.4
1996.9 1997.3 1997.10 1998.11
英国沃维克
美国华盛顿 澳大利亚堪培拉 芬兰赫尔辛基 美国华盛顿 德国法兰克福 加拿大渥太华 日本东京
2003.9
2004.10 2005.9 2006.10 2007.8
美国华盛顿
中国上海 西班牙马德里 墨西哥曼萨尼约 新加坡 德国柏林 韩国首尔 美国匹兹堡
1999.10 2000.10 2001.10
2008.9 2009.10 2010.10
第一次会议(美国· 都柏林)
定义了能被全球接受的最低元数据集(13个元素集)
Subject、Title、Author、Publisher、 Date、 OtherAgent、 ObjectType、Form、Identifier、Relation、Source、Language、 Coverage。
0-1-2-3-4-5-6-7-8--
标识块 编码信息块 著录信息块 注释块 款目连接块 相关题名块 主题分析块 责任者说明块 国际使用块
MARC数据的制作与读取
制作过程
头标区主要填入数据区起始位置和记录长度;每一个字段在目次区 中占有一条记录:3 位字段标识,4 位数据长度,5 位起始地址;数据 区主要完成书目数据的填入,注意字段指示符和子字段标识符的数值 和位置;数据处理完以后,根据字段数量加上头标区的长度计算出数 据区起始位置,再根据数据区的长度和起始位置,计算出记录总长度, 然后分别将这两个数据填入头标区;最后拼接记录写入数据库。
第四次会议(澳大利亚· 堪培拉)
产生了两大学派:最小主义学派、语言结构学派。 最小主义派:要求元数据描述简单,用附加的修饰 来指定、修正并详细说明; 语言结构派:利用元素正式扩张和限定方法来满足 特定的需要,使元数据变得更加有效。 网站:http://www.dstc.edu.au/DC4
第七次会议(德国· 法兰克福)
讨论了DC修饰词的种类,DC在代理(Agent)、引用 (Citation)、权限管理(Rights)和题名(Title) 的修饰问题,并对DC进行网络资源揭示进行了介绍。形 成了DC修饰词工作草案,规定DC元素的5个属性:
★ ★ ★ ★ ★ 名称是赋予修饰词的标签 标识符是赋予修饰词的唯一标识 修饰词类型是修饰词的种类 定义是对修饰词概念和性质的表述 注释是关于修饰词应用的说明
我国MARC研究
我国大陆自20世纪80年代末90年代初开始了将 USMARC向CNMARC转换的工作,1993年3月文化 部下达了《中国机读目录格式》的研究任务,专家 学者们在UNIMARC的基础上,研制了适合中国文 献信息表达的中国机读目录(CNMARC),并于1995 年正式出版了《中国机读目录格式使用手册》, 2001年、2004年分别又出版了修订版和新版。
http://dc2003.ischool.washington.edu/
读取程序
主要编制字段与子字段读取与检索函数,在检索、编目和显示过 程中调用。
阅读材料
中国机读目录格式使用手册
二
元数据
元数据的概念
定义
关于数据的数据,或称关于数据的结构化数据
理解
能够清楚描述数据的标准格式化数据。例如:图 书卡片、图书版权说明、MARC、各类文献标准著录 条例等
元数据的提出
国际标准磁带格式ISO 2709
ISO2709格式分三个区
头标区
说明记录基本特征,固定长 24字节。
目次区
数据的目录区,数据的索引,固定可变长。
数据区
存放具体文献的著录数据的区域,可变长。
2079格式中的概念或标记符号
字段标识符
标识字段的符号,三位十进制wenku.baidu.com组成
子字段标识符
标识字段的符号,用于区分子字段,2位
会议围绕简单描述讨论,达成共识,产生了可作为统 一各种网络资源描述模型的基础,即,DC 网站: http://dublincore.org/workshops/dc1/
第二次会议(英国· 沃维克)
提出了“Warwick框架”的元数据结构概念。这个框 架与Meta Content(MCF)框架构成了资源描述框架 (RDF)的基础。 提出了一个容器结构(Container)来包含不含在DC 中的其他元数据。 Warwick是一种用于不同元数据包的集成和互换结构, 为集成和评价元数据集提供了更大的可能性,易于实 现现有和未来的数据描述模型。 网站:http://dublincore.org/workshops/dc2/
网站:http://www.bncf.net/dc2002/
第十一次会议(美国· 华盛顿 )
Metadata Research & Applications
Conceptual models and fundamental principles Globalization and localization Community or domain metadata (statistical, government, geospatial, etc.) Enterprise metadata Metadata registries and registry services Interoperability among metadata systems and standards Search engines and metadata Implementation of systems and tools for metadata applications
第二讲 信息组织技术
苏新宁
一 机读目录(MARC) 及其制作
什么叫机读目录
机读目录(MARC)即机器可读目录的简称,来 自英文Machine-Readable Cataloging,利用计算 机识读和处理的目录。它是文献编目内容(数据) 经过计算机处理,以代码形式记载在一定载体上 而形成的一种目录。机读目录是描述文献著录项 目的国际标准格式,是实现计算机处理书目信息 及资源共享的基础。
第九次会议(日本· 东京)
第一届应用会议
International Conference on Dublin Core and Metadata Applications 2001 • Conceptual models for metadata Implementation of systems and tools for metadata applications Surveys and case studies of metadata applications Novel activities based on metadata Interoperability among metadata systems Relationships among various metadata standards
主要源于网络的发展和对网络资源的描述与数据 管理
其他数据描述方式的局限
MARC和AACR(英美编目条例)
复杂、只适合于图书馆、需要专门软件、不易处理多媒 体信息、不太适应互联网环境、需要经过专业培训(虽然增 加了256,516,538,856等字段)
图书卡片、图书版权说明
不方便计算机处理,只适合图书,信息量少,需要对格 式理解。
http://dublincore.org/archives/1999/dc7/index.htm
第八次会议(加拿大· 渥太华)
本次会议的目标是巩固各类DC研究集体的成果,分 享各自的经验与成果,提升DC在不同元数据系统中的交 互与协调性。 会议推出了DC修饰词标准,到本次会议为止,DC的 整个结构基本成型。 网站:http://www.ifla.org/udt/dc8/index.htm
MARC的历史
1961年美国国会图书馆开始图书馆自动化的设想 1965年1月《标准机器可读目录款式的建议》(MARC-I) 1966年开始了MARC计划 1967年11月推出LC MARC-II格式 英国、法国、德国、加拿大等国都利用MARC编制了本国的 国家书目文献库。 国际图联于1977年发表了UNIMARC格式 1973年ISO/TC46/SC4推出《文献目录信息交换用磁带格式》 (ISO 2709 -1973) 1981年公布了第二版
第五次会议(芬兰· 赫尔辛基)
主要针对日期、覆盖范围和关联进行了讨论和研究, 最后达成共识 日期:与资源创建、发表、有效、获取等有关日期 覆盖范围:资源地理、空间坐标、时间、时期体系等 关联元素:每个元数据描述所包含的元素必须仅与一 个单独的资源关联,即一对一原则。 网站:http://www.lib.helsinki.fi/meta/DC5.html
第六次会议(美国· 华盛顿)
本次没有在会议上解决具体元数据问题,主要是为了 促进DC的发展,制定工作计划和方针。内容主要包括: DC的标准化;DC与其他元数据研究项目的合作;与 其他资源描述方案的互操作性;DC在HTML中的编码 问题;RDF的应用问题。
网站:http://dublincore.org/workshops/dc6/