信息组织元数据
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• “句法独立(syntax independence) 原则”。指DC 元数据的元素可以以 多种方式编码,应用于各类技术平 台中。DC 只规定元素的基本语义。 • “可选择性”。指DC 元素集合中的 任何元素都是可选的。
• “可重复性”。指DC 元素集合中的任 何元素都是可重复的。 • “可修改性”。指在具体应用中可以 对DC 元素集中的任何元素进行进一步 “修饰”或“限定”,但不能扩大或 改变元素的基本语义。
机读目录的发展简史
• 美国。LC在世界图书馆界率先开展了 计算机在图书馆编目技术上的应用研 究。1964年LC提出了著名的“马尔克 计划”,即以机器可读形式记录图书 馆的书目记录,从而开创了文献资源 信息描述的新阶段。
美国 LC运用集中编目的思想,一开始就把机 读目录的研制方向确定为向全国发行 机读目录磁带,便于共享。 1966年2月开始实施MARC试验计划,11月 完成MARCⅠ机读目录格式并生产出试 验性磁带,称为“MARCⅠ”磁带。
• 元素:标题、作者、主题、出版者、描 述、其他参与者、日期、类型、格式、 标识、关系、资料来源、语言、内容 范围、版权15个元素组成
• 都柏林核心集目前已经扩展成一个世 界性元数据标准,有五个国家(澳大 利亚、芬兰、丹麦、英国、美国)把 它确定为国家标准,各类推荐方案被 翻译成33种语言。
当前对都柏林数据集的看法
国际标准化组织
• 1969年,MARC Ⅱ作为美国/英国国 家标准局推荐格式,呈交ISO。1973年 ISO将其作为国际标准颁布,即 ISO2709(文献目录信息交换用磁带记 录格式),它为世界机读目录格式结 构大体上的统一铺平了道路。
Dublic Core (DC)
• 由来:在1995年联合召开了第一次都柏林(都柏林为美国 俄亥俄州的一个城市)核心集会议。来自图书馆、计算机 及有关领域的专家达成一致意见,创建了只包含能够描述 电子文献基本特征的Dublin Core • 从1995年开始,专家小组共召开了13次会议,讨论与核心 集相关的各种问题。2004年10月11-14日,我国上海图书 馆主办了第12次会议。最近一次会议于2005年9月12 -15 日在西班牙首都马德里召开,来自33个国家和地区共计 214名专家学者出席了会议。
美国
1967年对MARCⅠ进行改进,开始转入 MARCⅡ的设计和研究,并邀请了英国 国家书目部的专家参加。1968年 MARCⅡ研制成功,它是目前使用的各 种机读目录的母体。1969年LC的机读 目录发行服务部开始向图书馆界发行 MARCⅡ磁带,称之为LCMARC,得到广 泛应用和推广。
美国
1971年,美国国家标准局将LCMARC格式 定为国家标准;1982年LCMARC改称为 USMARC;1998年6月至2000年7月经修 订后,正式更名为MARC21。
三、按描述的资源类型分 采用简单的记录格式 结构化的格式 复杂格式
元数据的结构
• 内容结构 • 句法结构 • 语义结构
都柏林核心元数据
• • • • • 一、DC概述 二、DC定义 DC核心元素集参考描述如表: 资源名 创建者
பைடு நூலகம்
MARC及Dublic(DC)
• MARC于1965年由美国会图书馆一个研究小组制 定,后来不断完善,成为图书馆数字化检索的 重要格式。1991年,我国有关部门在UNIMARC 基础上加上我们所需的特定字段,编制了《中 国机读目录通讯格式》(CNMARC),此后多次修 订 • Dublic Core 最初于1995年制定,从时间上看 要比MARC晚,在技术上要先进
数据 服务 器
使用者
数据 服务 器
元数 据服 务器
使用者
数据 服务 器
• • • •
DC分为两类:基本DC和限定DC 语种描述 模式体系 属性类型
机读目录(Machine Readable Catalogue,MARC)是一种以代码形式 特定结构记录在存储载体上,可由特 种机器及计算机阅读、控制、处理和 编辑输出的目录格式。
• 由于Google等检索工具出现,一些人甚至 断言,元数据特别是DC,在还没有成为通 用标准以前,已经寿终正寝了。 • Google等通用检索工具,查全查准两方面 都还有很多问题。
• 而在这两个方面,使用元数据的专用信息 库则会充分发挥自己的优势。 • 在今后的一段时间内,元数据不会因为信 息技术的进步而失去其存在的价值。这是 我们断续研究和使用元数据的最主要的动 力。
图像信息
书名信息 作者信息
图书管理信息
建库人员 来源及类别 所用平台 信息组织方式 管理维护人员 检索方法 反馈信息
资 料 库
后续信息
第二节 元数据的分类
一、按功能分 管理性 描述性 技术性 保存性 使用性
第二节 元数据的分类
二、按复杂程度分 采用简单的记录格式 结构化的格式 复杂格式
第二节 元数据的分类
Dublic Core的原则
• 简单性原则”。定义一个能得到最广泛 应用、被全球所理解和接受的最小元素 集,并能作为特殊用户详细描述需求的一 个核心集。 • “易用性原则”。能方便作者和信息提 供者描述自己的文档,而不给他们增加 太多的负担,并能方便地实现资源发现 工具之间的互操作性。
• “内在性(intrinsicality)原则”。指 DC 元数据以揭示描述对象自身的内容 属性为主,外部属性为辅。 • “可扩展性原则”。希望DC 成为一个 “核心”元素集合而可以通过各种方 式扩展为适应各领域资源描述需要的 元数据方案。
元数据的定义
• 我们所说的“元数据”,英文作 Metadata。目前在国内有多种译法, 大陆一般译作“元数据”。香港和台 湾则译法较多,台湾有人译作“预设 资料” 、“诠释资料”、“元资料”, 也有人译作“后设资料”。
• 关于这一名称,西方学者大多定义为: Data about Data,即关于数据的数据。 它是用于描述信息资源的高度结构化 数据。 • 数据是手提箱,而元数据是它上面的 姓名标牌;数据是文件夹,而元数据 是夹子的标签;数据是书的内容,元 数据是书脊上的杜威十进制数码。