元数据的功能及在人文学科的应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据服 务器
比较版本
元数据 数据库
数 据 服 务 器
利于数据维护、 利于数据维护、转换和扩展
• 在信息库运行过程中,总会出现这样那 在信息库运行过程中, 样的问题,这就要求精心管理维护信息, 样的问题,这就要求精心管理维护信息, 这是信息库正常运行的一项重要工作, 这是信息库正常运行的一项重要工作, 元数据则成为这项工作必须要件。 元数据则成为这项工作必须要件。可以 没有元数据, 说,没有元数据,特别是在信息库建设 人员(或管理人员)发生变动之后, 人员(或管理人员)发生变动之后,要 想顺利维持信息库的正常运行是极为困 难的。在这方面,已经有很多前车之鉴。 难的。在这方面,已经有很多前车之鉴。
Dublic Core (DC) )
• 由来:在1995年联合召开了第一次都柏林(都柏林为美 由来: 1995年联合召开了第一次都柏林( 年联合召开了第一次都柏林 国俄亥俄州的一个城市)核心集会议。来自图书馆、 国俄亥俄州的一个城市)核心集会议。来自图书馆、 计算机及有关领域的专家达成一致意见, 计算机及有关领域的专家达成一致意见,创建了只包 含能够描述电子文献基本特征的Dublin 含能够描述电子文献基本特征的Dublin Core • 从1995年开始,专家小组共召开了13次会议,讨论与 1995年开始,专家小组共召开了13次会议, 年开始 13次会议 核心集相关的各种问题。2004年10月11-14日 核心集相关的各种问题。2004年10月11-14日,我国 上海图书馆主办了第12次会议。最近一次会议于2005 12次会议 上海图书馆主办了第12次会议。最近一次会议于2005 15日在西班牙首都马德里召开 来自33 日在西班牙首都马德里召开, 33个国 年9月12 -15日在西班牙首都马德里召开,来自33个国 家和地区共计214名专家学者出席了会议。 214名专家学者出席了会议 家和地区共计214名专家学者出席了会议。
• 按照统一的标准建设资料库,合理有 按照统一的标准建设资料库, 序地组织信息。 序地组织信息。
• 确立元数据标准在大型的、多学科、 确立元数据标准在大型的、多学科、 多单位合作的项目中尤为重要。 多单位合作的项目中尤为重要。既 使简单的、信息内容较少、 使简单的、信息内容较少、参加人 员不多的信息库, 员不多的信息库,在建设之初也要 先确定元数据标准。 先确定元数据标准。
• 都柏林核心集目前已经扩展成一个 世界性元数据标准, 世界性元数据标准,有五个国家 澳大利亚、芬兰、丹麦、英国、 (澳大利亚、芬兰、丹麦、英国、 美国)把它确定为国家标准, 美国)把它确定为国家标准,各类 推荐方案被翻译成33种语言。 33种语言 推荐方案被翻译成33种语言。
当前对都柏林数据集的看法
元数据的功能及在 人文学科的应用
历史研究所 刘洪波
一、元数据的过去及现状
1. 定义 2. 格式 3. MARC 4. Dublic Core 5. 一些人的看法
元数据的定义
• 我们所说的“元数据”,英文作 我们所说的“元数据” Metadata。目前在国内有多种译法, Metadata。目前在国内有多种译法, 大陆一般译作“元数据” 大陆一般译作“元数据”。香港和 台湾则译法较多, 台湾则译法较多,台湾有人译作 预设资料” 诠释资料” “预设资料” 、“诠释资料”、 元资料” 也有人译作“ “元资料”,也有人译作“后设资 料”。
• 关于这一名称,西方学者大多定义为: 关于这一名称,西方学者大多定义为: Data about Data,即关于数据的数据。 ,即关于数据的数据。 它是用于描述信息资源的高度结构化 数据。 数据。 • 数据是手提箱,而元数据是它上面的 数据是手提箱, 姓名标牌;数据是文件夹, 姓名标牌;数据是文件夹,而元数据 是夹子的标签;数据是书的内容, 是夹子的标签;数据是书的内容,元 数据是书脊上的杜威十进制数码。 数据是书脊上的杜威十进制数码。
MARC及Dublic(DC) MARC及Dublic(DC)
• MARC于1965年由美国会图书馆一个研究小组制 MARC于1965年由美国会图书馆一个研究小组制 定,后来不断完善,成为图书馆数字化检索的 后来不断完善, 重要格式。1991年 我国有关部门在UNIMARC 重要格式。1991年,我国有关部门在UNIMARC 基础上加上我们所需的特定字段,编制了《 基础上加上我们所需的特定字段,编制了《中 国机读目录通讯格式》(CNMARC), 国机读目录通讯格式》(CNMARC),此后多次修 订 • Dublic Core 最初于1995年制定,从时间上看 最初于1995年制定, 1995年制定 要比MARC晚,在技术上要先进 要比MARC晚 MARC
在自然科学方面的应用
• 自然科学研究方面的应用 国家基础地理 自然科学研究方面的应用(国家基础地理 信息系统( 信息系统(NFGIS),中国动物物种编目 ) 中国动物物种编目 生态共享系统等) 数据库 ,生态共享系统等 生态共享系统等 • 医学上的应用(中国肿瘤数据库 ) 医学上的应用(中国肿瘤数据库 • 农林业方面的应用 农业科学数据中心 中 农林业方面的应用(农业科学数据中心 农业科学数据中心,中 国林业科学资源共享) 国林业科学资源共享 • 地质采矿 中国矿产资源数据库 中国火成 地质采矿(中国矿产资源数据库 中国矿产资源数据库,中国火成 岩数据库 ) • 气象 静止气象卫星红外云导风元数据 气象(静止气象卫星红外云导风元数据 静止气象卫星红外云导风元数据)
可以帮助使用者快速、准确、 可以帮助使用者快速、准确、全 面地查询所需要的信息
• 信息库建设的最终目的是为使用者服务, 信息库建设的最终目的是为使用者服务, 信息库从设计到维护都要方便使用者, 信息库从设计到维护都要方便使用者, 以快速、准确、 以快速、准确、全面地为使用者提供所 需信息为目标。为了实现这一目标,在 需信息为目标。为了实现这一目标, 元数据的设计过程中,就要全面、合理、 元数据的设计过程中,就要全面、合理、 细致地考虑所有因素, 细致地考虑所有因素,在各种因素之间 比较、平衡,从中选出最可行、最简捷、 比较、平衡,从中选出最可行、最简捷、 最有利于使用者的方案。 最有利于使用者的方案。使用者可以通 信息库提供的元数据,快速、准确、 信息库提供的元数据,快速、准确、全 面地查找所需要的信息。 面地查找所需要的信息。
• “内在性(intrinsicality)原则”。指 内在性(intrinsicality)原则” 内在性(intrinsicality)原则 DC 元数据以揭示描述对象自身的内容 属性为主,外部属性为辅。 属性为主,外部属性为辅。 • “可扩展性原则”。希望DC 成为一个 可扩展性原则” 希望DC 核心” “核心”元素集合而可以通过各种方 式扩展为适应各领域资源描述需要的 元数据方案。 元数据方案。
单位一
单位二
元数据
单位三
资 料 库
单位四
可以通过对相同的元数据元素进行 比较,来获取最新的资料版本。 比较,来获取最新的资料版本。
• 在元数据元素中,通常都有各信息 在元数据元素中, 库的版本资料, 库的版本资料,通过对相同元数据 元素进行比较, 元素进行比较,可以在访问不同数 据源时,决定获取哪一版本的资料。 据源时,决定获取哪一版本的资料。
图像信息
书名信息 作者信息
图书管理信息
建库人员 来源及类别 所用平台 信息组织方式 管理维护人员 检索方法 反馈信息 后续信息
资 料 库
元数据的格式
• 网络资源:Dublin Core、CDF、Web 网络资源: Core、CDF、 Collections • 文献资料:MARC,Dublic Core 文献资料:MARC, • 人文科学:TEI Header 人文科学: • 社会科学数据集:ICPSR SGML Codebook 社会科学数据集: • 博物馆与艺术作品:CIMI、CDWA、RLG 博物馆与艺术作品:CIMI、CDWA、 • 政府信息:GILS 政府信息:
• 由于Google等检索工具出现,一些人甚 由于Google等检索工具出现, Google等检索工具出现 至断言,元数据特别是DC DC, 至断言,元数据特别是DC,在还没有成 为通用标准以前,已经寿终正寝了。 为通用标准以前,已经寿终正寝了。 • Google等通用检索工具,查全查准两方 Google等通用检索工具 等通用检索工具, 面都还有很多问题。 面都还有很多问题。
• “句法独立(syntax independence) 句法独立(syntax 句法独立 原则” 原则”。指DC 元数据的元素可以以 多种方式编码, 多种方式编码,应用于各类技术平 台中。 只规定元素的基本语义。 台中。DC 只规定元素的基本语义。 • “可选择性”。指DC 元素集合中的 可选择性” 任何元素都是可选的。 任何元素都是可选的。
使用者
数据 服务 器
元数 据服 务器
使用者
数据 服务 器
二、元数据的功能及我国元数 据应用状况
1.元数据的功能 1.元数据的功能 2.元数据在我国的应用 2.元数据在我国的应用
1.元数据的功能 1.元数据的功能
• 在某些方面,例如元数据有利于管 在某些方面, 理信息和检索信息, 理信息和检索信息,取得了大体一 致的意见, 致的意见,但对元数据功能的认识 还是有差异的, 还是有差异的,这种认识上的差异 则导致元数据设计时产生不同的结 果。 • 大多数人仍未认识到元数据在信息 库建设中的重要作用
• 而在这两个方面,使用元数据的专用信息 而在这两个方面, 库则会充分发挥自己的优势。 库则会充分发挥自己的优势。 • 在今后的一段时间内,元数据不会因为信 在今后的一段时间内, 息技术的进步而失去其存在的价值。 息技术的进步而失去其存在的价值。这是 我们断续研究和使用元数据的最主要的动 力。
数据 服务 器
Core的原则 Dublic Core的原则
• 简单性原则”。定义一个能得到最广泛 简单性原则” 应用、 应用、被全球所理解和接受的最小元素 集,并能作为特殊用户详细描述需求的一 并能作为特殊用户详细描述需求的一 个核心集。 个核心集。 • “易用性原则”。能方便作者和信息提 易用性原则” 供者描述自己的文档, 供者描述自己的文档,而不给他们增加 太多的负担, 太多的负担,并能方便地实现资源发现 工具之间的互操作性。 工具之间的互操作性。
源自文库
交互性是元数据的一项重要功能 • 一方面是信息库建设者和信息获 取者之间的交流 • 另一方面则是各种信息源之间的 交互性
信息库与使用者信息交换示意
数据请求
数据 信息库
提供数据
元数据信息库
信息源之间的交互性示意
数据源1
数据源2
信息交换平台 元数据信息库
数据源3
2. 当前我国元数据应用状况 • 在数字图书馆方面的应用 • 在自然科学方面的应用 • 在政务办公方面的应用 • 社会科学方面的应用
在数字图书馆方面的应用
• 1991年,我国有关部门在UNIMARC基础上加上我们 1991年 我国有关部门在UNIMARC基础上加上我们 UNIMARC 所需的特定字段,编制了《中国机读目录通讯格式》 所需的特定字段,编制了《中国机读目录通讯格式》 (CNMARC), (CNMARC),此后多次修订 • 1997 年启动的我国大陆第一个 “中国国家试验型 数字图书馆”项目对DC 数字图书馆”项目对DC 元数据进行了跟踪和引进 • 《中国数字图书馆标准规范建设网》简称CDLS,网 中国数字图书馆标准规范建设网》简称CDLS, CDLS 址为: 址为:http://cdls.nstl.gov.cn/cdls2/w3c
• “可重复性”。指DC 元素集合中的任 可重复性” 可重复性 何元素都是可重复的。 何元素都是可重复的。 • “可修改性”。指在具体应用中可以 可修改性” 对DC 元素集中的任何元素进行进一步 修饰” 限定” “修饰”或“限定”,但不能扩大或 改变元素的基本语义。 改变元素的基本语义。
• 元素:标题、作者、主题、出版者、描 元素:标题、作者、主题、出版者、 其他参与者、日期、类型、格式、 述、其他参与者、日期、类型、格式、 标识、关系、资料来源、语言、 标识、关系、资料来源、语言、内容 范围、版权15 15个元素组成 范围、版权15个元素组成
相关文档
最新文档