数字资源的描述组织

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
属性也可以按子元素表示: <girl> < name>小周</name> < height>168</ height> < weight>52</ weight> < idnumber>811056197601121658< idnumber/> </girl>
4.CDATA区和预定义实体
• 格式”<![CDATA [……] ]>”叫做CDATA 。CDATA区中 的内容不会被XML 处理器解释,CDATA段可以出现在字 符数据可以出现的任何地方,他们用于转义包含,会 被识别为标记的字符串的文本块。CDATA段以字符串 “[CDATA [”开始,以字符串 “] ]>”结束
(1)合格的XML文件示例
[1]<?xmlversion=“1.0”encoding=”GB2312“standalone=”no“?>
[2]<?xml—stylesheet type=“text/xsl”href=”mystyle.xsl”?>
[3]<专有名词列表>
[41 <专有名词>
[5]
<名词>XML</名词>
</联系人列表>
(5)参数实体引用
<?xml version=“1.0”encoding=”GB2312”standalone=“no”?> <!DOCTYPE信件[ <!ENTITY lettersign “张三 某网络公司销售部门 北京市海淀区中关村88号,100000”</正文>> ]>
<信件> <收件人>李四</收件人> <主题>hello</主题> <正文>hello!%1ettersign; </信件> 同样,参数实体的引用与通用实体的引用大同小异,只是要把实体换 为%就可以了,形式是:
中文核心元数据元素(续)
• 关联信息对象(相关联的资源)
– 关联资源(Related Objects) – 版权说明(Copyrights) – 数字资源制作者( Digital Publisher Name) – 数字资源制作日期( Digital Publisher Date) – 数字资源制作地(Digital Publisher Place) – 权限声明(Rights) – 公开对象(Actor) – 操作许可(Actions)
核心元素:各类对象通用,与DC保持 一致,易于交换。 本地核心元素:本馆各类对象通用, 馆内保持一致。 个别元素:某一类对象使用,不用于 交换。
元数据的发展沿革
元数据的简单实例
常见的元数据集
Dublin Core 的15个元素
元数据的表示方法
HTML表示
XML表示
RDF表示
使用元数据的原因
数字图书馆信息组织
数字资源的描述组织
本节内容
一、元数据概述 二、XML介绍 三、中文元数据方案及其应用
一、元数据概述
• 元数据定义
–关于信息的信息(data about data); –描述资源特性的结构化信息; –“元 meta”; – 狭义元数据:描述信息对象内容; – 广义元数据:揭示信息系统各层次的内容。
(4)通用实体引用
<?xml version=“1.0”encoding =”GB2312“standalone=“no”?>
<!DOCTYPE联系人列表[ <!ENTITYA公司地址“北京市五街1234号’> <!ENTITYB公司地址”上海南京路9876号“>]>
<联系人列表> <联系人> <姓名>张三</姓名> <公司>A公司</公司> <地址>&A公司地址;</地址> </联系人> <联系人> <姓名>李四</姓名> <公司>B公司</公司> <地址>&B公司地址;</地址> </联系人> <联系人> <姓名>王五</姓名> <公司>B公司</公司> <地址>&B公司地址;</地址> </联系人>
• 适用不同层次对元数据的制作要求 • 尽可能地考虑与其他元数据方案的可交换性
中文元数据与其他元数据的关系
参考的元数据集
• LC--Library of Congress • NLA--National Library of Australia • Cedars--Curl Exemplars in Digital Archives • NEDLIB--Networked European Deposit
5.实体的声明和引用
• 实体就是文件片段,一个实体可以是整个文件或是整本 书,也可以是一个字符或是一个单词。如定义一个实体 名为“主页”实体,其内容为: http://www.Microsoft.com 那么在写文档时,便可以用 “主页”来代表: “http://www.microsoft.com”
Library
中文核心元数据元素
• 资源描述(资源外部特征描述)
– 题名(Title) – 主题(Subject) – 版本(Edition) – 内容摘要(Abstract) – 内容类型(Content Type) – 语种(Language) – 内容适用范围(Coverage) – 内容创建者(Creator) – 其他责任者(Contributor) – 内容创建日期(Date of Creation) – 出版(Publisher) – 版权所有者(Copyright Holder) – 资源标识符(Identifier)
• 实体分为一般实体和参数实体。实体参数只能表现在 DTD中,一般实体出现在一根元素开始的主XML文档中。 可以给每个实体取一个名字,然后在别处进行引用,这 和在别的编程语言中的别名用法类似。处理器进行处理 时,会用实体本身代替实体的名字
6.一个格式正确的XML文档要求
• 每个元素必须有起始和结束标注 • 必须有一个,而且只有一个称为根元素或文件元素的
1.XML文档的头部
<?xml version=”1.0”? encoding=”gb2312” standalone= ”yes”?>
<?-----?>,它称为处理指令(Procession Instruction, 简称PI),PI不是文件字符数据的一部分,但必须传递给 应用。PI以“<?”开始,以“?>”结尾,PI目标是指该指令
元数据标准体系
一次文献
元数据
元数据
元数据
信息内容
元数据
作品与对象
元数据 元数据
作品与对象集合 作品/对象及其集合的管理和服务机制
信息服务过程和服务系统模式
描述上述信息内容的规则、方法和机制
二次文献 (描述元数据)
三次文献
与系统相关的 元数据
--引自张晓林《元数据研究与应用》
元数据标准体系
个别元素 本地核心元素 核心元素
• 发现 • 管理 • 安全 • 个人信息 • 保存 • 内容评级 • 版权管理
二、XML介绍
• W3C于1998年2月10日给出了正式推荐标准-- XML1.0。2000年10月W3C公布了XML1.0第二版
• XML(Extensible Markup Language)--可扩 展标记语言)是一种可扩展的源标记语言,是 可以定义其他语言的语言 ,它是一组相关的 技术,包括XSL(可扩展样式语言)、XML链接 语言、XML空间名称等
是标记,“XML”是字符数据
(3)XML整体逻辑结构总结
• 通过XML元素来组织XML数据 • XML元素包括标记和字符数据 • 为组织数据更方便、清晰,在字符数据中引入CDATA数
据块 • 在文档中引入注释 • 需要给XML处理程序提供一些指示信息,XML文档中可
以包含处理指令 • XML文档通常以一个XML声明开始
– standalone="yes", XML声明还可以有standalone特性。这 告诉我们,文档是否在这一个文件里还是需要从外部导入 文件。如果XML文档在一个文件里完成,那么standalone 特性的值就设置为"yes"。
2. 标记和元素
• 元素:是文档的主要逻辑部件,由开始标记和结束标 记界定,格式为: <元素名称 属性名1=“属性值1” 属性名2=“属性值 2”>元素的内容 </元素名称>
元素,并且它不出现在其他任何元素的内容中;它包 含一个或多个元素 • 正确的定义和表示空元素 • 开始标记和结束标志可以使用大写或小写,但它们必 须匹配 • 以起始标签和结束标签为界的各个元素必须正确地嵌 套,不允许出现交叉 • 属性值必须使用引号括起来 • 此文件中直接或间接引用的每一个已析实体都是格式 正确的 • 它满足XML规范中定义的所有其他的格式正确性约束
t14]
]]>
[15]
</示例>
[16] </专有名词>
[17]</专有名词列表>
(2)一个XMl文档最基本的构成
一个XMl文档最基本的构成是: ●XMl声明 ●处理指令(可选) ●XML元素
上例中出现的逻辑要素有: ●[1]是XML声明 ●[2]是处理指令 ●[3]-[17]是文档中的各个元素 ●[8]是注释 ●[9]-[14]是CDATA节 ●在[5]行的“<名词>XML</名词>”中,“<名词>”“</名词>”
为 之准备的应用程序,本例中是指令目标就是名为XML的应用 程序,这是一种传送给XML处理器的信息类型。
• <?xml version="1.0"? encoding="gb2312"standalone="yes"?>
– "version ="1.0"",表示该XML文档遵循XML1.0规范。
– encoding="gb2312",如果没有这一声明,那么使用的字码 必须是UNICODE,以UTF-8或UTF-16作为编码方式,如 果文件中使用了中文,就必须进行编码声明。
%实体名;
可用的XML
• 使用DTD或Schema定义过的特定置标与 规则
• 可以应用软件检索XML文档是否严格遵 守相应的DTD或Schema定义
DTD的样子
XML的用途
• 方便信息交换对用户不可见的格式标准 • 为机器读取信息用的书写格式标准 • 也可以由人直接读取并理解信息
XML的重要性
[6]
<解释>XMI。是一种可扩展的元置标语言,它可用以规定新的置标规则,
并根据这个规则组织数据</解释>
[7]
Biblioteka Baidu
<示例>
[8]
<!—一个XML的例子—>
[9]
<![CDATA[
[10]
<联系人>
[11]
<姓名>张三</姓名>
[12]
<EMAIL>zhang@aaa.com</EMAIL>
[13]
</联系人>
• 空元素 空元素常常具有属性,表示为:< 元素名称 属性
名1=“属性值1” 属性名2=“属性值2”……../>。 • 根元素
元素分为父元素和子元素。处于最顶端的父元素 叫做根元素或文档元素,一个XML文档必须有一个并 且只能有一个根元素,这个根元素包括其他所有元素。
3.元素属性
• 元素除了有内容外,还可以具有属性,属性由属性名称 和属性值组成。属性的表达放在元素的开始标记内。描 述一个带有几个属性的元素例: <girl name=“小周”height=”168” weight=”52” idnumber=”811056197601121658” />
• 使结构松散的非结构化信息扩展为易于 利用的结构化信息
• 由于XML容易解析,软件可以对XML文档 进行各种转换
–便于数据的抽取、迁移; –灵活多样的表现形式; –提供实时个性化显示。
三、中文元数据方案及其应用
• 中文元数据是中文数字化文献的描述、管理、 保存、利用的标准,它不仅能应用于数字图书 馆领域,而且能够并应该应用于各领域的数字 资源,如电子政府、城建档案、军事资料等, 从而实现异构资源间的互操作,以便在更广的 范围内实现数字资源的共建共享
XML文档概述
• XML文档可分两部分:
–序言(Prolog):XML的序言部分描述了XML文档版
号、编码方式和其他的一些信息 ,如DTD (Document Type Definition)和 XSL(Extensible Stylesheet Language)引 用。
–文档实例部分(Document instance)
中文元数据方案说明
• 参考目前世界上主流的相关标准和较为成熟的技术, 结合中文数字资源保存和检索利用的要求
• 总体框架结构上采用了OAIS模型。Open Archival Information System(简称为OAIS)是NASA和Consultative Committee for Space Data Systems(简称CCSDS)联合制 定的标准,旨在对资源的长期保存规定概念和框架
相关文档
最新文档