信息资源的描述(元数据)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.2 元数据
元数据(Metadata)是描述数据的数据(data 元数据(Metadata)是描述数据的数据(data that describes data)或关于数据的数据(data about data).它 data)或关于数据的数据(data data).它 是促进数据处理和标引数据的数据,也是人们组织 和发现信息资源的数据.
元素 Title Creator Subject
名字 资源名 创建者
标识 Title Creator
定义 赋予资源名称 创建资源内容的主要责 任者 资源内容的主题描述
主题和关键词 Subject
Description 说明 Publisher 出版者
Description 对资源内容的说明 Publisher 使资源成为可以取得和 利用状态的责任者
XML文档结构 XML文档结构
<?xml version="1.0" encoding="UTF-8" encoding="UTFstandalone="yes"?> <mytag> Hi,XML! </mytag>
实例
version XML文档所使用的版本 encoding 指明XML文档编码使用的字符集 standalone 指明XML文档有没有使用外部标记声 明,yes表明是一个独立文档,no表明在其内部使 用了其他文档或资源.
企业
科研成果
三,信息资源描述的元数据
3.1 都柏林核心元数据(DC) 都柏林核心元数据(DC)
Dublin Core(DC)是国际组织Dublin Core Core(DC)是国际组织Dublin Metadata Initiative拟定的用于标识电子资源的一种 Initiative拟定的用于标识电子资源的一种 简要目录模式. DC是由15个Metadata系统,其主要目的是为了 DC是由15个Metadata系统,其主要目的是为了 揭示和组织网络上的信息资源(包括文本及图像等) 揭示和组织网络上的信息资源(包括文本及图像等). DC元数据编辑器 http://www.ukoln.ac.uk/metadata/dcdot/ DC元数据元素集参考描述如下表所示: DC元数据元素集参考描述如下表所示:
1.1 SGML
SGML(standard generalized markup language)标准 language)标准 通用标记语言, 通用标记语言,是所有电子文档标记语言的起源 . SGML认为一个典型的文档由结构,内容和样式 SGML认为一个典型的文档由结构,内容和样式 三部分组成.文献类型定义DTD为组织文档的元素 三部分组成.文献类型定义DTD为组织文档的元素 提供一个框架. SGML的缺点:SGML庞大复杂的选项虽然使其 SGML的缺点:SGML庞大复杂的选项虽然使其 有较高的灵活性,但是导致应用程序开发困难; SGML文件不易在Web上传播,全面实现浏览器非常 SGML文件不易在Web上传播,全面实现浏览器非常 困难;厂商不支持.
本节学习目标
信息资源组织的语言工具
SGML HTML XML
信息资源组织的元数据
DC MARC
信息资源组织的数据库方法
一,信息资源组织的语言工具
信息组织的基本目标是对信息外在特征和内容 信息组织的基本目标是对信息外在特征和内容 特征加以描述,实现信息有序化.需要从内容,结 特征加以描述,实现信息有序化.需要从内容,结 构和显示三方面着手. 构和显示三方面着手. 针对上述三个要求,提出标记语言的方法.其 针对上述三个要求,提出标记语言的方法.其 基本思想是给文献需要加注部分置于不同类型和名 称的标签,这些标签不仅能够标注文献的内容和结 称的标签,这些标签不仅能够标注文献的内容和结 构也能标注其表现形式. 本节介绍三种标记语言:SGML,HTML,XML. 本节介绍三种标记语言:SGML,HTML,XML.
从DC的15项元数据可以看出: DC的15项元数据可以看出: 15个元素大致分为三类: 对资源内容的描述:题名,主题,描述,来源,语 种,关联和覆盖范围; 对外部属性的描述:日期,类型,格式和标识; 对知识产权的描述:创建者,出版者,责任者和权 限管理. 比较全面地概括了电子资源的主要特征 涵盖了资源的重要检索点(1,2,3),辅助检索点 或关联检索点(5,6,10,11,13),有价值的说 明性信息(4,7,8,9,12,14,15). 简介,规范,不仅使用于电子文献目录,也适用 于各类电子化的公务文档目录及产品,商品,藏 品目录等,有很好的使用性.
式改革[J].教育与职业.2008(5):118-120 传统文献信息资源 网络信息资源 国际标准书目著录(ISBD) 国际标准书源自文库著录(ISBD) 《都柏林核心集》(Dublin Core, 都柏林核心集》 Core, 《文献著录总则》(GB 3792.1- DC) 文献著录总则》 3792.183) 《政府信息定位服务》 政府信息定位服务》 (government information locator 《文后参考文献著录规则》 文后参考文献著录规则》 service,GILS) (GB 7714-2005) 7714-
2.3 信息资源描述的规范
信息资源的描述需要根据检索系统的要求,确定 描述的成分和特征,按一定的次序和形式加以记录. 参考文献 为了一致,有效地对信息资源进行描述,便于不 [1]林豪慧,孙丽芳.信息资源检索与利用[M].电子工业出版社. 同机构和信息系统之间信息交换,信息描述需依据一 2008:9 定的描述规范进行操作. [2]王晨.应用型本科,高职院校信息检索课现状调查及教学模
实例
1.3 XML
XML(Extensible Markup Language)即可扩展标记 Language)即可扩展标记 语言,XML是一种简单的数据存储语言,使用一系 语言,XML是一种简单的数据存储语言,使用一系 列简单的标记描述数据,而这些标记可以用方便的 方式建立,极其简单易于掌握和使用. XML与HTML的设计区别是:XML是用来存储 XML与HTML的设计区别是:XML是用来存储 数据的,重在数据本身.而HTML是用来定义数据 数据的,重在数据本身.而HTML是用来定义数据 的,重在数据的显示模式. 的,重在数据的显示模式. XML的特点:灵活性与简洁性 XML的特点:灵活性与简洁性 ;开放性与可扩 展性,实用性和高效性. XML主要应用:多媒体信息处理,科学研究, XML主要应用:多媒体信息处理,科学研究, 电子商务,数字图书馆等.
二,信息资源描述
2.1 信息资源描述
信息资源描述(Information description)是根据信 信息资源描述(Information description)是根据信 息资源组织和检索的需要,依据一定的规则和标准, 对信息资源的主题内容,形式特征,物质形态等进 行分析,选择,记录的活动. 信息资源描述的结果是一条有关该信息资源的 书目数据记录,由若干信息描述项组成.信息记录 书目数据记录,由若干信息描述项组成.信息记录 也称为元数据(Metadata). 也称为元数据(Metadata). 信息资源描述实质上是一个按照一定规则分析 和选择数据的过程.
1.2 HTML
HTML(hyper text markup language)超文本标记语 language)超文本标记语 言,简单易用,提供一种文本结构和格式,使其在 浏览器上呈现给访问的用户,它是Web上的通用语 浏览器上呈现给访问的用户,它是Web上的通用语 言. HTML的主要功能为: HTML的主要功能为: 发布信息:出版联网文档,向全世界发布信息; 获取信息:通过超链接检索和获取信息; 交流信息:设计交易单(form),实现交互,方便及 交流信息:设计交易单(form),实现交互,方便及 时交流信息.
示例:
<HTML> <HEAD> <TITLE>National Digital Library</TITLE> <META name="detscription" content="You can retrieve anything you want to know"> <META name="keywords" content="digital book, database, pictures, file, films"> <META http-equiv="content-type" content="text/html; http-equiv="contentcharset=GB2312" /> <META name= "robots" content="all"> "robots" </HEAD> 实例 </HTML>
图书馆书目卡片 图书题名 著者 出版者 分类号 主题词 ISBN号 流水号 馆藏号等 搜索引擎 资源类型 Web页面标题 作者 主题 关键词 内容摘要等
元数据(Metadata)的主要功能如下: 元数据(Metadata)的主要功能如下:
描述Internet数据内容和本质特征,存储相应的检 描述Internet数据内容和本质特征,存储相应的检 索路径 使Internet数据便于发现,提高信息资源的查全率 Internet数据便于发现,提高信息资源的查全率 和查准率 提供数据之间的关系,指出相关数据的地址和存 取方法 对Internet资源进行分类,有效选择用户所感兴趣 Internet资源进行分类,有效选择用户所感兴趣 的信息. 对某些缺少文本的数据(声音,图像等) 对某些缺少文本的数据(声音,图像等)进行文字说 明,以便对描述对象有一个完整的描述.
Contributor 其它责任者 Data 日期
Contributor 对资源内容创建做出贡 献的其他责任者 Data 与资源本身生命周期中 的一个事件相关的日期
元素 Type Format Identifier Source
名字 类型 形式 资源标识符 来源
标识 Type Format Identifier Source
2.4 信息描述项目及符号
由于揭示对象不同,因而信息描述记录单元— 由于揭示对象不同,因而信息描述记录单元— 元数据的格式,项目和符号等也有所不同.
产品/ 产品/商品 产品/商品名称,型号,规格,用途,性能,包装, 价格,生产厂家,联系地址等 法人代表姓名,企业名称,成立日期,职工总数, 固定资产额,厂址,通信联络途径,主要产品或经 营范围,企业所获荣誉及业绩,近期经营状况等 科研成果名称,主持或完成者,立项时间,项目来 源,完成时间,成果形式,所达到的水平,社会反 响等
XML和HTML的不同可以归纳为3 XML和HTML的不同可以归纳为3点: XML扩展性比HTML强 XML扩展性比HTML强 XML可以创建个性化的标记语言,可以提供更 XML可以创建个性化的标记语言,可以提供更 多的数据操作,HTML只能局限于按一定的格式在 多的数据操作,HTML只能局限于按一定的格式在 终端显示出来. XML的语法比HTML严格 XML的语法比HTML严格 由于XML的扩展性强,它需要稳定的基础规则 由于XML的扩展性强,它需要稳定的基础规则 来支持扩展.它的严格规则为: 1,起始和结束的标签相匹配 2,嵌套标签不能相互嵌套 3,区分大小写 XML与HTML互补 XML与HTML互补 在现阶段,XML可以转化成相应的HTML,来 在现阶段,XML可以转化成相应的HTML,来 适应当前浏览器的需求.
HTML的基本结构 HTML的基本结构 <html> //文件开始标记 //文件开始标记 <head> //文件的头部开始标记 //文件的头部开始标记 <title>HTML</title> //头部 //头部 </head> //头部结束标记 //头部结束标记 <body> //文件的主体开始标记 //文件的主体开始标记 Hello,HTML! Hello,HTML! </body> //主体结束标记 //主体结束标记 </html> //文件结束标记 //文件结束标记
定义 资源内容的特征和类型 资源的物理或数字化的表现 形式 给定的文本环境中对资源的 参照引用 对一个资源的参照,而当前 资源是源自这一参照资源 对相关资源的参照
Language 语种 Relation 关联 Coverage 覆盖范围 Rights 权限管理
Language 描述资源知识内容的语种 Relation Coverage 资源内容所涉及的外延与覆 盖范围 Rights 有关资源本身所有的或被赋 予的权限信息