第二章 Web信息资源的文档类型及基于内容的多媒体信息检索
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2020/11/16
9
2.2.2 XML的编写规则(续)
3.XML的撰写语法 一个结构良好的XML文档,至少要符合以下规则: (1)文档的第一行必须是XML文档声明或说明,如以下
anli.xml文件中的第一行:<?xml version="1.0" encoding="GB2312"?>,即声明XML文档的版本和中文 编码字符集。 (2)文档必须包含至少一个元素(或标记)。 (3)每个开始标记和结束标记必须配套使用,对于没有 内容的标记允许使用格式<tag/>。 (4)文档中必须包含唯一的打开和关闭标记,即包含一 个根元素,文档中的所有其他标记都必须包含在这两 个标记中,如下例中的<purchases>标记。 (5)各个标记之间爱女不能重叠,不能交叉定义。 (6)元素区分大小写
XML的用途主要有两个:一是作为元标记语言,定义各种实例标记语言标 准;二是作为标准交换语言,起描述交换数据的作用。
XML是Internet环境中跨平台的、依赖于内容的技术,是当前处理结构化文 档的有力工具。它使用一系列简单的标记描述数据,从另一角度来说, XML又是一种简单的数据存储语言。
XML与Access、Oracle和SQL Server等数据库不同,数据库提供了更强有力 的数据存储和分析能力,如数据索引、排序、查找等,XML仅仅是展示 数据。
在数据仓库领域中,元数据被定义为:描述数据及其环境的数据。 它常有两方面的用途:(1)能提供基于用户的信息,如业务描述 信息的元数据能帮助用户使用数据。(2)元数据能支持系统对数 据的管理和维护,如关于数据项存储方法的元数据能支持系统以 最有效的方式访问数据。
在数据库系统中,元数据通常指描述数据库中表的结构的有关数据 和信息。
第2章 Web信息资源的文档类型 及基于内容的多媒体信息检索
本章目录 2.1 HTML文档 2.2 XML语言 2.3元数据 2.4多媒体信息与文件格式 2.5基于内容的多媒体信息检索
2020/11/16
1
主要知识点
Web信息和数据在互联网中是以各种文档形式存储和组织 并进行传输的。因此,本章重点讨论了Web 信息资源 最常见的几种文档类型,包括HTML、XML文档以及 图像、音频、视频等多媒体文档。同时,对元数据即 数据的数据也展开了探讨,其主要原因是Web信息的 查找主要是对后台数据库的访问和搜索,目前Web数 据库主要分为字段数据库和全文数据库,其中字段数 据库实际上存储的主要是结构化数据,其中包括设计 视图中的元数据,这些常常是采用SQL语言进行查找 匹配的重要对象。此外,对于多媒体信息以及基于内 容的多媒体信息检索也进行了概要性的探讨,重点讨 论了基于内容的多媒体信息检索的特点、结构模型和 检索方法及常见的CMIR系统。
2020/11/16
8
2.2.2 XML的编写规则
1.XML文档的组成 (1)标记:尖括号之间的文本。 (2)元素:开始标记、结束标记以及位于二者之间的所有内容。 (3)属性:即元素的值,用“”引起来。 2.XML文档的显示 对于xml文档,因为标记都是自定义的,它只是显示了数据的内容,
因而要显示xml文档,必须要有另一个文件告诉浏览器如何显示, 即由XML专门的样式文档来执行,一般就要使用格式化技术如xsl 和css两种方式。 (1)使用CSS显示xml文档。 (2)使用XSL文件显示xml文档。 XSL 的全称是 Extensible Stylesheet Language(可扩展样式语言), 它是设计XML文档显示样式的主要文件类型,它本身也是基于 XML 语言的。
2020/11/16
15
2.3.3元数据开发应用的标准化框架(续)
2.元数据结构 (1)总体结构 Metadata格式一般由多层次的结构定义构成: ①内容结构(Content Structure),对该Metadata
的构成元素及其定义标准进行描述。 ②句法结构(Syntax Structure),定义Metadata
2020/11/16
5
演示
Html文档演示
2020/11/16
6
2.2 XML语言
2.2.1 XML概述 2.2.2 XML的编写规则
2020/11Hale Waihona Puke Baidu16
7
2.2.1 XML概述
XML(Extensible Markup Language)即可扩展标记语言,它与HTML一样, 都是SGML(Standard Generalized Markup Language,标准通用标记语言)的 子集,是W3C组织于1998年2月发布的标准。它克服了HTML缺乏灵活性 和伸缩性的缺点以及SGML过于复杂、不利于软件应用的不足。
存储和使用管理,数据字段除比较全面的著录描述信 息外,还包括权利管理(Rights/Privacy Management)、 数字签名(Digital Signature)、资源评鉴(Seal of Approval/Rating)、使用管理(Access Management)、 支付审计(Payment and Accounting)等方面的信息。 (4)资源保护与存档(Preservation and Archiving),支 持对资源进行长期保存,数据字段除对资源进行描述 和确认外,还包括详细的格式信息、制作信息、保护 条件、转换方式(Migration Methods)、保存责任等内 容。
2020/11/16
10
演示
Anli.xml
2020/11/16
11
2.3元数据
本节主要内容: 2.3.1元数据概述 2.3.2各专业领域中的元数据标准 2.3.3元数据开发应用的标准化框架
2020/11/16
12
2.3.1元数据概述
简言之,元数据(Meta Data)即“data about data ”,是关于数据的数 据。它在不同领域或专业,相应地就有不同的定义和应用。
HTML文本是由HTML命令组成的描述性文本,HTML命 令可以说明文字、图形、动画、声音、表格、链接等。 HTML的结构包括首部(Head)、主体(Body)两大 部分,其中首部描述浏览器所需的信息,而主体则包 含所要说明的具体内容。
2020/11/16
4
2.1.2 HTML的编写规则
1.HTML首部 2.HTML中JavaScript的书写 3.HTML中元素的书写 3.HTML中元素的书写
Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images (9)档案库与资源集合:EAD (10)技术报告:RFC 1807 (11)连续图像:MPEG-7
2020/11/16
14
2.3.3元数据开发应用的标准化框架
1.Meta data应用目的 (1)查询和检索(Discovery identification (2)标引和著录(Cataloging (3)资源管理(Resource Administration),支持资源的
2020/11/16
17
2.3.3元数据开发应用的标准化框架(续)
5.元数据互操作性 (1)元数据互操作性问题 由于不同的领域往往存在多个元数据格式,当用不同元数据格式进行检索、
资源描述和资源利用时,就存在元数据的互操作性问题(Interoperability) 即多个不同元数据格式的释读、转换和由多个元数据格式描述的数字化 信息资源体系之间的透明检索。 (2)标准描述框架 解决元数据互操作性的另一种思路是建立一个标准的资源描述框架,用这个 框架来描述所有元数据格式,那么只要一个系统能够解析这个标准描述 框架,就能解读相应的Metadata格式。实际上,XML和RDF从不同角度 起着类似的作用。 XML通过其标准的DTD定义方式,允许所有能够解读XML语句的系统辨识 用XML_DTD定义的Metadata格式,从而解决对不同格式的释读问题。 RDF定义了由Resources、Properties和Statements等三种对象组成的基本模型, 其中Resources和Properties关系类似于E-R模型,而Statements则对关系进 行具体描述。 RDF通过抽象的数据模型为定义和使用元数据建立一个框架,元数据元素可 看成其描述的资源的属性。另外,RDF还规定了利用XML Namespace方 法调用已有定义规范的机制。
2020/11/16
2
2.1 HTML文档
本节要点: 2.1.1 HTML概述 2.1.2 HTML的编写规则
2020/11/16
3
2.1.1 HTML概述
HTML即HyperText Markup Language,是目前网络上应用 最为广泛的语言,也是构成网页文档的主要语言。从 本质上来说,它并不是一种程序设计语言,而是一种 页面描述语言。HTML文件需要加标记(tag),描述 段落、标题、图像、动画等。当用户通过浏览器如IE 等浏览HTML文件时,浏览器负责解释HTML文件中的 各种标记,并以此为根据显示文件的内容。目前较新 的版本有HTML 4.0和HTML 4.01。
Collections; (2)文献资料:MARC(with 856 Field),Dublin Core (3)人文科学:TEI Header (4)社会科学数据集:ICPSR SGML Codebook (5)博物馆与艺术作品:CIMI、CDWA、RLG REACH Element Set、
VRA Core (6)政府信息:GILS (7)地理空间信息:FGDC/CSDGM (8)数字图像:MOA2 metadata、CDL metadata、Open Archives
ISBD,EAD所参照的ISAD(G),ICPSR所依据的ICPSR Data Preparation Manual。 (3)句法结构 句法结构定义其格式结构及其描述方式,如元素的分区分段组织、元素选取使用规则、
元素描述方法(如Dublin Core采用ISO/IEC 11179标准),元素结构描述方法(如 MARC记录结构、SGML结构、XML结构)、结构语句描述语言如EBNF Notation 等。 有时,句法结构需要指出元数据是否与所描述的数据对象捆绑在一起、或作为单独数 据存在但以一定形式与数据对象链接,还可能描述与定义标准、DTD结构和 Namespace等的链接方式。 (4)语义结构 语义结构定义元素的具体描述方法,例如 描述元素时所采用的标准、最佳实践(Best Practices)或自定义的描述要求(Instructions)。 有些元数据格式本身定义了语义结构,而另外一些则由具体采用单位规定语义结构, 例如Dublin Core建议日期元素采用ISO 8601、资源类型采用Dublin Core Types、数 据格式可采用MIME、识别号可采用URL或DOI或ISBN。
结构以及如何描述这种结构。 ③语义结构(Semantic Structure),定义Metadata
元素的具体描述方法。
2020/11/16
16
2.3.3元数据开发应用的标准化框架(续)
(2)内容结构 内容结构定义Metadata的构成元素,包括描述性元素、技术性元素、管理性元素、结
构性元素,如与编码语言、Namespace、数据单元等的链接。 此外,元数据内容结构中还包含对数据选取标准的说明,例如MARC记录所依据的
在图书馆与信息管理领域,元数据被定义为:提供关于信息资源或 数据的一种结构化的数据,是对信息资源的结构化的描述。其作 用为:描述信息资源或数据本身的特征和属性,规定数字化信息 的组织,具有定位、发现、证明、评估、选择等功能。
2020/11/16
13
2.3.2各专业领域中的元数据标准
以下是各学科各专业领域已有的元数据标准: (1)网络资源:Dublin Core、IAFA Template、CDF、Web
其次,XML与HTML的设计区别是:XML是用来存储数据的,重在数据本 身,并可以描述数据本身。而HTML是用来定义数据的,重在数据的显 示模式。
XML易于在任何应用程序中读写数据,这使XML很快成为数据交换的公共 语言,虽然不同的应用软件也支持其它的数据交换格式。正因为如此, 基于XML的Web应用程序可以更容易地与Windows、Mac OS、 Unix/Linux以及其他平台下产生的信息结合,然后可以很容易加载XML 数据到程序中并进行分析,最后以XML格式输出结果。