XML模式匹配技术研究

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

XML模式匹配技术研究
摘要:目前随着Web上数据的倍增,针对庞大的信息海洋,人们面临Web上存在的两大问题:一是Internet速度非常慢,有时像爬行的蜗牛。

二是即使可以在线获得各种信息,但是要找到所需要的信息却极度困难。

这当中有硬件方面的原因,但最主要的原因是由于目前Web 语言—HTML的性质引起的。

关键词:XML模式技术研究
1 XML前景与特点
可扩展标记语言(Extensible Markup Language,简称XML)的产生改变了Web的根本面貌。

1998年2月,W3C(全球互联网联盟)给出了正式的版本XML 1.0,并且正式规定XML为下一代互联网标准。

与HTML相比XML具有许多优点:①XML很简单,进行自我描述而且易于解析。

②HTML中的标记是不变的,不能进行扩展,可是XML的标记则由用户定义,能任意的扩展。

③HTML中的标记表示方法是数据的显示格式,无任何语义,可是XML的标记就明确规定数据的含义,让细粒度的XML成为数据处理。

④XML实现了结构、表现和内容三者的分离。

1.1 自描述性
XML准许个人、各个组织建立适合自己的标志集合,这一特征可
以让XML在电子商务、保险机构、政府文档、司法、出版、、厂商以及中介组织信息交换等领域进行广泛应用,面对厂商、不同系统提出独特的解决方案。

1.2 可扩展性
XML在两个方面是可扩展的,首先它准许开发者创建自己的数据模式,以便创建多种应用的“可扩展”标记集。

其次,它使用与XML相关的标准,这样对XML的扩展,同时这些扩展给XML添加了查询、转换、链接的能力,同时XML作为核心标准,它可以为创建其他标准提供了一个稳固的基础。

1.3 跨平台性
XML不仅在多种平台上使用,还可以用多种工具对其进行解释,并对几种主要的字符编码作为主要标准支持,所以它能在全世界使用在许多不同的计算机环境中。

只要在各系统装有相应的XML解析工具,那么就能理解它是以XML为中介把其他系统传递来的信息加以利用。

1.4 开放性
XML的有关标准在Web上是充分开放的,能够免费获得。

可是XML文档自己也比较开放,任何人都能够对一个结构的XML文档进行语法分析,得到可读信息。

这样既能提供了数据模式,还能够校验这
个文档的有效性。

2 XML数据模式
可扩展性是XML的一个重要特性,XML文档的作者能够定义任意文档数据的结构以及元素的属性和名称。

可扩展性给文档的制作虽然提供了极大的灵活性,但是它也能使各种组织的应用程序间的数据交换很难得到实现,因为各种组织的应用程序对相同的标记名称也有不一样的理解。

XML的模式出现就是为了保证正确的XML文档的元素和属性,建立一个在数据交换过程中的标准。

遵守XML模式,规范XML的文档定义为有效文档,当前应用最广泛的两种XML数据模式语言是XML Schemao和XML DTD。

3 XML解析
对XML文档进行操作的不是应用程序,而是首先由XML分析器分析XML文档,然后,通过XML分析器所提供的DOM接口或SAX 接口应用程序对分析结果进行操作,对XML文档间接地实现了的访问。

不同的分析器来实现这些接口由,但是它们必须遵守共同的规范。

针对XML出现的应用编程接口(API, Application Programming Interface)对于XML应用开发者来说是很重要的。

应用开发者利用这
些标准的接口来得到和设置XML文档中的元素、数据、属性、内容等。

XML的应用编程接口中有四种:SAX、JDOM、DOM、DOM4J。

4 模式匹配方法研究
在多数情况下,模式本身不能够反映它所代表数据完整语义。

所以,在进行模式匹配时,一定要利用模式本身包含的一些信息(例如元素名称、数据类型、元素结构)进行匹配。

假使用一种匹配器来考虑这些信息中的一部分,就不可以获得与之使用的多种匹配器,必须考虑多种信息的效果。

因此使用用多种匹配算法能够准确、有效地发现模式成员间语义上的一一对应关系,能够达到模式匹配的精确度。

1)模式匹配系统框架由以下组件组成。

(1)输入模式,由目标模式和原模式组成
(2)输入辅助信息。

由缩词词典和同义词词典组成,用户利用这些词典扩充以后的匹配工作时能够得到很好的效果。

(3)仓库。

数据库内存储分析后的输入的模式和辅助信息。

(4)匹配器库。

主要有数据类型匹配器、字符串匹配器、名称匹配器和上下文匹配器组成。

(5)工作区。

在这里进行基本匹配操作,其中包括匹配器执行和相
似度合成。

2)系统的匹配处理过程包括下面三个阶段。

(1)模式及辅助信息输入
输入模式包括源模式Ss和目标模式So作为输入模式,在仓库内存储作为辅助信息的同义词词典以及缩字词典。

模式及辅助信息作为输入处理阶段,它的主要工作包括对模式及辅助信息的分析和存储。

通过不同的分析器模式以及辅助信息,在系统内的各种不同匹配器以完成匹配任务的形式被存储。

(2)匹配阶段
在本阶段中,对经过输入处理的模式,执行匹配器库中的不同类型的匹配器。

不同匹配器都根据各种的模式信息(包括名称、结构信息、数据类型等)计算出模式各元素之间的相似度。

(3)合成阶段
合成不同匹配器的输出结果,要进行选出匹配候选。

并依据匹配器的特征需求提前设定好各种合成权重、为匹配候选出筛选的闽值。

在数据库很多应用中,如电子商务、面向web的数据集成、模式迁入或改进、数据仓库、应用改进、数据库设计、基于组件的开发和站点的建设与管理等,都要利用模式信息。

然而在模式信息的操作中,匹配是最基本一个操作,就是将两个模式作为输入,找到它们的之间相关元
素的匹配关系,接着输出两个模式元素间的映射关系。

3)模式匹配的有下面几个方面主要应用:
(1)模式集成
当前,很多关于模式匹配的工作是应用于解决模式集成问题的,就是给定一个独立开发的模式集,创建一个全局视图。

模式匹配能够在异构数据库之间确定数据集成点。

因为模式是独立开发的,因此其具有不同的结构和术语,描述同一现实领域时,由于创建人的不同,其所处的环境不同,所创建的模式也会有各有不同。

集成模式的首先是识别和特征化模式间的关系,关系被确定后,匹配元素统一表示集成的模式或视图。

(2)数据仓库
模式匹配的另外一个应用是将数据源集成到数据仓库中。

一个数据仓库是从数据源集中提取数据作为一个决策支持。

这个提取过程需要把数据从数据源格式转换成数据仓库格式,设计转换对匹配操作是很有用的。

对于一个给定的数据源,我们可以通过查找在数据源中与数据仓库中同时存在的元素,从而得到一个匹配,实际上查找过程就是一个匹配操作。

初始映射创建好之后,数据仓库的设计者就必须检查每个源元素的具体语义,接着创建可以协调该语义与目标语义的转换。