基于XML和WebService的数据集成中间件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘 要 : 主要研究多源异构数据集成的方法 , 其目标是向具有访问异构数据源要求的用户提供 一个统一的查询接口 , 而不必考虑各局部数据源之间的差异 。目前 , 在多种异构数据源集成方 法中 , 中间件法由于其成本低 、容易实现 , 以及局部数据源加入方便灵活 , 自治性强等优点 , 已成为数据集成的主要方法 。本文采用中间件法 , 利用 XML 技术和 Web Service , 对多源异构数 据的集成问题进行了探讨 。 关键词 : XML ; 多源异构数据 ; 数据集成 ; 中间件 ; Web Service
数据层 ,包含数据存储和他交互的组件或者服 务 ;中间层 ,向下协调各异构数据库系统 ,向上提供 统一数据模式和数据访问的通用接口 ;表示层 ,从中 间层获取信息并显示给用户 ,它同时也负责和用户 进行交互 ,比较返回的信息并将信息回送给中间层 进行处理 。采用 BΠS 架构的好处在于 :具有强大的 可扩展性 、跨平台性和广泛的可访问性 ,而且客户端 只需有浏览器即可 ,维护成本小 。 2. 2 数据集成中间件系统体系架构
1. 1 联邦数据库系统 联邦数据库系统支持分布 、异构与自治 ,是由一
组互相协作的但保持各自自治性的成员数据库系统 组成 ,这些成员数据库系统可以不同程度的集成 。 该系统只能在一定的限制条件下实现 ,难以完成各 种数据源间灵活的数据集成 ,而且建立时间长 ,硬件 开销大 ,不是一种通用的数据集成方法 。联邦数据 库系统的体系结构如图 1 所示 。
图 2 数据仓库法的体系结构
1. 3 中间件法 中间件法为用户提供一个全局模式 ,用户提交
的查询是针对该全局模式的 ,因此数据源的位置 、模 式及访问对用户来说是透明的 。中介器将全局的查 询进行解析 ,并分解为针对各局部数据源的查询命 令 ;包装器执行查询并将结果返回给中介器 ,并将结 果整合后以全局视图的形式展现给用户 。中间件法 体系结构如图 3 所示 。
中图分类号 :TP311 文献标识码 :A 文章编号 :1009 - 2552 (2010) 01 - 0090 - 05
基于 XML 和 Web Service 的数据集成中间件
谢宝智1 , 王刘凯2
(1. 常州轻工职业技术学院机械系 , 常州 213164 ; 2. 江苏亚威机床股份有限公司 , 扬州 225200)
Web 服务 (Web Service) 是基于一组标准 Internet 协议的分布式计算组件 ,具有开放 、面向 Internet 标 准化接口等特点 ,能够实现松散耦合的 、与平台无关 的应用系统交互与协同 ,是企业应用集成理想平台 。 Web 服务技术能够较好地解决 ETL 技术面临的问 题 ,可为数据集成产品提供标准的开发接口和良好 的扩展性 。 2. 4 基于 XML 的模式集成方法
例如有模型 Model01 ,字段为 :
姓名
性别
年龄
城市
图 5 数据集成中间件系统体系架构示意图
数据集成中间件通过调用部署在各数据源上的核心 Web 服务 ,获取数据源数据 ,并将获得的数据转换成 XML 数据 ,然后 XML 数据集成处理模块对 XML 数 据进行合并 、转换等操作 ,最终以统一的数据格式传 递给用户 。 2. 3 关键技术 2. 3. 1 XML
Abstract : The paper mainly studies the integration method of the multi2source heterogeneous data. The goal is to provide a uniform query interface to those users who intend to access heterogeneous data source , but not consider the difference among each local data source. At present , among those different integration methods of the heterogeneous data sources , the mediator method is the main one because of its advantages such as low cost , easy to realize , flexible and convenient to add local data source , strong autonomy and so on. Based on mediator method and XML technology , the paper discusses the problem of the multi2source heterogeneous data integration. Key words : XML ; multi2source heterogeneous data ; data integration ; middleware ; Web Service
XML 以及 Web Service 的出现 ,为数据集成带来 了便利 ,主要利用 XML ,Web Service 以及中间件法 , 设计了一个基于 BΠS 架构的三层体系架构的数据集 成中间件系统 ,其体系架构如图 5 所示 。
此数据集成中间件系统进行数据集成的思想是
— 91 —
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.
图 1 联邦数据库系统的体系结构
1. 2 数据仓库法 数据仓库法建立一个存储数据的仓库 ,由 ETL
工具定期从数据源过滤数据 ,然后装载到数据仓库 中 ,供用户查询 。其优点是处理简单 ,可以为用户提 供简单快速的频繁数据访问 ;缺点是实施的周期较 长 ,开发成本高 ,数据重复存储 ,且数据更新不及时 。 数据仓库法的体系结构如图 2 所示 。
— 90 —
异构数据源的数据共享 。
1 数据集成
异构数据源集成 ,简而言之 ,就是在一个确定领 域中 ,集成其存在的异构且自治的数据源 ,使用户感 觉到所查询的数据都具有单一的模式且存储在单个 数据源中 。数据集成系统最重要的特点就是为用户 提供统一的访问界面 ,使用户能够将注意力集中在 要查询的内容 ,而不是得到数据的方法 。
< Model01 > < Data > < 姓名 > Tom < Π姓名 > < 性别 > male < Π性别 > < 年龄 > 20 < Π年龄 > < 城市 > Nanjing < Π城市 > < ΠData > < ΠModel01 > 由上可知 ,模型的建立可有效的数据集成中的 解决语义和结构的异构 。 2. 4. 2 定义模型的统一数据格式 XML Schema 与 DTD 一样 ,也是对一类 XML 文 档进行约束 ,确定其结构 、元素 、属性 、及数据类型 ,
可扩展标记语言 ( eXtensible Markup Language , XML) 由标准化通用标记语言发展而来 ,它以一种开 放的自我描述方式定义数据结构 ,在描述数据内容 的同时能突出对结构的描述从而体现出数据之间的 关系 。
XML 以其可扩展性 、结构性以及平台无关性等 优点迅速使其成为 Internet 数据交换的标准 ,大量数 据源采用 XML 作为输出格式 ,因此 XML 数据的集 成成为研究关注的一个问题 。 2. 3. 2 Web Service
目前 ,异构数据集成通常采用以下三种方式[1] : 联邦数据库系统 ;数据仓库技术 ;中间件法 。
收稿日期 : 2009 - 06 - 22 作者简介 : 谢宝智 (1975 - ) , 男 , 硕 士 研 究 生 , 讲 师 , 研 究 方 向 为
CADΠCAM 及计算机集成制造系统 。
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.
The middleware of data integration based on XML and Web Service
XIE Bao2zhi1 , WANG Liu2kai2
(1. Mechanical Engineering Department ,Changzhou Institute of Light Industry Technology , Changzhou 213164 ,China ; 2. Jiangsu Ya wei Machine2tool Co. , Ltd. , Yangzhou来自225200 , China)
图 3 中间件法的体系结构
2 数据集成系统的实现
2. 1 BΠS 三层体系结构 由于客户机Π服务器 ( ClientΠServer , CΠS) 结构需
要专门开发客户程序 ,对客户端配置要求高 、升级困 难 ,难以实现快速的部署安装 、配置 、升级维护困难 以及移植性差等缺陷 。随着 Web 技术的日益成熟 , 浏览器Π服务器 (BrowseΠServer ,BΠS) 结构已成为取代 CΠS 结构的一种全新技术[2] 。它将一个应用程序的 三个主要功能分离到三个不同的层 、级之中 。其工 作原理如图 4 所示 。
本文采用了改进的模型驱动的映射方法模型驱动的映射方法例如有模型model01字段为table01字段为数据集成中间件通过调用部署在各数据源上的核心web服务获取数据源数据并将获得的数据转换成xml数据然后xml数据集成处理模块对xml据进行合并转换等操作最终以统一的数据格式传递给用户extensiblemarkuplanguagexml由标准化通用标记语言发展而来它以一种开放的自我描述方式定义数据结构在描述数据内容的同时能突出对结构的描述从而体现出数据之间的关系xml以其可扩展性结构性以及帄台无关性等优点迅速使其成为internet数据交换的标准大量数据源采用xml作为输出格式因此xml数据的集成成为研究关注的一个问题webserviceweb服务webservice是基于一组标准internet协议的分布式计算组件具有开放面向internet准化接口等特点能够实现松散耦合的与帄台无关的应用系统交互与协同是企业应用集成理想帄台web服务技术能够较好地解决etl技术面临的问可为数据集成产品提供标准的开发接口和良好的扩展性基于xml的模式集成方法异构数据源的集成首先要解决的是模式集成问下面将对基于xml进行模式集成的方法进行研究和探讨基于xml有很强的数据结构表达能力及扩展
— 92 —
有表 Table01 ,字段为 :
Name
Sex
Tom
male
Age
City
20
Nanjing
建立模型与表之间的映射关系 ,用 XML 文件描 述模型与表的映射关系为 :
< Models > < Model name =“Model01”> < Table name =“Table01”> < 姓名 > Name < Π姓名 > < 性别 > Sex < Π性别 > < 年龄 > Age < Π年龄 > < 城市 > City < Π城市 > < ΠTable > < ΠModel > < ΠModels > 表与模型建立映射后 ,可用模型字段代替表字 段 ,解决不同表之间的语义异构 ,因此 ,数据集成中 间件 系 统 获 取 的 Table01 的 数 据 转 换 成 XML 数 据为 :
0 引言
随着计算机及网络技术的迅猛发展和广泛应 用 ,政府和企业的信息化程度得到了大幅度的提高 , 数据的采集 、存储 、处理和传播的数量也与日俱增 。 数据共享对人类的劳动具有重大的意义 ,数据的共 享 ,可以使更多的人能更充分地使用己有的数据资 源 ,减少重复的数据收集等劳动和相应费用 。但是 , 数据存在的形式不同及在数据共享的过程中 ,不同 的数据可能存在于不同的平台 ,要通过不同的方式 来访问 ,这些都造成了对数据共享的困难 ;此外 ,由 于各种组织在建立自己的应用系统及存储数据时 , 缺乏统一的规划和管理 ,往往采用不同的实现技术 和存储技术 ,因此数据经常成为“信息孤岛”,难以实 现数据的充分共享 。数据集成的主要任务就是实现
构 ,从而达到局部数据源数据模型到全局数据模型 的映射与数据的转换 。由于 Schema 要比 DTD 拥有 更强大的数据模式的描述能力 ,因此 ,在本文中主要 探讨利用 Schema 来描述局部数据源模式与全局的 数据源模式以及模式之间的映射活动 。
目前有两种主要的数据映射方法 :基于模板驱 动的映射方法与基于模型驱动的映射方法 。本文采 用了改进的模型驱动的映射方法 。 2. 4. 1 模型驱动的映射方法
异构数据源的集成首先要解决的是模式集成问 题 ,下面将对基于 XML 进行模式集成的方法进行研 究和探讨 。
基于 XML 有很强的数据结构表达能力及扩展 性 ,非常适合于解决数据集成中关键的模式集成问 题 。通过映射关系 ,将异构数据源的数据模型描述 为 Schema 或 DTD 文档 ,并直接映射成 XML 文档结
中间件法适合于局部数据源的数目较多 ,数据 变化频繁的异构数据源集成 。在这种方法中 ,局部 数据源的加入操作实现方便灵活 ,且可保持充分的 自治性 。目前 ,主要的研究都集中于中间件法 ,本论 文讨论的异构数据源集成系统的体系结构也是在中 间件法的思想上构建的 。
图 4 BΠS 三层结构工作原理
数据层 ,包含数据存储和他交互的组件或者服 务 ;中间层 ,向下协调各异构数据库系统 ,向上提供 统一数据模式和数据访问的通用接口 ;表示层 ,从中 间层获取信息并显示给用户 ,它同时也负责和用户 进行交互 ,比较返回的信息并将信息回送给中间层 进行处理 。采用 BΠS 架构的好处在于 :具有强大的 可扩展性 、跨平台性和广泛的可访问性 ,而且客户端 只需有浏览器即可 ,维护成本小 。 2. 2 数据集成中间件系统体系架构
1. 1 联邦数据库系统 联邦数据库系统支持分布 、异构与自治 ,是由一
组互相协作的但保持各自自治性的成员数据库系统 组成 ,这些成员数据库系统可以不同程度的集成 。 该系统只能在一定的限制条件下实现 ,难以完成各 种数据源间灵活的数据集成 ,而且建立时间长 ,硬件 开销大 ,不是一种通用的数据集成方法 。联邦数据 库系统的体系结构如图 1 所示 。
图 2 数据仓库法的体系结构
1. 3 中间件法 中间件法为用户提供一个全局模式 ,用户提交
的查询是针对该全局模式的 ,因此数据源的位置 、模 式及访问对用户来说是透明的 。中介器将全局的查 询进行解析 ,并分解为针对各局部数据源的查询命 令 ;包装器执行查询并将结果返回给中介器 ,并将结 果整合后以全局视图的形式展现给用户 。中间件法 体系结构如图 3 所示 。
中图分类号 :TP311 文献标识码 :A 文章编号 :1009 - 2552 (2010) 01 - 0090 - 05
基于 XML 和 Web Service 的数据集成中间件
谢宝智1 , 王刘凯2
(1. 常州轻工职业技术学院机械系 , 常州 213164 ; 2. 江苏亚威机床股份有限公司 , 扬州 225200)
Web 服务 (Web Service) 是基于一组标准 Internet 协议的分布式计算组件 ,具有开放 、面向 Internet 标 准化接口等特点 ,能够实现松散耦合的 、与平台无关 的应用系统交互与协同 ,是企业应用集成理想平台 。 Web 服务技术能够较好地解决 ETL 技术面临的问 题 ,可为数据集成产品提供标准的开发接口和良好 的扩展性 。 2. 4 基于 XML 的模式集成方法
例如有模型 Model01 ,字段为 :
姓名
性别
年龄
城市
图 5 数据集成中间件系统体系架构示意图
数据集成中间件通过调用部署在各数据源上的核心 Web 服务 ,获取数据源数据 ,并将获得的数据转换成 XML 数据 ,然后 XML 数据集成处理模块对 XML 数 据进行合并 、转换等操作 ,最终以统一的数据格式传 递给用户 。 2. 3 关键技术 2. 3. 1 XML
Abstract : The paper mainly studies the integration method of the multi2source heterogeneous data. The goal is to provide a uniform query interface to those users who intend to access heterogeneous data source , but not consider the difference among each local data source. At present , among those different integration methods of the heterogeneous data sources , the mediator method is the main one because of its advantages such as low cost , easy to realize , flexible and convenient to add local data source , strong autonomy and so on. Based on mediator method and XML technology , the paper discusses the problem of the multi2source heterogeneous data integration. Key words : XML ; multi2source heterogeneous data ; data integration ; middleware ; Web Service
XML 以及 Web Service 的出现 ,为数据集成带来 了便利 ,主要利用 XML ,Web Service 以及中间件法 , 设计了一个基于 BΠS 架构的三层体系架构的数据集 成中间件系统 ,其体系架构如图 5 所示 。
此数据集成中间件系统进行数据集成的思想是
— 91 —
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.
图 1 联邦数据库系统的体系结构
1. 2 数据仓库法 数据仓库法建立一个存储数据的仓库 ,由 ETL
工具定期从数据源过滤数据 ,然后装载到数据仓库 中 ,供用户查询 。其优点是处理简单 ,可以为用户提 供简单快速的频繁数据访问 ;缺点是实施的周期较 长 ,开发成本高 ,数据重复存储 ,且数据更新不及时 。 数据仓库法的体系结构如图 2 所示 。
— 90 —
异构数据源的数据共享 。
1 数据集成
异构数据源集成 ,简而言之 ,就是在一个确定领 域中 ,集成其存在的异构且自治的数据源 ,使用户感 觉到所查询的数据都具有单一的模式且存储在单个 数据源中 。数据集成系统最重要的特点就是为用户 提供统一的访问界面 ,使用户能够将注意力集中在 要查询的内容 ,而不是得到数据的方法 。
< Model01 > < Data > < 姓名 > Tom < Π姓名 > < 性别 > male < Π性别 > < 年龄 > 20 < Π年龄 > < 城市 > Nanjing < Π城市 > < ΠData > < ΠModel01 > 由上可知 ,模型的建立可有效的数据集成中的 解决语义和结构的异构 。 2. 4. 2 定义模型的统一数据格式 XML Schema 与 DTD 一样 ,也是对一类 XML 文 档进行约束 ,确定其结构 、元素 、属性 、及数据类型 ,
可扩展标记语言 ( eXtensible Markup Language , XML) 由标准化通用标记语言发展而来 ,它以一种开 放的自我描述方式定义数据结构 ,在描述数据内容 的同时能突出对结构的描述从而体现出数据之间的 关系 。
XML 以其可扩展性 、结构性以及平台无关性等 优点迅速使其成为 Internet 数据交换的标准 ,大量数 据源采用 XML 作为输出格式 ,因此 XML 数据的集 成成为研究关注的一个问题 。 2. 3. 2 Web Service
目前 ,异构数据集成通常采用以下三种方式[1] : 联邦数据库系统 ;数据仓库技术 ;中间件法 。
收稿日期 : 2009 - 06 - 22 作者简介 : 谢宝智 (1975 - ) , 男 , 硕 士 研 究 生 , 讲 师 , 研 究 方 向 为
CADΠCAM 及计算机集成制造系统 。
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.
The middleware of data integration based on XML and Web Service
XIE Bao2zhi1 , WANG Liu2kai2
(1. Mechanical Engineering Department ,Changzhou Institute of Light Industry Technology , Changzhou 213164 ,China ; 2. Jiangsu Ya wei Machine2tool Co. , Ltd. , Yangzhou来自225200 , China)
图 3 中间件法的体系结构
2 数据集成系统的实现
2. 1 BΠS 三层体系结构 由于客户机Π服务器 ( ClientΠServer , CΠS) 结构需
要专门开发客户程序 ,对客户端配置要求高 、升级困 难 ,难以实现快速的部署安装 、配置 、升级维护困难 以及移植性差等缺陷 。随着 Web 技术的日益成熟 , 浏览器Π服务器 (BrowseΠServer ,BΠS) 结构已成为取代 CΠS 结构的一种全新技术[2] 。它将一个应用程序的 三个主要功能分离到三个不同的层 、级之中 。其工 作原理如图 4 所示 。
本文采用了改进的模型驱动的映射方法模型驱动的映射方法例如有模型model01字段为table01字段为数据集成中间件通过调用部署在各数据源上的核心web服务获取数据源数据并将获得的数据转换成xml数据然后xml数据集成处理模块对xml据进行合并转换等操作最终以统一的数据格式传递给用户extensiblemarkuplanguagexml由标准化通用标记语言发展而来它以一种开放的自我描述方式定义数据结构在描述数据内容的同时能突出对结构的描述从而体现出数据之间的关系xml以其可扩展性结构性以及帄台无关性等优点迅速使其成为internet数据交换的标准大量数据源采用xml作为输出格式因此xml数据的集成成为研究关注的一个问题webserviceweb服务webservice是基于一组标准internet协议的分布式计算组件具有开放面向internet准化接口等特点能够实现松散耦合的与帄台无关的应用系统交互与协同是企业应用集成理想帄台web服务技术能够较好地解决etl技术面临的问可为数据集成产品提供标准的开发接口和良好的扩展性基于xml的模式集成方法异构数据源的集成首先要解决的是模式集成问下面将对基于xml进行模式集成的方法进行研究和探讨基于xml有很强的数据结构表达能力及扩展
— 92 —
有表 Table01 ,字段为 :
Name
Sex
Tom
male
Age
City
20
Nanjing
建立模型与表之间的映射关系 ,用 XML 文件描 述模型与表的映射关系为 :
< Models > < Model name =“Model01”> < Table name =“Table01”> < 姓名 > Name < Π姓名 > < 性别 > Sex < Π性别 > < 年龄 > Age < Π年龄 > < 城市 > City < Π城市 > < ΠTable > < ΠModel > < ΠModels > 表与模型建立映射后 ,可用模型字段代替表字 段 ,解决不同表之间的语义异构 ,因此 ,数据集成中 间件 系 统 获 取 的 Table01 的 数 据 转 换 成 XML 数 据为 :
0 引言
随着计算机及网络技术的迅猛发展和广泛应 用 ,政府和企业的信息化程度得到了大幅度的提高 , 数据的采集 、存储 、处理和传播的数量也与日俱增 。 数据共享对人类的劳动具有重大的意义 ,数据的共 享 ,可以使更多的人能更充分地使用己有的数据资 源 ,减少重复的数据收集等劳动和相应费用 。但是 , 数据存在的形式不同及在数据共享的过程中 ,不同 的数据可能存在于不同的平台 ,要通过不同的方式 来访问 ,这些都造成了对数据共享的困难 ;此外 ,由 于各种组织在建立自己的应用系统及存储数据时 , 缺乏统一的规划和管理 ,往往采用不同的实现技术 和存储技术 ,因此数据经常成为“信息孤岛”,难以实 现数据的充分共享 。数据集成的主要任务就是实现
构 ,从而达到局部数据源数据模型到全局数据模型 的映射与数据的转换 。由于 Schema 要比 DTD 拥有 更强大的数据模式的描述能力 ,因此 ,在本文中主要 探讨利用 Schema 来描述局部数据源模式与全局的 数据源模式以及模式之间的映射活动 。
目前有两种主要的数据映射方法 :基于模板驱 动的映射方法与基于模型驱动的映射方法 。本文采 用了改进的模型驱动的映射方法 。 2. 4. 1 模型驱动的映射方法
异构数据源的集成首先要解决的是模式集成问 题 ,下面将对基于 XML 进行模式集成的方法进行研 究和探讨 。
基于 XML 有很强的数据结构表达能力及扩展 性 ,非常适合于解决数据集成中关键的模式集成问 题 。通过映射关系 ,将异构数据源的数据模型描述 为 Schema 或 DTD 文档 ,并直接映射成 XML 文档结
中间件法适合于局部数据源的数目较多 ,数据 变化频繁的异构数据源集成 。在这种方法中 ,局部 数据源的加入操作实现方便灵活 ,且可保持充分的 自治性 。目前 ,主要的研究都集中于中间件法 ,本论 文讨论的异构数据源集成系统的体系结构也是在中 间件法的思想上构建的 。
图 4 BΠS 三层结构工作原理