系统集成及中间件--4 数据集成技术

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据集成技术
Data Integration Technology
李瑞轩 华中科技大学计算机学院
数据集成
异构数据集成 (Heterogeneous Data Integration) 数据集成中间件 (Data Integration Middleware) 多数据库系统 (Multidatabase Systems) 联邦数据库系统 (Federated Database System) 数据互操作 (Data Interoperation)
2
多数据库系统原理与技术
Principles and Techniques of Multidatabase Systems 多数据库系统原理与技术 李瑞轩,卢正鼎著 北京:电子工业出版社 2005年11月
3
多数据库系统原理与技术
第1章 多数据库系统概述 第2章 多数据库系统体系结构 第3章 公共数据模型 第4章 模式集成 第5章 查询处理 第6章 查询优化 第7章 事务管理 第8章 安全管理 第9章 文件系统的集成 第10章 多数据库系统实现
18
Web系统
一个互操作系统的体系结构
19
多数据库系统体系结构
20
联邦数据库系统体系结构
21
3 公共数据模型
模型是客观世界的形式化表示和抽象,用于描述、 简化和规范化客观实体 数据模型包括三个组成部分:数据类型和关系、 数据操作、完整性约束
典型的数据模型:关系模型、实体-联系模型和面 向对象模型
公共数据模型:集成多种不同的数据模型,并提 供一个模型中的概念与另一个模型中的概念的映 射,以解决多个成员数据模型的异构性
公共数据模型(Common Data Model, CDM)
22
公共数据模型
公共数据模型是解决多数据库系统中不同模 式之间异构性的基础 选择公共数据模型的一般原则
公共数据模型与局部数据库系统的数据模型之间应 易于相互转换 公共数据模型所支持的数据查询语言应该能够方便 地表达多数据库系统的数据和处理过程 具有描述半结构化数据的能力,可以集成无规则模 式或模式无法预知的异构数据源
26
多数据库系统的五级模式
外模式 (任意数据模型) 外模式 (任意数据模型) 外模式 (任意数据模型)
全局(联邦)模式 (全局(联邦)数据模型)
全局(联邦)模式 (全局(联邦)数据模型)
输出模式 (公共数据模型)
输出模式 (公共数据模型)
输出模式 (公共数据模型) 成员模式 (公共数据模型) 局部模式 (局部数据模型)
27
成员模式 (公共数据模型) 局部模式 (局部数据模型)
模式集成
模式集成是集成若干个已存在的模式到一个统一 的集成模式的过程。 MDBS中通常有一个集成的全局概念模式。 一个多数据库系统中全局概念模式的设计不完全 等同于传统分布式数据库中全局概念模式的设计, MDBS通常是从局部模式自底向上 自底向上集成,而分布 自底向上 式数据库通常是自顶向下映射。 如果多数据库系统中存在有异构性问题,还需要 有一种全局数据模型,用来定义全局概念模式。
数据是各种应用的核心,以不同形式存储在不同系统中,分 而不聚,聚而不合,呈分布异构状态
多数据库是一个新兴的数据库研究领域
1990年,美国国家科学基金会(NSF)在关于未来DBMS研究 方向的会议上指定多数据库为90年代两个最重要的领域之一, 并对异构数据库的研究进行了大量投资
集成已有应用系统及数据,提供一个一致透明的访问界面
全局模式 (联邦模式)
全局模式 (联邦模式)
输出模式
输出模式
输出模式
输出数据层 (公共数据模型)
局部模式
局部模式
局部模式
局部数据层 (局部数据模型)
模式翻译 全局映射 模式截取
模式集成 局部映射 直接映射
36
模式冲突及其解决策略
由于各成员数据库的局部模式之间可能存 在着各种差异和冲突。 将异构的数据库模式集成为一个统一的全 局模式需要化解不同成员模式间的冲突。 解决模式冲突是多数据库模式集成中的一 个关键性问题。
一种耦合度较强的数据库的联合,它一般具有全 局模式,多数据库用户只能通过全局模式访问多 个数据库中的数据。
12
1.4 多数据库需要解决的问题
分布性、异构性、自治性带来的问题:
资源定位 代码重用和移植 数据共享与互操作 遗留(Legacy)系统的利用 屏蔽异构网络环境下编程的复杂性 安全互操作问题
13
• OIM (SEU)
基于XML的数据模型
• OEM (Stanford)、XIDM (HUST)
基于本体的数据模型
• OWL
25
4 多数据库系统中的模式集成
五级模式结构
外模式 全局模式 输出模式 成员模式 局部模式
模式集成
要把一个应用环境中多个参 与数据库以信息集成的方法 联系起来,实现信息的共享 要将多个参与数据库的信息, 在逻辑上集成为一个属于多 数据库系统的相关单一定义, 即一个全局概念模式
28
模式集成过程
模式集成过程可分为两步
模式翻译:从局部数据库模式到局部集成模式 模式集成:从局部集成模式到全局概念模式
局部数据库模式与局部集成模式之间的映射是 异构环境下数据库集成的关键,它解决了数据 库的异构问题 从局部集成模式到全局集成概念模式的映射实 现了数据库的集成
29
自底向上的模式集成过程
全局概念模式 (GCS)
模 式
集成器
集 成
局 集成模式(LIS2)
局 集成模式 (LIS1)
模 式
器 器
翻 译
局 模式(LS1)
局 模式(LS2)
30
模式翻译
模式翻译是将参与数据库的模式翻译成一 个用公共数据模型形式的中间表示
这需要构造出一个翻译器来实现局部模式 与中间模式的映射关系
模式翻译一般过程:
4
课程内容提纲
1 多数据库系统概述 2 体系结构 3 公共数据模型 4 模式集成 5 查询处理 6 事务处理 7 多数据库系统的新进展
5
1 多数据库系统概述
1.1 产生背景 1.2 多数据库系统定义 1.3 多数据库系统的特征 1.4 多数据库需要解决的问题
6
1.1 产生背景
70年代末提出分布式数据库:同种数据库的分布处理 当前众多异构计算环境并存(数据库、文件系统等)
确定出有关实体的数据和有关联系的数据 根据模型间的部分等价关系,将源模式翻 译成目标模式,并将补充说明填在辅助数 据库中
31
模式集成
模式集成是将各个分离的中间模式集成为一 个全局概念模式 模式集成过程:
标定出各个中间模式中元素之间的相互关系 选择出全局概念模式的最佳表示 将各个中间模式的元素合并或集成
行为冲突
• 方法调用参数类型冲突 • 方法返回参数类型冲突 • 方法体定义冲突
对象实例约束冲突
38
模式集成正确性判断标准
如何判断集成得到的全局模式是正确的
模式集成的正确性:对全局模式的任意一个查询,都能 惟一映射为对输出模式集的查询,它们返回相同的结果, 并且不损失任何信息
15
数据库系统研究现状
国内主要有多数据库集成模型、查询处理方面 的研究,没有考虑分布异构环境中数据集成与 互操作的安全管理
Versatile (东南大学) SCOPE/CIMS (东北大学) Is-Global (中科院软件所) MQI (北京航空航天大学) Panorama (华中科技大学)
16
解决不同系统的异构性,实现不同系统之间的互操作 保持各应用系统和数据管理系统的自治性 保持不同系统中数据的完整性、一致性和安全性
7
1.2 多数据库系统定义
多数据库系统(MDBS:Multidatabase System):多个已存的、分布的、异构的和自 治的数据库系统的联合 多数据库管理系统(MDBMS):多数据库系统 的管理软件 局部或成员数据库系统(LDBS):参与构成多 数据库系统的各数据库系统 各局部数据库有自己的局部数据库管理系统 (LDBMS)
10
多数据库系统的分类
分布式同质联 邦 DBMS 分布式同质 DBMS 多个同质 DBMS 的逻 辑集成系统 分布式异构 MDBS
分布性
分布式同 质 MDBS 一般 DBMS
自治性
同质联邦 DBMS 异构 MDBS 单节点异构联邦 DBMS 集成的异构 DBMS
11
分布式异构 DBMS
异构性
分布式异构 联邦 DBMS
23
公共数据模型
对公共数据模型的要求
能够刻画集成任务的所有步骤 能够表达丰富的语义
• 能够表示成员数据库能够表示的语义 • 能够表示与集成过程相关的附加语义 • 能够表示未来加入到系统中的新成员系统的 语义
24
公共数据模型
常用的公共数据模型
扩展的实体-联系模型(Enhanced Entity Relationship,EER) 扩展关系模型 面向对象模型
2 体系结构
互操作性概念
互操作性(Interoperability)是指不同计算机系统、 网络、操作系统和应用程序一起工作并共享信息的 能力,它强调将具有不同数据结构和数据格式的软 件系统集成在一起协同工作 软件互操作、数据互操作、语义互操作…
数据互操作的方法
数据转换
• ETL工具:Extract,Transform,Load
32
模式集成具体步骤
1. 预集成。这一步主要是确立集成规则和集成优 先次序。例如,找出侯选关键字及依赖关系, 确定出值域之间的变换规则等。 2. 模式分析。确立出各个中间模式之间存在的语 义上和语法上的各种冲突。 3. 模式同化。解决在第2步所确立的各种冲突。事 实上,模式同化是很困难的,其中包含有大量 的人为因素,完全做到自动化在目前来说是不 太可能的。 4. 合并和重构。建立最后的集成模式。建立过程 有二元法和多元法两种途径。
37
模式冲突的分类
对象标识冲突 语义冲突 继承关系冲突 数据语义冲突
• 量纲冲突 • 精度冲突
模式结构冲突
• 类结构冲突 • 属性冲突
• 属性结构冲突 • 属性类型冲突 • 属性长度冲突
数据冲突 数据表示冲突 不兼容对象实例冲突 模式冲突 命名冲突
• 同义词冲突 • 同形异义词冲突
• 类与属性冲突
数据网关 数据集成(多数据库系统)
17
应用系统1
应用系统2
应用系统3
源自文库
支持分布异构信息集成的数据访问中间件系统 数据库管理系统 文件管理系统 操作系统 1、多数据库系统(Multidatabase Systems) 2、异构数据集成系统(Heterogeneous Data Integration) 3、中间件系统(Middleware)- 数据集成中间件 4、互操作系统(Data Interoperation System)
8
多数据库系统基本结构
9
1.3 多数据库系统的特征
分布性、异构性和自治性是多数据库系 统的典型特征
分布性是指数据不是存放在单一场地为单 个计算机配置的存储设备上,而是可以分 散地存放在多个能够相互通信的场地 自治性是指各成员数据库系统能独立操作 自身系统的能力 异构性是指各成员系统在硬件结构,网络 协议,数据管理方法等方面存在的差异性
多数据库系统的核心技术
公共数据模型 模式集成 查询处理 事务处理 安全管理
14
1.5 数据库系统研究现状
国外针对异构数据库的集成、半结构化数据的管理、 XML数据管理等方面的研究较多,各有特色
Pegasus (HP) UniSQL/M (UniSQL) MIND (METU) DOMS (GE) Carnot (MCC) FBASE/InterBase (Purdue) DIOM (Alberta) TSIMMIS/Lore (Stanford) Caravel (INRIA) Garlic (IBM Almaden Research Center) DB2 Information Integrator (IBM)
33
合并和重构的两种方式
(a)二元集成方法
(b)多元集成方法
34
合并和重构应满足的性质
完备性:集成模式必须完全正确地包含 应该出现在集成模式中的所有概念。 最小性:集成模式中不包含任何冗余的 关联信息。 可理解性:集成模式对于设计者和用户 来说应该是易于理解的。
35
模式映射
外模式 外模式 外模式 全局数据层 (全局数据模型)
多数据库系统的分类
联邦数据库系统(Federated Database System)
最早提出时是作为一组松耦合的部件(如对象、 记录、类型)的联合,后来引申为没有全局模式 的松耦合数据库的联邦 联邦数据库不提供全局查询语言,各站点的用户 使用本地的查询语言就访问其他站点的数据
多数据库系统(Multidatabase Systems)
相关文档
最新文档