数据集成的方法及技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
策支持.
数据集成的目的是运用一定的技术手段将各个独立系统中的数据按一定规则 组织成为一个整体,使得其他系统或者用户能够有效的对数据进行访问。数据集成 是现有企业应用集成解决方案中最普遍的一种形式。数据处于各种应用系统的中 心,大部分的传统应用都是以数据驱动的方式进行开发。之所以进行数据集成是因 为数据分散在众多具有不同格式和接口的系统中,系统之间互不关联,所包含的不 同内容之间互不相通。因此需要一种能够轻松访问特定异构数据库数据的能力。
主要会面对以 下几方面问 日 题‘ :
1 、异构性
异构性是异构数据集成必须面临的首要问题,其主要表现在两方面: ( 系统异构。数据源所依赖的应用系统、数据库管理系统乃至操作系统之间 ) 1 的不同构成了系统异构。 ( 模式异构。数据源在存储模式上的不同。一般的存储模式包括关系模式、 ) 2 对象模式、对象关系模式和文档模式等几种,其中关系模式为主流存储模式。需要 指出的是,即便是同一类存储模式,它们的模式结构可能也存在着差异。例如同为 关系型数据库,oal 所采用的数据类型与 SLSr r rce Q ey 所采用的数据类型并不是 e 完全一致的。
‘
华北电力大学硕士学位论文
第二章 数据集成的方法及技术
数据集成是指将不同应用系统、不同数据形式,在原应用系统不做任何改变的 条件下,进行数据采集、转换和存储的数据整合过程。在企业数据集成领域,己经 有了很多成熟的框架可以利用。目 前通常采用基于中间件模型和数据仓库等方法来 构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决
5 、权限问题 由于数据库资源可能归属不同的部门,所以如何在访问异构数据源数据基础上
保障原有数据库的权限不被侵犯,实现对原有数据源访问 权限的隔离和控制,就成
为连接异构数据资源库必须解决的问题。 6 、集成内容限定
多个数据源之间的数据集成,并不是要将所有的数据进行集成,那么如何定义
2 1数据集成面临问题 .
在企业信息化建设过程中,由于受各个子业务系统建设中具体业务要求和实施 本业务管理系统的阶段性、技术性以及其它经济和人为因素等因素影响,导致在发 展过程中积累了大量采用不同存储方式的业务数据。包括所采用的数据管理系统也 大不相同,从简单的文件数据库到复杂的关系型数据库,它们构成了企业的异构数 据源。异构数据源集成是数据库领域的经典问题,在构建异构数据源集成系统时,
要集成的范围,就构成了集成 内容的限定问题。 上面列举了在构建异构数据源集成系统时所必须面对的几个主要问题,其中,
异构性、 完整性、 性能、 数据不一致问题为异构数据集成中的共性问题, 权限问题、 和集成内容的限定则属于具体企业异构数据集成的特性问 题。但事实上,这些问题
是相互联系、相互制约的,不应该简单的孤立对待。
2 、完整性
异构数据源ቤተ መጻሕፍቲ ባይዱ据集成的目的是为应用提供统一的访问支持。为了满足各种应用 处理 ( 包括发布) 数据的条件,集成后的数据必须保证的完整性,包括数据完整性和
华北电力大学硕士学位论文
约束完整性两方面。
( 数据完整性是指完整提取数据本身,一般来说,这一点较容易达到。 ) 1 2 ( 约束完整性,约束是指数据与数据之间的关联关系,是唯一表征数据间逻 ) 辑的特征。保证约束的完整性是良好的数据发布和交换的前提,可以方便数据处理 过程,提高效率。
22数据集成模式 .
多系统间的数据集成常见有两种集成模式:又称网状数据集成模式和星型数据 集成模式[ ] 6 。 221点对点网状数据集成模式 .. 点对点模式,指在需要共享数据的应用系统之间直接建立接口,以实现数据共 享的目 的,如图21 一 所示。当需要交换数据的系统比较少的时候,点对点模型实现 起来具有快速简便的特点。但当系统规模不断扩大,需要交换数据的节点越来越多
3 、性能
网络时代的应用对传统数据集成方法提出了挑战,提出了更高的标准。一般说 来,当前负责集成的应用必须满足;轻量快速部署,即系统可以快速适应数据源改
变和低投入的特性。
4 、语义不一致
信息资源之间存在着语义上的区别。这些语义上的不同可能引起各种矛盾,从 简单的名字语义不一致( 不同的名字代表相同的概念) ,到复杂的结构语义冲突( 不 同的模型表达同样的信息) 。语义不一致会带来数据集成结果的冗余,干扰数据处 理、发布和交换。所以如何尽量减少语义不一致也是数据集成的一个研究热点。
数据集成的目的是运用一定的技术手段将各个独立系统中的数据按一定规则 组织成为一个整体,使得其他系统或者用户能够有效的对数据进行访问。数据集成 是现有企业应用集成解决方案中最普遍的一种形式。数据处于各种应用系统的中 心,大部分的传统应用都是以数据驱动的方式进行开发。之所以进行数据集成是因 为数据分散在众多具有不同格式和接口的系统中,系统之间互不关联,所包含的不 同内容之间互不相通。因此需要一种能够轻松访问特定异构数据库数据的能力。
主要会面对以 下几方面问 日 题‘ :
1 、异构性
异构性是异构数据集成必须面临的首要问题,其主要表现在两方面: ( 系统异构。数据源所依赖的应用系统、数据库管理系统乃至操作系统之间 ) 1 的不同构成了系统异构。 ( 模式异构。数据源在存储模式上的不同。一般的存储模式包括关系模式、 ) 2 对象模式、对象关系模式和文档模式等几种,其中关系模式为主流存储模式。需要 指出的是,即便是同一类存储模式,它们的模式结构可能也存在着差异。例如同为 关系型数据库,oal 所采用的数据类型与 SLSr r rce Q ey 所采用的数据类型并不是 e 完全一致的。
‘
华北电力大学硕士学位论文
第二章 数据集成的方法及技术
数据集成是指将不同应用系统、不同数据形式,在原应用系统不做任何改变的 条件下,进行数据采集、转换和存储的数据整合过程。在企业数据集成领域,己经 有了很多成熟的框架可以利用。目 前通常采用基于中间件模型和数据仓库等方法来 构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决
5 、权限问题 由于数据库资源可能归属不同的部门,所以如何在访问异构数据源数据基础上
保障原有数据库的权限不被侵犯,实现对原有数据源访问 权限的隔离和控制,就成
为连接异构数据资源库必须解决的问题。 6 、集成内容限定
多个数据源之间的数据集成,并不是要将所有的数据进行集成,那么如何定义
2 1数据集成面临问题 .
在企业信息化建设过程中,由于受各个子业务系统建设中具体业务要求和实施 本业务管理系统的阶段性、技术性以及其它经济和人为因素等因素影响,导致在发 展过程中积累了大量采用不同存储方式的业务数据。包括所采用的数据管理系统也 大不相同,从简单的文件数据库到复杂的关系型数据库,它们构成了企业的异构数 据源。异构数据源集成是数据库领域的经典问题,在构建异构数据源集成系统时,
要集成的范围,就构成了集成 内容的限定问题。 上面列举了在构建异构数据源集成系统时所必须面对的几个主要问题,其中,
异构性、 完整性、 性能、 数据不一致问题为异构数据集成中的共性问题, 权限问题、 和集成内容的限定则属于具体企业异构数据集成的特性问 题。但事实上,这些问题
是相互联系、相互制约的,不应该简单的孤立对待。
2 、完整性
异构数据源ቤተ መጻሕፍቲ ባይዱ据集成的目的是为应用提供统一的访问支持。为了满足各种应用 处理 ( 包括发布) 数据的条件,集成后的数据必须保证的完整性,包括数据完整性和
华北电力大学硕士学位论文
约束完整性两方面。
( 数据完整性是指完整提取数据本身,一般来说,这一点较容易达到。 ) 1 2 ( 约束完整性,约束是指数据与数据之间的关联关系,是唯一表征数据间逻 ) 辑的特征。保证约束的完整性是良好的数据发布和交换的前提,可以方便数据处理 过程,提高效率。
22数据集成模式 .
多系统间的数据集成常见有两种集成模式:又称网状数据集成模式和星型数据 集成模式[ ] 6 。 221点对点网状数据集成模式 .. 点对点模式,指在需要共享数据的应用系统之间直接建立接口,以实现数据共 享的目 的,如图21 一 所示。当需要交换数据的系统比较少的时候,点对点模型实现 起来具有快速简便的特点。但当系统规模不断扩大,需要交换数据的节点越来越多
3 、性能
网络时代的应用对传统数据集成方法提出了挑战,提出了更高的标准。一般说 来,当前负责集成的应用必须满足;轻量快速部署,即系统可以快速适应数据源改
变和低投入的特性。
4 、语义不一致
信息资源之间存在着语义上的区别。这些语义上的不同可能引起各种矛盾,从 简单的名字语义不一致( 不同的名字代表相同的概念) ,到复杂的结构语义冲突( 不 同的模型表达同样的信息) 。语义不一致会带来数据集成结果的冗余,干扰数据处 理、发布和交换。所以如何尽量减少语义不一致也是数据集成的一个研究热点。