数据集成综述报告

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据集成综述报告

介绍了数据集成的产生的产生背景,阐述了针对数据集成的相关的概念,详细的说明了数据集成所使用的领域,及各个领域中具体的作用和技术,说明了数据集成的方法,及其发展中的各个阶段,最后是数据集成的发展趋势、方向。数据集成的起源和概念

随着Internet的迅速发展,可共享的资源越来越多,对数据的描述千差万别,数据环境的差异也越来越大。不同行业、部门由于业务与功能的不同,各自都有着基于不同平台的信息服务和管理系统。这样,这些由不同核心技术构建的信息系统就形成了一个个的“信息孤岛”。而各个“孤岛”之间明显地存在着数据交流等诸多问题。由于不同数据源之间的信息和组织不同,构成了一个巨大而复杂的异构数据库环境。

就大型企业和政府部门的信息化而言,信息系统建设通常具有阶段性和分布性的特点,这就导致了“信息孤岛”现象的存在。“信息孤岛”造成系统中存在大量冗余数据、垃圾数据,无法保证数据的一致性,从而降低信息的利用效率和利用率,为了解决这一问题人们开始关注数据集成研究。

由于现代企业的飞速发展和企业逐渐从一个孤立节点发展成为不断与网络交换信息和进行商务事务的实体,企业数据交换也从企业内部走向了企业之间;同时,数据的不确定性和频繁变动,以及这些集成系统在实现技术和物理数据上的紧耦合关系,导致一旦应用发生变化或物理数据变动,整个体系将不得不随之修改。因此,我们进行数据集成将面临着如何适应现代社会发展的复杂需求、有效扩展应用领域、分离实现技术和应用需求、充分描述各种数据源格式以及发布和进行数据交换等问题。

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。

数据集成的应用

数据集中管理已经成为中国金融、电信、以及各级政府部门建设IT系统的主要方向,随之产生了大量对于数据集成的市场需求。中国主要商业银行正在进行数据中心的建设,数据中心承担着数据容灾、网上银行等重要作用,对数据同步有很高的实时性要求。中国主要电信企业已经完成省级数据仓库的集中建设,正在进行分析功能完善工作。为保证得到可靠的分析结果,要求必须使用完整的、一致的、准确的数据。中国政府推动的电子政务建设工作取得重要成绩,在已完成的金税、金财、金保等信息化系统中积累了丰富的数据,正在通过金宏工程的建设来实现宏观经济管理部门的信息互通,为国家宏观经济决策提供支持。更重要的是,中国各行业企业都已通过信息化建设积累了大量的数据,企业对数据集成的需求持续增长。

数据集成应用领域

1、数据仓库应用

数据仓库的发展在国内差不多有近10个年头,数据仓库中的数据集成应用主要是围绕ETL的功能来实现,一般来说其主要功能是将多个业务系统不同种数据类型的数据抽取到数据仓库的ODS(Operational Data Store)层,经过转换,加载存储到星型结构的数据仓库层,为满足不同主题的展现应用,再向关系型数据库或多维数据库进一步汇总加载,其ETL功能可由手工编程或专业工具软件这两种类型来实现。

由手工编程到专项ETL工具的应用是成熟的数据集成软件工具的雏形,是为快速达成项目功能需求,满足复杂的业务处理的需要而产生的。它以ETL为核心,开发技术也发挥得淋漓尽致,PB、JA V A、SQL、存储过程、C/C++都可能会悉数登场,多一种系统的数据集成就可能会多于一倍的开发工作量,使数据集成平台更趋于复杂、脆弱。另外,如电信、金融、税务、公安等行业的众多系统集成商针对各自的业务系统也开发有专项的数据集成工具,只是有一定的局限性,拘泥于某一种应用或某一特定的系统环境。

众多成熟的数据集成厂商都有专门的集成软件工具,如Informatica PowerCenter、IBM Datastage、Oracle ODI、Microsoft SISS等,集各种数据接口、ETL、数据质量、实时、数据联邦、分区并行、网格、HA等技术于一身,具有更宽广的应用、可扩展性强、安全稳定等一些特点。

2、数据迁移应用

这种应用比较容易理解,对于新旧系统升级、数据大集中时的数据作迁移,使数据更能顺应新系统的结构变化而平稳迁移。

3、数据合并应用

在企业并购中很容易产生数据合并的应用,如两个企业的HR系统的合并、财务系统的合并、其它业务系统的合并,当系统需要合并必然产生数据的合并,因此对企业数据进行统一标准化、规范化、数据的补缺、数据的一致性都将导致数据合并。

4、数据同步应用

当企业一个系统的业务活动会影响其它多个系统的进程时,数据的实时性、准确性就尤显重要。如航空公司与航空机场之间的数据同步、证券交易所与证券公司之间的股票信息同步、金融业的汇率信息同步等等。影响数据同步的实时性与可靠性的因素会有网络的连通性、传输效率、数据接口、数据格式等,这些诸多因素都属于数据集成中的数据同步要解决的问题。

5、数据交换应用

或者叫主数据管理应用,这种数据集成的应用正越来越受企业的重视。一般构成企业主要的基础数据分别是客户数据、产品数据、员工信息数据、供应商数据,要从企业多个系统中快速、可靠地建立唯一、完整的企业主数据视图。

要实现企业主数据管理应用的数据集成平台,必须具备有良好的数据连通性、良好的数据质量探查与分析、良好的数据转换能力等。前面提到跨多个企业、单位机构的架构就是一个典型的主数据管理应用,如公安局、工商局、税务局、人事局、劳动社保局等这些众多政府机构主要是围绕两个基本主体进行各项事务活动,一个主体是个人,另外一个主体是企业单位。而众多政府机构对这两个主体的信息数据要求重点不同、数据处理顺序有先后,数据变更各异,数据交换复杂性不同。而最理想的境界是这两个主体数据能做到最大程度的同步,这就是主数据管理的思想。

以上五种数据集成应用解决方案在国内最常见的是数据仓库的应用,最复杂的应用应该是数据交换了,但是都以ETL技术为基础,ETL技术成为了数据集成的核心技术。伴随ETL技术的还有数据连通、数据质量、数据清洗、数据联

相关文档
最新文档