数据共享与交换平台解决方案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据同享与交换平台解决计划之老阳三干创作
二、计划概述
随着信息社会的到来,计算机网络环境和散布处理技术的深入成长.信息系统中的数据源所呈现的形式也日益单一,在这些数据中有模式固定的结构化数据,也有无模式的无序数据.这种无论是已知确定来自数据库的数据或是来自网络上的林林总总结构不固定、不完全或不规则的数据,都给信息系统在向国民经济信息化成长的过程中产生了很大的障碍.因此,完成不合数据的同享与交换成为各个企业与部分进行信息交换时所必须要解决的重要问题.主要原理如下图:
三、主要东西
1.东西简介
数据集成的目的就是要运用一定的技术手段将系统中的数据按一定的规则组织成为一个整体,使得用户能有效地对其进
行操纵.数据处理的对象是系统中的各类异构数据库中的数
据或者无格局数据,而数据集成的主要过程则是建立完善的
数据仓库,以及采取数据挖掘技术获取更多数据信息.ETL作
为数据库级的数据集成东西,擅长大量数据的迁移,能从多个数据源中抽取数据,然后进行数据转换和加载,最终得到统一的、完备的主题数据库或数据仓库,原来分离的应用仍独立运作.ETL中三个字母辨别代表的是Extract、Transform、Load,
即抽取、转换、加载.
数据抽取:从源数据源系统抽取目的数据源系统需要的数据;
数据转换:将从源数据源获取的数据依照业务需求,转换成目的数据源要求的形式,并对错误、不一致的数据进行清洗和加工.
数据加载:将转换后的数据装载到目的数据源.
ETL原本是作为构建数据仓库的一个环节,担任将散布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机阐发处理、数据挖掘的基础.一个简单的ETL 体系结构如图1.1所示.
2.ETL关头技术
数据抽取
数据抽取是从数据源中抽取数据的过程.实际应用中,数据源较多采取的是关系数据库.从数据库中抽取数据一般有以下几种方法:
全量抽取:全量抽取类似于数据迁移或数据复制,它将数
据源中的表或视图的数据原封不动的从数据库中抽取出
来,并转换成自己的ETL东西可以识此外格局.
增量抽取:增量抽取只抽取自上次抽取以来数据库中要
抽取的表中新增或修改的数据.在ETL使用过程中.增量
抽取较全量抽取应用更广.目前增量数据抽取中经常使用
的捕获变更数据的办法有:触发器、时间戳、全表比对、
日志对比.
数据转换和加工
从数据源中抽取的数据不一定完全满足目的库的要求,例如数据格局的不一致、数据输入错误、数据不完整等等,
因此有需要对抽取出的数据进行数据转换和加工.数据的转
换和加工可以在ETL引擎中进行,也可以在数据抽取过程中
利用关系数据库的特性同时进行.相比在ETL引擎中进行数
据转换和加工,直接在SQL语句中进行转换和加工加倍简单
清晰,性能更高.对于SQL语句无法处理的可以交由ETL引擎
处理.
数据装载
将转换和加工后的数据装载到目的库中通常是ETL过程的最后步调.装载数据的最佳办法取决于所执行操纵的类型
以及需要装入多少数据.当目的库是关系数据库时,一般来
说有两种装载方法:1)直接SQL语句进行insert、update、delete操纵;2)采取批量装载办法,如bcp、bulk、关系数
据库特有的批量装载东西或api.
3.主流ETL东西
ETL东西从厂商来看分为两种,一种是数据库厂商自带的ETL
东西,如Oracle warehouse builder、Oracle Data Integrator.
另外一种是第三方东西提供商,如Kettle.
Oracle Data Integrator(ODI):ODI主要定位于在ETL和
数据集成的场景里使用,ODI能够检测事件,一个事件可以触
发ODI的一个接口流程,从而完成近乎实时的数据集成.ODI
的主要功效特点有:使用CDC作为变动数据捕获的捕获方法、代理支持并行处理和负载均衡、完善的权限控制、版本办理
功效、支持数据质量检查,清洗和回收脏数据、支持与JMS消
息中间件集成、支持Web Service.
KETTLE:说到ETL开源项目,Kettle当属翘首,项目名称很有
意思,水壶.按项目担任人Matt的说法:把各类数据放到一个
壶里,然后呢,以一种你希望的格局流出.Kettle分为四大块:Chef——任务(job)设计东西 (GUI方法)、Kitchen——任务
(job)执行器 (命令行方法)、Spoon——转换(transform)设
计东西 (GUI方法)、Span——转换(trasform)执行器 (命令
行方法)
四、数据集成东西选择
1.对平台的支持程度
2.对数据源的支持程度
3.抽取和装载的性能是不是较高,且对业务系统的性能影响大
不大,倾入性高不高
4.数据转换和加工的功效强不强
5.是否具有办理和调度功效
6.是否具有良好的集成性和开放性。