ibm数据管理解决方案-元鼎时代

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

ibm数据管理解决方案|元鼎时代
篇一:IBM数据仓库解决方案(简)
技术架构设计
成功地实施一个仓库项目,通常需要很长的时间。

如果仅仅着眼于短期成果,缺乏整体考虑,采用一种不健全的体系结构,不仅会增加系统开发和维护成本,而且必将对发挥数据仓库的作用造成不利的影响。

因此一个综合,清晰的远景规划及技术实施蓝图将在整个项目的实施过程中起到重要作用。

技术架构必须具有高度先进性和可扩展性,以满足业务需求的不断变化。

一个完整的数据仓库系统包括数据源、数据转换区、数据仓库、数据集市、和数据展现层,通过数据仓库不同层次之间的加工过程,实现财政从数据资产向信息资产的转化过程。

在不同层次之间的数据加工过程需要通过ETL技术实现,并对整个过程进行有效的元数据管理。

基于对需求的理解,基于财政部的信息系统框架模型基础之上的财政决策支持系统技术架构如下图(来自: 小龙文档网:ibm数据管理解决方案|元鼎时代)所示:
如上图所示意,通过搭建灵活的、可扩展技术架构,在保持数据集市稳定性的同时,可以不断增加数据源,增加应用数据层、增加应用层,满足不断增加的业务分析应用需求。

采用DW+ODS的数据仓库体系结构,使用全新的ETL模式对ODS进程每日数据更新,按周或月周期对数据仓库执行ETL过程。

使用COGNOS BI做为前端的查询分析和数据挖掘工具,可满足各种日常数据处理操作,从即时简单报表查询到多维多级数据分析和挖掘,都能够在统一COGNOS BI平台上完成。

数据源和数据接口
数据源指存储于财政各个业务系统的业务数据,以及未来的财政监管和外部数据。

数据仓库系统将整合来自于这些系统的数据,形成财政统一的、一致的基础数据集,并提供给不同的应用主题形成数据集市。

各个系统在体系架构、开发平台、数据定义、接口标准都会存在不同程度的差异;另外由于业务的不断变化,历史数据与当前数据之间的含义也可能存在不同,因此数据整合必须充分考虑源系统在技术和数据方面存在的差异。

数据仓库系统将采用文本文件的方式从源系统获取数据。

每个源系统会就与数据仓库之间就传输数据接口文件(IFF)的格式和方法制定标准,称之为接口规范。

每个数据源会首先通过各自的数据导出程序(Extractor)生成接口文件存储在各自的文件缓冲区内。

这个Extractor负责各自范围内导出数据的完备性和一致性,包括:
1)依照各自的业务规则确定增量数据的导出方法
2)保证导出文件的格式符合接口规范的要求
3)保证导出文件的传输时间的及时性
4)保证接口文件的数据质量,不错数、不丢数、不多数
财政数据仓库
财政数据仓库(EDW),存储和管理来自源数据系统的数据,按照数据模型分主题进行组织和存放,包括当期的和较长时间的历史数据。

数据仓库的核心是企业级数据模型的规划和设计,是所有应用的基础。

接下来我们分别对EDW每个数据区域做详细介绍。

1)接口文件区
接口文件区是存储和处理接口文件的区域,如前面章节所述,接口文件区在系统下按照特定的目录结构组织起来。

用一些系统命令和工具来管理。

对每个目录按照其特定的用途设定对不同用户的访问权限,比如谁能读,谁能写,谁能改等。

2)细节数据暂存区SSA(SOR Staging Area)
SSA的主要目的是支持把接口文件的装载到数据库,对其进行验证和处理,然后把数据整合到SOR内。

验证的方法主要是将新转载的数据与SOR内已有的数据进行查找和比较。

SSA内数据结构的设计原则是最大限度的利用接口文件的数
据结构,尽量降低实体的个数,同时很好的支持后续的ETL 过程。

3)细节数据SOR(System Of Record)
SOR是基于模型开发的一套符合3NF范式规范的表结构。

SOR存储了数据仓库内最细节层次的数据,按照不同的主题域进一步分分类组织。

此模型是整个数据仓库数据模型的核心,其设计为具有足够的灵活性,以能够应对添加更多的数据源,支持更多分析需求,同时也能够支持进一步升级和更新。

为了能够在数据仓库内记录数据的变化以支持历史趋势和变化分析,SOR在一些关键的属性值上会跟踪变化(比如客户的信用度、状态等)。

跟踪变化的常见方法就是利用渐变维的Type 2方法来处理记录,在表内增加一条记录变化数据的新记录。

同时为了降低不必要的存储空间的浪费(相同数据的重复存储),我们可以把实体中动态变化的属性与静态不变或只需覆盖不需跟踪变化的属性分开。

比如对用户,我们可以用一张表存放不变化的用户静态属性,用另一张表存放经常变化的用户行为属性,当跟踪用户行为的变化时我们只需在用户行为表内添加记录就行了,没必要把没有发生变化的用户静态表内的数据也复制一份。

4)汇总数据区Summary
汇总数据区是为了方便查询和后续多维数据的更新,
创建一些常用的中间汇总表,以提高性能和降低后续ETL工作的复杂性。

由于SOR是高度规范化的数据,因此要完成一个查询需要大量的关联操作;同时数据集市中的数据粒度往往要比SOR高很多,对要成生数据集市所需数据也需要大量的汇总计算,因此如果我们把常用的数据预先关联和汇总好,并让其尽量多在多个数据集市的计算中共享,就能大幅度的提高整个ETL工作和数据仓库查询的性能。

5)反馈数据区(Feedback Area)
反馈数据区主要记录的是数据仓库自身生成的结果。

比如用户对营销活动的反馈等。

数据仓库的特性决定了用户在原则上不能直接修改数据仓库中的数据,因此用户的修改数据和其它生成数据必须单独记录,以便于追踪历史和进行比较。

6)元数据存储MDR(Meta Data Repository)
元数据存储用来保存关于数据仓库中的过程、数据的信息(日志、数据词典、配置信息等)。

由于各个工具和系统都会生成自己的元数据,同时我们还利用元数据管理工具把这些元数据尽可能的集中存储到数据仓库中的MDR内,因此MDR总的来说只是一个共享元数据供用户集中访问的地方,真正元数据的维护地还是在生成这些元数据的系统或工具内。

数据集市
数据集市设计用途是要满足特定的目的,同时具有查询、多维分析、报表和数据挖掘功能。

这与企业数据仓库截然不同,设计时企业数据仓库在信息内容与结构方面尽可能拥有开放性与灵活性。

数据集市有以下特征:
? 为特定用途而设计——数据集市设计的目的,是支持特定用户对数据子集的特
定范围的查询。

它以用户所要求的方式提供企业数据仓库的细节汇总。

? 优化——数据集市为了支持特定工具的访问而优化。

根据工具、根据企业数据
仓库提供的信息子集来设计数据集市,而不是让用户直接访问企业数据仓库中
的大型数据库,这可以改善数据集市的性能。

? 虚拟或物理数据集市——数据集市可以是物理的实现,也可以是企业数据仓库
表的各种视图。

使用视图(虚拟数据集市)可以避免存储数据的多个副本,简化了数据管理。

数据集市,即Data Mart,指面向专项应用领域的分析主题。

Data Mart即是通过OLAP技术或者数据挖掘技术,利用数据仓库的数据根据用户需求建立的数据集市模型,大大
提高了前端查询访问的效率,用户能方便地实现灵活、动态、快速、多角度、多层次地分析企业数据。

同时,也可以通过定制灵活的OLTP查询来了解明细数据。

数据的抽取、转换、加载(ETL)
数据仓库的数据来源于业务处理系统,但是数据仓库的数据并不是对源系统数据的简单叠加,它需要按照数据仓库的逻辑模型和物理模型,在源系统数据分析的基础上,按照源系统数据和数据仓库数据之间的映射关系,经过数据的抽取(Extraction)、转换(Transformation)和加载(Loading)等环节方可进入数据仓库,这个过程简称为ETL 处理。

数据经过数据抽取、转换和加载处理进入数据仓库的整个过程可以简称为ETL过程。

ETL是搭建数据仓库数据平台的基础,也是保证数据仓库的数据质量的具体实现。

根据基于数据仓库项目开发的经验,在大多数据仓库的实施过程当中,ETL都是一个非常复杂、耗时的过程,其工作量约占整个数据仓库项目的40-50%,占数据仓库设计阶段工作量的70-80%,有许多原因影响这一阶段的时间和进度。

比如对原有业务系统和旧的操作环境的了解有限,原系统文档不全等。

因为这些原因,使ETL任务花了许多时间在了解旧的业务应用以及如何抽取数据上。

ETL实施困难另一个原因是原有的系统平台没有足够的容量/系统资源来支持数据抽取处理,
系统资源不足可能表现为:CPU、磁盘空间、I/O带宽或没有一个有效的窗口去运行抽取、转换程序。

ETL过程不仅工作量大,而且还受到很多时间窗口的限制,它不仅需要在不同的特定(非确定)的时间抽取数据,而且还必须要在特定的时间范围内把数据加载到数据仓库。

由于ETL过程是数据仓库应用系统每天都要进行的工作,ETL设计的科学性和效率性是非常重要的,关系到数据仓库项目的成败。

篇二:IBM DB2信息管理解决方案概览
IBM DB2信息管理解决方案概览
目录
IBM DB2及信息管理市场概况 2
IBM DB2在数据库及信息管理发展史中的重大贡献 2
IBM继续保持全球第一数据库管理软件供应商地位 3
IBM交付世界最快的数据库 4
IBM DB2信息管理产品和解决方案 5
DB2 通用数据库 5
产品概述和特点 5
成功案例 7
DB2 商业智能解决方案 7
产品概述和特点 7
成功案例 11
DB2 内容管理解决方案 12
产品概述和特点 12
成功案例 14
DB2信息集成软件 15
产品概述和特点 15
DB2 数据库工具 17
产品概述和特点 17
专题文章: IBM DB2降低企业TCO 18
IBM及信息管理市场概况
IBM的信息管理软件— DB2自1983年发布至今已经走过了20个年头,自发布以来,DB2已经成为支持主机关键业务应用的黄金标准,而上一个十年中,我们已将DB2的领先地位扩展至开放系统平台。

如今世界各地已有400,000多家公司在DB2上运行其商务应用。

今天,IBM提出了“随需所取”电子商务的概念,而信息管理对于“随需所取”电子商务的重要性正如IBM的CEO Sam Palmisano所言:“客户对于基础架构的最基本的要求是能够集成跨越他们整个组织结构的数据—一个能够让客户获取整合信息的基础架构。

如果公司不能获取‘随需应变’的信息的话,它们无法成为‘随需所取’电子商务”。

此时的我们正在见证信息管理技术的一次重大的革新,即从支持单一对象,面向记录的数据库转向综合信息基础架
构以传递“随需应变”的信息。

IBM 信息管理团队致力于信息管理创新30余载,为了满足“随需所取”电子商务时代对基础架构“整合,开放,虚拟化以及自主化”的新特点,为我们带来了新的DB2—信息管理软件(Information Management Software): DB2不再只是一个数据库—它集成了基于开放系统,跨越多平台的数据库服务器; 扩展了为各种数据类型信息提供整合访问通道的内容管理软件; 帮助客户从以上各种数据中分析提取有价值信息的商业智能软件; 整合异构环境中的分布式信息的信息集成软件; 以及降低客户管理维护成本的自主化工具软件。

新DB2为我们带来的是整合信息资源,实现随需应变的开放,智能,全面的信息管理解决方案。

IBM 在信息管理发展史中的重大贡献
IBM公司在计算机科学的发展史上扮演了重要的角色。

而数据库管理系统,尤其是关系型数据库,更是与IBM有着不可分割的关系。

关系型数据库发展史可以按时间分为以下几个阶段: 70年代关系型数据库模式的提出和SQL语言的发明、关系型数据库的发展(分布式数据库及
面向对象的支持),商业智能和e-Business的数据平台。

三十多年来从理论研究到具体的系统实现,IBM研究人员对数据库管理系统的发展作出了极大的贡献。

IBM在信息管理领域的专利超过260项,远远大于其它竞争对手的总和。

关系型数据库模式的提出和SQL语言的发明:
1970年IBM研究中心的博士提出了关系型的数据库模式,奠定了关系型数据库日后发展的理论基础,并为此于1981年荣获计算机科学界的最高荣誉奖ACM图灵奖。

1973年IBM研究中心开始了一个大的关系型数据库系统研究项目System R,探讨并验证在多用户与大量数据下关系型数据库的实际可行性。

在博士的领导下System R的一个研究小组发明了一套比关系微积分与关系代数更适合最终用户使用的非程序化查询语言SQL
[Chamberlin74,76,80]。

从此,基于SQL的关系型数据库逐渐成为了数据库管理系统的主流。

目前所有的关系型数据库厂家的产品都遵循这一标准。

由于System R与SQL 对关系型数据库管理系统结构的贡献,其主要设计人员于1988年获得了计算机领域中崇高的实用软件系统奖。

分布式数据库概念及对面向对象的支持:
80年代初期至中期,IBM艾玛登研究中心的研究人员通过System R*研究项目[Lindsay84]探讨分布式数据库的实现技术,其研究成果为日后的分布式关系型数据库架构标准DRDA(Distributed Relational Database Architecture)以及建立数据仓库常用到的数据复制等机制提供了技术来源。

1984到1992年,IBM艾玛登研究中心开始了一项名为Starburst的大型研究计划[Haas90,Lohman91],旨在建立
新一代的、具延伸性的关系型数据库原型。

所谓延伸性是指数据库各子系统实现开放性,使用户能够很容易地把新功能加注到一个SQL关系型数据库里,以便支持新的应用。

通过把类似面向对象的抽象数据类型(Abstract Data Type)与继承性(Inheritance)融入SQL语言及关系型数据库核心的做法,Starburst容许系统内部与外部的功能被延伸。

与此同时Starburst研究人员在查询改写优化处理(query rewrite optimization),特别是索引结构(specialized indices),日志预写回复技术(recovery method based on write-ahead logging),主动数据库技术(active database)等方面皆有创新的贡献。

Starburst的研究项目产生了大量的修正基本数据库结构的文献与专利。

如同System R推动了SQL关系型数据库的商业化一般,Starburst提供了新一代商用对象关系型数据库(Object-relational Database)宝贵的经验与技术来源。

DB2在面向对象数据库技术上的发展目标是对象关系型数据库,它是以关系型数据库的架构为基础,加入面向对象的功能。

这有别于所谓的OO Database,OO Database不是关系型数据库,而是以对象为目的所建立的一种新数据结构。

现在计算机科学界以及数据库工业在面向对象的走向方面,是以这种对象关系型数据库为主流。

DB2面向对象的技术及其实施领先群雄。

当其它数据库公司还在探讨面向对象
技术融入数据库的可能性时,IBM就已在1995年推出这些最先进的东西。

它在新的数据库国际标准(SQL3)的研讨和形成上,也一直处于领导者地位,它完善的OO结构已经存在于产品内核里。

IBM正以滚雪球的惊人速度在开发其他更先进的功能,例如对复杂数据的更深层次优化,抽象数据类型(Abstract Data Type)等等。

商业智能和e-Business强大的数据平台:
随着技术的不断向前发展和竞争的日益激烈,商业智能和e-Business成为企业发展的主要方向。

包括数据复制在内的分布式信息管理功能提供了建立数据仓库的基本体系结构。

而SQL关系型数据库因为提供了即席查询(ad hoc query)的功能成为了目前数据仓库的数据存储与决策支持的环境。

IBM的许多SQL查询优化处理研究成果直接支持数据仓库环境下的应用。

例如在处理多维分析(multi-dimensional analysis)的时候,IBM的关系型数据库系列产品DB2 UDB的优化器能以笛卡尔连接优化(Cartesian join optimization,又称星式连接
Starjoin)和动态位图索引(Dynamic bitmap index Anding)迅速地完成多表连接满足多维分析在关系型数据库内的执行。

但是随着数据的大量累积许多隐藏在数据中的信息已很难被传统的决策支持应用所发掘,为此一种称为数据挖掘(data mining)的技术正在兴起。

Quest[Agrawal96]是
IBM艾玛登研究中心的另一项重要研究项目,探讨新的数据挖掘计算方法。

这些技术包括关联定律(association rules),系列模式(sequential patterns),归纳(classification),时间系列群(time-series cluster)等数据挖掘方法,并且已经在DB2 UDB的相关产品中全部实现。

而 e-Business更是首先由IBM公司提出的新理念,在IBM的各类软件产品种都体现了对e-Business的支持,在信息管理产品中主要体现在以下的几个方面: 对于XML的支持,扩展器,支持多种主流的电子商务标准(Java、HTML、XML、LDAP等),OLAP和多媒体信息可由WEB方式展示等。

所有这些都充分说明IBM无论在技术还是产品方面都走在前面。

IBM继续保持全球第一数据库管理软件
供应商地位
独立分析公司Gartner Dataquest XX年发布的报告指出: 在数据库管理系统软件领域,XX年IBM公司的新许可证销售收入超出竞争对手; IBM已成为全球数据库管理系统软件的冠军。

根据这份报告,IBM的新许可证营业额稳占首位,并拥有%的市场份额。

IBM还在Unix和Windows市场中继续保持了两位数的增长。

在Unix数据库市场,IBM的业务增长了%,在Windows市场则继续增长了%。

Gartner XX 年的研究报告,XX年全球数据库市场排名
前三位是分别是IBM,Oracle和微软,其中IBM所占份额为36%,Oracle所占份额为34%,微软所占份额为18%。

IBM继续保持全球第一数据库管理软件供应商地位。

上述事实的原因包括:
?Oracle公司的“独占(go it alone)”策略使得领先的应用软件开发商,如SAP、Siebel、PeopleSoft、Retek 和JD Edwards抛弃了Oracle,而选择了DB2作为他们首选的数据库平台。

?IBM的数据库管理软件支持最广泛的平台。

DB2支持业界所有主流的IBM和非IBM的平台,包括Linux、AIX、Sun、HP和Windows等。

?IBM为客户提供了业界最低的总体拥有成本(TCO),包括整体的产品价格和实施、管理及维护数据库所需要的人力。

另外,同微软产品相比:
?DB2为计算平台的选择提供了最大的灵活性。

IBM支持业界最广泛的平台,而微软的是一个单平台解决方案,只能运行在Windows之上。

大多数客户的站点运行在多平台之上。

?IBM支持多种开发环境 (java和.NET)。

DB2允许客户在应用程序开发和实施过程中选择更多的工具和结构。

DB2的开发工具实现了与WebSphere和Visual Studio二者中领先工具的无缝集成。

微软正在试图将所有的开发者锁定在.NET环境下,这个环境只能运行于单一的操作系统—
Windows。

?DB2提供的高性能和可扩展能力,是Microsoft SQL Server无法实现的。

IBM在为企业提供关键业务应用开发方面拥有很长的历史。

DB2提供的工具和技术使得用户无论在实施供少数用户使用的单一程序,或者建立支持数千用户的电子商务站点,亦或搭建含有海量数据的企业数据仓库时,都能实现其性能指标。

要得到更多信息,请访问/data。

IBM交付世界最快的数据库
——在商业智能实施中,DB2数据库软件具有无以伦比的性能和最低的总拥有成本
IBM公司XX年宣布,根据工业标准TPC—H测试,DB2数据库软件在商业智能性能方面已经创造了三项世界记录。

根据这些最新的测试结果,在所有公布的标准数据容量范围参数(100GB、300GB、1000GB和3000GB)中,DB2都拥有最佳的性能。

测试结果清楚的表明,无论在少量的还是在多达兆兆位的数据环境下执行各种复杂的查询任务,IBM的产品均可提供快速响应。

在Linux、UNIX和Windows等不同的工业标准操作系统平台上,IBM的产品均可锏焦诵阅埽被乖市碛没Ю盟且延械募寄芎突〖芄垢斓亟吠斗攀谐『图醯妥芴逵涤谐杀尽?
XX年,IBM宣布eServer系统和DB2通用数据库8版本打破了交易处理世界纪录— eServer pSeries服务器系统和DB2通用数据库只用了一半数量的处理器就击败了惠普基于Itanium 2并运行Microsoft Windows Server XX的“超腾”服务器。

从某种意义上讲,IBM在这一领域的现有产品已经战胜了竞争对手未来的产品。

根据交易处理性能委员会的TPC-C性能测试基准,带有32个POWER4+处理器并运行AIX操作系统和DB2通用数据库的eServer p690以美元/tpmC 的成本达到了每分钟680,次交易(tpm/C)的性能。

而使用Itanium 2处理器的系统却需要使用两倍数量的运行Windows的处理器才能达到IBM p690提供的最高性能水平。

要得到更多关于IBM的TPC-H测试结果信息和完整的公开报告,请访问相关站点/tpch/。

IBM信息管理产品和解决方案
IBM 信息管理产品可以分为数据库(DB2 UDB / Informix),商业智能(DB2 OLAP和Intelligent Miner,Warehouse Manager,Redbrick),内容管理(Content Management), DB2 信息集成软件(Information Integrator)和DB2 数据库工具五大类。

DB2通用数据库(DB2 UDB)
产品概述和特点
关系型数据库是IBM的发明。

IBM研究中心的研究成果为IBM数据库产品提供了先进而可靠的技术来源。

DB2起源于System R,System R*等项目,基于SQL的DB2关系型数据库家族产品是IBM的主要数据库产品。

80年代初DB2的发展重点放在大型的主机平台,从80年代中期到90年代初DB2已发展到中型机、小型机以及微机平台。

以DB2的市场定位看,它是IBM信息管理软件的核心。

DB2的市场战略是继续扩大UNIX及PC平台的市场占有率,配合DB2在主机环境(OS/390,VM,VSE,OS/400)数据库的优势,提供给其客户一个最完整、最具有保障的信息管理环境,继而帮助其客户建立一个迈向未来需要的电子商务计算环境。

DB2家族的各种关系数据库管理系统适用于各种硬件平台,其中包括UNIX,PC和主机系统。

各种平台上的DB2有共同的应用程序接口,因此运行在一种平台上的程序可以很容易地移植到其他的平台。

DB2家族除了包含在各种平台上运行的数据库管理系统内核之外,产品包中还包括了数据复制、数据库系统管理、Internet网关支持、在线分析处理、多媒体支持和各种并行处理能力,免费提供DB2 UDB在PC 和UNIX平台上的客户机端产品(DB2CAE),并为所有平台上的异构数据库访问提供“中介件”(Middleware)解决方案。

这些产品是全功能、具有工业强度的关系数据库管理
系统,分别用于服务器和工作站平台。

可以把它们配置到单个的系统上,或者配置到支持客户机工作站的LAN服务器上,还可以把它们配置为环球网(Internet)上的数据库服务器。

DB2 UDB产品建立在一个共同代码的基础之上,依据多进程/多线索结构进行设计,其数据库
引擎的核心技术来自Starburst研究项目以及DB2 for OS/390等主机产品,而且它们在数据和应用的可移植性两个方面与DB2家族中的其他成员完全兼容。

因而任何受过一种平台上的DB2培训的人员能够很容易地使用其他平台的DB2产品。

在保持这种外在的兼容性以及具备DB2家族成员所必需具备的可靠性和可管理性的同时,实际上它们每个产品还针对各自的平台环境作了调整和优化以达到业界领先的性能/价格比。

DB2 UDB提供Java Stored Procedure Builder,是让软件开发人员在服务器端快捷地开发Java的图形化工具。

JavaStored Procedure Builder可在多重环境下除错及推行已安装的存储过程。

IBM Visual Age for Java及Microsoft Visual Studio可顺利的与Java Stored Procedure Builder 连接,形成一个完整的程序开发环境。

DB2 UDB致力于商业智能和数据仓库方面的改进,包括自动触发器,多分区和多表的自动总计表格,优化星式结构的连接方法,使查询和整个系统的反应速度大大提高。

同时。

相关文档
最新文档