IBM数据仓库解决方案 - 通用版
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
© 2010 IBM Corporation
IBM Software Group | Information Management
信息随需应变
揭秘信息在保持竞争优势方面的商业价值
盈利能力 风险 洞察力 运营效率 优化 多渠道营销
业务优化
行业应用模型
信息利用
Cognos BI Cognos Planning Cognos TM1 Information Server InfoSphereWarehoues Master Data Managerment
工作负载 C
用户/应用程 序 请求
DB2 引擎
规则
工作负载 A 工作负载 B
STO P REA DS REMA P READ S
Marketin g
实现不同服务级别
–
Sub
资源公平使用
– 分组资源总量控制 …
开发
默认工作负载 系统数据库 请求
默认 用户服务类
默认 系统服务类
24
© 2010 IBM Corporation
数据利用结果促进业务不断优化
业务自动化
业务持续优化
IBM Business Intelligence Solution | 2010
© 2010 IBM Corporation
IBM Software Group | Information Management
依据各种类型的使用者的需求进行分析
HASH数据库分区
使用DPF, 查询也许 仍然读取 大部分的 数据,但 查询却可 以并行到 所有的节 点
P1
P2
P3
19
© 2010 IBM Corporation
IBM Software Group | Information Management
HASH数据库分区 + Range 表分区
所有的相同范围的数据在一个分区中 数据库仅读取适合分区的数据 所以range分区节省I/O资源
原始行
压缩行
IBM Software Group | Information Management
DB2 提供强大的数据压缩能力
大大减少存储成本,提高I/O效率
压缩类型 无压缩 记录压缩 32KB 页数 5893888 1392446 磁盘空间需求 179.9GB 42.5GB
国内测试结果: XX软件: 数据存储减少60%以上, 同 时交易性能提升10% XX移动: 数据存储减少50% XX银行: 数据存储减少50%
DB2 ESE/DPF/QP/Compression
Data Ware hous e
pSeries Server cpu 1 cpu n-1 cpu 2 cpu n pSeries Server cpu 1 cpu n-1 cpu 2 cpu n pSeries Server cpu 1 cpu n-1 cpu 2 cpu n
P1 P2 P3
Jan
Feb
而且, 表可以 更容易 的rollin/roll -out of dat.
Mar
21
© 2010 IBM Corporation
IBM Software Group
DB2 9 的数据压缩技术
基于字典的压缩——为压缩/解压数据建立符号表 使用基于静态字典表的Lempel-Ziv (LZ) 算法 数据在内存/磁盘中均以方式驻留 节省大量I/O 显著节省内存占用 占用CPU负载: 行数据处理前,需要进行解压缩操作 如果有些行数据的压缩并不能显著节省空间,那么DB2将自动选择不进行 压缩
IBM Software Group
IBM 数据仓库 解决方案
周雄志 IBM软件部
© 2010 IBM Corporation
IBM Software Group | Information Management
内容
建设一个什么样的数据仓库? 数据仓库软件 – InfoSphere Warehouse 数据整合软件 – InfoSphere DataStage 分析展现软件 – Cognos BI 四位一体解决方案 – ISAS
源数据 数据整合
Infosphere Warehouse
数据仓库 数据集市 分析 展现
核心系统 总账 信贷 卡系统 基金 财务 HR …… 文件
实时操作 实 时 、 近 实 时 、 批 量 转 换 、 验 证 、 组 合 信 息 服 务 接 口
数据集市
业务报表
RAROC
内嵌挖掘
关系数据模型
仪表盘 门 户 信 息 发 布
P1 P2 P3
Jan
Feb
Mar
20
© 2010 IBM Corporation
IBM Software Group | Information Management
HASH数据库分区 + Range表分区 + MDC聚簇 索引
有了 MDC, 数据进 一步根 据属性 聚簇组 织 更少的 I/O
– SELECT NAME,
TOTAL_SPEND, LOYALTY_TIER from CUSTOMERS where REGION=
如果没有使用DPF, 查询时大部分的处 理都只能利用1个 CPU
18
© 2010 IBM Corporation
IBM Software Group | Information Management
Database Partition
data
log
data
log
data
log
data
log
Data
Log
13
© 2010 IBM Corporation
IBM Software Group | Information Management Software
DB2 数据库并行机制
CPU CPU CPU CPU MEM
DB2 – 非共享体系结构
分区数据库模型 数据库被分成多个分区 数据库分区运行在各个节点上 分个数据库分区具有自己的资源 (Engine, LogMg., LockMg., Caches, etc.) 数据库协调所有分区进行并行处理 对用户和应用来看,是一个单独的系统
Fast communication manager
高中级决策者
专业经营分析人员
用户控制
专业经营分析人员
易于自己操作控制 强调某个主题领域的深入的信息 洞察和视图 支持灵活的、复杂的、自定制的 分析 需要的数据能即取所需
战略
数据广度
数据挖掘 OLAP 报表 查询
IBM Business Intelligence Solution | 2010
SMP服务器
table
high-speed network
CPU CPU CPU CPU CPU CPU CPU CPU
MPP集群
MEM
MEM
table
14
© 2009 IBM Corporation
IBM Software Group | Information Management
DB2混合分区极大提升数据仓库性能
信息整合
其他信息来源
信息管理
DB2 Informix ECM
IBM Business Intelligence Solution | 2010
© 2010 IBM Corporation
IBM Software Group | Information Management
银行业数据仓库架构
Daห้องสมุดไป่ตู้aStage
DBA BI Designer
Cubing Services
In-Line Analytics
Unstructured Analysis
BI Specialist
Extend Value via Analytics
Simplify Warehouse Infrastructure
SQW: Design, Deploy, Refine
% 节省存储: 76.4%
23
© 2010 IBM Corporation
IBM Software Group | Information Management
灵活的工作负载管理能力
防止系统资源过度消耗
– – – 并发作业数等控制 对作业运行的总时间进行限制 阻止”垃圾“SQL、”流氓“查 询 对作业进行优先级管理
内容
建设一个什么样的数据仓库? 数据仓库软件 – InfoSphere Warehouse 数据整合软件 – InfoSphere DataStage 分析展现软件 – Cognos BI 四位一体解决方案 – ISAS
IBM Business Intelligence Solution | 2010
高中级决策者 分析复杂度 客户化程度 战术
强调易于操作使用 需要企业级广度的管理信息视图 一站式管理信息 需要提供策略性、管理型知识 需要一定的即取所需的灵活性
一般业务人员
一般业务人员
易用性 数据深度
易于操作使用 需要某些主题领域或部门的信息 视图 一站式汇总业务信息 能够提供相应的业务知识
© 2010 IBM Corporation
IBM Information Management
InfoSphere Warehouse
Ease of Design and Manage via Tooling
Eclipse Design Studio Web Administration Console Data Mining
IBM Software Group | Information Management
联邦访问
联邦技术可以组合多种不同的数据源,实现虚拟整合,对于最终用 户、数据管理者、开发人员来看,所有数据如同在同一个DB2数据 库中,可以方便的进行查询和处理。
企业信息利用的变革
现状
实时
应用
目标
统计 在线管理 决策 分析
业务 1
业务 2
…
业务 n
…
业务应用支撑平台
数据中心 … 基础业务库 应用系统垂直分割 数据存储相对独立 跨部门信息共享困难 业务关联日益密切 面向要素组织数据 数据深度整合支持业务持续发展 数据深度利用服务决策 综合 分析库
客户分析 产品分析
文本分析 风险分析
多维数据模型
记分卡
计算引擎
绩效管理 客户细分
交互分析
数据质量管理 ….. 报表
IBM Business Intelligence Solution | 2010 © 2010 IBM Corporation
IBM Software Group | Information Management
WLM: Workload Management
DBA IT Specialist
…
I/O Channels
I/O Channels
I/O Channels
BCU 1
BCU 2
BCU N
11
© 2010 IBM Corporation
IBM Software Group | Information Management
© 2010 IBM Corporation
IBM Software Group | Information Management
动态数据仓库 – 战略目标
随需应变的信息 优化事实的业务流程
动态数据仓库
多维分析和数据挖掘 理解业务趋势和规律
传统数据仓库
查询和报表 理解业务的状况
IBM Business Intelligence Solution | 2010
实现对业务的洞察 和改进
灵活共享的 信息架构
信息用来管理业务
通过对信息使用的创新 提供新的业务价值
信息应用成熟度
数据用来支撑业务
IBM Business Intelligence Solution | 2010
© 2010 IBM Corporation
IBM Software Group | Information Management
IBM Business Intelligence Solution | 2010
© 2010 IBM Corporation
IBM Software Group | Information Management
信息正在改变业务规则
业务价值
Information On Demand
业务创新 增强竞争力
数据库分区(DPF)
1000 物理服务器 32K 逻辑节点
64G A-C
64G D-M
64G N-Q
64G R-Z
表分区
聚簇索引
17
© 2010 IBM Corporation
IBM Software Group | Information Management
如果数据在单个数据库一张大表中
当数据存储在单个 大表中, 许多的BI查 询需要访问表中大 部分数据