数据仓库实践系列课程(1)——数据仓库基本概念

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 特征
»
»
SMP的性能扩展
• 实验证明,SMP服务器CPU利用率最好的情况是2至4个CPU。
NUMA
NUMA的特征
• CPU
» »
»
»
具有多个CPU模块 每个CPU模块由多个CPU(如4个)组成 每个CPU模块具有独立的本地内存、I/O槽口 每个CPU模块之间可以通过互联模块进行连接和信息交互 可以较好地解决原来SMP系统的扩展问题,在一个物理服务器内可 以支持上百个CPU 访问本地内存的速度将远远高于访问远地内存 当CPU数量增加时,系统性能无法线性增加
面向应用
一次操作数据量小 支持日常操作
面向分析
一次操作数据量大 支持管理需求
数据仓库建设的分歧
数据仓库建设的分歧
Bill Inmon


Kimball
1991年,提出了企业级数据仓库
企业级数据仓库建设遭受大面积失败
• • •
Kimball出版了The DataWarehouse Toolkit 数据集市建设在初期取得了成功 多个数据集市之间的复杂的ETL/数据不一致
(企业级)
数据仓库
数据 集市 数据 集市
(部门级)
数 据 访 问 与 分 析
数据集市建设的几种体系架构
数据仓库
逻辑数据集市 物理数据集市
依赖数据集市
独立数据集市
数据集市的缺点
• • • • 多个数据模型 多个传输转换程序 数据不一致 系统复杂,难于维护
储蓄系统
信用卡系统 生产系统
独立数据 集市
市场部
• NUMA
»
»
• MPP
» »
SMP
• CPU
» » »
服务器中多个CPU对称工作,无主次或从属关系。 CPU共享相同的物理内存,每个 CPU访问内存中的任何地址所需时间 是相同的。 也被称为一致存储器访问结构(UMA:Uniform Memory Access)。 共享:系统中所有资源(CPU、内存、I/O等)都是共享的。 冲突:每个CPU必须通过相同的内存总线访问相同的内存资源,因此 随着CPU数量的增加,内存访问冲突将迅速增加。
数据仓库实践系列课程(1) ——数据仓库基本概念
文思海辉
数据仓库概念
数据模型介绍
数据管理介绍 数据仓库项目实施
2 © Pactera. Confidential. All Rights Reserved.
数据仓库出现的背景
• 需求的变化
» » »
业务系统的建设逐渐完善 分析类需求不断增加 不断增加的信息孤岛导致数据集成问题不断增加 关系数据库技术日趋成熟 报表和复杂查询处理起来非常困难 各个系统之间数据不一致
1997
Ralph Kimball 发表论文进一步 指出:数据仓库 只不过是一些数 据集市的集合而 已
1998 - 2000
经过长时间争论, 逐渐证明没有一 种方案能满足所 有需求,而必须 要用不同的BI架 构来满足不同的 业务需求
ADW(Active Data Warehouse)
动态企业智能
战略型决策分析 BI 报表 操作型 BI 操作型智能
• 技术发展状况
» »
»
数据仓库与OLTP
• OLTP系统(生产系统) » 面向应用 » 事务驱动的 » 实时性高 » 数据检索量相对少 » 只存当前数据 • 数据仓库系统(决策系统) » 面向主题 » 分析和决策 » 实时性要求不是特别高 » 数据检索量大 » 存储大量的历史数据和当前数据
以银行为例
-
• 为什么要进行数据集成?
» » »
源系统的多样性 数据质量的要求 模型的差异
不可更新与不断变化
• 不可更新
»
不会修改细节数据(源系统传来的详细数据)
-
数据转换:通常需要保留原值
• 不断变化
»
»
»
不断增加新的数据 删除旧的数据 新的汇总周期带来的新的汇总数据
数据集市
数据集市(Data Mart)是部门级决策支持的数据集合。
系。
»
并行是指将一个任务划分为多个子任务,这些子任务同时执行。在所有子任务处理 完成后,将它们的结果进行合并,就得到该任务的最终处理结果
OLTP与OLAP对系统的不同要求
• OLTP操作
»
»
使用特点
-
请求短小而密集 能够将用户的请求进行均衡分担 并发操作。
技术要求
-

OLAP操作
»
使用特点
-
请求庞大而稀疏 每一个查询和统计都很复杂,但访问的频率并不是很高 能够将所有的硬件资源调动起来为这一个复杂的查询请求服务 并行处理
OLTP系统
储 蓄
信 用 卡
贷 款
数据仓库系统
客户
帐户
产品
分析型系统与操作型系统之间的区别
操作型数据
细节的 在存取瞬间是准确的
分析型数据
细节的,综合的,或提炼的 代表过去的数据
可更新
操作需求事先可知道 对性能要求高 一个时刻操作一单元 事务驱动
不更新
操作需求事先不知道 对性能要求相对宽松 一个时刻操作一集合 分析驱动
S

支持外部用户可以加强外部用户
对企业的依赖,从而增强用户关 系。
什么是并行处理
• 并行处理的概念
»
在某一个数据库系统中能同时采用多个硬件设备完成某一任务的方法。多个硬件设 备可同时工作于该任务的不同方面。
»
并行处理的主要目的是节省大型和复杂问题的解决时间。

并行处理与并发处理
»
并发是指在某一个数据库系统中允许多个任务的同时执行,任务与任务之间没有联
»
技术要求
-

结论
»
并行处理技术在数据仓库中比OLTP系统更加重要。
并行技术的几种类型
• SMP
» »
Symmetric Multi-Processor 对称多处理器 Non-Uniform Memory Access 非一致存储访问结构 Massive Parallel Processing 海量并行处理结构
» » » »
是面向应用进行数据组织的 面向主题进行组织 一个抽象的概念 在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。 OLTP数据库所面向的应用可能是汽车保险、健康保险、人寿保险与意外伤亡保险 数据仓库所面向的主题域可能是顾客、保险单、保险费与索赔。 数据仓库的数据最终也会用关系模型表现。因此要把握主题和面向主题的概念,需 要将它们提高到一个更高的抽象层次上来理解,也就是要特别强调概念的逻辑意义。
分析应用 主题

例如:对于一个保险公司来说
» »

目前主流的数据仓库大都是采用关系数据库技术来实现的
»
数据集成
• 数据集成的内务
» »
数据清洗
-
按照数据质量管理的要求进行数据的清洗 按照源系统与数据仓库中模型之间的差异进行转换 不同源系统的数据在数据仓库中可能会进入到相同的模型中
数据转换
-
»
数据整合
Employees Client Services Costs Eligibility District Offices Program Effectiveness
集中式(数据仓库)
DW/DM的流派之争 ---- Bill Inmon与Ralph Kimball
1992 - 1996 1991
Bill Inmon 出版其第一本书 “Building the Data Warehouse” 正式确立数据仓 库概念 企业级数据仓库的 设计、实施困难, 导致早期很多数据 仓库项目失败,一 些数据仓库的建设 者和分析师开始考 虑由数据集市逐步 建成数据仓库的方 案,即自下而上的 DMDW方案
地区非常大的区别。
IDC 观点
• 财务分析通常是BI应用的主
G
G
C
T US
PE
后台管理人员
前台业务人员
n=1,072
问: BI在您的企业中的哪些领域被用来制定关键的决策, 请选择所有适用的选项。
Source: IDC White Paper, “Taming Information Chaos”, Nov 2007
业务分析解决方案可以帮助企业 中的各类用户群。 BI解决方案不仅帮助业务分析人 员和高层管理者。
0%
C G S ER ES

VE TI S
IA L A
B
S AN A NA ST LY
S LY
内部 外部
n=1,072
Q:在您的企业中,哪些用户正在通过BI的解决方案在 获取信息。请选择所有适用的答案
Source: IDC White Paper, “Taming Information Chaos”, Nov 2007
1998 1996 - 1998
Inmon派与 Kimball派 的纷争阶段, 关于DMDW 与DWDM; 也关于ODS Bill Inmon 旗帜鲜明地撰文 反驳:你可以在 大海中捕到很多 的小鱼并堆积起 来,但它们仍然 不是鲸鱼
1999
Bill Inmon 推出了新的BI 架构CIF (Corporation information Factory), 把Kimball的数据 集市也包容进来 了,至此,大规 模纷争告一段落
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
1994
Bill Inmon 出版著作 “Building the Operational Data Store”,进一步 阐述其ODS概念 及其构建方法
1996
Ralph Kimball 出版其第一本书 “The Data Warehouse Toolkit”,开始 正式宣扬其 DMDW方案
数据仓库理论的形成
数据仓库的四个特征
• • • • 数据仓库是面向主题的(Subject-Oriented) 集成的(Integrated) 随时间不断变化(Time-variant) 不可更新的(Nonvolatile)
数据仓库之父:Bill Inmon
数据仓库
面向主题与面向应用
• • •源自文库OLTP应用
BPM
Models
BAM
Rules
New Applic.
ESB
BI 工具
动态基础架构
Active Data Warehouse
Weekly Daily Real time
BI已经不仅仅是办公室的管理人员的专利
BI已经深入到企业的各个部门
80% 60% 40%
主要发现
• 在美国企业中,监管和审计
要求 (SarbOx)是驱动BI应用 的重要原因 – 这是与其它
40%
20%
IDC观点

EC EX N FI B N LI VE O B A S E IE C TH EN F O AG T NE O EN N NM R S VE R O TO G U IB TR IS S D ER LI PP S SU ER M O S FF ST N A U IA C ST IC SS ST TI NE SI U TS A ST M U A N SI AN E NA F O U
......
财务部
© Pactera. Confidential. All Rights Reserved.
14
数据仓库与数据集市的业务分析能力
“垂直”
Medicaid Welfare Mental Health Child Services
分布式(数据集市)
“水平”
Medicaid Welfare Mental Health Child Services
20% 0%
N FI IM PR FG /M G P N ER RI E N C EE O N TI IN IA G VA PL O EN M N O T N IN /C G O I D/ M RY IT & O R IN IS T A U Q LA CH C U A Y EG R PL R E P M U O S T .. ST Y. ND U EN IT A C EM D AL G N U A A TS Q N E A EM EN C M D M VI G VE IN ER O S IC ... & PR PR RE M I CT D L U N E D A TA C O Y PI VI A PR LT R C SE N YA A O L M FO ER U M IN H ER O M VE TI T TI G M D E EV IA L R PE C C U O ST AN N VI O C M O LO N PI R FO M
争论与混乱期(1996-1997)
• EDW • ODS • Data
Mart
走向融合(1998-2001)

提出了企业信息工厂(Corporate Information Factory)的架构,融合了 EDW/ODS/Data Mart

Kimball也提出了数据仓库的扩展架构,把 EDW/ODS/Data Mart结合在了一起
A NC
E
要推动力,但这一应用仍然
只有不到50%的企业使用。
BI深入企业的各个层面
主要发现
BI在企业内部的用户群
• •
60%
一线业务人员也急需决策支持。BI 从后端角落里转移到企业的中心。 BI解决方案不仅向内部人员提供访 问,而且向外部用户提供访问。领 导企业中,外部用户可以访问BI的 比例是平均值的两倍。
相关文档
最新文档