数据仓库实例

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

若干概念术语(续Ⅰ)

维的成员:维的一个取值(称为该维的一个成员)或 不同维层次的取值的集合(对多层次情况)。

部门A,于星期天傍晚提交,业务增长了10% 部门B,于星期三下午提交,业务增长了15%

算法不同
部门A使用的是所有类别的帐户, 部门B使用的是所有大帐户

多次抽取,扩大了上述两个问题
用抽取程序从数据库/文件中抽取数据,并存放起来,然后又从此再
次进行抽取,从数据进入系统到提供分析往往经过8、9次的抽取。

维 度量(变量、指标)
销售渠道 批发 销售额 1200
时间
地区
北京. 上海 广东
J1 J2 J3 J4 sum
时间 J1
地区 北京
批发 零售
… ... sum
sum
J1
J1 J1 … J2 J2 …
北京
上海 上海 … 北京 上海 …
零售
批发 零售 … 批发 批发 …
2300
1233 2122
销售渠道

在某个时间段内保持相对稳定

实时更新,数据根据需 要及时发生变化
定期加载,加载后的数据极少 更新。
数据库技术与数据仓库技术

数据库技术在系统功能和性能需求

强调的是多用户环境下如何针对并发用户的增删改 操作,保证数据的一致性和可恢复性,并发用户的
吞吐量为数据库管理系统的重要性能指标

数据仓库技术在系统功能和性能需求


多个子系统中的数据(数据集成) 历史数据 汇总、综合的数据
现有数据库系统处理分析型应用存在的问题

数据可靠性(可信度)
生产率 不可能把数据转换成信息 数据动态集成问题 历史数据问题 数据的综合问题:非细节数据,多种程度的综合
数据可靠性

数据没有同一时间基准

例如:一个银行的两个部门对同一业务提交报告
数据仓库的特点:面向主题
操作型数据库
财产险
数据仓库
机动车险
客户
寿险

操作型数据库是面向特殊 处理任务,各个系统之间 各自分离

数据仓库是按照一定的主 题域进行组织。一个主题 通常与多个操作型信息系 统相关。
数据仓库的特点:集成的
操作型数据库 数据仓库
面向特定应用

集成的

每一个数据库面向特定的 应用,各类应用(包括其 相关的数据库)之间相互 独立。

需要及时、准确的做出科学决策 科学决策必须以准确、有效的数据为基础

充分利用现有数据,将它转化为信息

以客户为中心的经营管理模式 — 优化客户关系

原有系统往往以产品为中心 原有系统往往以“单据(票证)”的处理为基础 转向“以客户为中心”
强调服务,尤其是个性化服务
分析处理的需求

3312 3423
关系表与多维Cube
若干概念术语

度量(变量、指标):数据的实际意义,一般是一个数值
例如:销售量、销售额,…… 而具体数据(如“10000”)是变量的一个值

维: 观察数据的特定角度
例如:时间、地区,……

维的层次:特定角度的不同细节程度
例如:时间维:日、周、月、季、年
地理维:城市、地区、国家

强调的是大数据量环境下的高效、快速查询,查询
的吞吐量为数据仓库管理系统的重要性能指标
数据仓库管理系统的提供商

Oracle : Oracle 8i, Oracle 9i, Oracle 10g,
Oracle 11g


IBM : DB2
NCR : Teradata Sybase: Sybase IQ
数据仓库的数据集成
数据仓库
抽取 清理 转化 加载
数据源1
数据源2
数据源3
数据源n
数据仓库的特点:反映历史变化
操作型数据库 数据仓库

主要关心当前数据

通常包含历史数据
数据仓库的特点:相对稳定的
操作型数据库
insert delete
数据仓库
modify
update
Load/ Update
实时更新
数据可靠性(续)

外部数据问题

一位分析员把华尔街杂志上的数据带进系统


另一位将商业周刊的数据进入系统
数据一旦进入系统,往往已失去“身份”,并且一位分
析员也不知道另一位分析员所输入的数据

开始时就不是同一个公共的数据源

部门A最初来源于文件XYZ 部门B最初来源于DB ABC
生产率

为了生成一个报告,必须经过
Oriented )、集成的(Integrated)、相对稳定的(NonVolatile)、反映历史变化(Time Variant)的数据集合,用于支
持管理决策和信息的全局共享。

对数据仓库的理解

数据仓库用于支持管理和决策,面向分析型数据处理,它不同
于企业现有的面向交易的操作型数据库;

数据仓库是对多个异构的数据源有效集成,集成后按照主题进 行了重组,并包含历史数据。

获得源数据 定位和分析数据:由于同名不同义、同义不同名,很难准确 定位和分析,可能造成进一步的混乱 把数据加工成报告


要写许多程序,每个程序必须客户化(与客户环境有关) 程序会涉及公司具有的各种技术

由于定位数据困难,检索所要的数据是一件很麻烦的事
定位数据 + 获得数据 + 集成报告,完成任务所需时间较长
现金交易处理具有18个月的数据。

数据不一致问题:同名不同义、同义不同名,例如M/F, Male/Female 外部数据和非结构化数据

操作型环境和分析型环境

不同的需求,要求将操作型环境和分析型环境相 分离

在操作型环境中支持分析应用太复杂、太困难 操作性环境不支持域(Domain)之间的联系,仅仅支 持表之间的连接
数据仓库中的数据面向整个企 业的分析处理,数据仓库中的 数据是已经集成了的,消除了 数据的不一致性。
数据集成的方法: MQS

MQS:Mediated Query System



1992年,由Stanford University的Gio Wiederhold 查询驱动的方法 其目标是实现对信息的智能、 能动的使用 Mediator是一个软件模块, 实现对数据的抽象与表示, 具有相当的智能 Mediator具有某些数据集的 知识,为高层应用服务 Mediator本身还可以进一步 抽象成MetaMediator,来描 述关于Mediator的信息。

完成任务需要很长时间


Baidu Nhomakorabea
每份报告各自需求不同,因此每份报告所需要的时间都很长。
从数据到信息

例如:“今年的帐户情况与前五年比较”

涉及大量应用:储蓄应用、贷款、即期汇票管理、信托, 而这些应用并未集成。 没有足够的历史数据:



贷款部门,拥有二年的数据
银行存折处理,拥有一年的数据 即期汇票管理只有60天的数据

联机分析处理的提出 联机分析处理的基本概念和相关操作
联机分析处理技术实现 数据仓库系统的体系结构
联机分析处理(OLAP)的提出

关系数据库满足了联机事务处理(OLTP)的要求 存在着大量的分析型应用 —— 关系数据库系统无法适应

应用角度:要求对大量的数据从各个角度进行综合分析(多维分析) 技术角度:SQL已经不能很好的适应分析应用需求

查询效率(响应时间):一条分析查询语句可能会分解为多条子查询,而每 条子查询又可能涉及多个整表扫描、多表连接、聚集计算和排序,并且需要 开辟较大的空间来存储各种临时表和中间计算结果。 SQL本身的限制,尤其对时间的处理能力


典型分析应用:对一些统计指标
(销售金额)
从不同角度(维) (时间、地区、商品类型)
数据仓库中的索引技术

位图索引(Bitmap Index) 基本表 针对一些特殊的列建立索引 列中的每一个值对应一个向量中的一位 向量的长度对应与记录的条数 不适合列中值的个数太多的情况
客户号 C1 C2 C3 C4 C5
地区 Asia Europe Asia America Europe

各类信息系统大多属于面向事务处理的OLTP系统 信息系统多年运行,积累了大量的数据


数据是一种宝贵的资源,但没有充分发挥作用
信息化建设的趋势

发展趋势

数据集中化 业务综合化 管理“扁平化” 决策科学化

特点


以客户为中心
以服务求发展
企业信息化建设提出了更高的要求

市场竞争日益激烈 — 创造竞争优势
从不同级别(层次)(地区:县、地市、省、大区)

在RDBMS上开发前端产品,支持上述应用逻辑
E.F.Codd把这类技术称为“OLAP”(1993年)
多维数据模型

多维数据模型又称多维概念视图,通常用Cube(或HyperCube)来 表示。 多维数据模型可以更加直观的表示现实中的复杂关系 多维数据模型的基本组成:

不同的数据环境要求从数据组织(结构)和管理上进行
工作
两种数据的区别
操作型数据 细节的 在存取瞬间是准确的 可更新 操作需求事先可知道 生命周期符合SDLC 对性能要求高 一个时刻操作一单元 分析型数据 综合的,或提炼的 代表过去的数据 不更新 操作需求事先不知道 完全不同的生命周期 对性能要求宽松 一个时刻操作一集合
类型 Retail Dealer Dealer Retail Dealer
类型索引
RecID 1 2 3 4 5
Retail 1 0 0 1 0
Dealer 0 1 1 0 1
地区索引
RecID Asia Europe 1 1 0 2 0 1 3 1 0 4 0 0 5 0 1
America 0 0 0 1 0
事务驱动
面向应用 一次操作数据量小 支持日常操作
分析驱动
面向分析 一次操作数据量大 支持管理需求
介绍内容

为什么需要数据仓库技术 什么是数据仓库

数据仓库的概念 数据仓库的特点

什么是联机分析处理技术


联机分析处理技术实现
数据仓库系统的体系结构
数据仓库的概念

数据仓库(Data Warehouse)是一个面向主题的(Subject
数据仓库回答的问题

数据仓库技术将为高层管理人员的科学决策提供可靠依据。

去年各个地区各个产品的销售量和销售额? 10年以来,各个计算机厂商每个季度的销售额占有比例的变化 情况?

如果某种产品的销售价格打9折,利润将发生怎样的变化?
今年销售量下降的主要因素(时间、地区、商品、销售部门)
是什么?
数据仓库中的索引技术

连接索引(Join Index) 一个表对另一个表中包含本表中相关列内容 的行进行索引。
记录号 R1 R2 R4 R3 产品编码 P1 P1 p2 p2 月份 2000/1 2000/2 2000/1 2000/2 数量 5128 3246 3457 4030
产品
产品编码 P1 p2 名称 电视 冰箱 单价 5000 4000 索引项 R1, R2 R3, R4
数据管理技术发展回顾

早期阶段

数据属于特定应用,数据由用户管理

文件系统阶段

数据与(一类)应用对应,文件系统作了部分管理

数据库系统阶段

数据共享(面向整个企业),有结构的数据由DBMS统一 管理
应用需求驱动 + 技术基础 数据库数据的组织与管理大大方便应用的开发和维护


现有的数据库系统的侧重点
例1:今年销售量下降的因素(时间、地区、商品、销售部门)

时间:销售 地区:销售*顾客(顾客地址所在的地区) 商品:销售*订单细则 (商品类别)
销售部门:销售*员工*部门(部门名称)

例2:某种商品今年的销售情况与以往相比,有怎样的变化?每年的第一 季度商品销售在各类商品上的分布情况怎样? 要求:

现有的数据库系统,主要用于事务处理

一笔订购(一张订单输入+订单细则) 一笔销售(一张销售单) 一次进料(一张进料单) 一次出料(一张出料单)
强调多用户并发环境,数据的一致性、完整性
企业信息化建设现状

在数据库技术的支持下,一大批成熟的业务信息系统投入运 行,为企业发展作出了巨大贡献
数据仓库和联机分析处理
主要讨论内容


为什么需要数据仓库技术
什么是数据仓库


什么是联机分析处理技术
联机分析处理技术实现 数据仓库系统的体系结构
介绍内容

为什么需要数据仓库技术

从技术发展的角度 从实际应用需求的角度

什么是数据仓库 什么是联机分析处理技术


联机分析处理技术实现
数据仓库系统的体系结构
销售情况
数据仓库中的索引技术

建立广义索引

用于处理最大(小)值问题
例如:每月销售最好的前5种商品?

当数据装入到DW时,生成“广义索引”内容 广义索引随着数据仓库的发展,数目会增加,但每个索引 的规模小,需要在元数据中定义“广义索引”
介绍内容
为什么需要数据仓库技术
什么是数据仓库 什么是联机分析处理技术
相关文档
最新文档