数据仓库及其案例介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
− 把数据仓库、联机分析处理、数据挖掘、模型库、数据库、知识库结合起来形 成综合决策支持系统(Synthetic Decision Support System, SDSS)是今后的 发展方向。
Shenzhen Hirisun Technology Incorporated
数据仓库的概念
[William H.Inmon]: 数据仓库是在企业管理和决策中面向主题的、集成的、与
➢ 2、集成的 数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上 经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性, 以保证数据仓库内的信息是关于整个企业的一致的全局信息。
➢ 3、相对稳定的 数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是 数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保 留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很 少,通常只需要定期的加载、刷新。
Sales Table
Time_id Product_id Market_id Scenario
Dollars Units Discount%
"Fact Table"
Market Table
Market_id Market_Desc
按照处理地点
ROLAP MOLAP HOLAP
Server OLAP Client OLAP
Shenzhen Hirisun Technology Incorporated
重要术语
1. 维:是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间 维、地理维等)。
2. 维的层次:人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描 述方面(时间维:日期、月份、季度、年)。
SAP BW解决方案
BEx
SAP R/3
Non-SAP Data Sources (Flat file, XML or DBConnect)
ODS
InfoCube
明细数据 业务仓库
SAP-BW
Web Based BEx
数据源
前端展现
Shenzhen Hirisun Technology Incorporated
− 1973年加州大学伯克利分校开发出关系数据库系统Ingres。后来由Oracle公司、 Ingres公司等厂商商品化。
− 在20世纪70年代提出了决策支持系统概念。在1970年, 联机分析处理工具—— Express诞生了。 1980年明确了其部件结构(对话部件、数据部件、模型部 件)。
− 1988年,IBM公司的研究者Barry Devlin和Paul Murphy发明了一个新的术语— 信息仓库,之后,IT的厂商开始构建实验性的数据仓库。1991年,W.H. "Bill" Inmon出版《如何构建数据仓库》。
构建数据仓库--自顶向下
– 建造企业数据仓库 建设中心数据模型 一次性的完成数据的重构工作 最小化数据冗余度和不一致性 存储详细的历史数据
– 从企业数据仓库中建造数据集市 得到大部分的集成数据 直接依赖于数据仓库的可用性
操作数据
外部数据
问题
投资效益的时间? 建设中心数据模型的必要性和可能性? 初始费用 ?
(1)如果按“自顶向下”的方法建立企业级数据仓库,建设规模往往较大,建设周期长,投资大。 (2)在数据仓库建好后,随着使用数据仓库的部门增多,对数据仓库资源的竞争将成为企业面临的—个难 题。 (3)各个部门希望能定制数据仓库中的数据,但数据仓库是面向企业的。
Shenzhen Hirisun Technology Incorporated
3. 维的成员:维的一个取值。是数据项在某维中位置的描述。(“某年某月某日”是在时间 维上位置的描述)
4. 多维数组:维和变量的组合表示。一个多维数组可以表示为:(维1,维2,…,维n,变 量)。(时间,地区,产品,销售额)
5. 度量(数据单元,单元格):多维数组的取值。(2000年1月,上海,笔记本电脑 , $100000)
物资
产品
使用产品信息
客户
资产信息
物资相关部门
资产
资产设备
设备管理人员 招投标信息
设备
电网所属的组织
物资项目信息 项目信息
人员组织
客户所属的组织信息
项目所属 组织信息
员工薪水
项目
核算对象
客户设备信息
组织相关指标 电网提供产品
核算对象
交易产品
综合
参与市场交易 的组织信合息同信息
项目账目信息
计划、统计
财务
Shenzhen Hirisun Technology Incorporated
培训提纲
➢概念 ➢重要术语 ➢关键技术 ➢数据质量 ➢方法论 ➢典型案例
Shenzhen Hirisun Technology Incorporated
历史沿革
计算机数据管理的历史:
− 1961年通用电气开发出网状数据库管理系统— 集成数据存储(Integrated DataStore IDS)。1968 年IBM 公司开发出层次数据库的IMS (Information Management System)。1970年关系模型建立。IBM研发全功能关系DBMS — System R。
企业数据仓库
Shenzhen Hirisun Technology Incorporated
数据集市
数据集市
构建数据仓库--自底向上
– 建立部门数据集市 限制在一个主题区域 快速投资收益 区域自治 – 设计的可伸缩性强 对相关部门的应用容易复制 对每个数据集市需要数据重构 存在一定的冗余及不一直性
Shenzhen Hirisun Technology Incorporated
数据仓库与OLAP
数据仓库系统的核心是联机分析处理,但数据仓库包括更为广泛的内容。
➢
-概括来说,数据仓库系统是指具有综合企业数据的能力,能够对
大量企业数据进行快速和准确分析,辅助做出更好的商业决策的系统。
它本身包括三部分内容:
➢ 4、反映历史变化 数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时 点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信 息,可以对企业的发展历程和未来趋势做出定量分析和预测。
Shenzhen Hirisun Technology Incorporated
数据仓库-面向主题
Shenzhen Hirisun Technology Incorporated
IBM数据仓库解决方案
Shenzhen Hirisun Technology Incorporated
Oracle解决方案
数据获取
源数据
中调 实时 接口
电量数据
人力资源
电厂KPI
……
电厂KPI
环保数据
……
中间库
RDATA MDATA
设备安全信息
安全
组织的安全信息 电网规划计划信息
电网设备信息
电网安全信息
电网
交易点
市场
核算对象
Shenzhen Hirisun Technology Incorporated
数据仓库系统结构
数据仓库主要包括数据的提取、转换与装载(ETL)、元数据、数据集市和操作数据存储 等部分,常用的数据仓库结构如图所示。
时间相关的、不可修改的数据集合。 与其他数据库应用不同的是,数据仓库更像一种过程,对分
布在企业内部各处的业务数据的整合、加工和分析的过程。
Shenzhen Hirisun Technology Incorporated
企业管理与决策
数wenku.baidu.com
据
决策信息
分析型(战略)数据
范
(辅助决策) 分析型(战略)应用
高层
数据仓库及其案例
张千福 zhangqianfu@sina.com
Shenzhen Hirisun Technology Incorporated
目的
➢ 掌握数据仓库的基本概念和数据中心的体系架构。 ➢ 掌握有关商业智能和数据仓库的重要术语 ➢ 了解数据中心建设过程 ➢ 了解公司数据仓库项目重要案例
Shenzhen Hirisun Technology Incorporated
星型模式(Star Schema)
Period Table
Time_id Period_Desc Quarter Year
"Dimension Table"
Product Table
Product_id Product_Desc Brand Size
EHR KPI
数据存储
数据展现
数据转换 粤电数据仓库
信息展现
OWB
抽取 转化 过滤 加载
Oracle 9i
关型模型
元
立方体
数
据
挖掘
转换
Report
Portal
报表
粤电用户
随即查询
BI Bean
多维分析
Discoverer KPI分析
应用 服务器
粤电用户
数据管理
OEM
页面集成
直接用户 (开发人员)
Shenzhen Hirisun Technology Incorporated
培训提纲
➢概念 ➢重要术语 ➢关键技术 ➢数据质量 ➢方法论 ➢典型案例
Shenzhen Hirisun Technology Incorporated
数据集市
人们在早期开发企业级数据仓库时,一般是先建立一个全局的数据仓库,然后在此基础上建立各种应用,即 “自顶向下”的方法。但在开发的过程中会出现以下问题。
MOLAP将OLAP分析所用到的多维数据物 理上存储为多维数组的形式,形成“立方 体”的结构。维的属性值被映射成多维数 组的下标值或下标的范围,而总结数据作 为多维数组的值存储在数组的单元中。
Shenzhen Hirisun Technology Incorporated
OLAP分类
OLAP
按照存储方式
围
决策人员
管理信息 (数据分析)
基础数据 (统计查询)
分析型(战术)数据 分析型(战术)应用 企业级操作型数据 企业级操作型应用
操作型数据 操作型应用
中层 管理人员
基层 业务人员
数据Sh汇enz总hen粒Hi度risun Technology Incorporated
数据仓库的特点
➢ 1、面向主题 操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自 分离,而数据仓库中的数据是按照一定的主题域进行组织的。
➢
数据层。实现对企业操作数据的抽取、转换、清洗和汇总,形成
信息数据,并存储在企业级的中心信息数据库中。
➢
应用层。通过联机分析处理,甚至是数据挖掘等应用处理,实现
对信息数据的分析。
➢
表现层。通过前台分析工具,将查询报表、统计分析、多维联机
分析和数据发掘的结论展现在用户面前。
➢
从应用角度来说,数据仓库系统除了联机分析处理外,还可以采
– 逐步扩展到企业数据仓库 (EDW) 把建造EDW作为一个长期的目标
存在的问题:
数据集市的数据都是可用的吗? 能生成数据模型吗? 如何解决不一致性?
操作数据 (全局) &
外部数据
操作数据 (局部)
操作数据 (局部)
数据集市
数据集市
企业数据仓库
Shenzhen Hirisun Technology Incorporated
ROLAP、MOLAP、HOLAP模式
ROLAP用关系数据库存储多维数据,对应用 频率比较高、计算工作量比较大的查询作为 实视图,并作为表存储。针对OLAP服务器的 查询,优先利用已经计算好的实视图来生成 查询结果以提高查询效率。 同时RDBMS也针对OLAP作相应的优化,比 如并行存储、并行查询、并行数据管理、基 于成本的查询优化、位图索引、SQL的OLAP 扩展(cube,rollup)等等。
OLTP与OLAP
数据处理系统可以分成两大类: 联机事务处理OLTP(on-line transaction processing):OLTP是传统 的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如 银行交易、电力营销系统。 联机分析处理OLAP(On-Line Analytical Processing):OLAP是数据 仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提 供直观易懂的查询结果。 OLAP的目标是满足决策支持或多维环境特 定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也 可以说是多维数据分析工具的集合。数据仓库的核心是联机分析处理。
用传统的报表,或者采用数理统计和人工智能等数据挖掘手段,涵盖
的范围更广;就应用范围而言,联机分析处理往往根据用户分析的主 题进行应用分割,例如:销售分析、市场推广分析、客户利润率分析 等等,每一个分析的主题形成一个OLAP应用,而所有的OLAP应用实 际上只是数据仓库系统的一部分。
Shenzhen Hirisun Technology Incorporated
Shenzhen Hirisun Technology Incorporated
数据仓库的概念
[William H.Inmon]: 数据仓库是在企业管理和决策中面向主题的、集成的、与
➢ 2、集成的 数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上 经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性, 以保证数据仓库内的信息是关于整个企业的一致的全局信息。
➢ 3、相对稳定的 数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是 数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保 留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很 少,通常只需要定期的加载、刷新。
Sales Table
Time_id Product_id Market_id Scenario
Dollars Units Discount%
"Fact Table"
Market Table
Market_id Market_Desc
按照处理地点
ROLAP MOLAP HOLAP
Server OLAP Client OLAP
Shenzhen Hirisun Technology Incorporated
重要术语
1. 维:是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间 维、地理维等)。
2. 维的层次:人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描 述方面(时间维:日期、月份、季度、年)。
SAP BW解决方案
BEx
SAP R/3
Non-SAP Data Sources (Flat file, XML or DBConnect)
ODS
InfoCube
明细数据 业务仓库
SAP-BW
Web Based BEx
数据源
前端展现
Shenzhen Hirisun Technology Incorporated
− 1973年加州大学伯克利分校开发出关系数据库系统Ingres。后来由Oracle公司、 Ingres公司等厂商商品化。
− 在20世纪70年代提出了决策支持系统概念。在1970年, 联机分析处理工具—— Express诞生了。 1980年明确了其部件结构(对话部件、数据部件、模型部 件)。
− 1988年,IBM公司的研究者Barry Devlin和Paul Murphy发明了一个新的术语— 信息仓库,之后,IT的厂商开始构建实验性的数据仓库。1991年,W.H. "Bill" Inmon出版《如何构建数据仓库》。
构建数据仓库--自顶向下
– 建造企业数据仓库 建设中心数据模型 一次性的完成数据的重构工作 最小化数据冗余度和不一致性 存储详细的历史数据
– 从企业数据仓库中建造数据集市 得到大部分的集成数据 直接依赖于数据仓库的可用性
操作数据
外部数据
问题
投资效益的时间? 建设中心数据模型的必要性和可能性? 初始费用 ?
(1)如果按“自顶向下”的方法建立企业级数据仓库,建设规模往往较大,建设周期长,投资大。 (2)在数据仓库建好后,随着使用数据仓库的部门增多,对数据仓库资源的竞争将成为企业面临的—个难 题。 (3)各个部门希望能定制数据仓库中的数据,但数据仓库是面向企业的。
Shenzhen Hirisun Technology Incorporated
3. 维的成员:维的一个取值。是数据项在某维中位置的描述。(“某年某月某日”是在时间 维上位置的描述)
4. 多维数组:维和变量的组合表示。一个多维数组可以表示为:(维1,维2,…,维n,变 量)。(时间,地区,产品,销售额)
5. 度量(数据单元,单元格):多维数组的取值。(2000年1月,上海,笔记本电脑 , $100000)
物资
产品
使用产品信息
客户
资产信息
物资相关部门
资产
资产设备
设备管理人员 招投标信息
设备
电网所属的组织
物资项目信息 项目信息
人员组织
客户所属的组织信息
项目所属 组织信息
员工薪水
项目
核算对象
客户设备信息
组织相关指标 电网提供产品
核算对象
交易产品
综合
参与市场交易 的组织信合息同信息
项目账目信息
计划、统计
财务
Shenzhen Hirisun Technology Incorporated
培训提纲
➢概念 ➢重要术语 ➢关键技术 ➢数据质量 ➢方法论 ➢典型案例
Shenzhen Hirisun Technology Incorporated
历史沿革
计算机数据管理的历史:
− 1961年通用电气开发出网状数据库管理系统— 集成数据存储(Integrated DataStore IDS)。1968 年IBM 公司开发出层次数据库的IMS (Information Management System)。1970年关系模型建立。IBM研发全功能关系DBMS — System R。
企业数据仓库
Shenzhen Hirisun Technology Incorporated
数据集市
数据集市
构建数据仓库--自底向上
– 建立部门数据集市 限制在一个主题区域 快速投资收益 区域自治 – 设计的可伸缩性强 对相关部门的应用容易复制 对每个数据集市需要数据重构 存在一定的冗余及不一直性
Shenzhen Hirisun Technology Incorporated
数据仓库与OLAP
数据仓库系统的核心是联机分析处理,但数据仓库包括更为广泛的内容。
➢
-概括来说,数据仓库系统是指具有综合企业数据的能力,能够对
大量企业数据进行快速和准确分析,辅助做出更好的商业决策的系统。
它本身包括三部分内容:
➢ 4、反映历史变化 数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时 点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信 息,可以对企业的发展历程和未来趋势做出定量分析和预测。
Shenzhen Hirisun Technology Incorporated
数据仓库-面向主题
Shenzhen Hirisun Technology Incorporated
IBM数据仓库解决方案
Shenzhen Hirisun Technology Incorporated
Oracle解决方案
数据获取
源数据
中调 实时 接口
电量数据
人力资源
电厂KPI
……
电厂KPI
环保数据
……
中间库
RDATA MDATA
设备安全信息
安全
组织的安全信息 电网规划计划信息
电网设备信息
电网安全信息
电网
交易点
市场
核算对象
Shenzhen Hirisun Technology Incorporated
数据仓库系统结构
数据仓库主要包括数据的提取、转换与装载(ETL)、元数据、数据集市和操作数据存储 等部分,常用的数据仓库结构如图所示。
时间相关的、不可修改的数据集合。 与其他数据库应用不同的是,数据仓库更像一种过程,对分
布在企业内部各处的业务数据的整合、加工和分析的过程。
Shenzhen Hirisun Technology Incorporated
企业管理与决策
数wenku.baidu.com
据
决策信息
分析型(战略)数据
范
(辅助决策) 分析型(战略)应用
高层
数据仓库及其案例
张千福 zhangqianfu@sina.com
Shenzhen Hirisun Technology Incorporated
目的
➢ 掌握数据仓库的基本概念和数据中心的体系架构。 ➢ 掌握有关商业智能和数据仓库的重要术语 ➢ 了解数据中心建设过程 ➢ 了解公司数据仓库项目重要案例
Shenzhen Hirisun Technology Incorporated
星型模式(Star Schema)
Period Table
Time_id Period_Desc Quarter Year
"Dimension Table"
Product Table
Product_id Product_Desc Brand Size
EHR KPI
数据存储
数据展现
数据转换 粤电数据仓库
信息展现
OWB
抽取 转化 过滤 加载
Oracle 9i
关型模型
元
立方体
数
据
挖掘
转换
Report
Portal
报表
粤电用户
随即查询
BI Bean
多维分析
Discoverer KPI分析
应用 服务器
粤电用户
数据管理
OEM
页面集成
直接用户 (开发人员)
Shenzhen Hirisun Technology Incorporated
培训提纲
➢概念 ➢重要术语 ➢关键技术 ➢数据质量 ➢方法论 ➢典型案例
Shenzhen Hirisun Technology Incorporated
数据集市
人们在早期开发企业级数据仓库时,一般是先建立一个全局的数据仓库,然后在此基础上建立各种应用,即 “自顶向下”的方法。但在开发的过程中会出现以下问题。
MOLAP将OLAP分析所用到的多维数据物 理上存储为多维数组的形式,形成“立方 体”的结构。维的属性值被映射成多维数 组的下标值或下标的范围,而总结数据作 为多维数组的值存储在数组的单元中。
Shenzhen Hirisun Technology Incorporated
OLAP分类
OLAP
按照存储方式
围
决策人员
管理信息 (数据分析)
基础数据 (统计查询)
分析型(战术)数据 分析型(战术)应用 企业级操作型数据 企业级操作型应用
操作型数据 操作型应用
中层 管理人员
基层 业务人员
数据Sh汇enz总hen粒Hi度risun Technology Incorporated
数据仓库的特点
➢ 1、面向主题 操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自 分离,而数据仓库中的数据是按照一定的主题域进行组织的。
➢
数据层。实现对企业操作数据的抽取、转换、清洗和汇总,形成
信息数据,并存储在企业级的中心信息数据库中。
➢
应用层。通过联机分析处理,甚至是数据挖掘等应用处理,实现
对信息数据的分析。
➢
表现层。通过前台分析工具,将查询报表、统计分析、多维联机
分析和数据发掘的结论展现在用户面前。
➢
从应用角度来说,数据仓库系统除了联机分析处理外,还可以采
– 逐步扩展到企业数据仓库 (EDW) 把建造EDW作为一个长期的目标
存在的问题:
数据集市的数据都是可用的吗? 能生成数据模型吗? 如何解决不一致性?
操作数据 (全局) &
外部数据
操作数据 (局部)
操作数据 (局部)
数据集市
数据集市
企业数据仓库
Shenzhen Hirisun Technology Incorporated
ROLAP、MOLAP、HOLAP模式
ROLAP用关系数据库存储多维数据,对应用 频率比较高、计算工作量比较大的查询作为 实视图,并作为表存储。针对OLAP服务器的 查询,优先利用已经计算好的实视图来生成 查询结果以提高查询效率。 同时RDBMS也针对OLAP作相应的优化,比 如并行存储、并行查询、并行数据管理、基 于成本的查询优化、位图索引、SQL的OLAP 扩展(cube,rollup)等等。
OLTP与OLAP
数据处理系统可以分成两大类: 联机事务处理OLTP(on-line transaction processing):OLTP是传统 的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如 银行交易、电力营销系统。 联机分析处理OLAP(On-Line Analytical Processing):OLAP是数据 仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提 供直观易懂的查询结果。 OLAP的目标是满足决策支持或多维环境特 定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也 可以说是多维数据分析工具的集合。数据仓库的核心是联机分析处理。
用传统的报表,或者采用数理统计和人工智能等数据挖掘手段,涵盖
的范围更广;就应用范围而言,联机分析处理往往根据用户分析的主 题进行应用分割,例如:销售分析、市场推广分析、客户利润率分析 等等,每一个分析的主题形成一个OLAP应用,而所有的OLAP应用实 际上只是数据仓库系统的一部分。
Shenzhen Hirisun Technology Incorporated