数据仓库入门PPT课件
合集下载
01数据仓库概述.ppt
9
分析决策人员的挑战
组织内部
横向共享信息 数据的重构 个人授权 服务和质量管理
组织之间
合作伙伴 客户驱动的解决方案 战略联盟 价值链和供应链
市场
竞争对手 市场分割 实时的市场行情 全球化
10
数据可信性
数据没有同一时间基准
例如:一个企业的两个部门向管理者呈送报表 部门A,于星期天傍晚抽取了分析所需的数据,结论
销售 客户 索赔
产品 帐户
政策
25
面向主题的数据组织
主题:宏观分析领域所涉及的分析对象 面向主题的数据组织方式:在较高的层次上对分析
对象的数据的一个完整、一致的描述。 采用面向事务进行数据组织,其特点为:
充分考虑企业的部门组织结构和业务活动 反映企业内部数据流动情况,业务处理的数据流程 与业务处理流程中的单据、票证、文档有良好的对应 数据与应用(数据的处理)有一定的对应
定位数据 + 获得数据 + 集成报告,完成任务所需时间较长 每份报告各自需求不同,因此每份报告所需要的时间都很
长。
13
从数据到信息
例如:“今年的帐户情况与前五年比较” 涉及大量应用:储蓄应用、贷款、即期汇票管理、
信托,而这些应用并未集成。 没有足够的历史数据:
贷款部门,拥有二年的数据 银行存折处理,拥有一年的数据 即期汇票管理只有60天的数据 现金交易处理具有18个月的系统
操作型系统,OLTP
下订单 处理呼叫 装货 开发货单 收取现金 预定座位
将数据写入数据库
►信息型系统
▪ 给我销售量最好的产品名单 ▪ 告诉我出问题的地区 ▪ 告诉我为什么(向下钻取) ▪ 让我看看其他的数据(横向
钻取) ▪ 显示最大利润 ▪ 当一个地区的销售低于目标
分析决策人员的挑战
组织内部
横向共享信息 数据的重构 个人授权 服务和质量管理
组织之间
合作伙伴 客户驱动的解决方案 战略联盟 价值链和供应链
市场
竞争对手 市场分割 实时的市场行情 全球化
10
数据可信性
数据没有同一时间基准
例如:一个企业的两个部门向管理者呈送报表 部门A,于星期天傍晚抽取了分析所需的数据,结论
销售 客户 索赔
产品 帐户
政策
25
面向主题的数据组织
主题:宏观分析领域所涉及的分析对象 面向主题的数据组织方式:在较高的层次上对分析
对象的数据的一个完整、一致的描述。 采用面向事务进行数据组织,其特点为:
充分考虑企业的部门组织结构和业务活动 反映企业内部数据流动情况,业务处理的数据流程 与业务处理流程中的单据、票证、文档有良好的对应 数据与应用(数据的处理)有一定的对应
定位数据 + 获得数据 + 集成报告,完成任务所需时间较长 每份报告各自需求不同,因此每份报告所需要的时间都很
长。
13
从数据到信息
例如:“今年的帐户情况与前五年比较” 涉及大量应用:储蓄应用、贷款、即期汇票管理、
信托,而这些应用并未集成。 没有足够的历史数据:
贷款部门,拥有二年的数据 银行存折处理,拥有一年的数据 即期汇票管理只有60天的数据 现金交易处理具有18个月的系统
操作型系统,OLTP
下订单 处理呼叫 装货 开发货单 收取现金 预定座位
将数据写入数据库
►信息型系统
▪ 给我销售量最好的产品名单 ▪ 告诉我出问题的地区 ▪ 告诉我为什么(向下钻取) ▪ 让我看看其他的数据(横向
钻取) ▪ 显示最大利润 ▪ 当一个地区的销售低于目标
数据仓库概述PPT(共 57张)
决策支持系统:需要花数小时甚至更长时 间的处理、需要遍历数据库中的大部分数据, 进行复杂的计算,需要消耗大量的系统资源。
16
细节的
操1作.型1.数3据两者数据处理模式的分析差型数别据
综合的,或提炼的
当前数据
历史数据
更新的
不可更新,只读的
生命周期符合SDLC (软件开发生命周期)
完全不同的生命周期
对性能要求高 一个时刻操作一个单元 事务驱动 面向应用 一次操作数据量小,计算简单 支持日常操作
29
1.2 数据仓库的基本概念
数据仓库就是一个面向主题的、集成的、不可更新 的、随时间不断变化的数据集合,通常用于企业的 决策支持。
30
1.2.1 面向主题
主题:是一个抽象的概念,是在较高层次上将企业 信息系统中的数据综合、归类并进行分析利用的抽 象。在逻辑上,它对应于企业中某一宏观分析领域 所涉及的分析必须把分析数 据从事务处理环境中提取出来,按照决策支持系统处 理的需要进行重新组织,建立单独的分析型处理环境。 数据仓库正是为了构建这种新的分析型处理环境而 出现的一种数据存储和组织技术。
27
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
第1讲 数据仓库概述
1
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
2
数据仓库概述
1.1 数据仓库产生的原因 1.1.1 操作型数据处理 1.1.2 分析型数据处理 1.1.3 两种数据处理模式的差异 1.1.4 数据库系统的局限性
对性能要求宽松 一个时刻操作一个集合 分析驱动 面向分析 一次操作数据量大,计算复杂 支持管理需求
16
细节的
操1作.型1.数3据两者数据处理模式的分析差型数别据
综合的,或提炼的
当前数据
历史数据
更新的
不可更新,只读的
生命周期符合SDLC (软件开发生命周期)
完全不同的生命周期
对性能要求高 一个时刻操作一个单元 事务驱动 面向应用 一次操作数据量小,计算简单 支持日常操作
29
1.2 数据仓库的基本概念
数据仓库就是一个面向主题的、集成的、不可更新 的、随时间不断变化的数据集合,通常用于企业的 决策支持。
30
1.2.1 面向主题
主题:是一个抽象的概念,是在较高层次上将企业 信息系统中的数据综合、归类并进行分析利用的抽 象。在逻辑上,它对应于企业中某一宏观分析领域 所涉及的分析必须把分析数 据从事务处理环境中提取出来,按照决策支持系统处 理的需要进行重新组织,建立单独的分析型处理环境。 数据仓库正是为了构建这种新的分析型处理环境而 出现的一种数据存储和组织技术。
27
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
第1讲 数据仓库概述
1
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
2
数据仓库概述
1.1 数据仓库产生的原因 1.1.1 操作型数据处理 1.1.2 分析型数据处理 1.1.3 两种数据处理模式的差异 1.1.4 数据库系统的局限性
对性能要求宽松 一个时刻操作一个集合 分析驱动 面向分析 一次操作数据量大,计算复杂 支持管理需求
数据仓库基础.ppt
• 特殊要求
根据所选的OLAP引擎特殊需要,确保数据诸如完整性等的特殊要求。
• 增量更新
必须考虑数据增量和更新的策略,以保证多维数据集中有所需的数据。
数据仓库基本元素(一)
• 关系型数据库
关系数据库是建立数据仓库的基础引擎平台,它为数据仓库提供临时存 储、清理和转换传入的数据,容纳和管理数据仓库中的大量数据,并支 持数据仓库的功能。
税务 机关 维表
时间 维表
行业 维表
事 实 表
经济 性质 维表
税种 维表
数据仓库组织形式(二)
• 雪花型模型
雪花型架构比星型模型增加了次要维表,有一个或多个维表是联接到其 它维表上,而非事实数据表上。
机构 维表
时间 维表
事 实 表
行业 维表
地区维
地市 维表 省份 维表
数据仓库设计(一)——事实表
数据仓库定义
?
• 数据仓库的概念
什么是数据仓库?
数据仓库就是面向主题的、集成的、不同时间的、稳定的数据集 合,用以支持经营管理中的决策制定过程。
数据仓库的特点
• 面向主题
• 集成性—企业数据框架
• 历史性、稳定性
数据仓库与业务数据库的比较
什么是联机分析处理(OLAP)?
• OLAP的定义
OLAP是使分析人员、管理人员能够从多种角度对从原始数据中转
数据仓库设计原则(一)
• 模型构架
尽量使用星型架构,使用雪花架构的目的是使事实表第一级的维表数量 达到最小。
• 设计方法
将常识规范化方法应用于维度表设计。例如,不相关的数据不应组合到 单一维度表中,而且在多个维度表中数据不应重复。
• 维表设计
设计维表应包含需要分析的有关事实的有意义信息,例如产品的颜色和 大小。
数据仓库 讲解23页PPT
人也看不见自己的背脊。——非洲 2、最困难的事情就是认识自己。——希腊 3、有勇气承担命运这才是英雄好汉。——黑塞 4、与肝胆人共事,无字句处读书。——周恩来 5、阅读使人充实,会谈使人敏捷,写作使人精确。——培根
数据仓库 讲解
16、自己选择的路、跪着也要把它走 完。 17、一般情况下)不想三年以后的事, 只想现 在的事 。现在 有成就 ,以后 才能更 辉煌。
18、敢于向黑暗宣战的人,心里必须 充满光 明。 19、学习的关键--重复。
20、懦弱的人只会裹足不前,莽撞的 人只能 引为烧 身,只 有真正 勇敢的 人才能 所向披 靡。
数据仓库 讲解
16、自己选择的路、跪着也要把它走 完。 17、一般情况下)不想三年以后的事, 只想现 在的事 。现在 有成就 ,以后 才能更 辉煌。
18、敢于向黑暗宣战的人,心里必须 充满光 明。 19、学习的关键--重复。
20、懦弱的人只会裹足不前,莽撞的 人只能 引为烧 身,只 有真正 勇敢的 人才能 所向披 靡。
数据仓库基础知识培训教材(PPT38页)
数据仓库基础知识培训教材(PPT38页 )培训 课件培 训讲义 培训ppt教程管 理课件 教程ppt
面向主题性
• 面向主题性表示了数据仓库中数据组织的基本 原则,数据仓库中的所有数据都是围绕着某一 主题组织的。
• 确定主题以后,需要确定主题应该包含的数据。
• 不同的主题之间可能会出现相互重叠的信息。
1.1从传统数据库到数据仓库(续)
• 传统的事务处理环境不适宜于决策支持应 用
• 事务处理和分析处理的性能特性不同 • 数据集成问题 • 数据动态集成问题 • 历史数据问题 • 数据的综合问题
• 操作型环境和分析型环境的分离:数据抽取
现实生活中面临的问题
人们在日常生活中经常会遇到这样的情况: • 超市的经营者希望将经常被同时购买的商
• 随着市场竞争的加剧,信息系统的用户已经不 满足于仅仅用计算机去处理每天所发生的事务 数据,而是需要信息——能够支持决策的信息, 去帮助管理决策。这就需要一种能够将日常业 务处理中所收集到的各种数据转变为具有商业 价值信息的技术,传统数据库系统无法承担这 一责任。因为传统数据库的处理方式和决策分 析中的数据需求不相称。这些不相称性主要表 现在决策处理中的系统响应问题、决策数据需 求的问题和决策数据操作的问题。
品放在一起,以增加销售; • 保险公司想知道购买保险的客户一般具有
哪些特征; • 医学研究人员希望从已有的成千上万份病
历中找出患某种疾病的病人的共同特征, 从而为治愈这种疾病提供一些帮助; • ……
企业面临的问题
• 经过多年的计算机应用和市场积累,许多 企业保存了大量原始数据和各种业务数据, 它是企业生产经营活动的真实记录
数据集成性
• 根据决策分析的要求,将分散于各处的源数据进行 抽取、筛选、清理、综合等工作,最终集成到数据 仓库中。
《数据仓库技术》课件
数据质量参差不齐
数据来源多样,数据质 量难以保证,需要进行
数据清洗和校验。
数据分析需求多变
不同部门和业务场景对 数据分析的需求各不相 同,需要灵活地调整数 据仓库架构和查询方式
。
应对策略
采用分布式存储和计算 技术,提高数据存储和 处理能力;建立数据质 量管理体系,确保数据 质量;提供灵活的数据 仓库架构和查询方式, 满足多变的分析需求。
大数据时代的挑战与机遇
挑战
随着大数据时代的来临,数据量呈爆 炸式增长,如何高效地存储、处理和 分析这些数据成为数据仓库面临的挑 战。
机遇
大数据时代为数据仓库技术的发展提 供了广阔的空间,通过技术创新和优 化,数据仓库能够更好地应对大数据 的挑战,为企业提供更有价值的数据 分析服务。
数据仓库技术的未来发展
云端部署
AI与数据仓库的结合
随着云计算技术的成熟,数据仓库将 逐渐向云端迁移,以提高可扩展性和 灵活性。
人工智能技术的不断发展将为数据仓 库带来更多智能化功能,如自动分类 、预测等。
实时分析
随着对数据实时性的需求增加,数据 仓库将加强实时分析功能,提高数据 处理速度。
数据仓库与其他技术的结合
数据仓库与大数据技术的结合
OLAP技术
多维数据分析
OLAP支持多维数据分析,这意味着用户 可以从多个角度和维度(如时间、地点、
产品类别等)来分析数据。
A OLAP技术概述
OLAP是一种用于分析大量数据的工 具和技术,它允许用户通过多维数 据分析来深入了解数据的不同方面 。
B
C
D
可视化工具
OLAP系统通常提供各种可视化工具,如 仪表盘、报表、图表等,以帮助用户更好 地理解数据和分析结果。
数据仓库简介-PPT课件
9
第1章 数据仓库与OLAP概述
❖ 1.1 决策支持系统 ❖ 1.2数据仓库 ❖ 1.3数据仓库的体系结构 ❖ 1.4 数据准备与ETL ❖ 1.5 多维模型 ❖ 1.6 元数据 ❖ 1.7 访问数据仓库 ❖ 1.8 多维数据的存储方式 ❖ 1.9 小结
10
1.1 决策支持系统
❖决策支持系统
▪ DSS(decision support system)是可扩展交互式 IT技术和工具的集合,这些技术和工具用于处理和 分析数据以及辅助管理人员制定决策。为此,这种 系统匹配管理人员的个人资源和计算机资源,以提 高决策质量。
程只操作少量数据。 反映当前情况。
通常只作为一个整体管理。
系统性能至关重要,因为可能有大 量用户同时访问。
数据仓库(决策支持)数据
面向主题:数据服务于某个特定的商务主题,例如 客户信息等。它是非规范化数据(OLAP)。
对源数据进行摘要,或经过复杂的统计计算。例如 一个月中交易收入和支出的总和。
结构是动态的,可根据需要增减。 非易变(数据一旦插入就不能改变)。 分析驱动。 一般以记录集存取,所以一个过程能处理大批数据,
44
1.5 多维模型
❖ 限制
▪ 限制数据:从立方体分离部分数据来选出分析字 段。在关系代数中称为选择、投影
▪ 切片、切块操作
❖ 聚合
▪ 将多个子多维数据集合并成更大的多维数据集。
▪ 特性
• 多维,也称作立方体(或超立方体) • 提供一种便于使用的查询数据的机制。
37
1.5 多维模型
38
1.5 多维模型
❖ 度量值(Measure)
▪ 度量值是一组值,是客户发生事件或动作的事实 记录。
▪ 如:
第1章 数据仓库与OLAP概述
❖ 1.1 决策支持系统 ❖ 1.2数据仓库 ❖ 1.3数据仓库的体系结构 ❖ 1.4 数据准备与ETL ❖ 1.5 多维模型 ❖ 1.6 元数据 ❖ 1.7 访问数据仓库 ❖ 1.8 多维数据的存储方式 ❖ 1.9 小结
10
1.1 决策支持系统
❖决策支持系统
▪ DSS(decision support system)是可扩展交互式 IT技术和工具的集合,这些技术和工具用于处理和 分析数据以及辅助管理人员制定决策。为此,这种 系统匹配管理人员的个人资源和计算机资源,以提 高决策质量。
程只操作少量数据。 反映当前情况。
通常只作为一个整体管理。
系统性能至关重要,因为可能有大 量用户同时访问。
数据仓库(决策支持)数据
面向主题:数据服务于某个特定的商务主题,例如 客户信息等。它是非规范化数据(OLAP)。
对源数据进行摘要,或经过复杂的统计计算。例如 一个月中交易收入和支出的总和。
结构是动态的,可根据需要增减。 非易变(数据一旦插入就不能改变)。 分析驱动。 一般以记录集存取,所以一个过程能处理大批数据,
44
1.5 多维模型
❖ 限制
▪ 限制数据:从立方体分离部分数据来选出分析字 段。在关系代数中称为选择、投影
▪ 切片、切块操作
❖ 聚合
▪ 将多个子多维数据集合并成更大的多维数据集。
▪ 特性
• 多维,也称作立方体(或超立方体) • 提供一种便于使用的查询数据的机制。
37
1.5 多维模型
38
1.5 多维模型
❖ 度量值(Measure)
▪ 度量值是一组值,是客户发生事件或动作的事实 记录。
▪ 如:
数据仓库技术PPT课件( 25页)
像外行一样思考,像专家一样实践
2019/5/31
杭州斯凯网络科技有限公司
かなで たけお
金出 武雄
24
•
5、世上最美好的事是:我已经长大,父母还未老;我有能力报答,父母仍然健康。
•
6、没什么可怕的,大家都一样,在试探中不断前行。
•
7、时间就像一张网,你撒在哪里,你的收获就在哪里。纽扣第一颗就扣错了,可你扣到最后一颗才发现。有些事一开始就是错的,可只有到最后才不得不承认。
8
数据仓库的架构类型
2019/5/31
杭州斯凯网络科技有限公司
9
Oracle数据仓库的架构
2019/5/31
杭州斯凯网络科技有限公司
10
GreenPlum数据仓库的架构
2019/5/31
杭州斯凯网络科技有限公司
11
GreenPlum数据仓库的架构
2019/5/31
杭州斯凯网络科技有限公司
12
2019/5/31
杭州斯凯网络科技有限公司
20
软件物理架构比较
软件物理架构主要特征区别就是行存储和列存 储。这个也是曾经很多厂商津津乐道的地方,根 据需求的不同,2种方式可以灵活采用。
大部分DB软件都是采用行存储,而列存储 的特征在于高效的单列值压缩,在选择列比较少 的时候需要io要求很低,速度很快,不过行存储 的DB目前在压缩效率上也在迅速提升,大部分需 求还是选择行数据进行观察,行存储也更加便于 表的按记录拆分进行并行化。
MapReduce 概念
MapReduce是一种编程模型(并不是google自己开发的 编程工具),用于大规模数据集(大于1TB)的并行运算。 概念"Map(映射)"和"Reduce(化简)",和他们的主要 思想,都是从函数式编程语言里借来的,还有从矢量编程 语言里借来的特性。他极大地方便了编程人员在不会分布 式并行编程的情况下,将自己的程序运行在分布式系统上。
数据仓库入门PPT课件
旋转(pivot) – 旋转是变换维的方向,即在表格中重新安排维的放置 (例如行列互换)
21
OLAP的分析方法(一)切片、切块
22
OLAP的分析方法(二)钻取
按 时 间 维 向 下 钻
23 取
按
时
间
维
60
向
上
钻
取
OLAP的分析方法(三)旋转
24
OLAP分类
OLAP
按照存储方式
按照处理地点
ROLAP MOLAP HOLAP
BOSS+增值业务+财务
集成数据
– 建立关联
事件关联(业务之间是相互关联)
客户数据统一
– 历史数据
大量历史数据的保存问题
– 中国建设银行一个中等规模的省产生每天的交 易详细记录大约200M
7
– 通常在业务系统中只保存当日数据
数据仓库数据处理流程
业务系统数据/外部数据
数据格式检查
源数据清洁、抽取、转换
12
ETL应用过程
数据加载入库
数据加载主要是将经过转换和清洗的数据加载到数据仓 库里面,即入库,可以通过数据文件直接装载或直连数 据库的方式来进行数据装载,可以充分体现高效性 ETL调度 ETL的调度控制方式有两种:
自动方式
由系统每天定时或准实时启动后台程序,自动完成数据 仓库ETL处理流程。 手动方式 用户可以通过前台监控平台,对单个目标或批量目标进 行手工调度。
(4)信息性:不论数据量有多大,也不管数据存储在何处,OLAP 系统应能及时获得信息,并且管理大容量信息。
20
OLAP表现方式
钻取 – 改变维的层次,变换分析的粒度 – 向上钻取(roll up)和向下钻取(drill down)
21
OLAP的分析方法(一)切片、切块
22
OLAP的分析方法(二)钻取
按 时 间 维 向 下 钻
23 取
按
时
间
维
60
向
上
钻
取
OLAP的分析方法(三)旋转
24
OLAP分类
OLAP
按照存储方式
按照处理地点
ROLAP MOLAP HOLAP
BOSS+增值业务+财务
集成数据
– 建立关联
事件关联(业务之间是相互关联)
客户数据统一
– 历史数据
大量历史数据的保存问题
– 中国建设银行一个中等规模的省产生每天的交 易详细记录大约200M
7
– 通常在业务系统中只保存当日数据
数据仓库数据处理流程
业务系统数据/外部数据
数据格式检查
源数据清洁、抽取、转换
12
ETL应用过程
数据加载入库
数据加载主要是将经过转换和清洗的数据加载到数据仓 库里面,即入库,可以通过数据文件直接装载或直连数 据库的方式来进行数据装载,可以充分体现高效性 ETL调度 ETL的调度控制方式有两种:
自动方式
由系统每天定时或准实时启动后台程序,自动完成数据 仓库ETL处理流程。 手动方式 用户可以通过前台监控平台,对单个目标或批量目标进 行手工调度。
(4)信息性:不论数据量有多大,也不管数据存储在何处,OLAP 系统应能及时获得信息,并且管理大容量信息。
20
OLAP表现方式
钻取 – 改变维的层次,变换分析的粒度 – 向上钻取(roll up)和向下钻取(drill down)
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
用户
功能 DB 设计 数据
存取 工作单位 用户数 DB 大小
17
OLTP
OLAP
操作人员,低层管 理人员
日常操作处理
决策人员,高级管 理人员
分析决策
面向应用
面向主题
当前的, 最新的细 节的, 二维的分立 的
读/写数十条记录
历史的, 聚集的, 多维的集成的, 统 一的
读上百万条记录
简单的事务
复杂的查询
装载数据到DW
ODS数据抽取、转换
装载数据到ODS
DW数据抽取、转换 DW数据生成报表
报表展现
8
装载到OLAP
分析性查询
ETL简述
9
ETL定义
ETL: Extract-Transform-Load 数 据 抽 取 ( Extract ) 、 转 换 ( Transform ) 、 装 载 (Load)的过程。 ETL是BI/DW的核心和灵魂,按照统一的规则集成并提 高数据的价值,是负责完成数据从数据源向目标数据仓 库转化的过程,是实施数据仓库的重要步骤
13
ETL应用过程 监控
主要是监控ETL的整个过程,通过扫描ETL各模块的日 志中的关键值,如记录时间等信息与当前的状态作比较, 如果超过某一个值,则认为该模块运行可能出现问提, 应告警。
14
ETL工具框架
15
OLAP简述
16
OLAP&OLTP(on-line transaction processing)
OLAP的目标是满足决策支持或多维环境特定的查询和报表 需求,它的技术核心是“维”这个概念,因此OLAP也可 以说是多维数据分析工具的集合。
12
ETL应用过程
数据加载入库
数据加载主要是将经过转换和清洗的数据加载到数据仓 库里面,即入库,可以通过数据文件直接装载或直连数 据库的方式来进行数据装载,可以充分体现高效性 ETL调度 ETL的调度控制方式有两种:
自动方式
由系统每天定时或准实时启动后台程序,自动完成数据 仓库ETL处理流程。 手动方式 用户可以通过前台监控平台,对单个目标或批量目标进 行手工调度。
上千个
上百个
100MB-GB
100GB-TB
什么是OLAP
定义1 :OLAP(联机分析处理)是针对特定问题的联机数据 访问和分析。通过对信息(维数据)的多种可能的观察形式 进行快速、稳定一致和交互性的存取,允许管理决策人员 对数据进行深入观察。
定义2 :OLAP(联机分析处理) 是使分析人员、管理人员或 执行人员能够从多种角度对从原始数据中转化出来的、能 够真正为用户所理解的、并真实反映企业维特性的信息进 行快速、一致、交互地存取,从而获得对数据的更深入了 解的一类软件技术。(OLAP委员会的定义)
10
ETL应用过程
数据抽取 抽取主要是针对各个业务系统及不同网点的分散 数据,充分理解数据定义后,规划需要的数据源 及数据定义,制定可操作的数据源,制定增量抽 取的定义。 (数据源和文件等多种形式)
数据传输 数据传输是通过网络负责把远程的数据到本地 目录下。
11
ETL应用过程
数据的清洗和转换 转换主要是针对数据仓库建立的模型,通过一系列的转 换来实现将数据从业务模型 到分析模型,通过内建的库 函数、自定义脚本或其他的扩展方式,实现了各种复杂 的 转换,并且支持调试环境,清楚的监控数据转换的状 态。数据转换是真正将源数据变为目标数据的关键环节, 它包括数据格式转,换数据类型转换、数据汇总计算、 数据拼接等等。 清洗主要是针对系统的各个环节可能出现的数据二义性、 重复、不完整、违反业务 规则等问题,允许通过试抽取, 将有问题的纪录先剔除出来,根据实际情况调整相应 的 清洗操作。
文件系统管理 这一阶段在20世纪50年代后期至60年代中后期,计算机应用开始用于信息 管理,由于数据存储、检索和维护等需求,使得相应的研究开展起来了, 在硬件和软件方面都得到了发展,磁盘磁鼓出现,操作系统也产生。这一 时期数据管理的特点主要是:: 数据保存,数据可以长期保存在磁盘上; 有操作系统的文件管理系统,文件结构化,数据的物理结构和逻辑结构有了 区别; 有了存储文件后,数据可以不再仅仅属于某一个应用,而能进行一定程度 的复用。 但文件系统在数据管理方面存在缺陷,表现在数据冗余度大,数据和程序 之间缺乏独立性,容易造成数据的不一致性。
数据仓库的特点 – 数据仓库的数据是面向主题的 – 数据仓库的数据是集成的 – 数据仓库的数据是与时间相关的 – 数据仓库的数据是稳定的
4
简单的数据仓库架构
5
数据仓库实际应用
– OLTP分散在各个不同系统中(事件独立)
银行:卡、储蓄、信贷、会计、中间业务等等系 统
数据库系统(60年代末开始)
2
数据仓库的发展的动力
业务需求驱动 – 主要是详细的分析 – 科学的经营 市场活动的细化和实施等
数据驱动 – 数据量不断扩大 – 没有数据仓库等相关技术很难全面了解企业
项目驱动
3
数据仓库定义
Inmon的定义: – DataWarehouse is a subject-oriented,integrated,timevariant, and nonvolatile collection of data in support of management’s decision making process
BOSS+增值业务+财务
集成数据
– 建立关联
事件关联(业务之间是相互关联)
客户数据统一
– 历史数据
大量历史数据的保存问题
– 中国建设银行一个中等规模的省产生每天的交 易详细记录大约200M
7
– 通常在业务系统中只保存当日数据
数据仓库数据处理流程
业务系统数据/外部数据
数据格式检查
源数据清洁、抽取、转换
Data Warehouse overview
1
数据仓库管理的历史时期
人工管理方式: 这一时期是在20世纪50年代中期以前,这一阶段的计算机应用主要用于科 学计算,外存只有纸带、磁带、卡片等,数据处理的方式基本上是批处理。 这一时期数据管理的特点是:数据不保存;没有专用的数据管理软件,每 个应用都必须自己完成存储结构、存取方法、输入输入输出等数据管理功 能;一组数据对应一个应用,这使得程序之间可能有重复的数据。