数据仓库基础 PPT
合集下载
《数据仓库基础培训》课件
数据仓库的安全性和保密性
1 权限管理
数据仓库中的数据应根据用户角色和权限进行精确的管理,保证敏感数据的安全性。
2 数据加密
对敏感数据进行加密处理,防止未授权的访问和数据泄露。
3 备份与恢复
定期备份数据仓库,以确保数据的可靠性和可恢复性。
数据仓库的性能优化
索引优化
通过合理的索引设计和优化, 提高数据仓库的查询性能。
易用性
数据仓库的设计应简化用户的操作和查询过程, 使其能够轻松获取所需的信息。
数据仓库的建设流程与方法
1
需求分析
根据业务需求和数据源确定数据仓库的
数据建模
2
规模、范围和功能。
设计数据仓库的逻辑模型,包括维度模
型和事实表的建立。
3
ETL开发
进行数据抽取、转换和加载的开和完整。
数据仓库建设的经验与案例分享
成功案例
分享一些数据仓库建设的成功案例,探讨其经验和 最佳实践。
挑战与解决方案
讨论数据仓库建设过程中可能遇到的挑战,以及如 何解决和应对。
数据仓库的未来发展与挑战
1 大数据时代
随着大数据技术的不断发展,数据仓库将面临更大的数据规模和复杂性。
2 实时数据分析
实时数据分析需求的增加,将对数据仓库的实时性和性能提出更高要求。
分区与分片
将数据仓库的数据进行分区和 分片,以提高查询和加载的效 率。
缓存管理
使用缓存技术,预先加载常用 的数据,减少查询时间。
数据仓库的容错机制
数据复制
通过数据复制技术,将数据仓库的副本存储在不同 的地点,提高系统的容错能力。
灾难恢复
制定灾难恢复计划,确保在系统故障或灾难情况下 能够及时恢复数据仓库。
数据仓库概述PPT(共 57张)
决策支持系统:需要花数小时甚至更长时 间的处理、需要遍历数据库中的大部分数据, 进行复杂的计算,需要消耗大量的系统资源。
16
细节的
操1作.型1.数3据两者数据处理模式的分析差型数别据
综合的,或提炼的
当前数据
历史数据
更新的
不可更新,只读的
生命周期符合SDLC (软件开发生命周期)
完全不同的生命周期
对性能要求高 一个时刻操作一个单元 事务驱动 面向应用 一次操作数据量小,计算简单 支持日常操作
29
1.2 数据仓库的基本概念
数据仓库就是一个面向主题的、集成的、不可更新 的、随时间不断变化的数据集合,通常用于企业的 决策支持。
30
1.2.1 面向主题
主题:是一个抽象的概念,是在较高层次上将企业 信息系统中的数据综合、归类并进行分析利用的抽 象。在逻辑上,它对应于企业中某一宏观分析领域 所涉及的分析必须把分析数 据从事务处理环境中提取出来,按照决策支持系统处 理的需要进行重新组织,建立单独的分析型处理环境。 数据仓库正是为了构建这种新的分析型处理环境而 出现的一种数据存储和组织技术。
27
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
第1讲 数据仓库概述
1
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
2
数据仓库概述
1.1 数据仓库产生的原因 1.1.1 操作型数据处理 1.1.2 分析型数据处理 1.1.3 两种数据处理模式的差异 1.1.4 数据库系统的局限性
对性能要求宽松 一个时刻操作一个集合 分析驱动 面向分析 一次操作数据量大,计算复杂 支持管理需求
16
细节的
操1作.型1.数3据两者数据处理模式的分析差型数别据
综合的,或提炼的
当前数据
历史数据
更新的
不可更新,只读的
生命周期符合SDLC (软件开发生命周期)
完全不同的生命周期
对性能要求高 一个时刻操作一个单元 事务驱动 面向应用 一次操作数据量小,计算简单 支持日常操作
29
1.2 数据仓库的基本概念
数据仓库就是一个面向主题的、集成的、不可更新 的、随时间不断变化的数据集合,通常用于企业的 决策支持。
30
1.2.1 面向主题
主题:是一个抽象的概念,是在较高层次上将企业 信息系统中的数据综合、归类并进行分析利用的抽 象。在逻辑上,它对应于企业中某一宏观分析领域 所涉及的分析必须把分析数 据从事务处理环境中提取出来,按照决策支持系统处 理的需要进行重新组织,建立单独的分析型处理环境。 数据仓库正是为了构建这种新的分析型处理环境而 出现的一种数据存储和组织技术。
27
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
第1讲 数据仓库概述
1
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
2
数据仓库概述
1.1 数据仓库产生的原因 1.1.1 操作型数据处理 1.1.2 分析型数据处理 1.1.3 两种数据处理模式的差异 1.1.4 数据库系统的局限性
对性能要求宽松 一个时刻操作一个集合 分析驱动 面向分析 一次操作数据量大,计算复杂 支持管理需求
BW基础知识(介绍)专题培训课件
SAP 数据仓库(BW) 与其它 SAP系统紧密集成 开放的架构
主数据管理(MDM) 跨系统的主数据同步
SAP 集成平台(XI) 与其它 SAP系统紧密集成 信息映射 多种接口实现方式
SAP Web Application Server 稳定的系统运行平台
ETL工具
BW是SAP系统整体报表工具一部分
结论性分析
BW
BW
LIS – FIS - HIS
标准报表 Report Writer Report Painter
R/3 ABAP Query
ABAP SAP R/3 数据字典 & 表格
交易性分析
BW将提供更深层次的分析报表,但是不会取代所有 通过R3产生的报表。
数据仓库系统实施背景
背景介绍
ERP系统上线后,随着日常业务的开展,将产生大量的业务 交易数据,如何充分利用这些数据,为各层经营管理人员提供有效 的帮助,是一个即将面临的问题。
数据仓库系统实施背景 成功实施R/3之后…
业务终于通过R/3规范了
库存准了
订单管起来了
财务结帐快了
业务和财务数据一致了
业务情景二 执行层
?没有一个好的信息决策能预警销售数据就好了 ?我们有5年的销售数据,应该好好利用利用才
对,可是怎么整理这些数据好呢 ?怎么比较我的销售和竞争对手的销售
数据仓库系统实施背景 业务情景三 操作层
业务人员 技术人员
?为什么现在系统速度变慢了 ?为什么有些报表运行要这么长时间
BW系统的整体定位
是面向企业中、高级管理进行业务分析和绩效考核的数据 整合、分析和展现的工具;
是主要用于历史性、综合性和深层次数据分析; 数据来源是ERP(SAP R/3)系统或其他业务系统; 能够提供灵活、直观、简洁和易于操作的多维查询分析; 不是日常交易操作系统,不能直接产生交易数据;
主数据管理(MDM) 跨系统的主数据同步
SAP 集成平台(XI) 与其它 SAP系统紧密集成 信息映射 多种接口实现方式
SAP Web Application Server 稳定的系统运行平台
ETL工具
BW是SAP系统整体报表工具一部分
结论性分析
BW
BW
LIS – FIS - HIS
标准报表 Report Writer Report Painter
R/3 ABAP Query
ABAP SAP R/3 数据字典 & 表格
交易性分析
BW将提供更深层次的分析报表,但是不会取代所有 通过R3产生的报表。
数据仓库系统实施背景
背景介绍
ERP系统上线后,随着日常业务的开展,将产生大量的业务 交易数据,如何充分利用这些数据,为各层经营管理人员提供有效 的帮助,是一个即将面临的问题。
数据仓库系统实施背景 成功实施R/3之后…
业务终于通过R/3规范了
库存准了
订单管起来了
财务结帐快了
业务和财务数据一致了
业务情景二 执行层
?没有一个好的信息决策能预警销售数据就好了 ?我们有5年的销售数据,应该好好利用利用才
对,可是怎么整理这些数据好呢 ?怎么比较我的销售和竞争对手的销售
数据仓库系统实施背景 业务情景三 操作层
业务人员 技术人员
?为什么现在系统速度变慢了 ?为什么有些报表运行要这么长时间
BW系统的整体定位
是面向企业中、高级管理进行业务分析和绩效考核的数据 整合、分析和展现的工具;
是主要用于历史性、综合性和深层次数据分析; 数据来源是ERP(SAP R/3)系统或其他业务系统; 能够提供灵活、直观、简洁和易于操作的多维查询分析; 不是日常交易操作系统,不能直接产生交易数据;
数据仓库与数据挖掘PPT课件
数据抽取
从源系统抽取数据,进行清洗、转换 和加载,保证数据质量。
性能优化
根据实际运行情况,对数据仓库的性 能进行优化,包括索引、查询优化等。
数据仓库的性能优化
索引优化
合理使用索引,提高查询效率。
查询优化
优化查询语句,减少不必要的计算和数据 量。
分区优化
并行处理
根据数据特点,对数据进行分区存储,提 高查询效率。
用户行为分析
通过分析用户的浏览、搜索、购买等行为数据,了解用户 的需求和偏好,为产品开发和推荐提供依据。
商品推荐
基于用户的购买历史、浏览记录等信息,利用数据挖掘算 法为用户推荐相关商品,提高用户满意度和购物体验。
营销活动优化
通过分析历史营销活动的数据,挖掘最佳的营销策略和渠 道,提高营销效果和ROI。
数据仓库与数据挖掘 ppt课件
目录
• 数据仓库概述 • 数据挖掘基础 • 数据仓库与数据挖掘的关系 • 数据仓库建设实践 • 数据挖掘实践 • 案例分析
01
数据仓库概述
数据仓库的定义与特点
定义
数据仓库是一个大型、集中式、长期 存储的数据存储环境,用于支持决策 支持系统和多维分析。
特点
数据仓库具有面向主题、集成、非易 失和时变的特点,能够提供高效的数 据检索和分析功能。
异常检测
通过数据挖掘技术检测数据仓库中的异常值,及 时发现潜在的问题和风险。
数据仓库与数据挖掘的未来发展
1据仓库与数据挖掘将更加紧 密地集成在一起,形成一体化的数据处理和分析 流程。
智能化
借助机器学习和人工智能技术,数据仓库与数据 挖掘将更加智能化,能够自动进行数据处理和模 式识别。
客户满意度分析
干货数据仓库基础知识(全)(2024)
元数据应用
支持数据血缘分析、影响性分析、数据目 录等应用场景。
17
数据安全与隐私保护
2024/1/29
数据加密
对敏感数据进行加密处理,保证数据在传 输和存储过程中的安全性。
访问控制
通过身份认证和权限管理,控制用户对数 据的访问和操作。
数据脱敏
对涉及个人隐私的数据进行脱敏处理,保 护个人隐私不受侵犯。
不同的ETL工具有不同的特 点和适用场景,需要根据 实际需求选择合适的工具 。
在开始ETL开发之前,需要 制定详细的计划和设计文 档,明确数据源、目标数 据库、转换规则等关键信 息。
ETL过程中可能会涉及到大 量的数据读写操作,需要 注意优化性能,避免出现 性能瓶颈。可以采用批量 处理、并行计算等技术来 提高性能。
3
冷数据层
存储长期不访问的数据,采用低成本、大容量的 存储介质,如磁带库。
2024/1/29
16
元数据管理
2024/1/29
元数据定义
描述数据的数据,包括数据的结构、属性 、关系等信息。
元数据采集
通过数据字典、数据映射等方式自动或半 自动采集元数据。
元数据存储
采用专门的元数据仓库或数据库进行存储 和管理。
发展历程
从20世纪80年代提出数据仓库概念, 到90年代数据仓库技术逐渐成熟并应 用于企业,再到21世纪数据仓库已成 为大数据领域的重要组成部分。
2024/1/29
4
数据仓库与数据库区别
数据模型
数据操作
数据库采用ER模型面向应用进行数据的组 织和管理,而数据仓库采用星型或雪花型 模型面向主题进行组织。
6
提供查询、报表、分析 等数据服务,支持业务 决策和数据分析需求。
支持数据血缘分析、影响性分析、数据目 录等应用场景。
17
数据安全与隐私保护
2024/1/29
数据加密
对敏感数据进行加密处理,保证数据在传 输和存储过程中的安全性。
访问控制
通过身份认证和权限管理,控制用户对数 据的访问和操作。
数据脱敏
对涉及个人隐私的数据进行脱敏处理,保 护个人隐私不受侵犯。
不同的ETL工具有不同的特 点和适用场景,需要根据 实际需求选择合适的工具 。
在开始ETL开发之前,需要 制定详细的计划和设计文 档,明确数据源、目标数 据库、转换规则等关键信 息。
ETL过程中可能会涉及到大 量的数据读写操作,需要 注意优化性能,避免出现 性能瓶颈。可以采用批量 处理、并行计算等技术来 提高性能。
3
冷数据层
存储长期不访问的数据,采用低成本、大容量的 存储介质,如磁带库。
2024/1/29
16
元数据管理
2024/1/29
元数据定义
描述数据的数据,包括数据的结构、属性 、关系等信息。
元数据采集
通过数据字典、数据映射等方式自动或半 自动采集元数据。
元数据存储
采用专门的元数据仓库或数据库进行存储 和管理。
发展历程
从20世纪80年代提出数据仓库概念, 到90年代数据仓库技术逐渐成熟并应 用于企业,再到21世纪数据仓库已成 为大数据领域的重要组成部分。
2024/1/29
4
数据仓库与数据库区别
数据模型
数据操作
数据库采用ER模型面向应用进行数据的组 织和管理,而数据仓库采用星型或雪花型 模型面向主题进行组织。
6
提供查询、报表、分析 等数据服务,支持业务 决策和数据分析需求。
数据库基础知识ppt教材
数据库基础知识ppt教材
数据库发展热点
❖ 数据仓库与XML引领主流 ❖ 2007年是数据库厂商的数据仓库年和XML年(XML(eXtensible Markup
Language)即可扩展标记语言。XML是Internet环境中跨平台的,依赖于内 容的技术, 是当前处理结构化文档信息的有力工具。扩展标记语言XML是一 种简单的数据存储语言,使用一系列简单的标记描述数据,而这些标记可以 用方便的方式建立,虽 然XML占用的空间比二进制数据要占用更多的空间, 但XML极其简单易于掌握和使用。 XML与Access,Oracle和SQL Server等数 据库不同,数据库提供了更强有力的数据存储和分析能力,例如:数据索引、 排序、查找、相关一致性等,XML仅仅是展示数据。) 。 ❖ 从微软、IBM和Oracle发布的产品介绍看,数据仓库成为厂商拉动中高端 客户的有利措施,为了提升用户的认同度,三家还适时推出面向各主要行业 的专用数据仓库方案,并辅以一定参考案例。 ❖ 随着SOA和Enterprise2.0从概念走向实施,在巩固数据仓库市场的同时, 为了抓住下一个以数据服务和用户体验为主体的数据库应用时代, SQLServer2008、DB2Viper和Oracle11g在XML数据库方面的宣传声势比商 务智能更大,由于XML技术已经从简单的数据内容,逐步过渡到数据结构定 义、业务数据模型和业务语义模型,数据库厂商在上一代产品XML数据引擎 的基础上,也面向XML应用不断增加必要的XML数据转换、数据验证、层次 型数据重构和更高效的层次信息检索技术,并且在国内一些信息化应用水平 较高的行业投入实际应用。
数据是数据库中存储的基本对象。除了最基本的 数据形式-数字外,还有文字、图形、图像、声 音 、学生的档案记录、货物的运输情况等。
数据库发展热点
❖ 数据仓库与XML引领主流 ❖ 2007年是数据库厂商的数据仓库年和XML年(XML(eXtensible Markup
Language)即可扩展标记语言。XML是Internet环境中跨平台的,依赖于内 容的技术, 是当前处理结构化文档信息的有力工具。扩展标记语言XML是一 种简单的数据存储语言,使用一系列简单的标记描述数据,而这些标记可以 用方便的方式建立,虽 然XML占用的空间比二进制数据要占用更多的空间, 但XML极其简单易于掌握和使用。 XML与Access,Oracle和SQL Server等数 据库不同,数据库提供了更强有力的数据存储和分析能力,例如:数据索引、 排序、查找、相关一致性等,XML仅仅是展示数据。) 。 ❖ 从微软、IBM和Oracle发布的产品介绍看,数据仓库成为厂商拉动中高端 客户的有利措施,为了提升用户的认同度,三家还适时推出面向各主要行业 的专用数据仓库方案,并辅以一定参考案例。 ❖ 随着SOA和Enterprise2.0从概念走向实施,在巩固数据仓库市场的同时, 为了抓住下一个以数据服务和用户体验为主体的数据库应用时代, SQLServer2008、DB2Viper和Oracle11g在XML数据库方面的宣传声势比商 务智能更大,由于XML技术已经从简单的数据内容,逐步过渡到数据结构定 义、业务数据模型和业务语义模型,数据库厂商在上一代产品XML数据引擎 的基础上,也面向XML应用不断增加必要的XML数据转换、数据验证、层次 型数据重构和更高效的层次信息检索技术,并且在国内一些信息化应用水平 较高的行业投入实际应用。
数据是数据库中存储的基本对象。除了最基本的 数据形式-数字外,还有文字、图形、图像、声 音 、学生的档案记录、货物的运输情况等。
《数据仓库技术》课件
数据质量参差不齐
数据来源多样,数据质 量难以保证,需要进行
数据清洗和校验。
数据分析需求多变
不同部门和业务场景对 数据分析的需求各不相 同,需要灵活地调整数 据仓库架构和查询方式
。
应对策略
采用分布式存储和计算 技术,提高数据存储和 处理能力;建立数据质 量管理体系,确保数据 质量;提供灵活的数据 仓库架构和查询方式, 满足多变的分析需求。
大数据时代的挑战与机遇
挑战
随着大数据时代的来临,数据量呈爆 炸式增长,如何高效地存储、处理和 分析这些数据成为数据仓库面临的挑 战。
机遇
大数据时代为数据仓库技术的发展提 供了广阔的空间,通过技术创新和优 化,数据仓库能够更好地应对大数据 的挑战,为企业提供更有价值的数据 分析服务。
数据仓库技术的未来发展
云端部署
AI与数据仓库的结合
随着云计算技术的成熟,数据仓库将 逐渐向云端迁移,以提高可扩展性和 灵活性。
人工智能技术的不断发展将为数据仓 库带来更多智能化功能,如自动分类 、预测等。
实时分析
随着对数据实时性的需求增加,数据 仓库将加强实时分析功能,提高数据 处理速度。
数据仓库与其他技术的结合
数据仓库与大数据技术的结合
OLAP技术
多维数据分析
OLAP支持多维数据分析,这意味着用户 可以从多个角度和维度(如时间、地点、
产品类别等)来分析数据。
A OLAP技术概述
OLAP是一种用于分析大量数据的工 具和技术,它允许用户通过多维数 据分析来深入了解数据的不同方面 。
B
C
D
可视化工具
OLAP系统通常提供各种可视化工具,如 仪表盘、报表、图表等,以帮助用户更好 地理解数据和分析结果。
数据仓库ppt课件
精选编辑ppt
3
数据仓库——发展
数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于1990年提 出,主要功能是将组织透过资讯系统和联机事务处理(OLTP)经年累月 所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一 有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数 据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主 管资讯系统(EIS)之创建,帮助决策者能快速有效的从大量资料中,分 析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建 构商业智能(BI)。
精选编辑ppt
4
数据仓库——特征
1.数据仓库是面向主题的; 操作型数据库的数据组织面向事务处理任务,而数据仓库中的数
据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决 策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。 2.数据仓库是集成的;
数据仓库的数据有来自于分散的操作型数据,将所需数据从原来 的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据 仓库。 3.数据仓库是不可更新的;
元数据:是描述数据仓库内数据的结构和建立方法的数据。它为访问 数据仓库提供了一个信息目录,这个目录全面描述了数据仓库中都有 什么数据、这些数据怎么得到的、和怎么访问这些数据。是数据仓库 运行和维护的中心,数据仓库服务器利用他来存贮和更新数据,用户 通过他来了解和访问数据。
数据集市:是从数据仓库中独立出来的一部分数据,也可称为部门数 据或主题数据。在数据仓库的实施过程中往往可以从一个部门的数据 集市着手,以后再用几个数据集市组成一个完整的数据仓库。需要注 意的就是在实施不同的数据集市时,同一含义的字段定义一定要相容, 这样在以后实施数据仓库时才不会造成大麻烦。
数据仓库简介-PPT课件
9
第1章 数据仓库与OLAP概述
❖ 1.1 决策支持系统 ❖ 1.2数据仓库 ❖ 1.3数据仓库的体系结构 ❖ 1.4 数据准备与ETL ❖ 1.5 多维模型 ❖ 1.6 元数据 ❖ 1.7 访问数据仓库 ❖ 1.8 多维数据的存储方式 ❖ 1.9 小结
10
1.1 决策支持系统
❖决策支持系统
▪ DSS(decision support system)是可扩展交互式 IT技术和工具的集合,这些技术和工具用于处理和 分析数据以及辅助管理人员制定决策。为此,这种 系统匹配管理人员的个人资源和计算机资源,以提 高决策质量。
程只操作少量数据。 反映当前情况。
通常只作为一个整体管理。
系统性能至关重要,因为可能有大 量用户同时访问。
数据仓库(决策支持)数据
面向主题:数据服务于某个特定的商务主题,例如 客户信息等。它是非规范化数据(OLAP)。
对源数据进行摘要,或经过复杂的统计计算。例如 一个月中交易收入和支出的总和。
结构是动态的,可根据需要增减。 非易变(数据一旦插入就不能改变)。 分析驱动。 一般以记录集存取,所以一个过程能处理大批数据,
44
1.5 多维模型
❖ 限制
▪ 限制数据:从立方体分离部分数据来选出分析字 段。在关系代数中称为选择、投影
▪ 切片、切块操作
❖ 聚合
▪ 将多个子多维数据集合并成更大的多维数据集。
▪ 特性
• 多维,也称作立方体(或超立方体) • 提供一种便于使用的查询数据的机制。
37
1.5 多维模型
38
1.5 多维模型
❖ 度量值(Measure)
▪ 度量值是一组值,是客户发生事件或动作的事实 记录。
▪ 如:
第1章 数据仓库与OLAP概述
❖ 1.1 决策支持系统 ❖ 1.2数据仓库 ❖ 1.3数据仓库的体系结构 ❖ 1.4 数据准备与ETL ❖ 1.5 多维模型 ❖ 1.6 元数据 ❖ 1.7 访问数据仓库 ❖ 1.8 多维数据的存储方式 ❖ 1.9 小结
10
1.1 决策支持系统
❖决策支持系统
▪ DSS(decision support system)是可扩展交互式 IT技术和工具的集合,这些技术和工具用于处理和 分析数据以及辅助管理人员制定决策。为此,这种 系统匹配管理人员的个人资源和计算机资源,以提 高决策质量。
程只操作少量数据。 反映当前情况。
通常只作为一个整体管理。
系统性能至关重要,因为可能有大 量用户同时访问。
数据仓库(决策支持)数据
面向主题:数据服务于某个特定的商务主题,例如 客户信息等。它是非规范化数据(OLAP)。
对源数据进行摘要,或经过复杂的统计计算。例如 一个月中交易收入和支出的总和。
结构是动态的,可根据需要增减。 非易变(数据一旦插入就不能改变)。 分析驱动。 一般以记录集存取,所以一个过程能处理大批数据,
44
1.5 多维模型
❖ 限制
▪ 限制数据:从立方体分离部分数据来选出分析字 段。在关系代数中称为选择、投影
▪ 切片、切块操作
❖ 聚合
▪ 将多个子多维数据集合并成更大的多维数据集。
▪ 特性
• 多维,也称作立方体(或超立方体) • 提供一种便于使用的查询数据的机制。
37
1.5 多维模型
38
1.5 多维模型
❖ 度量值(Measure)
▪ 度量值是一组值,是客户发生事件或动作的事实 记录。
▪ 如:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 粒度
– 指数据仓库的数据单位中保存数据的细化或综合程度的级别 – 粒度级越小,细节程度越高,综合程度越低,回答查询的种类越多 – 粒度影响数据仓库中数据量的大小 – 粒度问题是设计数据仓库的一个重要方面 – 在数据仓库的细节级上创建两种粒度
• 短期储存的低粒度(真实档案),满足细节查询 • 具有综合的高粒度(轻度综合),做分析
• 面向主题的(Subject -Oriented) • 集成的 • 可变的 • 当前或接近当前的
• ETL
– 数据抽取、转换、装载(Extract/Transformation/Load)
元数据、分割、粒度
• 元数据
– 关于数据的数据。用于构造、维持、管理使用数据仓库。
• 分割
– 数据分散到各自的物理单元中去,它们能独立地处理。
数据仓库 数据存储
元数据管理
分析
数据使用 门 户
数
数据标准管理
据
用
源
数据质量管理
户
数据获取:ETL
• 职责
– 负责将数据从源系统提取到数据仓库中
• 功能
– 去掉操作型数据库中不需要的数据 – 统一转换数据的名称和定义 – 计算汇总数据和派生数据 – 估计遗失数据的缺省值
• 关键问题
– 增量数据获取 – 异常处理
• CDC组件
– Change Data Capture 改变数据捕获
CDC整体连接示意图
system
CDC for Oracle
S1(实例)
S11(数据存储)
CDC for Accessserver
D11(数据存 储)
CDC for Datastage
D1(实例)
userA(登录服务器用户)
AAddmmiinn((客客户户端端用用户户)) cdd user(登录服务器用户)
Relational
Package
Legacy
External source Data Clean Tool
Data Staging
Enterprise Data
Warehouse
Data Staging:数据 处理区域,为了实现 ETL过程的临时存储
Datamart
RDBMS
Datamart
RDBMS ROLAP
RDBMS
Metadata
Sourceபைடு நூலகம்
Data Extraction,
Databases Transformation, load
Central Data Warehouse
Architected Data Marts
MidTier
MidTier
MDB
End-User DW Tools
Data Access and Analysis
MDB
End-User Tool
End-User Tool
End-User Tool
End-User Tool
体系结构 [Pieter,1998]
Relational
Appl. Package
Legacy
External Data
Cleansing Tool
Warehouse Admin. Tools
• 模拟多维方式显示(观察)数据
ROLAP架构
MOLAP与ROLAP
• MOLAP
– 计算速度较快 – 支持的数据容量较小 – 缺乏细节数据的OLAP – 多维数据库由许多经压缩的、类似于数组的对象构成,带有高度压缩的索引及指
针结构 – 以关系数据库存放细节数据、以多维数据库存放综合数据
• ROLAP
• 触发器
– 源表中创建触发器,通过触发器 捕获数据的增、删、改
插入 修改 删除
…… 增量2 增量1
ETL
存量数据
数据仓库
• 数据库日志
– 对事务数据库的日志文件进行分析,获取变化的数据
• Hash值
– 通过比对记录的hash值,识别出变化的数据
• 业务日期
– 根据源表中有业务含义的日期字段获取增量,如保单表的签单日、生效日,收付 费表的实收日期,保全生效日等
• 可以理解为交叉表的数据格
钻取和上卷
旋转
示例:钻取-操作
示例:钻取-效果
基于多维数据库的OLAP——MOLAP
• 以多维方式组织数据(综合数据) • 以多维方式显示(观察)数据 • 多维数据库的形式类似于交叉表,可直观地表述一对多、
多对多的关系
– 如:产品、地区、销售额
• 关系 • 多维
—— [Ladley,1997]
……是一组方法、技术、工具…… • Data warehouse is a process of crating, maintaining,and
using a decision-support infrastructure.
—— Appleton,1995][Haley,1997][Gardner 1998]
Source Hub - Data Extraction, Central Data Ware-
Databases Transformation, load
house and ODS
Architected Data Marts
Data Access and Analysis
小结:体系结构
调度管理
ETL 数据获取
数据仓库基础
信息技术部 开发三处 徐景春
日程
日程:技术知识
• 基本概念 • 体系结构 • 设计方法 • 技术实现
背景:数据处理的发展历程
数据库
OLTP处理交易 统计类需求 数据源繁杂 文件方式
数据与程序混杂 管理复杂 并发问题 一致性问题
传统数据仓库
OLAP处理分析 性能问题 非结构化数据 实时
– 结构较复杂 – 以关系模拟多维 – 支持适当细节的OLAP – 较成熟
• 多维数据库由许多经压缩的、类似于数组的对象构成,带 有高度压缩的索引及指针结构
• 以关系数据库存放细节数据、以多维数据库存放综合数据
MOLAP架构
基于关系数据库的OLAP——ROLAP
• 以二维表与多维联系来表达多维数据(综合数据)
– 星型结构 – 事实表,存储事实的量及各维的码值(BCNF) – 维表,对每一个维,至少有一个表用来保存该维的元数据(多层次、冗余) – 事实表通过外键与每个维表相联系 – 雪花、星座、雪暴
—— [Inmon,1996]
数据仓库是一个面向主题的、集成的、非易失的且随时间 变化的数据集合,用来支持管理人员的决策。
数据仓库其他定义
• Data warehouse is a set of methods, techniques,and tools that may be leveraged together to produce a vehicle that delivers data to end-users on an integrated platform .
数据使用:分析
• 职责
– 负责数据的使用、分析、展现
• 常见方式
– 报表:常规的制式固定报表 – OLAP:联机分析处理 – 数据挖掘 – 即席查询 – 自助查询
调度管理
ETL 数据获取
数据仓库 数据存储
元数据管理
分析
数据使用 门 户
数据标准管理
数据质量管理
联机分析处理(OLAP)
• 是针对特定问题的联机访问和分析 • 通过对信息的很多种可能的观察形式进行快速、稳定一致
Central Data
Warehouse
Local Metadata
Data Mart
RDBMS
Metadata Exchange
Local Metadata
Local Metadata
Data Mart RDBMS
MidTier
OLTP Tools
MidTier
MDB
End-User DW Tools
DW2.0 大数据平台
……
说明 不是“替代”关系 本文档重点介绍“传统数据仓库”
OLTP与OLAP
OLTP 处理交易 流程 运转
OLAP 分析数据 数据 记录、观察
数据仓库定义
• Data warehouse is a subject oriented, integrated,nonvolatile and time variant collection of data in support of management’s decision.
• 异常捕获、异常处理
– 非功能需求
• 如何复用代码 • 性能:是否使用存储过程、如何转换 • 易用性:并行开发、维护
调度管理
ETL 数据获取
数据仓库 数据存储
元数据管理
分析
数据使用 门 户
数据标准管理
数据质量管理
增量数据获取方式
• 时间戳
– 源表有时间戳字段,记录新增、 修改、删除更新时间戳字段
和交互性的存取,允许分析人员对数据进行深入观察 • 概念
– 变量是数据的实际意义,描述数据是什么 – 维是人们观察数据的特定角度 – 维的层次是维在不同细节程度的描述 – 维成员是维的一个取值 – 多层次维的维成员是各层次取值的组合 – 对应一个数据项,维成员是该数据项在该维中位置的描述 – 多维数组可以表示为(维1,维2,……,变量),如(地区,时间,销售渠道,销售额) – 多维数组的取值称为数据单元(单元格)
如何选择增量获取方式
数据存储:数据仓库
• 职责
– 负责存储数据
• 功能
– 快速存取,适应变化
– 指数据仓库的数据单位中保存数据的细化或综合程度的级别 – 粒度级越小,细节程度越高,综合程度越低,回答查询的种类越多 – 粒度影响数据仓库中数据量的大小 – 粒度问题是设计数据仓库的一个重要方面 – 在数据仓库的细节级上创建两种粒度
• 短期储存的低粒度(真实档案),满足细节查询 • 具有综合的高粒度(轻度综合),做分析
• 面向主题的(Subject -Oriented) • 集成的 • 可变的 • 当前或接近当前的
• ETL
– 数据抽取、转换、装载(Extract/Transformation/Load)
元数据、分割、粒度
• 元数据
– 关于数据的数据。用于构造、维持、管理使用数据仓库。
• 分割
– 数据分散到各自的物理单元中去,它们能独立地处理。
数据仓库 数据存储
元数据管理
分析
数据使用 门 户
数
数据标准管理
据
用
源
数据质量管理
户
数据获取:ETL
• 职责
– 负责将数据从源系统提取到数据仓库中
• 功能
– 去掉操作型数据库中不需要的数据 – 统一转换数据的名称和定义 – 计算汇总数据和派生数据 – 估计遗失数据的缺省值
• 关键问题
– 增量数据获取 – 异常处理
• CDC组件
– Change Data Capture 改变数据捕获
CDC整体连接示意图
system
CDC for Oracle
S1(实例)
S11(数据存储)
CDC for Accessserver
D11(数据存 储)
CDC for Datastage
D1(实例)
userA(登录服务器用户)
AAddmmiinn((客客户户端端用用户户)) cdd user(登录服务器用户)
Relational
Package
Legacy
External source Data Clean Tool
Data Staging
Enterprise Data
Warehouse
Data Staging:数据 处理区域,为了实现 ETL过程的临时存储
Datamart
RDBMS
Datamart
RDBMS ROLAP
RDBMS
Metadata
Sourceபைடு நூலகம்
Data Extraction,
Databases Transformation, load
Central Data Warehouse
Architected Data Marts
MidTier
MidTier
MDB
End-User DW Tools
Data Access and Analysis
MDB
End-User Tool
End-User Tool
End-User Tool
End-User Tool
体系结构 [Pieter,1998]
Relational
Appl. Package
Legacy
External Data
Cleansing Tool
Warehouse Admin. Tools
• 模拟多维方式显示(观察)数据
ROLAP架构
MOLAP与ROLAP
• MOLAP
– 计算速度较快 – 支持的数据容量较小 – 缺乏细节数据的OLAP – 多维数据库由许多经压缩的、类似于数组的对象构成,带有高度压缩的索引及指
针结构 – 以关系数据库存放细节数据、以多维数据库存放综合数据
• ROLAP
• 触发器
– 源表中创建触发器,通过触发器 捕获数据的增、删、改
插入 修改 删除
…… 增量2 增量1
ETL
存量数据
数据仓库
• 数据库日志
– 对事务数据库的日志文件进行分析,获取变化的数据
• Hash值
– 通过比对记录的hash值,识别出变化的数据
• 业务日期
– 根据源表中有业务含义的日期字段获取增量,如保单表的签单日、生效日,收付 费表的实收日期,保全生效日等
• 可以理解为交叉表的数据格
钻取和上卷
旋转
示例:钻取-操作
示例:钻取-效果
基于多维数据库的OLAP——MOLAP
• 以多维方式组织数据(综合数据) • 以多维方式显示(观察)数据 • 多维数据库的形式类似于交叉表,可直观地表述一对多、
多对多的关系
– 如:产品、地区、销售额
• 关系 • 多维
—— [Ladley,1997]
……是一组方法、技术、工具…… • Data warehouse is a process of crating, maintaining,and
using a decision-support infrastructure.
—— Appleton,1995][Haley,1997][Gardner 1998]
Source Hub - Data Extraction, Central Data Ware-
Databases Transformation, load
house and ODS
Architected Data Marts
Data Access and Analysis
小结:体系结构
调度管理
ETL 数据获取
数据仓库基础
信息技术部 开发三处 徐景春
日程
日程:技术知识
• 基本概念 • 体系结构 • 设计方法 • 技术实现
背景:数据处理的发展历程
数据库
OLTP处理交易 统计类需求 数据源繁杂 文件方式
数据与程序混杂 管理复杂 并发问题 一致性问题
传统数据仓库
OLAP处理分析 性能问题 非结构化数据 实时
– 结构较复杂 – 以关系模拟多维 – 支持适当细节的OLAP – 较成熟
• 多维数据库由许多经压缩的、类似于数组的对象构成,带 有高度压缩的索引及指针结构
• 以关系数据库存放细节数据、以多维数据库存放综合数据
MOLAP架构
基于关系数据库的OLAP——ROLAP
• 以二维表与多维联系来表达多维数据(综合数据)
– 星型结构 – 事实表,存储事实的量及各维的码值(BCNF) – 维表,对每一个维,至少有一个表用来保存该维的元数据(多层次、冗余) – 事实表通过外键与每个维表相联系 – 雪花、星座、雪暴
—— [Inmon,1996]
数据仓库是一个面向主题的、集成的、非易失的且随时间 变化的数据集合,用来支持管理人员的决策。
数据仓库其他定义
• Data warehouse is a set of methods, techniques,and tools that may be leveraged together to produce a vehicle that delivers data to end-users on an integrated platform .
数据使用:分析
• 职责
– 负责数据的使用、分析、展现
• 常见方式
– 报表:常规的制式固定报表 – OLAP:联机分析处理 – 数据挖掘 – 即席查询 – 自助查询
调度管理
ETL 数据获取
数据仓库 数据存储
元数据管理
分析
数据使用 门 户
数据标准管理
数据质量管理
联机分析处理(OLAP)
• 是针对特定问题的联机访问和分析 • 通过对信息的很多种可能的观察形式进行快速、稳定一致
Central Data
Warehouse
Local Metadata
Data Mart
RDBMS
Metadata Exchange
Local Metadata
Local Metadata
Data Mart RDBMS
MidTier
OLTP Tools
MidTier
MDB
End-User DW Tools
DW2.0 大数据平台
……
说明 不是“替代”关系 本文档重点介绍“传统数据仓库”
OLTP与OLAP
OLTP 处理交易 流程 运转
OLAP 分析数据 数据 记录、观察
数据仓库定义
• Data warehouse is a subject oriented, integrated,nonvolatile and time variant collection of data in support of management’s decision.
• 异常捕获、异常处理
– 非功能需求
• 如何复用代码 • 性能:是否使用存储过程、如何转换 • 易用性:并行开发、维护
调度管理
ETL 数据获取
数据仓库 数据存储
元数据管理
分析
数据使用 门 户
数据标准管理
数据质量管理
增量数据获取方式
• 时间戳
– 源表有时间戳字段,记录新增、 修改、删除更新时间戳字段
和交互性的存取,允许分析人员对数据进行深入观察 • 概念
– 变量是数据的实际意义,描述数据是什么 – 维是人们观察数据的特定角度 – 维的层次是维在不同细节程度的描述 – 维成员是维的一个取值 – 多层次维的维成员是各层次取值的组合 – 对应一个数据项,维成员是该数据项在该维中位置的描述 – 多维数组可以表示为(维1,维2,……,变量),如(地区,时间,销售渠道,销售额) – 多维数组的取值称为数据单元(单元格)
如何选择增量获取方式
数据存储:数据仓库
• 职责
– 负责存储数据
• 功能
– 快速存取,适应变化