数据仓库技术及应用概念
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Page 7
数据仓库的特点二:集成的
• 所谓集成:是指DW中的信息不是 从各个业务系统中简单抽取出来的, 而是经过一系列加工、整理和汇总 的过程,必须消除源数据中的不一 致性,因此DW中的信息是关于整 个企业的一致的全局信息;
• 各个业务系统可能由不同的厂家独 立承建,它们的数据模型设计、编 码规则等都是不同的,这些数据加 载到DW之后,需要进行一个加工 转换的过程。
Page 21
数据立方体的SQL查询
Select
Province 省份
City 地市 Season 季度
查看数据的维度
Month 月份
SUM(Elect_num) 电子产品销量
SUM(Daily_num)日用品销量 SUM(Book_num) 书籍销量
需要统计的度量
From 商品销售年表 Where Province in (浙江,上海、江苏)
CONTENTS
01 数据仓库的发展与定义
02
数据仓库价值和作用
03
数据仓库的技术要求
目
录
04 数据仓库的典型架构
05 扩展知识与讨论
Page 20
数据立方体(CUBE)
度量值
300 600
3000 900
5000
2000
维度
➢在某种程度上,数据仓库模型 的核心,就是一致性维度表和 一系列的数据立方体组合
数据仓库的定义
数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受——数据仓库 (Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated )、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于 支持管理决策(Decision Making Support)。
03
数据仓库的技术要求
目
录
04 数据仓库的典型架构
05 扩展知识与讨论
Page 14
数据仓库的价值
能实现跨业务线、跨系统的数据整合,为管理分析和业务决策提供统一的数据支持。数据仓库能够从根 本上帮助你把公司的运营数据转化成为高价值的可以获取的信息(或知识),并且在恰当的时候通过恰 当的方式把恰当的信息传递给恰当的人。
Page 23
数据集成(ETL)
•ETL,Extraction-Transformation-Loading的缩 写,中文名称为数据提取、转换和加载。 •ETL按照统一的规则集成并提高数据的价值,是负 责完成数据从数据源向目标数据仓库转化的过程, 是实施数据仓库的重要步骤。 •T的具体操作包括:空值处理、规范化数据格式、 拆分数据、数据替换、主外键约束等。
Data Warehouse OLAP
Data Mining
Artificial Intelligence
Data Mart
Operation Database
Database System
Page 17
建立数据仓库的前提条件
• 第一:该行业有较为成熟的联机事务处理系统,它为数据仓库提供客观条件; • 第二:该行业面临市场竞争的压力,它为数据仓库的建立提供外在的动力; • 第三:该行业为数据密集型行业;
主要技术路线 •ET-L为远端完成数据抽取、清洗,执 行库完成装载和检查 •E-TL为远端主要进行抽取,执行库完 成数据清洗转换和加载 •大部分采用两者结合方式
数据 库
文件
抽取
转换 加载
其他
临时 数据
目标 数据
•ETL过程为抽取、转换、装载 •ELT过程为抽取、装载、转换 •大部分系统主要采用ELT方法
传统多维存储MOLAP 采用优化的文件格式存储多维 Cube数据,速度快,但是需要 预先计算Cube。 Cognos Powerplay、Oracle、 Microsoft、Essbase、 …
关系型系统/ROLAP
混合系统/HOLAP
将Cube以某种表格的形式保存在 关系数据库中,通常使用条件查 询进行多维观察。
代码:B
代码:C
代码:A
描述:欠费单停 描述:欠费双停 描述:正常
代码:a 描述:销号
Page 11
关键术语
术语 DW ODS OLTP OLAP ETL CUBE 元数据 DM
英文描述 DataWarehouse Operate Data Store On-Line Transaction Processing On-Line Analytical Processing Extract-Transform-Load Data Cube Meta Data Data Market / Data Mining
• 分析和明确企业所涵盖的业务范围,并 且对企业业务进行高度概括性的描述, 把密切相关业务对象进行归类,它没有 统一的标准,主要根据设计者的经验。 不同的行业会有不同的主题域划分方式。
客户服务是一个
客户 客户接触事件 服务
事件
发生帐务清算
帐务
结算
市场营销指 导客户服务
参与人参与事件 参与人是客户服务的对象
数据仓库
有数据
业务系统-1
业务系统-2
业务系统-3
有竞争
国内某省移动运营商数 据仓库: ➢1、支撑用户: 3000W ➢2、每日抽取数据量: 1.8T ➢3、每日平均运行作业 数4500+ ➢4、数据处理完成时间: 11小时
Page 18
数据库与数据仓库的区别
比对点 粒度 目标 特性 驱动力 存储 访问量 使用频率 数据内容
Page 15
数据仓库解决什么问题
快速为决策者提供企业经营信息
数
最可靠的数据
据
仓
库
统一的口径、统一的规范
企业全局信息
减轻业务生产系统的压力 满足快速开发报表的需求 长期保存历史数据、海量数据处理
全自动的数据处理加工流程
Page 16
数据仓库与BI家族
Business Intelligent System Decision Support System
参与人因为使用产 品和服务支付相应 的费用
因为服务使用而进行的费 用结算
市场
市场营销针对参与人发起的
参与
营销
人
市场营销推广产品
对于不同地域采用 不同的营销策略
参与人关联地域
参与人订购相 应的产品
参与人使用服务提供 商提供的服务
服务 使用
提供服务所消耗的资源
地域
产品
资源
不同地域提供特定的产品
提供产品所需要的资源
中文描述 数据仓库 (业务)操作数据存储 联机事务处理,业务交易 联机分析处理,分析决策 抽取-转换-加载 数据立方体 记录数据的数据 数据集市 / 数据挖掘
Page 12
讨论
1、为什么会产生数据仓库? 2、数据仓库的主要特点有哪些?
Page 13
CONTENTS
01 数据仓库的发展与定义
02
数据仓库价值和作用
某个用户(手机)状态的变化过程
2019-04-01 2019-07-04
2019-08-04 2019-08-05
2019-11-05
代码:A 描述:正常
代码:B
代码:C
代码:A
描述:欠费单停 描述:欠费双停 描述:正常
代码:a 描述:销号
Page 10
数据仓库的特点四:相对稳定、反映历史变化
• 所谓信息相对稳定:是指一旦某个数据进入数据仓库以后,一般很少进行修改,更 多的是对信息进行查询操作。
本月充值2次 充值金额190元 充值渠道爱好:微信 当前可用积分8000 。。。。。。
Page 9
数据仓库的特点三:随时间变化的
• 所谓随时间变化:是指数据仓库内的信息并不只是反映企业当前的状态,而是 记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的 发展历程和未来趋势做出定量分析和预测;业务系统只记录当前的最新状态, 数据仓库中可以反映一个用户的状态变化过程以及分析变化的原因。
将Cube保存在优化的文件存储 中,而将详细信息保存在关系 数据库中,用于钻取。
Microsoft Analysis、 Modrain 、 Microsoft、Oracle、SAP AG、
MicroStrategy、Oracle BI、 …
MicroStrategy ..
小结:随着开源技术和前端WEB技术的发展,逐渐抛弃了C/S结构的产品,而是以B/S结构直接访问关 系型数据库,进行数据的多维分析
文件传输 检查校验
辅助
流式 组件
输入 文本
表 XML Excel
Hdfs操作
Hive脚本
MR调用、抽取、转换、排序、滤重
Hbase数据导入/导出、sqoop脚本
调 用
接 口
转换 清洗 转换 输出 文本 表 XML Excel
探索
雏形
确立
国内引入
大数据时代 的混搭
1970s
MIT研究员创建了 理论,试图将业 务处理系统和分 析系统,在架构 设计上分开
1980s-中
DEC公司建立规 范:数据获取、 访问、目录和服 务,并进行了实 施
1980s-末
IBM提出“信息 仓库”概念, InformationWa reHouse,全企 业集成
CRM系统
地市代码 地市名称
1
哈尔滨
2
齐齐哈尔
3
大庆
4
黑河
5
大兴安岭
Billing系统
地市代码 地市名称
451
哈尔滨
452
齐齐哈尔
455
大庆
459
黑河
455
大兴安岭
映射规则1 映射规则2
数据仓库
地市代码 地市名称
01
哈尔滨
02
齐齐哈尔
03
大庆
04
黑河
05
大兴安岭
Page 8
数据仓库的特点二:集成的
Group by
Province
City
数据分组
Season
Month
Page 22
OLAP技术
• OLAP(OnLine Analytical Processing)一种快速处理多维度查询的技术。OLAP从 属于BI范畴,有三种核心操作:多维观察、数据钻取、Cube运算。任何OLAP系统的核 心都是多维立方体 – 通常来自数据仓库的星型连接运算。
数据库系统 详细的数据 面向应用,为日常工作服务 动态变化,按字段更新 交易事务处理驱动 非冗余数据 一次处理很小的数据 高访问性 当前数据
数据仓库系统 综合的、融合的或汇总的 面向主题,为管理决策服务 静态、不更新 数据分析驱动 经常有冗余 一次处理大量的数据 适量的访问度 历史的、计算的数据
Page 19
数据仓库基础知识概览
2020-01
Page 1
CONTENTS
01 数据仓库的发展与定义
02
数据仓库的价值与作用
03
数据仓库的技术要求
目
录
04 wenku.baidu.com据仓库的典型架构
05 扩展知识
Page 2
怎样理解数据仓库的作用?
外文
历史
哲学
科幻
收集 整理
儿童
武侠
农业
……
Page 3
数据仓库理论的产生与发展
萌芽
• 数据仓库中几乎很少对历史数据进行修改,7月4日用户单停,那么这天的数据就是 这个状态;而对于业务系统中,它总是最新的状态,所以数据库的中的数据总是不 断变化的。
某个用户(手机)状态的变化过程
2019-04-01 2019-07-04
2019-08-04 2019-08-05
2019-11-05
代码:A 描述:正常
CRM
张三 男 45岁 北京路108号
账务
张三 11月 通话35次,时长523分钟
流量4.5G,账单180元
充值 积分
张三 11月 充值2次,共190元
通过微信充值
张三 11月 可用积分8000
客户画像
张三 2019年11月 男 45岁
北京路108号 通话35次、时长523分钟
上网流量4.5G 本月出账金额180元
1990s-初
1998
Bill Inmon
王珊教授出版《数
《建立数据仓库》 据仓库技术和联机
Ralph Kimball
分析处理》
《数据仓库工具箱》 2000年左右,中
国移动开始建设数
据仓库
2010s
Hadoop+MPP 但DW理论未变
Page 4
数据仓库应用模式演变
引导 实时 预测 分析 看数
Page 5
—— 来自 百度百科
数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据 来源于外部,并且开放给外部应用使用。
Page 6
数据仓库的特点一:面向主题
• 所谓主题:是指用户使用数据仓库进行 决策时所关心的重点方面,如:客户、 产品、账务、事件、服务使用、资源、 客户服务、地域等;所谓面向主题,是 指数据仓库内的信息是按主题进行组织 的,而不是像业务支撑系统那样是按照 业务功能进行组织的;
Page 24
NOSQL Spark
HADOOP
数据集成(ETL)
管理域
系统管理 SaaS模式 工程管理 资源管理
设计域
大数据集成平台
调度域
定时触发
作业设计
任务依赖
作业库管理
负载平衡 流程调度
人工干预
运维域
运行日志 日志统计 异常监控 平台监控
数据库操作
功 能 组
传 过程式 统
组件
件
文件操作 外部调用