数据仓库技术及应用概念

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Page 7
数据仓库的特点二:集成的
• 所谓集成:是指DW中的信息不是 从各个业务系统中简单抽取出来的, 而是经过一系列加工、整理和汇总 的过程,必须消除源数据中的不一 致性,因此DW中的信息是关于整 个企业的一致的全局信息;
• 各个业务系统可能由不同的厂家独 立承建,它们的数据模型设计、编 码规则等都是不同的,这些数据加 载到DW之后,需要进行一个加工 转换的过程。
Page 21
数据立方体的SQL查询
Select
Province 省份
City 地市 Season 季度
查看数据的维度
Month 月份
SUM(Elect_num) 电子产品销量
SUM(Daily_num)日用品销量 SUM(Book_num) 书籍销量
需要统计的度量
From 商品销售年表 Where Province in (浙江,上海、江苏)
CONTENTS
01 数据仓库的发展与定义
02
数据仓库价值和作用
03
数据仓库的技术要求


04 数据仓库的典型架构
05 扩展知识与讨论
Page 20
数据立方体(CUBE)
度量值
300 600
3000 900
5000
2000
维度
➢在某种程度上,数据仓库模型 的核心,就是一致性维度表和 一系列的数据立方体组合
数据仓库的定义
数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受——数据仓库 (Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated )、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于 支持管理决策(Decision Making Support)。
03
数据仓库的技术要求


04 数据仓库的典型架构
05 扩展知识与讨论
Page 14
数据仓库的价值
能实现跨业务线、跨系统的数据整合,为管理分析和业务决策提供统一的数据支持。数据仓库能够从根 本上帮助你把公司的运营数据转化成为高价值的可以获取的信息(或知识),并且在恰当的时候通过恰 当的方式把恰当的信息传递给恰当的人。
Page 23
数据集成(ETL)
•ETL,Extraction-Transformation-Loading的缩 写,中文名称为数据提取、转换和加载。 •ETL按照统一的规则集成并提高数据的价值,是负 责完成数据从数据源向目标数据仓库转化的过程, 是实施数据仓库的重要步骤。 •T的具体操作包括:空值处理、规范化数据格式、 拆分数据、数据替换、主外键约束等。
Data Warehouse OLAP
Data Mining
Artificial Intelligence
Data Mart
Operation Database
Database System
Page 17
建立数据仓库的前提条件
• 第一:该行业有较为成熟的联机事务处理系统,它为数据仓库提供客观条件; • 第二:该行业面临市场竞争的压力,它为数据仓库的建立提供外在的动力; • 第三:该行业为数据密集型行业;
主要技术路线 •ET-L为远端完成数据抽取、清洗,执 行库完成装载和检查 •E-TL为远端主要进行抽取,执行库完 成数据清洗转换和加载 •大部分采用两者结合方式
数据 库
文件
抽取
转换 加载
其他
临时 数据
目标 数据
•ETL过程为抽取、转换、装载 •ELT过程为抽取、装载、转换 •大部分系统主要采用ELT方法
传统多维存储MOLAP 采用优化的文件格式存储多维 Cube数据,速度快,但是需要 预先计算Cube。 Cognos Powerplay、Oracle、 Microsoft、Essbase、 …
关系型系统/ROLAP
混合系统/HOLAP
将Cube以某种表格的形式保存在 关系数据库中,通常使用条件查 询进行多维观察。
代码:B
代码:C
代码:A
描述:欠费单停 描述:欠费双停 描述:正常
代码:a 描述:销号
Page 11
关键术语
术语 DW ODS OLTP OLAP ETL CUBE 元数据 DM
英文描述 DataWarehouse Operate Data Store On-Line Transaction Processing On-Line Analytical Processing Extract-Transform-Load Data Cube Meta Data Data Market / Data Mining
• 分析和明确企业所涵盖的业务范围,并 且对企业业务进行高度概括性的描述, 把密切相关业务对象进行归类,它没有 统一的标准,主要根据设计者的经验。 不同的行业会有不同的主题域划分方式。
客户服务是一个
客户 客户接触事件 服务
事件
发生帐务清算
帐务
结算
市场营销指 导客户服务
参与人参与事件 参与人是客户服务的对象
数据仓库
有数据
业务系统-1
业务系统-2
业务系统-3
有竞争
国内某省移动运营商数 据仓库: ➢1、支撑用户: 3000W ➢2、每日抽取数据量: 1.8T ➢3、每日平均运行作业 数4500+ ➢4、数据处理完成时间: 11小时
Page 18
数据库与数据仓库的区别
比对点 粒度 目标 特性 驱动力 存储 访问量 使用频率 数据内容
Page 15
数据仓库解决什么问题
快速为决策者提供企业经营信息

最可靠的数据



统一的口径、统一的规范
企业全局信息
减轻业务生产系统的压力 满足快速开发报表的需求 长期保存历史数据、海量数据处理
全自动的数据处理加工流程
Page 16
数据仓库与BI家族
Business Intelligent System Decision Support System
参与人因为使用产 品和服务支付相应 的费用
因为服务使用而进行的费 用结算
市场
市场营销针对参与人发起的
参与
营销

市场营销推广产品
对于不同地域采用 不同的营销策略
参与人关联地域
参与人订购相 应的产品
参与人使用服务提供 商提供的服务
服务 使用
提供服务所消耗的资源
地域
产品
资源
不同地域提供特定的产品
提供产品所需要的资源
中文描述 数据仓库 (业务)操作数据存储 联机事务处理,业务交易 联机分析处理,分析决策 抽取-转换-加载 数据立方体 记录数据的数据 数据集市 / 数据挖掘
Page 12
讨论
1、为什么会产生数据仓库? 2、数据仓库的主要特点有哪些?
Page 13
CONTENTS
01 数据仓库的发展与定义
02
数据仓库价值和作用
某个用户(手机)状态的变化过程
2019-04-01 2019-07-04
2019-08-04 2019-08-05
2019-11-05
代码:A 描述:正常
代码:B
代码:C
代码:A
描述:欠费单停 描述:欠费双停 描述:正常
代码:a 描述:销号
Page 10
数据仓库的特点四:相对稳定、反映历史变化
• 所谓信息相对稳定:是指一旦某个数据进入数据仓库以后,一般很少进行修改,更 多的是对信息进行查询操作。
本月充值2次 充值金额190元 充值渠道爱好:微信 当前可用积分8000 。。。。。。
Page 9
数据仓库的特点三:随时间变化的
• 所谓随时间变化:是指数据仓库内的信息并不只是反映企业当前的状态,而是 记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的 发展历程和未来趋势做出定量分析和预测;业务系统只记录当前的最新状态, 数据仓库中可以反映一个用户的状态变化过程以及分析变化的原因。
将Cube保存在优化的文件存储 中,而将详细信息保存在关系 数据库中,用于钻取。
Microsoft Analysis、 Modrain 、 Microsoft、Oracle、SAP AG、
MicroStrategy、Oracle BI、 …
MicroStrategy ..
小结:随着开源技术和前端WEB技术的发展,逐渐抛弃了C/S结构的产品,而是以B/S结构直接访问关 系型数据库,进行数据的多维分析
文件传输 检查校验
辅助
流式 组件
输入 文本
表 XML Excel
Hdfs操作
Hive脚本
MR调用、抽取、转换、排序、滤重
Hbase数据导入/导出、sqoop脚本
调 用
接 口
转换 清洗 转换 输出 文本 表 XML Excel
探索
雏形
确立
国内引入
大数据时代 的混搭
1970s
MIT研究员创建了 理论,试图将业 务处理系统和分 析系统,在架构 设计上分开
1980s-中
DEC公司建立规 范:数据获取、 访问、目录和服 务,并进行了实 施
1980s-末
IBM提出“信息 仓库”概念, InformationWa reHouse,全企 业集成
CRM系统
地市代码 地市名称
1
哈尔滨
2
齐齐哈尔
3
大庆
4
黑河
5
大兴安岭
Billing系统
地市代码 地市名称
451
哈尔滨
452
齐齐哈尔
455
大庆
459
黑河
455
大兴安岭
映射规则1 映射规则2
数据仓库
地市代码 地市名称
01
哈尔滨
02
齐齐哈尔
03
大庆
04
黑河
05
大兴安岭
Page 8
数据仓库的特点二:集成的
Group by
Province
City
数据分组
Season
Month
Page 22
OLAP技术
• OLAP(OnLine Analytical Processing)一种快速处理多维度查询的技术。OLAP从 属于BI范畴,有三种核心操作:多维观察、数据钻取、Cube运算。任何OLAP系统的核 心都是多维立方体 – 通常来自数据仓库的星型连接运算。
数据库系统 详细的数据 面向应用,为日常工作服务 动态变化,按字段更新 交易事务处理驱动 非冗余数据 一次处理很小的数据 高访问性 当前数据
数据仓库系统 综合的、融合的或汇总的 面向主题,为管理决策服务 静态、不更新 数据分析驱动 经常有冗余 一次处理大量的数据 适量的访问度 历史的、计算的数据
Page 19
数据仓库基础知识概览
2020-01
Page 1
CONTENTS
01 数据仓库的发展与定义
02
数据仓库的价值与作用
03
数据仓库的技术要求


04 wenku.baidu.com据仓库的典型架构
05 扩展知识
Page 2
怎样理解数据仓库的作用?
外文
历史
哲学
科幻
收集 整理
儿童
武侠
农业
……
Page 3
数据仓库理论的产生与发展
萌芽
• 数据仓库中几乎很少对历史数据进行修改,7月4日用户单停,那么这天的数据就是 这个状态;而对于业务系统中,它总是最新的状态,所以数据库的中的数据总是不 断变化的。
某个用户(手机)状态的变化过程
2019-04-01 2019-07-04
2019-08-04 2019-08-05
2019-11-05
代码:A 描述:正常
CRM
张三 男 45岁 北京路108号
账务
张三 11月 通话35次,时长523分钟
流量4.5G,账单180元
充值 积分
张三 11月 充值2次,共190元
通过微信充值
张三 11月 可用积分8000
客户画像
张三 2019年11月 男 45岁
北京路108号 通话35次、时长523分钟
上网流量4.5G 本月出账金额180元
1990s-初
1998
Bill Inmon
王珊教授出版《数
《建立数据仓库》 据仓库技术和联机
Ralph Kimball
分析处理》
《数据仓库工具箱》 2000年左右,中
国移动开始建设数
据仓库
2010s
Hadoop+MPP 但DW理论未变
Page 4
数据仓库应用模式演变
引导 实时 预测 分析 看数
Page 5
—— 来自 百度百科
数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据 来源于外部,并且开放给外部应用使用。
Page 6
数据仓库的特点一:面向主题
• 所谓主题:是指用户使用数据仓库进行 决策时所关心的重点方面,如:客户、 产品、账务、事件、服务使用、资源、 客户服务、地域等;所谓面向主题,是 指数据仓库内的信息是按主题进行组织 的,而不是像业务支撑系统那样是按照 业务功能进行组织的;
Page 24
NOSQL Spark
HADOOP
数据集成(ETL)
管理域
系统管理 SaaS模式 工程管理 资源管理
设计域
大数据集成平台
调度域
定时触发
作业设计
任务依赖
作业库管理
负载平衡 流程调度
人工干预
运维域
运行日志 日志统计 异常监控 平台监控
数据库操作
功 能 组
传 过程式 统
组件

文件操作 外部调用
相关文档
最新文档