数据仓库数据集市BI数据分析介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
通行卡字段 标识路径字段
即席查询
自由组合条件
•可任意选择宽表字段
定义条件关系及值
•条件和值之间可以用= in等连接; •条件和条件之间可用or and之间连接
导出列编辑
•可编辑结果的显示列
输出结果
反向分析
一类车 二类车 三类车 四类车 五类车
广24州市品高软件开发有限公司
数据挖掘:从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于
义不一致所致不可能把数据转换成信息
数据动态集成问题:不同的需求,要求将操作型环境和分析型环境相分离 历史数据问题:单项系统之间保留的历史数据时间范围不一致,无法满足
DSS分析的需要数据的综合问题:非细节数据、多种程度的综合 提升现有的信 息:
数据仓库解决的问题
1. 企业范围内的信息共享 2. 准确、一致的集成数据 3. 面向整个企业和最终用户,针对分析需要,进行数据重组,形成一套全新的、 相对完整的数据视图,能够进行快速访问,精确、灵活分析
立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基 础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内 的信息是关于整个企业的一致的全局信息。
相对稳定的:操作型数据库中的数据通常实时更新,数据根据需要及时发生变
化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某 个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询 操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
广13州市品高软件开发有限公司
对比项 体系结构
复杂度 建模工具 易访问性
自上而下
先建立全企业的原子级数据仓库,然 后在此基础上建立部门级应用
自下而上
按照业务过程建立集市, 再通过整合建立数据仓库
非常复杂
较为交单
传统ER模型 低
维度建模 高
交付 时间 部署成本
指导思想
需要很长的启动时间
较高的启动成本,较低的后续项目开 发成本 长期规划
反映历史变化:操作型数据库主要关心当前某一个时间段内的数据,而数据仓
库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时
广5 州市品高软件开发有限公司
BIBusiness Intelligence,即商业智能,一类由数据仓库(或数据集市)、查询报表、数据分析、
数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用
1. 数据仓库概念及由来 ✓ 基本概念 ✓ 产生背景
2. 数据仓库搭建 ✓ 数据整合 ✓ 数据建模 ✓ 数据管控
3. Oracle数据仓库产品介绍
两种数据仓库构建方式
自上而下 1. 进行全企业的数据建模和数据整合,并建
立原子级数据仓库; 2. 对于各部门的应用再建立相应的数据集市
自下而上 1. 根据特定的业务过程建立数据集市; 2. 在各部门数据集市之上递增构建整个 企业的数据仓库
广23州市品高软件开发有限公司
数据应用之即席查询
用户根据自身需求,灵活的选择查询条件,系统根据用户的选择生成相应的统计报表
构建宽表模型
基本信息字段
工班日期 所属路段 所属区域 OD路径字段
收费站 车道
收费方式 车辆信息信息
异常行驶信息 绿色通道字段
收费信息字段 结算费用字段
分账信息字段 计重信息字段
可以快速部署应用
较低的启动成本,每个后 续项目成本接近
各部门需要有统一的构建 思想
结论:一般结合两种方式的优点混合使用
广14州市品高软件开发有限公司
15
ETL框架 采集
DB2 Oralce
…… 文件
ETL监控
转换
装载
数 据
数据转换
数据清洗
数 据
抽
加
取
载
数据中心
插
任务管理
作业调度
插
件
件
数据抽取监控 磁盘IO监控 数据库监控
广25州市品高软件开发有限公司 数据管控主要包括元数据管理、数据质量管理、数据安全管理,全面提升数据管控能力
•数据质量管理
•数据安全管理 数据仓库
•元数据管理
元数据管理工具可加强数据的管控力度,增强系统自身管理能力,提升系统易用性
元数据管理工具
元数 据工 具功 能
实体差异分析 主机拓扑图分析
Webservice接口、JMI接口、XMI接口
自动获取
数据 中心
数
据
服 务
展示视图
手工导入
技术 元数 据
业务 元数 据
管理 元数 据
数据质量问题
信息类
技术类
元数据描述错误
系统保障 数据创建延迟
变化频度不恰当
数据校验规则不当
计算口径错误 ….
文件传输出错 ….
错误的数据维护流程
责任心、责任人
人为调整数据流程 数据稽核流程
广9 州市品高软件开发有限公司
数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的 “Building the Data Warehouse”(《建立数据仓库》 )一书中所提出的定义被广泛接受 主张使用第三范式进行数据仓库建模
广10州市品高软件开发有限公司
比尔·恩门的对头 随着拉尔夫·金博尔(Ralph Kimball)博士出版了他的第
广17州市品高软件开发有限公司
一般按照主题进行建模 一般步骤
业务建模
领域建模
逻辑建模
物理建模
✓梳理组织架构关系
✓抽象业务概念
✓具化抽象概念的属性✓针对特定物理平台
✓梳理系统用户、角色
✓分组业务概念,按照业务主线 ✓细化业务流程
作出相应的技术调整
✓梳理业务流程(实际工作流程)聚合类似的分组
✓针对模型的性能考虑
OLTP on-line transaction processing,传统的关系型数据库的主要应用,主要是基本的
、日常的事务处理,例如银行交易
数据集市:面向特定主题和部门级的数据仓库,是数据仓库的子集,数据仓库是
提供跨部门的,统一数据视图
广6 州市品高软件开发有限公司
对比项 用户
功能 DB设计 数据
复杂的查询 上百个 100GB-TB
广7 州市品高软件开发有限公司
在数据库技术的支持下,一大批成熟的业务信息系统投入运行,为企业发展做出了 巨大贡献。各类信息系统大多属于面向事务处理的OLTP系统,经过多年的运行, 积累了大量的数据,而管理决策层对数据分析基础平台的需求却日益强烈。
数据可信性:两个部门提供的数据是不一样的,让管理者无所适从 报表的生产率问题:由于OLTP的单项系统导致数据的分散性和相同元素定
✓提出业务流程改进方法及措施 ✓理解分组概念之间的关联及关系
对特定平台作出相应调整
18
范式建模法: Bill Inmon主张使用,
使用关系型数据库第三范式进行ER建模, 同业务系统的数据库建模类似
维度建模法: Kimball 最先提出这一
概念,按照事实表,维表来构建数据仓库,数据集 市。 并针对各个维作了大量的预处理,这种方法的最被人 广泛知晓的名字就是星型模式(Star-schema),另 外还有雪花模型、星座模型、雪暴模型
星型
雪花
两种建模方法比较
对比项 提出人 复杂度
范式建模
维度建模
Bill Innon
Kimball
比较简单,从关系型数据库角度出发, 建模简单,但由于在构建
比较方便构建
星型模式之前需要进行大
量的数据预处理,因此会
导致大量的数据处理工作
灵活性
较为灵活
性能
慢
数据一致性 能够较好保证数据一致性
当业务发生变化,需要重 新进行维度的定义
广4 州市品高软件开发有限公司
面向主题:操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分
离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户 使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
集成的:面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独
反馈渠道
管理措施 培训计划
流程类
管理类
结果
决策是 否正确
系统建 设成败
监控 检查 报告
数据源 抽取
数据源
数 抽取
ETL 转换 轻度汇
高度汇
据
外部应用
监
服
控
工具
装载
总层 汇总
汇总
总层
务
抽取 总
线
点
外部应用
监控 数据
质量规则 元数据
规则匹 配计算
质量报告
质量报告主要包括报告时间、报告标题、报告类型、告警类型、严重级别、 报告内容等
一本书“The DataWarehouse Toolkit”(《数据仓库工具 箱》),数据仓库行业就开始喧哗起来,恩门的“Building the Data Warehouse”主张建立数据仓库时采用自上而下 (DWDM)方式,以第3范式进行数据仓库模型设计,而他 生活上的好朋友Ralph Kimball在“The DataWarehouse Toolkit”则是主张自下而上(DMDW)的方式,力推数据集 市建设,以致他们的FANS吵闹得差点打了起来,直至恩门推 出新的BI架构CIF(Corporation information factory),把 Kimball的数据集市包括了进来才算平息。
Association rule learning)的信息的过程
常见数据挖掘方法:
1. 关联分析:发现一个事务中不同操作相关性的概率,例如一条开户记录为一个事务, 用户号为其标示,申请短信为一个操作,申请呼叫转移为另外一个操作,通过挖掘, 发现申请短信的人80%必定申请呼叫转移,申请呼叫转移的人不一定申请短信。在这种 情况下,可以推出将呼叫转移打包在短信服务中,可以提高用户的服务质量 2. 回归分析:了解两个或多个变量间是否相关、相关方向与强度,并建立数学模型 以便观察特定变量来预测研究者感兴趣的变量,如话务预测 3. 人工统计学分群分析:根据记录中最频繁出现的特征,将相关记录进行分类, 如客户分群 4. 决策树分析:根据用户的性质和其它消费行为,分析产生某项结果的原因,如可 以根据用户的性质、消费状况和缴费情况,分析用户流失的原因。比如,发现消费额 度小于30元的用现金缴费的女性,80%可能会流失
处理 总结
质量问题 工单
质量总结 功能
质量维护 流程
质量维护 流程
质量月报表
质量日报表
接口质量评 估
28
数据质量管理小组
职责
• 制定数据质量检测规则标准 • 制定数据质量管理、保障、 • 控制和维护流程 • 监控数据质量问题处理的整 • 个流程并进行结果评估 • ….. •…
数据清洗监控
数据转换监控
网络IO监控
CPU监控
告警处理
元数据管理模块
数据质量管理模块
广16州市品高软件开发有限公司
ETL工具特点
1. 多种数据源支持:支持DB2、 ORACLE、MySql、SQLSERVER、 文件多种不同数据源的抽取; 2. 作业调度可视化配置:使用 图形化界面配置调度作业; 3. ETL过程监控:对采集、转换、 装载过程进行监控,在发生异常时 自动记录相关信息。
OLTP 操作人员、底层管理人员
数据仓库(OLAP) 决策人员,高级管理人员
日常操作处理
分析决策
面向应用
面向主题
原始数据、细节性数据、当前值数据、 导出数据、综合性数据、
可更新、一次处理的数据量小
历史数据、不可更新但周
期性刷新,一次处理的数
据量大
工作单位 用户数 DB大小
简单的事务 上千个 100MB-GB
元数据使用情况 元数据统计
指标库 血缘分析
实体关联度分析 过程查询
元数 据存 储
业务元数据
业务规则 业务描述 指标口径 ……
元数
据获 数据源
ETL
取
Webservice接口、JMI接口、XMI接口
管理元数据
流程定义 角色定义 组织架构
技术元数据
数据源接口 ETL过程
数据中心
质量规则 算法库 度量信息
由于做了大量数据预处理, 查询性能很快。
只是依靠单纯的维度建模, 不能保证数据来源的一致 性和准确性
结论:一般在数据仓库底层使用范式建模,在数据集市层或多维数据库使用维度建模
数据应用-多维分析之切片、切块
数据应用-多维分析之钻取
按
时
间
维
60
向
上
钻
Leabharlann Baidu
取
按 时 间 维 向 下 钻 取
数据应用-多维分析之旋转
数据仓库数据集市BI数据分 析介绍
1. 数据仓库概念及由来 ✓ 基本概念 ✓ 产生背景
2. 数据仓库搭建 ✓ 数据整合 ✓ 数据建模 ✓ 数据管控
3. Oracle数据仓库产品介绍
广3 州市品高软件开发有限公司
一个面向主题的、集成的、非易失性的、随时间 变化的数据的集合,以用于支持管理层决策过 程。
数据挖掘从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非
平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、 数据库、可视化技术等
OLAP On-Line Analytical Processing是数据仓库系统的主要应用,支持复杂的分析操作
,侧重决策支持,并且提供直观易懂的查询结果