商业智能BI讲解
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数案 案
据准 实
分备 施
析就 建
解决 方案 定义
逻辑 数据 模型 设计
绪议
定制解决方案规划
物理数据库
设计 解
决 方 案 体 系 结
数据转换 元 解
数决
据方
应用开发
管案 理集
成
数 据 仓 库 评
构
设
数据挖掘
估
计
服务
数据仓库管理 (处理流程与操作)
解决方案支持
应用增强
逻辑数据 模型回顾 物理数据 库回顾
ETL流程
ETL 工具
• 开源 kettle 工具 • DI • Oracle ODI • IBM datastage • informatica
OLTP & OLAP
• OLTP(Online Transaction Process) 联机事务处理,是公司日常运营的基础,是业务流程信息化的 关键,基于生产数据库。
大数据的技术标签
1. Hadoop 2. MPP 3. HDFS 4. 流式计算 5. spark
BI 与大数据
帆软大数据方案
星环大数据平台
个人看法
• 大数据是BI的input的一部分 • 大数据和BI都是为决策服务的 • 结合实际需求选择“大数据“ or ”BI”
谢谢!
HOLAP的优点
混合数据组织的OLAP实现 低层是关系型的 高层是多维矩阵型 ROLAP和MOLAP的有机结合
度量值
度量值是决策者所关心的具有实际意义的数值
事实表
度量值所在的表称为事实数据表,事实表所表现的特点是 包含数值数据(事实),而这些数值数据可以统计汇总以提供 有关单位运作历史的信息。此外,每个事实数据表还包括一 个或多个列,这些列作为引用相关的维度表的外码
ROLAP的优点
• 没有大小限制,现有的关系数据库的技术可以沿用,可以通过 SQL实现详细数据与概要数据的存储。现有关系型数据库已经对 OLAP做了很多优化,包括并行存储、并行查询、并行数据管理、 基于成本的查询优化、位图索引、SQL 的OLAP扩展(cube,rollup) 等大大提高ROALP的速度
数据挖掘 VS 数据仓库
• 数据挖掘(Data Mining)与数据仓库(Data Warehouse)没有 直接的联系
• 在大部分情况下,数据挖掘都要把数据从数据仓库中拿到数据挖 掘库或数据集市中
• 为了数据挖掘你也不必非得建立一个数据仓库,数据仓库不是必 须的
数据挖掘过程
1. 明确数据分析目标 2. 对数据进行选择、组织和预处理 3. 探索性分析数据及转换 4. 确定在分析阶段使用的统计方法 5. 用选定的方法分析数据 6. 评价和比较实用的方法,选择最后的分析模型 7. 解释最终模型和它在决策过程中的应用
挖掘引擎(DM)
客户端
客户端 Web 服务器
客户端
客户端
客户端
客户分析
大客户分析
用户发展分析
服务质量分析
营销管理分析
渠道分析
业务发展分析
收益情况分析
财务分析
反欺诈专题分析
客户流失专题分析
...
即席查询、预定义报表、自定义报表、OLAP、数据挖掘、专题分析模型
元 数
客户分析数据集市
据
财务分析数据集市
维度
维度是人们观察数据的角度。维度表包含描述事实数据表中的 事实记录的特性
维度分类
• 常规维度 • 时间维度 • 虚拟维度
父子维度
• 基于单张维度表的两个不同列,这两个列一起定义了维度成员的 沿袭关系,一列称为成员列表,标识每个成员;另一列称为父键 列,标识每个成员的父代
粒度
• 指数据仓库的数据单位中保存数据的细化或综合程度的级别 • 粒度越小,细分级别越高;粒度越大,细分级别越低。
管 理
...
大客户分析数据集市
企业数据仓库 ETL(抽取、转换、加载)
业务数据库
业务数据库
业务数据库
业务数据库
模型库 业务数据库
如何实施BI
BI项目实施方法论
规划
设计与实现
支持与增强
现成解决方案规划
业务 探索
数 据 仓
?库
策 略 开 发
业务 探索
修改
验证 逻辑
解决 数据
方案 模型
解解
详决 决
细方 方
BI(Business Intelligence)
商务智能简称BI,指通过对数据的收集、管理、分析以及转化, 使数据成为可用的信息,从而获得必要的洞察力和理解力,更 好地辅助决策和指导行动。
数据仓库(Data Warehouse)
数据仓库(Data Warehouse 简称DW)是一个面向主题的 (SubjectOriented)、集成的(Integrate)、相对稳定的(NonVolatile)、反映历史变化(TimeVariant)的数据集合。
ROLAP的缺点
一般响应速度慢 不支持有关预计算的读写操作 无法完成维之间的计算
MOLAP的优点
性能好、响应速度快 专为OLAP所设计, 支持高性能的决策支持计算 复杂的跨维计算 多用户的读写操作 行级的计算
MOLAP的缺点
增加系统复杂度,增加系统培训与维护费用 受操作系统平台中文件大小的限制 需要进行预计算,可能导致数据爆炸 无法支持维的动态变化 缺乏数据访问的标准
OLTP数据
OLAP数据
原始数据 细节性数据 当前值数据 可更新 一次处理的数据量小 面向应用,事务驱动 面向操作人员,支持日常操作
导出数据 综合性和提炼性数据 历史数据 可更新,但周期性刷新 一次处理的数据量大 面向分析,分析驱动 面向决策人 员支持管理需要
OLAP分类
ROLAP MOLAP HOLAP
BI介绍
内容
• 为什么需要BI • 什么是BI • BI的体系结构 • 如何实施BI • BI与大数据
为什么需要BI
BI的意义
• BI是把运营数据转化成为高价值的可以获取的信息(或知 识),并且在恰当的时候通过恰当的方式把恰当的信息传递给 恰当的人
数据 信息 知识 决策
BI的价值
责任
• • 用于经理、主管的精确及时的 报告 • 公司数以万计的以及其他的公
钻取(Drill) 切片和切块(Slice and Dice) 旋转(Rotate)/转轴(Pivot)
钻取
切片
切块
转轴
主要工具
• IBM Cognos • MSTR • BO • smartBI • fineBI • spagoBI • pentaho • mondrian
分析
• 从收入、可赢利性、满意度的角度 来讲,哪些是您最好的客户?
• 哪些客户会对促销作出响应?
销售 开发 生产 财务 / HR
市场营销 采购 服务
项目管理
计划和 模型
报告和 分析
执行
响应能力
• 监视事件和计量标准 • 将最近事件和历史数据相关联
计划
• 预测和趋势分析 • 实施之前预估策略中的潜在变化
维度级别
• 观察数据的某个特定角度(即某个维) 存在的细节程度各个描 述方面(如时间维:日、月份、季度、年)
• 为了显示维度的级别及要求的上卷、下钻我们一定要按维度级 别的需求顺序设计
维度表与事实表联接
• 星型模式 • 雪花模式
数据集市
数据集市(Data Mart) ,也叫数据市场,数据集市就是满足特 定的部门或者用户的需求,按照多维的方式进行存储,包括定 义维度、需要计算的指标、维度的层次等,生成面向决策分析 需求的数据立方体。 从范围上来说,数据是从企业范围的数据库、数据仓库,或者 是更加专业的数据仓库中抽取出来的。数据中心的重点就在于 它迎合了专业用户群体的特殊需求,在分析、内容、表现,以 及易用方面。数据中心的用户希望数据是由他们熟悉的术语表 现的
数据挖掘
数据挖掘时为了发现实现未知的规则和联系而对大量数据进行选 择、探索和建模的过程,目的在于得到对数据库的拥有者来说 有用的结果。
数据挖掘与OLAP OLAP是通常是用户根据已知的情况对所关心的业务指标进行
分析,所得到得为数据中相对表面的的信息;而数据挖掘则是 在业务问题目标明确但考察的问题不清楚时,对数据进行探索, 揭示隐藏其中的规律性,进而将其模型化,更多的是通过统计 学等知识分析出众多数据中隐含的信息。
• OLAP(Online Analysis Process) 联机分析处理,基于数据仓库的数据分析,以供决策所需,面 向管理层,面向未来。
OLAP的目标
• 满足决策支持或多维环境特定的查询和报表需求,它的技术核心 是“维”这个概念,因此OLAP也可以说是多维资料分析工具的集 合。
• 通常所说的BI分析就是指OLAP,更为准确是指OLAP分析及结果展 示。
BI 项目团队
项目评估 需求分析 逻辑模型设计 物理模型设计 数据抽取转换装载 数据存储和管理 数据展现和发布 培训
项目经理(Project Manager) 业务顾问(Business Consultant) 模型工程师(Model Engineer) 最终用户(End User) ETL工程师 数据库管理员(DBA) 界面开发工程师(GUI Developer) 培训工程师(Trainning Engineer)
常用的数据挖掘工具
1. spss clementine 2. python语言 3. R语言 4. SAS 5. Matlab
数据挖掘常用模型和算法
线性回归 逻辑回归 决策树 KNN …………..
BI基本架构
BI基本架构
业务数据库(OLTP) 数据集成引擎
ETL
数据仓库 引擎
DW
OLAP 引擎
BI项目成功的关键
• 领导层的强力支持 • 流畅的数据流 • 一支熟悉业务、精通技术的团队 • 业务驱动,业务人员与BI团队良好的沟通 • 完善的推广、培训制度 • 功能完善的相关软件(DW、ETL、OLAP、DM)
BI 与大数据的关系
同一个目标
• 数据信息知识决策
BI 的技术标签
1. ETL 2. 数据仓库(DW) 3. OLAP 4. 可视化报表
性能调整
容量规划
数据仓库的循环过程
BI项目具体实施步骤
物理数据模型
业务探索
系
元解
项 目
统 体
数据转换
数决 据方
前 期 准
信息探索
系 结 构
应用开发
管案 理集
成
备
设
逻辑数据
计
数据挖掘 服务
模型
数据仓库管理
项目具体实施步骤
1. 项目前期准备 2. 业务探索(Business Discovery) 3. 信息探索(Information Discovery) 4. 逻辑数据模型设计 5. 系统体系结构设计 6. 物理数据库设计 7. 数据转换加载ETL 8. 前端应用开发 9. 数据挖掘服务 10.元数据管理 11.数据仓库管理(处理流程与操作) 12.解决方案集成(测试验收与试运行)
数据仓库是实现商务智能的基础平台
数据仓库 VS 数据库
数据库系统(生产系统):
以银行为例
● 面向应用、事务驱动的 ● 实时性高
储蓄 对公 信用卡 其他
● 数据检索量少
● 只存当前数据
• 数据仓库系统(决策系统):
● 面向主题、分析和决策
数据仓库
● 实时性要求不是特别高 ● 数据检索量大
客产 渠 交 机 户品 道 易 构
学术界的观点
BI实际上是帮助企业提高决策能力和运营能力的概念、方法、过 程以及软件的集合,其主要目标是将企业所掌握的信息转换成 竞争优势,提高企业决策能力、决策效率、决策准确性。
什么是BI
与BI相关的重要概念
• BI(Business Intelligence,商务智能) • DW(Data Warehouse,数据仓库) • ETL(抽取转化) • OLAP(Online Analysis Process) • DM(Data Mining,数据挖掘)
ETL
数据抽取:从源数据源系统抽取目的数据源系统需要的数据 数据清洗:重复行数据的清理,无用字段的清理,空值的处理等,
正则表达式的使用。 数据转换:数据类型的转换,比如int转varchar,字符型转日期型
(如20090801转2009-08-01)等等。类似用1标识男,2表示女。
ETL分层
ODS MID DW-DM
● 存储大量的历史数据和当前数据
ETL
ETL是数据抽取(Extracting)、转换(Transforming)、清洗 (Cleaning)、装载(Loading)几个过程的简称。
ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数 据,经过ETL最终按照预先定义好的数据仓库模型,将数据加 载到数据仓库中去。