商业智能BI讲解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
BI介绍
内容
• 为什么需要BI • 什么是BI • BI的体系结构 • 如何实施BI • BI与大数据
为什么需要BI
BI的意义
• BI是把运营数据转化成为高价值的可以获取的信息(或知 识),并且在恰当的时候通过恰当的方式把恰当的信息传递给 恰当的人
数据 信息 知识 决策
BI的价值
责任
• • 用于经理、主管的精确及时的 报告 • 公司数以万计的以及其他的公 开内容
ETL流程
ETL 工具
• 开源 kettle 工具 • DI • Oracle ODI • IBM datastage • informatica
OLTP & OLAP
• OLTP(Online Transaction Process) 联机事务处理,是公司日常运营的基础,是业务流程信息化的 关键,基于生产数据库。
学术界的观点
BI实际上是帮助企业提高决策能力和运营能力的概念、方法、过 程以及软件的集合,其主要目标是将企业所掌握的信息转换成 竞争优势,提高企业决策能力、决策效率、决策准确性。
什么是BI
与BI相关的重要概念
• BI(Business Intelligence,商务智能) • DW(Data Warehouse,数据仓库) • ETL(抽取转化) • OLAP(Online Analysis Process) • DM(Data Mining,数据挖掘)
分析
• 从收入、可赢利性、满意度的角度 来讲,哪些是您最好的客户?
• 哪些客户会对促销作出响应?
销售 开发 生产 财务 / HR
市场营销 采购 服务
项目管理
计划和 模型
报告和 分析
执行
响应能力
• 监视事件和计量标准 • 将最近事件和历史数据相关联
计划
• 预测和趋势分析 • 实施之前预估策略中的潜在变化
• OLAP(Online Analysis Process) 联机分析处理,基于数据仓库的数据分析,以供决策所需,面 向管理层,面向未来。
OLAP的目标
• 满足决策支持或多维环境特定的查询和报表需求,它的技术核心 是“维”这个概念,因此OLAP也可以说是多维资料分析工具的集 合。
• 通常所说的BI分析就是指OLAP,更为准确是指OLAP分析及结果展 示。
ETL
数据抽取:从源数据源系统抽取目的数据源系统需要的数据 数据清洗:重复行数据的清理,无用字段的清理,空值的处理等,
正则表达式的使用。 数据转换:数据类型的转换,比如int转varchar,字符型转日期型
(如20090801转2009-08-01)等等。类似用1标识男,2表示女。
ETL分层
ODS MID DW-DM
● 存储大量的历史数据和当前数据
ETL
ETL是数据抽取(Extracting)、转换(Transforming)、清洗 (Cleaning)、装载(Loading)几个过程的简称。
ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数 据,经过ETL最终按照预先定义好的数据仓库模型,将数据加 载到数据仓库中去。
维度
维度是人们观察数据的角度。维度表包含描述事实数据表中的 事实记录的特性
维度分类
• 常规维度 • 时间维度 • 虚拟维度
父子维度
• 基于单张维度表的两个不同列,这两个列一起定义了维度成员的 沿袭关系,一列称为成员列表,标识每个成员;另一列称为父键 列,标识每个成员的父代
粒度
• 指数据仓库的数据单位中保存数据的细化或综合程度的级别 • 粒度越小,细分级别越高;粒度越大,细分级别越低。
ROLAP的优点
• 没有大小限制,现有的关系数据库的技术可以沿用,可以通过 SQL实现详细数据与概要数据的存储。现有关系型数据库已经对 OLAP做了很多优化,包括并行存储、并行查询、并行数据管理、 基于成本的查询优化、位图索引、SQL 的OLAP扩展(cube,rollup) 等大大提高ROALP的速度
OLTP数据
OLAP数据
原始数据 细节性数据 当前值数据 可更新 一次处理的数据量小 面向应用,事务驱动 面向操作人员,支持日常操作
导出数据 综合性和提炼性数据 历史数据 可更新,但周期性刷新 一次处理的数据量大 面向分析,分析驱动 面向决策人 员支持管理需要
OLAP分类
ROLAP MOLAP HOLAP
ROLAP的缺点
一般响应速度慢 不支持有关预计算的读写操作 无法完成维之间的计算
MOLAP的优点
性能好、响应速度快 专为OLAP所设计, 支持高性能的决策支持计算 复杂的跨维计算 多用户的读写操作 行级的计算
MOLAP的缺点
增加系统复杂度,增加系统培训与维护费用 受操作系统平台中文件大小的限制 需要进行预计算,可能导致数据爆炸 无法支持维的动态变化 缺乏数据访问的标准
维度级别
HOLAP的优点
混合数据组织的OLAP实现 低层是关系型的 高层是多维矩阵型 ROLAP和MOLAP的有机结合
度量值
度量值是决策者所关心的具有实际意义的数值
事实表
度量值所在的表称为事实数据表,事实表所表现的特点是 包含数值数据(事实),而这些数值数据可以统计汇总以提供 有关单位运作历史的信息。此外,每个事实数据表还包括一 个或多个列,这些列作为引用相关的维度表的外码
数据仓库是实现商务智能的基础平台
数据仓库 VS 数据库
数据库系统(生产系统):
以银行为例
● 面向应用、事务驱动的 ● 实时性高
储蓄 对公 信用卡 其他
● 数据检索量少
● 只存当前数据
• 数据仓库系统(决策系统):
● 面向主题、分析和决策
Байду номын сангаас
数据仓库
● 实时性要求不是特别高 ● 数据检索量大
客产 渠 交 机 户品 道 易 构
BI(Business Intelligence)
商务智能简称BI,指通过对数据的收集、管理、分析以及转化, 使数据成为可用的信息,从而获得必要的洞察力和理解力,更 好地辅助决策和指导行动。
数据仓库(Data Warehouse)
数据仓库(Data Warehouse 简称DW)是一个面向主题的 (SubjectOriented)、集成的(Integrate)、相对稳定的(NonVolatile)、反映历史变化(TimeVariant)的数据集合。
内容
• 为什么需要BI • 什么是BI • BI的体系结构 • 如何实施BI • BI与大数据
为什么需要BI
BI的意义
• BI是把运营数据转化成为高价值的可以获取的信息(或知 识),并且在恰当的时候通过恰当的方式把恰当的信息传递给 恰当的人
数据 信息 知识 决策
BI的价值
责任
• • 用于经理、主管的精确及时的 报告 • 公司数以万计的以及其他的公 开内容
ETL流程
ETL 工具
• 开源 kettle 工具 • DI • Oracle ODI • IBM datastage • informatica
OLTP & OLAP
• OLTP(Online Transaction Process) 联机事务处理,是公司日常运营的基础,是业务流程信息化的 关键,基于生产数据库。
学术界的观点
BI实际上是帮助企业提高决策能力和运营能力的概念、方法、过 程以及软件的集合,其主要目标是将企业所掌握的信息转换成 竞争优势,提高企业决策能力、决策效率、决策准确性。
什么是BI
与BI相关的重要概念
• BI(Business Intelligence,商务智能) • DW(Data Warehouse,数据仓库) • ETL(抽取转化) • OLAP(Online Analysis Process) • DM(Data Mining,数据挖掘)
分析
• 从收入、可赢利性、满意度的角度 来讲,哪些是您最好的客户?
• 哪些客户会对促销作出响应?
销售 开发 生产 财务 / HR
市场营销 采购 服务
项目管理
计划和 模型
报告和 分析
执行
响应能力
• 监视事件和计量标准 • 将最近事件和历史数据相关联
计划
• 预测和趋势分析 • 实施之前预估策略中的潜在变化
• OLAP(Online Analysis Process) 联机分析处理,基于数据仓库的数据分析,以供决策所需,面 向管理层,面向未来。
OLAP的目标
• 满足决策支持或多维环境特定的查询和报表需求,它的技术核心 是“维”这个概念,因此OLAP也可以说是多维资料分析工具的集 合。
• 通常所说的BI分析就是指OLAP,更为准确是指OLAP分析及结果展 示。
ETL
数据抽取:从源数据源系统抽取目的数据源系统需要的数据 数据清洗:重复行数据的清理,无用字段的清理,空值的处理等,
正则表达式的使用。 数据转换:数据类型的转换,比如int转varchar,字符型转日期型
(如20090801转2009-08-01)等等。类似用1标识男,2表示女。
ETL分层
ODS MID DW-DM
● 存储大量的历史数据和当前数据
ETL
ETL是数据抽取(Extracting)、转换(Transforming)、清洗 (Cleaning)、装载(Loading)几个过程的简称。
ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数 据,经过ETL最终按照预先定义好的数据仓库模型,将数据加 载到数据仓库中去。
维度
维度是人们观察数据的角度。维度表包含描述事实数据表中的 事实记录的特性
维度分类
• 常规维度 • 时间维度 • 虚拟维度
父子维度
• 基于单张维度表的两个不同列,这两个列一起定义了维度成员的 沿袭关系,一列称为成员列表,标识每个成员;另一列称为父键 列,标识每个成员的父代
粒度
• 指数据仓库的数据单位中保存数据的细化或综合程度的级别 • 粒度越小,细分级别越高;粒度越大,细分级别越低。
ROLAP的优点
• 没有大小限制,现有的关系数据库的技术可以沿用,可以通过 SQL实现详细数据与概要数据的存储。现有关系型数据库已经对 OLAP做了很多优化,包括并行存储、并行查询、并行数据管理、 基于成本的查询优化、位图索引、SQL 的OLAP扩展(cube,rollup) 等大大提高ROALP的速度
OLTP数据
OLAP数据
原始数据 细节性数据 当前值数据 可更新 一次处理的数据量小 面向应用,事务驱动 面向操作人员,支持日常操作
导出数据 综合性和提炼性数据 历史数据 可更新,但周期性刷新 一次处理的数据量大 面向分析,分析驱动 面向决策人 员支持管理需要
OLAP分类
ROLAP MOLAP HOLAP
ROLAP的缺点
一般响应速度慢 不支持有关预计算的读写操作 无法完成维之间的计算
MOLAP的优点
性能好、响应速度快 专为OLAP所设计, 支持高性能的决策支持计算 复杂的跨维计算 多用户的读写操作 行级的计算
MOLAP的缺点
增加系统复杂度,增加系统培训与维护费用 受操作系统平台中文件大小的限制 需要进行预计算,可能导致数据爆炸 无法支持维的动态变化 缺乏数据访问的标准
维度级别
HOLAP的优点
混合数据组织的OLAP实现 低层是关系型的 高层是多维矩阵型 ROLAP和MOLAP的有机结合
度量值
度量值是决策者所关心的具有实际意义的数值
事实表
度量值所在的表称为事实数据表,事实表所表现的特点是 包含数值数据(事实),而这些数值数据可以统计汇总以提供 有关单位运作历史的信息。此外,每个事实数据表还包括一 个或多个列,这些列作为引用相关的维度表的外码
数据仓库是实现商务智能的基础平台
数据仓库 VS 数据库
数据库系统(生产系统):
以银行为例
● 面向应用、事务驱动的 ● 实时性高
储蓄 对公 信用卡 其他
● 数据检索量少
● 只存当前数据
• 数据仓库系统(决策系统):
● 面向主题、分析和决策
Байду номын сангаас
数据仓库
● 实时性要求不是特别高 ● 数据检索量大
客产 渠 交 机 户品 道 易 构
BI(Business Intelligence)
商务智能简称BI,指通过对数据的收集、管理、分析以及转化, 使数据成为可用的信息,从而获得必要的洞察力和理解力,更 好地辅助决策和指导行动。
数据仓库(Data Warehouse)
数据仓库(Data Warehouse 简称DW)是一个面向主题的 (SubjectOriented)、集成的(Integrate)、相对稳定的(NonVolatile)、反映历史变化(TimeVariant)的数据集合。