商业智能BI介绍
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
BI介绍
内容
•为什么需要BI •什么是BI •BI的体系结构•如何实施BI •BI与大数据
为什么需要BI
BI的意义
•BI是把运营数据转化成为高价值的可以获取的信息(或知识),并且在恰当的时候通过恰当的方式把恰当的信息传递给恰当的人
数据信息知识决策
BI 的价值•响应能力
•监视事件和计量标准
•将最近事件和历史数据相关联分析•从收入、可赢利性、满意度的角度来讲,哪些是您最好的客户?•哪些客户会对促销作出响应?
计划•预测和趋势分析•实施之前预估策略中的潜在变化
责任
•用于经理、主管的精确及时的报告
•公司数以万计的以及其他的公开内容市场营销采购服务销售
项目管理财务/ HR 计划和模型执行报告和分析
开发
生产
学术界的观点
BI实际上是帮助企业提高决策能力和运营能力的概念、方法、过程以及软件的集合,其主要目标是将企业所掌握的信息转换成竞争优势,提高企业决策能力、决策效率、决策准确性。
什么是BI
与BI相关的重要概念
•BI(Business Intelligence,商务智能)•DW(Data Warehouse,数据仓库)
•ETL(抽取转化)
•OLAP(Online Analysis Process)•DM(Data Mining,数据挖掘)
BI(Business Intelligence)
商务智能简称BI,指通过对数据的收集、管理、分析以及转化,使数据成为可用的信息,从而获得必要的洞察力和理解力,更好地辅助决策和指导行动。
数据仓库(Data Warehouse)
数据仓库(Data Warehouse 简称DW)是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合。
数据仓库是实现商务智能的基础平台
数据仓库VS 数据库
•数据仓库系统(决策系统):●面向主题、分析和决策
●实时性要求不是特别高
●数据检索量大●存储大量的历史数据和当前数据
数据库系统(生产系统):●面向应用、事务驱动的●实时性高●数据检索量少●只存当前数据
以银行为例
储蓄
对公
信用卡
其他
数据仓库
客户产品
渠
道交易机构
ETL
ETL是数据抽取(Extracting)、转换(Transforming)、清洗(Cleaning)、装载(Loading)几个过程的简称。
ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过ETL最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
ETL
数据抽取:从源数据源系统抽取目的数据源系统需要的数据
数据清洗:重复行数据的清理,无用字段的清理,空值的处理等,正则表达式的使用。
数据转换:数据类型的转换,比如int转varchar,字符型转日期型(如20090801转2009-08-01)等等。类似用1标识男,2表示女。
ETL分层ODS
MID
DW-DM
ETL流程
ETL 工具
•开源kettle 工具•DI
•Oracle ODI •IBM datastage •informatica
OLTP & OLAP
•OLTP(Online Transaction Process)
联机事务处理,是公司日常运营的基础,是业务流程信息化的关键,基于生产数据库。
•OLAP(Online Analysis Process)
联机分析处理,基于数据仓库的数据分析,以供决策所需,面向管理层,面向未来。
OLAP的目标
•满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维资料分析工具的集合。
•通常所说的BI分析就是指OLAP,更为准确是指OLAP分析及结果展示。
OLTP数据OLAP数据
原始数据导出数据
细节性数据综合性和提炼性数据
当前值数据历史数据
可更新可更新,但周期性刷新
一次处理的数据量小一次处理的数据量大
面向应用,事务驱动面向分析,分析驱动
面向操作人员,支持日常操作面向决策人员支持管理需要
OLAP分类ROLAP
MOLAP
HOLAP
ROLAP的优点
•没有大小限制,现有的关系数据库的技术可以沿用,可以通过SQL实现详细数据与概要数据的存储。现有关系型数据库已经对OLAP做了很多优化,包括并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引、SQL 的OLAP扩展(cube,rollup)等大大提高ROALP的速度
ROLAP的缺点
一般响应速度慢
不支持有关预计算的读写操作无法完成维之间的计算
MOLAP的优点
性能好、响应速度快
专为OLAP所设计,
支持高性能的决策支持计算复杂的跨维计算
多用户的读写操作
行级的计算
MOLAP的缺点
增加系统复杂度,增加系统培训与维护费用受操作系统平台中文件大小的限制
需要进行预计算,可能导致数据爆炸
无法支持维的动态变化
缺乏数据访问的标准