BI基础概念培训教材
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
product_dim_key
• 与维度表中的主键的联系 • 使事实表的数据与维度表发生关联
数据仓库和多维立方
数据仓库
OLAP
终端用户 数据存取
数据集市
多维数据集的组成
• 度量值
– 用户分析的业务数据
• 维度
– 度量值的事实记录的特性 – 来源于维度表
• Cubes
– 综合维度和度量值的数据模型 – OLAP 数据的逻辑存储介质
• 如何利用大量数据进行决策: ERP/SCM/CRM等产生大量地数据,刺激了BI 投资,其目的应用数据进行决策
• 绩效管理成为BI市场增长重要因素: 绩效 管理是驱动商业智能市场增长的重要因素之 一,绝大多数公司希望在该领域做出成绩
• 日益严格的行业规范要求:例如萨班斯-奥 克斯利(Sarbanes-Oxley)法等法案的颁布,也 推动了BI工具的接受和认同
• 100MB-GB
• OLAP
• 整理后的数据 • 综合性和提炼性数据 • 历史数据 • 周期性刷新更新 • 一次处理大量的数据 • 面向主题,分析驱动 • 决策人员,高级管理人员 • 分析决策 • 复杂的查询
• 100GB-TB
数据仓库的特征
• 为商业分析过程展示数据 • 提供一致的历史数据存储 • 把数据储存为抽取和查询而优化的结
的. 61%的人认为50%的决定是拍脑袋来的.
为什么我们需要商务智能?
• 在过去的几十年里,各种机构已经花费了大量的财力和资 源去构建联机事务处理系统(OLTP)和资源计划系统(ERP)等各 种系统.不断累计的信息和存储在数据仓库中的数据达到了 令人惊讶的规模。
• 当这些系统极大地改善了信息的自动处理能力时,也造就 了很多“信息孤岛”(information silos)------大量只有很有限 的获取和分析能力的数据。一项IBM的调查表明,大部分机 构只利用了其存储信息的2%--4%。
• 传统的方案不能提供一个经过整合的,功能强大的分析工具给最 终用户。特别是给那些非技术的商业用户。由于下图中所示的两 个主要原因,传统系统不能满足商务层面的分析需要。
传统分析系统常见问题
难以获得的信息
未经整合的信息
获得性和整合性的空缺
术语介绍
• 数据仓库 :面向主题的、集成的、与时间相关且不可修改 的数据集合。
商务智能的热点应用
• 财务
– 绩效评估 – 盈利分析 – 预算 – 风险控制 – 欺诈识别
• 市场
– 客户关系管理 – 市场促销 – 市场细分 – 品牌管理 – 客户忠诚度分析 – 客户流失分析 – 产品及服务目录管理
• 销售
– 销售分析 – 客户管理 – 销售漏斗管理 – 需求预测 – 关联销售分析 – Web点击流和销售分析
市场份额主要由国际BI厂商占领
为什么我们需要商务智能?
• 我们在未来的三年中将会制造出比过去三十万年更多的数据资 料!!! ------加州大学信息管理学院
<<商业周刊>>统计,54%的人认为很难找到他们想得到的信息. 43%的人认为不知道这些内部的信息是否正确. 77%的人认为由于信息的缺乏,很多决定是不正确
• 运营
– 供应链优化 – IT运营优化 – 分销商评估 – 质量控制 – 内部管理流程优化
BI国内应用
l 企业信息化整体上处理基础建设阶段 数据整合,规划基础体系架构,实施基础应
用 l 多数企业BI应用处于较低的层次
报表查询+初步分析 l 金融、电信、保险等企业起步早些
BI应用的大好时期正在到来
让数据变为财富 ——商务智能平台交流
目录
• 商务智能(BI)简介 • 介绍术语 • OLTP和OLAP的区别 • OLAP的整体框架 • 数据仓库的内部结构 • 数据立方和数据仓库的关系 • 多维数据集组成 • 数据仓库的维度表在OLAP里的表现形式。 • 查询立方
什么是商务智能(BI)?
• 现代化的业务操作,通常会产生大量的数据,如何从如此 繁多的业务数据中提取有用的信息,然后根据这些信息来 采取明智的行动,这是决策者面临的最大问题,这也就是 商务智能解决的问题。
BI主要用途
BI具有三方面的主要用途:
• 对组织的财务和运营健康
状况进行监视。
– 报告、分析工具、关键性能 指标(KPI)和仪表板
• 规范 组织的运营
• 从数据中挖掘出新的信息
– 同运营系统、信息反馈系统 的双向集成
BI 对现有系统的整合
• 基于现有业务系统和历史数据 • 通过对数据的充分运用提升现有系统价值 • 可以同时支持多种不同的数据库平台 • 面向数据分析而非过程跟踪 • 可以基于实时数据也可以基于非实时数据
• 维度 :维度是分析中描述性的分类,通过它可以将度量值 分离出来进行分析
• 度量 :在多维数据集中,度量值是一组值,这些值基于多 维数据集的事实数据表中的一列,而且通常为数字。此外, 度量值是所分析的多维数据集的中心值。即,度量值是最终 用户浏览多维数据集时重点查看的数字数据。您所选择的度 量值取决于最终用户所请求的信息类型。一些常见的度量值 有 sales cost 、 和 production count 等
构 • 整合异构的数据 • 统一有效的数据源 • 把数据整理为稳定、面向主题的结构
数据仓库系统的创建
原始业务数据 数据集结区
数据仓库
终端用户
数据的提取,转换,加载(ETL)
了解数据仓库
数据仓库
数据仓库
OLAP
终端用户
数据集市
维度表
• 维度是分析中描述性的分类,通过它 可以将度量值分离出来进行分析。
– 面向的是数据,不是过程 – 使用通用的分析方法和模型
• 不局限于特定的使用人
– Information worker、Knowledge Worker – 领导层和决策层 – 任何其他需要使用数据和报表的人
• 受行业发展冷热的影响不大
– IT行业发展的时候需要商务智能 – IT行业冬天的时候仍然需要商务智能
Sales Amount Unit Sales ...
Product_Dim
ProductKey ProductID ...
Customer_Dim
CustomerKey CustomerID ...
雪花模型
• 在多维表中定义层次 • 节省存储空间 • 存取效率较低
维度表
customer_dim
数据 信息
知识 决策
行动
价值
什么是商务智能(BI)?
• 商业智能的关键:是根据企业发展需要,建立业务模型,从许多 来自不同的企业运作系统的数据中提取出有用的数据并进 行清理,以保证数据的正确性.
• 然后对数据经过抽取(Extraction)、转换(Transformation) 和装载(Loading),即ETL过程,合并到一个企业级的数据 仓库里,从而得到企业数据的一个全局视图.
北京市管委IT状况
• 应急事件处理数据 • 基础地理信息数据 • 视频监控数据 • 城管通平台数据 • 井盖数据 • 市政设施数据 • 环卫信息数据 • 户外广告数据 • ……
应急事件处理 数据
基础地 理信息
数据
视频监控数 据
城管通平台 数据
?
环卫信息数据
户外广告数 市政设施数
据
据
井盖数据
为什么我们需要商务智能?
术语介绍
• 粒度 :数据汇总的层次或深度。 • 聚合 :聚合是预先计算好的数据汇总,由于在问题提出之前已经
准备了答案,聚合可以改进查询响应时间。
• 切片 :由一个维的一个成员限定的分区数据,称为一个切片。 • 数据钻取 :最终用户从常规多维数据集、虚拟多维数据集或链接
多维数据集中选择单个单元,并从该单元的源数据中检索结果集 以获得更详细的信息,这个操作过程就是数据钻取。
• 80年代,“商业智能”的标准是能容易地获得 想要的数据和信息。
• 90年代是商业智能真正起步的阶段。
商务智能发展
• 当前,商务智能(BI)市场正处于一个重要 的转型期
• 进入二十一世纪,“应用”成为关键词之一, 商务智能的深入应用也成为业界关注的焦点
• 2003年起,商务智能领域掀起并购热潮
BI受市场关注的原因
• 级别 :级别是维度层次结构的一个元素。级别描述了数据的层次 结构,从数据的最高(汇总程度最大)级别直到最低(最详细) 级别。
OLTP 与OLAP的区别
• OLTP(On-Line Transaction Processing ) 联机事务处理
• OLAP(On-Line Analysis Processing )联 机分析处理
什么是商务智能(BI)?
• 商业智能能够辅助业务经营决策,既可以是操作层的,也 可以是战术层和战略层的决策。
• 商业智能是对商业信息的搜集、管理和分析过程,目的是 使企业的各级决策者获得知识或洞察力(insight),促使他 们做出对企业更有利的决策。
理解商务智能
• 目标:数据信息 转化为商务价值 • 方法:转储、监控、分析和展现海量数据 • 过程:
主键
• 主键
– 唯一性 – 关联事实表与维度表
• 两个选择
– 应用主键 (app suffix) :原 业务系统的主键
– 代理键 (key suffix) 数据仓 库系统产生的数字键
product_dim_key product_id_app
在维度中分不同的层次
• 定义层次结构的好处
– 允许用户从不同的层次展示数据 – 在分析中采用不同的路径进行钻取
OLTP 与OLAP的区别
• OLTP 系统的特征
– 处理实时业务
– 包含了为数据录入和编辑进行优化的数据 结构
– 提供有限的决策支持能力
• OLTP 系统的例子
– 订单系统
l 库存管理 l 财务
– 客户服务
OLTP 与OLAP的区别
OLTP
• 原始数据 • 细节性数据 • 当前值数据 • 可实时更新 • 一次处理的数据量小 • 面向应用,事务驱动 • 业务操作人员 • 支持日常操作 • 简单的事务
• 商务智能的实现涉及到软件、硬件、咨询服务及应用
商务智能发展历程
• 1964年,一个叫Michael S. Scott Morton的研究 员在哈佛商业学院提出了“决策支持系统”的 想法,这便是BI商务智能萌芽。
• 20世纪70年代之后,当企业建立了大量的IT系 统,信息已经不再缺乏而是泛滥,而企业国际 化、消费者需求的多样化与苛刻、竞争对手数 量的增加和竞争层次的提高,无不要求企业更 加关注对企业内部知识、外部信息的提炼和洞 察,以保证企业决策的快速与准确。
• 举例:日期 分为,年-半年-季度-月- 日期
Time_Dim
TimeKey TheDate ...
Shipper_Dim
ShipperKey ShipperID ...
星型模型 Employee_Dim
EmployeeKey
EmployeeID ...
Sales_Fact
TimeKey EmployeeKey ProductKey CustomerKey ShipperKey
201 ALFI Alfreds
product_dim
25 123 Chai
事实表的组成
事实表
外键
度量值
customer_key product_key time_key quantity_sales amount_sales
201
25
1Hale Waihona Puke Baidu4
400
10,789
time_dim
134 1/1/2000
• 在此基础上利用合适的查询和分析工具、数据挖掘工具、 联机分析处理(OLAP)工具等对其进行分析和处理(这时 信息变为辅助决策的知识),最后将知识呈现给管理者, 为管理者的决策过程提供支持。
BI的基本框架
什么是商务智能(BI)?
• 所需技术: ETL 数据仓库、 联机分析处理(OLAP)工具 数据挖掘等技术。
商务智能系统如何辅助决策
• 通过数据的整合提供更加全面的信息 • 通过预先计算提供更快捷的速度 • 通过OLAP技术可以非常灵活的以多种形式
展现数据,以使管理者发现问题 • 通过数据挖掘模型(以历史数据为基础)
预测商务的未来走势,为管理者提供决策 支持
商务智能应用的范围
• 不局限于某一个行业或局限于具体的业务
事实表中的粒度就是维度表与事实表中相关联的最小 级别的数据
事实表
产品的销售数量, 成本,销售额,订单数
度量值:业务数据
库存数, 入库数,出库数
外键
外键约束
time_dim_key
product_key customer_key
order_date_key
外键约束
customer_dim_key
外键 约束
维度表-OLAP 维度
时间维
Year Quarter Month