01数据仓库概述.ppt
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
9
分析决策人员的挑战
组织内部
横向共享信息 数据的重构 个人授权 服务和质量管理
组织之间
合作伙伴 客户驱动的解决方案 战略联盟 价值链和供应链
市场
竞争对手 市场分割 实时的市场行情 全球化
10
数据可信性
数据没有同一时间基准
例如:一个企业的两个部门向管理者呈送报表 部门A,于星期天傍晚抽取了分析所需的数据,结论
销售 客户 索赔
产品 帐户
政策
25
面向主题的数据组织
主题:宏观分析领域所涉及的分析对象 面向主题的数据组织方式:在较高的层次上对分析
对象的数据的一个完整、一致的描述。 采用面向事务进行数据组织,其特点为:
充分考虑企业的部门组织结构和业务活动 反映企业内部数据流动情况,业务处理的数据流程 与业务处理流程中的单据、票证、文档有良好的对应 数据与应用(数据的处理)有一定的对应
定位数据 + 获得数据 + 集成报告,完成任务所需时间较长 每份报告各自需求不同,因此每份报告所需要的时间都很
长。
13
从数据到信息
例如:“今年的帐户情况与前五年比较” 涉及大量应用:储蓄应用、贷款、即期汇票管理、
信托,而这些应用并未集成。 没有足够的历史数据:
贷款部门,拥有二年的数据 银行存折处理,拥有一年的数据 即期汇票管理只有60天的数据 现金交易处理具有18个月的系统
操作型系统,OLTP
下订单 处理呼叫 装货 开发货单 收取现金 预定座位
将数据写入数据库
►信息型系统
▪ 给我销售量最好的产品名单 ▪ 告诉我出问题的地区 ▪ 告诉我为什么(向下钻取) ▪ 让我看看其他的数据(横向
钻取) ▪ 显示最大利润 ▪ 当一个地区的销售低于目标
20
数据仓库是信息传递的一种简单概念
数据仓库的来源在于对决策信息的需求和 对操作型计算环境的不满
数据仓库不“创造”新的数据 数据仓库概念简单
使用所有现存的数据 通过清洗、转换 提供有用的决策信息
21
数据仓库是一种环境,而不是产品
你不可能买到数据仓库 但你可以构建自己的数据仓库 数据仓库新型计算环境的特点
为了生成一个企业报表: 获得源数据 定位和分析数据:由于同名不同义、同义不同名,很
难准确定位和分析,可能造成进一步的混乱 把数据加工成报告
要写许多程序,每个程序必须客户化(与客户环境有关) 程序会涉及公司具有的各种技术 由于定位数据困难,检索所要的数据是一件很麻烦的事
完成任务需要很长时间
识,帮助企业做出明智的业务经营决策的工具。 数据包括来自企业业务系统的订单、库存、交
易账目、客户和供应商等来自企业所处行业和 竞争对手的数据以及来自企业所处的其他外部 环境中的各种数据。 商业智能能够辅助的业务经营决策,既可以是 操作层的,也可以是战术层和战略层的决策。
43
为了将数据转化为知识,需要利用数据仓 库、联机分析处理(OLAP)工具和数据挖 掘等技术。商业智能不是什么新技术,它 只是数据仓库、OLAP和数据挖掘等技术的 综合运用。
数据不一致问题:同名不同义、同义不同名,例 如M/F,Male/Female
外部数据和非结构化数据
14
两种报表的区别
例:就一个银行而言
出纳员需要操作型报表,因为他需要知道当天 所有交易,来确定一天结束时的现金余额;
银行行长的长期战略决策(如决定一个地区安 装ATM机 的数目)就需要了解大量的内部和外 部信息,每天的交易报表对他意义不大,他更 需要分析型报表
的综合
7
分析处理的需求
例1:今年销售量下降的因素 时间:销售 地区:(销售*顾客)[顾客地址所在的地区,……] 商品:(销售*订单细则)[商品类别,……] 销售部门:销售*员工*部门[部门名称,……]
例2:持卡人今年的交易情况与以往相比,有怎样的变化? 交易特点(存款、取款、转帐、消费)是什么?持卡人消费 倾向(宾馆、大型商场、超级市场等)是什么?
数据分析和决策支持的理想环境 不固定,灵活、交互式操作 100%用户驱动 适合”提问-回答-再提问”的模式
22
纲要
数据仓库技术产生的背景 数据仓库定义 数据仓库的组成部件 商务智能
23
1 数据仓库定义
数据仓库的创始者 Bill Inmon :
“A Data Warehouse is a subject oriented, integrated, nonvolatile, and time variant collection of data in support of management’s decisions.”
►星型结构
►通过展示的方式进行查询 ►适合数据连接和分析技术
►基于公司数据视角的结构
►通过实体-关系模式进行组 织
►基于适合部门数据视角的结 构
31
纲要
数据仓库技术产生的背景 数据仓库定义 数据仓库的组成部件 商务智能
32
数据仓库的组成部分(Component)
33
源数据部分
主要类别
在建立数据仓库前,我们需要考虑下列这些问题: 采取自上而下还是自下而上的方法 企业范围还是部门范围 先建立数据仓库还是数据集市 数据集市是否相互独立
30
数据仓库 vs. 数据集市
数据仓库
数据集市
►完整的,从企业整体考虑的 ►部门的
►所有数据集市的集合
►一个单独的商业处理过程
►从阶段区域得到的数据
全局范围内统一数据视图 数据内容
数据的完整性 数据的准确性 数据的一致性
数据组织
面向分析决策
19
数据仓库的功能性定义
数据仓库是一种信息环境,它能够:
提供对企业综合、完整的概括 使决策者所需要的当前数据和历史数据都方
便易得 无需妨碍操作型系统,也能使支持决策的处
理成为可能 使企业的信息保持一致性 提供了一个灵活的、交互的战略信息来源
38
纲要
数据仓库技术产生的背景 数据仓库定义 数据仓库的组成部件 商务智能
39
2007年三大并购案
商务智能开始发力,渐入佳景
Oracle 33亿美金 收购 Hyperion SAP 48亿欧元 收购 Business Object IBM 50亿美金 收购 Cognos
2006年IDC 商务智能领域 10强
例:保险公司:
面向应用(操作):财产险、寿险、健康险、意外险 面向主题:客户、保单、保费、理赔(赔款)。
26
“综合”的数据
数据仓库中的数据来自不同的数据库、文件、数据段。 (内部或者外部,不同的平台)
数据进入数据仓库前,需要进行的标准化工作:
命名规则
数据特性
编码
度量单位
来
自
应
用
以客户为中心的经营管理模式 — 优化客户关系
原有系统往往以产品为中心 原有系统往往以“单据(票证)”的处理为基础 转向“以客户为中心” 强调服务,尤其是个性化服务 个性化数据
6
现有数据库系统处理“分析型”应用 存在的问题
数据可信性 生产率 不可能把数据转换成信息 数据动态集成问题 历史数据问题 数据的综合问题:非细节数据,多种程度
数据仓库中的数据是用来进行查询和分析的
不能在数据仓库中实时地删除数据 不能在数据仓库中修改数据
OLTP数据库
数据仓库
读取 增加 修改 删除
操作型系统
读取
决策支持系统
29
2 数据仓库和数据集市
数据仓库和数据集市(Data Mart)是一个混淆不清的概念。 是学术界争论的话题
Bill Inmon(1998):“今年IT经理面对的最重要的问题 就是到底先建数据仓库还是先建立数据集市”,今天依 然如此。
储蓄帐户
程
序 的
支票帐户
数
据
贷款帐户
数据仓库主题
主题=帐户
27
数据的“时间特性”
数据仓库中的每一个数据结构都包含了时间 要素。
数据仓库中的数据是和时间变化相关的数据
可以对过去进行分析 与当前的信息相关 可以对未来进行预测
28
数据的非易变性(相对稳定)
操作型系统的数据实时地进行更新,每次交易 发生都要更新;数据仓库中的数据非实时性更 新
值时,提醒我
从数据库中读取战略信息
16
操作型系统 vs. 信息型系统
操作型系统
信息型系统
数据内容 当前值
存档的,推导出来的,总结 的值
数据结构 适于事务处理
适于复杂查询
访问频率 高
中、低
访问连接类 读取、更新、删除 读取 型
使用方法 可预知的、反复性的 特别查询、随机的、启发式 的应用
响应时间 快
一般
用户 大量
较少数
17
操作型环境和分析型环境
不同的需求,要求将操作型环境和分析型 环境相分离
在操作型环境中支持分析应用太复杂、太困难 操作性环境不支持域(Domain)之间的联系,
仅仅支持表之间的连接 不同的数据环境要求从数据组织(结构)和操
作上进行工作
18
3 数据仓库要解决的基本问题
为业绩上升10% 部门B,于星期三下午抽取了分析所需的数据,结论
为业绩下降15%
算法不同
部门A使用的是旧帐号 部门B使用的是大帐号
多次抽取,扩大了上述两个问题
用抽取程序从数据库或文件中抽取数据,并存放起来, 然后又在此基础上再次进行抽取,从数据进入系统到 提供分析往往经过8、9次的抽取。
11
BI的实现涉及到软件、硬件、咨询服务及应 用,其基本体系结构包括数据仓库、联机 分析处理和数据挖掘三个部分。
BI是一种解决方案。
要求:
多个子系统中的数据(数据集成) 历史数据 汇总、综合的数据 一致的数据视图
8
分析人员典型的信息需求
覆盖企业内部信息、合作伙伴信息和市场信息 覆盖综合信息和明细信息 覆盖当前数据和历史数据 高可用性 高质量的数据(一致性、完整性) 支持各种不同的分析方法 数据定义符合业务人员要求
“数据仓库是为支持管理决策建立的,面 向主题的,综合的,稳定的,随时间 变化的数据集合”
24
“面向主题”的数据
在操作型系统中,各行业的数据集合都是围绕单 独的应用程序进行组织的
在数据仓库中
数据是按主题而不是按照应用程序存储的。
数据是跨应用程序的
操作型应用程序
数据仓库主题
订单处理 客户贷款 顾客帐单 可接收帐款 索赔处理 储蓄帐目
数据可信性
外部数据问题
一位分析员把《华尔街日报》的数据带进系统 另一位将《商业周刊》的数据进入系统 数据一旦进入系统,往往已失去“身份”,并
且一位分析员也不知道另一位分析员所输入的 数据
开始时就不是同一个公共的数据源
部门A最初来源于文件XYZ 部门B最初来源于数据库 ABC
12
生产率
数据装载(Load)
35
数据存储部分
数据仓库的数据存储器是一个独立的部分
与操作型的数据库分开存储
大多数数据仓库都采用关系数据库管理系统
36
信息传递部分
多种信息传递方式
特别的报表 复杂的查询 多维分析 统计分析 主管信息系统的需求 数据挖掘
37
元数据 MetaData
描述数据的数据 数据仓库内容的一本字典 元数据是数据仓库数据本身信息的数据 元数据对于数据仓库极其重要
BO 8.94亿美元 SAS 6.79亿美元 微软 、Hyperion、 Oracle 、SAP
40
厦门大学软件学院
41
国内BI状况
Gartner 2013年:中国BI市场份额 11.75亿美元
厦门大学软件学院
42
商务智能 Business Intelligence
BI概念提出:Gartner Group( 1996年) BI通常被理解为将企业中现有的数据转化为知
生产数据:多个系统多种数据的标准 化、转换、整合
内部数据:表格、文档 存档数据:旧的历史的数据 外部数据:社会的企业,社会的人
34
数据准备部分
ETL ( ETCL )
数据抽取(Extract):多源、异构数据的抽 取
数据转换(Transform): 清洗( Clean)、标 准化等过程
第一章 数据仓库概述
纲要
数据仓库技术产生的背景 数据仓库定义 数据仓库的组成部件 商务智能
2
一、数据仓库技术产生的背景
1 决策信息的需求与当前信息状况的不足 2 操作性系统与分析性系统 3 新的数据环境的特点
3
企业信息化建设提出了更高的要求
市场竞争日益激烈 — 创造竞争优势
需要及时、准确的做出科学决策 科学决策必须以准确、有效的数据为基础 充分利用现有数据,将它转化为信息
分析决策人员的挑战
组织内部
横向共享信息 数据的重构 个人授权 服务和质量管理
组织之间
合作伙伴 客户驱动的解决方案 战略联盟 价值链和供应链
市场
竞争对手 市场分割 实时的市场行情 全球化
10
数据可信性
数据没有同一时间基准
例如:一个企业的两个部门向管理者呈送报表 部门A,于星期天傍晚抽取了分析所需的数据,结论
销售 客户 索赔
产品 帐户
政策
25
面向主题的数据组织
主题:宏观分析领域所涉及的分析对象 面向主题的数据组织方式:在较高的层次上对分析
对象的数据的一个完整、一致的描述。 采用面向事务进行数据组织,其特点为:
充分考虑企业的部门组织结构和业务活动 反映企业内部数据流动情况,业务处理的数据流程 与业务处理流程中的单据、票证、文档有良好的对应 数据与应用(数据的处理)有一定的对应
定位数据 + 获得数据 + 集成报告,完成任务所需时间较长 每份报告各自需求不同,因此每份报告所需要的时间都很
长。
13
从数据到信息
例如:“今年的帐户情况与前五年比较” 涉及大量应用:储蓄应用、贷款、即期汇票管理、
信托,而这些应用并未集成。 没有足够的历史数据:
贷款部门,拥有二年的数据 银行存折处理,拥有一年的数据 即期汇票管理只有60天的数据 现金交易处理具有18个月的系统
操作型系统,OLTP
下订单 处理呼叫 装货 开发货单 收取现金 预定座位
将数据写入数据库
►信息型系统
▪ 给我销售量最好的产品名单 ▪ 告诉我出问题的地区 ▪ 告诉我为什么(向下钻取) ▪ 让我看看其他的数据(横向
钻取) ▪ 显示最大利润 ▪ 当一个地区的销售低于目标
20
数据仓库是信息传递的一种简单概念
数据仓库的来源在于对决策信息的需求和 对操作型计算环境的不满
数据仓库不“创造”新的数据 数据仓库概念简单
使用所有现存的数据 通过清洗、转换 提供有用的决策信息
21
数据仓库是一种环境,而不是产品
你不可能买到数据仓库 但你可以构建自己的数据仓库 数据仓库新型计算环境的特点
为了生成一个企业报表: 获得源数据 定位和分析数据:由于同名不同义、同义不同名,很
难准确定位和分析,可能造成进一步的混乱 把数据加工成报告
要写许多程序,每个程序必须客户化(与客户环境有关) 程序会涉及公司具有的各种技术 由于定位数据困难,检索所要的数据是一件很麻烦的事
完成任务需要很长时间
识,帮助企业做出明智的业务经营决策的工具。 数据包括来自企业业务系统的订单、库存、交
易账目、客户和供应商等来自企业所处行业和 竞争对手的数据以及来自企业所处的其他外部 环境中的各种数据。 商业智能能够辅助的业务经营决策,既可以是 操作层的,也可以是战术层和战略层的决策。
43
为了将数据转化为知识,需要利用数据仓 库、联机分析处理(OLAP)工具和数据挖 掘等技术。商业智能不是什么新技术,它 只是数据仓库、OLAP和数据挖掘等技术的 综合运用。
数据不一致问题:同名不同义、同义不同名,例 如M/F,Male/Female
外部数据和非结构化数据
14
两种报表的区别
例:就一个银行而言
出纳员需要操作型报表,因为他需要知道当天 所有交易,来确定一天结束时的现金余额;
银行行长的长期战略决策(如决定一个地区安 装ATM机 的数目)就需要了解大量的内部和外 部信息,每天的交易报表对他意义不大,他更 需要分析型报表
的综合
7
分析处理的需求
例1:今年销售量下降的因素 时间:销售 地区:(销售*顾客)[顾客地址所在的地区,……] 商品:(销售*订单细则)[商品类别,……] 销售部门:销售*员工*部门[部门名称,……]
例2:持卡人今年的交易情况与以往相比,有怎样的变化? 交易特点(存款、取款、转帐、消费)是什么?持卡人消费 倾向(宾馆、大型商场、超级市场等)是什么?
数据分析和决策支持的理想环境 不固定,灵活、交互式操作 100%用户驱动 适合”提问-回答-再提问”的模式
22
纲要
数据仓库技术产生的背景 数据仓库定义 数据仓库的组成部件 商务智能
23
1 数据仓库定义
数据仓库的创始者 Bill Inmon :
“A Data Warehouse is a subject oriented, integrated, nonvolatile, and time variant collection of data in support of management’s decisions.”
►星型结构
►通过展示的方式进行查询 ►适合数据连接和分析技术
►基于公司数据视角的结构
►通过实体-关系模式进行组 织
►基于适合部门数据视角的结 构
31
纲要
数据仓库技术产生的背景 数据仓库定义 数据仓库的组成部件 商务智能
32
数据仓库的组成部分(Component)
33
源数据部分
主要类别
在建立数据仓库前,我们需要考虑下列这些问题: 采取自上而下还是自下而上的方法 企业范围还是部门范围 先建立数据仓库还是数据集市 数据集市是否相互独立
30
数据仓库 vs. 数据集市
数据仓库
数据集市
►完整的,从企业整体考虑的 ►部门的
►所有数据集市的集合
►一个单独的商业处理过程
►从阶段区域得到的数据
全局范围内统一数据视图 数据内容
数据的完整性 数据的准确性 数据的一致性
数据组织
面向分析决策
19
数据仓库的功能性定义
数据仓库是一种信息环境,它能够:
提供对企业综合、完整的概括 使决策者所需要的当前数据和历史数据都方
便易得 无需妨碍操作型系统,也能使支持决策的处
理成为可能 使企业的信息保持一致性 提供了一个灵活的、交互的战略信息来源
38
纲要
数据仓库技术产生的背景 数据仓库定义 数据仓库的组成部件 商务智能
39
2007年三大并购案
商务智能开始发力,渐入佳景
Oracle 33亿美金 收购 Hyperion SAP 48亿欧元 收购 Business Object IBM 50亿美金 收购 Cognos
2006年IDC 商务智能领域 10强
例:保险公司:
面向应用(操作):财产险、寿险、健康险、意外险 面向主题:客户、保单、保费、理赔(赔款)。
26
“综合”的数据
数据仓库中的数据来自不同的数据库、文件、数据段。 (内部或者外部,不同的平台)
数据进入数据仓库前,需要进行的标准化工作:
命名规则
数据特性
编码
度量单位
来
自
应
用
以客户为中心的经营管理模式 — 优化客户关系
原有系统往往以产品为中心 原有系统往往以“单据(票证)”的处理为基础 转向“以客户为中心” 强调服务,尤其是个性化服务 个性化数据
6
现有数据库系统处理“分析型”应用 存在的问题
数据可信性 生产率 不可能把数据转换成信息 数据动态集成问题 历史数据问题 数据的综合问题:非细节数据,多种程度
数据仓库中的数据是用来进行查询和分析的
不能在数据仓库中实时地删除数据 不能在数据仓库中修改数据
OLTP数据库
数据仓库
读取 增加 修改 删除
操作型系统
读取
决策支持系统
29
2 数据仓库和数据集市
数据仓库和数据集市(Data Mart)是一个混淆不清的概念。 是学术界争论的话题
Bill Inmon(1998):“今年IT经理面对的最重要的问题 就是到底先建数据仓库还是先建立数据集市”,今天依 然如此。
储蓄帐户
程
序 的
支票帐户
数
据
贷款帐户
数据仓库主题
主题=帐户
27
数据的“时间特性”
数据仓库中的每一个数据结构都包含了时间 要素。
数据仓库中的数据是和时间变化相关的数据
可以对过去进行分析 与当前的信息相关 可以对未来进行预测
28
数据的非易变性(相对稳定)
操作型系统的数据实时地进行更新,每次交易 发生都要更新;数据仓库中的数据非实时性更 新
值时,提醒我
从数据库中读取战略信息
16
操作型系统 vs. 信息型系统
操作型系统
信息型系统
数据内容 当前值
存档的,推导出来的,总结 的值
数据结构 适于事务处理
适于复杂查询
访问频率 高
中、低
访问连接类 读取、更新、删除 读取 型
使用方法 可预知的、反复性的 特别查询、随机的、启发式 的应用
响应时间 快
一般
用户 大量
较少数
17
操作型环境和分析型环境
不同的需求,要求将操作型环境和分析型 环境相分离
在操作型环境中支持分析应用太复杂、太困难 操作性环境不支持域(Domain)之间的联系,
仅仅支持表之间的连接 不同的数据环境要求从数据组织(结构)和操
作上进行工作
18
3 数据仓库要解决的基本问题
为业绩上升10% 部门B,于星期三下午抽取了分析所需的数据,结论
为业绩下降15%
算法不同
部门A使用的是旧帐号 部门B使用的是大帐号
多次抽取,扩大了上述两个问题
用抽取程序从数据库或文件中抽取数据,并存放起来, 然后又在此基础上再次进行抽取,从数据进入系统到 提供分析往往经过8、9次的抽取。
11
BI的实现涉及到软件、硬件、咨询服务及应 用,其基本体系结构包括数据仓库、联机 分析处理和数据挖掘三个部分。
BI是一种解决方案。
要求:
多个子系统中的数据(数据集成) 历史数据 汇总、综合的数据 一致的数据视图
8
分析人员典型的信息需求
覆盖企业内部信息、合作伙伴信息和市场信息 覆盖综合信息和明细信息 覆盖当前数据和历史数据 高可用性 高质量的数据(一致性、完整性) 支持各种不同的分析方法 数据定义符合业务人员要求
“数据仓库是为支持管理决策建立的,面 向主题的,综合的,稳定的,随时间 变化的数据集合”
24
“面向主题”的数据
在操作型系统中,各行业的数据集合都是围绕单 独的应用程序进行组织的
在数据仓库中
数据是按主题而不是按照应用程序存储的。
数据是跨应用程序的
操作型应用程序
数据仓库主题
订单处理 客户贷款 顾客帐单 可接收帐款 索赔处理 储蓄帐目
数据可信性
外部数据问题
一位分析员把《华尔街日报》的数据带进系统 另一位将《商业周刊》的数据进入系统 数据一旦进入系统,往往已失去“身份”,并
且一位分析员也不知道另一位分析员所输入的 数据
开始时就不是同一个公共的数据源
部门A最初来源于文件XYZ 部门B最初来源于数据库 ABC
12
生产率
数据装载(Load)
35
数据存储部分
数据仓库的数据存储器是一个独立的部分
与操作型的数据库分开存储
大多数数据仓库都采用关系数据库管理系统
36
信息传递部分
多种信息传递方式
特别的报表 复杂的查询 多维分析 统计分析 主管信息系统的需求 数据挖掘
37
元数据 MetaData
描述数据的数据 数据仓库内容的一本字典 元数据是数据仓库数据本身信息的数据 元数据对于数据仓库极其重要
BO 8.94亿美元 SAS 6.79亿美元 微软 、Hyperion、 Oracle 、SAP
40
厦门大学软件学院
41
国内BI状况
Gartner 2013年:中国BI市场份额 11.75亿美元
厦门大学软件学院
42
商务智能 Business Intelligence
BI概念提出:Gartner Group( 1996年) BI通常被理解为将企业中现有的数据转化为知
生产数据:多个系统多种数据的标准 化、转换、整合
内部数据:表格、文档 存档数据:旧的历史的数据 外部数据:社会的企业,社会的人
34
数据准备部分
ETL ( ETCL )
数据抽取(Extract):多源、异构数据的抽 取
数据转换(Transform): 清洗( Clean)、标 准化等过程
第一章 数据仓库概述
纲要
数据仓库技术产生的背景 数据仓库定义 数据仓库的组成部件 商务智能
2
一、数据仓库技术产生的背景
1 决策信息的需求与当前信息状况的不足 2 操作性系统与分析性系统 3 新的数据环境的特点
3
企业信息化建设提出了更高的要求
市场竞争日益激烈 — 创造竞争优势
需要及时、准确的做出科学决策 科学决策必须以准确、有效的数据为基础 充分利用现有数据,将它转化为信息