第5章:数据仓库与数据挖掘的决策支持(1)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(5)数据仓库的数据量大. 大型DW是一个TB(1000GB)级数据库问题
(一般为10GB级相当于一般数据库100MB的100 倍)
(6)数据仓库的硬件要求较高 需要一个巨大的硬件平台需要一个并行的数据库 系统.
最好的数据仓库是大的和昂wenku.baidu.com的。 精品课件
5.1.2 数据仓库结构
近期基本数据:是最近时期的业务数据,是数据仓库用 户最感兴趣的部分,数据量大。
数据仓库用于决策支持,也称分析型处理,用于决 策分析,它是建立决策支持系统(DSS)的基础。
精品课件
操作型数据(DB数据)与
分析型数据(DW数据)之间的差别为:
DB 数据
DW 数据
细节的
综合或提炼的
在存取时准确的
代表过去的数据
可更新的
不更新
一次操作数据量小
一次操作数据量大
面向应用
面向分析
支持管理
支持决策
(2)数据仓库是集成的 数据进入数据仓库之前,必须经过加工与集成 •对不同的数据来源进行统一数据结构和编码 •统一原始数据中的所有矛盾之处,如字段的 同名异义,异名同义,单位不统一,字长不 一致等。 总之,将原始数据结构做一个从面向应用到面向
主题的大转变。
精品课件
2、数据仓库特 点 (3)数据仓库是稳定的
历史基本数据:近期基本数据随时间的推移,由数据仓库 的时间控制机制转为历史基本数据。
轻度综合数据:是从近期基本数据中提取出的,这层数据 是按时间段选取 ,或者按数据属性 (attributes ) 和内 容 (contents)进行综合。
高度综合数据层:这一层的数据是在轻度综合数据基础 上的再一次综合,是一种准决策数据。
数据集市不等于数据仓库,多个数据集市简单合 并起来不能成为数据仓库。
各数据集市之间对详细数据和历史数据的存储存在大 量冗余。
同一个问题在不同的数据集市的查询结果可能不一致, 甚至互相矛盾。
各数据集市之间以及与源数据库系统之间难以管理。
精品课件
4.数据集市的特性
1、规模小 2、特定的应用 3、面向部门 4、由业务部门定义,设计和开发 5、由业务部门管理和维护 6、快速实现 7、购买较便宜 8、投资快速回收 9、工具集的紧密集成 10、更详细的、预先存在的数据仓库的摘要子集 11、可升级到完整的数据仓库
精品课件
2.数据集市概念
数据集市(Data Marts)是一种更小、更集中的 数据仓库,为公司提供分析商业数据的一条廉价 途径。
数据集市是指具有特定应用的数据仓库,主要针 对某个应用或者具体部门级的应用,支持用户获 得竞争优势或者找到进入新市场的具体解决方案
精品课件
3.数据集市与数据仓库的关系
2、数据仓库特点
(1)数据仓库是面向主题的 主题是数据归类的标准,每一个主题基本对应一个
宏观的分析领域。 例如,银行的数据仓库的主题:客户 DW的客户数据来源: 从银行储蓄DB、信用卡DB、贷款DB等三个DB中
抽取同一客户的数据整理而成。 在DW中分析客户数据,可决定是否继续给予贷款
精品课件
2、数据仓库特点
5.两种数据集市结构
从属:数据直接来自 中央数据库,能够保持 数据的一致性。
关键业务部门建立 从属的数据集市,可以 很好的查询反应速度。
从属数据集市(Dependent Data Mart)
5.两种数据集市结构
独立:数据直接来自各 生产系统。
从投资考虑,用来解 决各个部门比较迫切的 决策问题。
独立数据集市(Independent Data Mart)
精品课件
1、数据仓库的概念
(2)SAS软件研究所定义: 数据仓库是一种管理技术,旨在通过通
畅、合理、全面的信息管理,达到有效 的决策支持。
精品课件
1、数据仓库的概念
传统数据库用于事务处理,也叫操作型处理,是 指对数据库联机进行日常操作,即对一个或一组记录 的查询和修改,主要为企业特定的应用服务的。用户 关心的是响应时间,数据的安全性和完整性。
精品课件
高度综合数据
层
元
轻度综合数据
数
层 当前基本数据
据
层历史数据层
数据仓库结构图
5.1.3 数据集市(Data Mart)
1.数据集市的产生 数据仓库工作范围和成本常常是巨大的。开发 数据库是代价很高、时间较长的大项目。提供 更紧密集成的数据集市就应运产生。 目前,全世界对数据仓库总投资的一半以上均 集中在数据集市上。
数据集市的数据组织一般采用星形模型,大型数据仓库的 数据组织采用第三范式。
精品课件
5.1.4 元数据
元数据是数据仓库的重要组成部分。元数据描述 了数据仓库的数据和环境,即关于数据的数据 (meta data)。元数据就相当于数据库系统中的数 据字典
数据仓库中包括了大量的历史数据。数据经集成 进入数据仓库后是极少或根本不更新的。 (4)数据仓库是随时间变化的
数据仓库内的数据时限在5~10年,故数据的键 码包含时间项,标明数据的历史时期,这适合DSS 进行时间趋势分析。
数据库只包含当前数据,即存取某一时间的正确 的有效的数据。
精品课件
2、数据仓库特点
精品课件
5.1.2 数据仓库结构
元数据:整个数据仓库的组织结构由元数据组织,它不包含数 据仓库中的实际数据信息。
作用: (1)定位数据仓库的目录内容 (2)数据从业务环境向数据仓库环境传递时数据仓库的目 录内容 (3)指导从当前基本数据到轻度综合数据到高度综合数据 的综合算法的选择。 组成: (1)数据结构 (2)用于综合的算法 (3)从业务环境到DW规划
精品课件
6.数据集市与数据仓库的差别
数据仓库是基于整个企业的数据模型建立的,它面向企业 范围的主题;
数据集市是按照某一特定部门的数据模型建立的,由于每 个部门有自己特定的需求,因此,对他们对数据集市的期 望也不一样,也称作部门级数据仓库
部门的主题与企业的主题之间可能存在关联,也可能不存 在关联。
第5章 数据仓库与数据挖掘 的决策支持
5.1 数据仓库的基本原理
5.1.1 数据仓库概念 5.1.2 数据仓库结构 5.1.3 数据集市 5.1.4 元数据
精品课件
5.1.1 数据仓库的概念
(1)W.H.Inmon在《建立数据仓库》 一书中,对数据仓库的定义为:
数据仓库是面向主题的、集成的、稳 定的,不同时间的数据集合,用于支持 经营管理中决策制定过程。
(一般为10GB级相当于一般数据库100MB的100 倍)
(6)数据仓库的硬件要求较高 需要一个巨大的硬件平台需要一个并行的数据库 系统.
最好的数据仓库是大的和昂wenku.baidu.com的。 精品课件
5.1.2 数据仓库结构
近期基本数据:是最近时期的业务数据,是数据仓库用 户最感兴趣的部分,数据量大。
数据仓库用于决策支持,也称分析型处理,用于决 策分析,它是建立决策支持系统(DSS)的基础。
精品课件
操作型数据(DB数据)与
分析型数据(DW数据)之间的差别为:
DB 数据
DW 数据
细节的
综合或提炼的
在存取时准确的
代表过去的数据
可更新的
不更新
一次操作数据量小
一次操作数据量大
面向应用
面向分析
支持管理
支持决策
(2)数据仓库是集成的 数据进入数据仓库之前,必须经过加工与集成 •对不同的数据来源进行统一数据结构和编码 •统一原始数据中的所有矛盾之处,如字段的 同名异义,异名同义,单位不统一,字长不 一致等。 总之,将原始数据结构做一个从面向应用到面向
主题的大转变。
精品课件
2、数据仓库特 点 (3)数据仓库是稳定的
历史基本数据:近期基本数据随时间的推移,由数据仓库 的时间控制机制转为历史基本数据。
轻度综合数据:是从近期基本数据中提取出的,这层数据 是按时间段选取 ,或者按数据属性 (attributes ) 和内 容 (contents)进行综合。
高度综合数据层:这一层的数据是在轻度综合数据基础 上的再一次综合,是一种准决策数据。
数据集市不等于数据仓库,多个数据集市简单合 并起来不能成为数据仓库。
各数据集市之间对详细数据和历史数据的存储存在大 量冗余。
同一个问题在不同的数据集市的查询结果可能不一致, 甚至互相矛盾。
各数据集市之间以及与源数据库系统之间难以管理。
精品课件
4.数据集市的特性
1、规模小 2、特定的应用 3、面向部门 4、由业务部门定义,设计和开发 5、由业务部门管理和维护 6、快速实现 7、购买较便宜 8、投资快速回收 9、工具集的紧密集成 10、更详细的、预先存在的数据仓库的摘要子集 11、可升级到完整的数据仓库
精品课件
2.数据集市概念
数据集市(Data Marts)是一种更小、更集中的 数据仓库,为公司提供分析商业数据的一条廉价 途径。
数据集市是指具有特定应用的数据仓库,主要针 对某个应用或者具体部门级的应用,支持用户获 得竞争优势或者找到进入新市场的具体解决方案
精品课件
3.数据集市与数据仓库的关系
2、数据仓库特点
(1)数据仓库是面向主题的 主题是数据归类的标准,每一个主题基本对应一个
宏观的分析领域。 例如,银行的数据仓库的主题:客户 DW的客户数据来源: 从银行储蓄DB、信用卡DB、贷款DB等三个DB中
抽取同一客户的数据整理而成。 在DW中分析客户数据,可决定是否继续给予贷款
精品课件
2、数据仓库特点
5.两种数据集市结构
从属:数据直接来自 中央数据库,能够保持 数据的一致性。
关键业务部门建立 从属的数据集市,可以 很好的查询反应速度。
从属数据集市(Dependent Data Mart)
5.两种数据集市结构
独立:数据直接来自各 生产系统。
从投资考虑,用来解 决各个部门比较迫切的 决策问题。
独立数据集市(Independent Data Mart)
精品课件
1、数据仓库的概念
(2)SAS软件研究所定义: 数据仓库是一种管理技术,旨在通过通
畅、合理、全面的信息管理,达到有效 的决策支持。
精品课件
1、数据仓库的概念
传统数据库用于事务处理,也叫操作型处理,是 指对数据库联机进行日常操作,即对一个或一组记录 的查询和修改,主要为企业特定的应用服务的。用户 关心的是响应时间,数据的安全性和完整性。
精品课件
高度综合数据
层
元
轻度综合数据
数
层 当前基本数据
据
层历史数据层
数据仓库结构图
5.1.3 数据集市(Data Mart)
1.数据集市的产生 数据仓库工作范围和成本常常是巨大的。开发 数据库是代价很高、时间较长的大项目。提供 更紧密集成的数据集市就应运产生。 目前,全世界对数据仓库总投资的一半以上均 集中在数据集市上。
数据集市的数据组织一般采用星形模型,大型数据仓库的 数据组织采用第三范式。
精品课件
5.1.4 元数据
元数据是数据仓库的重要组成部分。元数据描述 了数据仓库的数据和环境,即关于数据的数据 (meta data)。元数据就相当于数据库系统中的数 据字典
数据仓库中包括了大量的历史数据。数据经集成 进入数据仓库后是极少或根本不更新的。 (4)数据仓库是随时间变化的
数据仓库内的数据时限在5~10年,故数据的键 码包含时间项,标明数据的历史时期,这适合DSS 进行时间趋势分析。
数据库只包含当前数据,即存取某一时间的正确 的有效的数据。
精品课件
2、数据仓库特点
精品课件
5.1.2 数据仓库结构
元数据:整个数据仓库的组织结构由元数据组织,它不包含数 据仓库中的实际数据信息。
作用: (1)定位数据仓库的目录内容 (2)数据从业务环境向数据仓库环境传递时数据仓库的目 录内容 (3)指导从当前基本数据到轻度综合数据到高度综合数据 的综合算法的选择。 组成: (1)数据结构 (2)用于综合的算法 (3)从业务环境到DW规划
精品课件
6.数据集市与数据仓库的差别
数据仓库是基于整个企业的数据模型建立的,它面向企业 范围的主题;
数据集市是按照某一特定部门的数据模型建立的,由于每 个部门有自己特定的需求,因此,对他们对数据集市的期 望也不一样,也称作部门级数据仓库
部门的主题与企业的主题之间可能存在关联,也可能不存 在关联。
第5章 数据仓库与数据挖掘 的决策支持
5.1 数据仓库的基本原理
5.1.1 数据仓库概念 5.1.2 数据仓库结构 5.1.3 数据集市 5.1.4 元数据
精品课件
5.1.1 数据仓库的概念
(1)W.H.Inmon在《建立数据仓库》 一书中,对数据仓库的定义为:
数据仓库是面向主题的、集成的、稳 定的,不同时间的数据集合,用于支持 经营管理中决策制定过程。