数据仓库的基本特征
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
路漫漫其悠远
➢ 集成的(integrated):
(1) 构造数据仓库是将多个不同的数据源,如 关系数据库、一般文件和联机事务处理记录, 集成在一起。
(2) 将多个系统的数据进行计算和整理,保证 DW的数据是关于整个系统的、一致的、全局的。
使用数据清理和数据集成技术,确保命名约
定、编码结构、属性等的数据结构一致性。
路漫漫其悠远
➢ 高级数据库系统 ( 1980年代中期—现在 ) -高级数据模型: 扩充关系、面向对象、对象-关 系 -面向应用:空间的、时间的、多媒体的、主动的、 科学的、知识库
➢ 数据仓库和数据挖掘 (1980年代后期—现在) -数据仓库和OLAP技术 -数据挖掘和知识发现
➢ 基于Web的数据库系统 (1990年代—现在) -基于XML的数据库系统 -Web 挖掘
路漫漫其悠远
数据库技术的发展
➢ 收集和数据库创建 ( 20世纪60年代以前 ) -原始文件处理
➢ 数据库管理系统(20世纪70年代) -层次、网状、关系数据库系统 -数据建模工具:实体-联系(E-R)模型等 -索引和数据组织技术 -查询语言:SQL 、用户界面:表单、报告等 -查询处理和查询优化、事务并发控制等 -联机事务处理(OLTP)
保证各数据源中数据的一致性。
路漫漫其悠远
➢ 不更新的 (nonvolatile):
(1)访问数据仓库主要是两种方式:数据的插 入和查询。修改和删除操作很少 。 (2) DW的数据与操作环境下的应用数据分开 存放。因此,数据仓库不需要在操作环境下事务 处理、恢复和并发控制等机制。
路漫漫其悠远
➢ 随时间变化的(time-variant):
路漫漫其悠远
海量数据要求强有力的数据分析工具
➢ 以前的专家系统依赖用户或某领域的专家 人工地将知识输入知识库;这一过程常常 有偏差和错误,并且耗时、费用高;
➢ 使用数据挖掘工具进行数据分析;可以发 现重要的数据模式,对商务决策、知识库、 科学和医学研究作出了巨大贡献;
➢ 数据和信息之间的差距,要求系统地开发 数据挖掘工具,将沉寂的数据转换成宝贵 的知识。
路漫漫其悠远
前言
➢ 数据挖掘是近年来信息爆炸推动下的新兴产物, 是从海量数据中提取有用知识的热门技术。
➢ 传统的信息系统,1990年代兴起的互连网技术 及ERP系统在越来越廉价的存储设备配合下, 产生了大量的数据。
➢ 与之相辅相成的数据分析和知识提取技术在相 当长一段时间里没有来自百度文库的进展,使得存储的大 量原始数据没有被充分利用,转化成指导生产 的“知识”,形成“数据的海洋,知识的荒漠” 这样一种奇怪的现象。
➢ DW是一个面向主题的、集成的、不更新的、 随时间变化的数据集合,用于支持管理部 门的决策过程”。
➢ DWS允许将各种应用系统集成在一起为统 一的历史数据分析提供坚实的平台,对信 息处理、决策提供支持。
路漫漫其悠远
数据仓库的主要特征
➢ 面向主题的 ( subject – oriented ) :
路漫漫其悠远
➢ 案例 “啤酒与尿布”是一个发生在Wal★Mart的关于 数据挖掘的经典故事:
它告诉人们:可以利用手中大量似乎没有规律的数据, 找出未知的规律;
➢ 沃尔玛有先进的卫星通讯网络—1983年开始,用巨资 建立的卫星通讯网络系统使其供货系统更趋完美;
➢ 沃尔玛有完整的数据记录、存储和分析系统;
(1) 所谓主题(宏观领域),如顾客、供应商、产 品和销售组织;是在高层次上将企业IS中的数 据综合、归类并进行分析利用的抽象。面向主 题,是指数据仓库内的信息是按主题进行组织 的,为按决策的过程提供信息。
(2) DW关注决策者的数据建模与分析,而传统数据 库是面向应用的,集中于组织机构的日常操作 和事务处理。
➢ 如何获得客户的销售记录?数据挖掘由什么人来实现? 是否每时每刻都可以进行数据挖掘?是否每次都能挖 掘出理想的结果?
➢ 我国在处理经济犯罪案件时,发现由于管理的落后以及数据分 析应用技术的落后,不能及时发现问题……
路漫漫其悠远
什么是数据仓库DW ( data warehouse )?
➢ 数据仓库可以看作是一种特殊的关系数据 库。
数据仓库的基本特征
路漫漫其悠远
2020/3/29
数据仓库DW和数据挖掘DM讲座内容简介
数据仓库和数据挖掘技术是近十年来,世界上广 泛应用的信息技术之一。其主要作用是帮助企业 有效地使用企业积累的大量数据;辅助管理层和 决策层提高管理和决策的水平。
讲座的主要内容如下: ➢ 数据仓库概要; ➢ 数据仓库的工作原理; ➢ 联系分析处理OLAP; ➢ 数据挖掘概念、原由、发展; ➢ 数据挖掘的技术分类; ➢ 数据挖掘在电信行业的应用; ➢ 数据挖掘与知识管理; ➢ 数据挖掘国内应用存在的问题; ➢ 数据挖掘的未来发展。
路漫漫其悠远
数据库应用中存在的问题
“数据丰富,信息贫乏”。存储了大量数据的数据 库变成了“数据坟墓”——难以再访问的数据档 案;
➢ 在大型数据库中快速增长着海量数据,理解数据 的含义已经远远超出了人的能力;
➢ 领导者的重要决策往往无法、及时获得信息,因 为缺乏从海量数据中提取有价值知识的工具;若 在当前运行的操作数据库中获取信息,则影响数 据库的使用和性能。
(1)数据仓库记录了从过去某一时间到目前的各 个阶段的信息,通过这些信息,可以表明发展历 程并对未来的趋势作出定量分析和预测。
(2) DW的数据结构,隐式或显式地包含时间元 素;其包含的大量综合数据也与时间相关,例如: 月产量。
(3) DW随时间变化不断增加新的数据内容;去 掉超过时限(例如:5-10年)的数据。
(3) DW排除对于决策无用的数据,提供特定主题的 简明视图。
路漫漫其悠远
(4) 传统数据库使用OLTP联机事务处理方式,进 行数据组织时考虑记录每一笔业务的情况;
数据仓库使用OLAP联机分析处理方式,进行 数据分析处理,以主题为单位组织数据,例如: 供应商、商品、顾客等。
(5) 面向主题的数据组织方式要求将数据组织成 主题域,各主题域之间有明确的界限(独立性), 在某一主题内的数据应该包括分析处理所要求的 一切数据(完备性)。
➢ 集成的(integrated):
(1) 构造数据仓库是将多个不同的数据源,如 关系数据库、一般文件和联机事务处理记录, 集成在一起。
(2) 将多个系统的数据进行计算和整理,保证 DW的数据是关于整个系统的、一致的、全局的。
使用数据清理和数据集成技术,确保命名约
定、编码结构、属性等的数据结构一致性。
路漫漫其悠远
➢ 高级数据库系统 ( 1980年代中期—现在 ) -高级数据模型: 扩充关系、面向对象、对象-关 系 -面向应用:空间的、时间的、多媒体的、主动的、 科学的、知识库
➢ 数据仓库和数据挖掘 (1980年代后期—现在) -数据仓库和OLAP技术 -数据挖掘和知识发现
➢ 基于Web的数据库系统 (1990年代—现在) -基于XML的数据库系统 -Web 挖掘
路漫漫其悠远
数据库技术的发展
➢ 收集和数据库创建 ( 20世纪60年代以前 ) -原始文件处理
➢ 数据库管理系统(20世纪70年代) -层次、网状、关系数据库系统 -数据建模工具:实体-联系(E-R)模型等 -索引和数据组织技术 -查询语言:SQL 、用户界面:表单、报告等 -查询处理和查询优化、事务并发控制等 -联机事务处理(OLTP)
保证各数据源中数据的一致性。
路漫漫其悠远
➢ 不更新的 (nonvolatile):
(1)访问数据仓库主要是两种方式:数据的插 入和查询。修改和删除操作很少 。 (2) DW的数据与操作环境下的应用数据分开 存放。因此,数据仓库不需要在操作环境下事务 处理、恢复和并发控制等机制。
路漫漫其悠远
➢ 随时间变化的(time-variant):
路漫漫其悠远
海量数据要求强有力的数据分析工具
➢ 以前的专家系统依赖用户或某领域的专家 人工地将知识输入知识库;这一过程常常 有偏差和错误,并且耗时、费用高;
➢ 使用数据挖掘工具进行数据分析;可以发 现重要的数据模式,对商务决策、知识库、 科学和医学研究作出了巨大贡献;
➢ 数据和信息之间的差距,要求系统地开发 数据挖掘工具,将沉寂的数据转换成宝贵 的知识。
路漫漫其悠远
前言
➢ 数据挖掘是近年来信息爆炸推动下的新兴产物, 是从海量数据中提取有用知识的热门技术。
➢ 传统的信息系统,1990年代兴起的互连网技术 及ERP系统在越来越廉价的存储设备配合下, 产生了大量的数据。
➢ 与之相辅相成的数据分析和知识提取技术在相 当长一段时间里没有来自百度文库的进展,使得存储的大 量原始数据没有被充分利用,转化成指导生产 的“知识”,形成“数据的海洋,知识的荒漠” 这样一种奇怪的现象。
➢ DW是一个面向主题的、集成的、不更新的、 随时间变化的数据集合,用于支持管理部 门的决策过程”。
➢ DWS允许将各种应用系统集成在一起为统 一的历史数据分析提供坚实的平台,对信 息处理、决策提供支持。
路漫漫其悠远
数据仓库的主要特征
➢ 面向主题的 ( subject – oriented ) :
路漫漫其悠远
➢ 案例 “啤酒与尿布”是一个发生在Wal★Mart的关于 数据挖掘的经典故事:
它告诉人们:可以利用手中大量似乎没有规律的数据, 找出未知的规律;
➢ 沃尔玛有先进的卫星通讯网络—1983年开始,用巨资 建立的卫星通讯网络系统使其供货系统更趋完美;
➢ 沃尔玛有完整的数据记录、存储和分析系统;
(1) 所谓主题(宏观领域),如顾客、供应商、产 品和销售组织;是在高层次上将企业IS中的数 据综合、归类并进行分析利用的抽象。面向主 题,是指数据仓库内的信息是按主题进行组织 的,为按决策的过程提供信息。
(2) DW关注决策者的数据建模与分析,而传统数据 库是面向应用的,集中于组织机构的日常操作 和事务处理。
➢ 如何获得客户的销售记录?数据挖掘由什么人来实现? 是否每时每刻都可以进行数据挖掘?是否每次都能挖 掘出理想的结果?
➢ 我国在处理经济犯罪案件时,发现由于管理的落后以及数据分 析应用技术的落后,不能及时发现问题……
路漫漫其悠远
什么是数据仓库DW ( data warehouse )?
➢ 数据仓库可以看作是一种特殊的关系数据 库。
数据仓库的基本特征
路漫漫其悠远
2020/3/29
数据仓库DW和数据挖掘DM讲座内容简介
数据仓库和数据挖掘技术是近十年来,世界上广 泛应用的信息技术之一。其主要作用是帮助企业 有效地使用企业积累的大量数据;辅助管理层和 决策层提高管理和决策的水平。
讲座的主要内容如下: ➢ 数据仓库概要; ➢ 数据仓库的工作原理; ➢ 联系分析处理OLAP; ➢ 数据挖掘概念、原由、发展; ➢ 数据挖掘的技术分类; ➢ 数据挖掘在电信行业的应用; ➢ 数据挖掘与知识管理; ➢ 数据挖掘国内应用存在的问题; ➢ 数据挖掘的未来发展。
路漫漫其悠远
数据库应用中存在的问题
“数据丰富,信息贫乏”。存储了大量数据的数据 库变成了“数据坟墓”——难以再访问的数据档 案;
➢ 在大型数据库中快速增长着海量数据,理解数据 的含义已经远远超出了人的能力;
➢ 领导者的重要决策往往无法、及时获得信息,因 为缺乏从海量数据中提取有价值知识的工具;若 在当前运行的操作数据库中获取信息,则影响数 据库的使用和性能。
(1)数据仓库记录了从过去某一时间到目前的各 个阶段的信息,通过这些信息,可以表明发展历 程并对未来的趋势作出定量分析和预测。
(2) DW的数据结构,隐式或显式地包含时间元 素;其包含的大量综合数据也与时间相关,例如: 月产量。
(3) DW随时间变化不断增加新的数据内容;去 掉超过时限(例如:5-10年)的数据。
(3) DW排除对于决策无用的数据,提供特定主题的 简明视图。
路漫漫其悠远
(4) 传统数据库使用OLTP联机事务处理方式,进 行数据组织时考虑记录每一笔业务的情况;
数据仓库使用OLAP联机分析处理方式,进行 数据分析处理,以主题为单位组织数据,例如: 供应商、商品、顾客等。
(5) 面向主题的数据组织方式要求将数据组织成 主题域,各主题域之间有明确的界限(独立性), 在某一主题内的数据应该包括分析处理所要求的 一切数据(完备性)。