数据仓库与数据挖掘简介
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.4 操作型数据库系统与数据仓 库的区别
• 操作型数据库系统的主要任务是执行联机 事务和查询处理,称为联机事务处理 (OLTP) 系统。它涵盖了一个组织的大部分日常操 作,如采购、制造、库存、销售、财务、 银行等事务。
• DW在数据分析和决策方面为决策者提供服 务。可以用不同的格式去组织和提供数据, 以便满足不同用户的形形色色需求。这种 系统称为联机分析处理(OLAP)系统。
(2) 将多个系统的数据进行计算和整理,保 证DW的数据是关于整个系统的、一致的、 全局的。
使用数据清理和数据集成技术,确保命名 约定、编码结构、属性等的数据结构一致
数据仓库与数据挖掘简介
2.2 数据仓库的主要特征
• 不更新的 (nonvolatile):
(1)访问数据仓库主要是两种方式:数据 的插入和查询。修改和删除操作很少 。 (2) DW的数据与操作环境下的应用数据 分开存放。因此,数据仓库不需要在操作 环境下事务处理、恢复和并发控制等机制。
数据仓库与数据挖掘简介
2.2 数据仓库的主要特征
• 随时间变化的(time-variant):
(1)数据仓库记录了从过去某一时间到目前 的各个阶段的信息,通过这些信息,可以 表明发展历程并对未来的趋势作出定量分 析和预测。
(2) DW的数据结构,隐式或显式地包含时 间元素;其包含的大量综合数据也与时间 相关,例如:月产量。
数据仓库与数据挖掘简介
1.3 海量数据要求强有力的数据 分析工具
• 以前的专家系统依赖用户或某领域的专家 人工地将知识输入知识库;这一过程常常 有偏差和错误,并且耗时、费用高;
• 使用数据挖掘工具进行数据分析;可以发 现重要的数据模式,对商务决策、知识库、 科学和医学研究作出了巨大贡献;
• 数据和信息之间的差距,要求系统地开发 数据挖掘工具,将沉寂的数据转换成宝贵 的知识。
数据仓库与数据挖掘简介
二、数据仓库 2.1 什么是数据仓库DW ( data
warehouse )?
• 数据仓库可以看作是一种特殊的关系数据 库。
• DW是一个面向主题的、集成的、不更新的、 随时间变化的数据集合,用于支持管理部 门的决策过程。
• DWS允许将各种应用系统集成在一起为统 一的历史数据分析提供坚实的平台,对信 息处理、决策提供支持。
数据仓库与数据挖掘简介
2.2 数据仓库的主要特征
• 面向主题的 ( subject – oriented ) :
(1) 所谓主题(宏观领域),如顾客、供应商、 产品和销售组织;是在高层次上将企业IS 中的数据综合、归类并进行分析利用的抽 象。面向主题,是指数据仓库内的信息是 按主题进行组织的,为按决策的过程提供 信息。
数据仓库与数据挖掘简介
1.1 数据库技术的发展
• 高级数据库系统 ( 80年代中期—现在 ) -高级数据模型: 扩充关系、面向对象、对象关系 -面向应用:空间的、时间的、多媒体的、主 动的、科学的、知识库
• 数据仓库和数据挖掘 (80年代后期—现在) -数据仓库和OLAP技术 -数据挖掘和知识发现 • 基于Web的数据库系统 (90年代—现在) 数据仓库与数据挖掘简介
• 2.3 DW概念总结
• 2.4 操作型数据库系统与数据仓库的区别
• 2.5 数据仓库的数据模型
数据仓库与数据挖掘简介
目录
• 2.7数据仓库与操作数据库为什么是分离的? • 2.8 多维数据模型
• 三、数据挖掘
• 3.1 什么是数据挖掘? • 3.2 数据挖掘的特点 • 3.3 数据挖掘的分类 • 3.4 数据挖掘的两种功能 • 3.5 数据挖掘和知识发现的联系 • 3.6 数据挖掘实例
数据仓库与数据挖掘简介
一、 数据库相关Biblioteka Baidu1.1 数据库技术的发展
• 收集和数据库创建 ( 20世纪60年代和更早 ) -原始文件处理
• 数据库管理系统(20世纪70年代) -层次、网状、关系数据库系统 -数据建模工具:实体-联系(E-R)模型等 -索引和数据组织技术 -查询语言:SQL 、用户界面:表单、报告等 -查询处理和查询优化、事务并发控制等 -联机事务处理(OLTP)
数据仓库与数据挖掘简 介
2020/11/21
数据仓库与数据挖掘简介
目录
• 一、 数据库相关
• 1.1 数据库技术的发展
• 1.2 数据库应用中存在的问题
• 1.3 海量数据要求强有力的数据分析工具
• 二、数据仓库
• 2.1 什么是数据仓库DW ( data warehouse )?
• 2.2 数据仓库的主要特征
(5) 面向主题的数据组织方式要求将数据组 织成主题域,各主题域之间有明确的界限 (独立性),在某一主题内的数据应该包 括分析处理所要求的一切数据(完备性)。
数据仓库与数据挖掘简介
2.2 数据仓库的主要特征
• 集成的(integrated):
(1) 构造数据仓库是将多个不同的数据源, 如关系数据库、一般文件和联机事务处理 记录,集成在一起。
1.2 数据库应用中存在的问题
“数据丰富,信息贫乏”。存储了大量数据 的数据库变成了“数据坟墓”——难以再访 问的数据档案;
• 在大型数据库中快速增长着海量数据,理 解数据的含义已经远远超出了人的能力;
• 领导者的重要决策往往无法、及时获得信 息,因为缺乏从海量数据中提取有价值知 识的工具;若在当前运行的操作数据库中 获取信息,则影响数据库的使用和性能
(2) DW关注决策者的数据建模与分析,而传统 数据库是面向应用的,集中于组织机构的 日常操作和事务处理。
数据仓库与数据挖掘简介
2.2 数据仓库的主要特征
(4) 传统数据库使用OLTP联机事务处理方式, 进行数据组织时考虑记录每一笔业务的情 况;
数据仓库使用OLAP联机分析处理方式, 进行数据分析处理,以主题为单位组织数 据,例如:供应商、商品、顾客等。
(3) DW随时间变化不断增加新的数据内容;
数据仓库与数据挖掘简介
2.3 DW概念总结
DW概念总结:
• 数据仓库是一种语义上一致的数据存储体 系结构;
• DW是决策支持数据模型的物理实现,并存 放企业战略决策所需信息;
• DW通过将异种数据源中的数据集成在一起 构造而成;
• 完成各种数据查询、信息分析数报据仓库告与数和据挖掘决简介策