《数据仓库》学习笔记
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《数据仓库》
第一章决策支持系统的发展
1.1演化
●管理信息系统(MIS)为信息处理提供强大的数据处理和存储能力。
●早期信息系统主要是为实现业务而建立的,根据业务的需要建立大量独立的系统。
●多个独立的系统间要交互数据很困难,出现了“抽取”的模式。其特点是与信息系
统无关,直接对信息系统的数据源进行“抽取”。
●“抽取”产生的问题是产生的蜘蛛网状“抽取”,即在“抽取”的基础上再“抽取”。
●产生数据仓库技术理论来规范。
(DSS决策支持系统)
1.2自然演化体系结构出现的问题
●数据可信性:如来自不同部门的报表,无法统一
●生产率问题:产生一个分析需要很长时间
●无法将数据转化成信息:达到一个分析结果非常困难
●方法变迁:在体系结构化环境的核心,存在下面2种数据:原始数据和导出数据,
原始数据是:维持企业日常运行所需的细节性数据;
导出数据是:要经过汇总或计算来满足公司管理者需要的数据。
• 面向应用• 面向主题
• 详细的• 综合的,或提炼的
• 在存取瞬间是准确的• 代表过去的数据
• 为日常工作服务 • 为管理者服务 • 可更新 • 不更新
• 重复运行 • 启发式运行
• 处理需求事先可知 • 处理需求事先不知道 • 生命周期符合S D L C • 完全不同的生命周期 • 对性能要求高 • 对性能要求宽松
• 一个时刻存取一个单元 • 一个时刻存取一个集合 • 事务处理驱动 • 分析处理驱动 • 更新控制主要涉及所有权 • 无更新控制问题 • 高可用性 • 松弛的可用性 • 整体管理 • 以子集管理 • 非冗余性 • 时常有冗余 • 静态结构;可变的内容 • 结构灵活
• 一次处理数据量小 • 一次处理数据量大 • 支持日常操作 • 支持管理需求
1.3体系结构化环境
四个层次:
第二章 数据仓库环境
2.1数据仓库概述
● 数据仓库是体系结构化环境的核心
●
数据仓库是决策支持系统(DSS )处理的基础
● 数据仓库是面向主题的、集成的、非易失的,且随时间变化的数据集合
●
操作型环境是:面向业务应用的、松散的、易失的,反应当前时间点的数据集合。
操作型环
境 数据仓库 原子级 部门级 数据集市
个体
2.1.1面向主题
●传统操作型系统是围绕公司的功能性应用进行组织的;
●面向主题是针对某一类数据主体(如产量、合格量等)。
注:对于一个保险公司来说:应用问题可能是汽车保险、健康保险、人寿保险与意外伤亡保险;
公司的主要主题域可能是顾客、保险单、保险费与索赔。
2.1.2集成性
●在数据仓库的所有特性之中,集成是最重要的。
●数据仓库中的数据从多个不同的数据源传送过来,这些数据进入数据仓库,就进行转换、
重新格式化、重新排列以及汇总等操作。
●集成问题:编码、属性度量单位、多个数据源、冲突关键字
2.1.3非易失性
●数据仓库中的数据载入后,保存时间长、不存在传统意义上的更新操作。
●数据仓库保留了数据的历史状况
2.1.4随时间变化
●数据仓库中的每个数据只是在某一时间是准确的。
●反映历史变化的数据集合
●数据仓库按时间将操作型数据抽取装载(所以表的主键一般都包含时间)。
2.2数据仓库的结构
2.2.1面向主题
数据仓库面向在高层企业数据模型中已定义好的企业主题域;典型的主题域有:
●顾客
●产品
●交易或活动
●政策
●索赔
●账目
数据仓库中,每个主题域都是以一组相关的表来具体实现的。一个主题域可能由10个、100
个或更多的相互关联的物理表构成。每个表设计来实现主要主题域的一部分
2.2.2第1天到第n 天的现象
数据仓库不是一蹴而就的。相反,数据仓库只能一步一步第进行设计并载入数据,它是进化的,而非革命性的。
2.2.3粒度与分割
● 粒度:指的是数据仓库中数据单元的细节程度或综合程度的级别
●
分割是针对当前细节级的数据进行分割,使大块的数据使用分类变成小块数据。
● 有多种数据可以用来分割数据:时间、分类、地理位置、组织单位等。 粒度与分割是在数据仓库中分层次存储数据的方法,针对不同的主题和性能需求进行数据的集成处理和存储。主要的目的是为了使不需要的数据不出现的分析中,也就是使数据量变小。 粒度与细节级有关,如“每月通话详细清单”与“每月通话综合”,前细后粗,则粒度前低后高。 分割与数据分类有关,可将同一主题数据按多维度分割产生子集,使分析性能提高。
数据的细节级与粒度:
2.2.4活样本数据库
● 样本数据库是在数据库中随机抽取1/100或1/1000的数据,拿来做样本分析。 ●
样本数据库也是为了提高分析效率,使数据量变小。
2.2.5数据组织
数据仓库中所建立的数据结构是怎样的:
多维度分割
逻辑分割:程序实现 物理分割:数据库实现
细节粒度设计
● 简单堆积结构
● 轮转综合数据存储:简单堆积结构的变种
● 简单直接文件:数据仅仅是从操作性环境被拖入数据仓库环境中 ● 连续文件:依据两个或更多直接文件能生成一个连续文件
第三章 设计数据仓库
3.1设计的范围和方式
建造数据仓库的两个重要方面:
✓ 与操作型系统接口的设计 ------- 解决获得什么数据,及如何获得
✓ 数据库仓库本身的设计 ------- 解决如何仓储数据,及如何展现
设计过程是“启发式”的:(迭代式)
3.2数据仓库构建步骤
1) 收集和分析业务需求; 2) 建立数据模型和数据仓库的物理设计; 3) 定义数据源;
4) 选择数据仓库技术和平台;
5)
从操作型数据库中提取、转换和净化数据到数据仓库;
6) 选择访问和报表工具;
7) 选择数据库连接软件;
8) 选择数据分析和数据展示软件; 9) 更新数据仓库;
开发人员
DSS 分析员