《数据仓库》学习笔记

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

《数据仓库》

第一章决策支持系统的发展

1.1演化

●管理信息系统（MIS）为信息处理提供强大的数据处理和存储能力。

●早期信息系统主要是为实现业务而建立的，根据业务的需要建立大量独立的系统。

●多个独立的系统间要交互数据很困难，出现了“抽取”的模式。其特点是与信息系

统无关，直接对信息系统的数据源进行“抽取”。

●“抽取”产生的问题是产生的蜘蛛网状“抽取”，即在“抽取”的基础上再“抽取”。

●产生数据仓库技术理论来规范。

（DSS决策支持系统）

1.2自然演化体系结构出现的问题

●数据可信性：如来自不同部门的报表，无法统一

●生产率问题：产生一个分析需要很长时间

●无法将数据转化成信息：达到一个分析结果非常困难

●方法变迁：在体系结构化环境的核心，存在下面2种数据：原始数据和导出数据，

原始数据是：维持企业日常运行所需的细节性数据；

导出数据是：要经过汇总或计算来满足公司管理者需要的数据。

• 面向应用• 面向主题

• 详细的• 综合的,或提炼的

• 在存取瞬间是准确的• 代表过去的数据

• 为日常工作服务 • 为管理者服务 • 可更新 • 不更新

• 重复运行 • 启发式运行

• 处理需求事先可知 • 处理需求事先不知道 • 生命周期符合S D L C • 完全不同的生命周期 • 对性能要求高 • 对性能要求宽松

• 一个时刻存取一个单元 • 一个时刻存取一个集合 • 事务处理驱动 • 分析处理驱动 • 更新控制主要涉及所有权 • 无更新控制问题 • 高可用性 • 松弛的可用性 • 整体管理 • 以子集管理 • 非冗余性 • 时常有冗余 • 静态结构；可变的内容 • 结构灵活

• 一次处理数据量小 • 一次处理数据量大 • 支持日常操作 • 支持管理需求

1.3体系结构化环境

四个层次：

第二章数据仓库环境

2.1数据仓库概述

● 数据仓库是体系结构化环境的核心

●

数据仓库是决策支持系统（DSS ）处理的基础

● 数据仓库是面向主题的、集成的、非易失的，且随时间变化的数据集合

●

操作型环境是：面向业务应用的、松散的、易失的，反应当前时间点的数据集合。

操作型环

境数据仓库原子级部门级数据集市

个体

2.1.1面向主题

●传统操作型系统是围绕公司的功能性应用进行组织的；

●面向主题是针对某一类数据主体（如产量、合格量等）。

注：对于一个保险公司来说：应用问题可能是汽车保险、健康保险、人寿保险与意外伤亡保险；

公司的主要主题域可能是顾客、保险单、保险费与索赔。

2.1.2集成性

●在数据仓库的所有特性之中，集成是最重要的。

●数据仓库中的数据从多个不同的数据源传送过来，这些数据进入数据仓库，就进行转换、

重新格式化、重新排列以及汇总等操作。

●集成问题：编码、属性度量单位、多个数据源、冲突关键字

2.1.3非易失性

●数据仓库中的数据载入后，保存时间长、不存在传统意义上的更新操作。

●数据仓库保留了数据的历史状况

2.1.4随时间变化

●数据仓库中的每个数据只是在某一时间是准确的。

●反映历史变化的数据集合

●数据仓库按时间将操作型数据抽取装载（所以表的主键一般都包含时间）。

2.2数据仓库的结构

2.2.1面向主题

数据仓库面向在高层企业数据模型中已定义好的企业主题域；典型的主题域有：

●顾客

●产品

●交易或活动

●政策

●索赔

●账目

数据仓库中，每个主题域都是以一组相关的表来具体实现的。一个主题域可能由10个、100

个或更多的相互关联的物理表构成。每个表设计来实现主要主题域的一部分

2.2.2第1天到第n 天的现象

数据仓库不是一蹴而就的。相反，数据仓库只能一步一步第进行设计并载入数据，它是进化的，而非革命性的。

2.2.3粒度与分割

● 粒度：指的是数据仓库中数据单元的细节程度或综合程度的级别

●

分割是针对当前细节级的数据进行分割，使大块的数据使用分类变成小块数据。

● 有多种数据可以用来分割数据：时间、分类、地理位置、组织单位等。粒度与分割是在数据仓库中分层次存储数据的方法，针对不同的主题和性能需求进行数据的集成处理和存储。主要的目的是为了使不需要的数据不出现的分析中，也就是使数据量变小。粒度与细节级有关，如“每月通话详细清单”与“每月通话综合”，前细后粗，则粒度前低后高。分割与数据分类有关，可将同一主题数据按多维度分割产生子集，使分析性能提高。

数据的细节级与粒度：

2.2.4活样本数据库

● 样本数据库是在数据库中随机抽取1/100或1/1000的数据，拿来做样本分析。 ●

样本数据库也是为了提高分析效率，使数据量变小。

2.2.5数据组织

数据仓库中所建立的数据结构是怎样的：

多维度分割

逻辑分割:程序实现物理分割:数据库实现

细节粒度设计

● 简单堆积结构

● 轮转综合数据存储：简单堆积结构的变种

● 简单直接文件：数据仅仅是从操作性环境被拖入数据仓库环境中 ● 连续文件：依据两个或更多直接文件能生成一个连续文件

第三章设计数据仓库

3.1设计的范围和方式

建造数据仓库的两个重要方面：

✓ 与操作型系统接口的设计 ------- 解决获得什么数据，及如何获得

✓ 数据库仓库本身的设计 ------- 解决如何仓储数据，及如何展现

设计过程是“启发式”的：（迭代式）

3.2数据仓库构建步骤

1) 收集和分析业务需求； 2) 建立数据模型和数据仓库的物理设计； 3) 定义数据源；

4) 选择数据仓库技术和平台；

5)

从操作型数据库中提取、转换和净化数据到数据仓库；

6) 选择访问和报表工具；

7) 选择数据库连接软件；

8) 选择数据分析和数据展示软件； 9) 更新数据仓库；

开发人员

DSS 分析员