《数据仓库》学习笔记

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《数据仓库》

第一章决策支持系统的发展

1.1演化

●管理信息系统(MIS)为信息处理提供强大的数据处理和存储能力。

●早期信息系统主要是为实现业务而建立的,根据业务的需要建立大量独立的系统。

●多个独立的系统间要交互数据很困难,出现了“抽取”的模式。其特点是与信息系

统无关,直接对信息系统的数据源进行“抽取”。

●“抽取”产生的问题是产生的蜘蛛网状“抽取”,即在“抽取”的基础上再“抽取”。

●产生数据仓库技术理论来规范。

(DSS决策支持系统)

1.2自然演化体系结构出现的问题

●数据可信性:如来自不同部门的报表,无法统一

●生产率问题:产生一个分析需要很长时间

●无法将数据转化成信息:达到一个分析结果非常困难

●方法变迁:在体系结构化环境的核心,存在下面2种数据:原始数据和导出数据,

原始数据是:维持企业日常运行所需的细节性数据;

导出数据是:要经过汇总或计算来满足公司管理者需要的数据。

• 面向应用• 面向主题

• 详细的• 综合的,或提炼的

• 在存取瞬间是准确的• 代表过去的数据

• 为日常工作服务 • 为管理者服务 • 可更新 • 不更新

• 重复运行 • 启发式运行

• 处理需求事先可知 • 处理需求事先不知道 • 生命周期符合S D L C • 完全不同的生命周期 • 对性能要求高 • 对性能要求宽松

• 一个时刻存取一个单元 • 一个时刻存取一个集合 • 事务处理驱动 • 分析处理驱动 • 更新控制主要涉及所有权 • 无更新控制问题 • 高可用性 • 松弛的可用性 • 整体管理 • 以子集管理 • 非冗余性 • 时常有冗余 • 静态结构;可变的内容 • 结构灵活

• 一次处理数据量小 • 一次处理数据量大 • 支持日常操作 • 支持管理需求

1.3体系结构化环境

四个层次:

第二章 数据仓库环境

2.1数据仓库概述

● 数据仓库是体系结构化环境的核心

数据仓库是决策支持系统(DSS )处理的基础

● 数据仓库是面向主题的、集成的、非易失的,且随时间变化的数据集合

操作型环境是:面向业务应用的、松散的、易失的,反应当前时间点的数据集合。

操作型环

境 数据仓库 原子级 部门级 数据集市

个体

2.1.1面向主题

●传统操作型系统是围绕公司的功能性应用进行组织的;

●面向主题是针对某一类数据主体(如产量、合格量等)。

注:对于一个保险公司来说:应用问题可能是汽车保险、健康保险、人寿保险与意外伤亡保险;

公司的主要主题域可能是顾客、保险单、保险费与索赔。

2.1.2集成性

●在数据仓库的所有特性之中,集成是最重要的。

●数据仓库中的数据从多个不同的数据源传送过来,这些数据进入数据仓库,就进行转换、

重新格式化、重新排列以及汇总等操作。

●集成问题:编码、属性度量单位、多个数据源、冲突关键字

2.1.3非易失性

●数据仓库中的数据载入后,保存时间长、不存在传统意义上的更新操作。

●数据仓库保留了数据的历史状况

2.1.4随时间变化

●数据仓库中的每个数据只是在某一时间是准确的。

●反映历史变化的数据集合

●数据仓库按时间将操作型数据抽取装载(所以表的主键一般都包含时间)。

2.2数据仓库的结构

2.2.1面向主题

数据仓库面向在高层企业数据模型中已定义好的企业主题域;典型的主题域有:

●顾客

●产品

●交易或活动

●政策

●索赔

●账目

数据仓库中,每个主题域都是以一组相关的表来具体实现的。一个主题域可能由10个、100

个或更多的相互关联的物理表构成。每个表设计来实现主要主题域的一部分

2.2.2第1天到第n 天的现象

数据仓库不是一蹴而就的。相反,数据仓库只能一步一步第进行设计并载入数据,它是进化的,而非革命性的。

2.2.3粒度与分割

● 粒度:指的是数据仓库中数据单元的细节程度或综合程度的级别

分割是针对当前细节级的数据进行分割,使大块的数据使用分类变成小块数据。

● 有多种数据可以用来分割数据:时间、分类、地理位置、组织单位等。 粒度与分割是在数据仓库中分层次存储数据的方法,针对不同的主题和性能需求进行数据的集成处理和存储。主要的目的是为了使不需要的数据不出现的分析中,也就是使数据量变小。 粒度与细节级有关,如“每月通话详细清单”与“每月通话综合”,前细后粗,则粒度前低后高。 分割与数据分类有关,可将同一主题数据按多维度分割产生子集,使分析性能提高。

数据的细节级与粒度:

2.2.4活样本数据库

● 样本数据库是在数据库中随机抽取1/100或1/1000的数据,拿来做样本分析。 ●

样本数据库也是为了提高分析效率,使数据量变小。

2.2.5数据组织

数据仓库中所建立的数据结构是怎样的:

多维度分割

逻辑分割:程序实现 物理分割:数据库实现

细节粒度设计

● 简单堆积结构

● 轮转综合数据存储:简单堆积结构的变种

● 简单直接文件:数据仅仅是从操作性环境被拖入数据仓库环境中 ● 连续文件:依据两个或更多直接文件能生成一个连续文件

第三章 设计数据仓库

3.1设计的范围和方式

建造数据仓库的两个重要方面:

✓ 与操作型系统接口的设计 ------- 解决获得什么数据,及如何获得

✓ 数据库仓库本身的设计 ------- 解决如何仓储数据,及如何展现

设计过程是“启发式”的:(迭代式)

3.2数据仓库构建步骤

1) 收集和分析业务需求; 2) 建立数据模型和数据仓库的物理设计; 3) 定义数据源;

4) 选择数据仓库技术和平台;

5)

从操作型数据库中提取、转换和净化数据到数据仓库;

6) 选择访问和报表工具;

7) 选择数据库连接软件;

8) 选择数据分析和数据展示软件; 9) 更新数据仓库;

开发人员

DSS 分析员

相关文档
最新文档