数据仓库基本概念

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
面向主题域、管理决策分析应 用
数据特性
数据结构
动态变化、按字段更新
高度结构化、复杂、适 合操作计算
静态、不能直接更新、只定时 添加
简单、适合分析
使用频率
数据访问量 对响应时间的 要求

每个事务只访问少量记 录 以秒为单位计量
中到低
有的事务可能要访问大量记录 以秒、分钟、甚至小时为计量 单位
1.3数据仓库与决策支持系统
源自文库
基于数据仓库的DSS
基于数据仓库的DSS
– 数据仓库为DSS的发展开辟了新途径 – 目前DSS的开发模式(BI解决方案)
• 以数据仓库技术为基础 • 以联机分析、数据挖掘工具为手段
1.4数据仓库体系结构
数据源
接 口
业务数据系统
数据仓库管理环境
数据集市1
应用环境
外部数据
细节级数据
数据集市2 … 数据集市n
主题2
1.4.4单一数据仓库结构
• 将所有的主题都集中到一个大型数据库中的体 系结构。数据源中数据被按照同一标准抽取到 独立的数据仓库中,用户在使用时再根据主题 将数据仓库中的数据发布到数据集市中。
数据 集市 1
数据 集市 2
业务 系统 数据 库
数据 仓库
数据仓库 查询管理 服务器
1.4.5分布式数据仓库结构
数据仓库基础知识
数据仓库基本概念
• • • • • 1.1从传统数据库到数据仓库 1.2数据仓库定义及基本特性 1.3数据仓库与决策支持系统 1.4数据仓库体系结构 1.5数据仓库相关概念
1.1从传统数据库到数据仓库
• 随着市场竞争的加剧,信息系统的用户已经不 满足于仅仅用计算机去处理每天所发生的事务 数据,而是需要信息——能够支持决策的信息, 去帮助管理决策。这就需要一种能够将日常业 务处理中所收集到的各种数据转变为具有商业 价值信息的技术,传统数据库系统无法承担这 一责任。因为传统数据库的处理方式和决策分 析中的数据需求不相称。这些不相称性主要表 现在决策处理中的系统响应问题、决策数据需 求的问题和决策数据操作的问题。
讨论话题一
• 数据仓库产生的源动力是什么?数据仓库 系统是数据驱动还是需求驱动的?
市场需求是技术发展的源动力
“我们花了20多年的时间将数据放入数据 库,如今是该将它们拿出来的时候了。”
----著名的数据仓库专家Ralph Kimball
1.2数据仓库定义及基本特性
• 1.2.1数据仓库定义 • 1.2.2数据仓库基本特性
OLAP
市场调查信息
DataMining
ETL逻辑
专家经验数据
数据仓库组织与管理
数据利用
元数据(MetaData)
数据集市x


Forecasting
主题数据
∑ ∑

主题数据
主题数据
1.4.1数据仓库的概念结构
• 从数据仓库的概念结构看,应该包含:数据源、 数据准备区、数据仓库数据库、数据集市/知 识挖掘库以及各种管理工具和应用工具。
商务智能
• 简单定义 综合企业所有沉淀下来的信息,用科学的分析方法, 为企业领导提供科学决策信息的过程。 • 完整定义 基于数据仓库技术的决策支持系统(DSS)。它 以数据 仓库(DW)技术为基础,通过抽取、转换和清洗 将分散在企业各处的数据整合在一起,转化为信息; 进而以联机分析处理(OLAP)工具、数据挖掘 (DM)工具、报表工具为手段将信息提升为知识; 最后运用可视化技术以快捷直观的方式将探察分析 结果呈现给最终用户,为管理决策层提供量化依据 的过程。
存量数据
T1时点增量数据
……
抽 取 转 换 清 洗 加 载
初始主题数据
T1时点主题数据
数据仓库
……
Tn时点增量数据
Tn时点主题数据
时间戳锁定数据
讨论话题二
• 数据库和数据仓库有什么不同?
数据库与数据仓库的对比
对比内容 数据库 数据仓库
数据内容
数据目标
当前值
面向业务操作程序、重 复处理
历史的、存档的、归纳的、计 算的数据
1.2.1数据仓库定义
数据仓库(Data Warehouse)是一个
• 面向主题的(Subject Oriented)
• 集成的(Integrate) • 相对稳定的(Non-Volatile) • 反映历史变化(Time Variant) 的数据集合,用于支持管理决策。
1.2数据仓库定义
• 数据仓库是在企业管理和决策中面向主题的、 集成的、与时间相关的、不可修改的数据集合。
数据仓库之父--Bill Inmon
1.2数据仓库基本特性
面向主题性 数据集成性 数据的时变性 数据的非易失性
面向主题性
• 面向主题性表示了数据仓库中数据组织的基本 原则,数据仓库中的所有数据都是围绕着某一 主题组织的。 • 确定主题以后,需要确定主题应该包含的数据。 • 不同的主题之间可能会出现相互重叠的信息。
业务系统 数 据 准 备 区
数 据 仓 库 数 据 库
数据 集市/ 知识 挖掘 库
应用工具
外部数 据源
数据 集市/ 知识 挖掘 库
应用工具
管理工具
1.4.2 虚拟数据仓库结构
• 虚拟数据仓库利用描述了业务系统中数据位置和抽取数 据算法的元数据直接从业务系统中抽取查询的数据进行 概括、聚合操作后,将最终结果提供给用户。
• 主题在数据仓库中可以用多维数据库方式进行 存储。 • 主题的划分中,必须保证每一个主题的独立性。
数据集成性
• 根据决策分析的要求,将分散于各处的源数据进行 抽取、筛选、清理、综合等工作,最终集成到数据 仓库中。
业务数据库1
业务数据库2
……
抽 取 转 换 清 洗 加 载
数据仓库
业务数据库n
数据的时变性
业务系统数 据库
用户
数据仓库查 询管理服务 器 图1.2 虚拟数据仓库结构
1.4.3数据集市结构
• 数据集市结构或称为主题结构的数据仓库是按 照主题进行构思所形成的数据仓库,没有一个 独立的数据仓库。系统的数据不存储在同一数 据仓库中,每个主题有自己的物理存储区。
业务系统数 据库
主题1 数据仓库 查询管理 服务器
关于数据仓库的数据,指在数据仓库建设过程中 所产生的有关数据源定义,目标定义,转换规则 等相关的关键数据。同时元数据还包含关于数据 含义的商业信息,所有这些信息都应当妥善保存, 并很好地管理。为数据仓库的发展和使用提供方 便。
数据集市
数据集市(Data mart)
即”小数据仓库”。如果说数据仓库是建立在 企业级的数据模型之上的话。那么数据集市就 是企业级数据仓库的一个子集,他主要面向部 门级业务,并且只是面向某个特定的主题。数 据集市可以在一定程度上缓解访问数据仓库的 瓶颈。
• 数据应该随着时间的推移而发生变化,不断地 生成主题的新快照。
存量数据 初始主题数据
T1时点增量数据
……
抽 取 转 换 清 洗 加 载
T1时点主题数据
数据仓库
……
Tn时点增量数据
Tn时点主题数据
数据的非易失性
• 数据的相对稳定性。 • 数据仓库中的数据只进行刷新,从不进行更新处理。 • 反映历史变化。
ETL
抽取、转换、加载(ETL)
数据抽取(Extract)、转换Transform)、 清洗(Cleansing)、装载(Load)的过程。 是构建数据仓库的重要一环,用户从数据源抽 取出所需的数据,经过数据清洗,最终按照预 先定义好的数据仓库模型,将数据加载到数据 仓库中去。
元数据
元数据(Meta Data)
• 在企业各个分公司具有相当大的独立性时,企业总部设 置一个全局数据仓库,各个分公司设置各自的局部数据 仓库。局部数据仓库主要存储各自的未经转换的细节数 据,全局数据仓库中主要存储经过转换的综合数据。
站点A
局部数 据仓库
站点B
局部数 据仓库
全局数 据仓库
总部
局部数 据仓库 局部数 据仓库
站点C
站点D
1.1从传统数据库到数据仓库(续)
• 传统的事务处理环境不适宜于决策支持应 用
• • • • • 事务处理和分析处理的性能特性不同 数据集成问题 数据动态集成问题 历史数据问题 数据的综合问题
• 操作型环境和分析型环境的分离:数据抽取
现实生活中面临的问题
人们在日常生活中经常会遇到这样的情况: • 超市的经营者希望将经常被同时购买的商 品放在一起,以增加销售; • 保险公司想知道购买保险的客户一般具有 哪些特征; • 医学研究人员希望从已有的成千上万份病 历中找出患某种疾病的病人的共同特征, 从而为治愈这种疾病提供一些帮助; • ……
面临的挑战
• 如何在堆积如山的企业交易数据中发现具 有商业价值的闪光点?
• 如何使您的企业或组织在激烈的市场竞争 中保持对客户的吸引力? • 如何预先发现和避免企业运作过程中不易 察觉的商业风险?
数据仓库应运而生
• 数据仓库的出现和发展是数据库和OLTP技 术发展、数据库应用深化的产物; • 目的是把数据库中的大量数据转化为有用 信息,为企业更好地进行决策服务。
主题
主题(SUBJECT)
是一个在较高层次将数据归类的标准,每一个 主题对应一个宏观的分析领域,针对具体决策 需求可细化为多个主题表,具体来说就是确定 决策涉及的范围和所要解决的问题。
维度
维度(DIMENSION)
是人们观察数据的特定角度,是考虑问题时的 一类属性,属性集合构成一个维(时间维、地理 维等)。
企业面临的问题
• 经过多年的计算机应用和市场积累,许多 企业保存了大量原始数据和各种业务数据, 它是企业生产经营活动的真实记录 • 由于缺乏集中存储和管理,这些数据不能 为本企业加以利用, 不能进行有效的统计、 分析及评估,无法将这些数据转换成企业 有用的信息
数据爆炸问题
– 自动的数据收集工具和成熟的数据库技术导致 巨大的数据存储在文件系统、数据库和其它的 信息库中 。 – 我们会淹死在数据中, 但却为信息、知识所饿!
讨论话题三
• 数据仓库、数据集市、分析主题的关系是 什么? • 在数据集市间如何保证数据的一致性?
1.5数据仓库相关概念
• • • • • • BI(商务智能) ETL(抽取、转换、加载) META DATA(元数据) DATA MART(数据集市) SUBJECT(主题) DIMENSION(维度)
• 决策支持系统的发展阶段
– 初始阶段(DSS阶段) – 与专家系统结合阶段(IDSS阶段) – 基于数据仓库技术阶段(BI阶段)
• 基于数据仓库的决策支持系统
DSS的先天不足
DSS的先天不足
– 决策所需信息不足,难以满足决策支持系统的 需要。 – 模型库提供的分析能力有限 – 人机接口部件占整个DSS开发工作量的一半 , 成为DSS实施中的一个瓶颈。
相关文档
最新文档