数据仓库与数据挖掘-数据模型与元数据
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
•
2019/4/8
21/37
元数据的作用
• (1) 元数据是进行数据集成所必需的
• (2) 元数据定义的语义层可以帮助最终用户 理解数据仓库中的数据 • (3) 元数据是保证数据质量的关键
• (4) 元数据可以支持需求变化
2019/4/8
22/37
元数据的分类
• 1.按元数据的类型分类
关于基本数据的元数据:包括数据源、数据仓库、 数据集市和应用程序管理的所有数据。
中间层数据模型亦可称为逻辑模型,它是对高层数据 概念模型的细分,在高层数据模型中所标识的每个主 题域或指标实体都需要与一个逻辑模型相对应。
物理数据模型 • 是依据中间层的逻辑数据模型而创建的,它通过确
定模型的键码属性和模型的物理特性,扩展中间层 数据模型而建立。此时,物理数据模型就由一系列 表所构成,其中最主要的是事实表模型和维表模型。 • 物理模型中的事实表来源于逻辑模型,它依据数据 仓库具体的应用而建立。事实表是星型模型结构的 核心。 2019/4/8 14/37
北京 城市维 长沙 上海 果汁 可乐 牛奶 商品维 奶油 浴巾 香皂
合,商店、时间和产品 都是维。各个商店的集 合是一维,时间的集合 是一维,商品的集合是 一维。每一个商店、每 一段时间、每一种商品 就是某一维的一个成员。 每一个销售事实由一 个特定的商品、一个特 定的时间、一个特定的 商品组成。 两维表,如通常的电 子表格。三维构成立方 体,若再增加一维,则 图形很难想象,也不容 易在屏幕上画出来。
• 维模型
维度表模型也需要根据逻辑模型设计,在设计过程中考 虑维度表模型是用户分析数据的窗口。维度表应该含有 商业项目的文字描述,维度的设计提供了维度属性的定 义。这些属性应具有这样一些特征:
• • • • A.可用文字描述。 B.离散值。 C.有规定的限制。 D.在分析过程中可以提供行标题。
维度表
维度表
事实表
维度表
详细类别表
维度表
2019/4/8
维度表
详细类别表
11/37
雪花模型举例
2019/4/8
12/37
星网模型
• 星网模型是将多个星型模型连接起来形成网状结构。多个 星型模型通过相同的维,如时间维,连接多个事实表。
2019/4/8
13/37
数据仓库的逻辑模型与物理模型 • 数据仓库(中间层)逻辑模型
数据仓库增加了一些综合数据。
• 数据仓库的数据建模是适应决策用户使用的 逻辑数据模型。
2019/4/8 3/37
数据仓库概念模型
• 1.数据仓库模型的概念
数据仓库概念模型的设计需要给出一个数据仓库的粗略蓝本, 以此为工具来确认数据仓库的设计者是否已经正确的了解数据 仓库最终用户的信息需求。
• (1)概念数据模型
作业 4
理解数据仓库的数据组织要求和方法
掌握数据仓库的星型模型、雪化模型的设计方法
理解元数据的类型及其作用
2019/4/8
1/37
数据仓库与数据挖掘
内容提要 数据模型 元数据
数据的粒度
数据模型
• 传统数据库数据模型
• 数据仓库的数据模型不同于数据库的数据模 型在于
数据仓库只为决策分析用,数据仓库的增加了时 间属性数据。
用于数据处理的元数据 关于企业的组织结构的元数据 • 2.按对象级别分类
(1)概念级
(2)逻辑级 (3)物理级
2019/4/8 23/37
3.从用户的角度分类
• (1)业务元数据,具体包括以下内容:
A.企业概念模型
B.多维数据模型 C.业务概念模型和物理数据之间的依赖关系 D.支持面向业务概念的浏览、导航 E.支持动态立即查询 F.数据挖掘
2019/4/8
27/37
元数据管理的现状
• 数据共享领域的某些趋势说明数据仓库中的元数据需求正逐 步增加,这些趋势包括:
A.数据模型处理的对象由传统的字符型和数值型扩展到多种媒体类型。 B.支持一家企业的数据仓库扩展到支持多个组织多个企业共享的数据仓库。 C.信息流控制由过去的从源系统到数据仓库的单向流动扩展到由数据仓库向 源系统的反馈。 D.各个厂家的专用数据格式向公共开放标准元数据交换格式转换,以提高其 信息捕获能力。
2019/4/8
15/37
元数据及其作用
• 1.元数据的定义
元数据在数据仓库的设计、运行中有着重要的作用,它 表述了数据仓库中的各对象,遍及数据仓库的所有方面, 是数据仓库中所有管理、操作、数据的数据,是整个数 据仓库的核心。
元数据是关于数据、操纵数据的进程和应用程序的结构 和意义的描述信息,其主要目标是提供数据资源的全面 指南。其范围可以是某个特别的数据库管理系统中从现 实世界的概念上的一般概括,到详细的物理说明。
• 非规范化程度高,如不同时期的同类数据可能出现 在同一维表中,数据冗余大 • 存取速度快,以增加空间换取较快的访问速度
• 难于适应业务需求的变化
2019/4/8 10/37
雪花数据模型
• 雪花模型是对星型模型的维表进一步层次化,原来的各维 表可能被扩展为小的事实表,形成一些局部的“层次”区 域
在上面星型模型的数据中 ,对“产品表”“日期表”“地区表” 进行扩展形成雪花模型数据见下图。
• 描述: 显示器件: 缩写: WEAPO 名字空间URI: http://purl.org/ndcnc/elements/WEAPO 附属标记: 20030729135519 兵器名称 研制国别 研制机构 研制时间 分类 关键词 简介 图片 视频 音频
相关书目
(1)用于信息的元数据
(2)用于控制的元数据
2019/4/8
26/37
6. 按照产生/使用的时间分类 • 根据获取或生成的时间,可以分为:
A.设计时收集的元数据 B.构建时生成的元数据 C.运行时生成的元数据
• 根据使用的时பைடு நூலகம்,可以分为:
A.设计时使用的元数据
B.构建使使用的元数据 C.运行时使用的元数据
28/37
2019/4/8
元数据管理标准
• 数据仓库领域中两个最主要的元数据标准:MDC 的OIM标准和OMG的CWM标准。
元数据联合会MDC 建于1995年,是一个致力于建立与厂商无关的、 不依赖于具体技术的企业元数据管理标准的非赢利技术联盟,目的 是提供标准化的元数据交互。该联盟有150多个会员,其中包括微软 和IBM等著名软件厂商。 1999年7月MDC接受了微软的建议,将OIM作为元数据标准。MDC 于1996年开发了MDIS(Meta Data Interchange Specification)并完 成了MDC-OIM的技术评审,MDC-OIM基于微软的开放信息模 型OIM,是一个独立于技术的、以厂商为核心的信息模型。OIM是 微软的元数据管理产品Microsoft Repository的一部分。由微软和其 它20多家公司共同开发的,作为微软开放过程的一部分,经过了300 多个公司的评审。
2019/4/8 29/37
元数据管理标准
OMG是一个拥有500多会员的国际标准化组织。在1995年采用了MOF(Meta Object Facility),并不断完善之。1997年采用了UML,2000年,OMG又采用了CWM。 公共仓库元模型(Common Warehouse Metamodel)的主要目的是在异构环境下,帮 助不同的数据仓库工具、平台和元数据知识库进行元数据交换。2001年3月,OMG颁 布了CWM 1.0标准。CWM模型既包括元数据存储,也包括元数据交换,它是基于以 下三个工业标准制定的: (1) UML:它对CWM模型进行建模。 (2) MOF(元对象设施):它是OMG元模型和元数据的存储标准,提供在异构环 境下对元数据知识库的访问接口。 (3) XMI(XML元数据交换):它可以使元数据以XML文件流的方式进行交换。
在构建数据仓库的概念模型时,可以采用在业务数据处理系统
中经常应用的企业数据模型——ER图。这是一种描述组织业务 概况的蓝图,包括整个组织系统中各个部门的业务处理及其业 务处理数据。 数据仓库与操作型数据库一样,也存在高层模型(ERD,实体 关系层)、中层模型(DIS,逻辑层)和低层模型(物理层)3 个层次数据模型。
2019/4/8
16/37
•
在数据库中,元数据是对数据库中各个对象的描 述。关系数据库中,这种描述就是对表、列、数据 库和其他对象的定义。 从广义上讲,元数据代表定义数据仓库的任何对 象,
无论它是一个表、一个列、一个查询、一个业务规则, 或者是数据仓库内部的数据转移等等。
•
2019/4/8
17/37
元数据举例
2019/4/8
18/37
举例:全国文化信息资源共享工程中的元数据
• • 疾病 描述: 显示器件: 缩写: ILLNE 名字空间URI: http://purl.org/ndcnc/element s/ILLNE 附属标记: 20030729135551 疾病名称 疾病分类 疾病简介 预防 预后
2019/4/8 30/37
数据粒度
主题词或关键词
相关药物 相关疾病 相关文献
相关指标
相关书目 相关专家 相关机构 图片 视频 音频
•
症状
病因及发病机制 病理变化 诊断
2019/4/8
治疗
19/37
举例:全国文化信息资源共享工程中的元数据
2019/4/8
20/37
举例:全国文化信息资源共享工程中的元数据
6/37
1 2 3 4 5 6 7 日期维
2019/4/8
星型数据模型
• 大多数的数据仓库都采用“星型模型”。星型模型是由 “事实表”(大表)及多个“维表”(小表)所组成。
“事实表”中存放大量关于企业的事实数据(数量数据)。 例如:多个时期的数据可能会出现在同一个“事实表”中。“维表” 中存放描述性数据,维表是围绕事实表建立的较小的表。
维度表
维度表 事实表 维度表
维度表
2019/4/8
维度表
7/37
星型模型举例
2019/4/8
8/37
星型模型数据存储情况示意图
订货表 产品表
客户表
日期表 事实表
销售员表
地区表
星型模型
• 模型的核心是事实表,维表通过主键与事实表和其 他维表链接 • 事实表中的数据不允许修改,新数据只是简单的增 加
• •
OMG的UML、MOF和CWM形成了OMG建模和元数据管理、交换结构的基础, 推动了元数据标准化的快速发展。 为了推动元数据标准化的发展,MDC和OMG在元数据标准的制定上协同工作。 1999年4月,MDC成为OMG的成员,而OMG也同时成为MDC的成员。MDC中 使用了OMG的UML,而MDC-OIM中的数据仓库部分被用来作为OMG的公共 仓库元数据交互(CWMI:Common Warehouse Metadata Interchange)的设计 参考。在两个组织的技术力量的合作努力下,元数据标准将逐步一致化。
2019/4/8 4/37
企业数据模型(举例)
财务部门 销售收入帐 应收帐 应付帐 成本帐 销售部门 销售计划 销售合同 销售统计 财务
企业数据模型
人事
销售
……..
人事部门
…..
员工业绩记录 员工技能情况 员工薪酬表
…….
2019/4/8
5/37
数据仓库的数据模型
• 数据仓库存储采用多维数据模型。 维就是相同类数据的集
• 元数据管理之所以困难,一个很重要的原因就是缺乏统一的 标准。在这种情况下,各公司的元数据管理解决方案各不相 同。
近几年,随着元数据联盟MDC (Meta Data Coalition)的开放信息 模型OIM(Open Information Model)和OMG组织的公共仓库模型 CWM(Common Warehouse Model)标准的逐渐完善,以及MDC和 OMG组织的合并,为数据仓库厂商提供了统一的标准,从而为元数 据管理铺平了道路。
• (2)技术元数据
2019/4/8 24/37
4. 从来源的角度分类
(1)工具产生的元数据 (2)源提供的元数据 (3)企业模型 (4)系统导入的元数据
(5)特定的用户产生的元数据
2019/4/8
25/37
5. 从元数据的目的角度分类
一般可以通过一种更粗的方法来区分元数据: