数据仓库及数据挖掘-数据模型及元数据.ppt

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

17/37
元数据举例
2019/3/18
18/37
举例:全国文化信息资源共享工程中的元数据
• • 疾病 描述: 显示器件: 缩写: ILLNE 名字空间URI: http://purl.org/ndcnc/element s/ILLNE 附属标记: 20030729135551 疾病名称 疾病分类 疾病简介 预防 预后
维度表
维度表 事实表 维度表
维度表
2019/3/18
维度表
7/37
星型模型举例
2019/3/18
8/37
星型模型数据存储情况示意图
订货表 产品表
客户表
日期表 事实表
销售员表
地区表
星型模型
• 模型的核心是事实表,维表通过主键与事实表和其 他维表链接 • 事实表中的数据不允许修改,新数Leabharlann Baidu只是简单的增 加
• (1)概念数据模型
在构建数据仓库的概念模型时,可以采用在业务数据处理系统
中经常应用的企业数据模型——ER图。这是一种描述组织业务 概况的蓝图,包括整个组织系统中各个部门的业务处理及其业 务处理数据。 数据仓库与操作型数据库一样,也存在高层模型(ERD,实体 关系层)、中层模型(DIS,逻辑层)和低层模型(物理层)3 个层次数据模型。
北京 城市维 长沙 上海 果汁 可乐 牛奶 商品维 奶油 浴巾 香皂
合,商店、时间和产品 都是维。各个商店的集 合是一维,时间的集合 是一维,商品的集合是 一维。每一个商店、每 一段时间、每一种商品 就是某一维的一个成员。 每一个销售事实由一 个特定的商品、一个特 定的时间、一个特定的 商品组成。 两维表,如通常的电 子表格。三维构成立方 体,若再增加一维,则 图形很难想象,也不容 易在屏幕上画出来。
2019/3/18
13/37
数据仓库的逻辑模型与物理模型 • 数据仓库(中间层)逻辑模型
中间层数据模型亦可称为逻辑模型,它是对高层数据 概念模型的细分,在高层数据模型中所标识的每个主 题域或指标实体都需要与一个逻辑模型相对应。
物理数据模型 • 是依据中间层的逻辑数据模型而创建的,它通过确
定模型的键码属性和模型的物理特性,扩展中间层 数据模型而建立。此时,物理数据模型就由一系列 表所构成,其中最主要的是事实表模型和维表模型。 • 物理模型中的事实表来源于逻辑模型,它依据数据 仓库具体的应用而建立。事实表是星型模型结构的 核心。 2019/3/18 14/37
2019/3/18
15/37
元数据及其作用
• 1.元数据的定义
元数据在数据仓库的设计、运行中有着重要的作用,它 表述了数据仓库中的各对象,遍及数据仓库的所有方面, 是数据仓库中所有管理、操作、数据的数据,是整个数 据仓库的核心。
元数据是关于数据、操纵数据的进程和应用程序的结构 和意义的描述信息,其主要目标是提供数据资源的全面 指南。其范围可以是某个特别的数据库管理系统中从现 实世界的概念上的一般概括,到详细的物理说明。
2019/3/18 4/37
企业数据模型(举例)
财务部门 销售收入帐 应收帐 应付帐 成本帐 销售部门 销售计划 销售合同 销售统计 财务
企业数据模型
人事
销售
……..
人事部门
…..
员工业绩记录 员工技能情况 员工薪酬表
…….
2019/3/18
5/37
数据仓库的数据模型
• 数据仓库存储采用多维数据模型。 维就是相同类数据的集
• 非规范化程度高,如不同时期的同类数据可能出现 在同一维表中,数据冗余大 • 存取速度快,以增加空间换取较快的访问速度
• 难于适应业务需求的变化
2019/3/18 10/37
雪花数据模型
• 雪花模型是对星型模型的维表进一步层次化,原来的各维 表可能被扩展为小的事实表,形成一些局部的“层次”区 域
• 维模型
维度表模型也需要根据逻辑模型设计,在设计过程中考 虑维度表模型是用户分析数据的窗口。维度表应该含有 商业项目的文字描述,维度的设计提供了维度属性的定 义。这些属性应具有这样一些特征:
• • • • A.可用文字描述。 B.离散值。 C.有规定的限制。 D.在分析过程中可以提供行标题。
6/37
1 2 3 4 5 6 7 日期维
2019/3/18
星型数据模型
• 大多数的数据仓库都采用“星型模型”。星型模型是由 “事实表”(大表)及多个“维表”(小表)所组成。
“事实表”中存放大量关于企业的事实数据(数量数据)。 例如:多个时期的数据可能会出现在同一个“事实表”中。“维表” 中存放描述性数据,维表是围绕事实表建立的较小的表。
主题词或关键词
相关药物 相关疾病 相关文献
作业 4
理解数据仓库的数据组织要求和方法
掌握数据仓库的星型模型、雪化模型的设计方法
理解元数据的类型及其作用
2019/3/18
1/37
数据仓库与数据挖掘
内容提要 数据模型 元数据
数据的粒度
数据模型
• 传统数据库数据模型
• 数据仓库的数据模型不同于数据库的数据模 型在于
数据仓库只为决策分析用,数据仓库的增加了时 间属性数据。
数据仓库增加了一些综合数据。
• 数据仓库的数据建模是适应决策用户使用的 逻辑数据模型。
2019/3/18 3/37
数据仓库概念模型
• 1.数据仓库模型的概念
数据仓库概念模型的设计需要给出一个数据仓库的粗略蓝本, 以此为工具来确认数据仓库的设计者是否已经正确的了解数据 仓库最终用户的信息需求。
2019/3/18
16/37

在数据库中,元数据是对数据库中各个对象的描 述。关系数据库中,这种描述就是对表、列、数据 库和其他对象的定义。 从广义上讲,元数据代表定义数据仓库的任何对 象,
无论它是一个表、一个列、一个查询、一个业务规则, 或者是数据仓库内部的数据转移等等。

2019/3/18
在上面星型模型的数据中 ,对“产品表”“日期表”“地区表” 进行扩展形成雪花模型数据见下图。
维度表
维度表
事实表
维度表
详细类别表
维度表
2019/3/18
维度表
详细类别表
11/37
雪花模型举例
2019/3/18
12/37
星网模型
• 星网模型是将多个星型模型连接起来形成网状结构。多个 星型模型通过相同的维,如时间维,连接多个事实表。
相关文档
最新文档