数据仓库模型的设计说明
数据库5章数据库设计
![数据库5章数据库设计](https://img.taocdn.com/s3/m/e3f1246ead02de80d4d840ff.png)
E-R图向关系模型的转换:
码原则:
一个实体型转换为一个关系模式:实体的属性就是关系的 属 性,实体的码就是关系的码。
一个联系转换为一个关系模式:与该联系相连的各实体的码以 及联系的属性转换为该关系的属性。该关系的码有五种情况:
若联系是1:1:则每个实体的码均是该关系的候选码。 若联系是1:n:则关系的码是n端实体的码。 若联系是m:n:则关系的码是参加联系的诸实体的码的集合。 若联系是三个或三个以上的实体的一个多元联系可以转换为一个关系模
① 确定局部E-R图实体之间的函数依赖。 ② 求F的最小依赖集Fm,求其差集,即
D=F-Fm ③ 逐一考察D中每一函数依赖,确定是否为冗余,若是,就把 它去掉。
5.4 逻辑结构设计
任务:将基本E-R模型转换为DBMS所支持的数据模型。 关系型逻辑结构设计的步骤:
1) 将概念结构转换为关系模型 2) 优化模型 3) 设计适合DBMS的子模式
第五章 数据库设计
5.1 数据库设计概述 5.2 需求分析 5.3 概念结构设计 5.4 逻辑结构设计 5.5 数据库物理设计
数据库技术的研究领域
数据库管理系统软件的研制(×)
DBMS的研制包括DBMS本身以及以DBMS为核心的饿一组相互联系的软 件系统。目标是扩大功能、提高性能和用户的生产率。
5.2 需求分析
5.数据库应用系统的数据字典 包括:
数据项 数据结构 数据流 数据存储 处理过程
5.2 需求分析
例:下图给出了某机器制造厂的零配 件采购子系统的数据流图。该子系统 要处理的工作是生产部门提出的生产 计划根据零配件当前价格计算成本送 主管部门审批,对已批准生产计划制 定采购计划,准备好订货单给供应商。
数据仓库主题设计及元数据设计
![数据仓库主题设计及元数据设计](https://img.taocdn.com/s3/m/52cc2aaf284ac850ad02421c.png)
数据仓库主题设计及元数据设计3.4 明确仓库的对象:主题和元数据大多数商务数据都是多维的,所以采集和表示三维以上的数据不能完全借用业务数据库设计中的方法,必须有一种新的方法来表达多维数据。
现阶段流行的有2种方法,一是面向对象方法,即把商务数据抽象为对象,再使用Rational Rose等对象建模工具来表达这些对象;另一种方法就是使用信息包图,这是一种简便且高效的方法,在项目中使用的普及率很高。
信息包图实际上是自上而下数据建模方法的一个很好的工具。
自上而下的建模技术从用户的观点开始设计。
用户的观点是通过与用户交流得到的,可以进一步明确用户的信息需求。
自上而下的方法几乎考虑了所有的信息源,以及这些信息源影响商务活动的方式,它使得设计者可以围绕着一个通常的主题或商务领域进行信息包的开发。
下面就详述如何通过信息打包技术建立信息包图,从而确定数据仓库中的主题和元数据。
3.4.1 信息打包技术1.信息打包技术的基本使用信息打包法是一种自顶向下的设计方法,它从管理者的角度出发把焦点集中在企业的一个或几个主题上,着重分析主题所涉及数据的多维特性。
此法具体分4个阶段:(1)采用自顶向下的方法对商务数据的多维特性进行分析,用信息打包图表示维度和类别之间的传递和映射关系,建立概念模型。
其中类别是按一定的标准对一个维度的分类划分,如产品可按颜色、质地、产地和销地等不同标准分类。
(2)对企业的大量的指标实体数据进行筛选,提取出可利用的中心指标。
其中指标也称为关键性能指标和关键商务测量的值,是在维度空间衡量商务信息的一种方法。
比如产品收入金额、原材料消耗、补充新雇员或设备运行时间等都可以叫做指标。
(3)在信息打包图的基础上构造星形图,对其中的详细类别实体进行分析,进一步扩展为雪花图,建立逻辑模型。
(4)在星形图和雪花图的基础上,根据所定义数据标准,通过对实体、键标、非键标、数据容量、更新频率和实体特征进行定义,完成物理数据模型的设计。
数据仓库概述(概念、应用、体系结构)
![数据仓库概述(概念、应用、体系结构)](https://img.taocdn.com/s3/m/e0614b18c281e53a5802ff33.png)
事务处理 分析处理
DB
从数据 OLTP 数据
DW
从数据 信息(知识) OLAP(DM、OLAM)
18
数据仓库与传统数据库的区别
19
OLTP和OLAP的区别
用户和系统的面向性:
转换描述从操作数据库到数据仓库的映射方法以及转换数据的算法访问权限备份历史存档历史信息传输历史数据获取历史数据访问等等29主题区和信息对象类型包括查询报表图像音频视频等支持数据仓库的其它信息例如信息传输系统包括的预约信息调度信息传送目标的详细描述商业查询对例如数据历史快照版本拥有权数据抽取的审计跟踪数据的使用方法30与数据访问和分析工具的集成31元数据库metadatarepository和工具32主要使用数据来源的物理结构信息企业数据模型和仓库数据模型最终用户最关心两类元数据
4
业务系统不适宜DSS应用
事务处理和分析处理的性能要求和特性不同
事务处理对数据的存取操作频率高而每次操作处理的时 间短; 在分析处理环境中,某个DSS应用程序可能需要连续几 个小时,会消耗大量的系统资源。
数据集成问题 历史数据问题 数据的综合问题(更高粒度)
5
建立数据仓库的投资回报
数据模型:(1)逻辑数据结构,包括为有效进行数据
用的数据集合,是不同于DB的一种新的数据环境, 是DW 扩 展后得到的一个混合形式。四个基本特点:面向主题的、 集成的、可变的、 当前或接近当前的。 库处理由DBMS提供的操作和约束;(2)数据表示系统( 例如,ER图和关系模型)。
25
元数据
数据仓库-系统设计说明书
![数据仓库-系统设计说明书](https://img.taocdn.com/s3/m/09e6bd86970590c69ec3d5bbfd0a79563d1ed457.png)
数据仓库-系统设计说明书数据仓库-系统设计说明书1、引言1.1 目的本文档旨在详细描述数据仓库系统的设计方案,包括系统的架构、数据模型、数据抽取、转换和加载(ETL)流程、安全性、可用性等方面的内容。
1.2 范围本文档适用于数据仓库系统的设计过程,涵盖了系统的各个方面,以确保系统的正常运行和可扩展性。
2、系统架构2.1 总体架构本节描述数据仓库系统的总体架构,包括各个组件之间的关系和数据流。
2.2 数据仓库层次结构本节详细描述数据仓库系统的层次结构,包括数据仓库、数据集市、数据源等各个层次的定义和关系。
3、数据模型3.1 维度模型本节描述数据仓库系统所采用的维度模型,包括事实表和维度表的定义和关系。
3.2 元数据管理本节描述数据仓库系统中元数据的定义、管理和使用方式,包括元数据的存储、检索和更新机制。
4、数据抽取、转换和加载(ETL)流程4.1 数据抽取本节描述数据仓库系统中数据抽取的方式和流程,包括抽取数据的来源、频率和目标。
4.2 数据转换本节描述数据仓库系统中数据转换的方式和流程,包括数据清洗、数据集成、数据转换和数据加载的过程。
4.3 数据加载本节描述数据仓库系统中数据加载的方式和流程,包括数据加载的频率、目标和验证机制。
5、安全性5.1 用户权限管理本节描述数据仓库系统中用户权限的管理方式和机制,包括用户的注册、认证和授权过程。
5.2 数据访问控制本节描述数据仓库系统中数据访问控制的方式和机制,包括数据的保护、加密和审计功能。
6、可用性6.1 高可用性架构本节描述数据仓库系统中实现高可用性的架构设计,包括负载均衡、冗余备份和自动故障恢复机制。
6.2 容灾备份方案本节描述数据仓库系统中实现容灾备份的方案,包括数据的备份、复制和恢复策略。
7、本文档涉及附件本文档涉及的附件包括数据仓库系统的系统架构图、数据模型图、ETL流程图等相关文档。
8、本文所涉及的法律名词及注释本文所涉及的法律名词及注释包括但不限于《数据保护法》、《网络安全法》等相关法律和条款。
数据仓库系统设计文档
![数据仓库系统设计文档](https://img.taocdn.com/s3/m/98782f0d52ea551810a6876c.png)
数据仓库系统总体设计摘要:本文档为XX通信公司网上通信记录查询平台设计说明书,为XX通信公司网上通信记录查询平台详细设计的之要依据。
本文档的主要阅读对象为XX通信公司网上通信记录查询平台的详细设计人员。
经过需求分析调查,确定了数据仓库系统总体定位和系统功能需求。
现根据需求分析规定和局具体情况,确定数据仓库整体方案,以指导数据仓库系统研究、开发、实现。
关键字:指标;主题;数据仓库;联机分析;数据挖掘;决策支持1 概述1.1 背景本软件全称为XX通信公司网上通信记录查询平台。
1.2 术语定义DW:数据仓库DC:数据中心OLTP:在线事务处理OLAP:在线分析处理BI:商业智能DSS:决策支持系统SOA:面向服务的架构EA:企业架构ETL:数据抽取、转换、加载Statistical Parameter:指标Subject:主题DataMart:数据集市MetaData:元数据OLTP(On-LineTransactionProcessing):联机事务处理DSS:决策支持系统AS:应用服务器WebServer :Web服务器1.3参考资料数据仓库课程课件林友芳概要设计说明书模板林友芳《实用软件工程》清华大学出版社2 系统设计从充分发挥系统作为“数据库,信息库,思想库,智囊库”的作用,向用户提供“快、精、准”的通讯记录查询服务的需要出发,采用当今数据库领域成熟稳定的数据仓库、决策分析等技术,在高效的网络平台上建设提供一个“决策数据管理与分析中心”的基本解决方案。
系统采用多层体系结构,建立一个良好开放性的数据仓库系统环境,适应不断增加和变化的业务需求。
多层体系结构通过引入中间层组件,扩大了传统的客户/服务器和两层计算模式。
多层结构可由以下三类分层来定义:前端的客户层,负责提供可移植的表达逻辑;中间的应用层,允许用户通过将其与实际应用隔离而共享和控制业务逻辑;后端的数据管理与服务层,提供对专门服务(例如数据库服务器)的访问。
大数据专员面试题目(3篇)
![大数据专员面试题目(3篇)](https://img.taocdn.com/s3/m/8894873ebf23482fb4daa58da0116c175f0e1ee1.png)
第1篇一、基础知识与概念理解1. 题目:请简述大数据的基本概念及其与普通数据的主要区别。
解析:考察应聘者对大数据基本概念的理解。
应聘者应能够解释大数据的规模(大量、多样、快速)、价值密度低、处理和分析的技术和方法等特点,并说明大数据与普通数据在数据量、处理方式、分析目标等方面的区别。
2. 题目:大数据的五个V指的是什么?解析:考察应聘者对大数据特征的理解。
大数据的五个V分别是Volume(数据量)、Velocity(数据速度)、Variety(数据多样性)、Veracity(数据真实性)和Value(数据价值)。
应聘者应能够解释每个V的具体含义。
3. 题目:请简述Hadoop生态系统中的主要组件及其功能。
解析:考察应聘者对Hadoop生态系统的了解。
应聘者应能够列举Hadoop生态系统中的主要组件,如Hadoop分布式文件系统(HDFS)、Hadoop YARN、Hadoop MapReduce、Hive、Pig、HBase等,并解释每个组件的基本功能和作用。
4. 题目:请简述数据仓库和数据湖的区别。
解析:考察应聘者对数据仓库和数据湖的理解。
应聘者应能够解释数据仓库和数据湖在数据存储、处理、查询等方面的差异,以及它们在数据分析中的应用场景。
二、数据处理与分析5. 题目:请简述ETL(提取、转换、加载)过程在数据处理中的作用。
解析:考察应聘者对ETL过程的了解。
应聘者应能够解释ETL在数据预处理、数据清洗、数据转换等方面的作用,以及ETL工具在数据处理中的应用。
6. 题目:请描述数据切分、增量同步和全量同步的方法。
解析:考察应聘者对数据同步的理解。
应聘者应能够解释数据切分、增量同步和全量同步的概念,并举例说明在实际应用中的具体操作方法。
7. 题目:请简述数据挖掘中的分类、聚类和预测方法。
解析:考察应聘者对数据挖掘方法的了解。
应聘者应能够列举数据挖掘中的分类、聚类和预测方法,如决策树、K-means、支持向量机、神经网络等,并解释每种方法的基本原理和应用场景。
华为云数据仓库服务(DWS) 8.1.3.310 API 参考文档说明书
![华为云数据仓库服务(DWS) 8.1.3.310 API 参考文档说明书](https://img.taocdn.com/s3/m/d98c3fa27d1cfad6195f312b3169a4517723e5e8.png)
数据仓库服务(DWS) 8.1.3.310API参考文档版本01发布日期2023-03-30版权所有 © 华为云计算技术有限公司 2023。
保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
商标声明和其他华为商标均为华为技术有限公司的商标。
本文档提及的其他所有商标或注册商标,由各自的所有人拥有。
注意您购买的产品、服务或特性等应受华为云计算技术有限公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。
除非合同另有约定,华为云计算技术有限公司对本文档内容不做任何明示或暗示的声明或保证。
由于产品版本升级或其他原因,本文档内容会不定期进行更新。
除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。
目录1 使用前必读 (1)1.1 概述 (1)1.2 调用说明 (1)1.3 终端节点 (1)1.4 基本概念 (1)2 API概述 (3)3 如何调用API (5)3.1 构造请求 (5)3.2 认证鉴权 (8)3.3 返回结果 (9)4 快速入门 (11)5 API说明 (17)5.1 集群管理接口 (17)5.1.1 创建集群 (17)5.1.2 查询集群列表 (22)5.1.3 查询集群详情 (29)5.1.4 查询节点类型 (37)5.1.5 删除集群 (39)5.1.6 重启集群 (41)5.1.7 扩容集群 (42)5.1.8 重置密码 (44)5.1.9 集群工作负载管理 (46)5.1.9.1 查询工作负载管理计划列表 (46)5.1.9.2 查询工作负载管理计划 (49)5.1.9.3 切换工作负载计划阶段 (52)5.1.9.4 启动工作负载计划 (53)5.1.9.5 停止工作负载计划 (55)5.2 快照管理接口 (56)5.2.1 创建快照 (56)5.2.2 查询快照列表 (58)5.2.3 查询快照详情 (60)5.2.4 删除手动快照 (63)5.2.5 恢复集群 (64)5.3 数据库监控管理接口 (67)5.3.1 查询DWS集群状态 (67)5.3.2 查询DWS集群中数据库使用情况 (72)5.3.3 查询DWS集群各节点磁盘IO使用情况 (74)5.3.4 查询DWS集群各节点磁盘IO使用情况(聚合类型) (77)5.3.5 查询DWS集群各节点文件系统使用情况 (81)5.3.6 查询DWS集群各节点文件系统使用情况(聚合类型) (83)5.3.7 查询DWS集群节点各网卡流量 (87)5.3.8 查询DWS集群查询执行情况 (90)5.3.9 查询DWS集群会话执行情况 (94)5.3.10 查询DWS硬件资源使用情况 (96)5.3.11 查询DWS集群硬件资源使用情况(聚合类型) (99)6 附录 (103)6.1 状态码 (103)6.2 错误码 (105)6.3 创建VPC (113)6.4 获取资源集ID (113)6.5 获取租户ID (114)6.6 获取集群ID (114)6.7 获取Endpoint (115)1使用前必读1.1 概述欢迎使用数据仓库服务GaussDB(DWS)。
基于Greenplum的金融数据仓库模型设计与实现
![基于Greenplum的金融数据仓库模型设计与实现](https://img.taocdn.com/s3/m/94aee8f15122aaea998fcc22bcd126fff7055d1a.png)
B06. 票据业务 承兑业务 贴现业务
转贴现
再贴现
预算管控 零余额管理 投标保证金
聚合支付
B07. 资金业务 内部拆借 内部清算
信贷资产转让 财务顾问 委托理财
B08. 国际业务 外汇买卖业务 外汇资金管理业务
质押式回购 发行债券 票据回购 票据质押
资金划转
外币存款 外币贷款
债券现券 公募基金
票据池
第 21 期
综合金融服务系统 结算服务 票据服务 ……
客户服务能力层 聚合支付系统
快捷支付 商户管理 ……
员工工作台系统 代办管理 消息管理 ……
渠道整合平台
企业服务总线(ESB)
业务运营能力层
信贷管理系统
资金结算系统
票据系统
投资管理系统
外汇业务系统
贷前管理
一户通总户
票据承兑
同业存款
外汇买卖
合同管理
数据管控
元 数 据 管 理
智能搜索查询 业务应用
一户式分析
自定义查询 自定义分析
工作桌面 大屏展示
经营管理 数据化运营
数据应用服务平台
风险管理 精准画像
关系图谱 ……
调度平台
数
据
数
标
据
实
准
中
时
心
明细层 汇总层
数
校验层
据
质
量
实时抽取
数据缓冲处理
应用集市层
共性加工层
离 线
统 一
基础数据层
调
度
技术缓冲层
平
显得至关重要,数据仓库在面对海量的业务数据时,有着安全化、实时化、规范化、智能分析以及预测等诸多优势。而数据模型
数据仓库系统设计说明书
![数据仓库系统设计说明书](https://img.taocdn.com/s3/m/b3819c7583d049649a665885.png)
归一大数据平台数据库房系统设计说明书件控制受控不受控档编号版本号分册名称第册/共册总页数正文附录编制审批奏效日期改正改正记录:改正条款及内容改正人审批人更他日期创立文档阎飞谢益武2015-11-5目录1前言 . .....................................................错误 ! 不决义书签。
文档编制目的 . .....................................错误 ! 不决义书签。
背景 . .............................................错误 ! 不决义书签。
词汇表 . ...........................................错误 ! 不决义书签。
参照资料 . .........................................错误 ! 不决义书签。
2整体设计 . .................................................错误 ! 不决义书签。
软件系统构造 . .....................................错误 ! 不决义书签。
系统运转系统 . .....................................错误 ! 不决义书签。
运转系统图 . ...................................错误 ! 不决义书签。
程序 / 模块对应表 . ..............................错误 ! 不决义书签。
系统物理构造 . .....................................错误 ! 不决义书签。
技术路线 . .........................................错误 ! 不决义书签。
数据中心设计方案
![数据中心设计方案](https://img.taocdn.com/s3/m/a421a253f02d2af90242a8956bec0975f565a46c.png)
数据中心设计方案XXX科技有限公司20XX年XX月XX日目录一数据中心建设 (3)1.1 建库原则 (3)1.2 逻辑结构 (3)1.3 数据中心模型设计 (3)1.4 数据编码标准规范设计 (5)1.4.1 数据编码体系总表与明细表 (6)1.4.2 编码规则编写格式说明 (6)1.4.3 信息分类的基本原则与方法 (7)1.4.4 信息编码的基本原则 (8)1.5 数据资源整合 (9)1.6 数据处理流程 (11)二数据存储及管理 (11)2.1 数据存储 (11)2.2 数据库性能调整优化策略 (12)2.3 数据库管理 (13)三数据管控 (14)3.1 元数据管理 (14)3.2 数据交换 (14)3.3 数据整合 (14)3.4 数据质量控制 (14)3.5 数据资源管理 (15)四数据应用 (15)4.1 数据应用架构 (15)4.2 服务和应用架构规划 (16)4.3 应用技术架构规划 (17)4.4 数据服务应用系统建设实施 (17)4.5 管理机制与体制建设 (18)五数据共享与服务 (18)5.1 资源目录管理 (18)5.2 数据检索服务 (18)5.3 分布式请求服务引擎 (19)5.4 数据权限管理 (19)5.5 数据服务管理 (19)一数据中心建设1.1建库原则信息资源库用于梳理系统内部、外部各种数据资源,对各业务部门提供基础数据服务,并进而为各职能部门提供数据服务。
信息资源库设计是否合理,对系统信息资源共享、业务开展起极其重要作用,信息资源库的建设不是一朝一夕可以完成,是循序渐进的过程,涉及的数据不可能一次性获得,是分批分次的进行,本次建设信息库过程中我们将遵循“统筹规则、分期实施”的原则展开。
1.2逻辑结构资源库逻辑结构资源库包括ODS层、缓冲层、基础层、应用层四个层次,具体如下:(一)ODS层:资源层是数据的源头,根据系统的资源特点,主要包括部门提供的内部资源,以及其它部门提供的共享资源。
数据建模方法及步骤
![数据建模方法及步骤](https://img.taocdn.com/s3/m/7ca56a8a804d2b160a4ec066.png)
业务过程是组织完成的操作型活动。业务过程时间建立或获取性能度量,并转 换为事实表中的事实。多数事实表关注某一业务过程的结果。过程的选择非常重要 的,因为过程定义了特定的设计目标以及对粒度、维度、事实的定义。
声明粒度
声明粒度是维度设计的重要步骤。粒度用于确定某一事实表中的行表示什么。 在选择维度或事实前必须声明粒度,因为每个候选维度或事实必须与定义的粒度保 持一致。在从给定的业务过程获取数据时,原子粒度是最低级别的粒度。强烈建议 从关注原子级别粒度数据开始设计,因为原子粒度数据能够承受无法预期的用户查 询。确认维度(描述环境)
维度提供围绕某一业务过程事件所涉及的"谁、什么、何处、何时、为什么、如 何"等背景。维度表包含分析应用所需要的用于过滤及分类事实的描述性属性。 牢牢 掌握事实表的粒度,就能够将所有可能存在的维度区分开来。
确认事实(用于度量)
事实,涉及来自业务过程事件的度量,基本上都是以数据值表示。一个事实表 行与按照事实表粒度描述的度量事件之间存在一对一关系,因此事实表对应一个物 理可观察的事件。在事实表内,所有事实只允许与声明的粒度保持一致。
业务过程
指企业的业务活动事件,如下单、支付、退款都是业务过程。请注意,业务过
程是一个不可拆分的行为事件,通俗地讲,业务过程就是企业活动中的事件。
时间周期
用来明确数据统计的时间范围或者时间点, 如最近30天、自然周、截至当日等。 修饰类型
是对修饰词的一种抽象划分,是从属于某个业务域的。
修饰词
指除了统计维度以外指标的业务场景限定抽象。修饰词隶属于一种修饰类型
部署方式-星型模型或多维模型
选择一种维度模型的落地方式。既可以选择星型模型,部署在关系数据库上,通 过事实表及通过主外键关联的维度表; 也可以选择多维模型, 落地于多维数据库中。
数据库表设计原则技巧
![数据库表设计原则技巧](https://img.taocdn.com/s3/m/a3762fda50e2524de5187e6c.png)
1. 原始单据与实体之间的关系可以是一对一、一对多、多对多的关系。
在一般情况下,它们是一对一的关系:即一张原始单据对应且只对应一个实体。
在特殊情况下,它们可能是一对多或多对一的关系,即一张原始单据对应多个实体,或多张原始单据对应一个实体。
这里的实体可以理解为基本表。
明确这种对应关系后,对我们设计录入界面大有好处。
〖例1〗:一份员工履历资料,在人力资源信息系统中,就对应三个基本表:员工基本情况表、社会关系表、工作简历表。
这就是“一张原始单据对应多个实体”的典型例子。
2. 主键与外键一般而言,一个实体不能既无主键又无外键。
在E-R 图中, 处于叶子部位的实体, 可以定义主键,也可以不定义主键(因为它无子孙), 但必须要有外键(因为它有父亲)。
主键与外键的设计,在全局数据库的设计中,占有重要地位。
当全局数据库的设计完成以后,有个美国数据库设计专家说:“键,到处都是键,除了键之外,什么也没有”,这就是他的数据库设计经验之谈,也反映了他对信息系统核心(数据模型)的高度抽象思想。
因为:主键是实体的高度抽象,主键与外键的配对,表示实体之间的连接。
3. 基本表的性质基本表与中间表、临时表不同,因为它具有如下四个特性:(1) 原子性。
基本表中的字段是不可再分解的。
(2) 原始性。
基本表中的记录是原始数据(基础数据)的记录。
(3) 演绎性。
由基本表与代码表中的数据,可以派生出所有的输出数据。
(4) 稳定性。
基本表的结构是相对稳定的,表中的记录是要长期保存的。
理解基本表的性质后,在设计数据库时,就能将基本表与中间表、临时表区分开来。
4. 范式标准基本表及其字段之间的关系, 应尽量满足第三范式。
但是,满足第三范式的数据库设计,往往不是最好的设计。
为了提高数据库的运行效率,常常需要降低范式标准:适当增加冗余,达到以空间换时间的目的。
〖例2〗:有一张存放商品的基本表,如表1所示。
“金额”这个字段的存在,表明该表的设计不满足第三范式,因为“金额”可以由“单价”乘以“数量”得到,说明“金额”是冗余字段。
维度建模 宽表拆分-概述说明以及解释
![维度建模 宽表拆分-概述说明以及解释](https://img.taocdn.com/s3/m/31da7ff968dc5022aaea998fcc22bcd126ff4238.png)
维度建模宽表拆分-概述说明以及解释1.引言1.1 概述概述部分的内容可以参考以下模板:在数据分析和数据仓库领域中,维度建模和宽表拆分是两个非常重要的主题。
维度建模是一种用于设计数据仓库的方法论,它提供了一种简单而灵活的方式来组织和表示业务数据。
而宽表拆分则是一种将宽表按照一定的规则分拆为多个窄表的技术,通过这种方式可以提高数据的查询性能和传输效率。
在本文中,我们将重点介绍维度建模和宽表拆分这两个主题,并探讨它们之间的关系及应用前景。
首先,我们将详细阐述维度建模的定义以及其所具备的优势。
维度建模能够以直观和易懂的方式表达业务数据,并利用维度和事实表之间的关联关系进行高效的查询。
其次,我们将介绍宽表拆分的概念和目的。
宽表拆分是一种将宽表按照特定的维度拆分为多个窄表的技术,通过这种方式可以提高查询性能和数据传输效率。
我们将探讨宽表拆分的定义,并说明其对提高数据处理效率的重要性。
最后,我们将对维度建模和宽表拆分这两个主题进行总结和分析。
我们将讨论它们之间的关系,并展望其在数据分析和数据仓库领域中的应用前景。
维度建模和宽表拆分将为企业提供更高效和灵活的数据分析和决策支持。
通过本文的阅读,读者将可以深入了解维度建模和宽表拆分这两个主题的定义、优势和应用前景,为企业的数据分析和决策提供有力的支持。
希望本文能够为读者在数据领域的学习和实践中提供一定的指导和帮助。
1.2文章结构文章结构:本文分为引言、正文和结论三个部分。
引言部分首先对维度建模和宽表拆分的概述进行了介绍,同时明确了本文的目的。
其次,引入了文章的结构,给读者一个整体的把握。
正文部分包括了维度建模和宽表拆分两个主要内容。
在维度建模部分,我们首先对维度建模进行了定义,解释了它在数据分析领域中的重要性。
其次,我们探讨了维度建模的优势,包括其能够简化数据模型、提高查询性能等方面的优势。
在宽表拆分部分,我们明确了宽表拆分的定义,即将一个宽表拆分为多个较窄的表。
数仓建表规范
![数仓建表规范](https://img.taocdn.com/s3/m/448a6e380a4c2e3f5727a5e9856a561252d321f5.png)
数仓建表规范数仓建表规范基本设计思路ODS 数据原始层概念: ODS层是从业务系统过渡到数据仓库核⼼层的操作数据的存储层,ODS层的数据结构与业务系统基本保持⼀致,同时不做长时间的数据存储。
说明:最原始的数据,存储格式txt。
DWD 数据明细层概念: DWD层是维度和事实属性、度量信息融合所⽣成的明细宽表层,其设计⽬的是为后续的DWS层提供基础,也可以在DWS层⽆法⽀撑需求时直接为ADS层提供数据。
DWD层作为数据模型架构的核⼼明细层,⼀般要考虑扩展性和兼容性,其核⼼逻辑的变动要对下游保持尽可能的透明说明: 存储经过标准规范化处理(即数据清洗)后的运营数据DWS 数据汇总层概念:DWS层⾯向分析主题建模。
DWS层的设计⽬的是为ADS层提供⾜够的灵活性和扩展性的基础。
说明:数据服务主题层或者宽表层,按数据、业务专题进⾏划分,⽀持OLAP分析、数据分发等,其信息主要来源于DWD 或TMP层汇总数据。
实例:新激活⽤户表、⽇活表、历史激活⽤户表ADS 数据服务层概念:ADS层主要包括对数据结果的加⼯整合,以满⾜数据应⽤的最终使⽤需要说明:应⽤数据层, ⾯向具体应⽤的表,要创建在这层,可导⼊hbase或mysql等使⽤。
实例:按季、⽉、周、天、⼩时等粒度计算汇总的结果存⼊mysql、hbase的报表DIM 维表概念:维度数据层,主要包含⼀些业务维度数据。
实例:地区表,渠道表,⾏为表。
说明:命名:TEST 测试表说明: 测试⽤的表。
数据模型开发规范1.数据要⼲净、有效要保证进⼊数据模型的数据是经过清洗和规范的。
2.模型可扩展核⼼模型要尽可能保持稳定,经常变化的业务可以通过扩展模型进⾏分离。
3.禁⽌逆向调⽤禁⽌逆向调⽤,例如不能出现ODS层调⽤CDM层和ADS层的数据。
4.数据可回滚数据模型多次重跑的结果数据必须保持⼀致。
5.成本控制在构建数据模型时,要充分考虑计算和存储资源间的平衡。
模型数据流向即ODS->DWD->DW->DWS->ADS。
数据仓库建设规范(文档版)
![数据仓库建设规范(文档版)](https://img.taocdn.com/s3/m/210616dc185f312b3169a45177232f60ddcce774.png)
数据仓库建设规范(⽂档版)1 概述本⽂档制定了XX数据仓库中数据库对象的命名规范(⽤户、表、视图、存储过程、函数、表分区、主键、索引、序列等)、数据库编程规范,JAVA编程规范为系统设计和开发⼯作提供统⼀的命名标准,提⾼系统的规整性和代码的可读性,减轻维护⼯作量,提⾼⼯作效率。
2 数据库对象命名规范2.1 层次划分序号模型层次⽤途1ODS存放来⾃各个系统的原始数据;2DW根据业务分析需求,对主题域内的数据进⾏轻度汇总;3DM建⽴跨域的业务主题模型;4DIM统⼀服务于数据中⼼的参数表;5APP应⽤层,⽤于⽣成报表6XX XX数据层级按照⾃⼰数据仓库规划的命名即可~2.2 表、视图、存储过程、函数命名规范<对象类型><_模型层次><_主题><_对象描述>[_汇总类型][_存储类型]说明:<> 尖括号中的内容为必须项,适⽤于所有⽤户层对象,[] ⽅括号中的内容为可选项,会因⽤户层及对象的不同⽽不同命名约束:数据库对象命名可能受最⼤长度限制,因此在实际命名中如果按照规范约定的命名⽅式存在超长的现象,需要开发⼈员灵活控制。
2.2.1 对象类型<对象类型><_模型层次><_主题域><_对象描述>[_汇总类型][_存储类型]。
适⽤范围:所有⽤户层对象。
对象类型对象说明TB TABLE表VW VIEW视图………………2.2.2 模型层次<对象类型><_模型层次><_主题域><_对象描述>[_汇总类型][_存储类型]说明:对象属性⼀般为对象归属⽤户的简写。
适⽤范围:所有⽤户层对象。
可以参照⾃⼰的对象属性命名规范,对此不要求统⼀。
模型层次说明ODS获取层,存放从各个源系统接收的原始数据;DW 根据业务分析需求,对数据进⾏汇总,应⽤分析原则优先访问DW层,其次DWD层,不允许访问ODS层;DM建⽴跨域的业务主题模型;DIM维表APP报表层,根据DM模型数据⽣成报表。
数据库表结构设计
![数据库表结构设计](https://img.taocdn.com/s3/m/cce2a194b0717fd5360cdc57.png)
数据库表结构设计1. 原始单据与实体之间的关系可以是一对一、一对多、多对多的关系。
在一般情况下,它们是一对一的关系:即一张原始单据对应且只对应一个实体。
在特殊情况下,它们可能是一对多或多对一的关系,即一张原始单证对应多个实体,或多张原始单证对应一个实体。
这里的实体可以理解为基本表。
明确这种对应关系后,对我们设计录入界面大有好处。
〖例1〗:一份员工履历资料,在人力资源信息系统中,就对应三个基本表:员工基本情况表、社会关系表、工作简历表。
这就是“一张原始单证对应多个实体”的典型例子。
2. 主键与外键一般而言,一个实体不能既无主键又无外键。
在E—R 图中, 处于叶子部位的实体, 可以定义主键,也可以不定义主键(因为它无子孙), 但必须要有外键(因为它有父亲)。
主键与外键的设计,在全局数据库的设计中,占有重要地位。
当全局数据库的设计完成以后,有个美国数据库设计专家说:“键,到处都是键,除了键之外,什么也没有”,这就是他的数据库设计经验之谈,也反映了他对信息系统核心(数据模型)的高度抽象思想。
因为:主键是实体的高度抽象,主键与外键的配对,表示实体之间的连接。
3. 基本表的性质基本表与中间表、临时表不同,因为它具有如下四个特性:(1) 原子性。
基本表中的字段是不可再分解的。
(2) 原始性。
基本表中的记录是原始数据(基础数据)的记录。
(3) 演绎性。
由基本表与代码表中的数据,可以派生出所有的输出数据。
(4) 稳定性。
基本表的结构是相对稳定的,表中的记录是要长期保存的。
理解基本表的性质后,在设计数据库时,就能将基本表与中间表、临时表区分开来。
4. 范式标准基本表及其字段之间的关系, 应尽量满足第三范式。
但是,满足第三范式的数据库设计,往往不是最好的设计。
为了提高数据库的运行效率,常常需要降低范式标准:适当增加冗余,达到以空间换时间的目的。
〖例2〗:有一张存放商品的基本表,如表1所示。
“金额”这个字段的存在,表明该表的设计不满足第三范式,因为“金额”可以由“单价”乘以“数量”得到,说明“金额”是冗余字段。
数仓模型层说明书
![数仓模型层说明书](https://img.taocdn.com/s3/m/9c3a187a3868011ca300a6c30c2259010202f302.png)
数仓模型层说明书一、简介数据仓库模型层,也称为数仓模型层,是数据仓库架构中的核心组成部分。
它负责将原始数据转化为有组织、有意义的信息,以便进行数据分析和业务决策。
本说明书将详细描述数仓模型层的构成、功能和设计原则。
二、数仓模型层构成数仓模型层通常由以下三个层次构成:1. 物理层:这一层主要负责存储和管理原始数据。
它包括各种数据源(如数据库、数据文件等)和数据存储介质(如硬盘、SSD等)。
2. 逻辑层:这一层是数仓模型的核心,负责将物理层的数据转化为逻辑视图。
它包括数据模型(如星型模型、雪花模型等)和元数据(描述数据的数据)。
3. 应用层:这一层提供数据服务,支持各种数据分析和业务应用。
它包括报表、仪表盘、数据挖掘工具等。
三、数仓模型层功能数仓模型层的主要功能包括:1. 数据整合:将来自不同数据源的数据整合到一个统一的数据仓库中,消除数据冗余和冲突。
2. 数据清洗:对数据进行清洗和转换,确保数据的准确性和一致性。
3. 数据建模:通过建立逻辑模型,将数据组织成有意义的结构,便于分析和查询。
4. 数据安全:提供数据访问控制和安全保障,确保数据的机密性和完整性。
5. 数据服务:提供各种数据服务和应用,支持业务分析和决策。
四、数仓模型层设计原则在进行数仓模型层设计时,应遵循以下原则:1. 面向主题:设计时应以业务需求为导向,将数据按照主题进行组织,如销售、库存等。
2. 层次分明:物理层、逻辑层和应用层应层次分明,避免数据的冗余和冲突。
3. 灵活性:设计时应考虑未来的业务变化和扩展,保持模型的灵活性和可扩展性。
4. 性能优化:通过对数据的合理组织和索引,优化查询性能,提高数据处理效率。
5. 安全性:确保数据的安全性和隐私保护,控制对数据的访问和操作。
6. 标准化:遵循统一的数据标准和规范,保证数据的准确性和一致性。
7. 可维护性:设计时应考虑维护的便利性,降低维护成本。
8. 最佳实践:参考业界最佳实践,不断优化和完善数仓模型层的设计。
初级数据开发面试题目(3篇)
![初级数据开发面试题目(3篇)](https://img.taocdn.com/s3/m/c84c191a5bcfa1c7aa00b52acfc789eb172d9e39.png)
第1篇第一部分:基础知识1. SQL基础- 题目:请描述SQL中的SELECT、INSERT、UPDATE、DELETE语句的基本用法。
- 解析:此题考察对SQL基本命令的理解。
应聘者应能够清晰地解释每个命令的作用和语法结构。
2. 数据库类型- 题目:简述关系型数据库和非关系型数据库的主要区别。
- 解析:考察应聘者对不同数据库类型的了解。
应聘者应能够区分关系型(如MySQL、Oracle)和非关系型(如MongoDB、Cassandra)数据库的特点。
3. 数据库设计- 题目:请解释什么是范式,以及如何识别并解决范式冲突。
- 解析:此题考察应聘者对数据库设计的理解。
应聘者应能够解释第一范式到第三范式,并说明如何在实际设计中应用。
4. 数据类型- 题目:列出几种常见的数据类型,并说明它们在数据库中的作用。
- 解析:考察应聘者对数据类型的认识。
应聘者应能列举出如INT、VARCHAR、DATE等常见数据类型,并解释其用途。
第二部分:编程技能5. Python基础- 题目:编写一个Python函数,实现将字符串中的空格替换为下划线。
- 解析:此题考察应聘者的编程能力。
应聘者应能够编写一个简单的函数来完成字符串替换操作。
6. 数据处理- 题目:使用Python处理一个包含学生信息的CSV文件,提取所有成绩超过90分的学生的名字和成绩。
- 解析:此题考察应聘者对Python数据处理库(如pandas)的了解。
应聘者应能够读取CSV文件,筛选数据,并提取所需信息。
7. 脚本编写- 题目:编写一个shell脚本,实现自动备份当前目录下的所有图片文件。
- 解析:此题考察应聘者的脚本编写能力。
应聘者应能够编写一个shell脚本来完成备份任务。
第三部分:数据仓库与ETL8. ETL概念- 题目:解释ETL的概念及其在数据仓库中的作用。
- 解析:此题考察应聘者对数据仓库和ETL(Extract, Transform, Load)流程的理解。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.5数据仓库模型的设计数据仓库模型的设计大体上可以分为以下三个层面的设计151:.概念模型设计;.逻辑模型设计;.物理模型设计;下面就从这三个层面分别介绍数据仓库模型的设计。
2.5.1概念模型设计进行概念模型设计所要完成的工作是:<1>界定系统边界<2>确定主要的主题域及其容概念模型设计的成果是,在原有的数据库的基础上建立了一个较为稳固的概念模型。
因为数据仓库是对原有数据库系统中的数据进行集成和重组而形成的数据集合,所以数据仓库的概念模型设计,首先要对原有数据库系统加以分析理解,看在原有的数据库系统中“有什么”、“怎样组织的”和“如何分布的”等,然后再来考虑应当如何建立数据仓库系统的概念模型。
一方面,通过原有的数据库的设计文档以及在数据字典中的数据库关系模式,可以对企业现有的数据库中的容有一个完整而清晰的认识;另一方面,数据仓库的概念模型是面向企业全局建立的,它为集成来自各个面向应用的数据库的数据提供了统一的概念视图。
概念模型的设计是在较高的抽象层次上的设计,因此建立概念模型时不用考虑具体技术条件的限制。
1.界定系统的边界数据仓库是面向决策分析的数据库,我们无法在数据仓库设计的最初就得到详细而明确的需求,但是一些基本的方向性的需求还是摆在了设计人员的面前:. 要做的决策类型有哪些?. 决策者感兴趣的是什么问题?. 这些问题需要什么样的信息?. 要得到这些信息需要包含原有数据库系统的哪些部分的数据?这样,我们可以划定一个当前的大致的系统边界,集中精力进行最需要的部分的开发。
因而,从某种意义上讲,界定系统边界的工作也可以看作是数据仓库系统设计的需求分析,因为它将决策者的数据分析的需求用系统边界的定义形式反映出来。
2,确定主要的主题域在这一步中,要确定系统所包含的主题域,然后对每个主题域的容进行较明确数据仓库建模技术在电信行业中的应用的描述,描述的容包括:. 主题域的公共码键;. 主题域之间的联系:. 充分代表主题的属性组。
2.5.2逻辑模型设计逻辑建模是数据仓库实施中的重要一环,因为它能直接反映出业务部门的需求,同时对系统的物理实施有着重要的指导作用。
在这一步里进行的工作主要有:. 分析主题域,确定当前要装载的主题;. 确定粒度层次划分;. 确定数据分割策略;. 关系模式定义;. 记录系统定义逻辑模型设计的成果是,对每个当前要装载的主题的逻辑实现进行定义,并将相关容记录在数据仓库的元数据中,包括:. 适当的粒度划分;. 合理的数据分割策略;. 适当的表划分;. 定义合适的数据来源等。
I.分析主题域在概念模型设计中,我们确定了几个基本的主题域,但是,数据仓库的设计方法是一个逐步求精的过程,在进行设计时,一般是一次一个主题或一次若干个主题地逐步完成的。
所以,我们必须对概念模型设计步骤中确定的几个基本主题域进行分析,一并选择首先要实施的主题域。
选择第一个主题域所要考虑的是它要足够大,以便使得该主题域能建设成为一个可应用的系统;它还要足够小,以便于开发和较快地实施。
如果所选择的主题域很大并且很复杂,我们甚至可以针对它的一个有意义的子集来进行开发。
在每一次的反馈过程中,都要进行主题域的分析。
z.粒度层次划分数据仓库逻辑设计中要解决的一个重要问题是决定数据仓库的粒度划分层次,粒度层次划分适当与否直接影响到数据仓库中的数据量和所适合的查询类型。
确定数据仓库的粒度划分,可以使用在粒度划分一节中介绍的方法,通过估算数据行数和所需的DASD数,来确定是采用单一粒度还是多重粒度,以及粒度划分的层次。
3.确定数据分割策略在这一步里,要选择适当的数据分割的标准,一般要考虑以下几方面因素:数据量〔而非记录行数)、数据分析处理的实际情况、简单易行以及粒度划分策略等。
数据量的大小是决定是否进行数据分割和如何分割的主要因素;数据分析处理的要选择数据分割标准的一个主要依据,因为数据分割是跟数据分析处理的对象紧密联系的;我们还要考虑到所选择的数据分割标准应是自然的、易于实施的:同时也要考虑数据分割的标准与粒度划分层次是适应的。
4.关系模式定义数据仓库的每个主题都是由多个表来实现的,这些表之间依靠主题的公共码键联系在一起,形成一个完整的主题。
在概念模型设计时,我们就确定了数据仓库的基本主题,并对每个主题的公共码键、基本容等做了描述在这一步里,我们将要对选定_的当前实施的主题进行模式划分,形成多个表,并确定各个表的关系模式。
用关系型数据库来实现数据仓库信息模型时,目前较常用的两种建模方法是所谓的第三式(3NF,即Third Normal Form)和星型模式Star-Schem司,我们将重点讨论两种方法的特点和它们在数据仓库系统中的适用场合。
4.1什么是第三式式是数据库逻辑模型设计的基本理论,一个关系模型可以从第一式到第五式进行无损分解,这个过程也称为规化(Normalize)。
在数据仓库的模型设计中目前一般采用第三式,它有非常严格的数学定义。
如果从其表达的含义来看,一个符合第三式的关系必须具有以下三个条件:1.每个属性的值唯一,不具有多义性;2.每个非主属性必须完全依赖于整个主键,而非主键的一部分;3.每个非主属性不能依赖于其他关系中的属性,团为这样的话,这种属性应该归到其他关系中去。
我们可以看到,第三式的定义基本上是围绕主键与非主属性之间的关系而作出的。
如果只满足第一个条件,则称为第一式;如果满足前面两个条件,则称为第二式,依此类推。
因此,各级式是向下兼容的。
4.2什么是星型模式星型模式是一种多维的数据关系,它由一个事实表(Fact Table)和一组维表(Dimension Table)组成。
每个维表都有一个维作为主键,所有这些维则组合成事实表的主键,换言之,事实表主键的每个元素都是维表的外键。
事实表的非主属性称为事实(Fact),它们一般都是数值或其他可以进行计算的数据;而维大都是文字、时间等类型的数据。
与星型模式类似还有一种业界提的比较多的设计方式是雪花模式,它也是一种在关系数据库中实现多维数据关系的方式,与星型模式相区别的是它的维表结构与星型模式不同。
星型模式中同一维度的不同层次位于一维表中,维表由唯一主键和事实表关连;雪花模式中同一维度中的不同层次位于不同的层次表中,最低层次表与事实表关连,各个层次再分别和比自己高一级的层次表关连。
因为星型模式查询效率要比雪花模式高的多,所以比较多的是采用星型模式设计多维数据关系。
4. 3第三式和星型模式在数据仓库中的应用大多数人在设计中央数据仓库的逻辑模型时,都按照第三式来设计;而在进行物理实施时,则由于数据库引擎的限制,不得不对逻辑模型进行不规处理(De-Normalize),以提高系统的响应速度,这当然是以增加系统的复杂度、维护工作量、磁盘使用比率(指原始数据与磁盘大小的比率)并降低系统执行动态查询能力为代价的。
根据数据仓库的测试标准TPC-D规,在数据仓库系统中,对数据库引擎最大的挑战主要是这样几种操作:多表连接、表的累计、数据排序、大量数据的扫描。
下面列出了一些DBMS在实际系统中针对这些困难所采用的折衷处理办法:1、如何避免多表连接:在设计模型时对表进行合并,即所谓的预连接(Pre-Join)。
当数据规模小时,也可以采用星型模式,这样能提高系统速度,但增加了数据冗余量。
2、如何避免表的累计:在模型中增加有关小计数据(Summarized Data)的项。
这样也增加了数据冗余,而且如果某项问题不在预建的累计项,需临时调整。
3、如何避免数据排序:对数据事先排序。
但随着数据仓库系统的运行,不断有新的数据加入,数据库管理员的工作将大大增加。
大量的时间将用于对系统的整理,系统的可用性随之降低。
4、如何避免大表扫描:通过使用大量的索引,可以避免对大量数据进行扫描。
但这也将增加系统的复杂程度,降低系统进行动态查询的能力。
这些措施大都属于不规处理。
根据上面的讨论,当把规的系统逻辑模型进行物理实施时,由于数据库引擎的限制,常常需要进行不规处理。
举例来说,当系统数据量很小,比如只有几个GB时,进行多表连接之类复杂查询的响应时间是可以忍受的。
但是设想一下加果数据量扩展到很大,到几百GB,甚至上TB,一个表中的记录往往有几百万、几千万,甚至更多,这时进行多表连接这样的复杂查询,响应时间长得不可忍受。
这时就有必要把几个表合并,尽量减少表的连接操作。
当然,不规处理的程度取决于数据库引擎的并行处理能力。
数据仓库建设者在选择数据库引擎时,除了参考一些相关的基准测试结果外,最好是能根据自己的实际情况设计测试方案,从几个数据库系统中选择最适合自己企业决策要求的一种。
不规化处理虽然是提高系统性能的一种有效手段,但是由于中央数据仓库的数据模型反映了整个企业的业务运行规律,在这里进行不规处理容易影响整个系统,不利于今后的扩展。
而且不规处理产生的数据冗余将使整个系统的数据量迅速增加,这将增加DBA的工作量和系统投资。
因此,当系统性能下降而进行不规处理时,比较好的办法是选择问题较集中的部门数据集市实施这种措施。
这样既能有效地改善系统性能汉不至于影响整个系统。
在国外一些成功的大型企业级数据仓库案例中,基本上都是采用这种方法。
那么,在中央数据仓库中是否可以采用星型模式来进行模型设计呢?我们知道,星型模式中有一个事实表和一组维表,我们可以把事实看成是各个维交叉点上的值。
例如,一个汽车厂在研究其销售情况时可以考察汽车的型号、颜色、代理商等多种因素,这些因素就是维,而销售量就是事实。
这种多维模型能迅速给出基于各个维的报表,这些维必须事先确定。
星型模式之所以速度快,在于针对各个维作了大量的预处理,如按照维进行预先的统计、分类、排序等。
在上面的例子中,就是按照汽车的型号、颜色、代理商进行预先的销售量统计。
因此,在星型模式设计的数据仓库中,作报表的速度虽然很快,但由于存在大量的预处理,其建模过程相对来说就比较慢。
当业务问题发生变化,原来的维不能满足要求时,需要增加新的维。
由于事实表的主键由所有维表的主键组成,这种维的变动将是非常复杂、非常耗时的。
星型模式另一个显著的缺点是数据的冗余量很大。
综合这些讨论,不难得出结论,星型模式比较适合于预先定义好的问题加需要产生大量报表的场合;而不适合于动态查询多、系统可扩展能力要求高或者数据量很大的场合。
因此,星型模式在一些要求大量报表的部门数据集市中有较多的应用。
4. 4两种模式的比较上面讨论了数据仓库逻辑模型设计中常用的两种方法.在数据仓库的应用环境中,主要有两种负载:一种是回答重复性的问题;另一种是回答交互性的问题。
动态查询具有较明显的交互性特征,即在一个问题答案的基础上进行进一步的探索,这种交互过程常称为数据挖掘(Data Mining)或者知识探索(Knowledge Discovery)。