第12章_第12章 数据仓库技术
第12章第12章数据仓库技术
PPT文档演模板
第12章第12章数据仓库技术
12.1 从数据库到数据仓库
事务处理环境不适宜DSS应用的原因概括起 来主要有以下四个方面: (1)事务处理和分析处理的性能特性不同 (2)数据集成问题 (3)历史数据问题 (4)数据的综合问题
以上这些问题表明在事务型环境中直接构建 分析型应用是一种失败的尝试。数据仓库本质上 是对这些存在问题的回答。
第12章_第12章数据仓库 技术
PPT文档演模板
2020/11/25
第12章第12章数据仓库技术
12.1 从数据库到数据仓库
数据库管理系统作为数据管理的最新手段, 成功地用于事务处理领域尽管数据库在事务处理 方面的应用获得了巨大的成功。但它对分析处理 的支持一直不能令人满意,尤其是当以事务处理 为主的OLTP应用与以分析处理为主的DSS应用共 存于同一个数据库管理系统中时,这两种类型的 处理发生了明显的冲突。
数据仓库本质上和数据库一样是长期储存在 计算机内、有组织、可共享的数据集合。
PPT文档演模板
第12章第12章数据仓库技术来自12.2 数据仓库基本概念
数据仓库和数据库主要的区别是数据仓库中 的数据具有以下四个基本特征: • 数据仓库的数据是面向主题的。 • 数据仓库的数据是集成的。 • 数据仓库的数据是不可更新的。 • 数据仓库的数据是随时间不断变化的。
PPT文档演模板
第12章第12章数据仓库技术
12.2 数据仓库基本概念
我们用一个例子来详细说明。
一家采用“会员制”经营方式的商场,按业务 已建立起销售、采购、库存管理以及人事管理子 系统。按照其业务处理要求,建立了各子系统的 数据库模式:
采购子系统:
订单(订单号,供应商号,总金额,日期) 订单细则(订单号,商品号,类别,单价,数量) 供应商(供应商号,供应商名,地址,电话)
计算机等级考试《三级数据库技术》专用教材考纲分析+考点精讲+真题演练
XX年全国计算机等级考试《三级数据库技术》专用教材【考纲分析+考点精讲+真题演练】最新资料,WORD格式,可编辑修改!目录第1章数据库应用系统开发方法................................................考纲分析..................................................................考点精讲..................................................................1.1 数据库应用系统概述...............................................考点1 数据库系统和数据库应用系统的区别 ..........................考点2 数据库应用系统设计与开发的定义 ............................1.2 数据库应用系统生命周期...........................................考点1 软件工程与软件开发方法 ....................................考点2 DBAS生命周期模型..........................................1.3 规划与分析.......................................................考点1 概述 ....................................................考点2 系统规划与定义 ............................................考点3 可行性分析 ................................................考点4 项目规划 ..................................................1.4 需求分析.........................................................考点1 系统需求 ..................................................考点2 数据需求分析 ..............................................考点3 功能需求分析 ..............................................考点4 性能需求分析 ..............................................考点5 其他需求分析 ..............................................1.5 系统设计.........................................................考点1 概念设计 ..................................................考点2 逻辑设计 ..................................................考点3 物理设计 ..................................................1.6 实现与部署.......................................................考点1 定义 ....................................................考点2 内容 ....................................................1.7 运行管理与维护...................................................考点1 内容 ....................................................考点2 重要性 .................................................... 第2章需求分析..............................................................考纲分析..................................................................考点精讲..................................................................2.1 需求分析.........................................................考点1 需求分析的概念与意义 ......................................考点2 需求获取的方法 ............................................考点3 需求分析过程 ..............................................2.2 需求分析方法.....................................................考点1 需求分析方法概述 ..........................................考点2 DFD需求建模方法...........................................考点3 其他需求建模方法 ..........................................考点4 DFD与IDEFO比较........................................... 第3章数据库结构设计........................................................考纲分析..................................................................考点精讲..................................................................3.1 数据库概念设计...................................................考点1 概念设计的任务 ............................................考点2 概念设计的依据及过程 ......................................考点3 数据建模方法 ..............................................考点4 概念设计实例 ..............................................3.2 数据库逻辑设计...................................................考点1 任务 ....................................................考点2 目标 ....................................................3.3 数据库物理设计...................................................考点1 物理设计的目的 ............................................考点2 数据库的物理结构 ..........................................考点3 索引 ....................................................考点4 数据库物理设计 ............................................考点5 其他物理设计环节 .......................................... 第4章数据库应用系统功能设计与实施..........................................考纲分析..................................................................考点精讲..................................................................4.1 软件体系结构.....................................................考点1 定义 ....................................................考点2 功能 ....................................................考点3 分类 ....................................................4.2 软件设计过程.....................................................考点1 软件设计的目的 ............................................考点2 软件设计的原则 ............................................考点3 软件设计的分类 ............................................4.3 DBAS总体设计 ....................................................考点1 DBAS总体设计主要内容......................................考点2 DBAS体系结构设计..........................................考点3 DBAS软件总体设计..........................................考点4 软硬件选型与配置设计 ......................................考点5 业务规则初步设计 ..........................................4.4 DBAS功能概要设计 ................................................考点1 概述 ....................................................考点2 实现方法 ..................................................考点3 表示层概要设计 ............................................考点4 业务逻辑层概要设计 ........................................考点5 数据访问层概要设计 ........................................4.5 DBAS功能详细设计 ................................................考点1 表示层详细设计 ............................................考点2 业务逻辑层详细设计 ........................................4.6 应用系统安全架构设计.............................................考点1 数据安全设计 ..............................................考点2 环境安全设计 ..............................................考点3 制度安全设计 ..............................................4.7 DBAS实施.........................................................考点1 DBAS实施阶段的主要工作....................................考点2 创建数据库 ................................................考点3 数据装载 ..................................................考点4 编写与调试应用程序 ........................................考点5 数据库系统试运行 .......................................... 第5章UML与数据库应用系统 ..................................................考纲分析..................................................................考点精讲..................................................................5.1 DBAS建模.........................................................考点1 方法 ....................................................考点2 UML .......................................................5.2 DBAS业务流程与需求表达 ..........................................考点1 业务流程与活动图 ..........................................考点2 系统需求与用例图 ..........................................5.3 DBAS系统内部结构的表达 ..........................................考点1 DBAS系统内部结构分类......................................考点2 系统结构与类图 ............................................考点3 系统结构与顺序图 ..........................................考点4 系统结构与通信图 ..........................................5.4 DBAS系统微观设计的表达 ..........................................考点1 微观设计的表达方法 ........................................考点2 对象图 ....................................................考点3 状态机图 ..................................................考点4 时间图 ....................................................5.5 DBAS系统宏观设计的表达 ..........................................考点1 宏观设计的对象 ............................................考点2 包图 ....................................................考点3 交互概述图 ................................................考点4 复合结构图 ................................................5.6 DBAS系统实现与部署的表达 ........................................考点1 表达方法 ..................................................考点2 组件图 ....................................................考点3 系统实现与部署图 .......................................... 第6章高级数据查询..........................................................考纲分析..................................................................考点精讲..................................................................6.1 一般数据查询功能扩展.............................................考点1 使用TOP限制结果集 ........................................考点2 使用CASE函数 .............................................考点3 将查询结果保存到新表中 ....................................6.2 查询结果的并、交、差运算.........................................考点1 并运算 ....................................................考点2 交运算 ....................................................考点3 差运算 ....................................................6.3 相关子查询.......................................................考点1 概述 ....................................................考点2 语法格式 ..................................................考点3 用途 ....................................................6.4 其他形式的子查询.................................................考点1 替代表达式的子查询 ........................................考点2 派生表 ....................................................6.5 其他一些查询功能.................................................考点1 开窗函数 ..................................................考点2 公用表表达式 .............................................. 第7章数据库及数据库对象....................................................考纲分析..................................................................考点精讲..................................................................7.1 创建及维护数据库.................................................考点1 SQL Server数据库概述......................................考点2 SQL Server数据库的组成....................................考点3 数据库文件组 ..............................................考点4 数据库文件的属性 ..........................................考点5 用T-SQL语句创建数据库 ....................................考点6 修改数据库 ................................................考点7 分离和附加数据库 ..........................................7.2 架构...........................................................考点1 定义 ....................................................考点2 架构对象的定义和种类 ......................................考点3 命名规则 ..................................................考点4 定义架构的T-SQL语句 ......................................考点5 删除架构的T-SQL语句 ......................................7.3 分区表...........................................................考点1 基本概念 ..................................................考点2 创建分区表 ................................................7.4 索引.............................................................考点1 创建索引 ..................................................考点2 删除索引 ..................................................7.5 索引视图.........................................................考点1 基本概念 ..................................................考点2 适合建立索引视图的场合 ....................................考点3 定义索引视图 .............................................. 第8章数据库后台编程技术....................................................考纲分析..................................................................考点精讲..................................................................8.1 存储过程.........................................................考点1 基本概念 ..................................................考点2 创建、执行和删除存储过程 ..................................8.2 用户定义函数.....................................................考点1 概述 ....................................................考点2 创建和调用标量函数 ........................................考点3 创建和调用内联表值函数 ....................................考点4 创建和调用多语句表值函数 ..................................考点5 删除用户自定义函数 ........................................8.3 触发器...........................................................考点1 基本概念 ..................................................考点2 创建触发器 ................................................考点3 删除触发器 ................................................8.4 游标...........................................................考点1 游标的组成 ................................................考点2 使用游标 .................................................. 第9章安全管理..............................................................考纲分析..................................................................考点精讲..................................................................9.1 安全控制.........................................................考点1 概述 ......................................................考点2 数据库安全控制的目标 ......................................考点3 数据库安全的威胁 ..........................................考点4 安全控制模型的内容 ........................................考点5 授权和认证 ................................................9.2 存取控制.........................................................考点1 自主存取控制(自主安全模式) ..............................考点2 强制存取控制 ..............................................9.3 审计跟踪.........................................................9.4 统计数据库的安全性...............................................考点1 统计数据库的定义 ..........................................考点2 安全性问题 ................................................考点3 解决方案 ..................................................考点4 目标 ....................................................9.5 SQL Server的安全控制 ............................................考点1 身份验证模式 ..............................................考点2 登录账户 ..................................................考点3 数据库用户 ................................................考点4 权限管理 ..................................................考点5 角色 ....................................................9.6 Oracle的安全管理 ................................................考点1 Oracle的安全控制机制......................................考点2 Oracle的特点..............................................考点3 用户与资源管理 ............................................考点4 权限管理 ..................................................考点5 审计功能 .................................................. 第10章数据库运行维护与优化.................................................考纲分析..................................................................考点精讲..................................................................10.1 数据库运行维护基本工作..........................................考点1 概述 ....................................................考点2 工作内容 ..................................................10.2 运行状态监控与分析..............................................考点1 定义 ....................................................考点2 监控分析机制的分类 ........................................10.3 数据库存储空间管理..............................................考点1 数据库的存储结构分类 ......................................考点2 管理内容 ..................................................考点3 数据库管理预测内容 ........................................10.4 数据库性能优化..................................................考点1 数据库运行环境与参数调整 ..................................考点2 模式调整与优化 ............................................考点3 存储优化 ..................................................考点4 查询优化 ..................................................考点5 SQL Server性能工具........................................ 第11章故障管理.............................................................考纲分析..................................................................考点精讲..................................................................11.1 故障管理概述....................................................考点1 故障类型及其解决方法 ......................................考点2 数据库恢复技术概述 ........................................11.2 数据转储(数据备份)............................................考点1 概述 ....................................................考点2 静态转储和动态转储 ........................................考点3 数据转储机制 ..............................................考点4 多种转储方法结合使用 ......................................11.3 日志文件........................................................考点1 日志文件的概念 ............................................考点2 日志文件的格式与内容 ......................................考点3 登记日志文件的原则 ........................................考点4 检查点 ....................................................11.4 硬件容错方案....................................................考点1 磁盘保护技术 ..............................................考点2 服务器容错技术 ............................................考点3 数据库镜像与数据库容灾 .................................... 第12章备份与恢复数据库.....................................................考纲分析..................................................................考点精讲..................................................................12.1 备份与恢复的概念................................................考点1 备份数据库 ................................................考点2 恢复数据库 ................................................12.2 SQL Server的备份与恢复机制 .....................................考点1 恢复模式 ..................................................考点2 备份内容及时间 ............................................考点3 SQL Server的备份机制......................................考点4 SQL Server的恢复机制......................................12.3 Oracle的备份与恢复机制 .........................................考点1 Oracle数据库逻辑备份与恢复................................考点2 0racle数据库物理备份与恢复................................ 第13章大规模数据库架构.....................................................考纲分析..................................................................考点精讲..................................................................13.1 分布式数据库....................................................考点1 分布式数据库系统 ..........................................考点2 分布式数据库目标 ..........................................考点3 分布式数据库的数据分布策略 ................................考点4 分布式数据库系统的体系结构 ................................考点5 分布式数据库的相关技术 ....................................13.2 并行数据库......................................................考点1 并行数据库系统结构 ........................................考点2 数据划分与并行算法 ........................................13.3 云计算数据库架构................................................考点1 云计算概述 ................................................考点2 Google的云数据库体系结构..................................13.4 XML数据库 ......................................................考点1 XML数据库概述.............................................考点2 SQL Server 2008与XML ..................................... 第14章数据仓库与数据挖掘...................................................考纲分析..................................................................考点精讲..................................................................14.1 决策支持系统的发展..............................................14.2 数据仓库技术概述................................................考点1 数据仓库的概念 ............................................考点2 数据仓库的特性 ............................................考点3 数据仓库的体系结构与环境 ..................................考点4 数据仓库的数据组织 ........................................考点5 元数据 ....................................................考点6 操作型数据存储 ............................................14.3 设计与建造数据仓库..............................................考点1 数据仓库设计的需求与方法 ..................................考点2 数据仓库的数据模型 ........................................考点3 数据仓库设计步骤 ..........................................14.4 数据仓库的运行与维护............................................考点1 数据仓库数据的更新维护 ....................................考点2 数据仓库监控与元数据管理 ..................................14.5 联机分析处理与多维数据模型......................................考点1 OLAP ......................................................考点2 多维分析的基本概念 ........................................考点3 多维分析的基本操作 ........................................考点4 OLAP的实现方式............................................14.6 数据挖掘技术....................................................考点1 数据挖掘步骤 ..............................................考点2 关联规则挖掘 ..............................................考点3 分类挖掘 ..................................................考点4 聚类挖掘 ..................................................考点5 时间序列分析 ..............................................第1章数据库应用系统开发方法考纲分析1.数据库应用系统的概念2.数据库应用系统生命周期。
大学生大数据技术原理与应用章节测验期末考试答案
大数据技术原理与应用第1章大数据概述1单选(2分)第三次信息化浪潮的标志是:A.个人电脑的普及B.云计算、大数据、物联网技术的普及C.虚拟现实技术的普及D.互联网的普及正确答案:B你选对了2单选(2分)就数据的量级而言,1PB数据是多少TB?A.2048B.1000C.512D.1024正确答案:D你选对了3单选(2分)以下关于云计算、大数据和物联网之间的关系,论述错误的是:A.云计算侧重于数据分析B.物联网可借助于云计算实现海量数据的存储C.物联网可借助于大数据实现海量数据的分析D.云计算、大数据和物联网三者紧密相关,相辅相成正确答案:A你选对了4单选(2分)以下哪个不是大数据时代新兴的技术:A.SparkB.HadoopC.HBaseD.MySQL正确答案:D你选对了5单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于批处理的:A.MapReduceB.DremelC.StormD.Pregel正确答案:A你选对了6单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于流计算的:A.GraphXB.S4C.ImpalaD.Hive正确答案:B你选对了7单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于图计算的:A.PregelB.StormC.CassandraD.Flume正确答案:A你选对了8单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于查询分析计算的:A.HDFSB.S4C.DremelD.MapReduce正确答案:C你选对了9多选(3分)数据产生方式大致经历三个阶段,包括:A.运营式系统阶段B.感知式系统阶段C.移动互联网数据阶段D.用户原创内容阶段正确答案:ABD你选对了10多选(3分)大数据发展三个阶段是:A.低谷期B.成熟期C.大规模应用期D.萌芽期正确答案:BCD你选对了11多选(3分)大数据的特性包括:A.价值密度低B.处理速度快C.数据类型繁多D.数据量大正确答案:ABCD你选对了12多选(3分)图领奖获得者、著名数据库专家Jim Gray博士认为,人类自古以来在科学研究上先后经历哪几种范式:A.计算科学B.数据密集型科学C.实验科学D.理论科学正确答案:ABCD你选对了13多选(3分)大数据带来思维方式的三个转变是:A.效率而非精确B.相关而非因果C.精确而非全面D.全样而非抽样正确答案:ABD你选对了14多选(3分)大数据主要有哪几种计算模式:B.图计算C.查询分析计算D.批处理计算正确答案:ABCD你选对了15多选(3分)云计算的典型服务模式包括三种:A.SaaSB.IaaSC.MaaSD.PaaS正确答案:ABD你选对了第2章大数据处理架构Hadoop1单选(2分)启动hadoop所有进程的命令是:A.start-dfs.shB.start-all.shC.start-hadoop.shD.start-hdfs.sh正确答案:B你选对了2单选(2分)以下对Hadoop的说法错误的是:A.Hadoop是基于Java语言开发的,只支持Java语言编程B.Hadoop2.0增加了NameNode HA和Wire-compatibility两个重大特性C.Hadoop MapReduce是针对谷歌MapReduce的开源实现,通常用于大规模数据集的并行计算D.Hadoop的核心是HDFS和MapReduce正确答案:A你选对了3单选(2分)以下哪个不是Hadoop的特性:A.成本高B.支持多种编程语言C.高容错性正确答案:A你选对了4单选(2分)以下名词解释不正确的是:A.Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统B.HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTable的开源实现C.Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储D.HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现正确答案:B你选对了5多选(3分)以下哪些组件是Hadoop的生态系统的组件:A.HBaseB.OracleC.HDFSD.MapReduce正确答案:ACD你选对了6多选(3分)以下哪个命令可用来操作HDFS文件:A.hadoop fsB.hadoop dfsC.hdfs fsD.hdfs dfs正确答案:ABD你选对了第3章分布式文件系统HDFS1单选(2分)HDFS的命名空间不包含:A.字节B.文件C.块D.目录正确答案:A你选对了2单选(2分)对HDFS通信协议的理解错误的是:A.客户端与数据节点的交互是通过RPC(Remote Procedure Call)来实现的B.客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互C.名称节点和数据节点之间则使用数据节点协议进行交互D.HDFS通信协议都是构建在IoT协议基础之上的正确答案:D你选对了3单选(2分)采用多副本冗余存储的优势不包含:A.保证数据可靠性B.容易检查数据错误C.加快数据传输速度D.节约存储空间正确答案:D你选对了4单选(2分)假设已经配置好环境变量,启动Hadoop和关闭Hadoop的命令分别是:A.start-dfs.sh,stop-hdfs.shB.start-hdfs.sh,stop-hdfs.shC.start-dfs.sh,stop-dfs.shD.start-hdfs.sh,stop-dfs.sh正确答案:C你选对了5单选(2分)分布式文件系统HDFS采用主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,一类存储元数据叫,另一类存储具体数据叫 :A.名称节点,主节点B.从节点,主节点C.名称节点,数据节点D.数据节点,名称节点正确答案:C你选对了6单选(2分)下面关于分布式文件系统HDFS的描述正确的是:A.分布式文件系统HDFS是Google Bigtable的一种开源实现B.分布式文件系统HDFS是谷歌分布式文件系统GFS(Google File System)的一种开源实现C.分布式文件系统HDFS比较适合存储大量零碎的小文件D.分布式文件系统HDFS是一种关系型数据库正确答案:B你选对了7多选(3分)以下对名称节点理解正确的是:A.名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问B.名称节点用来负责具体用户数据的存储C.名称节点通常用来保存元数据D.名称节点的数据保存在内存中正确答案:ACD你选对了8多选(3分)以下对数据节点理解正确的是:A.数据节点通常只有一个B.数据节点用来存储具体的文件内容C.数据节点的数据保存在磁盘中D.数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作正确答案:BCD你选对了9多选(3分)HDFS只设置唯一一个名称节点带来的局限性包括:A.集群的可用性B.性能的瓶颈C.命名空间的限制D.隔离问题正确答案:ABCD你选对了10多选(3分)以下HDFS相关的shell命令不正确的是:A.hadoop dfs mkdir <path>:创建<path>指定的文件夹B.hdfs dfs -rm <path>:删除路径<path>指定的文件C.hadoop fs -copyFromLocal <path1> <path2>:将路径<path2>指定的文件或文件夹复制到路径<path1>指定的文件夹中D.hadoop fs -ls <path>:显示<path>指定的文件的详细信息正确答案:AC你选对了第4章分布式数据库HBase1单选(2分)HBase是一种数据库A.行式数据库B.关系数据库C.文档数据库D.列式数据库正确答案:D你选对了2单选(2分)下列对HBase数据模型的描述错误的是:A.每个HBase表都由若干行组成,每个行由行键(row key)来标识B.HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳C.HBase中执行更新操作时,会删除数据旧的版本,并生成一个新的版本D.HBase列族支持动态扩展,可很轻松地添加一个列族或列正确答案:C你选对了3单选(2分)下列说法正确的是:A.如果不启动Hadoop,则HBase完全无法使用B.HBase的实现包括的主要功能组件是库函数,一个Master主服务器和一个Region服务器C.如果通过HBase Shell插入表数据,可以插入一行数据或一个单元格数据D.Zookeeper是一个集群管理工具,常用于分布式计算,提供配置维护、域名服务、分布式同步等正确答案:D你选对了4单选(2分)在HBase数据库中,每个Region的建议最佳大小是:A.2GB-4GBB.100MB-200MBC.500MB-1000MBD.1GB-2GB正确答案:D你选对了5单选(2分)HBase三层结构的顺序是:A.Zookeeper文件,.MEATA.表,-ROOT-表B.-ROOT-表,Zookeeper文件,.MEATA.表C.Zookeeper文件,-ROOT-表,.MEATA.表D..MEATA.表,Zookeeper文件,-ROOT-表正确答案:C你选对了6单选(2分)客户端是通过级寻址来定位Region:A.三B.二C.一D.四正确答案:A你选对了7单选(2分)关于HBase Shell命令解释错误的是:A.create:创建表B.put:向表、行、列指定的单元格添加数据C.list:显示表的所有数据D.get:通过表名、行、列、时间戳、时间范围和版本号来获得相应单元格的值正确答案:C你选对了8多选(3分)下列对HBase的理解正确的是:A.HBase是针对谷歌BigTable的开源实现B.HBase是一种关系型数据库,现成功应用于互联网服务领域C.HBase是一个行式分布式数据库,是Hadoop生态系统中的一个组件D.HBase多用于存储非结构化和半结构化的松散数据正确答案:AD你选对了9多选(3分)HBase和传统关系型数据库的区别在于哪些方面:A.数据操作B.数据索引C.数据模型D.存储模式正确答案:ABCD你选对了10多选(3分)访问HBase表中的行,有哪些方式:A.通过某列的值区间B.全表扫描C.通过一个行健的区间来访问D.通过单个行健访问正确答案:BCD你选对了第5章 NoSQL数据库1单选(2分)下列关于NoSQL数据库和关系型数据库的比较,不正确的是:A.NoSQL数据库很容易实现数据完整性,关系型数据库很难实现数据完整性B.NoSQL数据库缺乏统一的查询语言,而关系型数据库有标准化查询语言C.NoSQL数据库的可扩展性比传统的关系型数据库更好D.NoSQL数据库具有弱一致性,关系型数据库具有强一致性正确答案:A你选对了2单选(2分)以下对各类数据库的理解错误的是:A.键值数据库的键是一个字符串对象,值可以是任意类型的数据,比如整型和字符型等B.文档数据库的数据是松散的,XML和JSON 文档等都可作为数据存储在文档数据库中C.图数据库灵活性高,支持复杂的图算法,可用于构建复杂的关系图谱D.HBase数据库是列族数据库,可扩展性强,支持事务一致性正确答案:D你选对了3单选(2分)下列数据库属于文档数据库的是:A.MySQLB.RedisC.MongoDBD.HBase正确答案:C你选对了4单选(2分)NoSQL数据库的三大理论基石不包括:A.最终一致性B.BASEC.ACIDD.CAP正确答案:C你选对了5多选(3分)关于NoSQL数据库和关系数据库,下列说法正确的是:A.NoSQL数据库可支持超大规模数据存储,具有强大的横向扩展能力B.NoSQL数据库和关系数据库各有优缺点,但随着NoSQL的发展,终将取代关系数据库C.大多数NoSQL数据库很难实现数据完整性D.关系数据库有关系代数理论作为基础,NoSQL数据库没有统一的理论基础正确答案:ACD你选对了6多选(3分)NoSQL数据库的类型包括:A.键值数据库B.列族数据库C.文档数据库D.图数据库正确答案:ABCD你选对了7多选(3分)CAP是指:A.一致性B.可用性C.持久性D.分区容忍性正确答案:ABD你选对了8多选(3分)NoSQL数据库的BASE特性是指:A.软状态B.持续性C.最终一致性D.基本可用正确答案:ACD你选对了第6章云数据库1单选(2分)下列Amazon的云数据库属于关系数据库的是:A.Amazon SimpleDBB.Amazon DynamoDBC.Amazon RDSD.Amazon Redshift正确答案:C你选对了2单选(2分)下列关于UMP系统的说法不正确的是:A.Controller服务器向UMP集群提供各种管理服务,实现集群成员管理、元数据存储等功能B.Agent服务器部署在运行MySQL进程的机器上,用来管理每台物理机上的MySQL实例C.UMP系统是低成本和高性能的MySQL云数据库方案D.Mnesia是UMP系统的一个组件,是一个分布式数据库管理系统,且不支持事务正确答案:D你选对了3多选(3分)UMP依赖的开源组件包括A.LVSB.ZooKeeperC.MnesiaD.RabbitMQ正确答案:ABCD你选对了4多选(3分)在UMP系统中,Zookeeper主要发挥的作用包括:A.监控所有MySQL实例B.负责集群负载均衡C.提供分布式锁,选出一个集群的“总管”D.作为全局的配置服务器正确答案:ACD你选对了5多选(3分)UMP系统设计了哪些机制来保证数据安全:A.记录用户操作日志B.数据访问IP白名单C.SSL数据库连接D.SQL拦截正确答案:ABCD你选对了第7章 MapReduce1单选(2分)下列说法错误的是:A.Map函数将输入的元素转换成<key,value>形式的键值对B.Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写C.MapReduce框架采用了Master/Slave架构,包括一个Master和若干个SlaveD.不同的Map任务之间不能互相通信正确答案:B你选对了2单选(2分)在使用MapReduce程序WordCount进行词频统计时,对于文本行“hello hadoop hello world”,经过WordCount程序的Map函数处理后直接输出的中间结果,应是下面哪种形式:A.<"hello",1,1>、<"hadoop",1>和<"world",1>B.<"hello",2>、<"hadoop",1>和<"world",1>C.<"hello",<1,1>>、<"hadoop",1>和<"world",1>D.<"hello",1>、<"hello",1>、<"hadoop",1>和<"world",1>正确答案:D你选对了3单选(2分)对于文本行“hello hadoop hello world”,经过WordCount的Reduce函数处理后的结果是:A.<"hello",<1,1>><"hadoop",1><"world",1>B.<"hello",1><"hello",1><"hadoop",1><"world",1>C.<"hello",1,1><"hadoop",1><"world",1>D.<"hello",2><"hadoop",1><"world",1>正确答案:B你选对了4多选(3分)下列关于传统并行计算框架(比如MPI)和MapReduce并行计算框架比较正确的是:A.前者所需硬件价格贵,可扩展性差,后者硬件便宜,扩展性好B.前者相比后者学习起来更难C.前者是共享式(共享内存/共享存储),容错性差,后者是非共享式的,容错性好D.前者适用于实时、细粒度计算、计算密集型,后者适用于批处理、非实时、数据密集型正确答案:ABCD你选对了5多选(3分)MapReduce1.0的体系结构主要由哪几个部分组成:A.JobTrackerB.TaskTrackerC.ClientD.Task正确答案:ABCD你选对了第8章 Hadoop再探讨1单选(2分)下列说法正确的是:A.HDFS HA可用性不好B.第二名称节点是热备份C.HDFS HA提供高可用性,可实现可扩展性、系统性能和隔离性D.第二名称节点无法解决单点故障问题正确答案:D你选对了2单选(2分)HDFS Federation设计不能解决“单名称节点”存在的哪个问题:A.单点故障问题B.HDFS集群扩展性C.性能更高效D.良好的隔离性正确答案:A你选对了3多选(3分)下列哪些是Hadoop1.0存在的问题:A.抽象层次低B.表达能力有限C.开发者自己管理作业之间的依赖关系D.执行迭代操作效率低正确答案:ABCD你选对了下列对Hadoop各组件的理解正确的是:A.Oozie:工作流和协作服务引擎B.Pig:处理大规模数据的脚本语言C.Kafka:分布式发布订阅消息系统D.Tez:支持DAG作业的计算框架正确答案:ABCD你选对了5多选(3分)对新一代资源管理调度框架YARN的理解正确的是:A.YARN既是资源管理调度框架,也是一个计算框架B.MapReduce2.0是运行在YARN之上的计算框架,由YARN来为MapReduce提供资源管理调度服务C.YARN可以实现“一个集群多个框架”,即在一个集群上部署一个统一的资源调度管理框架D.YARN的体系结构包含三个组件:ResourceManager,NodeManager,ApplicationMaster正确答案:BCD你选对了第9章数据仓库Hive1单选(2分)下列有关Hive和Impala的对比错误的是:A.Hive与Impala中对SQL的解释处理比较相似,都是通过词法分析生成执行计划B.Hive与Impala使用相同的元数据C.Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询D.Hive在内存不足以存储所有数据时,会使用外存,而Impala也是如此正确答案:D你选对了2单选(2分)下列关于Hive基本操作命令的解释错误的是:A.create table if not exists usr(id bigint,name string,age int);//如usr表不存在,创建表usr,含三个属性id,name,ageB.load data local inpath ‘/usr/local/data’ overwrite into table usr; //把目录’/usr/local/data’下的数据文件中的数据以追加的方式装载进usr表C.create database userdb;//创建数据库userdbD.insert overwrite table student select * from user where age>10; //向表usr1中插入来自usr表的age大于10的数据并覆盖student表中原有数据正确答案:B你选对了下列说法正确的是:A.Impala和Hive、HDFS、HBase等工具可统一部署在一个Hadoop平台上B.数据仓库Hive不需要借助于HDFS就可完成数据的存储C.Hive本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据D.HiveQL语法与传统的SQL语法很相似正确答案:ACD你选对了4多选(3分)Impala主要由哪几个部分组成:A.HiveB.ImpaladC.State StoreD.CLI正确答案:BCD你选对了5多选(3分)以下属于Hive的基本数据类型是:A.BINARYB.STRINGC.FLOATD.TINYINT正确答案:ABCD你选对了第10章 Spark1单选(2分)Spark SQL目前暂时不支持下列哪种语言:A.PythonB.JavaC.ScalaD.Lisp正确答案:D你选对了2单选(2分)RDD操作分为转换(Transformation)和动作(Action)两种类型,下列属于动作(Action)类型的操作的是:A.groupByB.filterC.countD.map正确答案:C你选对了3单选(2分)下列说法错误的是:A.在选择Spark Streaming和Storm时,对实时性要求高(比如要求毫秒级响应)的企业更倾向于选择流计算框架StormB.RDD采用惰性调用,遇到“转换(Transformation)”类型的操作时,只会记录RDD生成的轨迹,只有遇到“动作(Action)”类型的操作时才会触发真正的计算C.Spark支持三种类型的部署方式:Standalone,Spark on Mesos,Spark on YARND.RDD提供的转换接口既适用filter等粗粒度的转换,也适合某一数据项的细粒度转换正确答案:D你选对了4单选(2分)下列关于常见的动作(Action)和转换(Transformation)操作的API解释错误的是:A.filter(func):筛选出满足函数func的元素,并返回一个新的数据集B.map(func):将每个元素传递到函数func中,并将结果返回为一个新的数据集C.count():返回数据集中的元素个数D.take(n):返回数据集中的第n个元素正确答案:D你选对了5单选(2分)下列大数据处理类型与其对应的软件框架不匹配的是:A.复杂的批量数据处理:MapReduceB.基于历史数据的交互式查询:ImpalaC.基于实时数据流的数据处理:StormD.图结构数据的计算:Hive正确答案:D你选对了6多选(3分)Apache软件基金会最重要的三大分布式计算系统开源项目包括:A.OracleB.HadoopC.StormD.Spark正确答案:ABC你选对了7多选(3分)Spark的主要特点包括:A.运行模式多样B.运行速度快C.通用性好D.容易使用正确答案:ABCD你选对了8多选(3分)下列关于Scala的说法正确的是:A.Scala运行于Java平台,兼容现有的Java程序B.Scala具备强大的并发性,支持函数式编程C.Scala是一种多范式编程语言D.Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言正确答案:ABCD你选对了9多选(3分)Spark的运行架构包括:A.运行作业任务的工作节点 Worker NodeB.每个工作节点上负责具体任务的执行进程 ExecutorC.每个应用的任务控制节点 DriverD.集群资源管理器 Cluster Manager正确答案:ABCD你选对了第11章流计算1单选(2分)流计算秉承一个基本理念,即数据的价值随着时间的流逝而,如用户点击流:A.降低B.不确定C.不变D.升高正确答案:A你选对了2单选(2分)Hadoop运行的是MapReduce任务,类似地,Storm运行的任务叫做A.SpoutB.BoltC.TupleD.Topology正确答案:D你选对了3多选(3分)对于一个流计算系统来说,它应达到如下哪些需求:A.海量式B.高性能C.分布式D.实时性正确答案:A、B、C、D你选对了4多选(3分)数据采集系统的基本架构包括哪些部分:A.ControllerB.StoreC.AgentD.Collector正确答案:B、C、D你选对了5多选(3分)以下哪些是开源的流计算框架:A.Facebook PumaB.Yahoo! S4C.IBM InfoSphere StreamsD.Twitter Storm正确答案:B、D你选对了6多选(3分)下面哪几个属于Storm中的Stream Groupings的分组方式:A.按照字段分组B.广播发送C.随机分组D.全局分组正确答案:A、B、C、D你选对了第12章 Flink1单选(2分)以下哪个不是Flink的优势:A.同时支持高吞吐、低延迟、高性能B.不支持增量迭代C.同时支持流处理和批处理D.支持有状态计算正确答案:B你选对了2单选(2分)在Flink中哪个是基于批处理的图计算库:A.SQL&Table库B.FlinkMLC.GellyD.CEP正确答案:C你选对了3多选(3分)下面关于Flink的说法正确的是:A.Flink起源于Stratosphere 项目,该项目是在2010年到2014年间由柏林工业大学、柏林洪堡大学和哈索普拉特纳研究所联合开展的B.Flink可以同时支持实时计算和批量计算C.Flink不是Apache软件基金会的项目D.Flink是Apache软件基金会的5个最大的大数据项目之一正确答案:A、B、D你选对了4多选(3分)Flink的主要特性包括:A.精确一次的状态一致性保障B.批流一体化C.精密的状态管理D.事件时间支持正确答案:A、B、C、D你选对了5多选(3分)下面论述正确的是:A.Spark Streaming通过采用微批处理方法实现高吞吐和容错性,但是牺牲了低延迟和实时处理能力B.Storm虽然可以做到低延迟,但是无法实现高吞吐,也不能在故障发生时准确地处理计算状态C.流处理架构需要具备低延迟、高吞吐和高性能的特性,而目前从市场上已有的产品来看,只有Flink 可满足要求D.Flink实现了Google Dataflow流计算模型,是一种兼具高吞吐、低延迟和高性能的实时流计算框架,并且同时支持批处理和流处理正确答案:A、B、C、D你选对了6多选(3分)Flink常见的应用场景包括:A.数据流水线应用B.事件驱动型应用C.地图应用D.数据分析应用正确答案:A、B、D你选对了7多选(3分)Flink核心组件栈分为哪三层:A.物理部署层B.Runtime核心层C.Core层D.API&Libraries层正确答案:A、B、D你选对了8多选(3分)Flink有哪几种部署模式:A.运行在GCE(谷歌云服务)和EC2(亚马逊云服务)上B.YARN集群模式C.Standalone集群模式D.Local模式正确答案:A、B、C、D你选对了9多选(3分)Flink系统主要由两个组件组成,分别为:A.JobManagerB.JobSchedulerC.TaskSchedulerD.TaskManager正确答案:A、D你选对了10多选(3分)在编程模型方面,Flink 提供了不同级别的抽象,以开发流或批处理作业,主要包括哪几个级别的抽象:A.DataStream API(有界或无界流数据)以及 DataSet API(有界数据集)B.Table APIC.状态化的数据流接口D. SQL正确答案:A、B、C、D你选对了第13章图计算1单选(2分)Pregel是一种基于模型实现的并行图处理系统:A.TSPB.STPC.BSPD.SBP正确答案:C你选对了2单选(2分)谷歌在后Hadoop时代的新“三驾马车”不包括:A.CaffeineB.DremelC. PregelD.Hama正确答案:D你选对了3多选(3分)下列哪些是以图顶点为中心的,基于消息传递批处理的并行图计算框架:A.HamaB.GiraphC.PregelD.Neo4j正确答案:A、B、C你选对了4多选(3分)以下关于Pregel图计算框架说法正确的是:A.通常只对满足交换律和结合律的操作才会开启Combiner功能B.Pregel采用检查点机制来实现容错C.对于全局拓扑改变,Pregel采用了惰性协调机制D.Aggregator提供了一种全局通信、监控和数据查看的机制正确答案:A、B、C、D你选对了第14章大数据在不同领域的应用1单选(2分)下列说法错误的是:A.ItemCF算法推荐的是那些和目标用户之前喜欢的物品类似的其他物品B.基于用户的协同过滤算法(简称UserCF算法)是目前业界应用最多的算法erCF算法推荐的是那些和目标用户有共同兴趣爱好的其他用户所喜欢的物品erCF算法的推荐更偏向社会化,而ItemCF算法的推荐更偏向于个性化正确答案:B你选对了2多选(3分)推荐方法包括哪些类型:A.专家推荐B.协同过滤推荐C.基于内容的推荐D.基于统计的推荐正确答案:A、B、C、D你选对了期末试卷1单选(2分)数据产生方式的变革主要经历了三个阶段,以下哪个不属于这三个阶段:A.运营式系统阶段B.感知式系统阶段C.数据流阶段D.用户原创内容阶段正确答案:C你选对了2单选(2分)第三次信息化浪潮的发生标志是以下哪种技术的普及:A.互联网B.CPUC.物联网、云计算和大数据D.个人计算机正确答案:C你选对了3单选(2分)在Flink中哪个是基于批处理的图计算库:A.SQL&Table库B.CEPC. GellyD. FlinkML正确答案:C你选对了4单选(2分)Hadoop的两大核心是和A.MapReduce; HBaseB. HDFS; HBaseC.HDFS; MapReduceD.GFS; MapReduce正确答案:C你选对了5单选(2分)HDFS默认的一个块大小是A.64MBB.8KBC. 32KBD.16KB正确答案:A你选对了6单选(2分)在分布式文件系统HDFS中,负责数据的存储和读取:A.数据节点B.第二名称节点C.名称节点D.主节点正确答案:A你选对了7单选(2分)上传当前目录下的本地文件file.txt到分布式文件系统HDFS的“/path”目录下的Shell命令是:A.hdfs dfs -put /path file.txtB.hadoop dfs -put /path file.txtC.hdfs fs -put file.txt /pathD.hdfs dfs -put file.txt /path正确答案:D你选对了8单选(2分)在HDFS根目录下创建一个文件夹/test,且/test文件夹内还包含一个文件夹dir,正确的shell命令是:A.hadoop fs -mkdir -p /test/dirB.hdfs fs -mkdir -p /test/dirC.hadoop dfs -mkdir /test/dirD.hdfs dfs *mkdir -p /test/dir正确答案:A你选对了9单选(2分)下列有关HBase的说法正确的是:A.在向数据库中插入记录时,HBase和关系数据库一样,每次都是以“行”为单位把整条记录插入数据库B.HBase是针对谷歌BigTable的开源实现,是高可靠、高性能的图数据库C.HBase是一种NoSQL数据库。
数据仓库技术PPT培训资料
—信管0701 HT
1
数据仓库技术
✓什么是数据仓库 ✓数据仓库的产生 ✓新一代数据仓库的发展趋势 ✓总结
2
什么是数据仓库
概念
数据仓库概念创始人W.H.Inmon在《建立数据 仓库》一书中对数据仓库的定义是:数据仓库就是 面向主题的、集成的、不可更新的(稳定性)、随时 间不断变化(不同时间)的数据集合,用以支持经 营管理中的决策制定过程、数据仓库中的数据面向 主题,与传统数据库面向应用相对应。
6
• 近几十年来,大量新技术、新思路的涌现出来并 被用于关系型数据库系统的开发和实现:客户/服 务器系统结构、存储过程、多线索并发内核、异 步I/O、代价优化,等等,这一切足以使得关系数 据库系统的处理能力毫不逊色于传统封闭的数据 库系统。而关系数据库在访问逻辑和应用上所带 来的好处则远远不止这些,SQL的使用已成为一 个不可阻挡的潮流,加上近些年来计算机硬件的 处理能力呈数量级的递增,关系数据库最终成为 联机事务处理系统的主宰。
9
新一代数据仓库的发展趋势
• 严格的投资回报率评估 • 整合数据集市 • 增加更多的分析 • CRM与数据仓库后期Internet 的兴起与飞速发展,我 们进入了一个新的时代,大量的信息和数据,迎 面而来,用科学的方法去整理数据,从而从不同 视角对企业经营各方面信息的精确分析、准确判 断,比以往更为迫切,实施商业行为的有效性也比 以往更受关注。
企业数据仓库为通用数据仓库,它既含有大量详细的数据, 也含有大量累赘的或聚集的数据,这些数据具有不易改变 性和面向历史性。
二、操作型数据库(ODS)
操作型数据库既可以被用来针对工作数据做决策支持,又 可用做将数据加载到数据仓库时的过渡区域。
三、数据市集(DataMart)
数据仓库原理
数据仓库原理数据仓库是一个用于存储和管理大量数据的系统,它的设计和实现需要遵循一定的原理和规范。
数据仓库的原理包括数据抽取、数据转换、数据加载、数据存储和数据查询等方面,下面我们来详细介绍一下数据仓库的原理。
首先,数据抽取是数据仓库的第一步,它是指从各个业务系统中抽取数据到数据仓库中。
数据抽取需要考虑到数据的完整性和准确性,同时还需要考虑到抽取的效率和成本。
通常情况下,数据抽取可以通过批量抽取和实时抽取两种方式来实现,具体的选择需要根据业务需求来确定。
其次,数据转换是数据仓库的第二步,它是指将抽取的数据进行清洗、转换和整合,以适应数据仓库的存储和查询需求。
数据转换包括数据清洗、数据整合、数据转换和数据加载等过程,需要考虑到数据的一致性和标准化,以及数据的质量和准确性。
接着,数据加载是数据仓库的第三步,它是指将经过转换的数据加载到数据仓库中进行存储和管理。
数据加载需要考虑到数据的存储结构和索引方式,以及数据的分区和分片等策略。
数据加载可以通过全量加载和增量加载两种方式来实现,具体的选择需要根据数据量和更新频率来确定。
然后,数据存储是数据仓库的核心部分,它是指在数据仓库中存储和管理数据的方式和结构。
数据存储需要考虑到数据的分层和分区,以及数据的压缩和索引等技术。
数据存储的设计需要根据数据的特点和查询需求来确定,以保证数据的高效访问和管理。
最后,数据查询是数据仓库的最终目的,它是指通过各种方式来查询和分析数据仓库中的数据。
数据查询需要考虑到查询的复杂性和实时性,以及查询的性能和优化等方面。
数据查询可以通过OLAP和OLTP两种方式来实现,具体的选择需要根据查询需求和数据量来确定。
综上所述,数据仓库的原理包括数据抽取、数据转换、数据加载、数据存储和数据查询等方面,它们共同构成了数据仓库的核心技术和方法。
数据仓库的设计和实现需要遵循这些原理,以保证数据的完整性和准确性,同时还需要考虑到数据的存储和查询效率,以满足业务的需求和挖掘数据的潜力。
数据仓库技术
.
四、数据仓库关键技术
2.元数据 关于数据的数据,例:数据字典。元数据是描述数据仓库 内数据的结构和建立方法的数据。元数据为访问数据仓库
提供了一个信息目录,这个目录全面描述了数据仓库中都
有什么数据、这些数据怎么得到的、和怎么访问这些数据。 是数据仓库运行和维护的中心,数据仓库服务器利用他来 存贮和更新数据,用户通过他来了解和访问数据。可将其 按用途的不同分为两类,技术元数据和商业元数据。
Office Day
.
A Sample Data Cube
TV 1Qtr PC VCR sum
Date
2Qtr 3Qtr
Total annual sales 4Qtr sum of TV in U.S.A.
U.S.A
Canada
Country
Mexico
sum
.
五、数据模型
多维数据模型 1.星型模型
J Jones 两个孩子 高血压 。。。。。
顾客
J Jones 女 1945年7月20日出生 去年两张罚单 一次大事故 已婚 两个孩子 高血压 。。。。。。
.
2.2 集成
数据库
应用A m,f 应用B 1,0 应用C x,y 应用D 男,女
应用A 管道cm 应用B 管道inches 应用C 管道mcf 应用D 管道yds
电子商务技术
.
一、产生
• 需求: – 业务自动化->分析自动化
• 传统数据库(事务型)不适合分析应用: – 性能要求不同:事务型要求快速反应 – 数据集成问题:多种事务型数据库 – 数据内容不同:事务型主要是当前数据,分析 要求历史数据 – 数据综合程度不同:事务型要求细节数据,分 析要求综合
数据仓库技术的研究和应用
数据仓库技术的研究和应用第一章数据仓库技术的概述数据仓库技术是一种用于存储大量数据的技术,对于数据管理和数据挖掘具有重要作用。
数据仓库不仅可以存储初始数据,还可以在成为业务数据、历史数据、计算数据后再次使用。
数据仓库本质上是一个以主题为中心的数据集合,允许对数据进行复杂的分析和查询。
第二章数据仓库的架构数据仓库的架构可以简单分为三个层次:数据源、数据仓库和前端工具。
其中,数据源层是指与业务相关的数据来源,如各类数据库、文本文件、Web服务器日志等。
数据仓库层是指对上游数据进行抽取、清洗、集成和转换后的。
前端层是为用户提供数据仓库的可视化操作界面,包含常见的数据分析、数据挖掘工具和报表系统等。
第三章数据仓库的实现数据仓库的实现包括数据源选择、数据集成、数据存储、数据清洗等环节。
其中,数据存储是数据仓库的核心,数据存储包括维度表和事实表。
维度表存储业务中用于描述现象或事物的数据,例如时间、地点等。
事实表存储业务中测量的数据,例如销售额、订单数等。
数据清洗是数据仓库建设过程中的必要过程,它包括数据去重、数据规范化、异常值处理等。
第四章数据仓库的应用数据仓库可以支持大量的应用,例如市场分析、客户关系管理、库存管理等。
在市场分析方面,数据仓库可以通过业务数据的分析,了解客户的偏好和需求,以制定更好的销售计划。
在客户关系管理方面,数据仓库可以集成各个渠道的信息,帮助企业了解客户的需求和反馈。
在库存管理方面,数据仓库可以帮助企业进行多维度仓储管理,提高库存周转率和利润率。
第五章数据仓库技术的发展趋势在数据仓库技术的发展趋势方面,数据科技的发展为数据仓库技术的繁荣提供了更好的机会。
以大数据技术为例,它的存储和计算能力都远远超过了传统的数据仓库技术。
另外,云计算技术的发展也为数据仓库技术带来了更大的应用前景。
未来的数据仓库技术将更加注重实时分析和异构数据的集成,以适应不断变化的商业环境。
结论数据仓库技术的应用范围广泛,在大数据时代,数据仓库技术将发挥越来越大的作用。
数据仓库技术
数据仓库技术
5.3 OLTP与OLAP
o OLTP系统——联机事务处理 On-Line Transaction Processing 事件驱动,面向应用。 如:银行的储蓄系统
o OLAP系统——联机分析处理 On-Line Analytical Processing 跨部门,面向主题。
数据仓库技术
操作型数据与分析型数据
操作型数据 细节的
在存取的瞬间是准确的 可更新
操作需求预先知道 事务驱动
面向日常业务应用
一次操作数据量少 对响应时间的要求高
分析型数据 综合的 代表过去的数据 不更新 操作需求预先不知道 分析驱动 面向分析决策 一次操作数据量多 对响应时间的要求低
数据仓库技术
2.1 面向主题
操作性环境
汽车
主题是数据归类的标准
数据仓库
顾客
应
人寿
主
用
题
健康
保险单 保险费
意外伤亡
索赔
数据仓库技术
2.2 集成
数据进入数据仓库之前,必须经过加 工与集成
数据库
应用A m,f 应用B 1,0 应用C x,y 应用D 男,女
应用A 管道cm 应用B 管道inches 应用C 管道mcf 应用D 管道yds
维
维表
事实表 量
o 星型模式(star schema)
中间有一个单一表,沿半径向外连接到多个表
o 雪花模式(snowflake schema)
是星型模式的扩展,每一个点都沿半径向外连
接到多个点
o 混合模式
数据仓库技术
3.5 ETL
o 数据抽取、转换、装载(ETL)是建立数 据仓库的重要步骤,需要花费开发数据仓 库70%的工作量。
数据仓库技术简介
数据仓库技术简介数据仓库技术随着数据库技术的日趋成熟以及应用系统逐步完善,不管是利用早期的RDB、Dbase,依旧后来以其领先的核心技术日渐垄断关系数据库市场的Oracle、Sysbase、DB2,企业差不多积存了大量的数据,这些数据信息为企业的进展提供了客观依据。
毫无疑问,在竞争猛烈的商业环境下,信息将是取胜的关键因素,决策者必须能快速可靠、随时自主地访问企业数据,才能有效地做出打算和决策。
在这种需求牵引下,形成了数据仓库〔Data Warehouse〕的新概念、新技术。
1数据仓库的概念数据仓库的提出是以关系数据库、并行处理和分布式技术的飞速进展为基础,是解决信息技术〔IT〕在进展中存在的拥有大量数据,而其中有用信息贫乏的综合解决方案。
数据仓库是一种新的数据处理体系结构,是对企业内部各部门业务数据进行统一和综合的中央数据仓库。
它为企业决策支持系统〔DSS〕和经理信息系统〔EIS〕提供所需的信息。
它是一种信息治理技术,为推测利润、风险分析、市场分析以及加强客户服务与营销活动等治理决策提供支持的新技术。
数据仓库技术对大量分散、独立的数据库通过规划、平稳、和谐和编辑后,向治理决策者提供辅助决策信息,发挥大量数据的作用和价值。
概括地说,数据仓库是面向主题的〔Subject-Oriented〕、集成的(Integrated)、稳固的(Nonvolatile)、不同时刻的(Timer-Variant)数据集合,用于支持经营治理中决策制订过程。
数据仓库中的数据面向主题,与传统数据库面向应用相对应。
主题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域:数据仓库的集成特性是指在数据进入数据仓库之前,必须通过数据加工和集成,这是建立数据仓库的关键步骤,第一要统一原始数据中的矛盾之处,还要将原始数据结构做一个从面向应用向面向主题的转变;数据仓库的稳固性是指数据仓库反映的是历史数据的内容,而不是日常事务处理产生的数据,数据经加工和集成进入数据仓库后是极少或全然不修改的;数据仓库是不同时刻的数据集合,它要求数据仓库中的数据储存时限能满足进行决策分析的需要,而且数据仓库中的数据都要标明该数据的历史时期。
数据仓库技术知识
一、数据仓库数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。
数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。
它是单个数据存储,出于分析性报告和决策支持目的而创建。
为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
1、数据仓库是面向主题的;操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。
主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
2、数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出数据仓库的核心工具来,进行加工与集成,统一与综合之后才能进入数据仓库;数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到当前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
3、数据仓库是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询;4、数据仓库是随时间而变化的,传统的关系数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求。
稳定的数据以只读格式保存,且不随时间改变。
5、汇总的。
操作性数据映射成决策可用的格式。
6、大容量。
时间序列数据集合通常都非常大。
7、非规范化的。
Dw数据可以是而且经常是冗余的。
8、元数据。
将描述数据的数据保存起来。
(整理)数据仓库技术简介
数据仓库技术简介数据仓库是近年来兴起的一种新的数据库应用。
在各大数据库厂商纷纷宣布产品支持数据仓库并提出一整套用以建立和使用数据仓库的产品是,业界掀起了数据库热。
比如INFORMIXGONGSIDE公司的数据仓库解决方案;ORACLE公司的数据仓库解决方案;Sybase公司的交互式数据仓库解决方案等等。
这同时也引起了学术界的极大兴趣,国际上许多重要的学术会议,如超大型数据库国际会议(VLDB),数据工程国际会议(Data Engineering)等,都出现了专门研究数据仓库(Data Warehousing,简记为DW)、联机分析处理(On-Line Analytical Processing,简记为OLAP)、数据挖掘(Data Mining, 简记为DM)的论文。
对我国许多企业而言,在建立或发展自己的信息系统常常困扰于这样的问题:为什么要在原有的数据库上建立数据仓库?数据仓库能否代替传统的数据库?怎样建立数据仓库?等等。
本章将简要介绍一下用到的数据仓库技术背景,并在下一章结合数据清理系统设计实例,更深一步阐述数据仓库技术在现实中的重大意义一.从数据库到数据仓库传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处理、批处理、决策分析等各种数据处理工作,主要的划分为两大类:操作型处理和分析型处理(或信息型处理)。
操作型处理也叫事务处理,是指对数据库联机的日常操作,通常是对一个或一组纪录的查询和修改,主要为企业的特定应用服务的,注重响应时间,数据的安全性和完整性;分析型处理则用于管理人员的决策分析,经常要访问大量的历史数据。
而传统数据库系统优于企业的日常事务处理工作,而难于实现对数据分析处理要求,已经无法满足数据处理多样化的要求。
操作型处理和分析型处理的分离成为必然。
近年来,随着数据库技术的应用和发展,人们尝试对DB中的数据进行再加工,形成一个综合的,面向分析的环境,以更好支持决策分析,从而形成了数据仓库技术(Data Warehousing,简称DW)。
《数据仓库技术》课件
数据质量参差不齐
数据来源多样,数据质 量难以保证,需要进行
数据清洗和校验。
数据分析需求多变
不同部门和业务场景对 数据分析的需求各不相 同,需要灵活地调整数 据仓库架构和查询方式
。
应对策略
采用分布式存储和计算 技术,提高数据存储和 处理能力;建立数据质 量管理体系,确保数据 质量;提供灵活的数据 仓库架构和查询方式, 满足多变的分析需求。
大数据时代的挑战与机遇
挑战
随着大数据时代的来临,数据量呈爆 炸式增长,如何高效地存储、处理和 分析这些数据成为数据仓库面临的挑 战。
机遇
大数据时代为数据仓库技术的发展提 供了广阔的空间,通过技术创新和优 化,数据仓库能够更好地应对大数据 的挑战,为企业提供更有价值的数据 分析服务。
数据仓库技术的未来发展
云端部署
AI与数据仓库的结合
随着云计算技术的成熟,数据仓库将 逐渐向云端迁移,以提高可扩展性和 灵活性。
人工智能技术的不断发展将为数据仓 库带来更多智能化功能,如自动分类 、预测等。
实时分析
随着对数据实时性的需求增加,数据 仓库将加强实时分析功能,提高数据 处理速度。
数据仓库与其他技术的结合
数据仓库与大数据技术的结合
OLAP技术
多维数据分析
OLAP支持多维数据分析,这意味着用户 可以从多个角度和维度(如时间、地点、
产品类别等)来分析数据。
A OLAP技术概述
OLAP是一种用于分析大量数据的工 具和技术,它允许用户通过多维数 据分析来深入了解数据的不同方面 。
B
C
D
可视化工具
OLAP系统通常提供各种可视化工具,如 仪表盘、报表、图表等,以帮助用户更好 地理解数据和分析结果。
数据库系统概念 原书第7版
数据库系统概念原书第7版数据库系统是现代计算机科学和信息技术领域中的重要研究方向,它对于数据管理和数据处理具有举足轻重的意义。
本篇文章将围绕《数据库系统概念》第7版这本原书展开讨论,介绍数据库系统的基本概念和原理。
第一章:绪论数据库系统是通过计算机程序组织、存储和管理数据的系统。
它的核心目标是提供高效、可靠和安全的数据管理服务。
通过对数据的集中管理和共享,数据库系统可以提高数据存储和查询的效率,有效管理大量的数据。
第二章:关系模型关系模型是数据库系统中最重要的数据模型之一,它使用关系来表示数据之间的联系。
关系模型通过表格的形式来组织数据,表格中的每一行代表一个实体,每一列代表一个属性。
关系模型能够提供灵活的数据查询和数据操作能力。
第三章:SQL语言结构化查询语言(SQL)是数据库系统中用于查询和操作数据库的标准语言。
SQL语言具有简洁、易学和强大的特点,能够帮助用户快速实现数据存储和查询操作。
本章内容将介绍SQL语言的基本语法和常用查询操作。
第四章:关系数据库设计关系数据库设计是数据库系统中一个关键的环节,它涉及到数据库的结构设计和数据模型设计。
合理的数据库设计可以提高数据存储和查询的效率,减少数据冗余和数据不一致的问题。
本章内容将介绍关系数据库设计的基本原理和方法。
第五章:高级关系数据库设计高级关系数据库设计是在关系数据库设计的基础上进一步优化和完善数据库的设计。
它包括了主键和外键的设计、索引的设计以及数据库规范化等内容。
通过高级关系数据库设计,可以提高数据库的性能和可靠性。
第六章:数据仓库与数据挖掘数据仓库和数据挖掘是数据库系统中的重要技术,用于从大量的数据中挖掘有价值的信息。
数据仓库是一个面向主题的、集成的和稳定的数据集合,数据挖掘是从数据仓库中发现隐藏在数据中的模式和规律。
本章内容将介绍数据仓库和数据挖掘的基本概念和方法。
第七章:NoSQL数据库NoSQL数据库是一种非关系型的数据库系统,它能够有效地处理大规模和高速增长的数据。
数据仓库技术介绍
数据仓库技术介绍数据仓库技术是企业数据管理和分析的关键工具。
它用于集成、存储和管理大量企业数据,为企业决策提供准确、一致和及时的信息。
数据仓库是一个面向主题的、集成的、稳定的、非易失性的数据集合,用于支持企业的决策制定过程。
数据仓库技术主要包括数据抽取、转换、加载(ETL)、数据建模、数据存储和数据查询等关键步骤。
首先,数据抽取是将源系统的数据提取到数据仓库中的过程。
它可以通过多种方式进行,如批量抽取、增量抽取和实时抽取等。
数据抽取还可以包括数据清洗、数据转换和数据集成等处理步骤,以确保抽取的数据质量和一致性。
其次,数据转换是将源系统的数据进行转换和处理,以满足数据仓库的需求。
这包括数据格式转换、数据清洗、数据合并、数据分割和数据聚合等操作。
数据转换可通过各种数据转换工具和编程语言来实现,如ETL工具和SQL语言等。
然后,数据加载是将转换后的数据加载到数据仓库中的过程。
数据加载可以采用批量加载或实时加载方式,具体取决于数据仓库的需求和实时性要求。
数据加载还可以包括数据质量检查和数据索引等步骤,以确保加载的数据准确性和高效性。
此外,数据建模是数据仓库中最重要的环节之一。
数据建模用于定义数据仓库的结构和关系,以满足用户查询和分析的需求。
常用的数据建模方法包括星型模型、雪花模型和事实表-维度表模型等。
数据建模还可以使用各种建模工具和规范来实现,如ER图表和维度建模等。
最后,数据存储是将转换后的数据存储在数据仓库中的过程。
数据存储可以使用各种存储技术,如关系型数据库、多维数据库和列式数据库等。
不同的存储技术具有不同的优点和适用场景,可以根据数据仓库的特点和需求来选择合适的存储技术。
总之,数据仓库技术是企业管理和决策的重要工具。
它通过数据抽取、转换、加载、建模和存储等关键步骤,为企业提供准确、一致和及时的数据信息,以支持企业的决策制定和业务发展。
数据仓库技术在企业中的应用越来越广泛。
它不仅可以帮助企业管理者更好地了解企业运营情况,还可以提供支持决策的可靠数据基础。
第12章习题及答案_客户关系管理
第十二章练习题一、选择题1.下面关于ERP的叙述,错误的是________A ERP未来的目标是提高灵活性B ERP系统是电子商务的基础C ERP不是一个单独的系统,而是一个应用系统的框架D自行开发的ERP软件由于是针对企业自身开发的,所以比现成的商业软件包要好2.企业的实施ERP软件时不应选择的策略是________A 分步实施B 分片全面实施C 全面实施D 各部门独立实施3.下面不属于供应链应用模式的是________A 按库存生产模式B 连续补货模式C 按订单生产模式D 差异化生产模式4.客户关系管理实施的核心是________A 客户关系管理的业务流程B 客户关系管理的系统软件支持C 建立客户中心D 客户关系管理的组织结构5.在供应链的运作过程中,________的需求拉动是供应链中信息流、产品/服务流、资金流运作的驱动源A 企业B 产品C 用户D 市场6.电子供应链是以________为平台A 数据库B 互联网C 计算机D 电子商务7.________是供应链的三个流中最重要也是最难以管理的A 信息流B 物流C 商流D 资金流8.________是供应链管理过程中处理物流信息的理想技术A EDIB 数据库技术C 自动识别和数据采集D 互联网技术9.________是整个系统结构的基础,同时也是定量分析工作的基础A 数据库B 数据挖掘技术C 数据仓库D 数据集市10.供应链管理和客户关系管理的整合,将真正实现企业实时响应客户需求,实现需求和供应链上的资源最优配置,从而全面提升企业的________A 市场占有率B 核心竞争力C 客户满意率D 客户忠诚度11.目前,供应链管理中,最常用的AIDC技术是________A 电子地图B 红外线技术C 条码技术D 编码技术12.下列说法不正确的是________A 连带销售成功的关键是要能提供互补性的产品或服务以加深与顾客的关系B 客户关系管理主要是在大公司得到重视和应用C 整合业务流程的关键就是要作到一致和简洁D 目前客户信息的获取成本比较高13.下列不属于客户关系管理目标的是________A 利用现存的客户关系增加收入B 创造新价值并培养顾客忠诚C 着重于开拓新市场和新客户D 创造新价值并培养顾客忠诚14.著名的管理大师Oliver和Webber提出和应用“供应链管理”这个术语是在________A 1982年B 1983年C 1984年D 1990年15.企业资源规划未来的目标是提高________A 方便性B 减低成本C 灵活性D 效益最大化16.电子供应链是以________为手段A 数据库B 互联网C 计算机D 电子商务17.________是整个供应链集成的基础A 信息集成B 物流集成C 产品集成D 数据库集成18.通过将________与供应链连接起来,再加上在供应链的上游与下游企业之间运用电子手段联系的能力,供应链就会反应迅速A 市场B 产品C 客户D 互联网19.供应链的形成、存在、重构,都是基于一定的________需求而发生A 企业B 产品C 用户D 市场20.________是为客户服务、市场营销、技术支持和其他的特定商业活动而接收和发出呼叫的一个实体A 广告中心B 后勤部门C 客户服务中心D 呼叫中心二、填空题1.一般的ERP软件的财务部分分为________与________两大块。
数据仓库技术介绍
内容提要
动机与需求 数据仓库技术 数据仓库在宝钢的实践 结束语
面临的问题
人们在日常生活中经常会遇到这样的情况: 超市的经营者希望将经常被同时购买的商品放在一
起,以增加销售; 保险公司想知道购买保险的客户一般具有哪些特征
; 医学研究人员希望从已有的成千上万份病历中找出
患某种疾病的病人的共同特征,从而为治愈这种疾病 提供一些帮助;
基础自动化 L1
宝钢的现状及需求
宝钢拥有许多传统的OLTP(联机事务处理)系统, 担负着许多重要的日常事物处理工作,在宝钢的生产 经营活动中扮演着重要角色。
经过多年的计算机应用,宝钢积累了大量丰富翔实 的原始生产实绩数据和各种业务数据,它反映了企业 生产经营过程中规律性的信息和知识,由于缺乏集中 存储和管理,对如何充分有效地利用这些数据,却一 直没有很好的解决方法,不能利用它们进行有效的统 计、分析及评估,无法将这些数据转换成企业真正有 用的信息。
……
企业面临的问题
经过多年的计算机应用和市场积累,许多企业保存 了大量原始数据和各种业务数据, 它是企业生产经营活 动的真实记录
由于缺乏集中存储和管理,这些数据不能为本企业 加以利用, 不能进行有效的统计、分析及评估,无法将 这些数据转换成企业有用的信息
数据爆炸问题
–自动的数据收集工具和成熟的数据库技术导致巨 大的数据存储在文件系统、数据库和其它的信息库 中。 –我们会淹死在数据中, 但却为信息、知识所饿!
面临的挑战
如何在堆积如山的企业交易数据中 发现具有商业价值的闪光点?
如何使您的企业或组织在激烈的市 场竞争中保持对客户的吸引力?
如何预先发现和避免企业运作过程 中不易察觉的商业风险?
宝钢计算机系统的架构
数据仓库技术教学大纲
《数据仓库技术》教学大纲课程中文名称:数据仓库技术课程英文名称:Data Warehouse technology课程类别:专业选修课课程编号:课程归属单位:计算机科学与信息学院制定时间:2010年12月28日一、课程的性质、任务1、课程目的及要求信息技术的迅速发展已从简单的批处理、联机事务处理的信息处理时代,进入了联机分析处理、数据仓库和数据挖掘的信息分析时代。
数据仓库技术以改进后的数据库技术作为存储数据和管理资源的基本手段,以统计分析技术作为分析数据和提取信息的有效手段,通过人工智能、神经网络、知识推理等数据挖掘方法来发现数据背后隐藏的规律,从而实现从“数据→信息→知识”的过程,为企业的管理阶层提供各种层次的决策支持。
本课程的教学目的是使学生通过该课程的学习,全面系统地了解数据仓库、联机分析处理(OLAP)、数据挖掘等三个层次的基本概念、原理和应用技术。
为从事数据仓库研究、设计、开发打下良好的基础。
2、适用专业及学时数适用专业:计算机应用技术开课时间:第二学期课程总学时:36学时学分数:2学分3、先修课程《数据库原理》4、教材及参考书教材:林宇等编著,数据仓库原理与实践,人民邮电出版社,2003.1参考书:【1】(美)William H.Inmon,数据仓库(第四版),机械工业出版社。
【2】陈文伟,数据仓库与数据挖掘教程,清华大学出版社。
【3】安淑芝,数据仓库与数据挖掘,清华大学出版社。
【4】徐洁磐,数据仓库与决策支持系统,科学出版社。
【5】陈京民,数据仓库与数据挖掘技术,电子工业出版社。
【6】池太崴,数据仓库结构设计与实施,电子工业出版社。
【7】朱德利,SQL Server 2005 数据挖掘与商业智能完全解决方案,电子工业出版社。
5、教学方法与教学形式教学方式:36个学时中,以自学、讨论、讲授想结合,36个学时之外以SQL Server 2005为平台学会设计并建立一个小型数据仓库(数据集市)模型。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
12.2 数据仓库基本概念
12.2.5 数据仓库数据是随时间不断变化的
数据仓库的用户在进行分析处理时是不进行 数据更新操作的。但并不是说, 从数据仓库数据整 体来看就一成不变了。恰恰相反,2 数据仓库基本概念
数据仓库的数据随时间不断变化是数据仓库 数据的第四个特征。这一特征表现在以下三方面: 第一, 数据仓库随时间变化将不断增加新的数 据内容。 第二, 数据仓库随时间变化不断删去旧的数据 内容。 第三, 数据仓库中包含有大量的综合数据, 这 些综合数据中很多跟时间有关。
第12章 数据仓库技术 12章
12.1 从数据库到数据仓库 12.2 数据仓库基本概念 12.3 数据仓库中的数据组织 12.4 数据仓库系统的体系结构 12.5 企业的体系化数据环境 12.6创建数据仓库 创建数据仓库 12.7 小结
12.1 从数据库到数据仓库
数据库管理系统作为数据管理的最新手段, 成功地用于事务处理领域尽管数据库在事务处理 方面的应用获得了巨大的成功。但它对分析处理 的支持一直不能令人满意,尤其是当以事务处理 为主的OLTP应用与以分析处理为主的DSS应用 共存于同一个数据库管理系统中时,这两种类型 的处理发生了明显的冲突。
12.2 数据仓库基本概念
我们用一个例子来详细说明。 一家采用“会员制”经营方式的商场,按业务 已建立起销售、采购、库存管理以及人事管理子 系统。按照其业务处理要求,建立了各子系统的 数据库模式: 采购子系统: 采购子系统 订单(订单号,供应商号,总金额,日期) 订单细则(订单号,商品号,类别,单价,数量) 供应商(供应商号,供应商名,地址,电话)
12.2 数据仓库基本概念
12.2.4 数据仓库的数据是不可更新的
数据仓库的数据反映的是一段相当长时间内 的历史数据,是不同时点的数据库快照的集合, 以 及基于这些快照进行统计、综合和重组的导出数 据,而不是联机处理的数据。OLTP数据库中的数 据经过抽取(Extracting)、清洗(Cleaning)、 转换(Transformation)后装载(Loading)到数据 仓库中, 一旦数据存放到数据仓库中,数据就不再 更新了。
12.3 数据仓库中的数据组织
高度综合级 轻度综合级 1996-2000年 每年销售表 1996-2000年 每月销售表 1996-2000年 销售明细表 1990-1995年 销售明细表
当前细节级 早期细节级
图12.2 利客隆连锁店数据仓库的数据组织
12.3 数据仓库中的数据组织
数据仓库中另一类重要的数据就是元数据。 所谓元数据(Metadata)是关于数据的数据,即 是对数据的定义和描述。数据仓库的元数据包括 与数据库的数据字典中的相似内容,括数据仓库 的特有的关于数据的描述信息。 元数据的内容在数据仓库设计、开发、实施 以及使用过程中不断完善,不仅为数据仓库的远 行提供必要的信息、描述和定义,还为DSS分析 人员访问数据仓库提供直接的或辅助的信息。
DW 与 DW服务 器
查询报表 外部数据
操作型数据 库数据 数据源 数据集市
数据挖掘 外部数据 前台工具
图12.3 数据仓库体系结构
12.4 数据仓库系统的体系结构
12.4.1 数据仓库的后台工具
数据仓库的后台工具,包括: 数据抽取(Extracting) 清洗(Cleaning) 转换(Transformation) 装载(Load) 维护(Maintain)
12.2 数据仓库基本概念
主题是一个在较高层次上对数据的抽象, 这 使得面向主题的数据组织可以独立于数据的处理 逻辑, 因而可以在这种数据环境上方便地开发新的 分析型应用;同时这种独立性也是建设企业全局 数据库所要求的, 所以面向主题不仅是适用于分析 型数据环境的数据组织方式, 同时也是适用于建设 企业全局数据库的组织。
12.2 数据仓库基本概念
销售子系统: 销售子系统 顾客(顾客号,姓名,性别,年龄,文化程度, 地址,电话) 销售(员工号,顾客号,商品号,数量,单价, 日期) 人事管理子系统: 人事管理子系统 员工(员工号,姓名,性别,年龄,文化程度, 部门号) 部门(部门号,部门名称,部门主管,电话)
12.2 数据仓库基本概念
12.2 数据仓库基本概念
基于上述操作型数据和分析型数据之间的区 别,我们可以给出数据仓库定义:数据仓库是一 个用以更好地支持企业或组织的决策分析处理的、 面向主题的、集成的、不可更新的、随时间不断 变化的数据集合。 数据仓库本质上和数据库一样是长期储存在 计算机内、有组织、可共享的数据集合。
12.2 数据仓库基本概念
2.在数据仓库中,对于商品采购的分析活动 主要是要了解各供应商的情况,显然“供应商” 是采购分析的对象。我们并不需要象“订单”和 “订单细则”这样的数据库模式,因为它们包含 的是纯操作型的数据;但是仅仅只用OLTP数据库 的“供应商”中的数据又是不够的,因而要重新 组织“供应商”这个主题。
12.2 数据仓库基本概念
12.3 数据仓库中的数据组织
数据仓库的数据组织结构如图12.1所示。 数据仓库中的数据分为多个级别:早期细节级、当 前细节级、轻度综合级、高度综合级。源数据经 过抽取、清洗、转换、后装载进数据仓库。首先 进入当前细节级。根据具体分析需求进一步综合 为轻度综合级乃至高度综合级。随着时间的推移 早期的数据将转入早期细节级。
库存管理子系统: 库存管理子系统 领料单(领料单号,领料人,商品号,数量, 日期) 进料单(进料单号,订单号,进料人,收料人, 日期) 库存(商品号,库房号,库存量,日期) 库房(库房号,仓库管理员,地点,库存商品 描述) 应该分为两个步骤来组织数据: 抽取主题以 及确定每个主题所应包含的数据内容。
12.2 数据仓库基本概念
表12.1 操作型数据和分析型数据的区别
操作型数据 细节的 在存取瞬间是准确的 可更新 操作需求事先可知道 生命周期符合SDLC 对性能要求高 一个时刻操作一元组 事务驱动 面向应用 一次操作数据量小 支持日常操作 分析型数据 综合的,或提炼的 代表过去的数据 不更新 操作需求事先不知道 完全不同的生命周期 对性能要求宽松 一个时刻操作一集合 分析驱动 面向分析 一次操作数据量大 支持管理决策需求
12.2 数据仓库基本概念
比照商场原有数据库的数据模式,我们可以 看到: 首先,在从面向应用到面向主题的转变过程 中,丢弃了与分析活动关系不大的信息。 其次,在原有的数据库模式中,关于商品的 信息分散在各子系统中。
12.2 数据仓库基本概念
面向主题的数据组织方式是根据分析要求将 数据组织成一个完备的分析领域, 即主题域。主题 域应该具有: 1. 1.独立性, 它必须具有独立内涵。 , 2. 完备性,就是要求对任何一个对商品的分 析处理要求, 我们应该能在“商品”这一主题内找 到该分析处理所要求的内容。
确定主题的数据内容 概括各种分析对象,我们抽取了商场的供应 商、商品、顾客三个主题。然后确定每个主题所 应包含的数据内容。以“商品”主题为例,应该 包括两个方面的内容: 第一,商品固有信息,如商 品名称,商品类别以及型号、颜色等描述信息; 第 二,商品的流动信息,如某商品采购信息、商品 销售信息及商品库存信息等。
12.4 数据仓库系统的体系结构
数据仓库系统总体上由以下几个部分组成: 数据仓库的后台工具、数据仓库服务器、OLAP 服务器和前台工具。 12.3 图12.3是一个典型的数据仓库系统的体系结 构。
12.4 数据仓库系统的体系结构
元数据管理工具 元数据 OLAP服务器 外部数据 抽取工具 转换工具 装载工具 维护工具 多维分析
12.2 数据仓库基本概念
分析处理和事务处理具有极不相同的性质, 因而两者对数据也有着不同的要求。 数据仓库概念的创始人W.H. Inmon在其 Building Warehouse 《Building Data Warehouse》一书中,列出了操 作型数据与分析型数据之间的区别,如表12.1所 示。
12.4 数据仓库系统的体系结构
为了将这些不一致的分散的数据集成起来, 必须对它们进行转换后才能供分析之用。数据抽 取、清洗、转换工具就是用来完成这些工作。 数据抽取工具主要通过网关或标准接口把原 来OLTP系统中的数据按照数据仓库的数据组织进 行抽取。 数据清洗主要是对源数据之间的不一致性进 行专门处理,并且要去除与分析无关的数据或不 利于分析处理的躁声数据。
12.4 数据仓库系统的体系结构
数据经过抽取、清洗和转换后,就可以装载 到数据仓库中,这由数据仓库的装载工具来实现。 装载工具要解决的另一个问题是对大数据量 OLTP 的处理。数据仓库中的数据量比OLTP系统要大得 多,进行装载需要很长的时间。目前通常的解决 方式有两种:并行装载和增量装载。并行装载是 把任务进行分解,充分利用CPU资源。增量装载 就是只装载修改的元组以减少需要处理的数据量。
12.4 数据仓库系统的体系结构
由于数据仓库的数据来源于多种不同的数据 源。它们可能是不同平台上异构数据库中的数据, 也可能是外部独立的数据文件、Web页面、市场 调查报告等等。 因此,这些数据常常是不一致的。例如: (1)同一字段在不同应用中具有不同数据类型; (2)同一字段在不同应用中具有不同的名字; (3)同名字段,不同含义。
12.1 从数据库到数据仓库
事务处理环境不适宜DSS应用的原因概括起 来主要有以下四个方面: (1)事务处理和分析处理的性能特性不同 (2)数据集成问题 (3)历史数据问题 (4)数据的综合问题 以上这些问题表明在事务型环境中直接构建 分析型应用是一种失败的尝试。数据仓库本质上 是对这些存在问题的回答。
12.3 数据仓库中的数据组织
高度综合级 轻度综合级 当前细节级 早期细节级
元 数 据
图12.1 数据仓库的数据组织结构
12.3 数据仓库中的数据组织
数据仓库中数据具有不同的综合级别,我们 一般称之为“粒度”。粒度是数据仓库数据组织 的一个重要概念。粒度越大、表示细节程度越低、 综合程度越高。 例如图12.2是利客隆连锁商店的数据仓库, 存放了各个地区历年的各种商品销售明细数据。 其中1990-1995年的销售明细数据已经成为历史 数据,对应早期细节级。当前细节级中存放19962000年的各地各种商品的销售明细表。轻度综合 级是1996-2000年每月销售表。高度综合级是 1996-2000年每年销售表。