数据仓库考试复习资料
数据库复习资料详细版
一、题型简答题、选择题、填空题、设计题、操作题、命令题。
二、考核范围第1、2、3、4、5、11、12章第1章信息是对现实世界中事物的存在特征、运动形态以及不同事物间的相互联系等多种属性的描述,通过抽象形成概念。
信息是关于事物以及事物间联系的知识。
信息一般分三类:事物的静态属性信息、动态属性信息、事物间的内在联系信息。
表达信息的符号记录就是数据。
数据是信息的载体,信息是数据的内涵。
计算机是处理数据的。
作为数据的符号在计算机中都转换成二进制符号“0”和“1”保存和处理。
数据处理指对数据收集、整理、组织、存储、维护、加工、查询和传输的过程。
为实现特定数据处理目标所需要的所有各种资源的总和称为数据处理系统。
一般情况下,主要指硬件设备、软件环境与开发工具、应用程序、数据集合、相关文档等数据库指长期存储在计算机存储设备上结构化、可共享、相关联的数据集合。
数据库系统是指在计算机中引入数据库后的系统构成,由计算机软硬件、数据库、DBMS、应用程序以及数据库管理员(DBA)和数据库用户构成。
核心是数据库和DBMS数据库管理系统是专门处理数据库的软件,数据库的所有工作,包括数据库的定义、数据的录入、查询、输出,及数据库的维护和安全保护,都通过DBMS 完成,是数据库系统的核心。
数据库设计的定义:对于给定的应用环境,设计构造最优的数据库结构,建立数据库及其应用系统,使之能有效地存储数据,对数据进行操作和管理,以满足用户各种需求的过程。
数据库设计采用的基本方法是结构化设计方法,这种方法将开发过程看成一个生命周期,也称为生命周期法。
其核心思想是将开发设计过程分成若干个步骤,主要包括:系统需求调查与分析、概念设计、逻辑设计、物理设计、实施与测试、运行维护等几个阶段。
数据模型,是对客观世界的事物以及事物之间联系的形式化描述,有层次模型、网状模型、关系模型三种。
概念模型面向用户,使用用户易于理解的概念、符号、表达方式来描述事物及其联系,它与任何实际DBMS都没有关联;同时,概念模型又易于向DBMS支持的数据模型转化。
数据仓库复习提纲
数据仓库复习提纲-标准化文件发布号:(9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII数据库应用技术(数据仓库与数据挖掘复习提纲)说明:考试形式:闭卷考试题型:填空、选择、判断、名词解释、简答题、综合题。
(由于试题是随机从试题库中抽取,有可能抽取的试题中不会全部包含上述的所有题型)另外:本提纲仅针对试题中的名词解释、简答题和综合题提供复习参考,不包括填空、选择、判断等其它题型的参考。
一、名词解释:1、数据仓库:是面向主题的、综合的、不同时间的、稳定的数据的集合,用以支持经营管理中的决策制定过程;2、数据挖掘:就是从大量数据中获取有效的、新颖的、潜在有用的、最终可以理解的模式的过程;简单的说是从大量数据中提取或挖掘知识,又被称为数据库中的知识发现。
3、操作数据存储:是一种DW的混合形式,它面向主题的、及时的、最近的和集成的信息,用于支持企业的日常的全局应用和决策制定,其中数据可以作为DW的通用数据源。
4、OLAP:是数据库系统主要应用,支持复杂的分析操作,侧重决策支持,且提供直观易懂的结果。
5、商业智能:是数据仓库(DW)、联机分析处理(OLAP)、数据挖掘等技术与资源管理系统ERP结合起来应用于商业活动实际过程中,实现了技术服务于决策的目的。
二、简答题:1、试叙述数据仓库系统与传统数据库系统的区别:(1)、操作型数据库中的数据针对事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的;(2)、操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是并构的,而数据仓库中的数据在对原有分期的数据库数据做抽取、清理的基础上经过系统的加工、汇总和整理得到的;(3)、操作型数据库中的数据通常实时更新,数据根据需要及时发生变化,数据仓库的数据主要用于决策分析,对涉及的数据操作主要是数据查询和定期更细,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存;(4)、操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含较久远的历史单位,因此总是包括一个时间维,以便可以研究趋势和变化。
数据仓库-期末考试复习题
数据仓库-期末考试复习题复思考题(重点)一、单项选择题1)一般信息管理中,采用哪种方式的概念模型最多A。
ce模型B.实体-关系模型C.02O模型D.B/S模型(2)在关系表中,下列哪种属性不能承担主列关键字(Key)?A.身份证号B.银行卡号C.加密电文D.企业标识码(3)数据仓库的生命周期中,不包含下列哪个阶段?A.规划分析阶段B.设计实施阶段C.使用维护阶段D.反馈提升阶段(4)多维切片是指:A.在多个维度上观察全员操作B.多个成员的操作片段C.旋转数据集的部分维度D.在线分析或联机分析(5)一般信息管理中,采用哪种方式的分布式物理模型最多A。
ce模型 B.实体-关系模型C.02O模型D.B/S模型(6)在关系表中,下列哪种属性可以成为外键(Key)?A.客户信用程度B.银行卡行号C.加密的身份证号D.实体商户地址(7)数据仓库的生命周期中,不包含下列哪个阶段排在第三阶段?A.规划分析阶段 B.设计实施阶段 C.使用维护阶段D.反馈提升阶段(8)多维报表是指:A.在多个维度上观察全员操作B.分歧维度花式分歧叠加展示C.旋转数据集的部分维度D.在线阐发或联机阐发(9)数据表的多维索引的感化是:A.使数据表更节省存储空间B.加快数据存储速率C.表格花式美观大方C.加快数据查找效率10)de布局中的MAP职能是?A.钻取B.汇聚C.分发D.结晶11)下列哪种客户需求能够直接成为数据堆栈的多维报表?A.客户销售业绩清单B.客户根本名册C.客户关系图表D.客户反馈信息(12)数据堆栈开辟强调哪种主体特征?A.信息安全性B.业务流程C.操作事务性D.数据实时性(13)数据仓库与数据库系统相比,更加提倡:A.空间换时间B.数据范式更严格C.冗余度更小C.更加适用于分布式结构(14)透视表属于OLAP中的哪种能力范畴?A.存储本领B.展示本领C.稳定性本领D.安全性本领(15)OLAP的系统布局分为:A.胖客户端系统和瘦客户端系统B。
数据仓库复习题
第一章概述1.数据挖掘的定义?(书P2,PPT_P8)从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
2.数据挖掘的源是否必须是数据仓库的数据?可以有哪些来源?(PPT_P14)关系数据库、数据仓库、事务数据库、高级数据等3.数据挖掘的常用方法?(P4、PPT_P29)聚类分析、决策树、人工神经网络、粗糙集、关联规则挖掘、统计分析等4.数据挖掘的过程包括哪些步骤,每一步具体包括哪些内容?(书P2-3,PPT_P17-19)确定业务对象、数据准备、数据挖掘、结果分析与知识同化。
5.数据挖掘与数据仓库的关系(联系和区别)?书P6-7,PPT_P45-46联系:1,数据仓库为数据挖掘提供了更好的,更广泛的数据源2,数据仓库韦数据挖掘提供了新的支持平台。
3,数据仓库为更好地使用数据挖掘工具提供了方便4,数据挖掘对数据仓库提供了更好的决策支持。
5,数据挖掘对数据仓库的数据组织提出了更高的要求6,数据挖掘还为数据仓库提供了广泛的技术支持区别:数据仓库是一种存储技术,它包含大量的历史数据、当前的详细数据以及综合数据,它能为不同用户的不同决策需要提供所需的数据和信息。
~~数据挖掘是从人工智能机器学习中发展起来的,它研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。
第二章数据仓库1.数据仓库的定义数据仓库——是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策定制过程。
2.数据仓库数据的四大基本特征:面向主题的、集成的、不可更新的、随时间变化的。
3.数据仓库体系结构有三个独立的数据层次:信息获取层、信息存储层、信息传递层。
4.粒度的定义?它对数据仓库有什么影响?(1)是指数据仓库的数据单位中保存数据细化或综合程度的级别。
粒度越小,细节程度越高,综合程度越低,回答查询的种类就越多。
(2)影响存放在数据仓库中的数据量大小;影响数据仓库所能回答查询问题的细节程度。
数据库管理员认证考试复习提纲
数据库管理员认证考试复习提纲一、数据库基础知识1、数据模型的分类?现在市面上流行的DBMS属于哪种模型?2、DB,DBS,DBMS的定义及其包含关系?3、关系运算的分类?二、创建和管理数据库1、SQL SERVER数据库的物理结构?2、怎样创建和管理数据库?3、了解文件组的概念,文件组的分类及使用文件组的优点?4、如何迁移和复制数据库?三、创建和管理表1、熟悉系统提供的常用数据类型(字符型、数值型、日期型三大类)。
2、SQL SERVER 2005对象标识符的命名规则?非标准标识符的使用方法?3、数据表的创建和修改以及删除的相关命令?4、如何设置标识列?只有哪种数据类型的列才能设置为标识列?5、数据的完整性规则包括哪些?分别由什么约束来实现?6、SQL SERVER 2005中约束的分类、各自的功能、创建方法?四、数据检索和更新1、SELECT语句的使用(1)必须包含的子句(2)一条完整的SELECT语句各子句的功能?例:SELECT FROM WHERE GROUP BY HA VING ORDER BY 等(3)如何消除查询结果集的重复行?(4)字符比较中通配符的使用(5)常用的聚合函数的功能(6)如何查询空值的情况(7)如何显示所需的前几条记录(8)分组汇总查询(9)如何筛选分组——利用HA VING子句(10)多表联接查询(11)多表联接的类型内部联接左外联接右外联接交叉联接(12)如何合并多个查询的结果集(13)如何使用子查询(普通子查询、相关子查询)2.如何修改表中的数据(插入、更新、删除)五、索引和视图1.使用索引的优缺点2.SQL SERVER 2005中索引的分类,各类索引的特点。
3。
创建索引的方法4。
如何规划索引(哪些字段是建索引的好候选列,哪些字段不是建索引的好候选列)5.视图的概念(视图是一个虚表)、优点、创建视图的SQL语句。
6。
各种视图(加密视图、绑定视图、索引视图)的区别。
计算机数据库考试题库
计算机数据库考试题库引言计算机数据库是现代信息管理的重要组成部分,它能够帮助我们有效地组织、存储和检索大量的数据。
在计算机数据库的学习和应用中,考试题库是我们经常面对的重要资源。
本文将为大家提供一份完整而全面的计算机数据库考试题库,帮助大家更好地备考和提高对数据库的理解。
一、关系型数据库1.关系模型2.关系代数3.SQL语言4.范式化理论5.事务管理二、非关系型数据库1.概述2.键值存储数据库3.文档存储数据库4.列存储数据库5.图形存储数据库三、数据库设计与优化1.概念设计2.逻辑设计3.物理设计4.索引与查询优化四、数据库安全1.用户权限管理2.数据备份与恢复3.故障与容错机制4.安全策略与措施五、数据仓库与数据挖掘1.数据仓库的概念与特点2.数据清洗与预处理3.数据挖掘算法4.数据可视化六、数据库管理系统1.体系结构2.并发控制3.事务管理4.缓存管理七、大数据与云数据库1.大数据技术与应用2.云计算与数据库3.分布式数据库4.数据流管理八、数据库应用与发展趋势1.数据库在各行业中的应用2.数据库领域的最新发展结语通过本文所提供的考试题库,相信大家会对计算机数据库有一个更加全面和深入的理解。
同时,希望大家在备考过程中注重对各个方面的学习和掌握,提高自己的数据库知识水平,为将来在实际应用中取得优异成绩打下坚实的基础。
参考文献:[参考文献1][参考文献2][参考文献3][参考文献4](注意:上述参考文献仅为示例,实际中需要根据自己所参考和引用的文献进行正确的标注)。
数据仓库与数据挖掘复习资料
1.数据仓库的概念和特点p11定义:一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员作出决策。
特性:面向主题的、集成的、非易失的、随时间不断变化的。
1、面向主题的:数据仓库以一个奇特或组织机构中固有的业务主题作为处理的主体,是从整体的、全局的角度来衡量这些主题在企业中的作用。
2、集成的:数据仓库必须将不一致的数据进行有效的集成,使之在数据仓库中有一致性的表示形式。
一致性问题只是集成所包含的一部分工作,另外还需要根据主题进行有效的数据组织。
3、非易失性:一旦操作型数据进入数据仓库,只要数据未超过数据仓库的数据存储期限,通常不对数据进行更新操作,而只进行查询操作。
即不进行一般意义上的更新,而且与操作型数据相比,更新频率要低得多,对时间的要求更为宽松。
4、随时间不断变化的(数据因时而变的特点)《与操作型数据比较的,书上14页》:(1)数据仓库中的数据的时间期限要远远长于操作型环境中的数据的时间期限。
操作型环境一般60-90天,数据仓库5-10年。
一个数据仓库的大小一般都是在100GB以上通常,数据仓库系统应该包含下列程序:(1)抽取数据与加载数据(2)整理并转换数据(采用一种数据仓库适用的数据格式)(3)备份与备存数据(4)管理所有查询(即将查询导向适当的数据源)数据仓库中的数据只是一系列某一时刻所生成的数据的复杂快照。
数据仓库的键码结构总是包含某时间元素。
2.数据仓库中的关键概念14外部数据源:就是从系统外部获取的同分析主题相关的数据。
数据抽取:是数据仓库按分析的主题从业务数据库抽取相关数据的过程。
现有的数据仓库产品几乎都提供关系型数据接口,提供抽取引擎以从关系型数据中抽取数据。
数据清洗:从多个业务系统中获取数据时,必须进行必要的数据清洗,从而得到准确的数据。
所谓“清洗”是指在放入数据仓库之前将错误的、不一致的数据予以更正或删除,以免影响DSS决策的正确性。
(15页有例子)数据转换:各种数据库产品所提供的数据类型可能不同,需要将不同格式的数据转换成统一的数据格式,称为数据转换。
数据仓库考试必看
数据仓库考试必看数据仓库复习1.信息的特征,医学信息与医学知识,医学决策⽀持系统;数据仓库的基本特征,数据组织基本特征,数据组织⽅式,数据集市,数据仓库系统的逻辑层次,数据装载,元数据;信息的特征语法特征:信息的语法特征包括信息的语法、存储和传递的描述对应的即“数据”语义特征:信息的语义特征表述的是信息的具体含义语⽤特征:信息的语⽤特征是针对信息的⽬的性⽽⾔,为⼀定的⽬的的服务,以减少不确定性1.数据仓库模型选取,数据仓库开发模式(课件⾥的数据仓库设计过程,概要,逻辑,物理好好看);2.OLAP的分类,OLAP与OLTP的联系与区别;MDX语⾔(与SQL的区别,⾃⾝的语法要素弄清楚);3.医学数据的组织(特点看看),医学数据仓库的设计(临床数据的新特点看看),医学数据仓库的管理(⾥⾯的各⼩点看看)PS:这些全是标题,⾄于哪句话是考到的,⼤家多看看!问答题也在⾥⾯!综合题在最近给PPT(最新的那⼀份)⾥!医学信息:是医学科学领域的信息,涉及医学、药物学、卫⽣学和医学管理等专门知识。
依据信息的语义特征和语⽤特征,医学信息可以解释为:⼀、医学信息是医学、医疗卫⽣、药物学和医学管理学为信息内容的;⼆,医学信息的处理依赖于以计算机技术为核⼼的信息技术。
医学知识:数据是信息的载体,是信息的语法表述。
经过解释的数据演化为信息,⽽对信息进⾏加⼯,集成为知识。
反过来,知识⼜指导数据解释。
医学知识有两种类型:⼀种是来⾃于医学⽂献,称为科学知识;另⼀种来⾃于临床专家,称为经验知识。
决策⽀持模型医学决策⽀持系统:医学知识应⽤到某⼀患者特定问题,提出具有最佳费⽤/效果⽐的解决⽅案的计算机系统。
医疗卫⽣中的决策模型主要有定量决策⽀持模型和定性决策⽀持模型两类定量模型的数据源主要取⾃于病⼈资料定性模型采⽤的特征⼀般有专家提出决策⽀持系统的类型:决策模型定量模型定性模型指导性模型贝叶斯法真值法决策树推理模型⾃动模型模糊集合布尔逻辑⾮参数划分专家系统神经⽹络数理逻辑评论式系统数据仓库的基本特征数据仓库的数据是⾯向主题的数据仓库的数据是集成的数据仓库的数据是⾮易失的数据仓库的数据是随时间不断变化的。
数据仓库试卷整理
考试时间5月24日,上午9:00-11:00地点:SY207题目来自于收集的照的照片,可能不太准确,还有一些看不清,大家看着复习。
能整理出答案最好了^_^~一、概念题(40分)请将如下概念串起来,描述概念之间的关系,每个概念不必单独解释。
企业信息系统架构、基础业务系统、数据仓库、数据挖掘、机器学习、RDBMS、HADOOP、Oracle、大数据、DB2、关系型数据库、多维分析引擎、数据集成、数据模型、元数据、决策支持系统二、简答题(共5道题,共计60分)1.如下两个图标分别是操纵系统环境与数据仓库环境在一天内的硬件资源典型使用率模式,横坐标是时间,纵坐标是使用率(0-100%)1)请说明为什么这两种环境的硬件资源使用率会有如此不同?(5分)2)请说明这种现象对企业信息系统架构设计的影响?(5分)2.在数据仓库环境的数据体系建设过程中,进行粒度设计时要考虑的因素有哪儿些?粒度分析为什么要与技术环境评估同时进行。
(12分)3.对于企业中常见的孤岛式信息系统架构和蜘蛛网信息系统利用架构,请完成如下要求:1)分别值出这两种架构产生的主要原因;2)指出这两种架构中存在的主要问题;3)给出解决这些问题的常见方案。
(15分)4.设有如下数据仓库的数据模型设计**,请(6)建立企业全局数据视图;(7)确定每个主题包含的实体集以及每个实体集的属性集;(8)确定粒度层次;(9)确定索引结构;(10)确定存储分配;(11)分析确定数据来源。
(11分)5.假设有3年的销售数据,有如下两种存储方案:方案1:在数据库系统中用户看的表只有一个,但是有6个分区,每半年一个物理分区。
方案2:在数据库系统中有6个独立的表,分别存储近三年的数据。
1)这两种方案哪个是数据库系统层分区,哪种是应用层分区?各有什么优缺点。
(8)2)数据分区对数据归档、数据清除有什么影响?(4)。
数据库复习题
数据库复习题数据库是计算机领域中非常重要的一个概念和技术,对于从事相关工作或者学习相关专业的人来说,掌握数据库的知识是必不可少的。
下面我们来一起复习一下数据库的相关知识点。
一、数据库的基本概念数据库(Database)是按照数据结构来组织、存储和管理数据的仓库。
它是长期存储在计算机内、有组织的、可共享的大量数据的集合。
数据(Data)是描述事物的符号记录,可以是数字、文字、图像、声音等。
数据库管理系统(DBMS)是位于用户与操作系统之间的一层数据管理软件,用于科学地组织和存储数据、高效地获取和维护数据。
常见的 DBMS 有 MySQL、Oracle、SQL Server 等。
数据库系统(DBS)是指在计算机系统中引入数据库后的系统构成,一般由数据库、数据库管理系统、应用系统、数据库管理员和用户构成。
二、数据模型数据模型是对现实世界数据特征的抽象,是数据库系统的核心和基础。
常见的数据模型有层次模型、网状模型、关系模型和面向对象模型。
关系模型是目前应用最广泛的数据模型,它用二维表格来表示实体和实体之间的联系。
关系模型中的术语包括关系、元组、属性、域、主键、外键等。
三、关系数据库关系数据库是基于关系模型建立的数据库。
关系数据库中的表(Table)由行(Row)和列(Column)组成,行称为元组,列称为属性。
在关系数据库中,要遵循一定的完整性约束,包括实体完整性、参照完整性和用户定义的完整性。
实体完整性要求表中的主键值不能为空且唯一。
参照完整性规定了外键的值必须是另一个表中主键的值或者为空。
四、SQL 语言结构化查询语言(SQL)是关系数据库的标准语言,用于对数据库进行查询、插入、更新和删除等操作。
SQL 中的查询语句(SELECT)是最常用的操作之一,可以根据各种条件从表中获取所需的数据。
例如,通过使用 WHERE 子句来指定筛选条件,使用 ORDER BY 子句来对结果进行排序。
插入语句(INSERT)用于向表中添加新的记录。
数据库总复习题库及解析
第1章练习题一、单项选择题1.在数据管理技术的发展过程中,经历了人工管理阶段、文件系统阶段和数据库系统阶段。
在这几个阶段中,数据独立性最高的是______阶段。
AA. 数据库系统B. 文件系统C. 人工管理D. 数据项管理2.数据库系统与文件系统的主要区别是______。
BA. 数据库系统复杂,而文件系统简单B. 文件系统不能解决数据冗余和数据独立性问题,而数据库系统可以解决C. 文件系统只能管理程序文件,而数据库系统能够管理各种类型的文件D. 文件系统管理的数据量较少,而数据库系统可以管理庞大的数据量3.数据库的概念模型独立于______。
AA. 具体的机器和DBMSB. E-R图C. 信息世界D. 现实世界4.由计算机、OS、DBMS、DB、应用程序及用户等组成的一个整体叫做______。
BA. 文件系统B. DBSC. 软件系统D. 数据库管理系统5.下述特征不是数据库的基本特点是______。
AA. 数据非结构化B. 数据独立性C. 数据冗余小,易扩充D. 统一管理和控制6.数据库具有_____、最小冗余度和较高的程序与数据独立性。
BA. 程序结构化B. 数据结构化C. 程序标准化D. 数据模块化7.在数据库中,下列说法______是不正确的。
AA. 数据库避免了一切数据的重复B. 若系统是完全可以控制的,则系统可确保更新时的一致性C. 数据库中的数据可以共享D. 数据库减少了数据冗余8.______是存储在计算机内有结构的数据的集合。
BA. DBSB. DBC. DBMSD. 数据结构9.在DB中存储的是______。
CA. 数据B. 数据模型C. 数据以及数据之间的联系D. 信息10.DB中,数据的物理独立性是指______。
CA. DB与DBMS的相互独立B. 用户程序与DBMS的相互独立C. 用户的应用程序与存储在磁盘上DB中的数据是相互独立的D. 应用程序与DB中数据的逻辑结构相互独立11.在数据库技术中,为了提高数据库的逻辑独立性和物理独立性,数据库的结构被分成用户级、______和存储级三个层次。
数据仓库复习资料提纲
数据库应用技术(数据仓库与数据挖掘复习提纲)说明:考试形式:闭卷考试题型:填空、选择、判断、名词解释、简答题、综合题。
(由于试题是随机从试题库中抽取,有可能抽取的试题中不会全部包含上述的所有题型)另外:本提纲仅针对试题中的名词解释、简答题和综合题提供复习参考,不包括填空、选择、判断等其它题型的参考。
一、名词解释:1、数据仓库:是面向主题的、综合的、不同时间的、稳定的数据的集合,用以支持经营管理中的决策制定过程;2、数据挖掘:就是从大量数据中获取有效的、新颖的、潜在有用的、最终可以理解的模式的过程;简单的说是从大量数据中提取或挖掘知识,又被称为数据库中的知识发现。
3、操作数据存储:是一种DW的混合形式,它面向主题的、及时的、最近的和集成的信息,用于支持企业的日常的全局应用和决策制定,其中数据可以作为DW的通用数据源。
4、OLAP:是数据库系统主要应用,支持复杂的分析操作,侧重决策支持,且提供直观易懂的结果。
5、商业智能:是数据仓库(DW)、联机分析处理(OLAP)、数据挖掘等技术与资源管理系统ERP结合起来应用于商业活动实际过程中,实现了技术服务于决策的目的。
二、简答题:1、试叙述数据仓库系统与传统数据库系统的区别:(1)、操作型数据库中的数据针对事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的;(2)、操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是并构的,而数据仓库中的数据在对原有分期的数据库数据做抽取、清理的基础上经过系统的加工、汇总和整理得到的;(3)、操作型数据库中的数据通常实时更新,数据根据需要及时发生变化,数据仓库的数据主要用于决策分析,对涉及的数据操作主要是数据查询和定期更细,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存;(4)、操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含较久远的历史单位,因此总是包括一个时间维,以便可以研究趋势和变化。
数据仓库与挖掘复习资料
数据仓库与挖掘复习资料一、第一章1、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据元数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
2、数据处理通常分成两大类:联机事务处理和联机分析处理。
3、多维分析是指对以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使用户能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5.ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
12、简述数据仓库4种体系结构的异同点及其适用性。
(1)两层架构。
(2)独立型的数据集市。
采用这种体系结构的优点是其方便性,可快速启动,这个数据仓库架构可通过一系列的小项目来实现。
(3)依赖型数据集市和操作型数据存储。
优势是它们可以处理各个用户群的需求,甚至是探索性数据仓库的需求。
(4)逻辑型数据集市和实时数据仓库。
是建立数据仓库的一种较佳方法,特别是在硬件性能不断提高,成本不断下降的条件下。
14、请列出3种数据仓库产品,并说明其优缺点。
答:1、IBM公司提供了一套基于可视化数据仓库的商业智能BI解决方案。
2、Oracle数据仓库解决方案主要包括Oracle Express和Oracle Discover两个部分。
3、Microsoft 将OLAP功能集成到SQL Server数据库中,其解决方案包括BI平台、BI终端工具、BI门户和BI应用四个部分。
二、什么是数据挖掘?(p4)数据挖掘就是从从大量数据数据中提取或“挖掘”知识,又被称为数据库中的知识发现。
三、数据仓库与传统的数据库有何区别?(1)数据库是面向事务的设计,数据仓库是面向主题设计的。
(2)数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。
(3)数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计时有意引入冗余,采用反范式的方式来设计。
数据仓库复习
1、数据仓库数据的四个基本特征: λ数据仓库的数据是面向主题的λ数据仓库的数据是集成的λ数据仓库的数据是不可更新的λ数据仓库的数据是随时间不断变化(数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的(时变的)、不可修改的(非易失的)数据集合,用于支持管理决策。
)2、数据仓库的技术要求:大量数据的组织和清理、复杂分析的高性能体现、对提取出来的数据进行集成、对进行高层决策的最终用户的界面支持。
4、事务处理环境不适宜DSS应用的原因:事务处理和分析处理的性能特性不同、数据集成问题、历史数据问题、数据的综合问题5、数据仓库中的关键概念:1、外部数据源2、数据提取/数据抽取,数据仓库按主题从业务数据库提取相关数据的过程。
3、数据清洗,企业建立很多不同的数据库数据的不一致将错误的、不一致的数据在进入数据仓库之前予以更正或删除,以免影响DSS决策的正确性。
4、数据转化把源数据的数据格式转换成统一的数据格式的过程5、数据加载把清洗后的数据装入数据仓库的过程6、ETL——用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
6、数据集市小型的、面向企业中的某个部门(主题)而在逻辑上或物理上划分出来的数据仓库中的数据子集。
(独立型和从属型)6、数据粒度:粒度是指数据仓库中数据单元的详细程度和级别。
数据越详细,粒度就越小,级别也就越低:数据综合度越高,粒度就越大,级别也就越高。
事务级数据的粒度最小,它是汇总型数据的数据源。
在数据仓库中粒度是不是越大越好。
粒度是对数据仓库中的数据综合程度高低的一个度量。
粒度会深刻地影响存放在数据仓库中的数据量的大小以及数据仓库所能够回答的查询类型。
因此,粒度应在数据仓库中的数据量大小与所能回答查询的细节级别之间要做出权衡。
7、数据分割:数据分割是指把数据分散存储到各自的物理单元中去,以便它们能独立地处理,提高数据处理效率及数据处理的灵活性。
数据仓库复习资料
一、选择题第一章:商务智能基本概念1.商务智能在企业管理中所发挥的作用主要体现在(B)等方面。
P4A.创造B.理解 C.分析 D.挖掘2.数据仓库则是商务智能的(A),使建立于数据仓库基础之上的商务智能可以更专注于商务信息的提取和商务知识的发现。
A.数据基础 B.文件汇集 C.分析基础 D.支持框架3.企业的数据空间由于历史原因会构成一个错综复杂的数据“蜘蛛网”,数据“蜘蛛网”的存在导致了企业决策的(D)。
P7A.一致 B.正确 C.混乱D.错误4.与数据库相比较,数据仓库内的数据是(D)。
P8A.动态变化的 B.随时更新的C.基本维持不变的 D.静态的、历史的5.数据仓库的基本功能包含(A),数据筛选、清理,清理后的数据加载,设立数据集市,完成数据仓库的查询、决策分析和知识的挖掘等操作。
P17A.数据抽取 B.数据选择 C.数据更新 D.数据添加6.由于数据仓库要分析事务的发展趋势,因此在将数据加载到数据仓库之前必须完成数据的(C)设置,是数据具有时间属性。
P20A.时间排序 B.年月日 C.时间戳 D.时分秒7.选择数据挖掘工具时,一半需要参照的评价标准有:模式种类的数量、解决复杂问题的能力、(A)、数据获取能力等。
P36A.操作性能 B.数据处理速度 C.数据传输速度 D.模式的类型8.数据挖掘过程中的挖掘模型构建是指挖掘目标,(A)。
P40A.设计挖掘算法模型 B.选择一个合适的挖掘算法C.对挖掘算法进行评价 D.对挖掘模式的类型进行评价9.由于数据仓库主要用于对管理决策提供支持,因此其响应时间(C)。
A.必须在数秒内完成 B.限定在毫秒级C.可能长达数小时 D.可能长达数年10.目前的商务智能体系架构主要有比尔·恩门的信息工厂、扎克曼的企业架构、美国数据仓库研究院的商务智能架构和加特纳公司的商务智能框架等。
但是这些架构均包含了商务分析、(D)、数据挖掘和数据仓库4部分。
P5A.DM B.DW C.OLTP D.OLAP第二章:数据仓库开发模型1.概念世界中的整体对应到计算机世界中的(B)。
数据仓库复习题
1.数据仓库的概念:数据仓库是一个面向主题的、集成的、非易失的,随时间变化的用来支持管理人员决策的数据集合。
数据仓库包含粒度化的企业数据。
数据仓库是体系结构化的核心;是决策支持系统处理的基础,是数据可重用性和一致性的基础。
2.粒度的概念:粒度指的是数据仓库中数据单元的细节程度或综合程度的级别。
细节程度越高,粒度级别就越低,查询范围越广泛;相反,细节程度越低,粒度级别就越高,查询范围越少。
3.操作型环境与数据仓库环境的硬件利用模式:操作型处理中有多个波峰和波谷,但总的来说,存在相对静态的且可预测稳定的硬件利用模式;数据仓库环境中利用的是二元模式。
要么利用全部硬件,要么根本不用硬件。
4.自然演化式体系结构化环境的四个层次:操作层、原子/数据仓库层、部门层、个体层。
其各个职能是:数据操作层只保存原始数据并且服务于高性能事务处理领域;数据仓库层存储不更新的原始数据,此外一些导出数据也在此存放;数据的部门层几乎只存放导出数据;数据个体层中完成大多数启发式分析。
5.自然演化式体系结构化环境的核心即两种基本数据:原始数据和导出数据6.数据仓库开发生命周期:数据仓库开发生命周期是CLDS(常称为“螺旋式”开发方法)。
CLDS是由数据开始,得到数据后,将数据集成。
然后,检验数据存在什么偏差。
之后,针对数据写程序,分析程序的执行结果,最后,系统需求才得到理解。
一旦系统需求得到理解,就需要对系统的设计进行调整,然后针对不同的数据集开始新的开发周期。
7.自然演化式体系结构的问题的描述及原因:自然演化式体系结构的问题有:数据可信性、生产率问题、无法将数据转化为信息、方法的变迁、体系结构化环境、体系结构化环境中的数据集成、用户是谁。
其原因是:数据无时间基准、数据算法上的差异、抽取的多层次问题、外部数据问题、无公共起始数据源。
8.数据仓库的结构的阐述:数据仓库环境中数据存在着不同的细节级:早期细节级(通常是存储在备用海量存储器上)、当前细节级、轻度综合数据级(数据集市级)以及高度综合数据级。
数据仓库与数据挖掘复习资料
数据仓库与数据挖掘简答题资料1.数据库与数据仓库的本质差别?《第一章》答:a.数据库是用于事务处理,数据仓库用于决策分析;b.数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据;c.数据仓库的数据是大量数据库的集成;d.对数据库的操作比较明确,操作数据量少。
对数据仓库操作不明确,操作数据量大。
e.数据库是细节的、在存取时准确的、可更新的、一次操作数据量小、面向应用且支持管理;数据仓库是综合或提炼的、代表过去的数据、不更新、一次操作数据量大、面相分析且支持决策。
2.联机分析处理(OLAP)的简单定义是什么?它体现的特征是什么?《第三章》联机分析处理简单定义:即OLAP是共享多维信息的快速分析。
体现了4个特征:a.快速性:用户对OLAP的快速反应能力有很高的要求。
b.可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。
c.多维性:多维性是OLAP的特点,系统必须提供对数据分析的多维视图和分析,包括对层次维和多重层次维的完全支持。
d.信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统都应能及时获得信息,并且管理大容量信息。
3.数据仓库两类用户有什么本质的不同?《第五章》数据仓库的用户有两类:信息使用者和探索者。
信息使用者是使用数据仓库的大量用户,信息使用者以一种可预测、重复性的方式使用数据仓库。
探索者完全不同于信息使用者,他们有一个完全不可预测的、非重复性的数据使用模式。
探索者查看海量详细数据,而概括数据则会妨碍探索者的数据分析。
探索者经常查看历史数据,且查看时间比使用者长的多。
探索者的任务是寻找公司数据内隐含的价值并且根据过去的事件努力预测未来决策的结果。
探索者是典型的数据挖掘者。
4.信息论的基本原理是什么?《第七章》一个传递信息的系统是由发送端(信源)和接收端(信宿)以及连接两者的通道(信道)组成的。
信息论把通信过程看做是在随机干扰的环境中传递信息的过程。
数据库期末复习重点(含答案)
1.数据( Data ) :描述事物的符号记录称为数据2.数据库( DataBase ,简称 DB ) :数据库是长期储存在计算机内的、有组织的、可共享的数据集合。
3.数据库系统( DataBas 。
Sytem ,简称 DBS ) :数据库系统是指在计算机系统中引入数据库后的系统构成,一般由数据库、数据库管理系统(及其开发工具)、应用系统、数据库管理员构成。
4.数据库管理系统( DataBase Management sytem ,简称 DBMs ) :数据库管理系统是位于用户与操作系统之间的一层数据管理软件,用于科学地组织和存储数据、高效地获取和维护数据。
5.数据库系统的特点1.数据结构化数据库系统实现整体数据的结构化,这是数据库的主要特征之一,也是数据库系统与文件系统的本质区别2.数据的共享性高,冗余度低,易扩充数据库的数据不再面向某个应用而是面向整个系统,因此可以被多个用户、多个应用以多种不同的语言共享使用。
由于数据面向整个系统,是有结构的数据,不仅可以被多个应用共享使用,而且容易增加新的应用,这就使得数据库系统弹性大,易于扩充3.数据独立性高数据独立性包括数据的物理独立性和数据的逻辑独立性。
4.数据由 DBMS 统一管理和控制数据库的共享是并发的共享,即多个用户可以同时存取数据库中的数据甚至可以同时存取数据库中同一个数据6.数据管理技术的产生和发展数据库技术是应数据管理任务的需要而产生人工管理、文件系统、数据库系统7.数据库管理系统的主要功能( l )数据库定义功能; ( 2 )数据存取功能; ( 3 )数据库运行管理;( 4 )数据库的建立和维护功能。
8.数据模型的组成要素数据结构、数据操作及完整性约束条件数据模型的种类1.层次模型2.网状模型3.关系模型4.面向对象模型5.对象关系模型9.模式:概念模式,也称逻辑模式,是对数据库系统中全局数据逻辑结构的描述,是全体用户(应用)公共数据视图10.数据库系统中的DBMS为三级模式结构提供了两层映像机制:外模式/模式映像和模式/内模式映像。
数据仓库_精品文档
一、选择题1、数据仓库是随时间变化的,下面的描述不正确的是:A、数据仓库随时间变化不断增加新的数据内容。
B、捕捉到的新数据会覆盖原来的快照。
C、数据仓库随时间变化不断删去旧的数据内容。
D、数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合。
答案: B2、关于基本数据的元数据是指:A、基本元数据包括与数据源、数据仓库、数据集市和应用程序等结构相关的信息。
B、基本元数据包括与企业相关的管理方面的数据和信息。
C、基本元数据包括日志文件和建立执行处理的时序调度信息。
D、基本元数据包括关于装载和更新处理、分析处理以及管理方面的信息。
答案: A3、下面有关数据粒度的描述不正确的是:A、粒度是指数据仓库小数据单元的详细程度和级别。
B、数据越详细,粒度就越小,级别也就越高。
C、数据综合度越高,粒度就越大,级别也就越高。
D、粒度的具体划分将直接影响数据仓库中的数据量以及查询质量。
答案: B4、有关数据仓库的开发特点,不正确的描述是:A、数据仓库开发要从数据出发。
B、数据仓库使用的需求在开发出去就要明确。
C、数据仓库的开发是一个不断循环的过程,是启发式的开发。
D、在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据的分析和处理更灵活,且没有固定的模式。
答案: B5、RAID技术具有容错能力,能够满足对存储能力、性能和可靠性不断提高的要求。
其实,实现原理是将数据写入多张磁盘中,如果—张磁盘发生故障,就从其他存放冗余数据的磁盘上访问数据。
有关RAID不同级别的描述不正确的是:A、在RAID 0这一级别上,数据记录通过在多组驱动器的扇区上交错地分布着实现,没有奇偶校验,不提供任何冗余。
B、RAID 1称为镜像。
在这一级别上,数据被冗余地写入成对的驱动器中,可以独立地从每个驱动器提取该数据。
这种方法没有什么缺点,是备份时候经常用到的技术。
C、RAID 3数据记录在成组驱动器上,位交错,只有一个驱动器仍有奇偶校验信息。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据仓库资料一、简答1、什么是元数据?元数据如何分类?请叙述元数据的作用。
答:元数据与数据字典类似,类似于电话黄页,是数据仓库数据本身信息的数据。
元数据的类型:1)操作性元数据2)抽取和转换元数据3)最终用户元数据元数据的作用:元数据负责连接数据仓库的所有部分,并为最终用户提供向导:1)易于数据仓库数据的理解2)保证数据质量3)提高系统的应用的适用度和可适展性4)便于信息交换。
2、数据仓库项目与OLTP系统项目有什么不同?答:存储数据不同:OLTP存储的是操作性数据,数据仓库中存储的是分析性数据对数据处理不同:OLTP是以传统的数据为中心进行企业日常处理,而数据仓库中的数据被用于分析背后的关联,为企业决策提供可靠的依据。
面向的使用人员不同:OLTP使用人员通常是企业中的具体操作员,处理的数据通常是企业业务细节信息,其目标是实现企业的业务运营。
而数据仓库的使用人员是企业中的高层,或是工程师,其中包含的信息是企业的宏观信息而非具体细节,其目的是为企业决策者提供支持。
3、MOLAP和ROLAP模型之间的本质区别是什么?列出它们的一些相同点。
答:本质区别:MOLAP是基于多维数据库来存储OLAP分析所需要的数据,数据以多维方式存储,并以多维视图方式显示,而ROLAP的底层数据库是关系数据库。
相同点:1)数据都作为关系表存储再数据仓库中2)都能获得一定成都的汇总数据3)都是从数据仓库存储器中访问数据4、什么是星型模式?什么是雪花模型?它由哪些表组成?答:星型模式:一种多维数据关系,由一个事实表和一组维表组成,每个维度表表达一个维,所有维度字段组成事实表的复合主键,事实表中的非主键属性称为事实,汇总出来的数值型数据大都是文字,时间等类型的数据。
雪花模式:它是对星型模式的一种扩展,比如日期,地区等多层次的维度的扩展,可类似扩展,是对星型模式进行规范化处理的产物,从消除数据冗余,从而使事实表,字段数和总长度降低。
它由一个事实表和一组维表组成。
5、简要说明对数据仓库概念的理解,并解释其与数据库的不同之处。
答:数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。
数据仓库的出现,并不是要取代数据库。
目前,大部分数据仓库还是用关系数据库管理系统来管理的。
可以说,数据库、数据仓库相辅相成、各有千秋。
简而言之,数据库是面向事务的设计,数据仓库是面向主题设计的。
数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。
数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。
数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。
维是看问题的角度,比如时间,部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID。
数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。
那么,数据仓库与传统数据库比较的不同之处在于:“面向主题的”:传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。
“与时间相关”:数据库保存信息的时候,并不强调一定有时间信息。
数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性。
决策中,时间属性很重要。
“不可修改”:数据仓库中的数据并不是最新的,而是来源于其它数据源。
数据仓库反映的是历史信息,并不是很多数据库处理的那种日常事务数据。
因此,数据仓库中的数据是极少或根本不修改的;当然,向数据仓库添加数据是允许的。
6、在数据仓库内进行数据迁移有哪四种方法?解释其中的两种。
答:第一种可选方法是使用可移动表空间,它能移动完整的表空间集合(不仅包括表,还包括索引、物化视图和其他对象)。
通常它还是这三种方法中最快的一种。
但是,它的一个主要缺点是对指定的表空间必须在复制文件时设置为只读。
第二种方法是使用数据泵,它对表空间是否为只读没有要求。
当只需要移动指定的表而不是整个表空间时,这种方法很有用。
第三种方法是拖出表空间,该方法把可移动表空间方法的所有步骤组合成一步操作。
用这种方法复制数据非常简单,但要想调整每个具体步骤以便进行性能优化时,它为数据库管理员提供的灵活性太少。
第四种方法是物化视图迁移。
7、为什么说ETCL功能是数据仓库环境中最有挑战性的工作?答:1)源系统彼此悬殊,种类多样2)通常应付多个平台上的不同操作系统3)很多源数据都使陈旧的应用系统采用的过时的技术4)取值不断变化的历史数据不会被保存在操作系统中,而历史信息对数据仓库至关重要5)很多旧系统中的数据质量不同,需要花很多时间处理6)源系统间普遍缺乏一致性7)源系统的结构随时间会发生变化,因新的商业元件不断出现,ETL功能也必须做相应的调整。
8)即使在不同源系统中已发现不一致的数据,也缺乏解决方法,这使不一致的问题更严重9)大多数源系统的数据格式和类型对用户没有实际意义。
8、数据质量问题有哪些?举例说出5钟数据污染源。
答:数据质量问题分类影响企业数据质量的因素有很多, 主要有:(1) 分布式的运营环境产生无用的冗余数据; 缺乏共同的标准; 采用不同的技术和架构, 不同的业务规范和数据模式。
(2) 技术水平限制造成元数据不准确, 数据不一致、数据重复、数据二义性等问题; 转换过程中的错误通常带来数据质量问题。
(3) 终端用户没有按照程序输入和维护数据, 只有最低限度控制能力的旧的遗留系统进一步加剧了这一问题。
(4) 企业中缺乏数据质量监督管理措施。
在企业信息系统建设中往往在业务流程上倾注过多的精力, 对于提高数据的质量不够重视。
(5) 数据产品作为一种特殊的资源存在于企业中, 它不可消耗, 可在系统和用户间共享, 可以复制和更新。
但它极易遭到破坏, 企业环境的动态变换也造成了数据的不稳定性。
9、解释并比较数据仓库中的信息和操作性系统中信息的使用及价值。
答:从技术上讲数据仓库的定义是"面向主题的,集成的,相对稳定的,反映历史变化的数据集合,用来支持决策分析."1)面向主题:传统的数据库系统中的数据是面向事务处理任务的,应用系统之间相互分离.而数据仓库中的数据是按照一定的主题域进行组织的,面向主题是个抽象的概念,是指企业利用数据仓库进行决策分析是所关心的重点问题,比如说"企业的经营状况,企业的财务状况,产品历年来的销售情况和销售趋势等等",通常一个主题与多个应用系统相关.2)集成性:面向事物处理的操作性数据库系统通常于特定的应用有关,数据库之间相互独立,并且是异构的,数据仓库是在对原有分散的数据库系统进行数据抽取,清洗的基础上经过汇总和整理得到,必须消除原数据的不一致性,以保证数据仓库中的数据是反映整个企业的一致的全局信息.3)稳定性:操作性数据库中的数据通常是实时更新的,数据根据具体需求做出变化,数据仓库中的数据是用来帮助企业进行决策分析的,一旦某个数据进入数据仓库,一般会被长期保留,也就是说数据仓库当中一般会有大量的插入和查询操作,删除和修改操作相对较少.只要定期更新和加载即可.4)反映历史变化:操作性数据库一般关心某段时间内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一点到当前各个时间段内的信息,通过这些信息,能够对企业的发展历程和发展趋势做出分析和预测企业级数据仓库建立是在业务系统和大量业务数据的基础上形成的,数据仓库不是静态的概念,必须将这些信息及时的交付给信息的使用者,供他们做出改善业务的决策.这样信息才有意义,并对这些信息进行整理和汇总,及时交付给管理决策人员.数据仓库是一个工程.10、数据网络仓库的总线体系结构是什么?它怎样才能适用于支持Web数据仓库?答:MPP服务器架构的并行处理能力适合于复杂的数据综合分析与处理环境。
当然,它需要借助于支持MPP技术的关系数据库系统来屏蔽节点之间负载平衡与调度的复杂性。
另外,这种并行处理能力也与节点互联网络有很大的关系。
显然,适应于数据仓库环境的MPP服务器,其节点互联网络的I/O性能应该非常突出,才能充分发挥整个系统的性能。
二、论述1、阅读以下关于数据仓库的叙述,回答[问题1]、[问题2]和[问题3]。
随着计算机应用的不断普及,某集团公司先后建立了生产、销售、财务、人事管理等应用系统,并积累了大量的数据。
面对日益激烈的市场竞争,公司领导希望建立一个分析环境,对积累的数据进行再加工,以支持高层决策。
公司技术部门的王总工程师提出建立一个数据仓库系统。
他认为数据仓库能够将企业内部分散的、跨平台的数据重新组织与加工,建立数据仓库的最终目标是建立一个全面、完善的信息应用平台,利用该信息平台,进行数据分析和数据挖掘,支持公司高层的决策分析。
经过讨论,大家认为目前建立数据仓库需要完成的基础工作有:(1)明确数据仓库的目的,了解公司的业务现状,特别要弄清数据源所在的系统和其中的数据状况。
(2)收集决策者的需求。
分析领导的决策取向和当前最主要的工作目标,并初步建立系统的逻辑模。
(3)构建数据仓库。
包括数据仓库的设计、组织和管理以及决策信息的展示。
(4)数据仓库的应用推广和人员的培训。
(5)引进必要的产品和工具。
[问题1]在讨论中,有些工程师提出了不同的意见。
有人认为由于缺乏经验,应该先建立小规模的数据集市,然后再升级到完整的数据仓库系统。
(1)简要叙述与数据仓库相比,数据集市具有哪些特点。
(2)简要说明这种开发方法的优缺点。
[问题2]王总工程师提出,对于数据仓库系统的开发,一般推荐采用增量的、演进的方式。
请说明如何用增量的、演进的方式开发数据仓库系统。
[问题3]有工程师建议在数据仓库的模型中,采用DB(源数据库)—ODS(操作数据存储)—DW(数据仓库)的模式,以替代0B(源数据库)—DW(数据仓库)的模式,请简要描述ODS(操作数据存储)与DW(数据仓库)的最大差别。
答:问题一:1)数据仓库是完整的,所有数据集市的集合。
从阶段区域得到的数据,基于公司视角的结构,通过实体-关系模式进行组织,数据集市是从部门考虑,一个单独的处理过程,是星型结构,适合数据连接和分析技术,是基于适合部门数据视角的结构。
2)这是自上而下的方法,其优点是:实施快捷方便,由良好的回报,风险小。
其缺点是:每个数据集市对数据视角都较窄,每个数据集市都由多余的数据,总由矛盾和不一致的数据。
问题二:增量开发模型第一个阶段目标是快速创建一个具有应用价值的初始数据仓库,首先了解已有数据,并初步了解管理用户需求,在此基础上初步确定及个用户非常关注的主题。
因此进行元数据的设计,后续阶段是在应用基础上,以增量演进方式逐步扩充和完善数据仓库系统。