浙江工商大学数据仓库与数据挖掘以及试卷真题回忆
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、数据仓库的定义:数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。
数据仓库特征:数据仓库是将原始的操作数据进行各种处理并转换成综合信息,提供功能强大的分析工具对这些信息进行多方位的分析以帮助企业领导做出更符合业务发展规律的决策。
2、数据仓库与数据库的相同点与不同点:
3、数据仓库的重要特性:面向主题性、集成性、时变性、非易失性、集合性和支持决策作用。
4、数据挖掘的定义:从技术角度看,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。
5、数据挖掘与数据仓库的关系:
●数据挖掘是数据仓库发展的必然结果:数据挖掘可以看作是联机分析处理的高级阶段。
●数据仓库为数据挖掘提供应用基础
总之,数据仓库为数据挖掘提供了更广阔的活动空间。数据仓库完成数据的收集、集成、存储和管理工作,数据挖掘面对的是经初步加工的数据,使得数据挖掘更能专注于知识的发现。
6、数据仓库的体系结构:数据仓库系统是由数据源、数据仓库的数据存储、数据仓库的应用工具和可视化用户界面组成。
7、主题数据是数据仓库的核心数据,一般以多维数据模型的形式存储在数据仓库中。
8、在数据仓库中涉及数据存储包括以下几种:数据源、主题数据、数据准备区和查询服务数据。
9、数据集市定义:数据集市一般是为满足某个业务部门进行分析决策的需求而建立的,我们可以将数据集市理解为部门级的数据仓库,数据仓库是数据集市的集合。如果一个数据集市不依赖于中央数据仓库,则这个数据集市为独立数据集市。
10、元数据的定义:元数据就是关于数据的数据。元数据是任何信息处理环境的一个重要组成部分。元数据描述了数据仓库的数据和环境,并使得用户能够更方便地使用数据仓库中的数据进行各种分析,辅助决策。
11、元数据的主要两种作用:元数据进行数据仓库的管理和通过元数据来使用数据仓库。用于对元数据进行管理的元数据称为管理元数据,而帮助我们使用数据仓库的元数据又称作用户元数据。
12、元数据的分类:根据元数据的内容我们将其分为四类:数据源元数据、预处理数据源元数据、数据仓库主题数据元数据、查询服务元数据。
13、数据仓库的数据模型:
●概念模型:多维数据模型是一种能够清楚地表达分析领域的数据模型。实体关系模型注重的是数据的结构,而
多维数据模型注重的是数据的含义。数据仓库的概念模型一般采用多维数据模型来建模。
在多维数据模型中,包含两种建模要素:观察事物的角度和观察得到的事实数据,前者被称作维度,后者被称作事实。一个分析领域或主题表达为由多个维度和一组事实数据构成的一个星型模型。
●一个数据仓库通常包含多个主题,其概念模型也就由多个星型模型组成。
●
14、数据仓库中的粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。越是详细的数据,粒度级别就越小;越是概括的的数据,粒度级别就越大。判断:粒度问题是设计数据仓库的一个非常重要的方面,它既是一个逻辑设计的问题,也是一个物理设计的问题。
15、数据分割是把大的数据集划分成多个较小的数据集,并分散到多个物理单元中进行存储,使它们能独立的被处理。粒度的划分和数据的分割对数据仓库的设计和实现有重大的影响。
16、确定粒度大小的一般原则:
●如果数据仓库的空间很有限的话,为了节省存储空间,宜采用大粒度集表示数据。
●如果追求数据仓库能够回答的问题类型的能力,要求能够回答非常具体的问题,那么使用较小的粒度级别。
●如果想要减轻服务器的负担,提高查询性能,则采用较大的数据集粒度。
●如果没有存储空间的限制,则可以在一个数据仓库中采用多重粒度级别,既存储多粒度级别的数据,也存储高
粒度级别的数据,以同时获得高的查询效率和查询能力。
17、数据仓库的建设应该以建立部门级的数据集市为出发点,同时统观全局,使建立的数据集市成为整个企业数据仓库的逻辑子集。从而由多个数据集市集成企业级的数据仓库。为了实施这种数据仓库建设的思想,提出了一种总线型的数据仓库结构,称之为数据仓库的总线型结构。这种数据仓库结构的核心思想是使用统一的维和统一的事实来构造数据仓库的总线。
18、统一的维是指该维可以在数据集市中共享,且不论它与哪个事实表相连接,维的含义都是完全相同的。
19、统一的事实是指一个事实数据,比如销售额,如果在多个数据集市中出现,则该事实数据必须是一致的。
20、在数据仓库管理中,最关键的是对数据的管理。
21、休眠数据的管理数据仓库管理的第一块基本内容。
22、数据仓库管理的三个基本内容:(1)休眠数据的管理;(2)元数据的管理;(3)数据清理。
23、休眠数据是那些存在与数据仓库中、当前并不使用的、将来也很少使用或者根本就不会使用的数据。
休眠数据会以多种方式进入数据仓库,我们在识别和处理它们之前需要理解它们的进入方式。造成这些休眠数据在数据仓库中存在的原因至少有四种:
●由于概括表格的创建
●由于错误估计实际上所需要的历史数据的年限
●由于随着时间的推移,需求的现实性逐渐明显
●由于坚持让详细数据驻留在数据仓库中
24、休眠数据的处理:查找休眠数据、删除休眠数据、选择删除的数据、确定访问可能性。我们认为数据仓库中包含25%到50%的休眠数据时,数据仓库的结构也许比较适当。
25、(必考填空)数据管理中最重要的一步是协调分布在多种数据仓库中的元数据,而建立企业级的中心知识库则是实现元数据管理的基本途径和关键。
26、脏数据进入的四种方式:
●数据源系统中的脏数据进入数据仓库
●不合适的集成造成脏数据进入数据仓库
●数据仓库中以前输入的数据过期
●用户需求的改变或添加了对数据质量有不同要求的用户
27、OLAP:联机分析处理OLTP:联机事务处理OLAM:联机分析挖掘FASMI共享多维信息的快速分析
28、好的OLAP应该具有的准则:基本特性、特殊特性、报表特性、维控制特性
29、OLAP的基本概念:
度量值:度量值是人们观察事物的焦点
维:维是人们观察事物的角度
多维数据集的度量值及其关联的维的维成员构成一个多维数据集,当维数为3时,多维数据集表现为一个数据立方体。多维数据集能支持各种各样的查询,是OLAP的核心。每一个多维数据集都可以用一个多维数组表示。
30、虚拟维度是基于物理维度内容的逻辑维度。
31、OLAP的基本操作主要包括对多维数据进行切片、切块、旋转、钻取等分析操作。
切片操作就是在某个或某些维上选定一个属性成员,而在其他维上取一定区间的属性成员或全部属性成员来观察数据的一种分析方式。切片就是在各个维上取一定区间的成员属性或全部成员属性来观察数据的一种分析方式。32、钻取包含下钻和上钻/上卷操作。下钻是从概括性的数据出发获得相应的更详细的数据,上钻则相反。旋转即改变一个报告或页面显示的维方向。
33(解答必考)OLTP称作联机事务处理,OLAP是继OLTP之后发展起来发展起来的一种技术。他们的区别如下:●OLAP和OLTP产生的背景和目的不同。前者的目的是通过对现有数据进行分析处理,获得信息,支持决策;而
后者的目的则是则是加速对业务数据的处理,支持企业的业务运作。
●使用的数据模型不同
●使用的综合程度不同
●OLAP中的数据不可更改,但需周期性的刷新;而OLTP中的数据可以更改
●对数据的处理不同。OLTP对数据进行操作型处理,一般运用SQL命令进行追加、删除、修改、简单查询等处理。
而OLAP则进行切片、切块、旋转、钻取等分析性处理。
34、在实施OLAP时,有两种实施方案可供选择:
●多维联机分析处理(MOLAP),直接采用多维数据库进行联机分析处理;
●关系联机分析处理(ROLAP),,采用关系数据库来存放多维数据进行联机分析处理
35、MOLAP和ROLAP的特征
●查询功能:MOLAP在查询性能和相应速度上要优于ROLAP
●空间占用:如果所有维成员组合都存在相应度量值,MOLAP比较节省空间,反之,当大量维成员组合不存在
相应度量值,MOLAP会造成空间大量浪费。
●分析查询能力:MOLAP在查询能力上要次于ROLAP如果建立功能复杂、规模较大的企业级数据仓库,则一般