数据仓库与数据挖掘教程(第2版)陈文伟版 课后部分习题答案

合集下载

数据仓库与数据挖掘课后习题答案

数据仓库与数据挖掘课后习题答案

数据仓库和数据挖掘第一章课后习题一:填空题1)数据库中存储的都是数据,而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据。

2)数据仓库中的数据分为四个级别:早起细节级、当前细节级、轻度综合级、高度综合级。

3)数据源是数据仓库系统的基础,是整个系统的数据源泉,通常包括业务数据和历史数据。

4)元数据是“关于数据的数据”。

根据元数据用途的不同将数据仓库的元数据分为技术元数据和业务元数据两类。

5)数据处理通常分为两大类:联机事务处理和联机事务分析6)Fayyad过程模型主要有数据准备,数据挖掘和结果分析三个主要部分组成。

7)如果从整体上看数据挖掘技术,可以将其分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。

8)那些和数据的一般行为或模型不一致的数据对象称做孤立点。

9)按照挖掘对象的不同,将Web数据挖掘分为三类:web内容挖掘、web结构挖掘和web 使用挖掘。

10)查询型工具、分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层,它们各自的侧重点不同,因此适用范围和针对的用户也不相同。

二:简答题1)什么是数据仓库?数据仓库的特点主要有哪些?数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。

主要特点:面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用2)简述数据挖掘的技术定义。

从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。

3)什么是业务元数据?业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据4)简述数据挖掘和传统分析方法的区别。

本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。

数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。

数据仓库与数据挖掘教程(第2版)课后习题答案 第二章

数据仓库与数据挖掘教程(第2版)课后习题答案 第二章

数据仓库与数据挖掘教程(第2版)课后习题答案第二章1. 什么是数据仓库?它与传统数据库有什么不同?答:数据仓库是一个面向主题、集成、稳定、可学习的数据集合,用于支持企业决策制定和决策支持系统。

与传统数据库相比,数据仓库更注重数据的整合和大数据的处理能力,以支持更高级别的数据分析和决策。

2. 什么是元数据?有哪些类型?答:元数据指描述数据仓库中数据的数据,用于描述数据的含义、格式、内容、质量、来源、使用和存储等方面的信息。

元数据有三种类型:技术元数据、业务元数据和操作元数据。

3. 数据仓库的架构有哪些组成部分?请简述各组成部分的作用。

答:数据仓库的架构主要包括数据源、数据抽取、清理和转换、存储和管理、元数据管理、查询和分析等几个组成部分。

- 数据源:指数据仓库的数据来源,可以是事务处理系统、外部数据源、第三方提供商等。

- 数据抽取、清理和转换:将数据从各种不同的来源抽取出来并转化为简单、标准的格式,以便进行加工和分析。

- 存储和管理:将经过抽取、转换和清洗后的数据存储在数据仓库中并进行管理,查找、更新和删除等操作。

- 元数据管理:对数据仓库中的元数据进行管理,并将其存储在元数据存储库中。

- 查询和分析:通过各种查询和分析工具来进行数据挖掘、分析和报告。

4. 请列出数据仓库中的三种主要数据类型。

答:数据仓库中的三种主要数据类型包括事实数据、维度数据和元数据。

5. 请列出数据仓库的三种不同的操作类型。

答:数据仓库的三种不同的操作类型包括基础操作、加工操作和查询操作。

6. 数据挖掘的定义是什么?答:数据挖掘是一种通过分析大量数据来发现有意义模式、趋势和关联的过程。

它是既包含统计学、机器学习和数据库技术的交叉学科,又包含更广泛的知识和业务领域。

7. 请列出数据挖掘中的四个主要任务。

答:数据挖掘中的四个主要任务包括描述性数据挖掘、预测性数据挖掘、关联数据挖掘和分类和聚类。

8. 数据仓库中经常使用OLAP分析方式,您了解OLAP是什么吗?答: OLAP是一种面向主题的数据分析方式,可以帮助用户对快速变化的数据进行多维分析和决策支持。

数据仓库与数据挖掘(陈志泊)课后习题答案

数据仓库与数据挖掘(陈志泊)课后习题答案

数据仓库与数据挖掘习题答案第1章数据仓库的概念与体系结构1. 面向主题的,相对稳定的。

2. 技术元数据,业务元数据。

3. 联机分析处理OLAP。

4. 切片(Slice),钻取(Drill-down和Roll-up等)。

5. 基于关系数据库。

6. 数据抽取,数据存储与管理。

7. 两层架构,独立型数据集市,依赖型数据集市和操作型数据存储,逻辑型数据集市和实时数据仓库。

8. 可更新的,当前值的。

9. 接近实时。

10. 以报表为主,以分析为主,以预测模型为主,以营运导向为主。

11. 答:数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。

数据仓库的特点包含以下几个方面:(1)面向主题。

操作型数据库的数据组织是面向事务处理任务,各个业务系统之间各自分离;而数据仓库中的数据是按照一定的主题域进行组织。

主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点领域,一个主题通常与多个操作型业务系统或外部档案数据相关。

(2)集成的。

面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。

而数据仓库中的数据是在对原有分散的数据库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企事业单位一致的全局信息。

也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义。

(3)相对稳定的。

操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。

数据仓库的数据主要供单位决策分析之用,对所涉及的数据操作主要是数据查询和加载,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存,几乎不再做修改和删除操作,也就是说针对数据仓库,通常有大量的查询操作及少量定期的加载(或刷新)操作。

数据仓库与数据挖掘课后答案

数据仓库与数据挖掘课后答案

Group 4 Chapter1-3CH11.数据库与数据仓库的本质差别是什么?答:数据库用于事务处理,数据仓库用来决策分析。

2.从数据库发展到数据仓库的原因是什么?答:①数据太多,信息贫乏。

②异构环境数据的转换和共享。

③利用数据进行事务处理转变为利用数据支持决策。

3.举例说明数据库与数据仓库的不同答:数据库(DB)数据仓库(DW)面向应用面向主题数据是详细的数据是综合的和历史的保持当前数据保存过去和现在的数据数据是可更新的数据不更新对数据操作是重复的对数据的操作是启发式的操作需求是事先可知的操作需求是临时决定的一个操作存取一个记录一个操作存取一个集合数据非冗余数据时常冗余操作比较频繁操作相对不频繁查询基本是原始数据查询基本是经过加工的数据事务处理需要的是当前数据决策分析需要过去和现在的数据很少有复杂的计算有很多复杂的计算支持事务处理支持决策分析4. 答:Oltp 联机事务处理,就是我们通常所说的关系型数据库,记录了实时的增删改查数据。

Olap 联机分析处理,是数据仓库的核心,是对oltp的历史数据进行加工,分析处理,用于处理商业智能,决策支持等重要的决策信息。

5.答:oltp是用户数据可以立即传送到计算中心进行处理,并在很短时间内给出处理结果。

它主要用于包括银行业、航空、邮购订单、超级市场和制造业等的输入数据和取回交易数据。

事务处理量大,要求多个并行处理,事务处理内容比较简单切重复率高。

大量的数据操作主要涉及的是一些增删改查询等操作,每次操作的数据量不打且多为当前的数据。

Oltp处理的数据是高度结构化的,数据访问路径是已知的,至少是固定的。

6.答:1.oltp 是明细的数据,olap 是汇总数据2.oltp 记录实时的数据,olap 包含2-3年历史数据3.oltp 可以进行增删改查操作,olap 只支持查询,但周期性刷新。

4.oltp一次性处理的数据量少,olap一次处理的数据量大5.oltp对响应时间要求高,olap响应时间合理6.oltp面向应用,事务驱动,olap面向分析,分析驱动7. 数据库中数据字典包括哪些内容?P4-5答:数据字典是指对中举的数据项、数据结构、数据流、数据存储、和处理过程8.元数据的定义是什么?P5答:元数据为关于数据的数据(data about data)。

数据挖掘课后题答案

数据挖掘课后题答案

数据挖掘——概念概念与技术Jiawei Han Micheline Kamber 著范明孟晓峰译第1章引言1.1 什么是数据挖掘?在你的回答中,针对以下问题:1.2 1.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。

解答:☒特征化是一个目标类数据的一般特性或特性的汇总。

例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。

☒区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。

☒关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如,一个数据挖掘系统可能发现的关联规则为:major(X, “c omputing science”) owns(X, “personalcomputer”) [support=12%, confid ence=98%]其中,X 是一个表示学生的变量。

这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。

☒分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

它们的相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。

☒聚类分析的数据对象不考虑已知的类标号。

数据仓库与数据挖掘教程(第2版)课后习题答案 第四章

数据仓库与数据挖掘教程(第2版)课后习题答案 第四章

第四章作业1.数据仓库的需求分析的任务是什么?P67需求分析的任务是通过详细调查现实世界要处理的对象(企业、部门用户等),充分了解源系统工作概况,明确用户的各种需求,为设计数据仓库服务。

概括地说,需求分析要明确用那些数据经过分析来实现用户的决策支持需求。

2.数据仓库系统需要确定的问题有哪些?P67、、(1)确定主题域a)明确对于决策分析最有价值的主题领域有哪些b)每个主题域的商业维度是那些?每个维度的粒度层次有哪些?c)制定决策的商业分区是什么?d)不同地区需要哪些信息来制定决策?e)对那个区域提供特定的商品和服务?(2)支持决策的数据来源a)那些源数据与商品的主题有关?b)在已有的报表和在线查询(OLTP)中得到什么样的信息?c)提供决策支持的细节程度是怎么样的?(3)数据仓库的成功标准和关键性指标a)衡量数据仓库成功的标准是什么?b)有哪些关键的性能指标?如何监控?c)对数据仓库的期望是什么?d)对数据仓库的预期用途有哪些?e)对计划中的数据仓库的考虑要点是什么?(4)数据量与更新频率a)数据仓库的总数据量有多少?b)决策支持所需的数据更新频率是多少?时间间隔是多长?c)每种决策分析与不同时间的标准对比如何?d)数据仓库中的信息需求的时间界限是什么?3.实现决策支持所需要的数据包括哪些内容?P68(1)源数据(2)数据转换(3)数据存储(4)决策分析4.概念:将需求分析过程中得到的用户需求抽象为计算机表示的信息结构,叫做概念模型。

特点:(1)能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世界的一个真实模型。

(2)易于理解,便利和用户交换意见,在用户的参与下,能有效地完成对数据仓库的成功设计。

(3)易于更改,当用户需求发生变化时,容易对概念模型修改和扩充。

(4)易于向数据仓库的数据模型(星型模型)转换。

5.用长方形表示实体,在数据仓库中就表示主题,椭圆形表示主题的属性,并用无向边把主题与其属性连接起来;用菱形表示主题之间的联系,用无向边把菱形分别与有关的主题连接;若主题之间的联系也具有属性,则把属性和菱形也用无向边连接上。

数据仓库与数据挖掘教程(第2版)陈文伟版课后习题答案(非常全)

数据仓库与数据挖掘教程(第2版)陈文伟版课后习题答案(非常全)

第一章作业1.数据库与数据仓库的本质差别是什么?书P2(1)数据库用于事务处理,数据仓库用于决策分析。

(2)数据库保持事物处理的当前状态,数据仓库即保存过去的数据又保存当前的数据。

(3)数据仓库的数据是大量数据库的集成。

(4)对数据库的操作比较明确,操作数量较小。

对数据仓库操作不明确,操作数据量大。

2.从数据库发展到数据仓库的原因是什么?书P1(1)数据库数据太多,信息贫乏。

如何将大量的数据转化为辅助决策信息成为了研究热点。

(2)异构环境数据的转换和共享。

随着各类数据库产品的增加,异构环境的数据也逐渐增加,如何实现这些异构环境数据的转换的共享也成了研究热点。

(3)利用数据进行事物处理转变为利用数据支持决策。

3.举例说明数据库与数据仓库的不同。

比如,银行中储蓄业务要建立储蓄数据库,信用卡要建立信用卡数据库,贷款业务要建立贷款数据库,这些数据库方便了银行的事务处理。

但是要对这些独立数据库进行决策分析就很复杂了。

因此可以把这些数据库中的数据存储转化到数据仓库中,方便进行决策。

4.OLTP(On Line Transaction Processing,联机事物处理)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。

OLAP(On Line Analytical Processing,联机分析处理)是使用多维数据库和多维分析的方法,对多个关系数据库共同进行大量的综合计算来得到结果的方法。

5.OLTP是用户的数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。

6.OLTP OLAP细节性数据综合性数据当前数据历史数据经常更新不更新,但周期性刷新一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理面向应用,事务驱动面向分析,分析驱动7.包括数据项、数据结构、数据流、数据存储和处理过程五个部分。

8.定义为关于数据的数据,描述数据仓库中数据及其环境的数据。

数据仓库与数据挖掘教程(第2版)课后习题答案第七章

数据仓库与数据挖掘教程(第2版)课后习题答案第七章

数据仓库与数据挖掘教程(第2版)课后习题答案第七章第七章作业1.信息论的基本原理是什么?一个传递信息的系统是由发送端(信源)和接收端(信宿)以及连接两者的通道(信道)组成的。

信息论把通信过程看做是在随机干扰的环境中传递信息的过程。

在这个通信模型中,信息源和干扰(噪声)都被理解为某种随机过程或随机序列。

在进行实际的通信之前,收信者(信宿)不可能确切了解信源究竟会发出什么样的具体信息,也不可能判断信源会处于什么样的状态。

这种情形就称为信宿对于信源状态具有不确定性,而且这种不确定性是存在于通信之前的,因而又叫做先验不确定性。

在通信后,信宿收到了信源发来的信息,这种先验不确定性才会被消除或者被减少。

如果干扰很小,不会对传递的信息产生任何可察觉的影响,信源发出的信息能够被信宿全部收到,在这种情况下,信宿的先验不确定性就会被完全消除。

但是,在一般情况下,干扰总会对信源发出的信息造成某种破坏,使信宿收到的信息不完全。

因此,先验不确定性不能全部被消除, 只能部分地消除。

换句话说,通信结束之后,信宿仍具有一定程度的不确定性。

这就是后验不确定性。

2.学习信道模型是什么?学习信道模型是信息模型应用于机器学习和数据挖掘的具体化。

学习信道模型的信源是实体的类别,采用简单“是”、“非”两类,令实体类别U 的值域为{u1,u2},U 取u1表示取“是”类中任一例子,取u2表示取“非”类中任一例子。

信宿是实体的特征(属性)取值。

实体中某个特征属性V ,他的值域为{v1,v2……vq}。

3.为什么机器学习和数据挖掘的分类问题可以利用信息论原理?信息论原理是数据挖掘的理论基础之一。

一般用于分类问题,即从大量数据中获取分类知识。

具体来说,就是在已知各实例的类别的数据中,找出确定类别的关键的条件属性。

求关键属性的方法,即先计算各条件属性的信息量,再从中选出信息量最大的属性,信息量的计算是利用信息论原理中的公式。

4自信息:单个消息ui 发出前的不确定性(随机性)称为自信息。

数据挖掘算法原理与实现第2版第三章课后答案

数据挖掘算法原理与实现第2版第三章课后答案

数据挖掘算法原理与实现第2版第三章课后答案
1.密度聚类分析:
原理:密度聚类分析是指通过测量数据对象之间的密度(density)
来将其聚成几个聚类的一种聚类分析方法。

它把距离邻近的数据归入同一
类簇,并把不相连的数据分成不同的类簇。

实现:通过划分空间中每一点的邻域来衡量数据点之间的聚类密度。

它将每个数据点周围与它最近的K个数据点用一个空间圆包围起来,以定
义该数据点处的聚类密度。

然后,可以使用距离函数将所有点分配到最邻
近的类中。

2.引擎树:
原理:引擎树(Search Engine Tree,SET)是一种非常有效的数据
挖掘方法,它能够快速挖掘关系数据库中指定的有价值的知识。

实现:SET是一种基于决策树的技术,通过从关系数据库的历史数据
中提取出有价值的信息,来建立一种易于理解的引擎树,以及一些有益的
信息发现知识,以便用户快速找到想要的信息。

SET对原始数据进行一系
列数据挖掘处理后,能够提取出其中模式分析的信息,从而实现快速、高
效的引擎。

3.最大期望聚类:
原理:最大期望聚类(Maximization Expectation Clustering,MEC)是一种有效的数据挖掘算法,它可以自动识别出潜在的类簇结构,提取出
类簇内部的模式,帮助用户快速完成类簇分析任务。

数据仓库与数据挖掘教程(第2版)课后习题答案 第二章

数据仓库与数据挖掘教程(第2版)课后习题答案 第二章

第二章作业1.画出数据仓库的结构图,说明各部分内容。

P18当前基本数据是最近时期的业务数据,是数据仓库用户最感兴趣的部分数据量大。

随着时间的推移,有数据仓库的时间控制机制转为历史数据,轻度综合数据是从当前基本数据中提取出来的,最高一层是高度综合数据层,这一层的数据十分精炼,是一种准决策数据。

2.说明数据仓库结构图中包含轻度综合层与高度综合数据层的作用。

这些数据为什么不是临时计算出来的。

P18-19数据仓库除了存储按主题组织起来的当前详细数据外,还需要存储综合数据,这是为了适应决策需求而增加的。

在数据库中需要得到综合数据时,采用数据立方体的方法对详细数据进行综合。

在数据仓库中并不采取临时计算的方式得到综合数据,而在用户提出需要综合数据之前,就预先将可能的综合数据利用数据立方体计算好,存入综合数据层中,这种综合数据层在用户查询时,能迅速提供给用户。

3.说明数据集市与数据仓库的区别和联系。

P20联系:数据集市是一种更小,更集中的数据仓库,为公司提供了一条分析商业数据的廉价途径。

数据集市是指具有特定应用的数据仓库,主要针对某个具有战略意义的应用或者具体部门级的应用,支持用户利用已有的数据获得重要的竞争优势或者找到进入新市场的具体解决方案。

区别:(1)数据仓库是基于整个企业的数据模型建立的,它面向企业范围内的主题。

而数据集市是按照某一特定部门的数据模型建立的。

(2)部门的主题与企业的主题之间可能存在关联,也可能不存在关联。

(3)数据集市的数据组织一般采用星型模型。

4.1、规模是小的2、特定的应用3、面向部门4、由业务部门定义,设计和开发5、由业务部门管理和维护6、快速实现7、购买较便宜8、投资快速回收9、更详细的、预先存在的数据仓库的摘要子集10、可升级到完整的数据仓库5.独立型数据集市直接从操作型环境获取数据,从属型数据集市从企业级数据仓库获取数据,带有从属型数据集市的体系结构。

6.原因:仓库管理:安全和特权管理;跟踪数据的更新;数据质量检查;管理和更新元数据;审计和报告数据仓库的使用和状态;删除数据;复制、分割和分发数据;备份和恢复;存储管理。

数据仓库与数据挖掘教程(第2版)课后习题答案第五章

数据仓库与数据挖掘教程(第2版)课后习题答案第五章

数据仓库与数据挖掘教程(第2版)课后习题答案第五章第五章作业1.数据仓库的两类用户有什么本质的不同?P96数据仓库的用户有两类:信息使用者和探索者。

信息使用者是使用数据仓库的大量用户,信息使用者以一种可以预测的、重复性的方式使用数据仓库平台。

探索者完全不同于信息使用者,他们有一个完全不可预测的、非重复性的数据使用模式。

2.数据仓库的信息使用者与数据库的信息使用者有什么不同?数据库的信息使用者主要关心当前某一个时间段内的数据,而数据仓库的信息使用者关心企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

3.1非规格化规范化的作用是产生一种完全没有数据冗余的设计方法。

但是,有时在数据仓库设计中引入一些有限的数据冗余来提高数据访问效果。

2创建数据阵列创建数据阵列,将相关类型的数据(如:1月、2月、3月等月份中的数据)存储在一起,提高访问效果。

3预连接表格一个公用键和共同使用的数据将表格合并在一起。

共享一个公用键,可以将多个表格合并到一个物理表格中。

这样做可以很大程度的提高数据访问效率。

4预聚集数据根据“滚动概括”结构来组织数据。

当数据被输入到数据仓库中时,以每小时为基础存储数据。

在这一天结束时,以每天为基础存储累加每小时的数据。

在一周结束时,以每周为基础存储累加每天的数据。

月末时,则以每月为基础存储累加每周的数据。

5聚类数据将不同类型的数据记录放置在相同的物理位置。

这为用户查看这些记录,可以在同一地点找到它们,提高查询效率。

6压缩数据压缩可以使可读取的数据量极大。

定期净化数据定期删除数据仓库中不需要的数据,可以为每个用户提高性能。

7合并查询如果查询定期发生,那么可以通过把这些查询合并到同一个表格中,从而节省大量资源。

4. 增加一些数据冗余,相当于增加了某些相同的数据,这些数据往往是我们很需要的或者是经常被使用的,由于这些数据所占总量的比例增加,所以被访问的概率增加,从而减少了查询时间,提高了查询速度。

数据仓库与数据挖掘教程(第2版)课后习题答案 第三章

数据仓库与数据挖掘教程(第2版)课后习题答案 第三章

第三章作业1.联机分析处理(OLAP)的简单定义是什么?它体现的特征是什么。

P40联机分析处理是共享多维信息的快速分析。

它体现在四个特征:(1)快速性(2)可分析性(3)多维性(4)信息性2.OLAP准则中的主要准则有哪些?P41(1)多维概念视图(2)透明性(3)可访问性(4)一直稳定的报表性能(5)客户/服务器体系结构(6)维的等同性(7)动态的系数矩阵处理(8)多用户支持能力(9)非限定的跨维操作(10)直观的数据操作(11)灵活的报表生成(12)不受限制的维和聚集层次3. 什么是维?关系数据库是二维数据吗?如何理解多维数据?P43维是人们观察数据的特定角度。

关系数据库不是二维数据,只是通过二维关系表示了数据的多维概念。

多维数据就是从多个特定角度来观察特定的变量。

4.MDDB(Multi Dimensional Database, 多维数据库)是以多维的方式组织数据,即以维作为坐标系,采用类似于数组的形式存储数据。

RDBMS(relational database management system,关系型数据库管理系统)通过数据、关系和对数据的约束三者组成的数据模型来存放和管理数据MDDB特点:1.数据库中的元素具有相同的数值2.多维数据库表达清晰,3.占用存储少RDBMS的特点:1.数据以表格的形式出现2.每行为各种记录名称3.每列为记录名称所对应的数据域4.许多的行和列组成一张表单5.若干的表单组成database5.1.数据存取速度ROLAP服务器需要将SQL语句转化为多维存储语句,临时“拼合”出多维数据立方体。

因此,ROLAP的响应时间较长。

MOLAP在数据存储速度上性能好,响应速度快。

2.数据存储的容量ROLAP使用的传统关系数据库的存储方法,在存储容量上基本没有限制。

MOLAP通常采用多平面叠加成立体的方式存放数据。

当数据量超过操作系统最大文件长度时,需要进行数据分割。

多维数据库的数据量级难以达到太大的字节级。

数据库第二版课后习题答案

数据库第二版课后习题答案

数据库第二版课后习题答案数据库第二版课后习题答案数据库是计算机科学中重要的概念之一,它提供了一种有效地存储和管理数据的方式。

数据库系统的设计与实现是数据库课程的重要内容之一。

在学习数据库课程时,课后习题是巩固知识和提高能力的重要途径。

本文将为大家提供数据库第二版课后习题的答案,希望对大家的学习有所帮助。

第一章数据库系统概述1. 数据库是什么?答:数据库是一个有组织的、可共享的、可维护的数据集合,它以一定的数据模型为基础,描述了现实世界中某个特定领域的数据和关系。

2. 数据库系统的特点有哪些?答:数据库系统具有以下特点:- 数据的独立性:数据库系统将数据与程序相分离,使得数据的修改不会影响到程序的运行。

- 数据的共享性:多个用户可以同时访问数据库,并且可以共享数据。

- 数据的冗余性小:通过数据库系统的数据一致性和完整性约束,可以减少数据的冗余性。

- 数据的易扩展性:数据库系统可以方便地进行扩展和修改,以满足不同需求。

- 数据的安全性:数据库系统提供了权限管理和数据加密等机制,保证数据的安全性。

第二章关系数据库与SQL1. 什么是关系数据库?答:关系数据库是一种基于关系模型的数据库,它使用表格(关系)来表示和存储数据。

关系数据库中的数据以行和列的形式组织,每个表格代表一个实体集,每一行代表一个实体,每一列代表一个属性。

2. 什么是SQL?答:SQL(Structured Query Language)是一种用于管理关系数据库的语言。

它包含了数据定义语言(DDL)、数据操纵语言(DML)和数据控制语言(DCL)等部分。

通过SQL,用户可以对数据库进行创建、查询、更新和删除等操作。

第三章数据库设计1. 数据库设计的步骤有哪些?答:数据库设计的步骤包括:- 需求分析:确定数据库的需求和目标,了解用户的需求。

- 概念设计:根据需求分析的结果,设计数据库的概念模型,包括实体、属性和关系等。

- 逻辑设计:将概念模型转换为逻辑模型,包括表格的设计、关系的建立和约束的定义等。

数据仓库和数据挖掘思考题答案完整版

数据仓库和数据挖掘思考题答案完整版

考试思考题数据仓库的主要特点,数据仓库的主要应用;特点(P6):(1)数据仓库是面向主题的(2)数据仓库是集成的(3)数据仓库是稳定的(4)数据仓库是随时间变化的(5)数据仓库中数据量很大(6)数据仓库软硬件要求较高。

应用:数据仓库可以用于建立决策支持系统(P13)数据仓库的决策支持功能有:(1) 对当前和历史数据完成查询和报表处理(2) 可以用不同方法进行“如果,将怎样(what-if)”分析(3) 从综合数据到细节数据,深入追踪钻取查询,寻找问题出现原因(4) 认清过去的发展趋势,并将其应用于对未来结果的分析(5)商业智能(P14)1、元数据的定义以及元数据的主要特点;元数据定义(P5):元数据被定义为关于数据的数据。

元数据的主要特点(P5):元数据在数据仓库中不仅定义了数据仓库有什么,还指明了数据仓库中信息的内容和位置木刻画了数据的抽取和转换规则说明,存储了与数据仓库主题有关的各种商业信息,而整个数据仓库的运行都是基于元数据的,如元数据的修改、跟踪、抽取、装入、综合以及使用等。

因为元数据遍及数据仓库的所有方面,因此它已经成为整个数据仓库的核心。

2、商业智能的主要特点和发展方向;P14 P15-16主要特点:(1)商业智能以数据仓库为基础,通过联机分析处理和数据挖掘技术帮助企业领导者针对市场变化的环境做出快速准确的决策。

(2)信息共享(3)实时反馈分析(4)鼓励用户找出问题的根本原因(5)使用主动智能(6)实时智能发展方向:商业智能的发展要求其不仅仅能为决策层提供支持,同时也能服务于普通的业务人员;不仅能从整个战略层面进行综合分析,还能够在具体的战术层面进行详细指导。

主要特点:1、即时性传统手工数掘处理,从数掘收集、整理到分类、汇总,都需要经历漫长的时间过程。

但是,商业智能使用的技术,可以实时地从业务系统中获得最新的数据。

在对时间性敏感的决策分析中,这一点尤其重要。

2、准确性在准确性方面,因为计算机数据处理,避免了手工操作中存在的失误,所以计算结果是绝对准确和可靠的。

数据仓库与数据挖掘教程(第2版)课后习题答案 第六章

数据仓库与数据挖掘教程(第2版)课后习题答案 第六章

第六章作业1.数据挖掘与知识发现两个概念有什么不同?P116知识发现被认为是从数据中发现有用知识的整个过程。

数据挖掘被认为是知识发现过程中的一个特定步骤,它用专门算法从数据中抽取模式。

2.知识发现过程由哪三部分组成?每部分的工作是什么?P116KDD过程可以概括为三个子步骤:数据准备、数据挖掘和结果的解释和评价。

数据准备:数据准备又可分为三个子步骤:数据选取、数据预处理和数据变换。

数据选取的目的是确定发现任务的操作对象,即目标数据,它是根据用户的需要从原始数据库中抽取的一组数据。

数据预处理一般可能包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换(如把连续值数据转换为离散型的数据,以便于符号归纳;或是把离散型的转换为连续值型的,以便于神经网络归纳)等。

当数据开采的对象是数据仓库时,一般来说,数据预处理已经在生成数据仓库时完成了。

数据变换的主要目的是消减数据维数或降维,即从初始特征中找出真正有用的特征以减少数据开采时要考虑的特征或变量个数。

数据挖掘:数据挖掘是利用一系列方法或算法从数据中获取知识。

按照数据挖掘任务的不同,数据挖掘方法分类分为聚类、分类、关联规则发现等。

结果的解释和评价:数据挖掘阶段发现的模式,经过用户或机器的评估,可能存在冗余或无关的模式,这时需要将其剔除;也有可能模式不满足用户要求,这时则需要让整个发现过程退回到发现阶段之前,如重新选取数据、采用新的数据变换方法、设定新的数据挖掘参数值,甚至换一种挖掘算法(如当发现任务是分类时,有多种分类方法,不同的方法对不同的数据有不同的效果)。

另外,由于KDD最终是面向人类用户的,因此可能要对发现的模式进行可视化,或者把结果转换为用户易懂的另一种表示,如把分类决策树转换为“if...then...”规则。

3.数据挖掘的对象有哪些?他们各自的特点是什么?P1181.关系数据库特点:(1)数据动态性(2)数据不完全性(3)数据噪声(4)数据冗余性(5)数据稀疏性(6)海量数据2.文本特点:(1)关键词或特征提取(2)相似检索(3)文本聚类(4)文本数据3.图像与视频数据特点:(1)图像与视频特征提取(2)基于内容的相似检索(3)视频镜头的编辑与组织4.web数据(1)异构数据集成和挖掘(2)半结构化数据模型抽取4.1).关联分析若两个或多个数据项的取值之间重复出现且概率很高时,它就存在某种关联,可以建立起这些数据项的关联规则。

《数据仓库与数据挖掘技术》作业参考答案

《数据仓库与数据挖掘技术》作业参考答案
频繁项集 {面包、 花生酱} 产生的规则 面包→花生酱 花生酱→面包 置信度 0.75 1 强关联规则 面包→花生酱 花生酱→面包 置信度 0.75 1
关联规则 {面包 }→ {花生酱}、{ 花生酱}→ {面包 }均是强关联规则。
2、参考上题作答
3、解答
(1)每个类的先验概率 P(Playbasketball=”Yes”)=8/12 P(Playbasketball=”No”)=4/12 (2)为计算 P(X/Ci),i=1,2,计算下面的条件概率: P(Outlook=”sunny ”|Playbasketball=”Yes”)=1/8 P(Outlook=”sunny ”|Playbasketball=”No”)=3/4 P(Temperature=”cool”|Playbasketball=”Yes”)=3/8 P(Temperature=”cool”|Playbasketball=”No”)=1/4 P(Humidity=”high”|Playbasketball=”Yes”)=3/8 P(Humidity=”high”|Playbasketball=”No”)=3/4 P(Wind=”strong ”|Playbasketball=”Yes”)=2/8 P(Wind=”strong ”|Playbasketball=”No”)=2/4 (3)使用以上概率,可以得到: P(X|Playbasketball=”yes”)=(1/8)*(3/8)*(3/8)*(2/8)=0.004395 P(X|Playbasketball=”No”)=(3/4)*(1/4)*(3/4)*(2/4)=0.070313 P(X|Playbasketball=”yes”)P(Playbasketball=”yes”)=0.004395*(8/12)=0.00293 P(X|Playbasketball=”No”) P(Playbasketball=”No”)=0.070313*(4/12)=0.023438 (4)因此,对于样本 X,朴素贝叶斯分类预测 Playbasketball=”No”。

数据仓库与数据挖掘教程(第2版)陈文伟版课后部分习题答案

数据仓库与数据挖掘教程(第2版)陈文伟版课后部分习题答案

数据仓库与数据挖掘教程(第2版)陈⽂伟版课后部分习题答案第⼀章数据仓库与数据挖掘概述1.数据库与数据仓库的本质差别是什么?答:数据库⽤于事务处理,数据仓库⽤于决策分析;数据库保持事务处理的当前状态,数据仓库既保存过去的数据⼜保存当前的数据;数据仓库的数据是⼤量数据库的集成;对数据库的操作⽐较明确,操作数据量少,对数据仓库操作不明确,操作数据量⼤。

数据库是细节的、在存取时准确的、可更新的、⼀次操作数据量⼩、⾯向应⽤且⽀持管理;数据仓库是综合或提炼的、代表过去的数据、不更新、⼀次操作数据量⼤、⾯向分析且⽀持决策。

6.说明OLTP与OLAP的主要区别。

答:OLTP针对的是细节性数据、当前数据、经常更新、⼀次性处理的数据量⼩、对响应时间要求⾼且⾯向应⽤,事务驱动;OLAP针对的是综合性数据、历史数据、不更新,但周期性刷新、⼀次处理的数据量⼤、响应时间合理且⾯向分析,分析驱动。

8.元数据的定义是什么?答:元数据(metadata)定义为关于数据的数据(data about data),即元数据描述了数据仓库的数据和环境。

9.元数据与数据字典的关系什么?答:在数据仓库中引⼊了“元数据”的概念,它不仅仅是数据仓库的字典,⽽且还是数据仓库本⾝信息的数据。

18.说明统计学与数据挖掘的不同。

答:统计学主要是对数量数据(数值)或连续值数据(如年龄、⼯资等),进⾏数值计算(如初等运算)的定量分析,得到数量信息。

数据挖掘主要对离散数据(如职称、病症等)进⾏定性分析(覆盖、归纳等),得到规则知识。

19.说明数据仓库与数据挖掘的区别与联系。

答:数据仓库是⼀种存储技术,它能适应于不同⽤户对不同决策需要提供所需的数据和信;数据挖掘研究各种⽅法和技术,从⼤量的数据中挖掘出有⽤的信息和知识。

数据仓库与数据挖掘都是决策⽀持新技术。

但它们有着完全不同的辅助决策⽅式。

在数据仓库系统的前端的分析⼯具中,数据挖掘是其中重要⼯具之⼀。

它可以帮助决策⽤户挖掘数据仓库的数据中隐含的规律性。

数据仓库与数据挖掘教程(第2版)课后习题答案第八章

数据仓库与数据挖掘教程(第2版)课后习题答案第八章

第七章作业第七章作业说明等价关系、等价类以及划分的定义。

说明等价关系、等价类以及划分的定义。

等价关系:对于∀a ∈A (A 中包含一个或多个属性),A ⊆R ,x ∈U ,y ∈U ,他们的属性值相同,即fa (x )= b (y )成立,称对象x 和y 是对属性A 的等价关系。

的等价关系。

等价类:在U 中,对属性集A 中具有相同等价关系的元素集合成为等价关系IND (A )的等价类。

的等价类。

划分:在U 中对属性A 的所有等价类形成的划分表示为A={Ei | Ei=[xi]a ,i=1,2,… }说明集合X 的上、下近似关系定义。

的上、下近似关系定义。

下近似定义:下近似定义:任一一个子集X ⊆U ,属性A 的等价类Ei=[x]A ,有:A-(X )=U{Ei|Ei ∈A ∧Ei Ei⊆⊆X} 或A-(X )={x|[x]A ={x|[x]A⊆⊆X} 表示等价类Ei=[x]A 中的元素x 都属于X ,即∀x ∈A-(X ),则x一定属于X 。

上近似定义:上近似定义:任一一个子集X ⊆U ,属性A 的等价类Ei=[x]A ,有:A-(X )=U{Ei|Ei ∈A ∧Ei ∩X ≠∅}或A-(X )={x|[x]A ∩X ≠∅} 表示等价类Ei=[x]A 中的元素x 可能属于X ,即∀x ∈A-(X ),则x 可能属于X ,也可能不属于X 。

说明正域、负域和边界的定义。

说明正域、负域和边界的定义。

全集U 可以划分为三个不相交的区域,即正域(pos ),负域(neg )和边界(bnd ): POSA(X)= A-(X )NEGA(X)=U- A-(X ) BNDA(X) = A-(X )-A-(X )4.粗糙集定义:粗糙集定义:若 ,即,即 , 即边界为空,称X 为A 的可定义集;的可定义集; 否则X 为A 不可定义的,不可定义的,即 ,称X 为A 的Rough 集(粗糙集)集(粗糙集) 确定度定义:确定度定义: ()A U A X A X X U a ----=其中U 和A X A X ---分别表示集合U 、(AX AX ---)中的元素个数)中的元素个数5. 在信息表中根据等价关系,我们可以用等价类中的一个对象(元组)来代表整个等价类,这实际上是按纵方向约简了信息表中数据。

最新【整理】数据挖掘概念与技术第2版习题答案资料

最新【整理】数据挖掘概念与技术第2版习题答案资料

数据挖掘——概念概念与技术DataMiningConcepts and Techniques习题解答Jiawei Han Micheline Kamber 著范明孟晓峰译1.3假设你是BigUniversity的软件工程师,任务是设计一个数据挖掘系统,分析学校课程数据库。

该数据库包括如下信息:每个学生的姓名、地址和状态(例如本科生或研究生)、所修课程以及他们的GPA (平均积分点)。

描述你要选取的结构。

该结构的每个成分的作用是什么?答:该应用程序的数据挖掘的体系结构应包括以下主要组成部分:数据库,数据仓库,万维网或其他信息库:这是一个或一组包含学生和课程信息数据库、数据仓库、电子表格或其他类型的信息库;数据库或数据仓库服务器:根据用户数据挖掘请求,数据库或数据仓库服务器负责提取相关数据;知识库:这是领域的知识,用于指导搜索或评估结果模式的兴趣度。

数据挖掘引擎:这是数据挖掘系统的基本部分,理想情况下由一组功能模块组成,用于执行特征化、关联和相关分析、分类、预测、聚类分析、离群点分析和演变分析等任务。

模式评估模块:该成分使用兴趣度度量,并与数据挖掘模块交互,以便将搜索聚焦在有兴趣的模式上。

用户界面:该模块在用户和数据挖掘系统之间通信,允许用户与系统交互,说明挖掘查询或任务,提供信息以帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。

1.4 数据仓库和数据库有何不同?有哪些相似之处?p8 答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。

它用表组织数据,采用ER 数据模型。

相似:它们都为数据挖掘提供了源数据,都是数据的组合。

1.5 简述以下高级数据库系统和应用:对象-关系数据库、空间数据库、文本数据库、多媒体数据库、流数据和万维网。

答:对象-关系数据库的设计是基于面向对象的编程范式的数据是大量对象类和类层次结构组织。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第一章数据仓库与数据挖掘概述1.数据库与数据仓库的本质差别是什么?答:数据库用于事务处理,数据仓库用于决策分析;数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据;数据仓库的数据是大量数据库的集成;对数据库的操作比较明确,操作数据量少,对数据仓库操作不明确,操作数据量大。

数据库是细节的、在存取时准确的、可更新的、一次操作数据量小、面向应用且支持管理;数据仓库是综合或提炼的、代表过去的数据、不更新、一次操作数据量大、面向分析且支持决策。

6.说明OLTP与OLAP的主要区别。

答:OLTP针对的是细节性数据、当前数据、经常更新、一次性处理的数据量小、对响应时间要求高且面向应用,事务驱动; OLAP针对的是综合性数据、历史数据、不更新,但周期性刷新、一次处理的数据量大、响应时间合理且面向分析,分析驱动。

8.元数据的定义是什么?答:元数据(metadata)定义为关于数据的数据(data about data),即元数据描述了数据仓库的数据和环境。

9.元数据与数据字典的关系什么?答:在数据仓库中引入了“元数据”的概念,它不仅仅是数据仓库的字典,而且还是数据仓库本身信息的数据。

18.说明统计学与数据挖掘的不同。

答:统计学主要是对数量数据(数值)或连续值数据(如年龄、工资等),进行数值计算(如初等运算)的定量分析,得到数量信息。

数据挖掘主要对离散数据(如职称、病症等)进行定性分析(覆盖、归纳等),得到规则知识。

19.说明数据仓库与数据挖掘的区别与联系。

答:数据仓库是一种存储技术,它能适应于不同用户对不同决策需要提供所需的数据和信;数据挖掘研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。

数据仓库与数据挖掘都是决策支持新技术。

但它们有着完全不同的辅助决策方式。

在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。

它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。

数据仓库和数据挖掘的结合对支持决策会起更大的作用。

23.数据仓库与联机分析处理、数据挖据在决策知识方面有什么不同?答:数据仓库中有大量的综合数据,为决策者提供了综合信息。

数据仓库保存有大量历史数据,通过预测模型计算可以得到预测信息。

联机分析处理(OLAP)对数据仓库中的数据进行多维数据分析,即多维数据的切片、切块、旋转、钻取等,得到更深层中的信息和知识。

数据挖掘(DM)技术能获取关联知识、时序知识、聚类知识、分类知识等。

数据仓库(DW)、联机分析处理(OLAP)、数据挖掘(DM)等结合,形成决策支持系统。

25.画出基于数据仓库的决策支持系统的结构图。

答:第二章 数据仓库原理1、画出数据仓库结构图,说明各部分内容。

答:高度综合数据层:这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。

轻度综合数据:是从近期基本数据中提取出的,这层数据是按时间段选取,或者按数据属性(attributes )和内容(contents )进行综合。

当前基本数据:是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。

历史基本数据:近期基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。

2、说明数据仓库结构图中包含轻度综合数据层与高度综合数据层的作用。

这些数据是根据需要临时计算的吗?高度综合数据层:这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。

轻度综合数据:是从近期基本数据中提取出的,这层数据是按时间段选取,或者按数据属性(attributes )和内容(contents )进行综合。

3、说明数据集市与数据仓库的区别与联系。

答:区别:(1)数据仓库是基于整个企业的数据模型建立的,它面向企业范高度综合数据轻度综合数据当前基本数据历史数据层围内的主题。

而数据集市是按照某一特定部门的数据模型建立的。

(2)部门的主题与企业的主题之间可能存在关联,也可能不存在关联。

(3)数据集市的数据组织一般采用星型模型。

大型数据仓库的数据组织,如NCR公司采用第三范式。

联系:数据集市(Data Marts)是一种更小、更集中的数据仓库,为公司提供分析商业数据的一条廉价途径。

11、说明星形模型有什么好处。

答:大多数的数据仓库都采用“星型模型”。

星型模型是由“事实表”(大表)以及多个“维表”(小表)所组成。

“事实表”中存放大量关于企业的事实数据(数量数据)。

星型模型在进行多维数据分析时,速度是很快的。

17、说明数据抽取工作的内容。

答:当前值:源系统中存储的数据都代表了当前时刻的值。

当商业交易时,这些数据是会发生变化的。

周期性的状态:这类数据存储的是每次发生变化时的状态。

18、说明数据转换的基本功能。

答:选择:从源系统中选择整个记录或者部分记录。

分离/合并:对源系统中的数据进行分离操作或者合并操作。

转化:对源系统进行标准化和可理解化。

汇总:将最低粒度数据进行汇总。

清晰:对单个字段数据进行重新分配和简化。

21、说明数据库中的元数据以及数据仓库中的元数据的不同。

答:元数据定义了数据仓库有什么,指明了数据仓库中数据的内容和位置,刻画了数据的抽取和转换规则,存储了与数据仓库主题有关的各种商业信息,而且整个数据仓库的运行都是基于元数据的。

数据库元数据相当于数据库系统中的数据字典。

26、数据仓库中的元数据如何发挥作用的。

答:(1)元数据告诉数据仓库中有什么数据,它们从哪里来。

即如何按主题查看数据仓库的内容。

(2)元数据提供已有的可重复利用的查询语言信息。

如果某个查询能够满足他们的需求,或者与他们的愿望相似,他们就可以再次使用那些查询而不必从头开始编程。

关于数据仓库使用的元数据能帮助用户到数据仓库查询所需要的信息,用于解决企业问题。

第三章联机分析处理1、联机分析处理(OLAP)的简单定义是什么?它体现的特征是什么?答:联机分析处理是共享多维信息的快速分析。

它体现了四个特征:(1)快速性:用户对OLAP的快速反应能力有很高的要求。

(2)可分析性:OLAP系统应能处理任何逻辑分析和统计分析。

(3)多维性:系统必须提供对数据分析的多维视图和分析。

(4)信息性:OLAP系统应能及时获得信息,并且管理大容量的信息。

5、比较ROLAP与MOLAP在数据存储、技术及特点上的不同。

答:数据存储:ROLAP服务器需要将SQL语句转化为多维存储语句,临时“拼合”出多维数据立方体。

因此,ROLAP的响应时间较长。

MOLAP在数据存储速度上性能好,响应速度快。

ROLAP使用的传统关系数据库的存储方法,在存储容量上基本没有限制。

MOLAP通常采用多平面叠加成立体的方式存放数据。

技术及特点:MOLAP能够支持高性能的决策支持计算。

ROLAP无法完成多行的计算和维之间的计算。

MOLAP增加新的维度,则多维数据库通常需要重新建立。

ROLAP对于维表的变更有很好的适应性。

当数据频繁的变化时,MOLAP需要进行大量的重新计算,甚至重新建立索引乃至重构多维数据库。

在ROLAP中灵活性较好,对于数据变化的适应性高。

ROLAP对软硬件平台的适应性很好,而MOLAP相对较差。

7、举例说明多维数据显示的两种不同方法。

答:Array9、举例说明四维数据显示。

13、举例说明OLAP的多维数据分析的切块操作。

答:第四章数据仓库的设计与开发1、数据仓库的需求分析的任务是什么?答:1.确定主题域;2.支持决策的数据来源;3.数据仓库的成功标准和关键性能指标;4.数据量与更新频率4、什么是概念模型?它的特点是什么?答:概念模型是对真实世界中问题域内的事物的描述。

概念模型的特点是:(1)能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世界的一个真实模型。

(2)易于理解,便利和用户交换意见,在用户的参与下,能有效地完成对数据仓库的成功设计。

(3)易于更改,当用户需求发生变化时,容易对概念模型修改和扩充。

(4)易于向数据仓库的数据模型(星型模型)转换。

7、解释下图的概念模型。

答:有两个主题:商品和客户,主题也是实体。

商品有如下属性组:商品的固有信息(商品号、商品名、类别、价格等);商品库存信息(商品号、库房号、库存量、日期等);商品销售信息(商品号、客户号、销售量等);客户有如下属性组:客户固有信息(客户号、客户名、住址、电话等);客户购物信息(客户号、商品号、售价、购买量等)。

商品的销售信息与用户的购物信息是一致的,它们是两个主题之间的联系。

9、数据仓库的逻辑模型与数据库的逻辑模型有什么不同?答:数据仓库逻辑模型主要工作为:(1)主题域进行概念模型(E —R 图)到逻辑模型(星型模型)的转换;(2)粒度层次划分;(3)关系模式定义;(4)定义记录系统数据库逻辑模型主要工作为:主题域进行概念模型(E —R 图)到逻辑模型(星型模型)的转换13、什么是物理模型?数据仓库的物理模型设计包括哪些工作?答:物理模型用来确定一个最适合应用要求的物理结构(包括存储结构和存取方法)。

包括:(1)估计存储容量;(2)确定数据的存储计划;(3)确定索引策略;(4)确定数据存放位置;(5)确定存储分配20、说明数据仓库开发的4个阶段和12个步骤答:1、分析与设计阶段 (①需求分析②概念设计③逻辑设计④物理设计)2、数据获取阶段(⑤数据抽取⑥数据转换⑦数据装载)3、决策支持阶段(⑧信息查询⑨知识探索)4、维护与评估阶段(○10数据仓库增长○11数据仓库维护○12数据仓库评估)22、简要说明数据仓库开发的数据获取阶段的内容。

答:1、数据抽取:①对数据源的确认②确定数据抽取技术③确认数据抽取频率④按照时间要求抽取数据。

2、数据转换:①数据格式的修正②字段的解码③单个字段的分离④信息的合并⑤变量单位的转化⑥时间的转化⑦数据汇总。

3、数据装载:①初始装载②增量装载③完全刷新。

23、简要说明数据仓库开发的决策支持阶段的内容。

答:1、信息查询:①创建数据阵列②预连接表格③预聚集数据④聚类数据。

2、知识探索:①发现的问题并找出原因②采用数据挖掘工具来获取商业知识。

29、数据仓库技术包括哪些内容?答:1、管理大量数据2、数据的高效装入和数据压缩3、存储介质的管理。

第五章 数据仓库的管理与应用1、数据仓库管理与数据库管理有什么本质不同?答:数据仓库管理主要包括用户使用数据仓库的管理和数据管理3、数据仓库管理主要包括哪些部分?答:1、用户使用数据仓库的管理;2、数据管理4、信息使用者和探索者的任务有什么不同?答:1.信息使用者使用数据仓库的性能优化:非规格化;创建数据阵列;预连接表格;预聚集数据;聚类数据;压缩数据;定期净化数据;合并查询2.探索者使用数据仓库的性能优化:概括分析(分析数据的完整性和准确性(数据质量)。

);抽取(数据抽取的任务就是从数据仓库中抽取指定的数据,并组织起来,送入支持探索者分析的探索仓库中。

相关文档
最新文档