数据仓库与数据挖掘(陈志泊)课后习题答案

合集下载

数据仓库与数据挖掘_青岛大学中国大学mooc课后章节答案期末考试题库2023年

数据仓库与数据挖掘_青岛大学中国大学mooc课后章节答案期末考试题库2023年

数据仓库与数据挖掘_青岛大学中国大学mooc课后章节答案期末考试题库2023年1.非频繁项集的超集有可能是频繁的。

参考答案:错误2.决策树中不包含以下哪种节点。

参考答案:外部节点(external node)3.数据集成是将多个数据源中的数据结合起来存放在一个一致的数据存储(如数据仓库)中。

数据源可能涉及多个数据库、数据立方体或一般文件。

参考答案:正确4.数据取样时,除了要求抽样时严把质量关外,还要求抽样数据必须在足够范围内有代表性。

参考答案:正确5.若属性income的平均值和标准差分别为32000元和17000元,则使用z-score规范化后,65600元被转换为:参考答案:1.9766.朴素贝叶斯算法能够解决特征之间有相关性的问题。

参考答案:错误7.OLAP技术的核心是:参考答案:多维分析8.假定某属性的最小与最大值分别为8000元和14000元。

要将其映射到区间[0.0,1.0],按照最小-最大规范化方法对属性进行变换,属性值12600将变换为:参考答案:0.7679.后验概率P(H|X)表示条件X下H的概率。

参考答案:正确10.只要有两个频繁3项集,就一定能够生成一个候选4项集。

参考答案:错误11.先验概率是根据历史资料或主观估计的方法得到的概率。

参考答案:正确12.公司里面男性有60人,女性有40人,男性穿皮鞋的人数有25人,穿运动鞋的人数有35人,女性穿皮鞋的人数有10人,穿高跟鞋的人数有30人。

现在你只知道有一个人穿了皮鞋,推测他是男性的概率为:参考答案:0.71413.数据归约是用来得到数据集的归约表示,它比源数据集小得多,但仍接近于保持源数据的完整性。

参考答案:正确14.数据分类由两步过程组成:第一步,建立一个分类模型,描述指定的数据类集或概念集;第二步,使用模型进行分类。

参考答案:正确15.假设吸烟的本科生比例为15%,而吸烟的研究生占23%。

如果五分之一的大学生是研究生,其余的是本科生,那么吸烟的学生是研究生的概率是多少?参考答案:0.27716.决策树构建之后,为了避免过度拟合,需要对树进行剪枝。

数据仓库与数据挖掘习题.doc

数据仓库与数据挖掘习题.doc

数据仓库与数据挖掘习题. .数据仓库与数据挖掘习题1.1什么是数据挖掘?在你的回答中,强调以下问题:(a) 它是又一个骗局吗?(b) 它是一种从数据库,统计学和机器学习发展的技术的简单转换吗?(c) 解释数据库技术发展如何导致数据挖掘(d) 当把数据挖掘看作知识发现过程时,描述数据挖掘所涉及的步骤。

1.2 给出一个例子,其中数据挖掘对于一种商务的成功至关重要的。

这种商务需要什么数据挖掘功能?他们能够由数据查询处理或简单的统计分析来实现吗?1.3 假定你是Big- (a) 它是又一个骗局吗?(b) 它是一种从数据库,统计学和机器学习发展的技术的简单转换吗?(c) 解释数据库技术发展如何导致数据挖掘(d) 当把数据挖掘看作知识发现过程时,描述数据挖掘所涉及的步骤。

1.2 给出一个例子,其中数据挖掘对于一种商务的成功至关重要的。

这种商务需要什么数据挖掘功能?他们能够由数据查询处理或简单的统计分析来实现吗?1.3 假定你是Big:每个学生的姓名,地址和状态(例如,本科生或研究生),所修课程,以及他们累积的GPA(学分平均)。

描述你要选取的结构。

该结构的每个成分的作用是什么?1.4 数据仓库和数据库有何不同?它们有那些相似之处?1.5简述以下高级数据库系统和应用:面向对象数据库,空间数据库,文本数据库,多媒体数据库和WWW。

1.6 定义以下数据挖掘功能:特征化,区分,关联,分类,预测,聚类和演变分析。

使用你熟悉的现实生活中的数据库,给出每种数据挖掘的例子。

1.7 区分和分类的差别是什么?特征化和聚类的差别是什么?分类和预测呢?对于每一对任务,它们有何相似之处?1.8 根据你的观察,描述一种可能的知识类型,它需要由数据挖掘方法发现,但未在本章中列出。

它需要一种不同于本章列举的数据挖掘技术吗?1. 9 描述关于数据挖掘方法和用户交互问题的三个数据挖掘的挑战。

1. 10 描述关于性能问题的两个数据挖掘的挑战。

2.1 试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法(构造使用数据仓库),而不愿使用查询驱动的方法(使用包装程序和集成程序)。

数据仓库与数据挖掘(陈志泊)课后习题答案

数据仓库与数据挖掘(陈志泊)课后习题答案

数据仓库与数据挖掘习题答案第1章数据仓库的概念与体系结构1. 面向主题的,相对稳定的。

2. 技术元数据,业务元数据。

3. 联机分析处理OLAP。

4. 切片(Slice),钻取(Drill-down和Roll-up等)。

5. 基于关系数据库。

6. 数据抽取,数据存储与管理。

7. 两层架构,独立型数据集市,依赖型数据集市和操作型数据存储,逻辑型数据集市和实时数据仓库。

8. 可更新的,当前值的。

9. 接近实时。

10. 以报表为主,以分析为主,以预测模型为主,以营运导向为主。

11. 答:数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。

数据仓库的特点包含以下几个方面:(1)面向主题。

操作型数据库的数据组织是面向事务处理任务,各个业务系统之间各自分离;而数据仓库中的数据是按照一定的主题域进行组织。

主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点领域,一个主题通常与多个操作型业务系统或外部档案数据相关。

(2)集成的。

面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。

而数据仓库中的数据是在对原有分散的数据库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企事业单位一致的全局信息。

也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义。

(3)相对稳定的。

操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。

数据仓库的数据主要供单位决策分析之用,对所涉及的数据操作主要是数据查询和加载,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存,几乎不再做修改和删除操作,也就是说针对数据仓库,通常有大量的查询操作及少量定期的加载(或刷新)操作。

数据仓库与数据挖掘课后答案

数据仓库与数据挖掘课后答案

Group 4 Chapter1-3CH11.数据库与数据仓库的本质差别是什么?答:数据库用于事务处理,数据仓库用来决策分析。

2.从数据库发展到数据仓库的原因是什么?答:①数据太多,信息贫乏。

②异构环境数据的转换和共享。

③利用数据进行事务处理转变为利用数据支持决策。

3.举例说明数据库与数据仓库的不同答:数据库(DB)数据仓库(DW)面向应用面向主题数据是详细的数据是综合的和历史的保持当前数据保存过去和现在的数据数据是可更新的数据不更新对数据操作是重复的对数据的操作是启发式的操作需求是事先可知的操作需求是临时决定的一个操作存取一个记录一个操作存取一个集合数据非冗余数据时常冗余操作比较频繁操作相对不频繁查询基本是原始数据查询基本是经过加工的数据事务处理需要的是当前数据决策分析需要过去和现在的数据很少有复杂的计算有很多复杂的计算支持事务处理支持决策分析4. 答:Oltp 联机事务处理,就是我们通常所说的关系型数据库,记录了实时的增删改查数据。

Olap 联机分析处理,是数据仓库的核心,是对oltp的历史数据进行加工,分析处理,用于处理商业智能,决策支持等重要的决策信息。

5.答:oltp是用户数据可以立即传送到计算中心进行处理,并在很短时间内给出处理结果。

它主要用于包括银行业、航空、邮购订单、超级市场和制造业等的输入数据和取回交易数据。

事务处理量大,要求多个并行处理,事务处理内容比较简单切重复率高。

大量的数据操作主要涉及的是一些增删改查询等操作,每次操作的数据量不打且多为当前的数据。

Oltp处理的数据是高度结构化的,数据访问路径是已知的,至少是固定的。

6.答:1.oltp 是明细的数据,olap 是汇总数据2.oltp 记录实时的数据,olap 包含2-3年历史数据3.oltp 可以进行增删改查操作,olap 只支持查询,但周期性刷新。

4.oltp一次性处理的数据量少,olap一次处理的数据量大5.oltp对响应时间要求高,olap响应时间合理6.oltp面向应用,事务驱动,olap面向分析,分析驱动7. 数据库中数据字典包括哪些内容?P4-5答:数据字典是指对中举的数据项、数据结构、数据流、数据存储、和处理过程8.元数据的定义是什么?P5答:元数据为关于数据的数据(data about data)。

数据库原理与应用教程第二版人民邮电出版社(陈志泊)习题参考答案 (完整版)

数据库原理与应用教程第二版人民邮电出版社(陈志泊)习题参考答案 (完整版)

第1章三:简答题1、 简述数据管理技术发展的三个阶段。

各个阶段的特点是什么?答:<1>数据管理技术经的三个阶段:人工管理阶段;文件系统阶段;数据库系统阶段<2>人工管理阶段特点:数据不保存、系统没有专用的软件对数据进行管理、数据不共享、数据不具独立性; 文件系统阶段:数据以文件形式长期保存、由文件系统管理数据;程序与数据间有一定的独立性; 数据库系统阶段:数据结构化、数据共享性高。

冗余度低、数据独立性高、有一定的数据控制功能。

2从程序和数据之间的关系分析文件系统和数据库之间的区别和联系1)文件系统和数据库系统之间的区别是: (1)文件系统用文件将数据长期保存在外存上,数据库系统用数据库统一存储数据; (2)文件系统中的程序和数据有一定的联系,数据库系统中的程序和数据分离; (3)文件系统用操作系统中的存取方法对数据进行管理,数据库系统用DBMS 统一管理和控制数据 (4)文件系统实现以文件为单位的数据共享,数据库系统实现以记录和字段为单位的数据共享。

2)文件系统和数据库系统之间的联系: (1)均为数据组织的管理技术; (2)均由数据管理软件管理数据,程序与数据之间用存取方法进行转换; (3)数据库系统是在文件系统的基础上发展而来的3、 简述数据库、数据管理系统、数据库系统三个概念的含义和联系。

答:<1>数据库:是以一定的组织方式存储在一起的,能为多个用户共享的,独立于应用程序的,相互关联的数据集合; 简单说就是数据的仓库,既数据存放的地方。

数据库系统:是指引进数据库技术后的整个计算机系统。

是一个实际运行的、按照数据库方式存储、维护和向应用系统提供数据支持的系统;数据库管理系统:是一套建立、管理和维护数据库的软件,是数据库系统的核心组成部分。

用户在数据库中的一切操作,包括数据定义、查询、更新及各种控制,都是通过DBMS 进行的。

<2>数据库容纳数据的仓库,数据库系统、数据库、数据库管理系统、硬件、操作人员的合在一起的总称。

数据仓库与数据挖掘教程(第2版)课后习题答案 第四章

数据仓库与数据挖掘教程(第2版)课后习题答案 第四章

第四章作业1.数据仓库的需求分析的任务是什么?P67需求分析的任务是通过详细调查现实世界要处理的对象(企业、部门用户等),充分了解源系统工作概况,明确用户的各种需求,为设计数据仓库服务。

概括地说,需求分析要明确用那些数据经过分析来实现用户的决策支持需求。

2.数据仓库系统需要确定的问题有哪些?P67、、(1)确定主题域a)明确对于决策分析最有价值的主题领域有哪些b)每个主题域的商业维度是那些?每个维度的粒度层次有哪些?c)制定决策的商业分区是什么?d)不同地区需要哪些信息来制定决策?e)对那个区域提供特定的商品和服务?(2)支持决策的数据来源a)那些源数据与商品的主题有关?b)在已有的报表和在线查询(OLTP)中得到什么样的信息?c)提供决策支持的细节程度是怎么样的?(3)数据仓库的成功标准和关键性指标a)衡量数据仓库成功的标准是什么?b)有哪些关键的性能指标?如何监控?c)对数据仓库的期望是什么?d)对数据仓库的预期用途有哪些?e)对计划中的数据仓库的考虑要点是什么?(4)数据量与更新频率a)数据仓库的总数据量有多少?b)决策支持所需的数据更新频率是多少?时间间隔是多长?c)每种决策分析与不同时间的标准对比如何?d)数据仓库中的信息需求的时间界限是什么?3.实现决策支持所需要的数据包括哪些内容?P68(1)源数据(2)数据转换(3)数据存储(4)决策分析4.概念:将需求分析过程中得到的用户需求抽象为计算机表示的信息结构,叫做概念模型。

特点:(1)能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世界的一个真实模型。

(2)易于理解,便利和用户交换意见,在用户的参与下,能有效地完成对数据仓库的成功设计。

(3)易于更改,当用户需求发生变化时,容易对概念模型修改和扩充。

(4)易于向数据仓库的数据模型(星型模型)转换。

5.用长方形表示实体,在数据仓库中就表示主题,椭圆形表示主题的属性,并用无向边把主题与其属性连接起来;用菱形表示主题之间的联系,用无向边把菱形分别与有关的主题连接;若主题之间的联系也具有属性,则把属性和菱形也用无向边连接上。

数据仓库与数据挖掘教程(第2版)课后习题答案第七章

数据仓库与数据挖掘教程(第2版)课后习题答案第七章

数据仓库与数据挖掘教程(第2版)课后习题答案第七章第七章作业1.信息论的基本原理是什么?一个传递信息的系统是由发送端(信源)和接收端(信宿)以及连接两者的通道(信道)组成的。

信息论把通信过程看做是在随机干扰的环境中传递信息的过程。

在这个通信模型中,信息源和干扰(噪声)都被理解为某种随机过程或随机序列。

在进行实际的通信之前,收信者(信宿)不可能确切了解信源究竟会发出什么样的具体信息,也不可能判断信源会处于什么样的状态。

这种情形就称为信宿对于信源状态具有不确定性,而且这种不确定性是存在于通信之前的,因而又叫做先验不确定性。

在通信后,信宿收到了信源发来的信息,这种先验不确定性才会被消除或者被减少。

如果干扰很小,不会对传递的信息产生任何可察觉的影响,信源发出的信息能够被信宿全部收到,在这种情况下,信宿的先验不确定性就会被完全消除。

但是,在一般情况下,干扰总会对信源发出的信息造成某种破坏,使信宿收到的信息不完全。

因此,先验不确定性不能全部被消除, 只能部分地消除。

换句话说,通信结束之后,信宿仍具有一定程度的不确定性。

这就是后验不确定性。

2.学习信道模型是什么?学习信道模型是信息模型应用于机器学习和数据挖掘的具体化。

学习信道模型的信源是实体的类别,采用简单“是”、“非”两类,令实体类别U 的值域为{u1,u2},U 取u1表示取“是”类中任一例子,取u2表示取“非”类中任一例子。

信宿是实体的特征(属性)取值。

实体中某个特征属性V ,他的值域为{v1,v2……vq}。

3.为什么机器学习和数据挖掘的分类问题可以利用信息论原理?信息论原理是数据挖掘的理论基础之一。

一般用于分类问题,即从大量数据中获取分类知识。

具体来说,就是在已知各实例的类别的数据中,找出确定类别的关键的条件属性。

求关键属性的方法,即先计算各条件属性的信息量,再从中选出信息量最大的属性,信息量的计算是利用信息论原理中的公式。

4自信息:单个消息ui 发出前的不确定性(随机性)称为自信息。

数据仓库与数据挖掘教程(第2版)课后习题答案第五章

数据仓库与数据挖掘教程(第2版)课后习题答案第五章

数据仓库与数据挖掘教程(第2版)课后习题答案第五章第五章作业1.数据仓库的两类用户有什么本质的不同?P96数据仓库的用户有两类:信息使用者和探索者。

信息使用者是使用数据仓库的大量用户,信息使用者以一种可以预测的、重复性的方式使用数据仓库平台。

探索者完全不同于信息使用者,他们有一个完全不可预测的、非重复性的数据使用模式。

2.数据仓库的信息使用者与数据库的信息使用者有什么不同?数据库的信息使用者主要关心当前某一个时间段内的数据,而数据仓库的信息使用者关心企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

3.1非规格化规范化的作用是产生一种完全没有数据冗余的设计方法。

但是,有时在数据仓库设计中引入一些有限的数据冗余来提高数据访问效果。

2创建数据阵列创建数据阵列,将相关类型的数据(如:1月、2月、3月等月份中的数据)存储在一起,提高访问效果。

3预连接表格一个公用键和共同使用的数据将表格合并在一起。

共享一个公用键,可以将多个表格合并到一个物理表格中。

这样做可以很大程度的提高数据访问效率。

4预聚集数据根据“滚动概括”结构来组织数据。

当数据被输入到数据仓库中时,以每小时为基础存储数据。

在这一天结束时,以每天为基础存储累加每小时的数据。

在一周结束时,以每周为基础存储累加每天的数据。

月末时,则以每月为基础存储累加每周的数据。

5聚类数据将不同类型的数据记录放置在相同的物理位置。

这为用户查看这些记录,可以在同一地点找到它们,提高查询效率。

6压缩数据压缩可以使可读取的数据量极大。

定期净化数据定期删除数据仓库中不需要的数据,可以为每个用户提高性能。

7合并查询如果查询定期发生,那么可以通过把这些查询合并到同一个表格中,从而节省大量资源。

4. 增加一些数据冗余,相当于增加了某些相同的数据,这些数据往往是我们很需要的或者是经常被使用的,由于这些数据所占总量的比例增加,所以被访问的概率增加,从而减少了查询时间,提高了查询速度。

数据仓库与数据挖掘技术-试题答案

数据仓库与数据挖掘技术-试题答案

数据仓库与数据挖掘技术答案一、简答1.为什么需要对数据进行预处理?数据预处理主要包括哪些工作(需要对数据进行哪些方面预处理)?(1)现实世界的数据是杂乱的,数据多了什么问题会出现。

数据库极易受到噪音数据(包含错误或孤立点)、遗漏数据(有些感兴趣的属性缺少属性值或仅包含聚集数据)和不一致数据(在编码或者命名上存在差异)的侵扰,因为数据库太大,常常多达几G或更多。

进行数据预处理,提高数据质量,从而提高挖掘结果质量。

(2)数据预处理主要包括:数据清理:去除数据中的噪音、纠正不一致;数据集成:将数据由多个源合并成一致的数据存储,如数据仓库或数据方;数据交换:规范化或聚集可以改进涉及距离度量的挖掘算法精度和有效性;数据归约:通过聚集、删除冗余特征或聚类等方法来压缩数据。

数据离散化:属于数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要。

2. 什么叫有监督学习?什么叫无监督学习?) 是通过发现数据属性和类别属性之间的关联模式,并通监督学习(Supervised learning或归纳过利用这些模式来预测未知数据实例的类别属性。

监督学习又称为分类Classification。

学习Inductive Learning无监督学习(Unsupervised learning)即聚类技术。

在一些应用中,数据的类别属性是缺失的,用户希望通过浏览数据来发现其的某些内在结构。

聚类就是发现这种内在结构的技术。

3.什么是数据仓库的星形模式?它与雪花模式有何不同?雪花模式与星形模式不同在于:雪花模式的维表可能是规范化形式,以便减少冗余。

这种表易于维护,并节省存储空间,因为当维结构作为列包含在内时,大维表可能非常大。

然而,与巨大的事实表相比,这种空间的节省可以忽略。

此外,由于执行查询更多的连接操作,雪花结构可能降低浏览的性能。

这样系统的性能可能受影响。

因此,在数据仓库设计中,雪花模式不如星形模式流行。

二、写出伪代码三答:(1)所有频繁项集为:[E,K,O] [K,M] [K,Y] (2) 关联规则:[O]->[E,K] 1.0[E,O] -> [K] 1.0[K,O] -> [E] 1.01.0[M] -> [K][Y] -> [K] 1.0答:a)决策树表示一种树型结构,它由它的分来对该类型对象依靠属性进行分类。

数据仓库与数据挖掘教程(第2版)课后习题答案 第三章

数据仓库与数据挖掘教程(第2版)课后习题答案 第三章

第三章作业1.联机分析处理(OLAP)的简单定义是什么?它体现的特征是什么。

P40联机分析处理是共享多维信息的快速分析。

它体现在四个特征:(1)快速性(2)可分析性(3)多维性(4)信息性2.OLAP准则中的主要准则有哪些?P41(1)多维概念视图(2)透明性(3)可访问性(4)一直稳定的报表性能(5)客户/服务器体系结构(6)维的等同性(7)动态的系数矩阵处理(8)多用户支持能力(9)非限定的跨维操作(10)直观的数据操作(11)灵活的报表生成(12)不受限制的维和聚集层次3. 什么是维?关系数据库是二维数据吗?如何理解多维数据?P43维是人们观察数据的特定角度。

关系数据库不是二维数据,只是通过二维关系表示了数据的多维概念。

多维数据就是从多个特定角度来观察特定的变量。

4.MDDB(Multi Dimensional Database, 多维数据库)是以多维的方式组织数据,即以维作为坐标系,采用类似于数组的形式存储数据。

RDBMS(relational database management system,关系型数据库管理系统)通过数据、关系和对数据的约束三者组成的数据模型来存放和管理数据MDDB特点:1.数据库中的元素具有相同的数值2.多维数据库表达清晰,3.占用存储少RDBMS的特点:1.数据以表格的形式出现2.每行为各种记录名称3.每列为记录名称所对应的数据域4.许多的行和列组成一张表单5.若干的表单组成database5.1.数据存取速度ROLAP服务器需要将SQL语句转化为多维存储语句,临时“拼合”出多维数据立方体。

因此,ROLAP的响应时间较长。

MOLAP在数据存储速度上性能好,响应速度快。

2.数据存储的容量ROLAP使用的传统关系数据库的存储方法,在存储容量上基本没有限制。

MOLAP通常采用多平面叠加成立体的方式存放数据。

当数据量超过操作系统最大文件长度时,需要进行数据分割。

多维数据库的数据量级难以达到太大的字节级。

《数据仓库与数据挖掘》课程练习题

《数据仓库与数据挖掘》课程练习题

《数据仓库与数据挖掘》课程练习题1、定义以下数据挖掘功能:特征化,区分,关联,分类,预测,聚类和演变分析。

同时,使用你熟悉的现实生活中的数据库,给出每种数据挖掘功能的例子。

2、假定数据仓库包含4个维date,spectator,location和game,2个度量count和charge。

其中charge是观众在给定的日期观看节目的付费。

观众可以是学生、成年人或老人,每类观众有不同的收费标准。

(a)画出该数据仓库的星型模式图;(b)由基本方体[date,spectator,location,game]开始,为列出2000年学生观众在GM-Place的总付费,应当执行哪些OLAP 操作?(c)对于数据仓库,位图索引是有用的。

以该数据立方体为例,简略讨论使用位图索引结构的优点和问题。

3、假定用于分析的数据包含属性age。

数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70,现在使用按箱平均值平滑对以上数据进行平滑,箱的深度是3。

请给出你求解的步骤和结果。

4、使用习题4给出的age数据,回答以下问题:(a)使用最小-最大规范化,将age值35转换到[0.0,1.0]区间;(b)使用z-score规范化转换age 值35,其中age的标准差为12.94年;(c)使用小数定标规范化转换age值35;(d)指出对于给定的数据,你愿意使用哪种方法。

陈述你的理由。

5、用例子图解如下属性子集选择过程:(a)逐步向前选择;(b)逐步向后删除;(c)逐步向前选择和逐步向后删除的结合。

数据库原理第4版习题测验参考答案(陈志泊)

数据库原理第4版习题测验参考答案(陈志泊)

习题参考答案第1章习题参考答案一、选择题1. C2. B3. D4. C5. D6. B7. A8. B9. D 10. B11. C 12. D 13. D 14. D 15. B16. C 17. D 18. A 19. D 20. A21. D 22. D 23. C 24. A 25. C二、填空题1. 数据库系统阶段2. 关系3. 物理独立性4. 操作系统5. 数据库管理系统(DBMS)6. 一对多7. 独立性8. 完整性控制9. 逻辑独立性10. 关系模型11. 概念结构(逻辑)12. 树有向图二维表嵌套和递归13. 宿主语言(或主语言)14. 数据字典15. 单用户结构主从式结构分布式结构客户/服务器结构浏览器/服务器结构16. 现实世界信息世界计算机世界第2章习题参考答案一、选择题1. A2. C3. C4. B5. B6. C7. B8. D9. C 10. A11. B 12. A 13. A 14. D 15. D 16. B 17. C二、填空题1. 选择(选取)2. 交3. 相容(或是同类关系)4. 并差笛卡尔积选择投影5. 并差交笛卡尔积6. 选择投影连接7. σf(R)8. 关系代数关系演算9. 属性10. 同质11. 参照完整性12. 系编号,系名称,电话办公地点13. 元组关系域关系14. 主键外部关系键15. R和S没有公共的属性16. 关系第3章习题参考答案一、选择题1. B2. A3. C4. B5. C6. C7. B 8. D 9. A 10. D 11. C 12. D二、填空题1.结构化查询语言(Structured Query Language)2.数据查询、数据定义、数据操纵、数据控制3.外模式、模式、内模式4.数据库、事务日志5.NULL/NOT NULL、UNIQUE约束、PRIMARY KEY约束、FOREIGNKEY约束、CHECK约束6.聚集索引、非聚集索引7.连接字段8.行数9.定义10.系统权限、对象权限11.基本表、视图12.(1)INSERT INTO S VALUES('990010','李国栋','男',19) (2)INSERT INTO S(No,Name) VALUES('990011', '王大友') (3)UPDATE S SET Name='陈平' WHERE No='990009'(4)DELETE FROM S WHERE No='990008'(5)DELETE FROM S WHERE Name LIKE '陈%' 13.CHAR(8) NOT NULL14.o=o15.ALTER TABLE StudentADDSGrade CHAR(10)第4章习题参考答案一、选择题1. B2. B3. D4. B5. C6. D7. B8. D9. D 10. D11. A 12.C 13.D 14.B 15.B二、填空题1. 超键(或超码)2. 正确完备3. 属性集X的闭包X +函数依赖集F的闭包F +4. 平凡的函数依赖自反性5. {AD→C} φ6. 2NF 3NF BCNF7. 无损连接保持函数依赖8. AB BC BD9. B→φB→B B→C B→BC10. B→C A→D D→C11. AB1NF12. AD2NF13. BCNF14. 包含15. 函数依赖16. BCNF第5章习题参考答案一、选择题1. B2. B3. C4. A5. C6. D7. A8. C9. D 10. D11. B 12. B 13. A 14. D 15. A二、填空题1.安全性控制、完整性控制、并发性控制、数据库恢复2.数据对象、操作类型3.授权粒度、授权表中允许的登记项的范围4.原始数据(或明文)、不可直接识别的格式(或密文)、密文5.事务、原子性、一致性、隔离性、持久性6.丢失更新、污读、不可重读7.封锁、排它型封锁、共享封锁8.利用数据的冗余9.登记日志文件、数据转储10.事务故障、系统故障、介质故障11.海量转储和增量转储12.静态转储和动态转储13.完整性14.登录账号、用户账号15.public16.服务器、数据库第6章习题参考答案一、选择题1. B2. C3. C4. A5. C6. B7. C8. B9. D 10. C11. D 12. B 13. B 14. D 15. B16. B 17. A 18. C二、填空题1.数据库的结构设计、数据库的行为设计2.新奥尔良法3.分析和设计阶段、实现和运行阶段4.需求分析5.概念结构设计6.自顶向下、自底向上7.属性冲突、命名冲突、结构冲突8.逻辑结构设计9.确定物理结构、评价物理结构10.数据库加载11.运行和维护12.物理13.数据字典14.需求分析15.载入第7章习题参考答案一、选择题1. B2.C3.B4.D5.A二、填空题1.局部变量、全局变量2.- -、/*……*/3.DECLARE4.SQL、流程控制5.AFTER 触发器、INSTEAD OF 触发器6.插入表、删除表7.数据库备份、事务日志备份、差异备份、文件和文件组备份8.简单还原、完全还原、批日志还原9.硬盘、磁带、管道10.。

数据仓库和数据挖掘思考题答案完整版

数据仓库和数据挖掘思考题答案完整版

考试思考题数据仓库的主要特点,数据仓库的主要应用;特点(P6):(1)数据仓库是面向主题的(2)数据仓库是集成的(3)数据仓库是稳定的(4)数据仓库是随时间变化的(5)数据仓库中数据量很大(6)数据仓库软硬件要求较高。

应用:数据仓库可以用于建立决策支持系统(P13)数据仓库的决策支持功能有:(1) 对当前和历史数据完成查询和报表处理(2) 可以用不同方法进行“如果,将怎样(what-if)”分析(3) 从综合数据到细节数据,深入追踪钻取查询,寻找问题出现原因(4) 认清过去的发展趋势,并将其应用于对未来结果的分析(5)商业智能(P14)1、元数据的定义以及元数据的主要特点;元数据定义(P5):元数据被定义为关于数据的数据。

元数据的主要特点(P5):元数据在数据仓库中不仅定义了数据仓库有什么,还指明了数据仓库中信息的内容和位置木刻画了数据的抽取和转换规则说明,存储了与数据仓库主题有关的各种商业信息,而整个数据仓库的运行都是基于元数据的,如元数据的修改、跟踪、抽取、装入、综合以及使用等。

因为元数据遍及数据仓库的所有方面,因此它已经成为整个数据仓库的核心。

2、商业智能的主要特点和发展方向;P14 P15-16主要特点:(1)商业智能以数据仓库为基础,通过联机分析处理和数据挖掘技术帮助企业领导者针对市场变化的环境做出快速准确的决策。

(2)信息共享(3)实时反馈分析(4)鼓励用户找出问题的根本原因(5)使用主动智能(6)实时智能发展方向:商业智能的发展要求其不仅仅能为决策层提供支持,同时也能服务于普通的业务人员;不仅能从整个战略层面进行综合分析,还能够在具体的战术层面进行详细指导。

主要特点:1、即时性传统手工数掘处理,从数掘收集、整理到分类、汇总,都需要经历漫长的时间过程。

但是,商业智能使用的技术,可以实时地从业务系统中获得最新的数据。

在对时间性敏感的决策分析中,这一点尤其重要。

2、准确性在准确性方面,因为计算机数据处理,避免了手工操作中存在的失误,所以计算结果是绝对准确和可靠的。

数据仓库与数据挖掘教程(第2版)课后习题答案 第六章

数据仓库与数据挖掘教程(第2版)课后习题答案 第六章

第六章作业1.数据挖掘与知识发现两个概念有什么不同?P116知识发现被认为是从数据中发现有用知识的整个过程。

数据挖掘被认为是知识发现过程中的一个特定步骤,它用专门算法从数据中抽取模式。

2.知识发现过程由哪三部分组成?每部分的工作是什么?P116KDD过程可以概括为三个子步骤:数据准备、数据挖掘和结果的解释和评价。

数据准备:数据准备又可分为三个子步骤:数据选取、数据预处理和数据变换。

数据选取的目的是确定发现任务的操作对象,即目标数据,它是根据用户的需要从原始数据库中抽取的一组数据。

数据预处理一般可能包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换(如把连续值数据转换为离散型的数据,以便于符号归纳;或是把离散型的转换为连续值型的,以便于神经网络归纳)等。

当数据开采的对象是数据仓库时,一般来说,数据预处理已经在生成数据仓库时完成了。

数据变换的主要目的是消减数据维数或降维,即从初始特征中找出真正有用的特征以减少数据开采时要考虑的特征或变量个数。

数据挖掘:数据挖掘是利用一系列方法或算法从数据中获取知识。

按照数据挖掘任务的不同,数据挖掘方法分类分为聚类、分类、关联规则发现等。

结果的解释和评价:数据挖掘阶段发现的模式,经过用户或机器的评估,可能存在冗余或无关的模式,这时需要将其剔除;也有可能模式不满足用户要求,这时则需要让整个发现过程退回到发现阶段之前,如重新选取数据、采用新的数据变换方法、设定新的数据挖掘参数值,甚至换一种挖掘算法(如当发现任务是分类时,有多种分类方法,不同的方法对不同的数据有不同的效果)。

另外,由于KDD最终是面向人类用户的,因此可能要对发现的模式进行可视化,或者把结果转换为用户易懂的另一种表示,如把分类决策树转换为“if...then...”规则。

3.数据挖掘的对象有哪些?他们各自的特点是什么?P1181.关系数据库特点:(1)数据动态性(2)数据不完全性(3)数据噪声(4)数据冗余性(5)数据稀疏性(6)海量数据2.文本特点:(1)关键词或特征提取(2)相似检索(3)文本聚类(4)文本数据3.图像与视频数据特点:(1)图像与视频特征提取(2)基于内容的相似检索(3)视频镜头的编辑与组织4.web数据(1)异构数据集成和挖掘(2)半结构化数据模型抽取4.1).关联分析若两个或多个数据项的取值之间重复出现且概率很高时,它就存在某种关联,可以建立起这些数据项的关联规则。

数据仓库与数据挖掘教程(第2版)课后习题答案 第八章

数据仓库与数据挖掘教程(第2版)课后习题答案 第八章

第七章作业说明等价关系、等价类以及划分的定义。

等价关系:对于∀a ∈A (A 中包含一个或多个属性),A ⊆R ,x ∈U ,y ∈U ,他们的属性值相同,即fa (x )=fb (y )成立,称对象x 和y 是对属性A 的等价关系。

等价类:在U 中,对属性集A 中具有相同等价关系的元素集合成为等价关系IND (A )的等价类。

划分:在U 中对属性A 的所有等价类形成的划分表示为A={Ei | Ei=[xi]a ,i=1,2,… } 说明集合X 的上、下近似关系定义。

下近似定义:任一一个子集X ⊆U ,属性A 的等价类Ei=[x]A ,有:A-(X )=U{Ei|Ei ∈A ∧Ei ⊆X} 或A-(X )={x|[x]A ⊆X} 表示等价类Ei=[x]A 中的元素x 都属于X ,即∀x ∈A-(X ),则x 一定属于X 。

上近似定义:任一一个子集X ⊆U ,属性A 的等价类Ei=[x]A ,有:A-(X )=U{Ei|Ei ∈A ∧Ei ∩X ≠∅} 或A-(X )={x|[x]A ∩X ≠∅} 表示等价类Ei=[x]A 中的元素x 可能属于X ,即∀x ∈A-(X ),则x 可能属于X ,也可能不属于X 。

说明正域、负域和边界的定义。

全集U 可以划分为三个不相交的区域,即正域(pos ),负域(neg )和边界(bnd ): POSA(X)= A-(X )NEGA(X)=U- A-(X )BNDA(X) = A-(X )-A-(X )4.粗糙集定义:若 ,即 , 即边界为空,称X 为A 的可定义集; 否则X 为A 不可定义的,即 ,称X 为A 的Rough 集(粗糙集)确定度定义:()A U A X A X X U α----=其中U 和A X A X ---分别表示集合U 、(AX AX ---)中的元素个数5.在信息表中根据等价关系,我们可以用等价类中的一个对象(元组)来代表整个等价类,这实际上是按纵方向约简了信息表中数据。

数据仓库与数据挖掘(山东联盟)知到章节答案智慧树2023年济南大学

数据仓库与数据挖掘(山东联盟)知到章节答案智慧树2023年济南大学

数据仓库与数据挖掘(山东联盟)知到章节测试答案智慧树2023年最新济南大学绪论单元测试1.数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。

()参考答案:对第一章测试1.图挖掘技术在社会网络分析中扮演了重要的角色。

()参考答案:对2.数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。

( )参考答案:对3.DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。

()参考答案:对4.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( )参考答案:预测建模5.以下哪些学科和数据挖掘有密切联系?( )参考答案:统计;人工智能第二章测试1.下面哪个不属于数据的属性类型:( )参考答案:相异2.在上题中,属于定量的属性类型是:( )参考答案:区间3.只有非零值才重要的二元属性被称作:( )参考答案:非对称的二元属性4.以下哪种方法不属于特征选择的标准方法: ( )参考答案:抽样5.离群点可以是合法的数据对象或者值。

()参考答案:对第三章测试1.下面哪些属于可视化高维数据技术 ( )参考答案:矩阵;Chernoff脸;平行坐标系;星形坐标2.下面哪种不属于数据预处理的方法? ( )参考答案:估计遗漏值3.联机分析处理包括以下哪些基本分析功能? ( )参考答案:切片;切块;转轴4.检测一元正态分布中的离群点,属于异常检测中的基于()的离群点检测。

参考答案:统计方法5.离散属性总是具有有限个值。

()参考答案:错第四章测试1.数据仓库系统的组成部分包括数据仓库,仓库管理,数据抽取,分析工具等四个部分. ( )参考答案:错2.数据仓库中间层OLAP服务器只能采用关系型OLAP ()错3.下面列出的条目中,哪些是数据仓库的基本特征: ( )参考答案:数据仓库的数据是反映历史变化的;数据仓库是面向主题的;数据仓库的数据是相对稳定的4.以下各项均是针对数据仓库的不同说法,你认为正确的有()。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关文档
最新文档