最新数据仓库与数据挖掘--课后答案-(陈志泊-著)-清华大学出版社

合集下载

数据仓库与数据挖掘_青岛大学中国大学mooc课后章节答案期末考试题库2023年

数据仓库与数据挖掘_青岛大学中国大学mooc课后章节答案期末考试题库2023年1.非频繁项集的超集有可能是频繁的。

参考答案:错误2.决策树中不包含以下哪种节点。

参考答案:外部节点（external node）3.数据集成是将多个数据源中的数据结合起来存放在一个一致的数据存储（如数据仓库）中。

数据源可能涉及多个数据库、数据立方体或一般文件。

参考答案:正确4.数据取样时，除了要求抽样时严把质量关外，还要求抽样数据必须在足够范围内有代表性。

参考答案:正确5.若属性income的平均值和标准差分别为32000元和17000元，则使用z-score规范化后，65600元被转换为：参考答案:1.9766.朴素贝叶斯算法能够解决特征之间有相关性的问题。

参考答案:错误7.OLAP技术的核心是：参考答案:多维分析8.假定某属性的最小与最大值分别为8000元和14000元。

要将其映射到区间[0.0,1.0]，按照最小-最大规范化方法对属性进行变换，属性值12600将变换为：参考答案:0.7679.后验概率P(H|X)表示条件X下H的概率。

参考答案:正确10.只要有两个频繁3项集，就一定能够生成一个候选4项集。

参考答案:错误11.先验概率是根据历史资料或主观估计的方法得到的概率。

参考答案:正确12.公司里面男性有60人，女性有40人，男性穿皮鞋的人数有25人，穿运动鞋的人数有35人，女性穿皮鞋的人数有10人，穿高跟鞋的人数有30人。

现在你只知道有一个人穿了皮鞋，推测他是男性的概率为：参考答案:0.71413.数据归约是用来得到数据集的归约表示，它比源数据集小得多，但仍接近于保持源数据的完整性。

参考答案:正确14.数据分类由两步过程组成：第一步，建立一个分类模型，描述指定的数据类集或概念集；第二步，使用模型进行分类。

参考答案:正确15.假设吸烟的本科生比例为15%，而吸烟的研究生占23%。

如果五分之一的大学生是研究生，其余的是本科生，那么吸烟的学生是研究生的概率是多少？参考答案:0.27716.决策树构建之后，为了避免过度拟合，需要对树进行剪枝。

数据仓库与数据挖掘课后答案

Group 4 Chapter1-3CH11.数据库与数据仓库的本质差别是什么？答：数据库用于事务处理，数据仓库用来决策分析。

2.从数据库发展到数据仓库的原因是什么？答：①数据太多，信息贫乏。

②异构环境数据的转换和共享。

③利用数据进行事务处理转变为利用数据支持决策。

3.举例说明数据库与数据仓库的不同答：数据库（DB）数据仓库（DW）面向应用面向主题数据是详细的数据是综合的和历史的保持当前数据保存过去和现在的数据数据是可更新的数据不更新对数据操作是重复的对数据的操作是启发式的操作需求是事先可知的操作需求是临时决定的一个操作存取一个记录一个操作存取一个集合数据非冗余数据时常冗余操作比较频繁操作相对不频繁查询基本是原始数据查询基本是经过加工的数据事务处理需要的是当前数据决策分析需要过去和现在的数据很少有复杂的计算有很多复杂的计算支持事务处理支持决策分析4. 答：Oltp 联机事务处理，就是我们通常所说的关系型数据库，记录了实时的增删改查数据。

Olap 联机分析处理，是数据仓库的核心，是对oltp的历史数据进行加工，分析处理，用于处理商业智能，决策支持等重要的决策信息。

5.答：oltp是用户数据可以立即传送到计算中心进行处理，并在很短时间内给出处理结果。

它主要用于包括银行业、航空、邮购订单、超级市场和制造业等的输入数据和取回交易数据。

事务处理量大，要求多个并行处理，事务处理内容比较简单切重复率高。

大量的数据操作主要涉及的是一些增删改查询等操作，每次操作的数据量不打且多为当前的数据。

Oltp处理的数据是高度结构化的，数据访问路径是已知的，至少是固定的。

6.答：1.oltp 是明细的数据，olap 是汇总数据2.oltp 记录实时的数据，olap 包含2-3年历史数据3.oltp 可以进行增删改查操作，olap 只支持查询，但周期性刷新。

4.oltp一次性处理的数据量少，olap一次处理的数据量大5.oltp对响应时间要求高，olap响应时间合理6.oltp面向应用，事务驱动，olap面向分析，分析驱动7. 数据库中数据字典包括哪些内容？P4-5答：数据字典是指对中举的数据项、数据结构、数据流、数据存储、和处理过程8.元数据的定义是什么？P5答：元数据为关于数据的数据（data about data）。

大数据分析与挖掘课后习题参考答案

（1）使用等深划分时，将其划分为四个箱，16 在第几个箱？
（2）使用等宽划分时，将其划分为四个箱，16 在第几个箱？
（3）利用等深分箱法，将其划分为 3 个箱，平均值平滑法进行平滑处理，第
2 个箱的取值为多少？
（4）利用等宽分箱法，将其划分为 3 个箱，边界平滑法进行平滑处理，第 2
个箱内数据值为多少？
数据清洗：负责解决填充空缺值、识别孤立点、去掉噪声和无关数据等问
题；
数据集成：负责解决不同数据源的数据变换：将原始数据转换为适合数据挖掘的形式。包括数据的汇总、聚
集、概化、规范化，同时可能需要对属性进行重构；
数据归约：负责搜小数据的取值范围，使其更适合数据挖掘算法的需要。
df=spark.createDataFrame([(Vectors.dense(3.2,1.78,130,6000),),
(Vectors.dense(3.5,1.76,122,7000),),
(Vectors.dense(3,1.73,135,5500),),
(Vectors.dense(2.8,1.80,120,4000),),
model.transform(df).show()
print('MinMax')
miScaler=MinMaxScaler(inputCol='Features',outputCol='Feature_MinMax')
model_=miScaler.fit(df)
model.transform(df).show()
7000
3
3
1.73
135
5500
4
2.8
1.80
120

数据仓库与数据挖掘学习要点及答案

数据仓库与数据挖掘学习要点及答案数据仓库和数据挖掘是现代数据分析和决策支持的重要工具。

数据仓库是一个用于集成、存储和管理企业中各种数据的系统，而数据挖掘则是从这些数据中发现模式、关联和趋势的过程。

本文将介绍数据仓库和数据挖掘的基本概念、技术和应用，并提供一些常见问题的答案。

一、数据仓库的基本概念和技术1. 数据仓库的定义和特点数据仓库是一个面向主题的、集成的、稳定的、非易失的数据集合，用于支持企业决策。

它具有以下特点：- 面向主题：数据仓库按照业务主题进行组织，而不是按照应用系统或部门。

- 集成性：数据仓库集成了来自不同数据源的数据，并进行了数据清洗和转换。

- 稳定性：数据仓库的数据是经过一定周期的更新和维护的，以保证数据的准确性和一致性。

- 非易失性：数据仓库中的数据是持久的，不会因为系统故障或人为操作而丢失。

2. 数据仓库的架构和组成数据仓库的架构包括数据源层、数据存储层、数据处理层和数据展示层。

- 数据源层：包括企业内部的各种数据库、文件和应用系统，以及外部数据源如互联网和供应商提供的数据。

- 数据存储层：是数据仓库的核心组成部分，用于存储集成和清洗后的数据，常见的数据存储技术包括关系型数据库和大数据存储技术。

- 数据处理层：包括数据抽取、转换和加载（ETL）过程，用于将数据从数据源层导入到数据存储层，并进行数据清洗、转换和整合。

- 数据展示层：用于向用户展示数据仓库中的数据，包括报表、图表、数据可视化和在线分析处理（OLAP）工具。

3. 数据仓库的设计和建模数据仓库的设计和建模是保证数据仓库能够满足用户需求的关键步骤。

- 维度建模：维度建模是一种基于主题的建模方法，将业务过程中的关键业务概念抽象为维度和事实表，并通过维度之间的关联来描述业务过程。

- 星型模型和雪花模型：星型模型是一种简单直观的维度建模方法，事实表围绕着一个中心的维度表而展开。

雪花模型在星型模型的基础上，进一步细化了维度表，使得维度表更加灵活和可扩展。

数据库原理与应用教程(第二版)(陈志泊主编)参考答案

习题参考答案第1章习题参考答案一、选择题1. C2. B3. D4. C5. D6. A7. A8. B9. D、10. B 11. C 12. D 13. A14. D 15. B二、填空题1. 数据库系统2. 关系3. 物理独立性4. 操作系统5. 数据库管理系统（DBMS）6. 多对多7. 独立性8. 完整性控制9. 逻辑独立性10. 关系模型11. 概念结构（逻辑）12. 树有向图二维表嵌套和递归13. 宿主语言（或主语言）14. 数据字典15. 单用户结构主从式结构分布式结构客户/服务器结构浏览器/服务器结构第2章习题参考答案一、选择题1. A2. C3. C4. B5. B6. C7. B8. D9. C 10. A11. B 12. A13. A14. D 15. D二、填空题1. 选择（选取）2. 交3. 相容（或是同类关系）4. 并差笛卡尔积选择投影5. 并差交笛卡尔积6. 选择投影连接7. σf(R)8. 关系代数关系演算9. 属性10. 同质11. 参照完整性12. 系编号系名称，电话，办公地点13. 元组关系域关系14. 主键外部关系键15. R和S没有公共的属性三简答题（1）查询T1老师所授课程的课程号和课程名。

ΠCNO,CN（σTNO=’T1’（TC）*ΠCNO,CN（C）)（2）查询年龄大于18岁男同学的学号、姓名、系别。

ΠSNO, SN, Dept（σAge>18∧Sex=’男’（S））（3）查询“李力”老师所授课程的课程号、课程名和课时。

ΠCNO (ΠTNO（σTN=’李力’（T））*TC))* C（4）查询学号为S1的同学所选修课程的课程号、课程名和成绩。

ΠCNO,CN,Score（σSNO=’S1’（SC）*ΠCNO,CN（C））（5）查询“钱尔”同学所选修课程的课程号、课程名和成绩。

ΠCNO,CN,Score（ΠSNO（σSN=’钱尔’（S））*ΠCNO,CN（C）*SC）（6）查询至少选修“刘伟”老师所授全部课程的学生姓名。

数据仓库与数据挖掘教程(第2版)课后习题答案第四章

第四章作业1.数据仓库的需求分析的任务是什么？P67需求分析的任务是通过详细调查现实世界要处理的对象（企业、部门用户等），充分了解源系统工作概况，明确用户的各种需求，为设计数据仓库服务。

概括地说，需求分析要明确用那些数据经过分析来实现用户的决策支持需求。

2.数据仓库系统需要确定的问题有哪些？P67、、（1）确定主题域a)明确对于决策分析最有价值的主题领域有哪些b)每个主题域的商业维度是那些？每个维度的粒度层次有哪些？c)制定决策的商业分区是什么？d)不同地区需要哪些信息来制定决策？e)对那个区域提供特定的商品和服务？（2）支持决策的数据来源a)那些源数据与商品的主题有关？b)在已有的报表和在线查询（OLTP）中得到什么样的信息？c)提供决策支持的细节程度是怎么样的？（3）数据仓库的成功标准和关键性指标a)衡量数据仓库成功的标准是什么？b)有哪些关键的性能指标？如何监控？c)对数据仓库的期望是什么？d)对数据仓库的预期用途有哪些？e)对计划中的数据仓库的考虑要点是什么？（4）数据量与更新频率a)数据仓库的总数据量有多少？b)决策支持所需的数据更新频率是多少？时间间隔是多长？c)每种决策分析与不同时间的标准对比如何？d)数据仓库中的信息需求的时间界限是什么？3.实现决策支持所需要的数据包括哪些内容？P68（1）源数据（2）数据转换（3）数据存储（4）决策分析4．概念：将需求分析过程中得到的用户需求抽象为计算机表示的信息结构，叫做概念模型。

特点：（1）能真实反映现实世界，能满足用户对数据的分析，达到决策支持的要求，它是现实世界的一个真实模型。

（2）易于理解，便利和用户交换意见，在用户的参与下，能有效地完成对数据仓库的成功设计。

（3）易于更改，当用户需求发生变化时，容易对概念模型修改和扩充。

（4）易于向数据仓库的数据模型（星型模型）转换。

5．用长方形表示实体，在数据仓库中就表示主题，椭圆形表示主题的属性，并用无向边把主题与其属性连接起来；用菱形表示主题之间的联系，用无向边把菱形分别与有关的主题连接；若主题之间的联系也具有属性，则把属性和菱形也用无向边连接上。

数据仓库与数据挖掘教程（第2版）课后习题答案第七章

数据仓库与数据挖掘教程（第2版）课后习题答案第七章第七章作业1.信息论的基本原理是什么？一个传递信息的系统是由发送端(信源)和接收端(信宿)以及连接两者的通道(信道)组成的。

信息论把通信过程看做是在随机干扰的环境中传递信息的过程。

在这个通信模型中，信息源和干扰(噪声)都被理解为某种随机过程或随机序列。

在进行实际的通信之前，收信者(信宿)不可能确切了解信源究竟会发出什么样的具体信息，也不可能判断信源会处于什么样的状态。

这种情形就称为信宿对于信源状态具有不确定性，而且这种不确定性是存在于通信之前的，因而又叫做先验不确定性。

在通信后，信宿收到了信源发来的信息，这种先验不确定性才会被消除或者被减少。

如果干扰很小，不会对传递的信息产生任何可察觉的影响，信源发出的信息能够被信宿全部收到，在这种情况下，信宿的先验不确定性就会被完全消除。

但是，在一般情况下，干扰总会对信源发出的信息造成某种破坏，使信宿收到的信息不完全。

因此，先验不确定性不能全部被消除, 只能部分地消除。

换句话说，通信结束之后，信宿仍具有一定程度的不确定性。

这就是后验不确定性。

2.学习信道模型是什么？学习信道模型是信息模型应用于机器学习和数据挖掘的具体化。

学习信道模型的信源是实体的类别，采用简单“是”、“非”两类，令实体类别U 的值域为{u1，u2}，U 取u1表示取“是”类中任一例子，取u2表示取“非”类中任一例子。

信宿是实体的特征（属性）取值。

实体中某个特征属性V ，他的值域为{v1，v2……vq}。

3.为什么机器学习和数据挖掘的分类问题可以利用信息论原理？信息论原理是数据挖掘的理论基础之一。

一般用于分类问题，即从大量数据中获取分类知识。

具体来说，就是在已知各实例的类别的数据中，找出确定类别的关键的条件属性。

求关键属性的方法，即先计算各条件属性的信息量，再从中选出信息量最大的属性，信息量的计算是利用信息论原理中的公式。

4自信息：单个消息ui 发出前的不确定性（随机性）称为自信息。

数据仓库与数据挖掘学习要点及答案

数据仓库与数据挖掘学习要点及答案引言概述：数据仓库与数据挖掘是现代信息技术领域中非常重要的概念。

数据仓库是指将组织内部各种数据源汇集起来，以便进行数据分析和决策支持的技术体系。

数据挖掘则是通过应用统计学、人工智能和机器学习等方法，从大规模数据集中发现隐藏的模式、关联和趋势。

本文将介绍数据仓库与数据挖掘的学习要点，并提供相应的答案。

一、数据仓库学习要点及答案1.1 数据仓库的定义和特点- 数据仓库是指将组织内部各种数据源进行集成和整理，以便进行多维分析和决策支持。

- 数据仓库的特点包括面向主题、集成性、稳定性、时变性和非易失性等。

1.2 数据仓库的架构和组成- 数据仓库的架构包括数据源层、数据存储层、数据管理层和数据使用层。

- 数据源层是指各种数据源，如关系型数据库、文件系统等；数据存储层是指数据仓库中的数据存储；数据管理层是指数据仓库的管理和维护；数据使用层是指用户对数据仓库的访问和分析。

1.3 数据仓库的设计和实施- 数据仓库的设计包括确定主题、选择数据源、设计数据模型和确定ETL流程等。

- 数据仓库的实施包括数据抽取、数据转换和数据加载等步骤。

二、数据挖掘学习要点及答案2.1 数据挖掘的定义和任务- 数据挖掘是通过应用统计学、人工智能和机器学习等方法，从大规模数据集中发现隐藏的模式、关联和趋势。

- 数据挖掘的任务包括分类、聚类、关联规则挖掘、时序模式挖掘等。

2.2 数据挖掘的方法和算法- 数据挖掘的方法包括监督学习和无监督学习两种。

- 监督学习的算法包括决策树、支持向量机、神经网络等；无监督学习的算法包括聚类、关联规则挖掘等。

2.3 数据挖掘的应用领域- 数据挖掘在商业、金融、医疗、社交网络等领域都有广泛的应用。

- 在商业领域，数据挖掘可以用于市场分析、客户关系管理等；在金融领域，可以用于信用评估、风险管理等。

三、数据仓库与数据挖掘的关系3.1 数据仓库与数据挖掘的相互关系- 数据仓库提供了数据挖掘的数据源，数据挖掘可以从数据仓库中发现有价值的信息。

数据仓库与数据挖掘教程（第2版）课后习题答案第五章

数据仓库与数据挖掘教程（第2版）课后习题答案第五章第五章作业1．数据仓库的两类用户有什么本质的不同？P96数据仓库的用户有两类：信息使用者和探索者。

信息使用者是使用数据仓库的大量用户，信息使用者以一种可以预测的、重复性的方式使用数据仓库平台。

探索者完全不同于信息使用者，他们有一个完全不可预测的、非重复性的数据使用模式。

2．数据仓库的信息使用者与数据库的信息使用者有什么不同？数据库的信息使用者主要关心当前某一个时间段内的数据，而数据仓库的信息使用者关心企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息，通过这些信息，可以对企业的发展历程和未来趋势做出定量分析和预测。

3.1非规格化规范化的作用是产生一种完全没有数据冗余的设计方法。

但是，有时在数据仓库设计中引入一些有限的数据冗余来提高数据访问效果。

2创建数据阵列创建数据阵列，将相关类型的数据(如：1月、2月、3月等月份中的数据)存储在一起，提高访问效果。

3预连接表格一个公用键和共同使用的数据将表格合并在一起。

共享一个公用键，可以将多个表格合并到一个物理表格中。

这样做可以很大程度的提高数据访问效率。

4预聚集数据根据“滚动概括”结构来组织数据。

当数据被输入到数据仓库中时，以每小时为基础存储数据。

在这一天结束时，以每天为基础存储累加每小时的数据。

在一周结束时，以每周为基础存储累加每天的数据。

月末时，则以每月为基础存储累加每周的数据。

5聚类数据将不同类型的数据记录放置在相同的物理位置。

这为用户查看这些记录，可以在同一地点找到它们，提高查询效率。

6压缩数据压缩可以使可读取的数据量极大。

定期净化数据定期删除数据仓库中不需要的数据，可以为每个用户提高性能。

7合并查询如果查询定期发生，那么可以通过把这些查询合并到同一个表格中，从而节省大量资源。

4. 增加一些数据冗余，相当于增加了某些相同的数据，这些数据往往是我们很需要的或者是经常被使用的，由于这些数据所占总量的比例增加，所以被访问的概率增加，从而减少了查询时间，提高了查询速度。

数据仓库与数据挖掘技术-试题答案

数据仓库与数据挖掘技术答案一、简答1.为什么需要对数据进行预处理？数据预处理主要包括哪些工作（需要对数据进行哪些方面预处理）?（1）现实世界的数据是杂乱的，数据多了什么问题会出现。

数据库极易受到噪音数据(包含错误或孤立点）、遗漏数据（有些感兴趣的属性缺少属性值或仅包含聚集数据）和不一致数据（在编码或者命名上存在差异）的侵扰，因为数据库太大，常常多达几G或更多。

进行数据预处理，提高数据质量，从而提高挖掘结果质量。

（2）数据预处理主要包括：数据清理：去除数据中的噪音、纠正不一致；数据集成：将数据由多个源合并成一致的数据存储，如数据仓库或数据方；数据交换：规范化或聚集可以改进涉及距离度量的挖掘算法精度和有效性；数据归约：通过聚集、删除冗余特征或聚类等方法来压缩数据。

数据离散化：属于数据归约的一部分，通过概念分层和数据的离散化来规约数据，对数字型数据特别重要。

2. 什么叫有监督学习？什么叫无监督学习？）是通过发现数据属性和类别属性之间的关联模式，并通监督学习（Supervised learning或归纳过利用这些模式来预测未知数据实例的类别属性。

监督学习又称为分类Classification。

学习Inductive Learning无监督学习（Unsupervised learning）即聚类技术。

在一些应用中，数据的类别属性是缺失的，用户希望通过浏览数据来发现其的某些内在结构。

聚类就是发现这种内在结构的技术。

3.什么是数据仓库的星形模式？它与雪花模式有何不同？雪花模式与星形模式不同在于：雪花模式的维表可能是规范化形式，以便减少冗余。

这种表易于维护，并节省存储空间，因为当维结构作为列包含在内时，大维表可能非常大。

然而，与巨大的事实表相比，这种空间的节省可以忽略。

此外，由于执行查询更多的连接操作，雪花结构可能降低浏览的性能。

这样系统的性能可能受影响。

因此，在数据仓库设计中，雪花模式不如星形模式流行。

二、写出伪代码三答：（1）所有频繁项集为：[E,K,O] [K,M] [K,Y] (2) 关联规则:[O]->[E,K] 1.0[E,O] -> [K] 1.0[K,O] -> [E] 1.01.0[M] -> [K][Y] -> [K] 1.0答：a)决策树表示一种树型结构，它由它的分来对该类型对象依靠属性进行分类。

数据仓库与数据挖掘教程(第2版)课后习题答案第三章

第三章作业1.联机分析处理（OLAP）的简单定义是什么？它体现的特征是什么。

P40联机分析处理是共享多维信息的快速分析。

它体现在四个特征：（1）快速性（2）可分析性（3）多维性（4）信息性2.OLAP准则中的主要准则有哪些？P41（1）多维概念视图（2）透明性（3）可访问性（4）一直稳定的报表性能（5）客户/服务器体系结构（6）维的等同性（7）动态的系数矩阵处理（8）多用户支持能力（9）非限定的跨维操作（10）直观的数据操作（11）灵活的报表生成（12）不受限制的维和聚集层次3. 什么是维？关系数据库是二维数据吗？如何理解多维数据？P43维是人们观察数据的特定角度。

关系数据库不是二维数据，只是通过二维关系表示了数据的多维概念。

多维数据就是从多个特定角度来观察特定的变量。

4.MDDB（Multi Dimensional Database, 多维数据库）是以多维的方式组织数据，即以维作为坐标系，采用类似于数组的形式存储数据。

RDBMS（relational database management system，关系型数据库管理系统）通过数据、关系和对数据的约束三者组成的数据模型来存放和管理数据MDDB特点：1.数据库中的元素具有相同的数值2.多维数据库表达清晰，3.占用存储少RDBMS的特点：1.数据以表格的形式出现2.每行为各种记录名称3.每列为记录名称所对应的数据域4.许多的行和列组成一张表单5.若干的表单组成database5.1.数据存取速度ROLAP服务器需要将SQL语句转化为多维存储语句，临时“拼合”出多维数据立方体。

因此，ROLAP的响应时间较长。

MOLAP在数据存储速度上性能好，响应速度快。

2.数据存储的容量ROLAP使用的传统关系数据库的存储方法，在存储容量上基本没有限制。

MOLAP通常采用多平面叠加成立体的方式存放数据。

当数据量超过操作系统最大文件长度时，需要进行数据分割。

多维数据库的数据量级难以达到太大的字节级。

数据仓库与数据挖掘教程(第2版)课后习题答案第六章

第六章作业1.数据挖掘与知识发现两个概念有什么不同？P116知识发现被认为是从数据中发现有用知识的整个过程。

数据挖掘被认为是知识发现过程中的一个特定步骤，它用专门算法从数据中抽取模式。

2.知识发现过程由哪三部分组成？每部分的工作是什么？P116KDD过程可以概括为三个子步骤：数据准备、数据挖掘和结果的解释和评价。

数据准备：数据准备又可分为三个子步骤：数据选取、数据预处理和数据变换。

数据选取的目的是确定发现任务的操作对象，即目标数据，它是根据用户的需要从原始数据库中抽取的一组数据。

数据预处理一般可能包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换（如把连续值数据转换为离散型的数据，以便于符号归纳；或是把离散型的转换为连续值型的，以便于神经网络归纳）等。

当数据开采的对象是数据仓库时，一般来说，数据预处理已经在生成数据仓库时完成了。

数据变换的主要目的是消减数据维数或降维，即从初始特征中找出真正有用的特征以减少数据开采时要考虑的特征或变量个数。

数据挖掘：数据挖掘是利用一系列方法或算法从数据中获取知识。

按照数据挖掘任务的不同，数据挖掘方法分类分为聚类、分类、关联规则发现等。

结果的解释和评价：数据挖掘阶段发现的模式，经过用户或机器的评估，可能存在冗余或无关的模式，这时需要将其剔除；也有可能模式不满足用户要求，这时则需要让整个发现过程退回到发现阶段之前，如重新选取数据、采用新的数据变换方法、设定新的数据挖掘参数值，甚至换一种挖掘算法（如当发现任务是分类时，有多种分类方法，不同的方法对不同的数据有不同的效果）。

另外，由于KDD最终是面向人类用户的，因此可能要对发现的模式进行可视化，或者把结果转换为用户易懂的另一种表示，如把分类决策树转换为“if...then...”规则。

3.数据挖掘的对象有哪些？他们各自的特点是什么？P1181.关系数据库特点：（1）数据动态性（2）数据不完全性（3）数据噪声（4）数据冗余性（5）数据稀疏性（6）海量数据2.文本特点：（1）关键词或特征提取（2）相似检索（3）文本聚类（4）文本数据3.图像与视频数据特点：（1）图像与视频特征提取（2）基于内容的相似检索（3）视频镜头的编辑与组织4.web数据（1）异构数据集成和挖掘（2）半结构化数据模型抽取4.1)．关联分析若两个或多个数据项的取值之间重复出现且概率很高时，它就存在某种关联，可以建立起这些数据项的关联规则。

数据仓库与数据挖掘教程(第2版)课后习题答案第八章

第七章作业说明等价关系、等价类以及划分的定义。

等价关系：对于∀a ∈A （A 中包含一个或多个属性），A ⊆R ，x ∈U ，y ∈U ，他们的属性值相同，即fa （x ）=fb （y ）成立，称对象x 和y 是对属性A 的等价关系。

等价类：在U 中，对属性集A 中具有相同等价关系的元素集合成为等价关系IND （A ）的等价类。

划分：在U 中对属性A 的所有等价类形成的划分表示为A={Ei | Ei=[xi]a ，i=1,2，… } 说明集合X 的上、下近似关系定义。

下近似定义：任一一个子集X ⊆U ，属性A 的等价类Ei=[x]A ，有：A-（X ）=U{Ei|Ei ∈A ∧Ei ⊆X} 或A-（X ）={x|[x]A ⊆X} 表示等价类Ei=[x]A 中的元素x 都属于X ，即∀x ∈A-（X ），则x 一定属于X 。

上近似定义：任一一个子集X ⊆U ，属性A 的等价类Ei=[x]A ，有：A-（X ）=U{Ei|Ei ∈A ∧Ei ∩X ≠∅} 或A-（X ）={x|[x]A ∩X ≠∅} 表示等价类Ei=[x]A 中的元素x 可能属于X ，即∀x ∈A-（X ），则x 可能属于X ，也可能不属于X 。

说明正域、负域和边界的定义。

全集U 可以划分为三个不相交的区域，即正域（pos ），负域（neg ）和边界（bnd ）： POSA(X)= A-（X ）NEGA(X)=U- A-（X ）BNDA(X) = A-（X ）-A-（X ）4.粗糙集定义：若，即，即边界为空，称X 为A 的可定义集；否则X 为A 不可定义的，即，称X 为A 的Rough 集（粗糙集）确定度定义：()A U A X A X X U α----=其中U 和A X A X ---分别表示集合U 、（AX AX ---）中的元素个数5.在信息表中根据等价关系，我们可以用等价类中的一个对象（元组）来代表整个等价类，这实际上是按纵方向约简了信息表中数据。

《数据仓库与数据挖掘技术》作业参考答案

频繁项集 {面包、花生酱} 产生的规则面包→花生酱花生酱→面包置信度 0.75 1 强关联规则面包→花生酱花生酱→面包置信度 0.75 1
关联规则 {面包 }→ {花生酱}、{ 花生酱}→ {面包 }均是强关联规则。
2、参考上题作答
3、解答
（1）每个类的先验概率 P(Playbasketball=”Yes”)=8/12 P(Playbasketball=”No”)=4/12 （2）为计算 P(X/Ci)，i=1,2，计算下面的条件概率： P(Outlook=”sunny ”|Playbasketball=”Yes”)=1/8 P(Outlook=”sunny ”|Playbasketball=”No”)=3/4 P(Temperature=”cool”|Playbasketball=”Yes”)=3/8 P(Temperature=”cool”|Playbasketball=”No”)=1/4 P(Humidity=”high”|Playbasketball=”Yes”)=3/8 P(Humidity=”high”|Playbasketball=”No”)=3/4 P(Wind=”strong ”|Playbasketball=”Yes”)=2/8 P(Wind=”strong ”|Playbasketball=”No”)=2/4 （3）使用以上概率，可以得到： P(X|Playbasketball=”yes”)=(1/8)*(3/8)*(3/8)*(2/8)=0.004395 P(X|Playbasketball=”No”)=(3/4)*(1/4)*(3/4)*(2/4)=0.070313 P(X|Playbasketball=”yes”)P(Playbasketball=”yes”)=0.004395*(8/12)=0.00293 P(X|Playbasketball=”No”) P(Playbasketball=”No”)=0.070313*(4/12)=0.023438 （4）因此，对于样本 X，朴素贝叶斯分类预测 Playbasketball=”No”。

数据库原理及应用教程第三版部分简答题答案-陈志伯

关系数据库的完整性规则包括实体完整性、参照完整性和用户自定义完整性。实体完整性规则要求每个表的每一行都必须有一个唯一的标识符，通常为主键。参照完整性规则要求外键的值必须在相应的主键表中存在。用户自定义完整性规则允许用户定义自己的约束条件来保证数据的正确性。
VS
关系数据库的查询语言是SQL（Structured Query Language）。SQL是一种用于管理关系数据库的标准编程语言，它提供了查询、插入、更新和删除数据的功能，以及创建和管理表、视图、索引和其他数据库对象的能力。
数据库管理员是负责管理和维护数据库的人员，他们需要具备专业的技能和经验来确保数据库的安全、可靠和高效运行。
01
02
03
04
05
关系数据库
CATALOGUE
02
关系数据库的基本概念包括关系、元组、属性、域和码等。关系是一个二维表，由行和列组成，每行表示一个元组，每列表示一个属性。元组是关系中的一行数据，属性是关系中的一列数据，域是属性的取值范围，码是唯一标识每个元组的属性组合。
逻辑设计
根据数据库管理系统的特点和性能要求，设计数据的存储结构、索引、分区等物理细节。
物理设计
02
01
03
04
05
ER图（实体-关系图）是一种用于描述实体、属性和它们之间关系的图形化表示方法。在数据库设计中，ER图用于将现实世界的数据和信息抽象为逻辑模型，帮助设计者更好地理解和管理数据。ER图中的元素包括实体、属性和关系，通过这些元素可以清晰地表达数据之间的关系和结构。
分布式数据库管理系统（DDBMS）
支持分布式环境下的数据存储和管理，能够实现数据分散存储和集中管理。
云数据库管理系统（CloudDBMS）

数据挖掘_概念与技术(第三版)部分习题答案

1.4 数据仓库和数据库有何分歧？有哪些相似之处？之阿布丰王创作答：区别：数据仓库是面向主题的，集成的，不容易更改且随时间变更的数据集合，用来支持管理人员的决策，数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成，是面向操纵型的数据库，是组成数据仓库的源数据。

它用表组织数据，采取ER数据模型。

相似：它们都为数据挖掘提供了源数据，都是数据的组合。

1.3定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。

答：特征化是一个目标类数据的一般特性或特性的汇总。

例如，学生的特征可被提出，形成所有大学的计算机科学专业一年级学生的轮廓，这些特征包含作为一种高的年级平均成绩(GPA：Grade point aversge)的信息，还有所修的课程的最大数量。

区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如，具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA 的学生的75%是四年级计算机科学专业的学生，而具有低GPA 的学生的65%不是。

关联是指发现关联规则，这些规则暗示一起频繁发生在给定数据集的特征值的条件。

例如，一个数据挖掘系统可能发现的关联规则为：major(X, “computing science”) ⇒owns(X, “personal computer”)[support=12%, confidence=98%]其中，X 是一个暗示学生的变量。

这个规则指出正在学习的学生，12%（支持度）主修计算机科学而且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%（置信度，或确定度）。

分类与预测分歧，因为前者的作用是构造一系列能描述和区分数据类型或概念的模型（或功能），而后者是建立一个模型去预测缺失的或无效的、而且通常是数字的数据值。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第1章数据仓库的概念与体系结构1.数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。

3.数据处理通常分成两大类：联机事务处理OLTP和联机分析处理OLAP。

5. ROLAP是基于关系数据库的OLAP实现，而MOLAP是基于多维数据结构组织的OLAP实现。

6.数据仓库按照其开发过程，其关键环节包括数据抽取、数据存储与管理和数据表现等。

8.操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的（但是可“挥发”的）、企业级的、详细的数据库，也叫运营数据存储。

9.“实时数据仓库”意味着源数据系统、决策支持服务和数据仓库之间以一个接近实时的速度交换数据和业务规则。

数据仓库的特点包含以下几个方面：（1）面向主题。

操作型数据库的数据组织是面向事务处理任务，各个业务系统之间各自分离；而数据仓库中的数据是按照一定的主题域进行组织。

主题是一个抽象的概念，是指用户使用数据仓库进行决策时所关心的重点领域，一个主题通常与多个操作型业务系统或外部档案数据相关。

（2）集成的。

面向事务处理的操作型数据库通常与某些特定的应用相关，数据库之间相互独立，并且往往是异构的。

而数据仓库中的数据是在对原有分散的数据库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的，必须消除源数据中的不一致性，以保证数据仓库内的信息是关于整个企事业单位一致的全局信息。

也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义。

（3）相对稳定的。

操作型数据库中的数据通常实时更新，数据根据需要及时发生变化。

数据仓库的数据主要供单位决策分析之用，对所涉及的数据操作主要是数据查询和加载，一旦某个数据加载到数据仓库以后，一般情况下将作为数据档案长期保存，几乎不再做修改和删除操作，也就是说针对数据仓库，通常有大量的查询操作及少量定期的加载（或刷新）操作。

（4）反映历史变化。

操作型数据库（OLTP）主要关心当前某一个时间段内的数据，而数据仓库中的数据通常包含较久远的历史数据，因此总是包括一个时间维，以便可以研究趋势和变化。

数据仓库系统通常记录了一个单位从过去某一时点(如开始启用数据仓库系统的时点)到目前的所有时期的信息，通过这些信息，可以对单位的发展历程和未来趋势做出定量分析和预测。

12. 简述数据仓库4种体系结构的异同点及其适用性。

答：（1）两层架构（Generic Two-Level Architecture）。

（2）独立型数据集市（Independent Data Mart）。

（3）依赖型数据集市和操作型数据存储（Dependent Data Mart and Operational Data Store）。

（4）逻辑型数据集市和实时数据仓库（Logical Data Mart and Real-Time Data Warehouse）。

13.答：数据仓库技术的发展包括数据抽取、存储管理、数据表现和方法论等方面。

在数据抽取方面，未来的技术发展将集中在系统集成化方面。

它将互连、转换、复制、调度、监控纳入标准化的统一管理，以适应数据仓库本身或数据源可能的变化，使系统更便于管理和维护。

在数据管理方面，未来的发展将使带有决策支持扩展的并行关系数据库将最具发展潜力。

在数据表现方面，数理统计的算法和功能将普遍集成到联机分析产品中，并与Internet/Web 技术紧密结合。

按行业应用特征细化的数据仓库用户前端软件将成为产品作为数据仓库解决方案的一部分。

数据仓库实现过程的方法论将更加普及，将成为数据库设计的一个明确分支，成为管理信息系统设计的必备。

14. 答：（1）IBM 公司提供了一套基于可视化数据仓库的商业智能（BI）解决方案，包括：Visual Warehouse （VW），Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB，以及来自第三方的前端数据展现工具（如BO）和数据挖掘工具（如SAS）。

其中，VW 是一个功能很强的集成环境，既可用于数据仓库建模和元数据管理，又可用于数据抽取、转换、装载和调度。

Essbase/DB2 OLAP Server 支持“维”的定义和数据装载。

Essbase/DB2 OLAP Server 不是ROLAP（Relational OLAP）服务器，而是一个（ROLAP 和MOLAP）混合的HOLAP 服务器，在Essbase 完成数据装载后，数据存放在系统指定的DB2 UDB 数据库中。

它的前端数据展现工具可以选择Business Objects 的BO、Lotus 的Approach、Cognos 的Impromptu 或IBM 的Query Management Facility；多维分析工具支持Arbor Software 的Essbase 和IBM（与Arbor 联合开发）的DB2 OLAP 服务器；统计分析工具采用SAS 系统。

（2）Oracle 数据仓库解决方案主要包括Oracle Express 和Oracle Discoverer 两个部分。

Oracle Express 由四个工具组成：Oracle Express Server 是一个MOLAP(多维OLAP)服务器，它利用多维模型，存储和管理多维数据库或多维高速缓存，同时也能够访问多种关系数据库；Oracle Express Web Agent 通过CGI 或Web 插件支持基于Web 的动态多维数据展现；Oracle Express Objects 前端数据分析工具（目前仅支持Windows 平台）提供了图形化建模和假设分析功能，支持可视化开发和事件驱动编程技术，提供了兼容Visual Basic 语法的语言，支持OCX 和OLE；Oracle Express Analyzer 是通用的、面向最终用户的报告和分析工具（目前仅支持Windows 平台）。

Oracle Discoverer 即席查询工具是专门为最终用户设计的，分为最终用户版和管理员版。

在Oracle 数据仓库解决方案的实施过程中，通常把汇总数据存储在Express 多维数据库中，而将详细数据存储在Oracle 关系数据库中，当需要详细数据时，Express Server 通过构造SQL 语句访问关系数据库。

（3）Microsoft 将OLAP 功能集成到SQL Server 数据库中，其解决方案包括BI 平台、BI 终端工具、BI 门户和BI 应用四个部分，如图1.1。

① BI 平台是BI 解决方案的基础，包括ETL 平台SQL Server 2005 Integration Service(SSIS)、数据仓库引擎SQL Server 2005 RDBMS 以及多维分析和数据挖掘引擎SQL Server 2005 Analysis Service、报表管理引擎SQL Server 2005 Reporting Service。

② BI 终端用户工具，用户通过终端用户工具和Analysis Service 中的OLAP 服务和数据挖掘服务进行交互来使用多维数据集和数据挖掘模型，终端用户通常可使用预定义报表、交互式多维分析、即席查询、数据可视化、数据挖掘等多种方法。

③ BI 门户提供了各种不同用户访问BI 信息的统一入口。

BI 门户是一个数据的汇集地，集成了来自不同系统的相关信息。

用户可以制定个性化的个人门户，选择和自己相关性最强的数据，提高信息访问和使用的效率。

④ BI 应用是建立在BI 平台、BI 终端用户工具和BI 统一门户这些公共技术手段之上的满足某个特定业务需求的应用，例如零售业务分析、企业项目管理组合分析等。

第2章数据仓库的数据存储与处理1. 企业级数据仓库（EDW）。

2. 单一的，详细的。

3. 最初填充数据仓库。

4. 越高，越低，越多。

5. 提高，预处理，事实表。

6. 自然键（Natural Key），代理键（Surrogate Key）。

7. 星型模式。

9. 答：简单地说，数据是从企业内外部的各业务处理系统（操作型数据）流向企业级数据仓库（EDW）或操作型数据存储区(ODS)，在这个过程中，要根据企业（或其他组织）的数据模型和元数据库对数据进行调和处理，形成一个中间数据层，然后再根据分析需求，从调和数据层（EDW、ODS）将数据引入导出数据层，如形成满足各类分析需求的数据集市。

10. 答：数据的ETL 过程就是负责将操作型数据转换成调和数据的过程。

如上面的2.3.1 小节所述，这两种数据具有明显的区别，因此，数据调和是构建一个数据仓库中最难的和最具技术挑战性的部分。

在为企业级数据仓库填充数据的过程中，数据调和可分为两个阶段：一是企业级数据仓库（EDW）首次创建时的原始加载；二是接下来的定期修改，以保持EDW 的当前有效性和扩展性。

整个过程由四个步骤组成：抽取、清洗、转换、加载和索引。

事实上，这些步骤可以进行不同的组合，如，可以将数据抽取与清洗组合为一个过程，或者将清洗和转换组合在一起。

通常，在清洗过程中发现的拒绝数据信息会送回到源操作型业务系统中，然后将数据在源系统中加以处理，以便在以后重新抽取。

11. 答：在星模式中，事实表居中，多个维表呈辐射状分布于其四周，并与事实表连接。

位于星形中心的实体是事实表，是用户最关心的基本实体和查询活动的中心，为数据仓库的查询活动提供定量数据。

位于星模式四周的实体是维度实体，其作用是限制和过滤用户的查询结果，缩小访问范围。

每个维表都有自己的属性，维表和事实表通过关键字相关联。