大数据挖掘期末考试计算题及问题详解

题一:

一阶项目集支持度

a 5

b 4

c 2

d 5

e 3

f 4

g 6

一阶频繁集支持度

a 5

b 4

d 5

f 4

g 6

二阶候选集支持度ab 3

ad 4

af 2

ag 5

bd 3

bf 1

bg 3

df 3

dg 4

fg 3

二阶频繁集支持度

ad 4

ag 5

dg 4

三阶候选集支持度

adg 4

三阶频繁集支持度

adg 4

题二

Distance(G,A)2=0.1; Distance(G,B)2=0.03; Distance(G,C)2=0.11 Distance(G,D)2=0.12; Distance(G,E)2=0.16; Distance(G,F)2=0.05 G的三个最近的邻居为B,F,A,因此G的分类为湖泊水

Distance(H,A)2=0.03; Distance(H,B)2=0.18; Distance(H,C)2=0.22

Distance(H,D)2=0.03; Distance(H,E)2=0.21; Distance(H,F)2=0.16 H 的三个最近的邻居为A,D,F,因此H 的分类为冰川水 题三

首先计算各属性的信息增益 Gain(Ca+浓度)=0

Gain(Mg+浓度)=0.185 Gain(Na+浓度)=0 Gain(Cl-浓度)=0.32 选择 Cl-浓度作为根节点

计算各属性的信息增益 Gain(Ca+浓度)=0 Gain(Mg+浓度)=0.45 Gain(Na+浓度)=0.24 选择Mg+浓度作为节点

Cl-浓度

冰川水 ?

高 低 Cl-浓度

冰川水 Mg+浓度

高 低

高 低

计算各属性的信息增益 Gain(Ca+浓度)=0.24 Gain(Na+浓度)=0.91 题四

P(Ca+浓度=低,Mg+浓度=高,Na+浓度=高,Cl-浓度=低 | 类型=冰川水)*P(冰川水)

=P(Ca+浓度=低 | 类型=冰川水)* P(Mg+浓度=高 | 类型=冰川水)* P(Na+浓度=高| 类型=冰川水)* P(Cl-浓度=低 | 类型=冰川水) *P(冰川水) =0.5*0.75*0.5*0.5*0.5=0.0468

高 低 Cl-浓度

冰川水 Mg+浓度

高 低 Na+浓度 湖泊水

高 低 湖泊水

冰川水

P(Ca+浓度=低,Mg+浓度=高,Na+浓度=高,Cl-浓度=低| 类型=湖泊水)*P(湖泊水)

=P(Ca+浓度=低| 类型=湖泊水)* P(Mg+浓度=高| 类型=湖泊水)* P(Na+浓度=高| 类型=湖泊水)* P(Cl-浓度=低| 类型=湖泊水) *P(湖泊水)

=0.5*0.25*0.5*1*0.5=0.03123

第一个样本为冰川水

P(Ca+浓度=高,Mg+浓度=高,Na+浓度=低,Cl-浓度=高| 类型=冰川水)*P(冰川水)

=P(Ca+浓度=高| 类型=冰川水)* P(Mg+浓度=高| 类型=冰川水)* P(Na+浓度=低| 类型=冰川水)* P(Cl-浓度=高| 类型=冰川水) *P(冰川水)

=0.5*0.75*0.5*0.5*0.5=0.0468

P(Ca+浓度=高,Mg+浓度=高,Na+浓度=低,Cl-浓度=高| 类型=湖泊水)*P(湖泊水)

=P(Ca+浓度=高| 类型=湖泊水)* P(Mg+浓度=高| 类型=湖泊水)* P(Na+浓度=低| 类型=湖泊水)* P(Cl-浓度=高| 类型=湖泊水) *P(湖泊水)

=0.5*0.25*0.5*0*0.5=0

第二个样本为冰川水

题五

A,B,C,D,E,F,G之间的距离矩阵如下表

A B C D E F G A

B 1

C 25

D 415045

E 5.425.505.485.0

F 25.2825.3625.3125.1 1.5

G 686590455.3625.46

根据距离矩阵建立的树如下

题六

第一次迭代以A ,B 作为平均点,对剩余的点根据到A 、B 的距离进行分配 {A,C,D,E,F,G,H}, {B} 计算两个簇的平均点 (6.5, 1.7), (4, 5)

第二次迭代,对剩余的点根据到平均点的距离进行分配,得到两个簇 {D,E,F,H}和{A,B,C,G} 计算两个簇的平均点

B C D A E F G

(9.1, 0.5), (3.25, 3.75)

第三次迭代,对剩余的点根据到平均点的距离进行分配,得到两个簇{D,E,F,H}和{A,B,C,G}

由于所分配的簇没有发生变化,算法终止。

数据挖掘_概念与技术(第三版)部分习题答案

1.4 数据仓库和数据库有何不同?有哪些相似之处? 答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。它用表组织数据,采用ER数据模型. 相似:它们都为数据挖掘提供了源数据,都是数据的组合. 1。3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子. 答:特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息, 还有所修的课程的最大数量。 区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。 关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件.例如,一个数据挖掘系统可能发现的关联规则为:major(X,“computing science")⇒ owns(X, “personal computer”) [support=12%, confidence=98%]其中,X 是一个表示学生的变量。这个规则指出正在学习的学生,12% (支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。 分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具: 分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。 聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类.聚类也便于分类法组织形式,将观测组织成类分 层结构,把类似的事件组织在一起。 数据演变分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析 2.3 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。――――――――――――――――――――――――――――――――――――― 年龄频率――――――――――――――――――――――――――――――――――――― 1~5 200 5~15 450 15~20 300 20~50 1500 50~80 700 80~110 44 ―――――――――――――――――――――――――――――――――――――计算数据的近似中位数值。 解答:先判定中位数区间:N=200+450+300+1500+700+44=3194;N/2=1597 ∵ 200+450+300=950<1597<2450=950+1500; ∴ 20~50 对应中位数区间.

数据挖掘期末试题及答案完整版

数据挖掘期末试题及答案完整版 本文档为数据挖掘课程的期末试题及答案完整版,共分为两部分: 试题 1. 简述数据挖掘的含义,及其在实际应用中的主要应用场景。 2. 数据挖掘的分类有哪些?分别说明其特点和应用场景。 3. 什么是关联规则挖掘?具体方法是什么? 4. 简述聚类分析的含义,及其在实际应用中的主要应用场景。 5. 什么是K-means算法?其具体流程是什么?如何确定K值? 6. 什么是分类算法?具体有哪些分类算法?举例说明其应用场景。 7. 什么是决策树?它的构建方法是什么? 8. 什么是人工神经网络?具体的工作原理是怎样的? 9. 什么是支持向量机?简述其分类原理及构建方法。 10. 集成研究是什么?其主要有哪些方法? 答案

1. 数据挖掘定义:是从大量数据中自动提取未知、隐含的且潜 在有用的信息和模式的计算技术,主要应用场景包括:金融风险控制、市场营销、医学诊断和电子商务等领域。 2. 数据挖掘的分类:基于任务分类、基于数据挖掘方法分类、 基于应用领域分类等。其中基于数据挖掘方法的分类包括:分类、 聚类、关联规则挖掘、时序挖掘、离群点检测和特征选择等,它们 分别对应不同类型的数据挖掘任务和数据类型。 3. 关联规则挖掘:是一种在数据集中发现有趣关系的方法。具 体方法包括:设定最小支持度和最小置信度阈值、频繁集生成、生 成关联规则等。 4. 聚类分析:是一种常用的数据挖掘技术,主要应用场景包括:图像分割、生物信息学、无监督研究等领域。 5. K-means算法:是一种基于划分的聚类算法,具体流程包括:选择初始聚类中心、计算数据点到聚类中心的距离、分组聚类、重 新计算聚类中心等。确定K值有多种方法,常用的有肘部法和轮廓系数法。 6. 分类算法:是一种重要的数据挖掘技术,主要包括决策树、 朴素贝叶斯、神经网络、支持向量机等方法。不同的算法适用于不 同类型的数据和任务场景。

数据挖掘概念与技术习题答案-第3章

数据挖掘概念与技术(原书第3版) 第三章课后习题及解答 3.7习题 3.1数据质量可以从多方面评估,包括准确性、完整性和一致性问题。对于以 上每个问题,讨论数据质量的评估如何依赖于数据的应用目的,给出例子。提出数据质量的两个其他尺度。 答: 数据的质量依赖于数据的应用。 准确性和完整性:如对于顾客的地址信息数据,有部分缺失或错误,对于市场分析部门,这部分数据有80%是可以用的,就是质量比较好的数据,而对于需 要一家家拜访的销售而言,有错误地址的数据,质量就很差了。 一致性:在不涉及多个数据库的数据时,商品的编码是否一致并不影响数据的质量,但涉及多个数据库时,就会影响。 数据质量的另外三个尺度是时效性,可解释性,可信性。 3.2在现实世界的数据中,某些属性上缺失值得到元组是比较常见的。讨论处 理这一问题的方法。 答:对于有缺失值的元组,当前有6种处理的方法: (1)忽略元组:当缺少类标号时通常这么做(假定挖掘任务涉及分类)。除非元组有多个属性缺少值,否则该方法不是很有效。当每个属性缺失值的百分比变化很大时,它的性能特别差。采用忽略元组,你不能使用该元组的剩余属性值。这些数据可能对手头的任务是有利的。 (2)人工填写缺失值:一般来说,该方法很费时,并且当数据集很大、缺失值很多时,该方法可能行不通。 (3)使用一个全局常量填充缺失值:将缺失的属性值用同一个常量(如“u nknown”或-)替换。如果缺失值都用“u nknown”替换,则挖掘程序可能误以为它们形成了一个有趣的概念,因为它们都具有相同的值——“u nknown”。因此,尽管该方法简单,但是并不十分可靠。 (4)使用属性的中心度量(如均值或中位数)填充缺失值:第2章讨论了中心趋势度量,它们指示数据分布的“中间”值。对于正常的(对称的)数据分布,可以使用均值,而倾斜分布的数据则应使用中位数。。 (5)使用与给定元组属同一类的所有样本的属性均值或中位数 (6)使用最可能的值填充缺水值:可以用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定。 3.3在习题2.2中,属性age包括如下值(以递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70. (a)使用深度为3的箱,用箱均值光滑以上的数据。说明你的步骤,讨论这种技术对给定数据的效果。 答:首先将排好序的age数据划分到大小为3的等频的箱中,如下:

数据仓库与数据挖掘_北京理工大学中国大学mooc课后章节答案期末考试题库2023年

数据仓库与数据挖掘_北京理工大学中国大学mooc课后章节答案期末考试题库2023年 1.假设属性income的最大最小值分别是12000元和98000元。利用最大最 小规范化的方法将属性的值映射到0至1的范围内。对属性income的 73600元将被转化为:() 参考答案: 0.716 2.数据的可视化是将数据以各种图表的形式展现在用户的面前,使用户能观察 数据,并在较高的层次上找出数据间可能的关系。 参考答案: 正确 3.数据挖掘和可视化都是知识提取的方式。 参考答案: 正确 4.面向应用场景的可视化交互式数据挖掘方法是以数据挖掘算法和模型为主, 并不针对具体应用场景或数据类型 参考答案: 错误 5.将原始数据进行集成、变换、维度规约、数值规约是以下哪个步骤的任务? () 参考答案: 数据预处理

6.数据仓库的数据ETL过程中,ETL软件的主要功能包括() 参考答案: 数据抽取_数据加载_数据转换 7.数据挖掘的主要任务是从数据中发现潜在规则,从而能更好的完成描述数据、 预测数据的任务。 参考答案: 正确 8.传统数据仓库包括数据仓库数据库、数据抽取/转换/加载、元数据、访问工 具、数据集市、和信息发布系统七个部分组成。 参考答案: 数据仓库管理 9.关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。 参考答案: 错误 10.假定你现在训练了一个线性SVM并推断出这个模型出现了欠拟合现象。在 下一次训练时,应该采取下列什么措施?() 参考答案: 增加特征

11.下面哪一项关于CART的说法是错误的() 参考答案: CART输出变量只能是离散型。 12.以下哪种方法不是常用的数据约减方法() 参考答案: 关联规则挖掘 13.假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内? () 参考答案: 第二个 14.下表是一个购物篮,假定支持度阈值为40%,其中()是频繁闭项集。TID 项1abc2abcd3bce4acde5de 参考答案: abc_de 15.利用Apriori算法计算频繁项集可以有效降低计算频繁集的时间复杂度。在 以下的购物篮中产生支持度不小于3的候选3-项集,在候选2-项集中需要剪枝的是()ID购买项1面包、牛奶2面包、尿布、啤酒、鸡蛋3牛奶、尿布、啤酒、可乐4面包、牛奶、尿布、啤酒5面包、牛奶、尿布、可乐 参考答案: 啤酒、面包_啤酒、牛奶

数据挖掘考试题库

1.何谓数据挖掘?它有哪些方面的功能? 从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。相关的名称有知识发现、数据分析、数据融合、决策支持等。 数据挖掘的功能包括:概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。 2.何谓粒度?它对数据仓库有什么影响?按粒度组织数据的方式有哪些? 粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度。按粒度组织数据的方式主要有: ①简单堆积结构 ②轮转综合结构 ③简单直接结构 ④连续结构 3.简述数据仓库设计的三级模型及其基本内容。 概念模型设计是在较高的抽象层次上的设计,其主要内容包括:界定系统边界和确定主要的主题域。 逻辑模型设计的主要内容包括:分析主题域、确定粒度层次划分、确定数据分割策略、定义关系模式、定义记录系统。 物理数据模型设计的主要内容包括:确定数据存储结构、确定数据存放位置、确定存储分配以及确定索引策略等。在物理数据模型设计时主要考虑的因素有: I/O存取时间、空间利用率和维护代价等。 提高性能的主要措施有划分粒度、数据分割、合并表、建立数据序列、引入冗余、生成导出数据、建立广义索引等。 4.在数据挖掘之前为什么要对原始数据进行预处理? 原始业务数据来自多个数据库或数据仓库,它们的结构和规则可能是不同的,这将导致原始数据非常的杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理。 为数据挖掘算法提供完整、干净、准确、有针对性的数据,减少算法的计算量,提高挖掘效率和准确程度。 5.简述数据预处理方法和内容。 ①数据清洗:包括填充空缺值,识别孤立点,去掉噪声和无关数据。 ②数据集成:将多个数据源中的数据结合起来存放在一个一致的数据存储中。需要注意不同数据源的数据匹配问题、数值冲 突问题和冗余问题等。 ③数据变换:将原始数据转换成为适合数据挖掘的形式。包括对数据的汇总、聚集、概化、规范化,还可能需要进行属性的 重构。 ④数据归约:缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。 6.简述数据清理的基本内容。 ①尽可能赋予属性名和属性值明确的含义; ②统一多数据源的属性值编码; ③去除无用的惟一属性或键值(如自动增长的id); ④去除重复属性(在某些分析中,年龄和出生日期可能就是重复的属性,但在某些时候它们可能又是同时需要的) ⑤去除可忽略字段(大部分为空值的属性一般是没有什么价值的,如果不去除可能造成错误的数据挖掘结果) ⑥合理选择关联字段(对于多个关联性较强的属性,重复无益,只需选择其中的部分用于数据挖掘即可,如价格、数据、金额) ⑦去掉数据中的噪音、填充空值、丢失值和处理不一致数据。 7.简述处理空缺值的方法。 ①忽略该记录; ②去掉属性; ③手工填写空缺值; ④使用默认值; ⑤使用属性平均值; ⑥使用同类样本平均值; ⑦预测最可能的值。 8.常见的分箱方法有哪些?数据平滑处理的方法有哪些? 分箱的方法主要有: ①统一权重法(又称等深分箱法) ②统一区间法(又称等宽分箱法) ③最小熵法

数据仓库与数据挖掘期末考试题库

复习内容 填空题(每空1分) 第1章 1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。 2、根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。 3、数据处理通常分成两大类:联机事务处理(OLTP)和联机分析处理。 4、多维分析是指对以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使用户能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。 5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。 6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。 7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立数据集市、依赖型数据集市和操作型数据存储和逻辑型数据集市和实时数据仓库。 8、操作型数据存储(ODS)实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。P15 9、“实时数据仓库”意味着源数据系统、决策支持服务和数据仓库之间以一个接近实时的速度交换数据和业务规则。 10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。 11、数据挖掘的分析方法可以分为直接数据挖掘和间接数据挖掘两类。 第2章 1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。 2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。因此,我们要求ETL 过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。 3、数据抽取的两个常见类型是静态抽取和增量抽取。静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。 4、粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。 5、使用星型模式可以从一定程度上提高查询效率。因为星型模式中数据的组织已经经过预处理,主要数据都在庞大的事实表中。 6、维度表一般由主键、分类层次和描述属性组成。对于主键可以选择两种方式:一种是采用自然键,另一种是采用代理键。 7、雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。 8、数据仓库中存在不同综合级别的数据。一般把数据分成4个级别:早期细节级、当前细节级、轻度综合级和高度综合级。 第4章 1、关联规则的经典算法包括Apriori算法和FP-growth算法,其中FP-grownth算法的效率更高。 2. 支持度大于或等于最小支持度的项集称为频繁项集。 3. 强关联规则是指满足最小支持度要求和最小置信度要求的关联规则。 4. Apriori性质是频繁项集的所有非空子集都是频繁的,非频繁项集的所有超集都是非频繁的。 5. 关联规则的挖掘可以分为两步:找出所有频繁项集、由频繁项集产生强关联规则。

数据挖掘期末考试试题(含答案)

数据挖掘期末考试试题(含答案) 题目一:数据预处理 题目描述: 给定一个包含缺失值的数据集,采取合适的方法对缺失值进行处理,并解释你的方法选择的原因。 答案: 缺失值在数据分析中是一个常见的问题。我选择使用均值填充的方法来处理缺失值。这种方法将缺失的值用该特征的均值进行代替。 我选择均值填充的原因是因为这种方法简单易用,并且可以保持数据的整体分布特征。均值填充假设缺失值与观察到值的分布相似,因此使用均值填充可以避免引入过多的噪音。 题目二:关联规则挖掘 题目描述: 给定一个购物篮数据集,包含多个商品的组合,使用Apriori 算法挖掘频繁项集和关联规则,并给出相关的评估指标。

答案: Apriori算法是一种常用的关联规则挖掘算法。它通过计算支持度和置信度来挖掘频繁项集和关联规则。 首先,通过扫描数据集,计算每个项集的支持度。然后,根据设定的最小支持度阈值,选取频繁项集作为结果。 接着,根据频繁项集,计算每个规则的置信度。利用最小置信度阈值,筛选出高置信度的关联规则。 评估指标包括支持度、置信度和提升度。支持度衡量一个项集在数据集中出现的频率,置信度衡量规则的可信程度,提升度衡量规则对目标项集出现的增益。 题目三:聚类算法 题目描述: 给定一个数据集,包含多个样本和多个特征,使用K-means算法将样本划分为K个簇,并解释评估聚类性能的指标。

答案: K-means算法是一种常用的聚类算法。它通过迭代的方式将样 本划分为K个簇。 首先,随机选择K个初始聚类中心。然后,对于每个样本,计算其与每个聚类中心的距离,并将其划分到距离最近的簇中。 接着,更新每个簇的聚类中心,计算新的聚类中心位置。重复 以上步骤,直到聚类中心不再发生变化或达到预定的迭代次数。 评估聚类性能的指标包括簇内平方和(SSE)和轮廓系数。簇 内平方和衡量样本与其所属簇的距离之和,SSE越小表示聚类效果 越好。轮廓系数衡量样本与其所属簇以及其他簇之间的距离,值介 于-1到1之间,越接近1表示聚类效果越好。 以上是关于数据挖掘期末考试试题的答案。希望对您有所帮助!

数据挖掘考试题目简答题

多练出技巧巧思出硕果 数据挖掘考试题目——简答题 (1)什么是数据挖掘?什么是知识发现? 答:数据挖掘是在大型数据存储库中,自动地发现有用的信息的过程。 知识发现是将未加工的数据转换为有用信息的整个过程。 (2)数据挖掘要解决的问题包括哪五项? 答:可伸缩、高维性、异种数据和复杂数据、数据的所有权与分布、非传统的分析。 (3)数据的属性分别包括哪几种类型?分别可执行什么操作? 答: 标称(nomial)相异性序数(ordinal) 区间(interval) 比率(ratio) =和≠ 序<、≤、>、≥加法+、- 乘法×、÷ (4)数据中遗漏值的处理策略包括哪几种? 答:1、删除数据对象或属性,如遗漏数据对象很少 2、估计遗漏值,如插值或最近邻法 3、在分析时忽略遗漏值,如忽略属性计算相似度 (5)数据预处理的工作可以包括哪两类? 答:1、选择分析所需要的数据对象和属性 2、创建或改变属性 (6)聚集的目的是什么? 答:1、数据约减 2、改变尺度 3、提高数据的稳定性 (7)有效抽样的定义是什么? 答:1、如果样本是有代表性的,则使用样本与使用整个数据集的效果几乎一样 2、样本具有足够的代表性的前提是它近似地具有与原数据集相同的感兴趣的性质 (8)维归约的目的是什么? 答:1、避免维灾难 2、减少数据挖掘算法的时间与空间开销 3、便于模型的理解与数据的可视化 4、删除无关特征并降低噪声 (9)特征子集的选择方法中,除了基于领域知识和穷举法,还包括三种方法?请列举并简要说明

答:1、嵌入法:特征子集选择算法作为数据挖掘算法的一部分自然存在 2、过滤法:使用某种独立于数据挖掘任务的方法,在数据挖掘算法运行前进行特征选择 3、包装法:将目标数据挖掘算法作为黑盒,使用类似理想算法的方法,但并不枚举所有可能 (10)当满足什么性质时,距离可以称为度量? 答:1、非负性,d(p, q) >=0 ,当且仅当p = q时d(p, q) = 0 2、对称性,d(p, q) = d(q, p) 3、三角不等式:d(p, r) <=d(p, q) + d(q, r) 同时满足以上三个性质的距离称为度量。 (11)简述Apriori算法的优点和缺点。 答:Apriori算法的优点:结构简单、易于理解。 Apriori算法的缺点:产生大量的候选项集,I/O开销较大。 (12)简述构造FP树时第一步通常必须要做什么,为什么? 答:第一步就是扫描一次数据集,确定每个项的支持度计数。丢弃非频繁项,而将频繁项按照支持度递减排序。这样做的目的是最大限度的压缩数据,要不树就会比较茂盛,则达不到计算优化的目的。 (13)簇评估的主要任务是什么。 答:①确定数据集的聚类趋势。 ②确定正确的簇个数。 ③不引用附加的信息,评估聚类分析结果对数据的拟合情况。 ④将聚类分析结果与已知的客观结果比较。 ⑤比较两个簇集,确定哪个更好。 (14)写出K均值算法的优缺点。 答:优点:(1)可以用于各种数据类型 (2)有效 缺点:(1)不能处理非球形簇、不同尺寸和不同密度的簇 (2)离群点的数据进行聚类时,K均值也存在一定问题

数据挖掘_国防科技大学中国大学mooc课后章节答案期末考试题库2023年

数据挖掘_国防科技大学中国大学mooc课后章节答案期末考试题库2023年 1.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种 属于数据挖掘的哪类问题?() 答案: 关联规则发现 2.下列有关SVM说法不正确的是() 答案: SVM因为使用了核函数,因此它没有过拟合的风险 3.影响聚类算法效果的主要原因有:() 答案: 特征选取_聚类准则_模式相似性测度 4.7、朴素贝叶斯分类器不存在数据平滑问题。( ) 答案: 错误 5.决策树中包含一下哪些结点 答案: 内部结点(internal node)_叶结点(leaf node)_根结点(root node) 6.标称类型数据的可以利用的数学计算为:

众数 7.一般,k-NN最近邻方法在( )的情况下效果较好 答案: 样本较少但典型性好 8.考虑两队之间的足球比赛:队0和队1。假设65%的比赛队0胜出、 P(Y=0)=0.65。剩余的比赛队1胜出、P(Y=1)=0.35。队0获胜的比赛中只有30%在队1的主场、P(X=1|Y=0)=0.3,而队1获胜的比赛中75%是主场获胜、P(X=1|Y=1)=0.75。则队1在主场获胜的概率即P(Y=1|X=1)为:() 答案: 0.57 9.一组数据的最小值为12,000,最大值为98,000,利用最小最大规范化将数 据规范到[0,1],则73,000规范化的值为:() 答案: 0.716 10.以下哪个分类方法可以较好地避免样本的不平衡问题:() 答案: KNN 11.简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集 中,下列哪些不属于这种聚类类型

大工21春《数据挖掘》大作业题目及要求【答案】

大工21春《数据挖掘》大作业题目及要 求【答案】 XXX 数据挖掘》课程大作业 题目:Knn算法原理以及python实现 姓名: 研究中心: 第一大题:讲述自己在完成大作业过程中遇到的困难,解决问题的思路,以及相关感想,或者对这个项目的认识,或者对Python与数据挖掘的认识等等,300-500字。 答:数据分析和数据挖掘并不是相互独立的,数据分析通常是直接从数据库取出已有信息,进行一些统计、可视化、文字结论等,最后可能生成一份研究报告性质的东西,以此来辅助决策。但是如果要分析已有信息背后的隐藏信息,而这些信息通过观察往往是看不到的,这是就需要用到数据挖掘,作为分析之前要走的一个门槛。数据挖掘不是简单的认为推测就可以,它往往需要针对大量数据,进行大规模运算,才能得到一些统计学规律。

科技的快速发展和数据的存储技术的快速进步,使得各种行业或组织的数据得以海量积累。但是,从海量的数据当中,提取有用的信息成为了一个难题。在海量数据面前,传统的数据分析工具和方法很无力。由此,数据挖掘技术就登上了历史的舞台。 数据挖掘是一种技术,将传统的数据分析办法与处理大量数据的复杂算法相联合,从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事前不知道的、但又是潜在有效信息和常识的过程。 第二大题:完成下面一项大作业题目。 题目一:Knn算法道理以及python完成 答: 一、knn算法介绍 邻近算法,或者说K最近邻(kNN。k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K 最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本

数据挖掘考试题库完整

一、名词解释 1.数据仓库:是一种新的数据处理体系结构.是面向主题的、集成的、不可更新的(稳定性)、 随时间不断变化(不同时间)的数据集合.为企业决策支持系统提供所需的集成信息。 2.孤立点:指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。 3.OLAP OLAP是在OLTP的基础上发展起来的.以数据仓库为基础的数据分析处理.是共享 多维信息的快速分析.是被专门设计用于支持复杂的分析操作.侧重对分析人员和高层管理人员的决策支持。 4.粒度:指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度影响存放在数据仓 库中的数据量的大小.同时影响数据仓库所能回答查询问题的细节程度。 5.数据规范化:指将数据按比例缩放(如更换大单位).使之落入一个特定的区域(如0-1) 以提高数据挖掘效率的方法。规范化的常用方法有:最大-最小规范化、零-均值规范化、小数定标规范化。 6.关联知识:是反映一个事件和其他事件之间依赖或相互关联的知识。如果两项或多项属性 之间存在关联.那么其中一项的属性值就可以依据其他属性值进行预测。 7.数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的数据中.提取隐含在其中的、 人们事先不知道的、但又是潜在有用的信息和知识的过程。 8.OLTP:OLTP为联机事务处理的缩写.OLAP是联机分析处理的缩写。前者是以数据库为 基础的.面对的是操作人员和低层管理人员.对基本数据进行查询和增、删、改等处理。 9.ROLAP是基于关系数据库存储方式的.在这种结构中.多维数据被映像成二维关系表.通 常采用星型或雪花型架构.由一个事实表和多个维度表构成。 10.MOLAP:是基于类似于“超立方”块的OLAP存储结构.由许多经压缩的、类似于多维数 组的对象构成.并带有高度压缩的索引及指针结构.通过直接偏移计算进行存取。 11.数据归约:缩小数据的取值范围.使其更适合于数据挖掘算法的需要.并且能够得到和原始 数据相同的分析结果。 12.广义知识:通过对大量数据的归纳、概括和抽象.提炼出带有普遍性的、概括性的描述统 计的知识。 13.预测型知识是根据时间序列型数据.由历史的和当前的数据去推测未来的数据.也可以认 为是以时间为关键属性的关联知识。 14.偏差型知识:是对差异和极端特例的描述.用于揭示事物偏离常规的异常现象.如标准类外 的特例.数据聚类外的离群值等。 15.遗传算法:是一种优化搜索算法.它首先产生一个初始可行解群体.然后对这个群体通过模 拟生物进化的选择、交叉、变异等遗传操作遗传到下一代群体.并最 终达到全局最优。 16.聚类:是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程•使得在同一个簇中 的对象之间具有较高的相似度.而不同簇中的对象差别较大。 17.决策树:是用样本的属性作为结点.用属性的取值作为分支的树结构。它是分类规则挖掘 的典型方法.可用于对新样本进行分类。

大数据挖掘期末考试计算题及问题详解

标准文档题一:

标准文档 bf 1 bg 3 df 3 dg 4 fg 3 二阶频繁集支持度 ad 4 ag 5 dg 4 三阶候选集支持度adg 4 三阶频繁集支持度adg 4 题二

标准文档 2 2 2 Distance(H,D)2=0.03; Distance(H,E)2=0.21; Distance(H,F)2=0.16 H的三个最近的邻居为A,D,F, 因此H 的分类为冰川水题三 首先计算各属性的信息增益 Gain(Ca+浓度)=0 Gain(Mg+浓度)=0.185 Gain(Na+浓度)=0 Gain(Cl- 浓度)=0.32 选择Cl- 浓度作为根节点 计算各属性的信息增益 Gain(Ca+浓度)=0 Gain(Mg+浓度)=0.45 Gain(Na+浓度)=0.24 选择Mg+浓度作为节点

标准文档 计算各属性的信息增益 Gain(Ca+浓度)=0.24 Gain(Na+浓度)=0.91 题四 P(Ca+浓度=低,Mg+浓度=高,Na+浓度=高,Cl-浓度=低| 类型=冰川水)*P (冰川水) =P(Ca+浓度=低| 类型=冰川水)* P(Mg+浓度=高| 类型=冰川水)* P(Na+ 浓度= 高| 类型=冰川水)* P(Cl- 浓度=低| 类型=冰川水) *P(冰川水)=0.5*0.75*0.5*0.5*0.5=0.0468 标准文档

P(Ca+浓度=低,Mg+浓度=高,Na+浓度=高,Cl- 浓度=低| 类型=湖泊水)*P(湖泊水) =P(Ca+浓度=低| 类型=湖泊水)* P(Mg+浓度=高| 类型=湖泊水)* P(Na+ 浓度= 高| 类型=湖泊水)* P(Cl- 浓度=低| 类型=湖泊水) *P(湖泊水)=0.5*0.25*0.5*1*0.5=0.03123 第一个样本为冰川水 P(Ca+浓度=高,Mg+浓度=高,Na+浓度=低,Cl- 浓度=高| 类型=冰川水)*P(冰川水) =P(Ca+浓度=高| 类型=冰川水)* P(Mg+浓度=高| 类型=冰川水)* P(Na+ 浓度= 低| 类型=冰川水)* P(Cl- 浓度=高| 类型=冰川水) *P(冰川水)=0.5*0.75*0.5*0.5*0.5=0.0468 P(Ca+浓度=高,Mg+浓度=高,Na+浓度=低,Cl- 浓度=高| 类型=湖泊水)*P(湖泊水) =P(Ca+浓度=高| 类型=湖泊水)* P(Mg+浓度=高| 类型=湖泊水)* P(Na+ 浓度= 低| 类型=湖泊水)* P(Cl- 浓度=高| 类型=湖泊水) *P(湖泊水)=0.5*0.25*0.5*0*0.5=0 第二个样本为冰川水 题五 A,B,C,D,E,F,G 之间的距离矩阵如下表

《数据挖掘》试题与答案

一、解答题(满分30分,每小题5分) 1。怎样理解数据挖掘和知识发现的关系?请详细阐述之 首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。 知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式.流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。 2。时间序列数据挖掘的方法有哪些,请详细阐述之 时间序列数据挖掘的方法有: 1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型. 2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测. 3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测.

数据挖掘考试习题

数据挖掘考试习题(总9页) --本页仅作为文档封面,使用时请直接删除即可-- --内页可以根据需求调整合适字体及大小--

数据挖掘考试题 一.选择题 1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离( ) A.分类 B.聚类 C.关联分析 D.主成分分析 2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。(单链) (全链) C.组平均方法 3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。 A 分类 B 预测 C关联规则分析 D聚类 4.关于K均值和DBSCAN的比较,以下说法不正确的是( ) 均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。 均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。 均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇 均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇 5.下列关于Ward’s Method说法错误的是:( ) A.对噪声点和离群点敏感度比较小 B.擅长处理球状的簇 C.对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差 D.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似 6.下列关于层次聚类存在的问题说法正确的是:( ) A.具有全局优化目标函数 B.Group Average擅长处理球状的簇

C.可以处理不同大小簇的能力 D.Max对噪声点和离群点很敏感 7.下列关于凝聚层次聚类的说法中,说法错误的事:( ) A.一旦两个簇合并,该操作就不能撤销 B.算法的终止条件是仅剩下一个簇 O C.空间复杂度为()2m D.具有全局优化目标函数 8.规则{牛奶,尿布}→{啤酒}的支持度和置信度分别为:( ) 9.下列( )是属于分裂层次聚类的方法。 Average 10.对下图数据进行凝聚聚类操作,簇间相似度使用MAX计算,第二步是哪两个簇合并:( ) A.在{3}和{l,2}合并 B.{3}和{4,5}合并 C.{2,3}和{4,5}合并 D. {2,3}和{4,5}形成簇和{3}合并 二.填空题: 1.属性包括的四种类型:、、、。 2.是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。 3. 基本凝聚层次聚类算法空间复杂度,时间复杂度,如果某个簇到其他所有簇的距离存放在一个有序表或堆中,层次聚类所需要的时间复杂度将为。 4. 聚类中,定义簇间的相似度的方法有(写出四个):、、、。 5. 层次聚类技术是第二类重要的聚类方法。两种层次聚类的基本方法:、。

数据挖掘试题(150道)

A,无序规则B,穷举规则C,互斥规则D,有序规则 58.如果规则集中的规则按照优先级降序排列,则称规则集是(D) A,无序规则B,穷举规则C,互斥规则D,有序规则 59.如果允许一条记录触发多条分类规则,把每条被触发规则的后件看作是对相应类的一次 投票,然后计票确定测试记录的类标号,称为(A) A,无序规则B,穷举规则C,互斥规则D,有序规则 60.考虑两队之间的足球比赛:队0和队1。假设65%的比赛队0胜出,剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行队1获胜的概率为(C) A,B,C,D, 61.以下关于人工神经网络(ANN)的描述错误的有(A) A,神经网络对训练数据中的噪声非常鲁棒B,可以处理冗余特征C,训练ANN是一个很耗时的过程D,至少含有一个隐藏层的多层神经网络 62.通过聚集多个分类器的预测来提高分类准确率的技术称为(A) A,组合(ensemble)B,聚集(aggregate)C,合并(combination)D,投票(voting)63.简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作(B) A、层次聚类 B、划分聚类 C、非互斥聚类 D、模糊聚类 64.在基本K均值算法里,当邻近度函数采用(A)的时候,合适的质心是簇中各点的中位数。 A、曼哈顿距离 B、平方欧几里德距离 C、余弦距离 D、Bregman散度 65.(C)是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。 A、边界点 B、质心 C、离群点 D、核心点 66.BIRCH是一种(B)。 A、分类器 B、聚类算法 C、关联分析算法 D、特征选择算法 67.检测一元正态分布中的离群点,属于异常检测中的基于(A)的离群点检测。 A、统计方法 B、邻近度 C、密度 D、聚类技术 68.(C)将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。 A、MIN(单链) B、MAX(全链) C、组平均 D、Ward方法 69.(D)将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量,它是一种凝聚层次聚类技术。 A、MIN(单链) B、MAX(全链) C、组平均 D、Ward方法 70.DBSCAN在最坏情况下的时间复杂度是(B)。 A、O(m) B、O(m2) C、O(logm) D、O(m*logm) 71.在基于图的簇评估度量表里面,如果簇度量为proximity(Ci,C),簇权值为mi,那么它的类型是(C)。 A、基于图的凝聚度 B、基于原型的凝聚度 C、基于原型的分离度 D、 基于图的凝聚度和分离度 72.关于K均值和DBSCAN的比较,以下说法不正确的是(A)。 A、K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。 B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。

(完整版)数据挖掘_概念和技术[第三版]部分习题答案解析

1.4 数据仓库和数据库有何不同?有哪些相似之处? 答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。它用表组织数据,采用ER数据模型。 相似:它们都为数据挖掘提供了源数据,都是数据的组合。 1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。 答:特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息, 还有所修的课程的最大数量。 区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。 关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ⇒ owns(X, “personal computer”) [support=12%, confidence=98%] 其中,X 是一个表示学生的变量。这个规则指出正在学习的学生,12% (支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。 分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具: 分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。 聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分 层结构,把类似的事件组织在一起。 数据演变分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析 2.3 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。――――――――――――――――――――――――――――――――――――― 年龄频率――――――――――――――――――――――――――――――――――――― 1~5 200 5~15 450 15~20 300 20~50 1500 50~80 700 80~110 44 ―――――――――――――――――――――――――――――――――――――计算数据的近似中位数值。 解答:先判定中位数区间:N=200+450+300+1500+700+44=3194;N/2=1597 ∵ 200+450+300=950<1597<2450=950+1500; ∴ 20~50 对应中位数区间。

大数据时代下的数据挖掘试题和答案及解析

A. 变量代换 B. 离散化 海量数据挖掘技术及工程实践》题目 、单选题(共 80 题) 1) ( D ) 的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到 和原始数据相同的分析结果。 A. 数据清洗 B. 数据集成 C. 数据变换 D. 数据归约 2) 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖 掘的哪类问题 (A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3) 以下两种描述分别对应哪两种对分类算法的评价标准 (A) (a) 警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b) 描述有多少比例的小偷给警察抓了的标准。 据相分离 (B) 哪一类任务 (C) A. 根据内容检索 B. 建模描述 7) 下面哪种不属于数据预处理的方法 (D) A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4) 将原始数据进行集成、 变换、维度规约、数值规约是在以下哪个步骤的任务 (C) 5) A. 频繁模式挖掘 C. 数据预处理 B. D. 当不知道数据所带标签时, 分类和预测 数据流挖掘 可以使用哪种技术促使带同类标签的数据与带其他标签的数 6) A. 分类 C. 关联分析 建立一个模型, B. D. 聚类 隐马尔可夫链 通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 C. 预测建模 D. 寻找模式和规则

C.聚集 D. 估计遗漏值 8) 假设12 个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使 用如下每种方法将它们划分成四个箱。等频(等深)划分时,15 在第几个箱子内(B) A. 第一个 B. 第二个 C. 第三个 D. 第四个 9) 下面哪个不属于数据的属性类型:(D) A. 标称 B. 序数 C. 区间 D. 相异 10) 只有非零值才重要的二元属性被称作:( C ) A. 计数属性 B. 离散属性C .非对称的二元属 性 D. 对称属性 11) 以下哪种方法不属于特征选择的标准方法:(D) A. 嵌入 B. 过滤 C.包装 D. 抽样 12) 下面不属于创建新属性的相关方法的是:(B) A. 特征提取 B. 特征修改 C. 映射数据到新的空间 D. 特征构造 13) 下面哪个属于映射数据到新的空间的方法(A) A. 傅立叶变换 B. 特征加权 C. 渐进抽样 D. 维归约 14) 假设属性income 的最大最小值分别是12000元和98000 元。利用最大最小规范化的方法 将属性的值映射到0 至 1 的范围内。对属性income 的73600 元将被转化为:(D) 15) 一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130 人,四年级 110 人。则年级属性的众数是:(A) A. 一年级 B. 二年级 C.三年级 D. 四年级 16) 下列哪个不是专门用于可视化时间空间数据的技术:(B) A. 等高线图 B. 饼图

相关主题
相关文档
最新文档