《大数据时代下的数据挖掘》试题和答案与解析

合集下载

数据挖掘考试题及答案

数据挖掘考试题及答案

数据挖掘考试题及答案### 数据挖掘考试题及答案#### 一、选择题(每题2分,共20分)1. 数据挖掘的目的是发现数据中的:- A. 错误- B. 模式- C. 异常- D. 趋势答案:B2. 以下哪项不是数据挖掘的常用算法:- A. 决策树- B. 聚类分析- C. 线性回归- D. 神经网络答案:C3. 关联规则挖掘中,Apriori算法用于发现:- A. 频繁项集- B. 异常值- C. 趋势- D. 聚类答案:A4. K-means算法是一种:- A. 分类算法- B. 聚类算法- C. 预测算法- D. 关联规则挖掘算法答案:B5. 以下哪个指标用于评估分类模型的性能:- A. 准确率- B. 召回率- C. F1分数- D. 所有以上答案:D#### 二、简答题(每题10分,共30分)1. 描述数据挖掘中的“过拟合”现象,并给出避免过拟合的策略。

答案:过拟合是指模型对训练数据拟合得过于完美,以至于失去了泛化能力。

避免过拟合的策略包括:使用交叉验证、正则化技术、减少模型复杂度、获取更多的训练数据等。

2. 解释什么是“数据清洗”以及它在数据挖掘中的重要性。

答案:数据清洗是指从原始数据中识别并纠正(或删除)错误、重复或不完整的数据的过程。

它在数据挖掘中至关重要,因为脏数据会导致分析结果不准确,影响最终的决策。

3. 描述“特征选择”在数据挖掘中的作用。

答案:特征选择是数据挖掘中用来降低数据维度、提高模型性能和减少计算成本的过程。

通过选择最有信息量的特征,可以去除冗余或无关的特征,从而提高模型的准确性和效率。

#### 三、应用题(每题25分,共50分)1. 假设你正在分析一个电子商务网站的用户购买行为,描述你将如何使用数据挖掘技术来识别潜在的营销机会。

答案:首先,我会使用聚类分析来识别不同的用户群体。

然后,通过关联规则挖掘来发现不同用户群体的购买模式。

接着,利用分类算法来预测用户可能感兴趣的产品。

数据挖掘试题及答案

数据挖掘试题及答案

数据挖掘试题及答案数据挖掘是一门利用数据分析技术从大量的数据集中发现规律、模式和知识的过程。

它对我们理解和利用数据提供了有力的支持,被广泛应用于商业、科学研究等领域。

下面是一些常见的数据挖掘试题及其答案。

试题一:什么是数据挖掘?答案:数据挖掘是指利用计算机技术和统计学方法,从大规模数据集中发现隐藏在其中的有价值的信息和知识的过程。

它包括数据预处理、特征选择、模型构建以及模式识别和知识发现等步骤。

试题二:数据挖掘的主要任务有哪些?答案:数据挖掘的主要任务包括分类、聚类、关联规则挖掘和异常检测等。

分类是指将数据集中的样本划分到不同的类别中;聚类是将数据集划分为若干个相似的组;关联规则挖掘是找出数据中项之间的关联关系;异常检测是识别与正常模式不符的数据。

试题三:数据挖掘中常用的算法有哪些?答案:数据挖掘中常用的算法包括决策树、聚类算法、关联规则算法和神经网络等。

决策树算法通过对数据集进行划分,构建一棵树形结构用于分类;聚类算法根据相似度将数据集分为不同的簇;关联规则算法用于发现数据集中项之间的关联关系;神经网络模拟人脑的神经元网络结构,用于数据分类和预测。

试题四:数据挖掘的应用场景有哪些?答案:数据挖掘的应用场景非常广泛。

在商业领域,它可以帮助企业进行市场分析、客户关系管理和产品推荐等;在科学研究中,它能够帮助科学家从大量的实验数据中发现新的知识和规律;在医疗领域,它可以辅助医生进行疾病诊断和治疗方案选择等。

试题五:数据挖掘存在的挑战有哪些?答案:数据挖掘存在一些挑战,包括数据质量不高、维度灾难、算法性能和可解释性等方面。

数据质量不高可能导致挖掘结果不准确;维度灾难是指当数据特征数量很多时,算法的计算复杂度急剧增加;算法性能要求高,对大规模数据集的挖掘需要高效的算法;可解释性是指挖掘结果是否易于被理解和解释。

以上是一些常见的数据挖掘试题及其答案。

通过理解和掌握数据挖掘的基本概念、任务、算法和应用场景,可以帮助我们更好地运用数据挖掘技术,从海量数据中提取有价值的信息和知识,为决策和创新提供支持。

大数据分析与挖掘复习 题集附答案

大数据分析与挖掘复习 题集附答案

大数据分析与挖掘复习题集附答案大数据分析与挖掘复习题集附答案一、选择题1. 数据挖掘的主要任务是:A. 模式发现和模型评估B. 数据收集和整理C. 数据分析和可视化D. 数据传输和存储答案:A2. 在数据挖掘过程中,数据预处理的目的是:A. 提取有价值的信息B. 去除异常值和噪声C. 构建合适的模型D. 优化数据存储结构答案:B3. 关联规则挖掘是指:A. 发现不同属性之间的关联关系B. 预测未来事件的发生C. 分析数据的变化趋势D. 构建数据的分类模型答案:A4. 在数据挖掘中,分类和聚类的主要区别在于:A. 数据来源的不同B. 目标的不同C. 算法的不同D. 结果的不同答案:B5. 大数据分析的核心挑战是:A. 数据存储和处理速度B. 数据质量和准确性C. 数据安全和隐私保护D. 数据可视化和展示答案:A二、填空题1. __________是指通过对海量数据进行深入分析和挖掘,从中发现有价值的信息。

答案:大数据分析与挖掘2. 在数据挖掘过程中,将数据按照一定的规则进行重新排列,以便更方便地进行分析和挖掘,这个过程称为__________。

答案:数据预处理3. 数据挖掘中的分类算法主要是通过对已有的样本进行学习和训练,从而预测新的样本所属的__________。

答案:类别4. 聚类算法是将相似的数据样本归为一类,不需要事先知道数据的__________。

答案:类别5. 在大数据分析中,数据的__________对于结果的准确性和可靠性至关重要。

答案:质量三、简答题1. 请简要说明大数据分析与挖掘的步骤和流程。

答:大数据分析与挖掘的步骤主要包括数据收集与清洗、数据预处理、模式发现、模型评估和应用。

首先,需要从各个数据源收集所需数据,并对数据进行清洗,去除异常值和噪声。

然后,通过数据预处理,对数据进行规范化、离散化等处理,以便于后续的分析和挖掘。

接着,利用合适的算法和技术,进行模式发现,例如关联规则挖掘、分类和聚类等。

《数据挖掘》试题与答案

《数据挖掘》试题与答案

一、解答题(满分30分,每小题5分)1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。

知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。

流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。

2. 时间序列数据挖掘的方法有哪些,请详细阐述之时间序列数据挖掘的方法有:1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。

例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。

2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。

若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。

3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。

由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。

假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。

3. 数据挖掘的分类方法有哪些,请详细阐述之分类方法归结为四种类型:1)、基于距离的分类方法:距离的计算方法有多种,最常用的是通过计算每个类的中心来完成,在实际的计算中往往用距离来表征,距离越近,相似性越大,距离越远,相似性越小。

《数据挖掘》试题与答案(2021年整理精品文档)

《数据挖掘》试题与答案(2021年整理精品文档)

《数据挖掘》试题与答案编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(《数据挖掘》试题与答案)的内容能够给您的工作和学习带来便利。

同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。

本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为《数据挖掘》试题与答案的全部内容。

一、解答题(满分30分,每小题5分)1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。

知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。

流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。

2. 时间序列数据挖掘的方法有哪些,请详细阐述之时间序列数据挖掘的方法有:1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。

例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。

2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值.若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。

大数据时代下的数据挖掘试题及答案

大数据时代下的数据挖掘试题及答案

《海量数据挖掘技术及工程实践》题目一、单选题(共80题)1)( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。

A.数据清洗B.数据集成C.数据变换D.数据归约2)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题(A)3) A. 关联规则发现 B. 聚类4) C. 分类 D. 自然语言处理5)以下两种描述分别对应哪两种对分类算法的评价标准 (A)6) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。

7) (b)描述有多少比例的小偷给警察抓了的标准。

8) A. Precision,Recall B. Recall,Precision9) A. Precision,ROC D. Recall,ROC10)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务(C)11) A. 频繁模式挖掘 B. 分类和预测C. 数据预处理D. 数据流挖掘12)当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离(B)13) A. 分类 B. 聚类C. 关联分析D. 隐马尔可夫链14)建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务(C)建模描述 B. 根据内容检索 A. 15).16) C. 预测建模 D. 寻找模式和规则17)下面哪种不属于数据预处理的方法 (D)18) A.变量代换 B.离散化C.聚集D.估计遗漏值19)假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204,215 使用如下每种方法将它们划分成四个箱。

等频(等深)划分时,15在第几个箱子内(B)20) A.第一个 B.第二个C.第三个D.第四个21)下面哪个不属于数据的属性类型:(D)22) A.标称 B.序数C.区间D.相异23)只有非零值才重要的二元属性被称作:( C )24) A.计数属性 B.离散属性C.非对称的二元属性D.对称属性25)以下哪种方法不属于特征选择的标准方法: (D)26) A.嵌入 B.过滤C.包装D.抽样27)下面不属于创建新属性的相关方法的是: (B)28) A.特征提取 B.特征修改C.映射数据到新的空间D.特征构造29)下面哪个属于映射数据到新的空间的方法 (A)30) A.傅立叶变换 B.特征加权C.渐进抽样D.维归约31)假设属性income的最大最小值分别是12000元和98000元。

(完整word版)数据挖掘题目及答案

(完整word版)数据挖掘题目及答案

(完整word版)数据挖掘题⽬及答案⼀、何为数据仓库?其主要特点是什么?数据仓库与KDD的联系是什么?数据仓库是⼀个⾯向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,⽤于⽀持管理决策。

特点:1、⾯向主题操作型数据库的数据组织⾯向事务处理任务,各个业务系统之间各⾃分离,⽽数据仓库中的数据是按照⼀定的主题域进⾏组织的。

2、集成的数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加⼯、汇总和整理得到的,必须消除源数据中的不⼀致性,以保证数据仓库内的信息是关于整个企业的⼀致的全局信息。

3、相对稳定的数据仓库的数据主要供企业决策分析之⽤,⼀旦某个数据进⼊数据仓库以后,⼀般情况下将被长期保留,也就是数据仓库中⼀般有⼤量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。

4、反映历史变化数据仓库中的数据通常包含历史信息,系统记录了企业从过去某⼀时点(如开始应⽤数据仓库的时点)到⽬前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

所谓基于数据库的知识发现(KDD)是指从⼤量数据中提取有效的、新颖的、潜在有⽤的、最终可被理解的模式的⾮平凡过程。

数据仓库为KDD提供了数据环境,KDD从数据仓库中提取有效的,可⽤的信息⼆、数据库有4笔交易。

设minsup=60%,minconf=80%。

TID DATE ITEMS_BOUGHTT100 3/5/2009 {A, C, S, L}T200 3/5/2009 {D, A, C, E, B}T300 4/5/2010 {A, B, C}T400 4/5/2010 {C, A, B, E}使⽤Apriori算法找出频繁项集,列出所有关联规则。

解:已知最⼩⽀持度为60%,最⼩置信度为80%1)第⼀步,对事务数据库进⾏⼀次扫描,计算出D中所包含的每个项⽬出现的次数,⽣成候选1-项集的集合C1。

《数据挖掘》试题与答案

《数据挖掘》试题与答案

一、解答题(满分30 分,每题 5 分)1.如何理解数据发掘和知识发现的关系?请详尽论述之第一从数据源中抽取感兴趣的数据,并把它组织成适合发掘的数据组织形式;而后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到公司的智能系统中。

知识发现是一个指出数据中有效、崭新、潜伏的、有价值的、一个不行忽略的流程,其最终目标是掌握数据的模式。

流程步骤:先理解要应用的领域、熟习有关知识,接着成立目标数据集,并专注所选择的数据子集;再作数据预办理,剔除错误或不一致的数据;而后进行数据简化与变换工作;再经过数据发掘的技术程序成为模式、做回归剖析或找出分类模型;最后经过解说和评论成为实用的信息。

2.时间序列数据发掘的方法有哪些,请详尽论述之时间序列数据发掘的方法有:1)、确立性时间序列展望方法 : 对于安稳变化特点的时间序列来说,假定未来行为与此刻的行为有关,利用属性此刻的值展望未来的值是可行的。

比如,要展望下周某种商品的销售额,能够用近来一段时间的实质销售量来成立展望模型。

2)、随机时间序列展望方法 :经过成立随机模型,对随机时间序列进行剖析,能够展望未来值。

若时间序列是安稳的,能够用自回归(Auto Regressive,简称AR) 模型、挪动回归模型(Moving Average,简称MA) 或自回归挪动均匀(Auto Regressive Moving Average,简称 ARMA) 模型进行剖析展望。

3)、其余方法 : 可用于时间序列展望的方法好多,此中比较成功的是神经网络。

因为大批的时间序列是非安稳的,所以特点参数和数据散布跟着时间的推移而变化。

若是经过对某段历史数据的训练,经过数学统计模型预计神经网络的各层权重参数初值,便可能成立神经网络展望模型,用于时间序列的展望。

3.数据发掘的分类方法有哪些,请详尽论述之分类方法归纳为四种种类:1)、鉴于距离的分类方法 : 距离的计算方法有多种,最常用的是经过计算每个类的中心来达成,在实质的计算中常常用距离来表征,距离越近,相像性越大,距离越远,相像性越小。

《数据挖掘》试题与答案

《数据挖掘》试题与答案

一、解答题(满分30分,每小题5分)1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。

知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。

流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。

2. 时间序列数据挖掘的方法有哪些,请详细阐述之时间序列数据挖掘的方法有:1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。

例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。

2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。

若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。

3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。

由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。

假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。

3. 数据挖掘的分类方法有哪些,请详细阐述之分类方法归结为四种类型:1)、基于距离的分类方法:距离的计算方法有多种,最常用的是通过计算每个类的中心来完成,在实际的计算中往往用距离来表征,距离越近,相似性越大,距离越远,相似性越小。

大数据时代下的数据挖掘试题及答案..

大数据时代下的数据挖掘试题及答案..

《海量数据挖掘技术及工程实践》题目一、单选题(共80题)1)( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。

A.数据清洗B.数据集成C.数据变换D.数据归约2)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理3)以下两种描述分别对应哪两种对分类算法的评价标准? (A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。

(b)描述有多少比例的小偷给警察抓了的标准。

A. Precision,RecallB. Recall,PrecisionA. Precision,ROC D. Recall,ROC4)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘5)当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)A. 分类B. 聚类C. 关联分析D. 隐马尔可夫链6)建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则7)下面哪种不属于数据预处理的方法? (D)A.变量代换B.离散化C.聚集D.估计遗漏值8)假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204,215 使用如下每种方法将它们划分成四个箱。

等频(等深)划分时,15在第几个箱子内?(B)A.第一个B.第二个C.第三个D.第四个9)下面哪个不属于数据的属性类型:(D)A.标称B.序数C.区间D.相异10)只有非零值才重要的二元属性被称作:( C )A.计数属性B.离散属性C.非对称的二元属性D.对称属性11)以下哪种方法不属于特征选择的标准方法: (D)A.嵌入B.过滤C.包装D.抽样12)下面不属于创建新属性的相关方法的是: (B)A.特征提取B.特征修改C.映射数据到新的空间D.特征构造13)下面哪个属于映射数据到新的空间的方法? (A)A.傅立叶变换B.特征加权C.渐进抽样D.维归约14)假设属性income的最大最小值分别是12000元和98000元。

《数据挖掘》试题与答案

《数据挖掘》试题与答案

一、解答题(满分30分,每小题5分)1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。

知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。

流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。

2. 时间序列数据挖掘的方法有哪些,请详细阐述之时间序列数据挖掘的方法有:1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。

例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。

2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。

若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。

3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。

由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。

假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。

3. 数据挖掘的分类方法有哪些,请详细阐述之分类方法归结为四种类型:1)、基于距离的分类方法:距离的计算方法有多种,最常用的是通过计算每个类的中心来完成,在实际的计算中往往用距离来表征,距离越近,相似性越大,距离越远,相似性越小。

数据挖掘习题及解答-完美版

数据挖掘习题及解答-完美版

Data Mining Take Home Exam学号: xxxx 姓名: xxx(1)计算整个数据集的Gini指标值。

(2)计算属性性别的Gini指标值(3)计算使用多路划分属性车型的Gini指标值(4)计算使用多路划分属性衬衣尺码的Gini指标值(5)下面哪个属性更好,性别、车型还是衬衣尺码?为什么?(3)=26/160=0.1625]*2=8/25+6/35=0.4914(5)比较上面各属性的Gini值大小可知,车型划分Gini值0.1625最小,即使用车型属性更好。

2. ((1) 将每个事务ID视为一个购物篮,计算项集{e},{b,d} 和{b,d,e}的支持度。

(2)使用(1)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。

(3)将每个顾客ID作为一个购物篮,重复(1)。

应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0)。

(4)使用(3)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。

答:(1)由上表计数可得{e}的支持度为8/10=0.8;{b,d}的支持度为2/10=0.2;{b,d,e}的支持度为2/10=0.2。

(2)c[{b,d}→{e}]=2/8=0.25; c[{e}→{b,d}]=8/2=4。

(3)同理可得:{e}的支持度为4/5=0.8,{b,d}的支持度为5/5=1,{b,d,e}的支持度为4/5=0.8。

(4)c[{b,d}→{e}]=5/4=1.25,c[{e}→{b,d}]=4/5=0.8。

3. (20分)以下是多元回归分析的部分R输出结果。

> ls1=lm(y~x1+x2)> anova(ls1)Df Sum Sq Mean Sq F value Pr(>F)x1 1 10021.2 10021.2 62.038 0.0001007 ***x2 1 4030.9 4030.9 24.954 0.0015735 **Residuals 7 1130.7 161.5> ls2<-lm(y~x2+x1)> anova(ls2)Df Sum Sq Mean Sq F value Pr(>F)x2 1 3363.4 3363.4 20.822 0.002595 **x1 1 10688.7 10688.7 66.170 8.193e-05 ***Residuals 7 1130.7 161.5(1)用F检验来检验以下假设(α = 0.05)H0: β1 = 0H a: β1≠ 0计算检验统计量;是否拒绝零假设,为什么?(2)用F检验来检验以下假设(α = 0.05)H0: β2 = 0H a: β2≠ 0计算检验统计量;是否拒绝零假设,为什么?(3)用F检验来检验以下假设(α = 0.05)H0: β1 = β2 = 0H a: β1和β2 并不都等于零计算检验统计量;是否拒绝零假设,为什么?解:(1)根据第一个输出结果F=62.083>F(2,7)=4.74,p<0.05,所以可以拒绝原假设,即得到不等于0。

大数据时代下的数据挖掘试题及复习资料

大数据时代下的数据挖掘试题及复习资料

大数据时代下的数据挖掘试题及复习资料《海量数据挖掘技术及工程实践》题目一、单选题(共80题)1)( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。

A.数据清洗B.数据集成C.数据变换D.数据归约2)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理3)以下两种描述分别对应哪两种对分类算法的评价标准? (A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。

(b)描述有多少比例的小偷给警察抓了的标准。

A. Precision,RecallB. Recall,PrecisionA. Precision,ROC D. Recall,ROC4)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘5)当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)A. 分类B. 聚类C. 关联分析D. 隐马尔可夫链6)建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则7)下面哪种不属于数据预处理的方法? (D)A.变量代换B.离散化C.聚集D.估计遗漏值8)假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204,215 使用如下每种方法将它们划分成四个箱。

等频(等深)划分时,15在第几个箱子内?(B)A.第一个B.第二个C.第三个D.第四个9)下面哪个不属于数据的属性类型:(D)A.标称B.序数C.区间D.相异10)只有非零值才重要的二元属性被称作:( C )A.计数属性B.离散属性C.非对称的二元属性D.对称属性11)以下哪种方法不属于特征选择的标准方法: (D)A.嵌入B.过滤C.包装D.抽样12)下面不属于创建新属性的相关方法的是: (B)A.特征提取B.特征修改C.映射数据到新的空间D.特征构造13)下面哪个属于映射数据到新的空间的方法? (A)A.傅立叶变换B.特征加权C.渐进抽样D.维归约14)假设属性income的最大最小值分别是12000元和98000元。

《数据挖掘》试题与答案

《数据挖掘》试题与答案

一、解答题(满分30分,每小题5分)1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。

知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。

流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。

2. 时间序列数据挖掘的方法有哪些,请详细阐述之时间序列数据挖掘的方法有:1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。

例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。

2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。

若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。

3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。

由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。

假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。

3. 数据挖掘的分类方法有哪些,请详细阐述之分类方法归结为四种类型:1)、基于距离的分类方法:距离的计算方法有多种,最常用的是通过计算每个类的中心来完成,在实际的计算中往往用距离来表征,距离越近,相似性越大,距离越远,相似性越小。

最新《大数据时代下的数据挖掘》试题及答案资料

最新《大数据时代下的数据挖掘》试题及答案资料

《海量数据挖掘技术及工程实践》题目一、单选题(共80题)1)( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。

A.数据清洗B.数据集成C.数据变换D.数据归约2)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理3)以下两种描述分别对应哪两种对分类算法的评价标准? (A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。

(b)描述有多少比例的小偷给警察抓了的标准。

A. Precision,RecallB. Recall,PrecisionA. Precision,ROC D. Recall,ROC4)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘5)当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)A. 分类B. 聚类C. 关联分析D. 隐马尔可夫链6)建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则7)下面哪种不属于数据预处理的方法? (D)A.变量代换B.离散化C.聚集D.估计遗漏值8)假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204,215 使用如下每种方法将它们划分成四个箱。

等频(等深)划分时,15在第几个箱子内?(B)A.第一个B.第二个C.第三个D.第四个9)下面哪个不属于数据的属性类型:(D)A.标称B.序数C.区间D.相异10)只有非零值才重要的二元属性被称作:( C )A.计数属性B.离散属性C.非对称的二元属性D.对称属性11)以下哪种方法不属于特征选择的标准方法: (D)A.嵌入B.过滤C.包装D.抽样12)下面不属于创建新属性的相关方法的是: (B)A.特征提取B.特征修改C.映射数据到新的空间D.特征构造13)下面哪个属于映射数据到新的空间的方法? (A)A.傅立叶变换B.特征加权C.渐进抽样D.维归约14)假设属性income的最大最小值分别是12000元和98000元。

《数据挖掘》试题与答案

《数据挖掘》试题与答案

一、解答题(满分30分,每小题5分)1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。

知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。

流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。

2. 时间序列数据挖掘的方法有哪些,请详细阐述之时间序列数据挖掘的方法有:1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。

例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。

2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。

若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。

3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。

由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。

假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。

3. 数据挖掘的分类方法有哪些,请详细阐述之分类方法归结为四种类型:1)、基于距离的分类方法:距离的计算方法有多种,最常用的是通过计算每个类的中心来完成,在实际的计算中往往用距离来表征,距离越近,相似性越大,距离越远,相似性越小。

大数据与数据挖掘考试题_《大数据时代下的数据挖掘》试题及答案

大数据与数据挖掘考试题_《大数据时代下的数据挖掘》试题及答案

⼤数据与数据挖掘考试题_《⼤数据时代下的数据挖掘》试题及答案 -A.地址 C.情绪B.⾏为 D.来源70) 通过数据收集和展⽰数据背后的( D ),运⽤丰富的、具有互动性的可视化⼿段,数据新闻学成为新闻学作为⼀门新的分⽀进⼊主流媒体,即⽤数据报道新闻。

A.数据收集 C.真相B.数据挖掘D. 关联与模式71) CRISP-DM 模型中Evaluation表⽰对建⽴的模型进⾏评估,重点具体考虑得出的结果是否符合( C )的商业⽬的。

A.第⼆步 C.第⼀步B.第三步 D.最后⼀步72) 发现关联规则的算法通常要经过以下三个步骤:连接数据,作数据准备;给定最⼩⽀持度和( D ),利⽤数据挖掘⼯具提供的算法发现关联规则;可视化显⽰、理解、评估关联规则 A. 最⼩兴趣度 C. 最⼤⽀持度B. 最⼩置信度 D. 最⼩可信度73) 规则I->j,“有可能”,等于所有包含I的购物篮中同时包含J的购物篮的⽐例,为( B )。

A. 置信度 C. 兴趣度B.可信度D. ⽀持度74) 如果⼀个匹配中,任何⼀个节点都不同时是两条或多条边的端点,也称作( C )A. 极⼤匹配 C完美匹配B.⼆分匹配 D.极⼩匹配75) 只要具有适当的政策推动,⼤数据的使⽤将成为未来提⾼竞争⼒、⽣产⼒、创新能⼒以及( D )的关键要素。

A.提⾼消费B.提⾼GDPC.提⾼⽣活⽔平D. 创造消费者盈余76) 个性化推荐系统是建⽴在海量数据挖掘基础上的⼀种⾼级商务智能平台,以帮助( D )为其顾客购物提供完全个性化的决策⽀持和信息服务。

A.公司B.各单位C.跨国企业D. 电⼦商务⽹站77) 云计算是对( D )技术的发展与运⽤A.并⾏计算B.⽹格计算C.分布式计算D.三个选项都是78) ( B )是Google提出的⽤于处理海量数据的并⾏编程模式和⼤规模数据集的并⾏运算的软件架构。

A.GFSB.MapReduceC.ChubbyD.BitTable79) 在Bigtable中,( A )主要⽤来存储⼦表数据以及⼀些⽇志⽂件A. GFSB. ChubbyC.SSTableD.MapReduce⼆、判断题(共40题)1) 分类是预测数据对象的离散类别,预测是⽤于数据对象的连续取值。

【最新精选】《数据挖掘》试题与答案

【最新精选】《数据挖掘》试题与答案

一、解答题(满分30分,每小题5分)1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。

知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。

流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。

2. 时间序列数据挖掘的方法有哪些,请详细阐述之时间序列数据挖掘的方法有:1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。

例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。

2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。

若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。

3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。

由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。

假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。

3. 数据挖掘的分类方法有哪些,请详细阐述之分类方法归结为四种类型:1)、基于距离的分类方法:距离的计算方法有多种,最常用的是通过计算每个类的中心来完成,在实际的计算中往往用距离来表征,距离越近,相似性越大,距离越远,相似性越小。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《海量数据挖掘技术及工程实践》题目一、单选题(共80题)1)( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。

A.数据清洗B.数据集成C.数据变换D.数据归约2)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理3)以下两种描述分别对应哪两种对分类算法的评价标准? (A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。

(b)描述有多少比例的小偷给警察抓了的标准。

A. Precision,RecallB. Recall,PrecisionA. Precision,ROC D. Recall,ROC4)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘5)当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)A. 分类B. 聚类C. 关联分析D. 隐马尔可夫链6)建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则7)下面哪种不属于数据预处理的方法? (D)A.变量代换B.离散化C.聚集D.估计遗漏值8)假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204,215 使用如下每种方法将它们划分成四个箱。

等频(等深)划分时,15在第几个箱子内?(B)A.第一个B.第二个C.第三个D.第四个9)下面哪个不属于数据的属性类型:(D)A.标称B.序数C.区间D.相异10)只有非零值才重要的二元属性被称作:( C )A.计数属性B.离散属性C.非对称的二元属性D.对称属性11)以下哪种方法不属于特征选择的标准方法: (D)A.嵌入B.过滤C.包装D.抽样12)下面不属于创建新属性的相关方法的是: (B)A.特征提取B.特征修改C.映射数据到新的空间D.特征构造13)下面哪个属于映射数据到新的空间的方法? (A)A.傅立叶变换B.特征加权C.渐进抽样D.维归约14)假设属性income的最大最小值分别是12000元和98000元。

利用最大最小规范化的方法将属性的值映射到0至1的范围内。

对属性income的73600元将被转化为:(D)A.0.821B.1.224C.1.458D.0.71615)一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。

则年级属性的众数是: (A)A.一年级B.二年级C.三年级D.四年级16)下列哪个不是专门用于可视化时间空间数据的技术: (B)A.等高线图B.饼图C.曲面图D.矢量场图17)在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: (D)A.有放回的简单随机抽样B.无放回的简单随机抽样C.分层抽样D 渐进抽样18)数据仓库是随着时间变化的,下面的描述不正确的是 (C)A.数据仓库随时间的变化不断增加新的数据内容B.捕捉到的新数据会覆盖原来的快照C.数据仓库随事件变化不断删去旧的数据内容D.数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合19)下面关于数据粒度的描述不正确的是: (C)A.粒度是指数据仓库小数据单元的详细程度和级别B.数据越详细,粒度就越小,级别也就越高C.数据综合度越高,粒度也就越大,级别也就越高D.粒度的具体划分将直接影响数据仓库中的数据量以及查询质量20)有关数据仓库的开发特点,不正确的描述是: (A)A.数据仓库开发要从数据出发B.数据仓库使用的需求在开发出去就要明确C.数据仓库的开发是一个不断循环的过程,是启发式的开发D.在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式21)关于OLAP的特性,下面正确的是: (D)(1)快速性 (2)可分析性 (3)多维性 (4)信息性 (5)共享性A.(1) (2) (3)B.(2) (3) (4)C.(1) (2) (3) (4)D.(1) (2) (3) (4) (5)22)关于OLAP和OLTP的区别描述,不正确的是: (C)A.OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同B.与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务C.OLAP的特点在于事务量大,但事务内容比较简单且重复率高D.OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的23)关于OLAP和OLTP的说法,下列不正确的是: (A)A.OLAP事务量大,但事务内容比较简单且重复率高B.OLAP的最终数据来源与OLTP不一样C.OLTP面对的是决策人员和高层管理人员D.OLTP以应用为核心,是应用驱动的24)设X={1,2,3}是频繁项集,则可由X产生( C )个关联规则。

A.4B.5C.6D.725)考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含( C )A.1,2,3,4B.1,2,3,5C.1,2,4,5D.1,3,4,526)下面选项中t不是s的子序列的是 ( C )A.s=<{2,4},{3,5,6},{8}> t=<{2},{3,6},{8}>B.s=<{2,4},{3,5,6},{8}> t=<{2},{8}>C.s=<{1,2},{3,4}> t=<{1},{2}>D.s=<{2,4},{2,4}> t=<{2},{4}>27)在图集合中发现一组公共子结构,这样的任务称为 ( B )A.频繁子集挖掘B.频繁子图挖掘C.频繁数据项挖掘D.频繁模式挖掘28)下列度量不具有反演性的是 (D)A.系数B.几率C.Cohen度量D.兴趣因子29)下列 ( A )不是将主观信息加入到模式发现任务中的方法。

A.与同一时期其他数据对比B.可视化C.基于模板的方法D.主观兴趣度量30)下面购物蓝能够提取的3-项集的最大数量是多少(C)A.1B.2C.3D.431)以下哪些算法是分类算法(B)A.DBSCANB.C4.5C.K-MeanD.EM32)以下哪些分类方法可以较好地避免样本的不平衡问题(A)A.KNNB.SVMC.BayesD.神经网络33)决策树中不包含一下哪种结点 ( C )A.根结点(root node)B.内部结点(internal node)C.外部结点(external node)D.叶结点(leaf node)34)以下哪项关于决策树的说法是错误的 (C)A. 冗余属性不会对决策树的准确率造成不利的影响B. 子树可能在决策树中重复多次C. 决策树算法对于噪声的干扰非常敏感D. 寻找最佳决策树是NP完全问题35)在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为 (B)A. 基于类的排序方案B. 基于规则的排序方案C. 基于度量的排序方案D. 基于规格的排序方案。

36)以下哪些算法是基于规则的分类器 (A)A. C4.5B. KNNC. Naive BayesD. ANN37)可用作数据挖掘分析中的关联规则算法有(C)。

A. 决策树、对数回归、关联模式B. K均值法、SOM神经网络C. Apriori算法、FP-Tree算法D. RBF神经网络、K均值法、决策树38)如果对属性值的任一组合,R中都存在一条规则加以覆盖,则称规则集R中的规则为( B )A.无序规则B.穷举规则C.互斥规则D.有序规则39)用于分类与回归应用的主要算法有: ( D )A.Apriori算法、HotSpot算法B.RBF神经网络、K均值法、决策树C.K均值法、SOM神经网络D.决策树、BP神经网络、贝叶斯40)如果允许一条记录触发多条分类规则,把每条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号,称为(A)A.无序规则B.穷举规则C.互斥规则D.有序规则41)考虑两队之间的足球比赛:队0和队1。

假设65%的比赛队0胜出,剩余的比赛队1获胜。

队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜。

如果下一场比赛在队1的主场进行队1获胜的概率为 (C)A.0.75B.0.35C.0.4678D.0.573842)以下关于人工神经网络(ANN)的描述错误的有 (A)A.神经网络对训练数据中的噪声非常鲁棒B.可以处理冗余特征C.训练ANN是一个很耗时的过程D.至少含有一个隐藏层的多层神经网络43)通过聚集多个分类器的预测来提高分类准确率的技术称为 (A)A.组合(ensemble)B.聚集(aggregate)C.合并(combination)D.投票(voting)44)简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( B )A.层次聚类B.划分聚类C.非互斥聚类D.模糊聚类45)在基本K均值算法里,当邻近度函数采用( A )的时候,合适的质心是簇中各点的中位数。

A.曼哈顿距离B.平方欧几里德距离C.余弦距离D.Bregman散度46)( C )是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。

A.边界点B.质心C.离群点D.核心点47)BIRCH是一种( B )。

A.分类器B.聚类算法C.关联分析算法D.特征选择算法48)检测一元正态分布中的离群点,属于异常检测中的基于( A )的离群点检测。

A.统计方法B.邻近度C.密度D.聚类技术49)( C )将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。

A.MIN(单链)B.MAX(全链)C.组平均D.Ward方法50)( D )将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量,它是一种凝聚层次聚类技术。

A.MIN(单链)B.MAX(全链)C.组平均D.Ward方法51) 下列算法中,不属于外推法的是( B )。

A.移动平均法B.回归分析法C.指数平滑法D.季节指数法52) 关联规则的评价指标是:( C )。

相关文档
最新文档