数据挖掘习题及解答-完美版

合集下载

数据挖掘考试题及答案

数据挖掘考试题及答案

数据挖掘考试题及答案### 数据挖掘考试题及答案#### 一、选择题(每题2分,共20分)1. 数据挖掘的目的是发现数据中的:- A. 错误- B. 模式- C. 异常- D. 趋势答案:B2. 以下哪项不是数据挖掘的常用算法:- A. 决策树- B. 聚类分析- C. 线性回归- D. 神经网络答案:C3. 关联规则挖掘中,Apriori算法用于发现:- A. 频繁项集- B. 异常值- C. 趋势- D. 聚类答案:A4. K-means算法是一种:- A. 分类算法- B. 聚类算法- C. 预测算法- D. 关联规则挖掘算法答案:B5. 以下哪个指标用于评估分类模型的性能:- A. 准确率- B. 召回率- C. F1分数- D. 所有以上答案:D#### 二、简答题(每题10分,共30分)1. 描述数据挖掘中的“过拟合”现象,并给出避免过拟合的策略。

答案:过拟合是指模型对训练数据拟合得过于完美,以至于失去了泛化能力。

避免过拟合的策略包括:使用交叉验证、正则化技术、减少模型复杂度、获取更多的训练数据等。

2. 解释什么是“数据清洗”以及它在数据挖掘中的重要性。

答案:数据清洗是指从原始数据中识别并纠正(或删除)错误、重复或不完整的数据的过程。

它在数据挖掘中至关重要,因为脏数据会导致分析结果不准确,影响最终的决策。

3. 描述“特征选择”在数据挖掘中的作用。

答案:特征选择是数据挖掘中用来降低数据维度、提高模型性能和减少计算成本的过程。

通过选择最有信息量的特征,可以去除冗余或无关的特征,从而提高模型的准确性和效率。

#### 三、应用题(每题25分,共50分)1. 假设你正在分析一个电子商务网站的用户购买行为,描述你将如何使用数据挖掘技术来识别潜在的营销机会。

答案:首先,我会使用聚类分析来识别不同的用户群体。

然后,通过关联规则挖掘来发现不同用户群体的购买模式。

接着,利用分类算法来预测用户可能感兴趣的产品。

数据挖掘试题及答案

数据挖掘试题及答案

数据挖掘试题及答案数据挖掘是一门利用数据分析技术从大量的数据集中发现规律、模式和知识的过程。

它对我们理解和利用数据提供了有力的支持,被广泛应用于商业、科学研究等领域。

下面是一些常见的数据挖掘试题及其答案。

试题一:什么是数据挖掘?答案:数据挖掘是指利用计算机技术和统计学方法,从大规模数据集中发现隐藏在其中的有价值的信息和知识的过程。

它包括数据预处理、特征选择、模型构建以及模式识别和知识发现等步骤。

试题二:数据挖掘的主要任务有哪些?答案:数据挖掘的主要任务包括分类、聚类、关联规则挖掘和异常检测等。

分类是指将数据集中的样本划分到不同的类别中;聚类是将数据集划分为若干个相似的组;关联规则挖掘是找出数据中项之间的关联关系;异常检测是识别与正常模式不符的数据。

试题三:数据挖掘中常用的算法有哪些?答案:数据挖掘中常用的算法包括决策树、聚类算法、关联规则算法和神经网络等。

决策树算法通过对数据集进行划分,构建一棵树形结构用于分类;聚类算法根据相似度将数据集分为不同的簇;关联规则算法用于发现数据集中项之间的关联关系;神经网络模拟人脑的神经元网络结构,用于数据分类和预测。

试题四:数据挖掘的应用场景有哪些?答案:数据挖掘的应用场景非常广泛。

在商业领域,它可以帮助企业进行市场分析、客户关系管理和产品推荐等;在科学研究中,它能够帮助科学家从大量的实验数据中发现新的知识和规律;在医疗领域,它可以辅助医生进行疾病诊断和治疗方案选择等。

试题五:数据挖掘存在的挑战有哪些?答案:数据挖掘存在一些挑战,包括数据质量不高、维度灾难、算法性能和可解释性等方面。

数据质量不高可能导致挖掘结果不准确;维度灾难是指当数据特征数量很多时,算法的计算复杂度急剧增加;算法性能要求高,对大规模数据集的挖掘需要高效的算法;可解释性是指挖掘结果是否易于被理解和解释。

以上是一些常见的数据挖掘试题及其答案。

通过理解和掌握数据挖掘的基本概念、任务、算法和应用场景,可以帮助我们更好地运用数据挖掘技术,从海量数据中提取有价值的信息和知识,为决策和创新提供支持。

数据挖掘计算题参考答案

数据挖掘计算题参考答案

数据挖掘计算题参考答案数据仓库与数据挖掘复习题1. 假设数据挖掘的任务是将如下的8个点(用(x,y)代表位置)聚类为3个类:X1(2,10)、X2(2,5)、X3(8,4)、X4(5,8)、X5(7,5)、X6(6,4)、X7(1,2)、X8(4,9),距离选择欧几里德距离。

假设初始选择X1(2,10)、X4(5,8)、X7(1,2)为每个聚类的中心,请用K_means算法来计算:(1)在第一次循环执行后的3个聚类中心;答:第一次迭代:中心点1:X1(2,10),2:X4(5,8),X7(1,2)X1 X2 X3 X4 X5 X6 X7 X81 0 25 36+36 9+4 25+25 16+36 1+64 4+12 9+4 9+9 9+16 0 4+9 1+16 16+36 1+13 1+64 1+9 53 16+36 45 29 0 58答案:在第一次循环执行后的3个聚类中心:1:X1(2,10)2:X3,X4,X5,X6,X8 (6,6)3:X2,X7 (1.5,3.5)(2)经过两次循环后,最后的3个族分别是什么?第二次迭代:d2X1 X2 X3 X4 X5 X6 X7 X81 0 25 36+36 9+4 25+25 16+36 1+64 4+12 32 17 8 5 2 4 41 1+13 52+6.5252+1.52 6.52+0.523.52+4.525.52+1.524.52+0.520.52+1.52 2.52+5.52答案:1:X1,X8 (3.5,9.5)2:X3,X4,X5,X6 (6.5,5.25)3:X2,X7 (1.5,3.5)2. 数据库有4个事务。

设min_sup=60%,min_conf=80%。

TID data TransactionT100 6/6/2007 K,A,D,BT200 6/6/2007 D,A,C,E,BT300 6/7/2007 C,A,B,ET400 6/10/2007 B,A,Da.使用Apriori算法找出频繁项集,并写出具体过程。

数据挖掘原理与应用---试题及答案试卷十二答案精选全文完整版

数据挖掘原理与应用---试题及答案试卷十二答案精选全文完整版

数据挖掘原理与应用 试题及答案试卷一、(30分,总共30题,每题答对得1分,答错得0分)单选题1、在ID3算法中信息增益是指( D )A、信息的溢出程度B、信息的增加效益C、熵增加的程度最大D、熵减少的程度最大2、下面哪种情况不会影响K-means聚类的效果?( B )A、数据点密度分布不均B、数据点呈圆形状分布C、数据中有异常点存在D、数据点呈非凸形状分布3、下列哪个不是数据对象的别名 ( C )A、样品B、实例C、维度D、元组4、人从出生到长大的过程中,是如何认识事物的? ( D )A、聚类过程B、分类过程C、先分类,后聚类D、先聚类,后分类5、决策树模型中应如何妥善处理连续型属性:( C )A、直接忽略B、利用固定阈值进行离散化C、根据信息增益选择阈值进行离散化D、随机选择数据标签发生变化的位置进行离散化6、假定用于分析的数据包含属性age。

数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70。

问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。

第二个箱子值为:( A )A、18.3B、22.6C、26.8D、27.97、建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( C )A、根据内容检索B、建模描述C、预测建模D、寻找模式和规则8、如果现在需要对一组数据进行样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量,应该采取( A )A、聚类分析B、回归分析C、相关分析D、判别分析9、时间序列数据更适合用( A )做数据规约。

A、小波变换B、主成分分析C、决策树D、直方图10、下面哪些场景合适使用PCA?( A )A、降低数据的维度,节约内存和存储空间B、降低数据维度,并作为其它有监督学习的输入C、获得更多的特征D、替代线性回归11、数字图像处理中常使用主成分分析(PCA)来对数据进行降维,下列关于PCA算法错误的是:( C )A、PCA算法是用较少数量的特征对样本进行描述以达到降低特征空间维数的方法;B、PCA本质是KL-变换;C、PCA是最小绝对值误差意义下的最优正交变换;D、PCA算法通过对协方差矩阵做特征分解获得最优投影子空间,来消除模式特征之间的相关性、突出差异性;12、将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( C )A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘13、假设使用维数降低作为预处理技术,使用PCA将数据减少到k维度。

(完整版)数据挖掘概念课后习题答案

(完整版)数据挖掘概念课后习题答案

(完整版)数据挖掘概念课后习题答案第 1 章1.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使⽤你熟悉的现实⽣活的数据库,给出每种数据挖掘功能的例⼦。

特征化是⼀个⽬标类数据的⼀般特性或特性的汇总。

例如,学⽣的特征可被提出,形成所有⼤学的计算机科学专业⼀年级学⽣的轮廓,这些特征包括作为⼀种⾼的年级平均成绩(GPA:Grade point a ve r s ge) 的信息,还有所修的课程的最⼤数量。

区分是将⽬标类数据对象的⼀般特性与⼀个或多个对⽐类对象的⼀般特性进⾏⽐较。

例如,具有⾼GPA 的学⽣的⼀般特性可被⽤来与具有低GPA 的⼀般特性⽐较。

最终的描述可能是学⽣的⼀个⼀般可⽐较的轮廓,就像具有⾼GPA 的学⽣的75%是四年级计算机科学专业的学⽣,⽽具有低GPA 的学⽣的65%不是。

关联是指发现关联规则,这些规则表⽰⼀起频繁发⽣在给定数据集的特征值的条件。

例如,⼀个数据挖掘系统可能发现的关联规则为:m a j or(X,“c omput i ng s c i e nc e”) ?owns(X, “pe r s ona l c omput e r”)[s uppor t=12%,c on f i d e nc e=98%]其中,X 是⼀个表⽰学⽣的变量。

这个规则指出正在学习的学⽣,12%(⽀持度)主修计算机科学并且拥有⼀台。

个⼈计算机。

这个组⼀个学⽣拥有⼀台个⼈电脑的概率是98%(置信度,或确定度)分类与预测不同,因为前者的作⽤是构造⼀系列能描述和区分数据类型或概念的模型(或,⽽后者是建⽴⼀个模型去预测缺失的或⽆效的、并且通常是数字的数据值。

它们的功能)相似性是他们都是预测的⼯具:分类被⽤作预测⽬标数据的类的标签,⽽预测典型的应⽤是预测缺失的数字型数据的值。

聚类分析的数据对象不考虑已知的类标号。

对象根据最⼤花蕾内部的相似性、最⼩化类之间的相似性的原则进⾏聚类或分组。

形成的每⼀簇可以被看作⼀个对象类。

数据挖掘练习题附答案

数据挖掘练习题附答案

数据挖掘练习题A一、简答题1. 数据对象之间的相似性可用距离来衡量,常见的距离形式有哪些?答:曼哈顿距离,欧几里得距离,切比雪夫距离,闵可夫斯基距离,杰卡德距离2. 简述朴素贝叶斯分类的基本思想。

答:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个概率最大,就认为此待分类项属于哪个类别。

1)设x={a!,a",…,a#}为一个待分类项,a为x的特征属性;2)有类别集合C={y!,y",…,y$}3) 计算p(y!|x),p(y"|x),… p(y$|x)4) 如果p(y%|x)=max {p(y!|x),p(y"|x),…,p(y%|x)},则x∈y%3. 在做数据清洗时,如何处理缺失值?答:处理缺失值的方法有3种:1)忽略元组;2)数据补齐,包括人工填写、特殊值填充、平均值填充、使用最可能的值填充;3)不处理。

4. 简述K-means算法的基本步骤。

答:1)任意选择k个对象作为初始的簇中心;2)计算其它对象与这k个中心的距离,然后把每个对象归入离它“最近”的簇;3)计算各簇中对象的平均值,然后选择簇中心(离平均值“最近”的簇);4)重复第2步到第3步直到簇中心不再变化为止。

5. 在关联规则中,支持度(support)和置信度(confidence)的含义分别是什么?答:支持度support(x->y)=p(x,y),表示项集中同时含有x和y的概率。

置信度confidence(x->y)=p(y/x),表示在关联规则的先决条件x发生的条件下,关联结果y发生的概率,即含有x的项集中,同时含有y的可能性。

二、计算题1.假定属性A的取值x在[x_min,x_max]之间,其中x_min和x_max分别为属性A的最小值和最大值,请利用最小-最大规范化方法(也称离差标准化,是对原始数据的线性变化),将x转化到新的区间[y_min,y_max]中,结果用x’表示。

数据挖掘考试题库及答案

数据挖掘考试题库及答案

数据挖掘考试题库及答案一、选择题1. 数据挖掘是从大量数据中提取有价值信息的过程,以下哪项不是数据挖掘的主要任务?A. 预测B. 分类C. 聚类D. 数据可视化答案:D2. 以下哪种技术不属于数据挖掘的常用方法?A. 决策树B. 支持向量机C. 关联规则D. 数据仓库答案:D3. 数据挖掘中,以下哪项技术常用于分类和预测?A. 神经网络B. K-均值聚类C. 主成分分析D. 决策树答案:D4. 在数据挖掘中,以下哪个概念表示数据集中的属性?A. 数据项B. 数据记录C. 数据属性D. 数据集答案:C5. 数据挖掘中,以下哪个算法用于求解关联规则?A. Apriori算法B. ID3算法C. K-Means算法D. C4.5算法答案:A二、填空题6. 数据挖掘的目的是从大量数据中提取______信息。

答案:有价值7. 在数据挖掘中,分类任务分为有监督学习和______学习。

答案:无监督8. 决策树是一种用于分类和预测的树形结构,其核心思想是______。

答案:递归划分9. 关联规则挖掘中,支持度表示某个项集在数据集中的出现频率,置信度表示______。

答案:包含项集的记录中同时包含结论的记录的比例10. 数据挖掘中,聚类分析是将数据集划分为若干个______的子集。

答案:相似三、判断题11. 数据挖掘只关注大量数据中的异常值。

()答案:错误12. 数据挖掘是数据仓库的一部分。

()答案:正确13. 决策树算法适用于处理连续属性的分类问题。

()答案:错误14. 数据挖掘中的聚类分析是无监督学习任务。

()答案:正确15. 关联规则挖掘中,支持度越高,关联规则越可靠。

()答案:错误四、简答题16. 简述数据挖掘的主要任务。

答案:数据挖掘的主要任务包括预测、分类、聚类、关联规则挖掘、异常检测等。

17. 简述决策树算法的基本原理。

答案:决策树算法是一种自顶向下的递归划分方法。

它通过选择具有最高信息增益的属性进行划分,将数据集划分为若干个子集,直到满足停止条件。

数据挖掘习题及解答-完美版

数据挖掘习题及解答-完美版

Data Mining Take Home Exam学号: xxxx 姓名: xxx 1. (20分)考虑下表的数据集。

(1)计算整个数据集的Gini 指标值。

(2)计算属性性别的Gini 指标值(3)计算使用多路划分属性车型的Gini 指标值 (4)计算使用多路划分属性衬衣尺码的Gini 指标值(5)下面哪个属性更好,性别、车型还是衬衣尺码?为什么? 解:(1) Gini=1-(10/20)^2-(10/20)^2=0.5 (2)Gini=[{1-(6/10)^2-(4/10)^2}*1/2]*2=0.48 (3)Gini={1-(1/4)^2-(3/4)^2}*4/20+{1-(8/8)^2-(0/8)^2}*8/20+{1-(1/8)^2-(7/8)^2}*8/2 0=26/160=0.1625(4)Gini={1-(3/5)^2-(2/5)^2}*5/20+{1-(3/7)^2-(4/7)^2}*7/20+[{1-(2/4)^2-(2/4)^2}*4/ 20]*2=8/25+6/35=0.4914(5)比较上面各属性的Gini值大小可知,车型划分Gini值0.1625最小,即使用车型属性更好。

2. (20分)考虑下表中的购物篮事务数据集。

(1) 将每个事务ID视为一个购物篮,计算项集{e},{b,d} 和{b,d,e}的支持度。

(2)使用(1)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。

(3)将每个顾客ID作为一个购物篮,重复(1)。

应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0)。

(4)使用(3)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。

答:(1)由上表计数可得{e}的支持度为8/10=0.8;{b,d}的支持度为2/10=0.2;{b,d,e}的支持度为2/10=0.2。

(2)c[{b,d}→{e}]=2/8=0.25; c[{e}→{b,d}]=8/2=4。

数据挖掘 习题及参考答案

数据挖掘 习题及参考答案
实际生活的例子:
①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所 开通的服务等,据此进行客户群体划分以及客户流失性分析。
②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文 学家发现其他未知星体。
③制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。
第 4 页 共 27 页
(b)对于数据平滑,其它方法有: (1)回归:可以用一个函数(如回归函数)拟合数据来光滑数据; (2)聚类:可以通过聚类检测离群点,将类似的值组织成群或簇。直观地,落在簇集合 之外的值视为离群点。
2.6 使用习题 2.5 给出的 age 数据,回答以下问题: (a) 使用 min-max 规范化,将 age 值 35 转换到[0.0,1.0]区间。 (b) 使用 z-score 规范化转换 age 值 35,其中,age 的标准偏差为 12.94 年。 (c) 使用小数定标规范化转换 age 值 35。 (d) 指出对于给定的数据,你愿意使用哪种方法。陈述你的理由。
回归来建模,或使用时间序列分析。 (7) 是,需要建立正常心率行为模型,并预警非正常心率行为。这属于数据挖掘领域
的异常检测。若有正常和非正常心率行为样本,则可以看作一个分类问题。 (8) 是,需要建立与地震活动相关的不同波形的模型,并预警波形活动。属于数据挖
掘领域的分类。 (9) 不是,属于信号处理。
1.6 根据你的观察,描述一个可能的知识类型,它需要由数据挖掘方法发现,但本章未列出。 它需要一种不同于本章列举的数据挖掘技术吗?
答:建立一个局部的周期性作为一种新的知识类型,只要经过一段时间的偏移量在时间序列 中重复发生,那么在这个知识类型中的模式是局部周期性的。需要一种新的数据挖掘技 术解决这类问题。

数据挖掘习题及解答-完美版

数据挖掘习题及解答-完美版

Data Mining Take Home Exam学号: xxxx 姓名: xxx(1)计算整个数据集的Gini指标值。

(2)计算属性性别的Gini指标值(3)计算使用多路划分属性车型的Gini指标值(4)计算使用多路划分属性衬衣尺码的Gini指标值(5)下面哪个属性更好,性别、车型还是衬衣尺码?为什么?(3)=26/160=0.1625]*2=8/25+6/35=0.4914(5)比较上面各属性的Gini值大小可知,车型划分Gini值0.1625最小,即使用车型属性更好。

2. ((1) 将每个事务ID视为一个购物篮,计算项集{e},{b,d} 和{b,d,e}的支持度。

(2)使用(1)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。

(3)将每个顾客ID作为一个购物篮,重复(1)。

应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0)。

(4)使用(3)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。

答:(1)由上表计数可得{e}的支持度为8/10=0.8;{b,d}的支持度为2/10=0.2;{b,d,e}的支持度为2/10=0.2。

(2)c[{b,d}→{e}]=2/8=0.25; c[{e}→{b,d}]=8/2=4。

(3)同理可得:{e}的支持度为4/5=0.8,{b,d}的支持度为5/5=1,{b,d,e}的支持度为4/5=0.8。

(4)c[{b,d}→{e}]=5/4=1.25,c[{e}→{b,d}]=4/5=0.8。

3. (20分)以下是多元回归分析的部分R输出结果。

> ls1=lm(y~x1+x2)> anova(ls1)Df Sum Sq Mean Sq F value Pr(>F)x1 1 10021.2 10021.2 62.038 0.0001007 ***x2 1 4030.9 4030.9 24.954 0.0015735 **Residuals 7 1130.7 161.5> ls2<-lm(y~x2+x1)> anova(ls2)Df Sum Sq Mean Sq F value Pr(>F)x2 1 3363.4 3363.4 20.822 0.002595 **x1 1 10688.7 10688.7 66.170 8.193e-05 ***Residuals 7 1130.7 161.5(1)用F检验来检验以下假设(α = 0.05)H0: β1 = 0H a: β1≠ 0计算检验统计量;是否拒绝零假设,为什么?(2)用F检验来检验以下假设(α = 0.05)H0: β2 = 0H a: β2≠ 0计算检验统计量;是否拒绝零假设,为什么?(3)用F检验来检验以下假设(α = 0.05)H0: β1 = β2 = 0H a: β1和β2 并不都等于零计算检验统计量;是否拒绝零假设,为什么?解:(1)根据第一个输出结果F=62.083>F(2,7)=4.74,p<0.05,所以可以拒绝原假设,即得到不等于0。

数据挖掘测试题及答案

数据挖掘测试题及答案

数据挖掘测试题及答案一、选择题1. 数据挖掘的目的是:A. 数据清洗B. 数据转换C. 模式发现D. 数据存储答案:C2. 以下哪项不是数据挖掘的常用算法?A. 决策树B. 聚类分析C. 线性回归D. 关联规则答案:C二、填空题1. 数据挖掘中的_________是指在大量数据中发现的有意义的模式。

答案:知识2. 一种常用的数据挖掘技术是_________,它用于发现数据中隐藏的分组。

答案:聚类三、简答题1. 简述数据挖掘与数据分析的区别。

答案:数据挖掘是一种自动或半自动的过程,旨在从大量数据中发现模式和知识。

数据分析通常涉及更具体的查询和问题,使用统计方法来理解数据。

2. 描述什么是关联规则挖掘,并给出一个例子。

答案:关联规则挖掘是一种用于发现变量之间有趣关系的技术,特别是变量之间的频繁模式、关联或相关性。

例如,在市场篮子分析中,关联规则挖掘可以用来发现顾客购买行为中的模式,如“购买面包的顾客中有80%也购买了牛奶”。

四、计算题1. 给定以下数据集,计算支持度和置信度:| 事务ID | 购买的商品 |||-|| 1 | A, B || 2 | A, C || 3 | B, C || 4 | A, B, C || 5 | B, D |(1) 计算项集{A}的支持度。

(2) 计算规则A => B的置信度。

答案:(1) 项集{A}的支持度为4/5,因为A出现在4个事务中。

(2) 规则A => B的置信度为3/4,因为A和B同时出现在3个事务中,而A出现在4个事务中。

五、论述题1. 论述数据挖掘在电子商务中的应用,并给出至少两个具体的例子。

答案:数据挖掘在电子商务中的应用非常广泛,包括:- 客户细分:通过数据挖掘技术,商家可以识别不同的客户群体,为每个群体提供定制化的服务或产品。

- 推荐系统:利用关联规则挖掘,电商平台可以推荐用户可能感兴趣的商品,提高用户满意度和购买率。

- 欺诈检测:通过分析交易模式,数据挖掘可以帮助识别异常行为,预防信用卡欺诈等风险。

数据挖掘及应用考试试题及答案

数据挖掘及应用考试试题及答案

数据挖掘及应用考试试题及答案第一部分:选择题(每题4分,共40分)1.数据挖掘的定义是以下哪一个选项?A)从大数据中提取有用的信息B)从数据库中提取有用的信息C)从互联网中提取有用的信息D)从文件中提取有用的信息2.以下哪个是数据挖掘的一个主要任务?A)数据的存储和管理B)数据的可视化展示C)模型的建立和评估D)数据的备份和恢复3.下列哪个不是数据挖掘的一个常用技术?A)关联规则挖掘B)分类算法C)聚类分析D)数据编码技术4.以下哪个不属于数据预处理的步骤?A)数据清洗B)数据集成C)数据转换D)模型评估5.以下哪个是数据挖掘任务中的分类问题?A)预测数值B)聚类分析C)异常检测D)关联规则挖掘6.以下哪个不属于数据可视化的一种方法?A)散点图B)柱状图C)热力图D)关联规则图7.在使用决策树算法进行分类任务时,常用的不纯度度量指标是:A)基尼指数B)信息增益C)平方误差D)均方根误差8.以下哪个算法常用于处理文本数据挖掘任务?A)K-means算法B)Apriori算法C)朴素贝叶斯算法D)决策树算法9.以下哪种模型适用于处理离散型目标变量?A)线性回归模型B)逻辑回归模型C)支持向量机模型D)贝叶斯网络模型10.数据挖掘的应用领域包括以下哪些?A)金融风控B)医疗诊断C)社交网络分析D)所有选项都正确第二部分:填空题(每题4分,共20分)1.数据挖掘的基础是______和______。

答案:统计学、机器学习2.数据挖掘的任务包括分类、聚类、预测和______。

答案:关联规则挖掘3.常用的数据预处理方法包括数据清洗、数据集成和______。

答案:数据转换4.决策树算法的基本思想是通过选择最佳的______进行分类。

答案:划分属性5.支持向量机(SVM)算法适用于______问题。

答案:二分类问题第三部分:简答题(每题10分,共40分)1.请简述数据挖掘的流程及各个阶段的主要任务。

答:数据挖掘的流程一般包括问题定义、数据收集、数据预处理、模型选择与建立、模型评估与选择、知识应用等阶段。

数据挖掘习题及解答-完美版

数据挖掘习题及解答-完美版

Data Mining Take Home Exam学号: xxxx 姓名: xxx(1)计算整个数据集的Gini指标值。

(2)计算属性性别的Gini指标值(3)计算使用多路划分属性车型的Gini指标值(4)计算使用多路划分属性衬衣尺码的Gini指标值(5)下面哪个属性更好,性别、车型还是衬衣尺码?为什么?(3)=26/160=0.1625]*2=8/25+6/35=0.4914(5)比较上面各属性的Gini值大小可知,车型划分Gini值0.1625最小,即使用车型属性更好。

2. ((1) 将每个事务ID视为一个购物篮,计算项集{e},{b,d} 和{b,d,e}的支持度。

(2)使用(1)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。

(3)将每个顾客ID作为一个购物篮,重复(1)。

应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0)。

(4)使用(3)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。

答:(1)由上表计数可得{e}的支持度为8/10=0.8;{b,d}的支持度为2/10=0.2;{b,d,e}的支持度为2/10=0.2。

(2)c[{b,d}→{e}]=2/8=0.25; c[{e}→{b,d}]=8/2=4。

(3)同理可得:{e}的支持度为4/5=0.8,{b,d}的支持度为5/5=1,{b,d,e}的支持度为4/5=0.8。

(4)c[{b,d}→{e}]=5/4=1.25,c[{e}→{b,d}]=4/5=0.8。

3. (20分)以下是多元回归分析的部分R输出结果。

> ls1=lm(y~x1+x2)> anova(ls1)Df Sum Sq Mean Sq F value Pr(>F)x1 1 10021.2 10021.2 62.038 0.0001007 ***x2 1 4030.9 4030.9 24.954 0.0015735 **Residuals 7 1130.7 161.5> ls2<-lm(y~x2+x1)> anova(ls2)Df Sum Sq Mean Sq F value Pr(>F)x2 1 3363.4 3363.4 20.822 0.002595 **x1 1 10688.7 10688.7 66.170 8.193e-05 ***Residuals 7 1130.7 161.5(1)用F检验来检验以下假设(α = 0.05)H0: β1 = 0H a: β1≠ 0计算检验统计量;是否拒绝零假设,为什么?(2)用F检验来检验以下假设(α = 0.05)H0: β2 = 0H a: β2≠ 0计算检验统计量;是否拒绝零假设,为什么?(3)用F检验来检验以下假设(α = 0.05)H0: β1 = β2 = 0H a: β1和β2 并不都等于零计算检验统计量;是否拒绝零假设,为什么?解:(1)根据第一个输出结果F=62.083>F(2,7)=4.74,p<0.05,所以可以拒绝原假设,即得到不等于0。

(完整版)数据挖掘概念课后习题答案

(完整版)数据挖掘概念课后习题答案
�步骤3:计算每个等频箱的算数均值。
�步骤4:用各箱计算出的算数均值替换每箱中的每个值。
箱1:44/3,44/3,44/3箱2:55/3,55/3,55/3箱3:21,21,21
箱4:24,24,24箱5:80/3,80/3,80/3箱6:101/3,101/3,101/3
箱7:35,35,35箱8:121/3,121/3,121/3箱9:56,56,56
major(X,“computingscience”)⇒owns(X,“personalcomputer”)[support=12%,confidence=98%]
其中,X是一个表示学生的变量。这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。
(a)为该数据仓库画出雪花形模式图。
(b)(b)由基本方体[student,course,semester,instructor]开始,为列出BigUniversity每个学生的CS课程的平均成绩,应当使用哪些特殊的OLAP操作。
(c)如果每维有5层(包括all),如“student<major<status<university<all”, 该立方体包含多少方体?
(g)分位数—分位数图与分位数图的不同之处是什么?分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样,他可以展示所有数的分位数信息,而为独立变量测得的 值(纵轴)相对于它们的分位数(横轴)被描绘出来。但分位数—分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域,且点按照两种分布分位数值展示。一条线(y=x)可画到图中,以增加图像的信息。落在该线以上的点表示在y轴上显示的值的分布比x轴的相应的等同分位数对应的值 的分布高。反之,对落在该线以下的点则低。

数据挖掘-题库带答案

数据挖掘-题库带答案

数据挖掘-题库带答案1、最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡()答案:正确2、决策将日益基于数据和分析而作出,而并非基于经验和直觉()答案:错误解析:决策将日益基于数据和分析而作出,而并非基于经验和直觉3、2011年被许多国外媒体和专家称为“大数据元年”()答案:错误解析:2013年被许多国外媒体和专家称为“大数据元年”4、我国网民数量居世界之首,每天产生的数据量也位于世界前列() 答案:正确5、商务智能的联机分析处理工具依赖于数据库和数据挖掘。

()答案:错误前总商务智能的联机分析处理工具依赖于数据仓库和多维数据挖掘。

6、数据整合、处理、校验在目前已经统称为EL()答案:错误侖总数据整合、处理、校验在H前已经统称为ETL7、大数据时代的主要特征()A、数据量大B、类型繁多C、价值密度低D、速度快时效高答案:ABCD8、下列哪项不是大数据时代的热门技术()A、数据整合B、数据预处理C、数据可视化D、SQL答案:D9、()是一种统讣或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。

A、预测B、分析C、预测分析D、分析预测答案:C10、大数据发展的前提?答案:解伸:硕件成本的降低,网络带宽的提升,云计算的兴起,网络技术的发展,智能终端的普及,电子商务、社交网络、电子地图等的全面应用,物联网的兴起11、调研、分析大数据发展的现状与应用领域。

?答案:解析:略12、大数据时代的主要特征?答案:解析:数据量大(Volume)笫一个特征是数据量大。

大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。

类型繁多(Variety)第二个特征是数据类型繁多。

包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提岀了更高的要求。

价值密度低(Value)笫三个特征是数据价值密度相对较低。

如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。

(完整word版)数据挖掘计算题参考答案

(完整word版)数据挖掘计算题参考答案

数据仓库与数据挖掘复习题1. 假设数据挖掘的任务是将如下的8个点(用(x,y)代表位置)聚类为3个类:X1(2,10)、X2(2,5)、X3(8,4)、X4(5,8)、X5(7,5)、X6(6,4)、X7(1,2)、X8(4,9),距离选择欧几里德距离。

假设初始选择X1(2,10)、X4(5,8)、X7(1,2)为每个聚类的中心,请用K_means算法来计算:(1)在第一次循环执行后的3个聚类中心;答:第一次迭代:中心点1:X1(2,10),2:X4(5,8),X7(1,2)答案:在第一次循环执行后的3个聚类中心:1:X1(2,10)2:X3,X4,X5,X6,X8 (6,6)3:X2,X7 (1.5,3.5)(2)经过两次循环后,最后的3个族分别是什么?第二次迭代:答案:1:X1,X8 (3.5,9.5)2:X3,X4,X5,X6 (6.5,5.25) 3:X2,X7 (1.5,3.5)2. 数据库有4个事务。

设min_sup=60%,min_conf=80%。

TID data Transaction T100 6/6/2007 K,A,D,B T200 6/6/2007 D,A,C,E,B T300 6/7/2007 C,A,B,E T4006/10/2007B,A,Da.使用Apriori 算法找出频繁项集,并写出具体过程。

答:(a)Apriori 算法:{K} 1 {A} 4 {A,B} 4 {A,B,D} 3{A} 4 {B} 4 {A,D} 3 {B} 4 {D} 3 {B,D} 3 {D} 3 {C} 2 {E} 2频繁项集为3项集{A,B,D}:3b.列出所有的强关联规则,使它们与下面的元规则匹配,其中,X 是代表顾客的变量,i item 是表示项的变量(例如,“A ”、“B ”等):123,(,)(,)(,)x transaction buys X item buys X item buys X item ∀∈∧⇒ [s,c] 答:所有频繁子项集有{A},{B},{D},{A,B},{A,D},{B,D} A^B=>D conf=3/4=75% × A^D=>B conf=3/3=100% √ B^D=>A conf=3/3=100% √ 因此,满足条件的强关联规则有:A^D=>B{supp=75%,conf=100%} B^D=>A{supp=75%,conf=100%}1.给定如下的数据库表:IDSky AirTe Humidi Wind Water Foreca Enjoyspo请计算属性Sky的信息增益。

数据挖掘考试题及答案

数据挖掘考试题及答案

数据挖掘考试题及答案一、单项选择题(每题2分,共20分)1. 数据挖掘的主要任务不包括以下哪一项?A. 分类B. 聚类C. 预测D. 数据清洗答案:D2. 以下哪个算法不是用于分类的?A. 决策树B. 支持向量机C. K-meansD. 神经网络答案:C3. 在数据挖掘中,关联规则挖掘主要用于发现以下哪种类型的模式?A. 序列模式B. 分类模式C. 频繁项集D. 聚类模式答案:C4. 以下哪个指标不是用于评估分类模型性能的?A. 准确率B. 召回率C. F1分数D. 马氏距离答案:D5. 在数据挖掘中,以下哪个算法是用于聚类的?A. K-meansB. 逻辑回归C. 随机森林D. 支持向量机答案:A6. 以下哪个选项不是数据挖掘过程中的步骤?A. 数据预处理B. 模式发现C. 结果评估D. 数据存储答案:D7. 在数据挖掘中,异常检测的主要目的是识别以下哪种类型的数据?A. 频繁出现的模式B. 罕见的模式C. 预测未来的数据D. 聚类的数据答案:B8. 以下哪个选项不是数据挖掘中常用的数据预处理技术?A. 数据清洗B. 数据集成C. 数据变换D. 数据压缩答案:D9. 在数据挖掘中,以下哪个算法是用于特征选择的?A. 主成分分析B. 线性判别分析C. 支持向量机D. 决策树答案:D10. 以下哪个选项不是数据挖掘中常用的数据表示方法?A. 决策树B. 向量空间模型C. 邻接矩阵D. 频率分布表答案:D二、多项选择题(每题3分,共15分)11. 数据挖掘中常用的聚类算法包括哪些?A. K-meansB. 层次聚类C. DBSCAND. 支持向量机答案:A、B、C12. 在数据挖掘中,以下哪些是关联规则挖掘的典型应用场景?A. 市场篮分析B. 异常检测C. 推荐系统D. 社交网络分析答案:A、C13. 数据挖掘中,以下哪些是分类模型评估的常用指标?A. 准确率B. 召回率C. ROC曲线D. 马氏距离答案:A、B、C14. 在数据挖掘中,以下哪些是特征工程的步骤?A. 特征选择B. 特征提取C. 特征变换D. 数据清洗答案:A、B、C15. 数据挖掘中,以下哪些是数据预处理的常见任务?A. 缺失值处理B. 异常值检测C. 数据规范化D. 数据压缩答案:A、B、C三、简答题(每题10分,共30分)16. 请简述数据挖掘中分类和聚类的主要区别。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Data Mining Take Home Exam
学号: xxxx 姓名: xxx
(1)计算整个数据集的Gini指标值。

(2)计算属性性别的Gini指标值
(3)计算使用多路划分属性车型的Gini指标值
(4)计算使用多路划分属性衬衣尺码的Gini指标值
(5)下面哪个属性更好,性别、车型还是衬衣尺码?为什么?
(3)
8)^2}*8/20=26/160=0.1625
/4)^2}*4/20]*2=8/25+6/35=0.4914
(5)
比较上面各属性的Gini值大小可知,车型划分Gini值0.1625最小,即使用车型属性更好。

2. (
(1) 将每个事务ID视为一个购物篮,计算项集{e},{b,d} 和{b,d,e}的支持度。

(2)使用(1)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。

(3)将每个顾客ID作为一个购物篮,重复(1)。

应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0)。

(4)使用(3)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。

答:(1)由上表计数可得{e}的支持度为8/10=0.8;{b,d}的支持度为2/10=0.2;{b,d,e}的支持度为2/10=0.2。

(2)c[{b,d}→{e}]=2/8=0.25; c[{e}→{b,d}]=8/2=4。

(3)同理可得:{e}的支持度为4/5=0.8,{b,d}的支持度为5/5=1, {b,d,e}的支持度为4/5=0.8。

(4)c[{b,d}→{e}]=5/4=1.25,c[{e}→{b,d}]=4/5=0.8。

3. (20分)以下是多元回归分析的部分R输出结果。

> ls1=lm(y~x1+x2)
> anova(ls1)
Df Sum Sq Mean Sq F value Pr(>F)
x1 1 10021.2 10021.2 62.038 0.0001007 ***
x2 1 4030.9 4030.9 24.954 0.0015735 **
Residuals 7 1130.7 161.5
> ls2<-lm(y~x2+x1)
> anova(ls2)
Df Sum Sq Mean Sq F value Pr(>F)
x2 1 3363.4 3363.4 20.822 0.002595 **
x1 1 10688.7 10688.7 66.170 8.193e-05 ***
Residuals 7 1130.7 161.5
(1)用F检验来检验以下假设 (α = 0.05)
H0: β1 = 0
H a: β1≠ 0
计算检验统计量;是否拒绝零假设,为什么?
(2)用F检验来检验以下假设 (α = 0.05)
H0: β2 = 0
H a: β2≠ 0
计算检验统计量;是否拒绝零假设,为什么?
(3)用F检验来检验以下假设 (α = 0.05)
H0: β1 = β2 = 0
H a: β1和β2 并不都等于零
计算检验统计量;是否拒绝零假设,为什么?
解:(1)根据第一个输出结果F=62.083>F(2,7)=4.74,p<0.05,所以可以拒绝原假设,即得到不等于0。

(2)同理,在α=0.05的条件下,F=20.822>F(2,7)=4.74,p<0.05,即拒绝原假设,得到不等于0。

(3)F={(10021.2+4030.9)/2}/(1130.7/7)=43.4973>F=(2,7)=4.74,即拒绝原假设,得到和并不都等于0。

4. (20分)考虑下面20个观测值:
[1] -20.00 -0.516 -1.249 -0.510 25.000
[6] -0.561 -0.928 -0.023 0.714 0.374
[11] -0.377 0.830 0.838 0.874 -1.306
[16] 1.138 1.087 -1.489 2.524 0.713
(1)用3*S 标准来检测该数据中是否存在异常值。

(2)用1.5*IQR 标准来检测该数据中是否存在异常值。

要求提供均值、标准差、IQR值和所用的区间,以及你判断的依据。

解:数据放入R运行得
> hhh=c(-20.00,-0.516,-1.249,-0.510,25.000,
+ + -0.561,-0.928,-0.023,0.714,0.374,
+ + -0.377,0.830,0.838,0.874,-1.306,
+ + 1.138,1.087,-1.489,2.524,0.713)
> mean(hhh)
[1] 0.35665
> sqrt(var(hhh))
[1] 7.405346
> jjj<-(hhh-mean(hhh))/sqrt(var(hhh))
> which(abs(jjj)>=3)
[1] 5
> Q1=quantile(hhh,0.25)
> Q3=quantile(hhh,0.75)
> IQR=Q3-Q1
> Q1
25%
-0.65275
> Q3
75%
0.847
> IQR
75%
1.49975
> kk<-Q1-1.5*IQR
> ll<-Q3+1.5*IQR
> which(hhh<kk)
[1] 1
> which(hhh>ll)
[1] 5
>
(1)由以上数据处理可得第五个数据25.00为异常值。

(2)由数据分析可以得出第一个-20.00和第五个25.00均为异常值。

5. 简述题(20分)。

(1)在这门课中你学习了几种聚类分析的算法?简述这几种算法的基本工作原理。

答:(1)学习了三种聚类分析算法,分别为系统聚类分析、K均值分析和DBSCAN 分析。

其中系统聚类又分为许多种计算规则,主要的有最短距离法、最长距离法、重心法、离差平方和法及类平均法等,其主要思想是在不同方法下把客观认为最相近的两类合并为一类,再次执行并类步骤,那么就可以把所有的观测值都聚为一类,对于想要知道分多少类的具体情况有很大的帮助,可以依照树状聚类图得到清晰的表示。

K-均值聚类原理是依一定观测值的均值来确定聚类中心,从而根据其他的观测值和中心的距离来判断归为哪一类中。

该聚类方法事先需要确定要分的类别数据,计算量要小得多,效率比层次聚类要高。

但对于想要知道其他几类的分类情况就需要重新计算分析。

DBSCAN分析算法工作原理是对一组观测值优先聚合靠的最近的两个值,然后再寻找下一个靠的最近的值,依次类推,最后得到用户想要的簇的种类。

其中可能会出现噪声点,那么根据区间半径考虑是否舍弃的情况。

(2)关联规则挖掘任务主要分为哪几个主要的子任务?简述你学到的算法在这些子任务中的工作原理。

答:主要分为两个子任务:频繁项集的产生和关联规则的产生。

第一种算法是Apriori算法是基于支持度的剪枝技术,系统地控制候选项集指数增长。

根据先验原理,对一个系统所有的项集从最简单的集合到最复杂的集合采取逐层检验步骤,计算各项的支持度和置信度大小和阕值比较,即测试过程;对指定的非频繁项集和包含该非频繁项集的非频繁项采取舍弃操作,即剪枝过程;直到没有新的非频繁项集产生时,执行算法结束过程。

选择是难,更何况是心灵选择。

高渐离为了荆轲,他选择了死;马本斋母亲为了革命,她选择了牺牲;祝英台为了真挚爱情,她选择了化蝶。

在这友情、亲情与爱情之间选择,他们是这样做
(注:文档可能无法思考全面,请浏览后下载,供参考。

)。

相关文档
最新文档