数据挖掘习题题

合集下载

数据挖掘试题(单选)

数据挖掘试题(单选)

单项选择题1.某商场研究销售纪录数据后发现,买啤酒的人很大体率也会购置尿布,这类属于数据发掘的哪种问题 (A)A. 关系规则发现C. 分类B. 聚类D. 自然语言办理2. 以下两种描绘分别对应哪两种对分类算法的评论标准(A)(a)警察抓小偷,描绘警察抓的人中有多少个是小偷的标准。

(b)描绘有多少比率的小偷给警察抓了的标准。

A. Precision,RecallB. Recall,PrecisionA. Precision,ROC D. Recall,ROC3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务A. 屡次模式发掘B. 分类和展望C. 数据预办理D. 数据流发掘(C)4.当不知道数据所带标签时,能够使用哪一种技术促进带同类标签的数据与带其余标签的数据相分别 (B)A. 分类B. 聚类C. 关系剖析D. 隐马尔可夫链5.什么是 KDD (A)A. 数据发掘与知识发现B. 领域知识发现C. 文档知识发现D. 动向知识发现6.使用交互式的和可视化的技术,对数据进行探究属于数据发掘的哪一类任务(A)A. 探究性数据剖析B. 建模描绘C. 展望建模D. 找寻模式和规则7.为数据的整体散布建模;把多维空间区分红组等问题属于数据发掘的哪一类任务(B)A. 探究性数据剖析B. 建模描绘C. 展望建模D. 找寻模式和规则8.成立一个模型,经过这个模型依据已知的变量值来展望其余某个变量值属于数据发掘的哪一类任务 (C)A. 依据内容检索B. 建模描绘C. 展望建模D. 找寻模式和规则9.用户有一种感兴趣的模式而且希望在数据集中找到相像的模式,属于数据发掘哪一类任务(A)A. 依据内容检索B. 建模描绘C. 展望建模D. 找寻模式和规则11.下边哪一种不属于数据预办理的方法(D)A 变量代换B失散化 C齐集 D 预计遗漏值12. 假定 12 个销售价钱记录组已经排序以下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215使用以下每种方法将它们区分红四个箱。

数据挖掘考试题库

数据挖掘考试题库

13. 预测型知识:是根据时间序列型数据,由历史的和当前的数据 去推测未来的数据,也可以认为是以时间为关键属性的关联知 识。
14. 偏差型知识:是对差异和极端特例的描述,用于揭示事物偏离 常规的异常现象,如标准类外的特例,数据聚类外的离群值 等。
15. 遗传算法:是一种优化搜索算法,它首先产生一个初始可行解 群体,然后对这个群体通过模拟生物进化的选择、交叉、变异 等遗传操作遗传到下一代群体,并最终达到全局最优。
作。 22. 传统的决策支持系统是以 和 驱动,而新决策支持系统
则是以 、建立在 和 技术之上。 23. OLAP的数据组织方式主要有 和 2种。 24. SQL Server2000的OLAP组件叫 ,OLAP操作窗口叫 。 25. BP神经网络由 、 以及一或多个 结点组成。 26. 遗传算法包括 、 、 3个基本算子。 27. 聚类分析的数据通常可分为区间标度变
等。 6. 评价关联规则的2个主要指标是 和 。 7. 多维数据集通常采用 或雪花型架构,以 表为中心,连
接多个 表 。 8. 决策树是用 作为结点,用 作为分支的树结构。 9. 关联可分为简单关联、 和 。 10. BP神经网络的作用函数通常为 区间的 。 11. 数据挖掘的过程主要包括确定业务对象、 、 、 及
和低层管理人员、对基本数据进行查询和增、删、改等的日常事务 处理。OLAP即联机分析处理,是在OLTP基础上发展起来的、以数据 仓库基础上的、面向高层管理人员和专业分析人员、为企业决策支 持服务。
OLTP和OLAP的主要区别如下表:
OLTP
OLAP
数据库数据
数据库或数据仓库数据
细节性数据
综合性数据
知识同化等几个步骤。 12. 数据挖掘技术主要涉及 、 和 3个技术领域。 13. 数据挖掘的主要功能包括 、 、 、 、趋势分

数据挖掘考试习题

数据挖掘考试习题

数据挖掘考试习题 work Information Technology Company.2020YEAR数据挖掘考试题一.选择题1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离()A.分类B.聚类C.关联分析D.主成分分析2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。

A.MIN(单链)B.MAX(全链)C.组平均D.Ward方法3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。

A 分类B 预测 C关联规则分析 D聚类4.关于K均值和DBSCAN的比较,以下说法不正确的是( )A.K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。

B.K均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。

C.K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇D.K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇5.下列关于Ward’s Method说法错误的是:( )A.对噪声点和离群点敏感度比较小B.擅长处理球状的簇C.对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差D.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似6.下列关于层次聚类存在的问题说法正确的是:( )A.具有全局优化目标函数B.Group Average擅长处理球状的簇C.可以处理不同大小簇的能力D.Max对噪声点和离群点很敏感7.下列关于凝聚层次聚类的说法中,说法错误的事:( )A.一旦两个簇合并,该操作就不能撤销B.算法的终止条件是仅剩下一个簇OC.空间复杂度为()2mD.具有全局优化目标函数8.规则{牛奶,尿布}→{啤酒}的支持度和置信度分别为:( )9.下列( )是属于分裂层次聚类的方法。

A.MinB.MaxC.Group AverageD.MST10.对下图数据进行凝聚聚类操作,簇间相似度使用MAX计算,第二步是哪两个簇合并:( )A.在{3}和{l,2}合并B.{3}和{4,5}合并C.{2,3}和{4,5}合并D. {2,3}和{4,5}形成簇和{3}合并二.填空题:1.属性包括的四种类型:、、、。

数据挖掘习题及解答-完美版

数据挖掘习题及解答-完美版

Data Mining Take Home Exam学号: xxxx 姓名: xxx 1. (20分)考虑下表的数据集。

(1)计算整个数据集的Gini 指标值。

(2)计算属性性别的Gini 指标值(3)计算使用多路划分属性车型的Gini 指标值 (4)计算使用多路划分属性衬衣尺码的Gini 指标值(5)下面哪个属性更好,性别、车型还是衬衣尺码?为什么? 解:(1) Gini=1-(10/20)^2-(10/20)^2=0.5 (2)Gini=[{1-(6/10)^2-(4/10)^2}*1/2]*2=0.48 (3)Gini={1-(1/4)^2-(3/4)^2}*4/20+{1-(8/8)^2-(0/8)^2}*8/20+{1-(1/8)^2-(7/8)^2}*8/2 0=26/160=0.1625(4)Gini={1-(3/5)^2-(2/5)^2}*5/20+{1-(3/7)^2-(4/7)^2}*7/20+[{1-(2/4)^2-(2/4)^2}*4/ 20]*2=8/25+6/35=0.4914(5)比较上面各属性的Gini值大小可知,车型划分Gini值0.1625最小,即使用车型属性更好。

2. (20分)考虑下表中的购物篮事务数据集。

(1) 将每个事务ID视为一个购物篮,计算项集{e},{b,d} 和{b,d,e}的支持度。

(2)使用(1)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。

(3)将每个顾客ID作为一个购物篮,重复(1)。

应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0)。

(4)使用(3)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。

答:(1)由上表计数可得{e}的支持度为8/10=0.8;{b,d}的支持度为2/10=0.2;{b,d,e}的支持度为2/10=0.2。

(2)c[{b,d}→{e}]=2/8=0.25; c[{e}→{b,d}]=8/2=4。

大数据挖掘技术练习(习题卷14)

大数据挖掘技术练习(习题卷14)

大数据挖掘技术练习(习题卷14)第1部分:单项选择题,共51题,每题只有一个正确答案,多选或少选均不得分。

1.[单选题]人工智能不会()A)听(语音识别、机器翻译),看(图像识别、文字识别)B)说(语音合成、人机对话),思考(人机对弈、定理证明等)C)学习(机器学习、知识表示等),行动(机器人、自动驾驶汽车等)D)表达感情答案:D解析:2.[单选题]以下关于大数据应用说法错误的是( )。

A)大数据起源互联网,目前处于成熟期;B)目前金融、电信、零售、公共服务等领域在积极的探索和应用大数据;C)互联网是大数据的发源地;D)互联网上形成了多种相对成熟的应用模式。

答案:A解析:3.[单选题]协同过滤分析用户兴趣 , 在用户群中找到指定用户的相似 (兴趣)用户, 综合这些用户对 某一信息的评价 , 形成系统对该指定用户对此信息的喜好程度( ),并将这些用户喜欢的项推荐给有相似兴趣的用户。

A)相似B)相同C)推荐D)预测答案:D解析:4.[单选题]马云认为,()是数据时代必须跨过的一个坎A)数据隐私B)数据服务C)数据获取D)数据应用答案:A解析:5.[单选题]研究顾客是否想购买手机与年龄,性别,收入和工作地点的关系可以使用()A)回归方法B)分类方法C)聚类方法D)关联分析答案:B解析:C)mapred-site.xmlD)hadoop-env.sh答案:B解析:7.[单选题]BIRCH是一种( B )。

A)分类器B)聚类算法C)关联分析算法D)特征选择算法答案:B解析:8.[单选题]基于DPI的网站统计分析功能目前暂无法支持的是A)域名按网站聚合B)URL的访问源记录C)域名流量统计D)页面内容爬取答案:D解析:9.[单选题]视频业务端到端问题定界的关键点在于()A)查找KQI对应的相关异常KPI指标B)不同维度的对比定位分析C)进行HTTP错误码分析D)进行接口以上以下分析答案:A解析:10.[单选题]数据仓库是随着时间变化的,下面的描述不正确的是A)数据仓库随时间的变化不断增加新的数据内容;B)捕捉到的新数据会覆盖原来的快照;C)数据仓库随事件变化不断删去旧的数据内容;D)数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合.答案:C解析:11.[单选题]联机分析处理包括以下不是基本分析功能的为: ( )A)聚类B)切片C)转轴D)切块答案:A解析:12.[单选题]CRISP-DM是跨行业数据挖掘过程标准,下述哪项工作是 在data preperation阶段完成A)数据收集B)数据清洗13.[单选题]订单表order包含用户信息uid和产品信息pid等属性列,以下语句能够返回至少被订购过三次的Pid是______。

数据挖掘习题

数据挖掘习题
(c) 对于数据仓库,位图索引是有用的。以该数据方为例,简略讨论使用位图索引结构的优点和问题。 下表给出课程数据库中学生的期中和期末考试成绩。 四、 数据库有 4 个事务。min_sup=60%, min_conf=80%。 X期中考试 Y期末考试 TID date items_bought 72 84 50 63 T100 10/15/09 {K,A,D,B,F} 81 77 T200 10/15/09 {D,A,C,E,B,G} 74 78 T300 10/19/09 {C,A ,B,E,H} 94 90 T400 10/22/09 {B A,D, H} 86 75 59 49 (a) 分别使用 Apriori 和 FP-增长算法找出频繁项集。比较两种挖掘过程的有效性。 83 79 (b) 列出所有的强相关规则(带支持度 s 和置信度 c) ,它们与下面的元规则匹配,其中, 65 77 X 是代表顾客的变量, item i 是表示项的变量(例如, “A”“B”等) 、 : 33 52 88 74 x transactio n , buys ( X , item 1 ) buys ( X , item 2 ) buys ( X , item 3 ) [s, c] 81 90 (a) 对数据做图。X 和Y 看上去具有线性联系吗? (b) 使用最小平方法,求由学生的期中成绩预测学生的期末成绩的方程式。 (c) 预测期中成绩为 86 分的学生的期末成绩。 七、 假设数据挖掘的任务是将如下的八个点(用(x,y)代表位置)聚类为三个类。 A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9), 距离函数是Euclidean 函 数。假设初始我们选择A1,B1,和C1 为每个聚类的中心,用k-means 算法来给出 (a) 在第一次循环执行后的三个聚类中心 (b) 最后的三个簇 八、 假设某连锁餐厅想挖掘出与主要体育事件相关的顾客消费行为,如“每当电视播出法裔加拿大 人的曲棍球比赛时,肯德鸡的销量会在比赛前一小时上升20%”。 (a) 给出一种找出这种模式的有效方法。 (b) 大部分与时间相关的关联挖掘算法都使用了类Apriori 算法来挖掘此类模式。 可否扩展FP-growth 方 法去找出此类与时间相关的模式? 六、

数据挖掘习题及解答-完美版

数据挖掘习题及解答-完美版

Data Mining Take Home Exam学号: xxxx 姓名: xxx(1)计算整个数据集的Gini指标值。

(2)计算属性性别的Gini指标值(3)计算使用多路划分属性车型的Gini指标值(4)计算使用多路划分属性衬衣尺码的Gini指标值(5)下面哪个属性更好,性别、车型还是衬衣尺码?为什么?^2}*1/2]*2=0.48(3)—(8/8)^2-(0/8)^2}*8/20+{1—(1/8)^2—(7/8)^2}*8/20=26/160=0。

16254/7)^2}*7/20+[{1—(2/4)^2—(2/4)^2}*4/20]*2=8/25+6/35=0。

4914(5)比较上面各属性的Gini值大小可知,车型划分Gini值0。

1625最小,即使用车型属性更好。

2。

((1)将每个事务ID视为一个购物篮,计算项集{e},{b,d}和{b,d,e}的支持度。

(2)使用(1)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度.(3)将每个顾客ID作为一个购物篮,重复(1)。

应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0). (4)使用(3)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。

答:(1)由上表计数可得{e}的支持度为8/10=0。

8;{b,d}的支持度为2/10=0。

2;{b,d,e}的支持度为2/10=0。

2。

(2)c[{b,d}→{e}]=2/8=0.25; c[{e}→{b,d}]=8/2=4。

(3)同理可得:{e}的支持度为4/5=0.8,{b,d}的支持度为5/5=1,{b,d,e}的支持度为4/5=0.8。

(4)c[{b,d}→{e}]=5/4=1.25,c[{e}→{b,d}]=4/5=0。

8。

3. (20分)以下是多元回归分析的部分R输出结果。

> ls1=lm(y~x1+x2)〉anova(ls1)Df Sum Sq Mean Sq F value Pr(〉F)x1 1 10021.2 10021.2 62。

数据挖掘习题2

数据挖掘习题2

数据挖掘习题2数据挖掘习题1、数据库有5个事务。

设min_sup=60%,min_conf=80%。

TID 购买的商品T100 {M,O,N,K,E,Y}T200 {D,O,N,K,E,Y}T300 {M,A,K,E}T400 {M,U,C,K,Y}T500 {C,O,O,K,I,E} (a)分别使⽤Apriori和FP增长算法找出所有频繁项集。

⽐较两种挖掘过程的效率。

(b)列举所有与下⾯的元规则匹配的强关联规则(给出⽀持度s和置信度c),其中,X是代表顾客的变量,是2、下表由雇员数据库的训练数据组成。

数据已泛化。

例如,age“31…35”表⽰年龄在31~35之间。

对于给定的⾏,count表⽰department,status,age和salary在该⾏具有给定值的元组数。

department status age salary count46K...50K 30 sales senior 31 (35)26K...30K 40 sales junior 26 (30)31K...35K 40 sales junior 31 (35)systems junior 21…25 46K…50K 20systems senior 31…35 66K…70K 5systems junior 26…30 46K…50K 3systems senior 41…45 66K…70K 3marketing senior 36…40 46K…50K 10marketing junior 31…35 41K…45K 4secretary senior 46…50 36K…40K 4secretary junior 26…30 26K…30K 6 设status是类标号属性。

(a)如何修改基本决策树算法,以便考虑每个⼴义数据元组(即每⼀⾏)的count?(b)使⽤修改过的算法,构造给定数据的决策树。

3、假设数据挖掘的任务是将如下的⼋个点(⽤(x,y)代表位置)聚类为三个簇。

《数据挖掘》练习题(第5章)

《数据挖掘》练习题(第5章)

一、填空题1、每一个分类规则可以表示为如下形式:():i i i r y →条件规则左边称为 ,规则右边称为 ,包含预测类i y 。

2、给定数据集D 和分类规则:r A y →,将D 中触发规则r 的记录所占的比例称为规则的 。

3、给定数据集D 和分类规则 :r A y →,将D 中触发r 的记录中类标号等于y 的记录所占的比例称为规则的 。

4、分类规则的质量可用规则的 和 表示。

5:r (胎生=是 )∧ (体温=恒温)→哺乳类的覆盖率是 ;规则的准确率是 。

6、规则集的两个重要性质是 和 。

7、如果规则集R 中不存在两条规则被同一条记录触发,则称规则集R 中的规则是 ,这个性质确保每条记录至多被R 中的一条规则覆盖。

8、如果对属性值的任一组合,R 中都存在一条规则加以覆盖,则称规则集R 具有 ,这个性质确保每一条记录都至少被R 中的一条规则覆盖。

9、以下是脊椎动物分类问题的规则集:1:r (胎生=否)∧ (飞行动物=是)→鸟类2:r (胎生=否 )∧(水生动物=是)→鱼类3:r(胎生=是)∧(体温=恒温)→哺乳类4:r(胎生=否)∧(飞行动物=否)→爬行类5:r(水生动物=半)→两栖类、提取分类规则的方法有和两大类。

11、提取分类规则的直接方法是指。

12、提取分类规则的间接方法是指。

13、规则的排序方案有和两种。

14、常见的分类规则增长策略有和两种。

二、问答题1、如果基于规则的分类器中的规则集不是穷举的,应该如何解决?2、如果基于规则的分类器中的规则集不是互斥的,应该如何解决?3、使用无序规则来建立基于规则的分类器有什么利弊?4、k-近邻分类器中,k值的大小对分类器的性能会产生什么影响?5、考虑一个二值分类问题,属性集和属性值如下:空调={可用,不可用}引擎={好,差}行车里程={高,中,低}生锈={是,否}假设一个基于规则的分类器产'生的规则集如下:1:r行车里程=高→价值=低2:r行车里程=低→价值=高3:r空调=可用,引擎=好→价值=高4:r空调=可用,引擎=差→价值=低5:r空调=不可用→价值=低(1)这些规则是互斥的吗?(2)这些规则集是完全的吗?(3)规则需要排序吗?(4)规则集需要默认类吗?三、计算题1、设有一个训练集,它包含60个正例和100个反例。

数据挖掘测试题及答案

数据挖掘测试题及答案

数据挖掘测试题及答案一、选择题1. 数据挖掘的目的是:A. 数据清洗B. 数据转换C. 模式发现D. 数据存储答案:C2. 以下哪项不是数据挖掘的常用算法?A. 决策树B. 聚类分析C. 线性回归D. 关联规则答案:C二、填空题1. 数据挖掘中的_________是指在大量数据中发现的有意义的模式。

答案:知识2. 一种常用的数据挖掘技术是_________,它用于发现数据中隐藏的分组。

答案:聚类三、简答题1. 简述数据挖掘与数据分析的区别。

答案:数据挖掘是一种自动或半自动的过程,旨在从大量数据中发现模式和知识。

数据分析通常涉及更具体的查询和问题,使用统计方法来理解数据。

2. 描述什么是关联规则挖掘,并给出一个例子。

答案:关联规则挖掘是一种用于发现变量之间有趣关系的技术,特别是变量之间的频繁模式、关联或相关性。

例如,在市场篮子分析中,关联规则挖掘可以用来发现顾客购买行为中的模式,如“购买面包的顾客中有80%也购买了牛奶”。

四、计算题1. 给定以下数据集,计算支持度和置信度:| 事务ID | 购买的商品 |||-|| 1 | A, B || 2 | A, C || 3 | B, C || 4 | A, B, C || 5 | B, D |(1) 计算项集{A}的支持度。

(2) 计算规则A => B的置信度。

答案:(1) 项集{A}的支持度为4/5,因为A出现在4个事务中。

(2) 规则A => B的置信度为3/4,因为A和B同时出现在3个事务中,而A出现在4个事务中。

五、论述题1. 论述数据挖掘在电子商务中的应用,并给出至少两个具体的例子。

答案:数据挖掘在电子商务中的应用非常广泛,包括:- 客户细分:通过数据挖掘技术,商家可以识别不同的客户群体,为每个群体提供定制化的服务或产品。

- 推荐系统:利用关联规则挖掘,电商平台可以推荐用户可能感兴趣的商品,提高用户满意度和购买率。

- 欺诈检测:通过分析交易模式,数据挖掘可以帮助识别异常行为,预防信用卡欺诈等风险。

原《数据挖掘》习题

原《数据挖掘》习题

ch11.讨论下列每项活动是否是数据挖掘任务:(fgh是)(a) 根据性别划分公司的顾客。

(b) 根据可赢利性划分公司的顾客。

(c) 计算公司的总销售额。

(d) 按学生的标识号对学生数据库排序。

(e) 预测掷一对骰子的结果。

使用历史记录预测某公司未来的股票价格。

(f)(g) 监视病人心率的异常变化。

(h) 监视地震活动的地震波。

提取声波的频率。

(i)2. (ch1)数据挖掘可以在很多数据源上进行,如关系数据库,空间数据库,多媒体数据库,文本数据库等。

3. (ch1) 数据挖掘一定可以得到有趣的强关联规则。

4. (ch1) 为了提高挖掘质量,通常要进行数据预处理,包括数据清理、集成、选择、变换等。

5. (ch5){发烧,上呼吸道感染}是(2)项集6.企业要建立预测模型,需准备建模数据集,以下四条描述建模数据集正确的是( B )。

A 数据越多越好B 尽可能多的适合的数据C数据越少越好D 以上三条都正确7. 数据挖掘算法以( D )形式来组织数据。

A 行 B列 C 记录 D 表格Ch28. (ch2)假定用于分析的数据包含属性age。

数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70,求:1)使用按箱平均值平滑对以上数据进行平滑,箱的深度是3。

解释你的步骤。

2)使用按箱边界值平滑对以上数据进行平滑,箱的深度是3。

解释你的步骤。

7、P98 3.4(ch3)假定大学的数据仓库包含4个维{student学生、course课程、semester学期、instructor教师},2个度量count和avg_grade。

在最低的概念层(例如对于给定的学生、课程、学期和教师组合),度量avg_grade存放学生的实际成绩。

为数据仓库画出雪花模式图8、P98 3.5(ch3)和game,2假定数据仓库包含4个维date,spectator,location个度量count和charge。

数据挖掘期末考试试题及答案详解

数据挖掘期末考试试题及答案详解

数据挖掘期末考试试题及答案详解一、选择题(每题2分,共20分)1. 数据挖掘中,关联规则分析主要用于发现数据中的哪种关系?A. 因果关系B. 相关性C. 聚类关系D. 顺序关系答案:B2. 在决策树算法中,哪个指标用于评估特征的重要性?A. 信息增益B. 支持度C. 置信度D. 覆盖度答案:A3. 以下哪个是数据挖掘的常用方法?A. 线性回归B. 逻辑回归C. 神经网络D. 所有选项答案:D4. K-means聚类算法中,K值的选择是基于什么?A. 数据的维度B. 聚类中心的数量C. 数据的分布情况D. 数据的规模答案:B5. 以下哪个是数据挖掘中常用的数据预处理技术?A. 数据清洗B. 数据转换C. 数据归一化D. 所有选项答案:D...(此处省略其他选择题)二、简答题(每题10分,共30分)1. 简述什么是数据挖掘,并列举其主要的应用领域。

答案:数据挖掘是从大量数据中自动或半自动地发现有趣模式的过程。

它主要应用于市场分析、风险管理、欺诈检测、客户关系管理等领域。

2. 解释什么是朴素贝叶斯分类器,并说明其在数据挖掘中的应用。

答案:朴素贝叶斯分类器是一种基于贝叶斯定理的分类算法,它假设特征之间相互独立。

在数据挖掘中,朴素贝叶斯分类器常用于文本分类、垃圾邮件检测等任务。

3. 描述K-means聚类算法的基本原理,并举例说明其在实际问题中的应用。

答案:K-means聚类算法是一种基于距离的聚类方法,其目标是将数据点划分到K个簇中,使得每个数据点与其所属簇的中心点的距离之和最小。

例如,在市场细分中,K-means聚类可以用来将客户根据购买行为划分为不同的群体。

三、计算题(每题25分,共50分)1. 给定一组数据点:{(1,2), (2,3), (3,4), (4,5)},请使用K-means算法将这些点分为两个簇,并计算簇的中心点。

答案:首先随机选择两个点作为初始中心点,然后迭代地将每个点分配到最近的中心点,接着更新中心点。

数据挖掘技术课程模拟练习题

数据挖掘技术课程模拟练习题

数据挖掘技术课程模拟练习题一、选择题1、以下哪项不是数据挖掘的主要任务?()A 分类B 聚类C 数据清洗D 关联规则挖掘2、在数据挖掘中,以下哪种算法常用于分类问题?()A KMeans 算法B Apriori 算法C 决策树算法D 层次聚类算法3、数据挖掘中的“过拟合”现象是指()A 模型在训练集上表现很好,但在测试集上表现很差B 模型在训练集和测试集上表现都很差C 模型在训练集上表现很差,但在测试集上表现很好D 模型在训练集和测试集上表现都很好4、以下哪项不是处理缺失值的常用方法?()A 删除包含缺失值的记录B 用平均值填充缺失值C 用众数填充缺失值D 对缺失值不做处理5、数据挖掘中的特征选择是为了()A 减少数据量B 提高模型的准确性C 便于数据可视化D 以上都是二、填空题1、数据挖掘的流程包括_____、_____、_____、_____、_____和_____。

2、常见的数据预处理方法有_____、_____、_____、_____和_____。

3、关联规则挖掘中,常用的两个指标是_____和_____。

三、简答题1、请简要说明数据挖掘与传统数据分析的区别。

数据挖掘和传统数据分析有以下几个主要区别。

首先,在数据规模上,数据挖掘通常处理的是大规模的数据集合,可能包含海量的数据记录和丰富的属性;而传统数据分析一般处理相对较小规模的数据。

其次,数据挖掘更注重发现隐藏在数据中的未知模式和关系,具有一定的探索性和预测性;传统数据分析则更多是对已知问题进行分析和描述。

再者,数据挖掘所使用的技术和算法更加复杂多样,常常需要综合运用多种方法;传统数据分析则主要依赖一些基本的统计分析方法。

另外,数据挖掘的结果往往是新的知识和洞察,可能会对业务产生重大影响;传统数据分析则主要是为了支持决策和解决特定的业务问题。

2、简述数据清洗的主要步骤。

数据清洗的主要步骤包括:第一步是数据审查,对原始数据进行全面的检查,了解数据的质量状况,包括缺失值、异常值、错误数据等。

数据挖掘考试题及答案

数据挖掘考试题及答案

数据挖掘考试题及答案一、单项选择题(每题2分,共20分)1. 数据挖掘的主要任务不包括以下哪一项?A. 分类B. 聚类C. 预测D. 数据清洗答案:D2. 以下哪个算法不是用于分类的?A. 决策树B. 支持向量机C. K-meansD. 神经网络答案:C3. 在数据挖掘中,关联规则挖掘主要用于发现以下哪种类型的模式?A. 序列模式B. 分类模式C. 频繁项集D. 聚类模式答案:C4. 以下哪个指标不是用于评估分类模型性能的?A. 准确率B. 召回率C. F1分数D. 马氏距离答案:D5. 在数据挖掘中,以下哪个算法是用于聚类的?A. K-meansB. 逻辑回归C. 随机森林D. 支持向量机答案:A6. 以下哪个选项不是数据挖掘过程中的步骤?A. 数据预处理B. 模式发现C. 结果评估D. 数据存储答案:D7. 在数据挖掘中,异常检测的主要目的是识别以下哪种类型的数据?A. 频繁出现的模式B. 罕见的模式C. 预测未来的数据D. 聚类的数据答案:B8. 以下哪个选项不是数据挖掘中常用的数据预处理技术?A. 数据清洗B. 数据集成C. 数据变换D. 数据压缩答案:D9. 在数据挖掘中,以下哪个算法是用于特征选择的?A. 主成分分析B. 线性判别分析C. 支持向量机D. 决策树答案:D10. 以下哪个选项不是数据挖掘中常用的数据表示方法?A. 决策树B. 向量空间模型C. 邻接矩阵D. 频率分布表答案:D二、多项选择题(每题3分,共15分)11. 数据挖掘中常用的聚类算法包括哪些?A. K-meansB. 层次聚类C. DBSCAND. 支持向量机答案:A、B、C12. 在数据挖掘中,以下哪些是关联规则挖掘的典型应用场景?A. 市场篮分析B. 异常检测C. 推荐系统D. 社交网络分析答案:A、C13. 数据挖掘中,以下哪些是分类模型评估的常用指标?A. 准确率B. 召回率C. ROC曲线D. 马氏距离答案:A、B、C14. 在数据挖掘中,以下哪些是特征工程的步骤?A. 特征选择B. 特征提取C. 特征变换D. 数据清洗答案:A、B、C15. 数据挖掘中,以下哪些是数据预处理的常见任务?A. 缺失值处理B. 异常值检测C. 数据规范化D. 数据压缩答案:A、B、C三、简答题(每题10分,共30分)16. 请简述数据挖掘中分类和聚类的主要区别。

《数据挖掘》练习题(第6章)

《数据挖掘》练习题(第6章)

一、填空题1、关联规则挖掘的目的是。

2项集{的支持数为,支持度为。

3、在第2题的事务数据集中,如果将最小支持数定为3,则数据集中的频繁项集有。

4、在第2题的事务数据集中,规则{牛奶,尿布}→{啤酒}的支持度为,置信度为。

5、满足最小支持度和最小信任度的关联规则称为。

6、给定一个事务数据库,关联规则挖掘间题就是通过用户指定的和来寻找强关联规则的过程。

7、关联规则挖掘问题可以划分成和两个子问题。

8、可以降低产生频繁项集的计算复杂度两种方法为:和。

9、k-候选集C产生的方法有:、和。

k10、Apriori算法有两个致命的性能瓶颈。

它们分别是:(1)(2)二、多项选择题1、设有项目集,X X是X的一个子集,则下列结论中成立的是( )1A、如果X如果频繁项目集,则X也是频繁项目集;1B、如果X如果频繁项目集,则X也是频繁项目集;1C、如果X如果非频繁项目集,则X也是非频繁项目集;1C、如果X如果非频繁项目集,则X也是非频繁项目集;1E、如果X如果频繁项目集,则X可能是频繁项目集也可能是非频繁项目集。

12、设3-项集{}a b c是频繁项目集,则下列1-项集和2-项集中,( )是频,,繁项目集。

A、{},a bB、{},b cC、{},a cD、{}aE、{}b3、设事务数据库D具有项集{}→不是强关联规则时,=,已知BC ADI A B C D,,,则下列关联规则中,( )一定不是强关联规则。

A、B ACD→E、AD BC→→D、ABC D→C、C ABD→B、CD AB4、设事务数据库D具有项集{}→不是强关联规则时,=,已知BC AD,,,I A B C D则下列关联规则中,( )一定不是强关联规则。

A、B ACD→E、AD BC→→C、BCD A→B、CD AB→D、ABC D5、假设关联规则{}{}→具有低可置信度,则在关联规则生成算法中,规则bed a( )应该被丢弃(剪枝)。

A、{}{}→be ad→C、{}{}cd ab→B、{}{}ad bcD、{}{}bd ae→d abc→E、{}{}三、问答题1、进行关联分析时,需要处理的两个关键问题是什么?21(1),利用Apriori算法求出所有的频繁项目集,指出其中的最大频繁项目集。

数据挖掘考试题目——关联分析

数据挖掘考试题目——关联分析

数据挖掘考试题目——关联分析一、10个选择1.以下属于关联分析的是()A.CPU性能预测B.购物篮分析C.自动判断鸢尾花类别D.股票趋势建模2.维克托▪迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。

其中,数据之间的相关关系可以通过以下哪个算法直接挖掘()A.K-means B.Bayes NetworkC.C4.5 D.Apriori3.置信度(confidence)是衡量兴趣度度量()的指标。

A.简洁性B.确定性C.实用性D.新颖性4.Apriori算法的加速过程依赖于以下哪个策略()A.抽样B.剪枝C.缓冲D.并行5.以下哪个会降低Apriori算法的挖掘效率()A.支持度阈值增大B.项数减少C.事务数减少D.减小硬盘读写速率6.Apriori算法使用到以下哪些东东()A.格结构、有向无环图B.二叉树、哈希树C.格结构、哈希树D.多叉树、有向无环图7.非频繁模式()A.其置信度小于阈值B.令人不感兴趣C.包含负模式和负相关模式D.对异常数据项敏感8.对频繁项集、频繁闭项集、极大频繁项集的关系描述正确的是()[注:分别以1、2、3代表之]A.3可以还原出无损的1 B.2可以还原出无损的1C.3与2是完全等价的D.2与1是完全等价的9.Hash tree在Apriori算法中所起的作用是()A.存储数据B.查找C.加速查找D.剪枝10.以下不属于数据挖掘软件的是()A.SPSS Modeler B.WekaC.Apache Spark D.Knime二、10个填空1.关联分析中表示关联关系的方法主要有:和。

2.关联规则的评价度量主要有:和。

3.关联规则挖掘的算法主要有:和。

4.购物篮分析中,数据是以的形式呈现。

5.一个项集满足最小支持度,我们称之为。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘复习题单选题1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。

(b)描述有多少比例的小偷给警察抓了的标准。

A. Precision, RecallB. Recall, PrecisionA. Precision, ROC D. Recall, ROC3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)A. 分类B. 聚类C. 关联分析D. 隐马尔可夫链5. 什么是KDD? (A)A. 数据挖掘与知识发现B. 领域知识发现C. 文档知识发现D. 动态知识发现6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则11.下面哪种不属于数据预处理的方法? (D)A变量代换 B离散化 C 聚集 D 估计遗漏值12. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204,215 使用如下每种方法将它们划分成四个箱。

等频(等深)划分时,15在第几个箱子内? (B)A 第一个B 第二个C 第三个D 第四个13.上题中,等宽划分时(宽度为50),15又在哪个箱子里? (A)A 第一个B 第二个C 第三个D 第四个14.下面哪个不属于数据的属性类型:(D)A 标称B 序数C 区间 D相异15. 在上题中,属于定量的属性类型是:(C)A 标称B 序数 C区间 D 相异16. 只有非零值才重要的二元属性被称作:( C )A 计数属性B 离散属性 C非对称的二元属性 D 对称属性17. 以下哪种方法不属于特征选择的标准方法: (D)A嵌入 B 过滤 C 包装 D 抽样18.下面不属于创建新属性的相关方法的是: (B)A特征提取 B特征修改 C映射数据到新的空间 D特征构造19. 考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是 (C)A 2B 3C 3.5D 520. 下面哪个属于映射数据到新的空间的方法? (A)A 傅立叶变换 B特征加权 C 渐进抽样 D维归约21. 熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是: (B)A 1比特B 2.6比特C 3.2比特D 3.8比特22. 假设属性income的最大最小值分别是12000元和98000元。

利用最大最小规范化的方法将属性的值映射到0至1的范围内。

对属性income的73600元将被转化为:(D)A 0.821B 1.224C 1.458D 0.71623.假定用于分析的数据包含属性age。

数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。

第二个箱子值为:(A)A 18.3B 22.6C 26.8D 27.924. 考虑值集{12 24 33 2 4 55 68 26},其四分位数极差是:(A)A 31B 24C 55D 325. 一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。

则年级属性的众数是: (A)A 一年级 B二年级 C 三年级 D 四年级26. 下列哪个不是专门用于可视化时间空间数据的技术: (B)A 等高线图 B饼图 C 曲面图 D 矢量场图27. 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: (D)A 有放回的简单随机抽样 B无放回的简单随机抽样 C分层抽样 D 渐进抽样28. 数据仓库是随着时间变化的,下面的描述不正确的是 (C)A. 数据仓库随时间的变化不断增加新的数据内容;B. 捕捉到的新数据会覆盖原来的快照;C. 数据仓库随事件变化不断删去旧的数据内容;D. 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合.29. 关于基本数据的元数据是指: (D)A. 基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B. 基本元数据包括与企业相关的管理方面的数据和信息;C. 基本元数据包括日志文件和简历执行处理的时序调度信息;D. 基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息.30. 下面关于数据粒度的描述不正确的是: (C)A. 粒度是指数据仓库小数据单元的详细程度和级别;B. 数据越详细,粒度就越小,级别也就越高;C. 数据综合度越高,粒度也就越大,级别也就越高;D. 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量.31. 有关数据仓库的开发特点,不正确的描述是: (A)A. 数据仓库开发要从数据出发;B. 数据仓库使用的需求在开发出去就要明确;C. 数据仓库的开发是一个不断循环的过程,是启发式的开发;D. 在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式32. 在有关数据仓库测试,下列说法不正确的是: (D)A. 在完成数据仓库的实施过程中,需要对数据仓库进行各种测试.测试工作中要包括单元测试和系统测试.B. 当数据仓库的每个单独组件完成后,就需要对他们进行单元测试.C. 系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试.D. 在测试之前没必要制定详细的测试计划.33. OLAP技术的核心是: (D)A. 在线性;B. 对用户的快速响应;C. 互操作性.D. 多维分析;34. 关于OLAP的特性,下面正确的是: (D)(1)快速性 (2)可分析性 (3)多维性 (4)信息性 (5)共享性A. (1) (2) (3)B. (2) (3) (4)C. (1) (2) (3) (4)D. (1) (2) (3) (4) (5)35. 关于OLAP和OLTP的区别描述,不正确的是: (C)A. OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同.B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.C. OLAP的特点在于事务量大,但事务内容比较简单且重复率高.D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的.36. OLAM技术一般简称为”数据联机分析挖掘”,下面说法正确的是: (D)A. OLAP和OLAM都基于客户机/服务器模式,只有后者有与用户的交互性;B. 由于OLAM的立方体和用于OLAP的立方体有本质的区别.C. 基于WEB的OLAM是WEB技术与OLAM技术的结合.D. OLAM服务器通过用户图形借口接收用户的分析指令,在元数据的知道下,对超级立方体作一定的操作.37. 关于OLAP和OLTP的说法,下列不正确的是: (A)A. OLAP事务量大,但事务内容比较简单且重复率高.B. OLAP的最终数据来源与OLTP不一样.C. OLTP面对的是决策人员和高层管理人员.D. OLTP以应用为核心,是应用驱动的.38. 设X={1,2,3}是频繁项集,则可由X产生__(C)__个关联规则。

A、4B、5C、6D、740. 概念分层图是__(B)__图。

A、无向无环B、有向无环C、有向有环D、无向有环41. 频繁项集、频繁闭项集、最大频繁项集之间的关系是: (C)A、频繁项集频繁闭项集 =最大频繁项集B、频繁项集 = 频繁闭项集最大频繁项集C、频繁项集频繁闭项集最大频繁项集D、频繁项集 = 频繁闭项集 = 最大频繁项集42. 考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含(C)A、1,2,3,4B、1,2,3,5C、1,2,4,5D、1,3,4,543.下面选项中t不是s的子序列的是 ( C )A、s=<{2,4},{3,5,6},{8}> t=<{2},{3,6},{8}>B、s=<{2,4},{3,5,6},{8}> t=<{2},{8}>C、s=<{1,2},{3,4}> t=<{1},{2}>D、s=<{2,4},{2,4}> t=<{2},{4}>44. 在图集合中发现一组公共子结构,这样的任务称为 ( B )A、频繁子集挖掘B、频繁子图挖掘C、频繁数据项挖掘D、频繁模式挖掘45. 下列度量不具有反演性的是 (D)A、系数B、几率C、Cohen度量D、兴趣因子46. 下列__(A)__不是将主观信息加入到模式发现任务中的方法。

A、与同一时期其他数据对比B、可视化C、基于模板的方法D、主观兴趣度量47. 下面购物篮能够提取的3-项集的最大数量是多少(C)ID 购买项1 牛奶,啤酒,尿布2 面包,黄油,牛奶3 牛奶,尿布,饼干4 面包,黄油,饼干5 啤酒,饼干,尿布6 牛奶,尿布,面包,黄油7 面包,黄油,尿布8 啤酒,尿布9 牛奶,尿布,面包,黄油10 啤酒,饼干A、1B、2C、3D、448. 以下哪些算法是分类算法,A,DBSCAN B,C4.5 C,K-Mean D,EM (B)49. 以下哪些分类方法可以较好地避免样本的不平衡问题, A,KNN B,SVM C,Bayes D,神经网络(A)50. 决策树中不包含一下哪种结点,A,根结点(root node) B,内部结点(internal node)C,外部结点(external node) D,叶结点(leaf node) (C)51. 不纯性度量中Gini计算公式为(其中c是类的个数) (A)A, B, C, D, (A)53. 以下哪项关于决策树的说法是错误的 (C)A. 冗余属性不会对决策树的准确率造成不利的影响B. 子树可能在决策树中重复多次C. 决策树算法对于噪声的干扰非常敏感D. 寻找最佳决策树是NP完全问题54. 在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为 (B)A. 基于类的排序方案B. 基于规则的排序方案C. 基于度量的排序方案D. 基于规格的排序方案。

相关文档
最新文档