数据挖掘在线作业

合集下载

数据挖掘作业1

数据挖掘作业1

数据挖掘技术选修课大作业学院:计算机学院专业:软件工程姓名:王小妮班级:软工1201学号:12080101071.1数据挖掘技术的定义1.2数据挖掘的含义1.3数据挖掘商业角度的定义1.4数据挖掘和数据仓库1.5数据挖掘和在线分析处理1.6软硬件发展对数据挖掘的影响2数据挖掘的典型技术2.1聚类分析2.1关联规则2.3回归分析2.4其他技术3数据挖掘技术的应用3.1在intnet的应用3.2在金融的应用4学习收获参考文献:1.1数据挖掘技术的定义数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

1.2数据挖掘技术的含义与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。

这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。

----何为知识?从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。

人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。

原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。

发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。

发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。

因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。

在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。

《数据挖掘》试题与答案(2021年整理精品文档)

《数据挖掘》试题与答案(2021年整理精品文档)

《数据挖掘》试题与答案编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(《数据挖掘》试题与答案)的内容能够给您的工作和学习带来便利。

同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。

本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为《数据挖掘》试题与答案的全部内容。

一、解答题(满分30分,每小题5分)1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。

知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。

流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。

2. 时间序列数据挖掘的方法有哪些,请详细阐述之时间序列数据挖掘的方法有:1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。

例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。

2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值.若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。

浙江大学数据挖掘在线作业答案

浙江大学数据挖掘在线作业答案

您的本次作业分数为:100分1.【第001章】孤立点挖掘适用于下列哪种场合?A 目标市场分析B 购物篮分析C 模式识别D 信用卡欺诈检测正确答案:D2.【第01章】根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是()。

A 关联分析B 分类和预测C 演变分析D 概念描述正确答案:B3.【第01章】数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于()。

A 所涉及的算法的复杂性B 所涉及的数据量C 计算结果的表现形式D 是否使用了人工智能技术正确答案:B4.【第01章】下列几种数据挖掘功能中,()被广泛的应用于股票价格走势分析。

A 关联分析B 分类和预测C 聚类分析D 演变分析正确答案:D5.【第01章】下列几种数据挖掘功能中,()被广泛的用于购物篮分析。

A 关联分析B 分类和预测C 聚类分析D 演变分析正确答案:A6.【第01章】帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是()。

A 关联分析B 分类和预测C 聚类分析D 孤立点分析E 演变分析正确答案:C7.【第01章】下面的数据挖掘的任务中,()将决定所使用的数据挖掘功能。

A 选择任务相关的数据B 选择要挖掘的知识类型C 模式的兴趣度度量D 模式的可视化表示正确答案:B8.【第01章】假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是()。

A 关联分析B 分类和预测C 孤立点分析D 演变分析E 概念描述正确答案:E9.【第02章】下列哪种可视化方法可用于发现多维数据中属性之间的两两相关性?A 空间填充曲线B 散点图矩阵C 平行坐标D 圆弓分割正确答案:B10.【第02章】计算一个单位的平均工资,使用哪个中心趋势度量将得到最合理的结果?A 算术平均值B 截尾均值C 中位数D 众数正确答案:B11.【第02章】字段Size = {small, medium, large}属于那种属性类型?A 标称属性B 二元属性C 序数属性D 数值属性正确答案:C12.【第02章】字段Hair_color = {auburn, black, blond, brown, grey, red, white}属于那种属性类型?A 标称属性B 二元属性C 序数属性D 数值属性正确答案:A13.【第03章】哪种数据变换的方法将数据沿概念分层向上汇总?A 平滑B 聚集C 数据概化D 规范化正确答案:C14.【第03章】下面哪种数据预处理技术可以用来平滑数据,消除数据噪声?A 数据清理B 数据集成C 数据变换D 数据归约正确答案:A15.【第03章】()通过将属性域划分为区间,从而减少给定连续值的个数。

数据挖掘练习题附答案

数据挖掘练习题附答案

数据挖掘练习题A一、简答题1. 数据对象之间的相似性可用距离来衡量,常见的距离形式有哪些?答:曼哈顿距离,欧几里得距离,切比雪夫距离,闵可夫斯基距离,杰卡德距离2. 简述朴素贝叶斯分类的基本思想。

答:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个概率最大,就认为此待分类项属于哪个类别。

1)设x={a!,a",…,a#}为一个待分类项,a为x的特征属性;2)有类别集合C={y!,y",…,y$}3) 计算p(y!|x),p(y"|x),… p(y$|x)4) 如果p(y%|x)=max {p(y!|x),p(y"|x),…,p(y%|x)},则x∈y%3. 在做数据清洗时,如何处理缺失值?答:处理缺失值的方法有3种:1)忽略元组;2)数据补齐,包括人工填写、特殊值填充、平均值填充、使用最可能的值填充;3)不处理。

4. 简述K-means算法的基本步骤。

答:1)任意选择k个对象作为初始的簇中心;2)计算其它对象与这k个中心的距离,然后把每个对象归入离它“最近”的簇;3)计算各簇中对象的平均值,然后选择簇中心(离平均值“最近”的簇);4)重复第2步到第3步直到簇中心不再变化为止。

5. 在关联规则中,支持度(support)和置信度(confidence)的含义分别是什么?答:支持度support(x->y)=p(x,y),表示项集中同时含有x和y的概率。

置信度confidence(x->y)=p(y/x),表示在关联规则的先决条件x发生的条件下,关联结果y发生的概率,即含有x的项集中,同时含有y的可能性。

二、计算题1.假定属性A的取值x在[x_min,x_max]之间,其中x_min和x_max分别为属性A的最小值和最大值,请利用最小-最大规范化方法(也称离差标准化,是对原始数据的线性变化),将x转化到新的区间[y_min,y_max]中,结果用x’表示。

数据挖掘习题及解答-完美版

数据挖掘习题及解答-完美版

Data Mining Take Home Exam学号: xxxx 姓名: xxx 1. (20分)考虑下表的数据集。

(1)计算整个数据集的Gini 指标值。

(2)计算属性性别的Gini 指标值(3)计算使用多路划分属性车型的Gini 指标值 (4)计算使用多路划分属性衬衣尺码的Gini 指标值(5)下面哪个属性更好,性别、车型还是衬衣尺码?为什么? 解:(1) Gini=1-(10/20)^2-(10/20)^2=0.5 (2)Gini=[{1-(6/10)^2-(4/10)^2}*1/2]*2=0.48 (3)Gini={1-(1/4)^2-(3/4)^2}*4/20+{1-(8/8)^2-(0/8)^2}*8/20+{1-(1/8)^2-(7/8)^2}*8/2 0=26/160=0.1625(4)Gini={1-(3/5)^2-(2/5)^2}*5/20+{1-(3/7)^2-(4/7)^2}*7/20+[{1-(2/4)^2-(2/4)^2}*4/ 20]*2=8/25+6/35=0.4914(5)比较上面各属性的Gini值大小可知,车型划分Gini值0.1625最小,即使用车型属性更好。

2. (20分)考虑下表中的购物篮事务数据集。

(1) 将每个事务ID视为一个购物篮,计算项集{e},{b,d} 和{b,d,e}的支持度。

(2)使用(1)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。

(3)将每个顾客ID作为一个购物篮,重复(1)。

应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0)。

(4)使用(3)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。

答:(1)由上表计数可得{e}的支持度为8/10=0.8;{b,d}的支持度为2/10=0.2;{b,d,e}的支持度为2/10=0.2。

(2)c[{b,d}→{e}]=2/8=0.25; c[{e}→{b,d}]=8/2=4。

(完整word版)数据挖掘题目及答案

(完整word版)数据挖掘题目及答案

(完整word版)数据挖掘题⽬及答案⼀、何为数据仓库?其主要特点是什么?数据仓库与KDD的联系是什么?数据仓库是⼀个⾯向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,⽤于⽀持管理决策。

特点:1、⾯向主题操作型数据库的数据组织⾯向事务处理任务,各个业务系统之间各⾃分离,⽽数据仓库中的数据是按照⼀定的主题域进⾏组织的。

2、集成的数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加⼯、汇总和整理得到的,必须消除源数据中的不⼀致性,以保证数据仓库内的信息是关于整个企业的⼀致的全局信息。

3、相对稳定的数据仓库的数据主要供企业决策分析之⽤,⼀旦某个数据进⼊数据仓库以后,⼀般情况下将被长期保留,也就是数据仓库中⼀般有⼤量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。

4、反映历史变化数据仓库中的数据通常包含历史信息,系统记录了企业从过去某⼀时点(如开始应⽤数据仓库的时点)到⽬前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

所谓基于数据库的知识发现(KDD)是指从⼤量数据中提取有效的、新颖的、潜在有⽤的、最终可被理解的模式的⾮平凡过程。

数据仓库为KDD提供了数据环境,KDD从数据仓库中提取有效的,可⽤的信息⼆、数据库有4笔交易。

设minsup=60%,minconf=80%。

TID DATE ITEMS_BOUGHTT100 3/5/2009 {A, C, S, L}T200 3/5/2009 {D, A, C, E, B}T300 4/5/2010 {A, B, C}T400 4/5/2010 {C, A, B, E}使⽤Apriori算法找出频繁项集,列出所有关联规则。

解:已知最⼩⽀持度为60%,最⼩置信度为80%1)第⼀步,对事务数据库进⾏⼀次扫描,计算出D中所包含的每个项⽬出现的次数,⽣成候选1-项集的集合C1。

南开大学《数据挖掘》在线作业5

南开大学《数据挖掘》在线作业5

《数据挖掘》在线作业( )很费时,并且当数据集很大、缺失很多值时,该方法可能行不通。

A:人工填写缺失值方法B:全局常量填充C:自动填充D:删除参考选项:A数据仓库和OLAP工具基于多维数据模型。

该模型将数据看作( )形式。

A:数据立方体(data cube)B:整数C:离散D:不同参考选项:ADBSCAN在最坏情况下的时间复杂度是( )。

A:O(m)B:O(m2)C:O(log m)D:O(m*log m)参考选项:B( )可以用来把数据变换到多个粒度层。

例如,关于销售的数据挖掘模式除了在单个分店挖掘之外,还可以针对指定的地区或国家挖掘。

A:概念分层B:聚类C:数据变换D:数据归约参考选项:A以下属于可伸缩聚类算法的是( )。

A:CUREB:DENCLUEC:CLIQUED:OPOSSUM参考选项:A只有非零值才重要的二元属性被称作( )。

A:计数属性B:离散属性C:非对称的二元属性D:对称属性参考选项:C( )用替代的、较小的数据表示形式替换原数据。

A:维归约B:数量归约C:离散D:聚集参考选项:B下列( )不是将主观信息加入到模式发现任务中的方法。

A:与同一时期其他数据对比B:可视化C:基于模板的方法D:主观兴趣度量参考选项:A( )是KDD。

A:数据挖掘与知识发现B:领域知识发现C:文档知识发现D:动态知识发现参考选项:A( )通常以可变长度的字节串存储,并且为便于数据的引用,数据片段要相互链接或建立多维方式的索引。

A:文本数据B:多媒体数据C:时间数据D:空间数据参考选项:B设X={1,2,3}是频繁项集,则可由X产生( )个关联规则。

A:4B:5C:6D:7参考选项:C假定用于分析的数据包含属性age。

数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46 ,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。

数据挖掘习题及解答-完美版

数据挖掘习题及解答-完美版

Data Mining Take Home Exam学号: xxxx 姓名: xxx(1)计算整个数据集的Gini指标值。

(2)计算属性性别的Gini指标值(3)计算使用多路划分属性车型的Gini指标值(4)计算使用多路划分属性衬衣尺码的Gini指标值(5)下面哪个属性更好,性别、车型还是衬衣尺码?为什么?(3)=26/160=0.1625]*2=8/25+6/35=0.4914(5)比较上面各属性的Gini值大小可知,车型划分Gini值0.1625最小,即使用车型属性更好。

2. ((1) 将每个事务ID视为一个购物篮,计算项集{e},{b,d} 和{b,d,e}的支持度。

(2)使用(1)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。

(3)将每个顾客ID作为一个购物篮,重复(1)。

应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0)。

(4)使用(3)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。

答:(1)由上表计数可得{e}的支持度为8/10=0.8;{b,d}的支持度为2/10=0.2;{b,d,e}的支持度为2/10=0.2。

(2)c[{b,d}→{e}]=2/8=0.25; c[{e}→{b,d}]=8/2=4。

(3)同理可得:{e}的支持度为4/5=0.8,{b,d}的支持度为5/5=1,{b,d,e}的支持度为4/5=0.8。

(4)c[{b,d}→{e}]=5/4=1.25,c[{e}→{b,d}]=4/5=0.8。

3. (20分)以下是多元回归分析的部分R输出结果。

> ls1=lm(y~x1+x2)> anova(ls1)Df Sum Sq Mean Sq F value Pr(>F)x1 1 10021.2 10021.2 62.038 0.0001007 ***x2 1 4030.9 4030.9 24.954 0.0015735 **Residuals 7 1130.7 161.5> ls2<-lm(y~x2+x1)> anova(ls2)Df Sum Sq Mean Sq F value Pr(>F)x2 1 3363.4 3363.4 20.822 0.002595 **x1 1 10688.7 10688.7 66.170 8.193e-05 ***Residuals 7 1130.7 161.5(1)用F检验来检验以下假设(α = 0.05)H0: β1 = 0H a: β1≠ 0计算检验统计量;是否拒绝零假设,为什么?(2)用F检验来检验以下假设(α = 0.05)H0: β2 = 0H a: β2≠ 0计算检验统计量;是否拒绝零假设,为什么?(3)用F检验来检验以下假设(α = 0.05)H0: β1 = β2 = 0H a: β1和β2 并不都等于零计算检验统计量;是否拒绝零假设,为什么?解:(1)根据第一个输出结果F=62.083>F(2,7)=4.74,p<0.05,所以可以拒绝原假设,即得到不等于0。

大工21春《数据挖掘》在线作业1-学习资料(答案)

大工21春《数据挖掘》在线作业1-学习资料(答案)

大工21春《数据挖掘》在线作业1试卷总分:100 得分:100一、单选题 (共 10 道试题,共 50 分)1.下面标识符中不是Python语言的关键字的是:()【A】.float【B】.except【C】.continue【D】.global【正确答案】:A2.以下不属于Python的关键字的是()【A】.mark【B】.del【C】.return【D】.global【正确答案】:A3.Python中定义函数的关键字是()【A】.def【B】.define【C】.function【D】.defunc【正确答案】:A4.以下选项对Python文件操作描述错误的是()【A】.当文件以文本方式打开时,读写会按照字节流方式进行【B】.Python能以文本和二进制两种方式处理文件【C】.文件使用结束后要用close()方法关闭,释放文件的使用授权【D】.Python能通过内置的open()函数打开一个文件进行操作【正确答案】:A5.下列不是Python对文件进行读操作的方法是()【A】.readtext【B】.readlines【C】.read【D】.readline【正确答案】:A6.Python中操作集合时,可以使用哪个函数来对集合进行增加元素的操作()【A】.append【B】.put【C】.pop【D】.add【正确答案】:D7.关于Python中异常处理,以下描述错误的是()【A】.异常语句可以与else和finally关键字配合使用【B】.程序异常发生后经过异常处理,程序可以继续执行【C】.Python通过try、except等关键字提供异常处理功能【D】.编程语言中的异常和错误完全是相同的概念【正确答案】:D8.以下那个关键字不是异常处理语句的关键字()【A】.elif【B】.except【C】.try【D】.finally【正确答案】:A9.以下选项中不是Python关键字的是()【A】.while【B】.except【C】.in【D】.do【正确答案】:D10.以下选项中用来捕获特定类型异常的关键字是()【A】.do【B】.pass【C】.while【D】.except【正确答案】:D二、判断题 (共 10 道试题,共 50 分)11.在Python3.5中,集合类型的各个元素之间存在先后顺序。

大数据挖掘技术练习(习题卷11)

大数据挖掘技术练习(习题卷11)

大数据挖掘技术练习(习题卷11)说明:答案和解析在试卷最后第1部分:单项选择题,共51题,每题只有一个正确答案,多选或少选均不得分。

1.[单选题]目前数据分析和数据挖掘面临的挑战性问题不包括( )。

A)数据类型的多样化B)高维度数据C)数据稀少D)数据挖掘结果的表示和可视化2.[单选题]OLAP系统按照其数据在存储器中的存储格式可以分为()三种类型。

A)关系OLAP、对象 OLAP、混合型OLAPB)关系 OLAP、混合型OLAP、多维OLAPC)对象 OLAP、混合型 OLAP、多维OLAPD)关系OLAP、对象 OLAP、多维OLAP3.[单选题]数据挖掘的英文简写是( )A)DKDB)KDDC)DMD)DA4.[单选题]在集团公司四维十轮网络质量评估体系中,下列哪项不是评估家庭业务感知的指标:A)家宽网页打开成功率 (%)B)139邮箱web登录成功率(%)C)家宽网页平均首屏时延(s)D)家宽视频首帧显示时长(s)5.[单选题]已知:d={123:'Tom', 'age':18, 'score':[91,92,93]}print(d[123][1],d['age'],d['score'][-1])输出的结果是:A)T,18,91B)o,18,91C)T,18,92D)o,18,936.[单选题]()打开了自动驾驶的天花板A)驾驶员驾驶技术提升B)汽车刹车性能增强C)人工智能的理论和实践的突破D)汽车制造商转型7.[单选题]人工智能是一种()A)让人觉得不可思议的计算机程序B)与人类思考方式相似、行为相似的计算机程序C)会学习的计算机程序D)根据对环境的感知,做出合理的行动,并获得最大收益的计算机程序8.[单选题]P(22,1,42,10),Q(20,0,36,8)为两个向量对象,这两个对象的欧几里得距离是( )。

南开大学《数据挖掘》在线作业

南开大学《数据挖掘》在线作业

《数据挖掘》在线作业( )的首要挑战是设法解决如何在二维显示上可视化高维空间。

A:数据可视化技术B:几何投影技术C:基于图符的可视化技术D:像素可视化技术参考选项:B下面不属于创建新属性的相关方法的是( )。

A:特征提取B:特征修改C:映射数据到新的空间D:特征构造参考选项:B一个( )只有两个状态:0或1,0表示该变量为空,1表示该变量存在。

A:二元变量B:标称变量C:数值变量D:区间变量参考选项:A( )是一种数据变换策略,对数据进行汇总或聚集。

例如,可以聚集日销售数据来计算月和年销售量。

通常,这一步用来为多个抽象层的数据分析构造数据立方体。

A:离散化B:属性构造C:聚集D:规范化参考选项:C决策树学习:决策树算法对数据处理过程中,将数据按( )结构分成若干分枝形成决策树,从根到树叶的每条路径创建一个规则。

A:树状B:网状C:星形D:雪花形参考选项:A假设属性income的最小-最大值分别是12000元和98000元。

利用最小-最大规范化的方法将属性的值映射到0至1的范围内。

对属性income的73600元将被变换为( )。

A:0.821B:1.224C:1.458D:0.716参考选项:D( )是一种属性,其可能的值之间具有有意义的序或秩评定(ranking),但是相继值之间的差是未知的。

A:标称属性B:序数属性C:数值属性D:离散属性参考选项:B检测一元正态分布中的离群点,属于异常检测中的基于( )的离群点检测。

A:统计方法B:邻近度C:密度D:聚类技术参考选项:A( )是定量的,是可度量的量,用整数或实数值表示,也可以是区间标度的或比率标度的。

A:标称属性B:序数属性C:数值属性D:二元属性参考选项:C为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?( )A:探索性数据分析B:建模描述C:预测建模D:寻找模式和规则参考选项:B关于OLAP和OLTP的说法,下列不正确的是( )。

数据挖掘第二次作业

数据挖掘第二次作业

-----WORD格式--可编辑--专业资料-----数据挖掘第二次作业第一题:1.a) Compute the Information Gain for Gender, Car Type and Shirt Size.b) Construct a decision tree with Information Gain.答案:a)因为class分为两类:C0和C1,其中C0的频数为10个,C1的频数为10,所以class元组的信息增益为Info(D)==11.按照Gender进行分类:(D)==0.971InfogenderGain(Gender)=1-0.971=0.0292.按照Car Type进行分类Info(D)=carType=0.314 Gain(Car Type)=1-0.314=0.6863.按照Shirt Size进行分类:(D)==0.988InfoshirtSizeGain(Shirt Size)=1-0.988=0.012b)由a中的信息增益结果可以看出采用Car Type进行分类得到的信息增益最大,所以决策树为:第二题:2. (a) Design a multilayer feed-forward n eural network (one hidden layer) f or the data set in Q1. Label the nodes in the input and output layers.(b) Using the neural network obtained above, show the weight values after one iteration of the back propagation algorithm, given the training instance “(M,Family, Small)". Indicate your initial weight values and biases and the learning rate used.a)Car Type?Shirt Size?C0C1familySportluxuryC0C1smallmedium,large, extra large1 23 4 5 6 7 8 9101112x11x12x21x22x23x31x32x33x34输入层隐藏层输出层b) 由a 可以设每个输入单元代表的属性和初始赋值X11 X12X21X22X23X31X32X33X34F M Family Sports Luxury Small Medium Large Extra Large0 1 1 0 0 1 0 0 0由于初始的权重和偏倚值是随机生成的所以在此定义初始值为:W1,10 W1,11W2,10W2,11W3,10W3,11W4,10W4,11W5,10W5,110.2 0.2 -0.2 -0.1 0.4 0.3 -0.2 -0.1 0.1 -0.1W6,10 W6,11W7,10W7,11W8,10W8,11W9,10W9,11W10,12W11,120.1 -0.2 -0.4 0.2 0.2 0.2 -0.1 0.3 -0.3 -0.1θ10 θ11θ12-0.2 0.2 0.3 净输入和输出:单元 j 净输入 Ij 输出Oj10 0.1 0.5211 0.2 0.5512 0.089 0.48每个节点的误差表:单元j Errj10 0.0089 11 0.0030 12 -0.12权重和偏倚的更新: W1,10W1,11W2,10W2,11W3,10W3,11W4,10W4,11W5,10W5,110.201 0.198 -0.211 -0.099 0.4 0.308 -0.202 -0.098 0.101 -0.100 W6,10W6,11W7,10W7,11W8,10W8,11W9,10W9,11W10,12W11,120.092 -0.211 -0.400 0.198 0.201 0.190 -0.110 0.300 -0.304 -0.099 θ10θ11 θ12 -0.287 0.1790.344第三题:3.a) Suppose the fraction of undergraduate students who smoke is 15% and thefraction of graduate students who smoke is 23%. If o ne-fifth of the college students are graduate students and the rest are undergraduates, what is the probability that a student who smokes is a graduate student? b) Given the information i n part (a), i s a randomly chosen college student morelikely to be a graduate or undergraduate student? c) Suppose 30% of the graduate students live i n a dorm but only 10% of theundergraduate students live in a dorm. If a student smokes and lives in the dorm, is he or she more likely to be a graduate or undergraduate student? You can assume independence between students who live i n a dorm and those who smoke.答:a) 定义:A={A 1 ,A 2}其中A 1表示没有毕业的学生,A 2表示毕业的学生,B 表示抽烟 则由题意而知:P(B|A 1)=15% P(B|A 2)=23% P(A 1)= P(A 2)=则问题则是求P(A 2|B)由166.0)()|B ()()|B (B 2211A P A p A P A P P则 277.0166.02.023.0)()()|(|222B P A P A B P B A P b) 由a 可以看出随机抽取一个抽烟的大学生,是毕业生的概率是0.277,未毕业的学生是0.723,所以有很大的可能性是未毕业的学生。

南开19春学期(1709、1803、1809、1903)《数据挖掘》在线作业-2(答案)

南开19春学期(1709、1803、1809、1903)《数据挖掘》在线作业-2(答案)

南开19春学期(1709、1803、1809、1903)《数据挖掘》在线作业-2一、单选题共20题,40分1、( )用替代的、较小的数据表示形式替换原数据。

A维归约B数量归约C离散D聚集【南开】答案是:B2、只有非零值才重要的二元属性被称作( )。

A计数属性B离散属性C非对称的二元属性D对称属性【南开】答案是:C3、职位可以按顺序枚举,对于教师有:助教、讲师、副教授、教授。

职位属性是( )。

A标称属性B序数属性C数值属性D二元属性【南开】答案是:B4、( )去掉数据中的噪声,这类技术包括分箱、回归和聚类。

A光滑B聚集C规范化D属性构造【南开】答案是:A5、在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为( )。

A基于类的排序方案B基于规则的排序方案C基于度量的排序方案D基于规格的排序方案【南开】答案是:B6、分位数是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。

如:4-分位数是( )个数据点,它们把数据分布划分成4个相等的部分,使得每部分表示数据分布的四分之一。

A1B2C3D4【南开】答案是:C7、决策树学习:决策树算法对数据处理过程中,将数据按( )结构分成若干分枝形成决策树,从根到树叶的每条路径创建一个规则。

A树状B网状C星形D雪花形【南开】答案是:A8、以下属于可伸缩聚类算法的是( )。

ACUREBDENCLUECCLIQUEDOPOSSUM【南开】答案是:A9、( )将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。

AMIN(单链)BMAX(全链)C组平均DWard方法【南开】答案是:C10、如果规则集R中不存在两条规则被同一条记录触发,则称规则集R中的规则为( )。

A无序规则B穷举规则C互斥规则D有序规则【南开】答案是:C11、( )是KDD。

A数据挖掘与知识发现B领域知识发现C文档知识发现D动态知识发现【南开】答案是:A12、在有关数据仓库测试,下列说法不正确的是( )。

(完整版)数据挖掘离线作业

(完整版)数据挖掘离线作业

浙江大学远程教育学院《数据挖掘》课程作业姓名:学号:年级:学习中心:—————————————————————————————第一章引言一、填空题(1)数据库中的知识挖掘(KDD)包括以下七个步骤:数据清理、数据集成、数据选择、数据交换、数据挖掘、模式评估和知识表示(2)数据挖掘的性能问题主要包括:算法的效率、可扩展性和并行处理(3)当前的数据挖掘研究中,最主要的三个研究方向是:统计学、数据库技术和机器学习(4)孤立点是指:一些与数据的一般行为或模型不一致的孤立数据二、简答题(1)什么是数据挖掘?答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。

(2)一个典型的数据挖掘系统应该包括哪些组成部分?答:一个典型的数据挖掘系统应该包括以下部分:1、数据库、数据仓库或其他信息库,2、数据库或数据仓库服务器,3、知识库,4、数据挖掘引擎,5、模式评估魔磕,6图形用户界面。

(3)Web挖掘包括哪些步骤?答:数据清理:(这个可能要占用过程60%的工作量)、数据集成、将数据存入数据仓库、建立数据立方体、选择用来进行数据挖掘的数据、数据挖掘(选择适当的算法来找到感兴趣的模式)、展现挖掘结果、将模式或者知识应用或者存入知识库。

(4)请列举数据挖掘应用常见的数据源。

(或者说,我们都在什么样的数据上进行数据挖掘)答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。

其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象——关系数据库、异种数据库和遗产数据库、文本数据库和万维网等。

一、填空题(1)两个文档向量d1和d2的值为:d1= (1, 0, 3, 0, 2),d2 = (3, 2, 0, 0, 1),则它们的余弦相似度为:5/13(2)数据离散度的常用度量包括极差、分位、百分位数、四分位数极差和标准差(3)一种常用的确定离群点的简单方法是:出落在至少高于第三个四份位数或低于第一个四分位数1.5xIQR处的值。

原《数据挖掘》习题

原《数据挖掘》习题

ch11.讨论下列每项活动是否是数据挖掘任务:(fgh是)(a) 根据性别划分公司的顾客。

(b) 根据可赢利性划分公司的顾客。

(c) 计算公司的总销售额。

(d) 按学生的标识号对学生数据库排序。

(e) 预测掷一对骰子的结果。

使用历史记录预测某公司未来的股票价格。

(f)(g) 监视病人心率的异常变化。

(h) 监视地震活动的地震波。

提取声波的频率。

(i)2. (ch1)数据挖掘可以在很多数据源上进行,如关系数据库,空间数据库,多媒体数据库,文本数据库等。

3. (ch1) 数据挖掘一定可以得到有趣的强关联规则。

4. (ch1) 为了提高挖掘质量,通常要进行数据预处理,包括数据清理、集成、选择、变换等。

5. (ch5){发烧,上呼吸道感染}是(2)项集6.企业要建立预测模型,需准备建模数据集,以下四条描述建模数据集正确的是( B )。

A 数据越多越好B 尽可能多的适合的数据C数据越少越好D 以上三条都正确7. 数据挖掘算法以( D )形式来组织数据。

A 行 B列 C 记录 D 表格Ch28. (ch2)假定用于分析的数据包含属性age。

数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70,求:1)使用按箱平均值平滑对以上数据进行平滑,箱的深度是3。

解释你的步骤。

2)使用按箱边界值平滑对以上数据进行平滑,箱的深度是3。

解释你的步骤。

7、P98 3.4(ch3)假定大学的数据仓库包含4个维{student学生、course课程、semester学期、instructor教师},2个度量count和avg_grade。

在最低的概念层(例如对于给定的学生、课程、学期和教师组合),度量avg_grade存放学生的实际成绩。

为数据仓库画出雪花模式图8、P98 3.5(ch3)和game,2假定数据仓库包含4个维date,spectator,location个度量count和charge。

东北财经大学《大数据——概念、方法与应用》在线作业2-0030

东北财经大学《大数据——概念、方法与应用》在线作业2-0030

东财《大数据——概念、方法与应用》在线作业2-0030
从商业层面上看,数据挖掘是一类( )数据分析方法。

A:浅层次的
B:深层次的
C:多元化的
D:多方法的
参考选项:B
偏差检测的基本方法是寻找( )之间有意义的差别。

A:期望值与预测值
B:预测值与参照值
C:观测值与参照值
D:期望值与参照值
参考选项:C
在小数据时代,当样本数量达到某个值之后,我们从个体上得到的信息会( )。

A:不确定
B:不变
C:越多
D:越少
参考选项:D
( )是一些管理方面的最佳实践。

A:数据质量和管理
B:数据挖掘
C:可视化分析
D:预测性分析
参考选项:A
大数据的核心是( )。

A:预测
B:匿名化
C:规模化
D:告知与许可
参考选项:A
小数据时代,( )成为现代社会、现代测量领域的主心骨。

A:统计分析
B:主观采样
C:随机采样
D:大数据分析
参考选项:C
1。

数据挖掘作业(第七章)

数据挖掘作业(第七章)

第4章聚类分析4.1 什么是聚类?简单描述如下的聚类方法:划分方法,层次方法,基于密度的方法,基于模型的方法。

为每类方法给出例子。

4.2 假设数据挖掘的任务是将如下的8个点(用(x,y)代表位置)聚类为三个簇。

A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)。

距离函数是Euclidean 函数。

假设初始我们选择A1,B1和C1为每个簇的中心,用k-means 算法来给出(a) 在第一次循环执行后的三个簇中心;(b) 最后的三个簇中心及簇包含的对象。

4.3 聚类被广泛地认为是一种重要的数据挖掘方法,有着广泛的应用。

对如下的每种情况给出一个应用例子:(a) 采用聚类作为主要的数据挖掘方法的应用;(b) 采用聚类作为预处理工具,为其它数据挖掘任务作数据准备的应用。

4.4 假设你将在一个给定的区域分配一些自动取款机以满足需求。

住宅区或工作区可以被聚类以便每个簇被分配一个ATM。

但是,这个聚类可能被一些因素所约束,包括可能影响A TM 可达性的桥梁,河流和公路的位置。

其它的约束可能包括对形成一个区域的每个地域的A TM 数目的限制。

给定这些约束,怎样修改聚类算法来实现基于约束的聚类?4.5 给出一个数据集的例子,它包含三个自然簇。

对于该数据集,k-means(几乎总是)能够发现正确的簇,但二分k-means不能。

4.6 总SSE是每个属性的SSE之和。

如果对于所有的簇,某变量的SSE都很低,这意味什么?如果只对一个簇很低呢?如果对所有的簇都很高?如果仅对一个簇高呢?如何使用每个变量的SSE信息改进聚类?4.7 使用基于中心、邻近性和密度的方法,识别图4-19中的簇。

对于每种情况指出簇个数,并简要给出你的理由。

注意,明暗度或点数指明密度。

如果有帮助的话,假定基于中心即K均值,基于邻近性即单链,而基于密度为DBSCAN。

图4-19 题4.7图4.8 传统的凝聚层次聚类过程每步合并两个簇。

大工21春《数据挖掘》在线作业3-(辅导资料)-答案

大工21春《数据挖掘》在线作业3-(辅导资料)-答案

大工21春《数据挖掘》在线作业3试卷总分:100 得分:100一、单选题 (共 10 道试题,共 50 分)1.下面变量名称命名合法的是:()<-A.->_tempStr<-B.->is<-C.->2018python<-D.->123Python【-参考.选择-】:A2.下面不能用来作为变量名称的是:()<-A.->list<-B.->_1ab<-C.->not<-D.->a1b2【-参考.选择-】:C3.下列标识符中哪个是不合法的?()<-A.->40temp<-B.->tempStr<-C.->list<-D.->_124【-参考.选择-】:A4.遍历循环for语句中,不可以遍历的结构是()<-A.->字符串<-B.->元组<-C.->数字类型<-D.->字典【-参考.选择-】:C5.python中内置了round函数来进行小数的四舍五入操作,请选择round(3.1415923, 4)对应的结果:()<-A.->3.142<-B.->3.14<-C.->3.1416<-D.->3.0【-参考.选择-】:C6.以下选项中描述错误的是:()<-A.->Python是解释性语言<-B.->Python是跨平台语言<-C.->Python是脚本语言。

大工20秋《数据挖掘》大作业

大工20秋《数据挖掘》大作业

大工20秋《数据挖掘》大作业During this semester。

I have gained a lot from the course of data mining。

In today's society。

the value of data is self-XXX analyzing。

mining。

and modeling data。

we can predict users' XXX design ideas for enterprises。

XXX。

XXX。

the value of data is XXX。

XXX summarize massive and complex data and make data create value is related to the course of data mining。

Data mining is implemented based on the Python language。

Through learning this programming language。

we have gone through a systematic learning from basic concepts to specific syntax and framework。

Finally。

XXX is a course with strong XXX course。

I have gained a brand XXX of the value of data。

I believe that I will use it more in the future.1.XXX and Python XXX1.XXX:KNN (K-XXX。

The input is also a sample feature value vector and the corresponding class label。

大工21秋《数据库与数据挖掘》在线作业1[71742]

大工21秋《数据库与数据挖掘》在线作业1[71742]

大工21秋《数据库与数据挖掘》在线作业1[71742]作业要求完成一份800字以上的文档,用于解答《数据库与数据挖掘》在线作业1。

以下是文档的内容。

作业一作业一要求回答以下问题:1. 数据库和数据挖掘的定义和关系是什么?2. 数据库管理系统(DBMS)的主要功能有哪些?3. 数据挖掘的主要技术包括哪些?数据库和数据挖掘的定义和关系数据库是一种组织和存储数据的方式和工具,用于高效地管理大量数据。

数据挖掘是从大量数据中发现模式和规律,并利用这些模式和规律进行数据分析和预测的过程。

数据库和数据挖掘密切相关,数据库提供了数据存储和管理的基础,而数据挖掘则通过分析数据库中的数据来发现有价值的信息。

数据库管理系统(DBMS)的主要功能数据库管理系统(DBMS)是一种软件工具,用于管理和操作数据库。

其主要功能包括:- 数据定义语言(DDL):用于定义和管理数据库的结构,包括创建表、定义字段、设置约束等。

- 数据操作语言(DML):用于对数据库中的数据进行增、删、改、查操作,如插入新数据、更新数据等。

- 数据查询语言(DQL):用于查询和检索数据库中的数据,如使用SQL语句进行数据查询操作。

- 数据库事务管理:提供事务处理支持,保证数据库操作的一致性、原子性、隔离性和持久性。

- 数据库安全管理:包括用户权限管理、数据加密等安全措施,保护数据库的安全性和机密性。

- 数据库性能优化:通过索引、查询优化等技术提高数据库的性能和响应速度。

数据挖掘的主要技术数据挖掘的主要技术包括:- 分类:用于根据已知的属性值将数据分成不同的类别。

- 预测:通过建立数学模型来预测未来的趋势和结果。

- 聚类:将数据按照某种相似度或距离度量划分成不同的簇。

- 关联规则挖掘:通过分析数据集中项之间的关联关系,发现频繁项集和关联规则。

- 异常检测:通过识别与已知模式不符合的数据点,检测出异常情况。

- 文本挖掘:从大量的文本数据中提取信息和知识。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘您的本次作业分数为:95分单选题1.【第001章】孤立点挖掘适用于下列哪种场合?A 目标市场分析B 购物篮分析C 模式识别D 信用卡欺诈检测正确答案:D单选题2.【第01章】数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于()。

A 所涉及的算法的复杂性B 所涉及的数据量C 计算结果的表现形式D 是否使用了人工智能技术正确答案:B单选题3.【第01章】帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是()。

A 关联分析B 分类和预测C 聚类分析D 孤立点分析E 演变分析正确答案:C单选题4.【第01章】假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是()。

A 关联分析B 分类和预测C 孤立点分析D 演变分析E 概念描述正确答案:E单选题5.【第01章】下面的数据挖掘的任务中,()将决定所使用的数据挖掘功能。

A 选择任务相关的数据B 选择要挖掘的知识类型C 模式的兴趣度度量D 模式的可视化表示正确答案:B单选题6.【第01章】根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是()。

A 关联分析B 分类和预测C 演变分析D 概念描述正确答案:B单选题7.【第01章】下列几种数据挖掘功能中,()被广泛的应用于股票价格走势分析。

A 关联分析B 分类和预测C 聚类分析D 演变分析正确答案:D单选题8.【第01章】下列几种数据挖掘功能中,()被广泛的用于购物篮分析。

A 关联分析B 分类和预测C 聚类分析D 演变分析正确答案:A单选题9.【第02章】字段Size = {small, medium, large}属于那种属性类型?A 标称属性B 二元属性C 序数属性D 数值属性正确答案:C单选题10.【第02章】计算一个单位的平均工资,使用哪个中心趋势度量将得到最合理的结果?A 算术平均值B 截尾均值C 中位数D 众数正确答案:B单选题11.【第02章】字段Hair_color = {auburn, black, blond, brown, grey, red, white}属于那种属性类型?A 标称属性B 二元属性C 序数属性D 数值属性正确答案:A单选题12.【第02章】下列哪种可视化方法可用于发现多维数据中属性之间的两两相关性?A 空间填充曲线B 散点图矩阵C 平行坐标D 圆弓分割正确答案:B单选题13.【第03章】数据的噪声是指()。

A 孤立点B 空缺值C 测量变量中的随即错误或偏差D 数据变换引起的错误正确答案:C单选题14.【第03章】()通过将属性域划分为区间,从而减少给定连续值的个数。

A 概念分层B 离散化C 分箱D 直方图正确答案:B单选题15.【第03章】数据归约的目的是()。

A 填补数据种的空缺值B 集成多个数据源的数据C 得到数据集的压缩表示D 规范化数据正确答案:C单选题16.【第03章】进行数据规范化的目的是()。

A 去掉数据中的噪声B 对数据进行汇总和聚集C 使用概念分层,用高层次概念替换低层次“原始”数据D 将属性按比例缩放,使之落入一个小的特定区间正确答案:D单选题17.【第03章】下面哪种数据预处理技术可以用来平滑数据,消除数据噪声?A 数据清理B 数据集成C 数据变换D 数据归约正确答案:A单选题18.【第03章】哪种数据变换的方法将数据沿概念分层向上汇总?A 平滑B 聚集C 数据概化D 规范化正确答案:C多选题19.【第03章】下面哪些问题是我们进行数据预处理的原因?A 数据中的空缺值B 噪声数据C 数据中的不一致性D 数据中的概念分层正确答案:ABC多选题20.【第03章】以下哪些原因可能引起空缺值?正确答案:ACDA 设备异常B 命名规则的不一致C 与其他已有数据不一致而被删除D 在输入时,有些数据因为得不到重视而没有被输入正确答案:ACD多选题21.【第03章】下列哪些是数据变换可能涉及的内容?A 数据压缩B 数据概化C 维归约D 规范化正确答案:BD多选题22.【第03章】数据清理的目的是处理数据中的()。

A 空缺值B 噪声数据C 不一致数据D 敏感数据正确答案:ABC单选题23.【第04章】平均值函数avg()属于哪种类型的度量?A 分布的B 代数的C 整体的D 混合的正确答案:B单选题24.【第04章】哪种OLAP操作可以让用户在更高的抽象层,更概化的审视数据?A 上卷B 下钻C 切块D 转轴正确答案:A单选题25.【第04章】下面的数据操作中,哪些操作不是多维数据模型上的OLAP操作?A 上卷(roll-up)B 选择(select)C 切片(slice)D 转轴(pivot)正确答案:B单选题26.【第04章】存放最低层汇总的方体称为()。

A 顶点方体B 方体的格C 基本方体D 维正确答案:C单选题27.【第04章】以下哪个范围是数据仓库的数据库规模的一个合理范围?A 1-100MB 100M-10GC 10-1000GD 100GB-数TB正确答案:D多选题28.【第04章】以下哪些是数据仓库的主要应用?A 信息处理B 互联网搜索C 分析处理D 数据挖掘正确答案:ACD多选题29.【第04章】数据仓库的三层架构主要包括以下哪三部分?A 数据源B 数据仓库服务器C OLAP服务器D 前端工具正确答案:BCD多选题30.【第04章】从结构的角度看,数据仓库模型包括以下几类()。

A 企业仓库B 数据集市C 虚拟仓库D 信息仓库正确答案:ABC多选题31.【第04章】OLAP系统和OLTP系统的主要区别包括()。

A OLTP系统主要用于管理当前数据,而OLAP系统主要存放的是历史数据B 在数据的存取上,OLTP系统比OLAP系统有着更多的写操作C 对OLTP系统上的数据访问量往往比对OLAP系统的数据访问量要大得多D OLAP系统中往往存放的是汇总的数据,而OLTP系统中往往存放详细的数据正确答案:ABD单选题32.【第08章】下面哪种分类方法是属于神经网络学习算法?A 判定树归纳B 贝叶斯分类C 后向传播分类D 基于案例的推理正确答案:C单选题33.【第08章】下列哪个描述是正确的?A 分类和聚类都是有指导的学习B 分类和聚类都是无指导的学习C 分类是有指导的学习,聚类是无指导的学习D 分类是无指导的学习,聚类是有指导的学习正确答案:C单选题34.【第08章】下面哪种分类方法是属于统计学的分类方法?A 判定树归纳B 贝叶斯分类C 后向传播分类D 基于案例的推理正确答案:B单选题35.【第10章】以下哪个指标不是表示对象间的相似度和相异度?A Euclidean距离B Manhattan距离C Eula距离D Minkowski距离正确答案:C单选题36.【第10章】以下哪种聚类方法可以发现任意形状的聚类?A 划分的方法B 基于模型的方法C 基于密度的方法D 层次的方法正确答案:C单选题37.【第10章】下面那种数据挖掘方法可以用来检测孤立点?A 概念描述B 分类和预测C 聚类分析D 演变分析正确答案:C单选题38.【第6 7章】规则:age(X,”19-25”) ∧buys(X, “popcorn”) => buys(X, “coke”)是一个()。

A 单维关联规则B 多维关联规则C 混合维关联规则D 不是一个关联规则正确答案:B单选题39.【第6 7章】根据关联分析中所处理的值类型,可以将关联规则分类为()。

A 布尔关联规则和量化关联规则B 单维关联规则和多维关联规则C 单层关联规则和多层关联规则D 简答关联规则和复杂关联规则正确答案:A单选题40.【第6 7章】下列几种数据挖掘功能中,()被广泛的用于购物篮分析。

A 关联分析B 分类和预测C 聚类分析D 演变分析正确答案:A单选题41.【第6 7章】支持度(support)是衡量兴趣度度量()的指标。

A 实用性B 确定性C 简洁性D 新颖性正确答案:A单选题42.【第6 7章】置信度(confidence)是衡量兴趣度度量()的指标。

A 简洁性B 确定性C 实用性D 新颖性正确答案:B多选题43.【第6 7章】Apriori算法所面临的主要的挑战包括()。

正确答案:BCDA 会消耗大量的内存B 会产生大量的候选项集C 对候选项集的支持度计算非常繁琐D 要对数据进行多次扫描正确答案:BCD多选题44.【第6 7章】根据关联分析中所涉及的抽象层,可以将关联规则分类为()。

A 布尔关联规则B 单层关联规则C 多维关联规则D 多层关联规则正确答案:BD多选题45.【第6 7章】根据关联分析中所涉及的数据维,可以将关联规则分类为()。

A 布尔关联规则B 单维关联规则C 多维关联规则D 多层关联规则正确答案:BC加入错题集关闭窗体底端。

相关文档
最新文档