武汉大学研究生课程-数据挖掘-2015级研究生试题

合集下载

数据挖掘试题参考答案

数据挖掘试题参考答案

大学课程《数据挖掘》试题参考答案范围:∙ 1.什么是数据挖掘?它与传统数据分析有什么区别?定义:数据挖掘(Data Mining,DM)又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。

数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。

区别:(1)数据挖掘的数据源与以前相比有了显著的改变;数据是海量的;数据有噪声;数据可能是非结构化的;(2)传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在一定意义上是假设驱动的;与之相反,数据挖掘在一定意义上是发现驱动的,模式都是通过大量的搜索工作从数据中自动提取出来。

即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。

在缺乏强有力的数据分析工具而不能分析这些资源的情况下,历史数据库也就变成了“数据坟墓”-里面的数据几乎不再被访问。

也就是说,极有价值的信息被“淹没”在海量数据堆中,领导者决策时还只能凭自己的经验和直觉。

因此改进原有的数据分析方法,使之能够智能地处理海量数据,即演化为数据挖掘。

∙ 2.请根据CRISP-DM(Cross Industry Standard Process for Data Mining)模型,描述数据挖掘包含哪些步骤?CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段.1: business understanding: 即商业理解. 在第一个阶段我们必须从商业的角度上面了解项目的要求和最终目的是什么. 并将这些目的与数据挖掘的定义以及结果结合起来.2.data understanding: 数据的理解以及收集,对可用的数据进行评估.3: data preparation: 数据的准备,对可用的原始数据进行一系列的组织以及清洗,使之达到建模需求.4:modeling: 即应用数据挖掘工具建立模型.5:evaluation: 对建立的模型进行评估,重点具体考虑得出的结果是否符合第一步的商业目的.6: deployment: 部署,即将其发现的结果以及过程组织成为可读文本形式.(数据挖掘报告)∙ 3.请描述未来多媒体挖掘的趋势随着多媒体技术的发展,人们接触的数据形式不断地丰富,多媒体数据库的日益增多,原有的数据库技术已满足不了应用的需要,人们希望从这些媒体数据中得到一些高层的概念和模式,找出蕴涵于其中的有价值的知识。

(完整版)数据挖掘_概念和技术[第三版]部分习题答案解析

(完整版)数据挖掘_概念和技术[第三版]部分习题答案解析

1.4 数据仓库和数据库有何不同?有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。

它用表组织数据,采用ER数据模型.相似:它们都为数据挖掘提供了源数据,都是数据的组合.1。

3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。

答:特征化是一个目标类数据的一般特性或特性的汇总。

例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量.区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较.最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。

关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件.例如,一个数据挖掘系统可能发现的关联规则为:major(X,“computing science”) ⇒ owns(X, “personal computer”)[support=12%, confidence=98%] 其中,X 是一个表示学生的变量。

这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度).分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

数据挖掘汇总(题库含答案)

数据挖掘汇总(题库含答案)

单选
单选 单选 单选
单选
单选 单选 单选 单选 单选
关于OLAP和OLTP的说法,下列不正确的是: ()
A
如果规则集R中不存在两条规则被同一条记录触发, 则称规则集R中的规则为()
C
通过聚集多个分类器的预测来提高分类准确率的技术 称为 ()
A
简单地将数据对象集划分成不重叠的子集,使得每个 数据对象恰在一个子集中,这种聚类类型称作( )
在抽样方法中,当合适的样本容量很难确定时,可以 使用的抽样方法是: ()
D
17 15155460
单选
关于基本数据的元数据是指: ()
D
18 15155460
19 15155460 20 15155460 21 15155460
22 15155461
23 15155461 24 15155461 25 15155461 26 15155461 27 15155461
多选
关于TCP协议,描述正确的是哪些?
A;C
多选
多选 多选 多选 多选
下面SNMP协议,下面哪两个表述是正确的?
A;D
TD-SCDMA系统中功率控制步长可为
A;B;C
通过数据挖掘过程所推倒出的关系和摘要经常被称 为:()
A;B
以下哪些学科和数据挖掘有密切联系?()
A;D
在聚类分析当中,( 簇。
)等技术可以处理任意形状的 A;D
)的时候,
A
BIRCH是一种( )
B
下面列出的条目中,哪些是数据仓库的基本特征: A;C;D
下面哪些属于可视化高维数据技术 ()
A;B;C;E
对于OSPF协议,你认为哪些是正确的?

数据挖掘概念与技术_课后题答案汇总汇总

数据挖掘概念与技术_课后题答案汇总汇总

数据挖掘——概念概念与技术Data MiningConcepts and T echniques习题答案第1章引言1.1 什么是数据挖掘?在你的回答中,针对以下问题:1.2 1.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。

解答:�特征化是一个目标类数据的一般特性或特性的汇总。

例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade pointaversge)的信息,还有所修的课程的最大数量。

�区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如,具有高 GPA 的学生的一般特性可被用来与具有低 GPA 的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓,就像具有高 GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。

�关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing s cience”) ⇒ owns(X, “personalcomputer”) [support=12%, confid ence=98%]其中,X 是一个表示学生的变量。

这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。

�分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

它们的相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。

�聚类分析的数据对象不考虑已知的类标号。

《数据挖掘》试题与答案

《数据挖掘》试题与答案

一、解答题(满分30 分,每题 5 分)1.如何理解数据发掘和知识发现的关系?请详尽论述之第一从数据源中抽取感兴趣的数据,并把它组织成适合发掘的数据组织形式;而后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到公司的智能系统中。

知识发现是一个指出数据中有效、崭新、潜伏的、有价值的、一个不行忽略的流程,其最终目标是掌握数据的模式。

流程步骤:先理解要应用的领域、熟习有关知识,接着成立目标数据集,并专注所选择的数据子集;再作数据预办理,剔除错误或不一致的数据;而后进行数据简化与变换工作;再经过数据发掘的技术程序成为模式、做回归剖析或找出分类模型;最后经过解说和评论成为实用的信息。

2.时间序列数据发掘的方法有哪些,请详尽论述之时间序列数据发掘的方法有:1)、确立性时间序列展望方法 : 对于安稳变化特点的时间序列来说,假定未来行为与此刻的行为有关,利用属性此刻的值展望未来的值是可行的。

比如,要展望下周某种商品的销售额,能够用近来一段时间的实质销售量来成立展望模型。

2)、随机时间序列展望方法 :经过成立随机模型,对随机时间序列进行剖析,能够展望未来值。

若时间序列是安稳的,能够用自回归(Auto Regressive,简称AR) 模型、挪动回归模型(Moving Average,简称MA) 或自回归挪动均匀(Auto Regressive Moving Average,简称 ARMA) 模型进行剖析展望。

3)、其余方法 : 可用于时间序列展望的方法好多,此中比较成功的是神经网络。

因为大批的时间序列是非安稳的,所以特点参数和数据散布跟着时间的推移而变化。

若是经过对某段历史数据的训练,经过数学统计模型预计神经网络的各层权重参数初值,便可能成立神经网络展望模型,用于时间序列的展望。

3.数据发掘的分类方法有哪些,请详尽论述之分类方法归纳为四种种类:1)、鉴于距离的分类方法 : 距离的计算方法有多种,最常用的是经过计算每个类的中心来达成,在实质的计算中常常用距离来表征,距离越近,相像性越大,距离越远,相像性越小。

(不全)武大真题回忆版

(不全)武大真题回忆版

1998一、选择1、世界上第一个地理信息系统产生于:A.中国B.美国C.加拿大D.澳大利亚2、判断点是否在多边形内常用:A.空间内插B.半线理论C.平板技术D.维数变化3、空间集合分析主要完成:A.地形分析B.缓冲区分析C.逻辑运算D.叠置分析4、以线性四*树表示8*8的栅格矩阵时,第6行第5列位置处的栅格的MORTON码值为:A.57B.39C.54D.365、建立空间要素之间的拓扑关系属于____功能A.空间分析B.图形分析C.空间查询D.地图整饰二、简述在栅格数据中提取多边形边界的一般方法三、地理信息系统中的数据输入包含几项内容?输入过程中可能产生的误差有几种?四、图画题给出一个四*树要求画出栅格矩阵,并用线性四*树和二维行程编码表示七、简答题1、地理坐标2、地图投影研究的主要内容3、地理信息系统中的地图投影配置应遵循的原则八、介绍两种商用GIS基础软件的主要特性和适应的场合九、某城市由于人口增长较快,原有的地下基础设施已经不能满足要求,为此须重新进行规划,目的是为了满足今后10—20年内城市人口发展的需要。

现用GIS辅助规划其要求是:1、能随时知道任意地方的地下管线的各类指标2、能随时了解那些管线需要重新建设3、能随时了解任意区域的人口指标4、管线应铺设在道路的两侧、单侧或中央。

5、管线铺设时应距离附近的建筑至少10米6、管线铺设和指标计算应结合地形进行7、输出规划成果,主要包括人口分布图和规划后的底下综合管线图现提供如下条件:1、规划区域的地形图及属性数据2、规划区域的道路图及属性数据3、规划区域的地下综合管线现状图及属性数据4、规划区域的人口分布规划图及属性数据5、规划区域的建筑分布分布图几属性数据6、已提供了由人口计算相应管线的负载的全套公式7、已提供了计算管线各种指标的公式8、所有的图件都已经入库根据以上的条件,设计用地理信息系统实现上述规划要求的方法,分别说明其中使用了哪些数据和GIS的那些主要功能。

2015年武汉大学翻译硕士MTI考研真题解析

2015年武汉大学翻译硕士MTI考研真题解析

2015年武汉大学翻译硕士MTI考研真题解析Shanghai Free Trade Area,bank balance,host university,current account,cash drain,National City Bank of New York,general consulatepay by installment,OPEC,埃博拉病毒,丝路基金,失联,微信,海外追逃,反垄断调查,权力寻租腐败,潜规则,苏格兰独立公投,亚太自贸区,食品安全,科研经费,依法治国,反恐情报中心,段落翻译E–C关于文学作品的作用和意义;C–E是于季羡林的,主要意思是说季羡林为人处事十分认真,然后举了一个例子说他如何认真负责,全文到处都是“季老”,还提到了萧乾。

总的来说,两篇都是文学翻译,特别是中翻英不好翻,很多词汇不知道怎么翻比较好,只能自己发挥,往年喜欢考的《秘密花园》《青鸟》都没有考,悲!1、考试准备的时间问题对于专业课的复习时间没有一个具体的指标,对于专业课基础较好的同学,专业课的复习时间可能会短些,而对于那些基础弱的同学,尤其是跨专业考试的同学,专业课的复习时间必然要长些,但是不管怎么样,每个学科必定是需要一段时间才能掌握透彻,但是在短时间内,经过高强度的复习和科学的指导,也可以取得很好的成绩。

一般而言,专业课复习最好能保留有3个月的复习时间。

2、考试资料的选择不同的学校,考试难度和风格不一样,所以考试的资料难以统一,但是有一些基本的教材,可以由浅入深地引导同学们了解和掌握经济学的基础知识。

这样,复习起来就会事倍功半,比较有效率。

由于目前国内研究生考试的难度水平大致还是处于中初级水平,因此基本上还是可以列出一个有效的资料清单:(1) 报考学校的指定书目(必备)(2) 历年的考试题目历年题是专业课的关键,而融会贯通则是关键中的关键。

考研的专业课考题大体有两种类型,一种是认知性质的考题,另一种是理解与应用型的,而且以后一种居多。

数据挖掘与知识发现技术考核试卷

数据挖掘与知识发现技术考核试卷
3.朴素贝叶斯分类器是基于______定理进行分类的。()
4.在数据挖掘中,______是指数据集中的记录没有重复出现。()
5.在大数据分析中,______技术可以处理海量数据的存储和计算问题。()
6.常用于文本分析的______模型可以识别文本中的潜在主题分布。()
7.在数据挖掘中,______是一种无监督学习任务,旨在发现数据中的潜在模式。()
C.潜在狄利克雷分配
D.独立成分分析
17.以下哪些算法可以用于文本分类?()
A.朴素贝叶斯
B.支持向量机
C.决策树
D.聚类算法
18.以下哪些是数据挖掘中的隐私问题?()
A.数据泄露
B.数据隐私保护
C.数据匿名化
D.数据共享
19.以下哪些方法可以用于异常检测?()
A.箱线图
B.密度估计
C.机器学习模型
D.数据分析
8.以下哪个模型不是机器学习模型?()
A.线性回归模型
B.逻辑回归模型
C.决策树模型
D.数据流模型
9.在数据挖掘中,以下哪个概念表示数据之间的相互依赖关系?()
A.相关性
B.独立性
C.因果关系
D.非线性关系
10.以下哪个算法不是基于距离的聚类算法?()
A. K-均值
B.层次聚类
C.密度聚类
10. C
11. B
12. D
13. A
14. C
15. D
16. D
17. D
18. C
19. B
20. D
二、多选题
1. ABCD
2. ABC
3. AB
4. ABC
5. ABC
6. ABC

2015数据挖掘技术试卷A卷-参考答案.pdf

2015数据挖掘技术试卷A卷-参考答案.pdf

2014~ 2015学年第二学期期末考试数据挖掘技术试卷(A 卷)参考答案使用班级1250411/12/13/14 答题时间_120分钟_一、填空题(共10空, 每空1分,共10分)1.数据挖掘的任务:分类、聚类、回归、关联分析、离群点监测、演化分析、序列模式。

2.数据集的三个重要特性:_维度、稀疏性、分辨率。

二、判断题(共10小题,每小题1分,共10分)判断下列3~7小题的描述是否正确?3.ID3算法不仅可以处理离散属性,还可以处理连续属性。

( F )4.决策树方法通常用于关联规则挖掘。

( F )5.先验原理可以表述为,一个频繁项集的任一子集也应该是频繁的。

( T )6.Clementine 是IBM 公司的专业级数据挖掘软件。

( T )7.具有较高的支持度的项集具有较高的置信度。

( F )判断下列8~12小题的描述是否属于数据挖掘任务?8.利用历史数据预测公司将来的股价。

(T )9.监测病人心率的异常变化。

( F )10.监测地震活动的地震波。

( F )11.提取声波的频率。

( F )12.根据顾客喜好摆放商品位置。

(T )三、简答题(6个小题,每小题5分,共30分)13. 什么是信息熵?答:信息熵(entropy)是用来度量一个属性的信息量(1分)。

假定S 为训练集,S 的目标属性C 具有m 个可能的类标号值,C={C1,C2,…,Cm},假定训练集S 中,Ci 在所有样本中出现的频率为(i=1,2,3,…,m),则该训练集S 所包含的信息熵定义为:(3分)熵越小表示样本对目标属性的分布越纯,反之熵越大表示样本对目标属性分布越混乱。

(1分)14.什么是文本挖掘?答:文本挖掘是一个对具有丰富语义的文本进行分析,从而理解其所包含的内容和意义的过程。

(2分)对其进行深入的研究可以极大地提高人们从海量文本数据中提取信息的能力,具有很高的商业价值。

(1分)包括分词、文本表示、文本特征选择、文本分类、文本聚类、文档自动摘要等内容。

(完整word版)数据挖掘_概念与技术(第三版)部分习题答案

(完整word版)数据挖掘_概念与技术(第三版)部分习题答案

1.4 数据仓库和数据库有何不同?有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。

它用表组织数据,采用ER数据模型。

相似:它们都为数据挖掘提供了源数据,都是数据的组合。

1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。

答:特征化是一个目标类数据的一般特性或特性的汇总。

例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。

区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。

关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ⇒ owns(X, “personal computer”)[support=12%, confidence=98%] 其中,X 是一个表示学生的变量。

这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。

分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

数据挖掘试题(150道)

数据挖掘试题(150道)

单选题1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。

(b)描述有多少比例的小偷给警察抓了的标准。

A. Precision, RecallB. Recall, PrecisionA. Precision, ROC D. Recall, ROC3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)A. 分类B. 聚类C. 关联分析D. 隐马尔可夫链5. 什么是KDD? (A)A. 数据挖掘与知识发现B. 领域知识发现C. 文档知识发现D. 动态知识发现6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则11.下面哪种不属于数据预处理的方法? (D)A变量代换 B离散化 C 聚集 D 估计遗漏值12. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。

数据挖掘试题AB卷及参考答案

数据挖掘试题AB卷及参考答案

数据挖掘试题AB卷及参考答案课程名称: 数据挖掘(A卷) 考试时间: 姓名: 班级: 学号: 一、名词解释(每题5分,共20分)1、数据挖掘2、聚类3、关联规则4、分类二、数据挖掘方法应用题(每空20分,共60分)1、表一是痛风疾病病人的一些临床数据,现准备采用关联规则的挖掘方法对这些数据进行挖掘,请计算“发作部位”属性中各个值的“支持度”、“可信度”,并简要说明各个规则的意义。

表一痛风疾病病人临床数据序号性别年龄发作疼痛发病发作血尿诊断部位情况时间部位酸测结果皮色定1 男小于趾关频繁不定黯红高是50岁节2 男大于趾关频繁不定黯红极高是50岁节3 男大于指关不频不定偏红偏高是50岁节繁4 男大于指关频繁不定黯红高是50岁节5 男小于指关频繁不定黯红极高是50岁节6 男大于指关频繁不定黯红极高是50岁节7 男大于多关不频夜间正常偏高是50岁节繁加重8 男小于多关频繁夜间黯红高是50岁节加重9 男小于指关频繁不定正常高是50岁节10 男小于多关频繁不定正常高是50岁节11 男小于指关频繁不定黯红极高是50岁节12 男小于趾关不频不定正常高是50岁节繁2、表二是部分基因表达数据,请用K-Means方法对数据进行聚类分析,聚类分析时只需要考虑t0、t0.5、t2三项,将数据聚成二个类,且只需要计算一次质心即可。

质心计算公式如下:1centroid, m,X,inX,C ii欧几里德距离计算机公式如下:2dd(Xi,Xj),( )1/2 (x,x),ikjkk1,误差平方和计算机公式为:k2 J,|X,m|,,ei,,iXC1i表二基因表达数据2014.00 7.00 t0 t0.5 t2overcast 64 65 TRUE yesrainy 71 91 TRUE norainy 75 80 FALSE yessunny 75 70 TRUE yesovercast 72 90 TRUE yes3、表三是天气情况和外出运动情况的数据表,现准备使用ID3对数据进行挖掘分析,请用该算法对数据进行计算,并画出数据所对应的决策树(只给出第一次分类所对应的决策树)。

工程硕士《数据挖掘》考试试卷

工程硕士《数据挖掘》考试试卷

工程硕士《数据挖掘》考试试卷《数据挖掘》考试试题一、单选题(本大题共20个子题,每个子题1分,共20分)在每小题列出的四个备选项中选择一项符合题目要求的,请将其代码填写在题后的括号内。

错选、多选或未选均无分。

1.以下哪个选项不属于在线事务处理(OLTP)业务is()a、在线分析处理(OLAP)B、决策支持(DS)C、数据挖掘(DM)D和数据收集2.为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?()a、探索性数据分析B、建模描述C、预测性建模D、发现模式和规则3。

当根据实际应用对模式进行分类时,以下哪项不包括()a、描述模式B、关联模式C、聚类模式D、序列模式4。

以下哪项不是常用的聚类分析方法()a、特征聚类b、cf树c、决策树d、随机搜索聚类法5.高层数据模型应该哪种表示方法()a、 E-R图B,物理数据模型C,逻辑数据模型D,低级数据类型6。

以下哪项不是星图7的逻辑实体()a、指标B、维度C、详细类别D和关系。

以下哪项不是数据仓库系统的改进()a、改正性维护b、完善性维护c、预防性维护d、应用维护8.以下两种描述分别对应哪两种对分类算法的评价标准?()(a)警察抓住了小偷。

描述一下警察抓到的有多少人是小偷。

(b)描述一下被警方抓获的小偷的比例。

a.precision,recallb.recall,precisionc.precision,rocd.recall,roc9.下列哪个不是包中包含的集合()a、步骤集B、连接集C、局部变量集D、任务集10。

以下哪项不属于构建数据仓库系统的阶段()a、设想阶段b、规划阶段c、开发阶段d、实施阶段11.下列哪个不属于数据挖掘的过程()a、评估阶段B、巩固和应用阶段C、开采阶段D、维护阶段12。

用户有一个感兴趣的模式,并希望在数据集中找到类似的模式。

数据挖掘属于什么样的任务?(a)根据内容搜索B.建模描述C.预测建模D.查找模式和规则13.假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。

武汉大学研究生课程-数据挖掘-2015级研究生试题

武汉大学研究生课程-数据挖掘-2015级研究生试题

武汉大学计算机学院2015级研究生“数据仓库和数据挖掘”课程期末考试试题要求:所有的题目的解答均写在答题纸上,需写清楚题目的序号。

每张答题纸都要写上姓名和学号。

一、单项选择题(每小题2分,共20分)1、下面关于数据仓库的叙述中(B )是错误的。

A.OLAP分为ROLAP、MOLAP和HOLAPB.星型模式下的维表是规范化的,而雪花模式下的不需要规范化C.在查询效率方面,星型模式效率更高D.在事实星座模式中有多个事实表,且它们共享相同的维表2、下面关于维的叙述中(C)是错误的。

A.维是人们观察数据的特定角度B.维的层次性是由观察数据细致程度不同造成的C.“某年某月某日”是时间维的层次错(“某年某月某日”是在时间维上位置的描述)D.“月、季、年”是时间维的层次对(日、月、季、年是时间维的层次)3、可以对按季度汇总的销售数据进行(B),来观察按月汇总的数据。

A.上卷B.下钻C.切片D.切块4、可以对按城市汇总的销售数据进行(A ),来观察按国家汇总的数据。

A.上卷B.下钻C.切片D.切块5、将原始数据进行集成和变换等处理是在以下(C)步骤的任务。

A.频繁模式挖掘B.分类和预测C.数据预处理D.数据流挖掘6、当不知道数据所带标签时,可以使用(B)技术促使带同类标签的数据与带其他标签的数据相分离。

A.分类B.聚类C.关联分析D.隐马尔可夫链7、建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的(C)任务。

A.根据内容检索B.建模描述C.预测建模D.寻找模式和规则8、利用信息增益方法作为属性选择度量建立决策树时,已知某训练样本集的4个条件属性的信息增益分别为:G(收入)=0.940位,G(职业)=0.151位,G(年龄)=0.780位,G(信誉)=0.048位,则应该选择(A )属性作为决策树的测试属性。

选信息增益最大的A.收入B.职业C.年龄D.信誉9、以下关于前馈神经网络的叙述中正确的是(C)。

数据挖掘第一章部分答案

数据挖掘第一章部分答案

09物流2班戚业宏2009306820591.1a.数据挖掘不是又一种广告宣传,而是由于大量数据的可用性以及把这些数据变为有用的信息的迫切需要,使得数据挖掘变得更加有必要。

因此,数据挖掘可以被看作是信息技术的自然演变的结果。

b.数据挖掘不是一种从数据库、统计学和机器学习发展的技术的简单转换,而是来自多学科,例如数据库技术、统计学,机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像和信号处理以及空间数据分析技术的集成。

c.数据库技术开始于数据收集和数据库创建机制的发展,导致了用于数据管理的有效机制,包括数据存储和检索,查询和事务处理的发展。

提供查询和事务处理的大量的数据库系统最终自然地导致了对数据分析和理解的需要。

因此,出于这种必要性,数据挖掘开始了其发展。

d.当把数据挖掘看作知识发现过程时,涉及步骤如下:数据清理,一个删除或消除噪声和不一致的数据的过程;数据集成,多种数据源可以组合在一起;数据选择,从数据库中提取与分析任务相关的数据;数据变换,数据变换或同意成适合挖掘的形式,如通过汇总或聚集操作;数据挖掘,基本步骤,使用智能方法提取数据模式;模式评估,根据某种兴趣度度量,识别表示知识的真正有趣的模式;知识表示,使用可视化和知识表示技术,向用户提供挖掘的知识。

1.2例如百货公司,可以使用数据挖掘来协助其市场营销目标的实现。

利用数据挖掘功能,例如关联,商店可以使用强关联规则来确定其中一组客户购买的产品可能会导致某些其他产品的购买。

有了这些信息,商店可以出售产品给那些更加喜欢购买更多商品的顾客。

数据查询处理用于数据或信息的检索,没有方法发现关联规则。

同样,简单统计分析无法处理大量的数据,如一家百货公司的顾客记录。

1.6特征化:是一个目标类数据的一般特性或特性的汇总。

例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。

《数据挖掘》A卷

《数据挖掘》A卷

一、填空题:(每题6分, 共30分)1. 数据挖掘的主要问题包括:。

2. 数据挖掘的性能问题包括:。

3. 数据挖掘的分类方法有。

4. 数据挖掘的聚类方法有。

5.数据挖掘的基本步骤是。

二、问答题: (每题6分,共30分)1.对于类特征化,基于数据立方体的实现与诸如面向属性归纳的关系实现之间的主要不同是什么?讨论哪种方法最有效,在什么条件下最有效。

2.数据仓库和数据库有何不同?它们有那些相似之处?3.在现实世界的数据中,元组在某些属性上缺少值是常有的。

描述处理该问题的各种方法。

4. 试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法,而不愿使用查询驱动的方法。

5.为什么说强关联规则不一定都是有趣的,举例说明。

三、证明题(10分)1.证明频繁集的所有非空子集必须也是频繁的。

2.Apriori的一种变形将事务数据库D中的事务划分为个不重叠的部分。

证明在D中是频繁的任何项集至少在D中的一个部分中是频繁的。

四、算法分析与扩展(15分)1 .描述判定树算法的思想。

2.写出比较易懂的算法伪代码3.指出算法的不足之处,应该从哪些方面增强算法的功能和性能。

五、计算题(15分)给定两个对象,分别用元组(22,1,42,10),(20,0,36,8)表示。

1.计算两个对象之间的欧几里德距离;2.计算两个对象之间的蔓哈坦距离;3.给定年龄变量的如下度量值18,22,25,42,28,43,33,35,56,28计算age的平均绝对偏差。

一、填空题:(每题6分, 共30分)1.数据挖掘是一个多学科领域,这些学科包括:数据库系统、统计学、机器学习、可视化、信息科学。

2.数据挖掘的功能有特征化和区分、关联分析、分类和预测、聚类分析、孤立点分析、演变分析。

3.数据挖掘的分类方法有判定树算法,贝叶斯方法,神经网络,K-最近邻分类,基于案例的推理,遗传算法,粗糙集方法,模糊集方法等。

4.数据挖掘的聚类方法有划分方法、层次的方法、基于密度的方法、基于网格的方法、基于模型的方法。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

武汉大学计算机学院
2015级研究生“数据仓库和数据挖掘”课程期末考试试题
要求:所有的题目的解答均写在答题纸上,需写清楚题目的序号。

每张答题纸都要写上姓名和学号。

一、单项选择题(每小题2分,共20分)
1、下面关于数据仓库的叙述中(B )是错误的。

A.OLAP分为ROLAP、MOLAP和HOLAP
B.星型模式下的维表是规范化的,而雪花模式下的不需要规范化
C.在查询效率方面,星型模式效率更高
D.在事实星座模式中有多个事实表,且它们共享相同的维表
2、下面关于维的叙述中(C)是错误的。

A.维是人们观察数据的特定角度
B.维的层次性是由观察数据细致程度不同造成的
C.“某年某月某日”是时间维的层次错(“某年某月某日”是在时间维上位置的描述)
D.“月、季、年”是时间维的层次对(日、月、季、年是时间维的层次)
3、可以对按季度汇总的销售数据进行(B),来观察按月汇总的数据。

A.上卷
B.下钻
C.切片
D.切块
4、可以对按城市汇总的销售数据进行(A ),来观察按国家汇总的数据。

A.上卷
B.下钻
C.切片
D.切块
5、将原始数据进行集成和变换等处理是在以下(C)步骤的任务。

A.频繁模式挖掘
B.分类和预测
C.数据预处理
D.数据流挖掘
6、当不知道数据所带标签时,可以使用(B)技术促使带同类标签的数据与带其他标签的数据相分离。

A.分类
B.聚类
C.关联分析
D.隐马尔可夫链
7、建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的(C)任务。

A.根据内容检索
B.建模描述
C.预测建模
D.寻找模式和规则
8、利用信息增益方法作为属性选择度量建立决策树时,已知某训练样本集的4个条件属性的信息增益分别为:G(收入)=0.940位,G(职业)=0.151位,G(年龄)=0.780位,G(信誉)=0.048位,则应该选择(A )属性作为决策树的测试属性。

选信息增益最大的
A.收入
B.职业
C.年龄
D.信誉
9、以下关于前馈神经网络的叙述中正确的是(C)。

A.前馈神经网络只能有3层错
B.前馈神经网络中存在反馈错
C.前馈神经网络中每一层只接受来自前一层单元的输入
D.以上都是正确的
10、以下(A )不是影响聚类算法结果的主要因素。

A.已知类别的样本的质量
B.聚类结束条件
C.描述属性的选取
D.对象的相似性度量
二、(20分)假定某大学教务部门已经建立有教务管理系统,现在要创建一个数据仓库,至少包含以下分析功能:
(1)分析全校各个专业各个省份学生的基础课程成绩为优秀的人数情况。

(2)分析全校各个专业中年龄在16岁以下学生的人数情况。

(3)分析全校各个学院所有课程的不及格的人数情况。

完成如下任务:
(1)根据你的思考设计该数据仓库的模式图,包含每个维表和事实表的结构。

(15分)(2)指出你设计的数据仓库属于哪种模式。

(5分)
三、(20分)某个食品连锁店每周的事务记录如表1所示,每个事务表示在一项收款机业务中卖出的商品项集,假定min_sup=40%,min_conf=40%,使用Apriori算法生成的强关联规则。

见ppt 5章-例5.1(apriori算法)
表1 一个事务记录表
解:(1)由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C1,计
(2)组合连接L1中的各项目,产生2-候选集C2,计算其支持度,取出支持度小于supmin
至此,所有频繁集都被找到,算法结束,
所以,confidence({面包}→{花生酱})=(4/5)/(3/5)=4/3> confmin
confidence({ 花生酱}→{面包})=(3/5)/(4/5)=3/4> confmin 所以,关联规则{面包}→{花生酱}、{ 花生酱}→{面包}均是强关联规则。

四、(20分)对于如表2所示的决策表(U,C∪D),C={a,b,c,d},D={ e },回答以下问题:
(1)求POS C(D),判断该决策表是否是协调的。

(10分)
(2)采用分辨矩阵求其所有相对属性约简和核。

(10分)
表2 一个决策表
解:(1)C={a,b,c,d},D={e},
U/C={{1},{2},{3},{4},{5},{6},{7},{8}}(按C属性集划分的等价类)
U/D={{1,4,5},{2,3},{6,7,8}}(按D属性集划分的等价类)
{1,4,5}集合关于U/C的下近似为{1,4,5}
{2,3}集合关于U/C的下近似为{2,3}
{6,7,8}集合关于U/C的下近似为{6,7,8}
所以有POS C(D)={1,4,5}∪{2,3}∪{6,7,8}={1,2,3,4,5,6,7,8}=U,则该决策表是协调的。

分辨矩阵中元素d ij的计算过程是:若第i行与第j行的D值相同,则d ij=φ(空),否则d ij=第i行与第j行不同条件属性值的属性集。

如第1行与第3行的D值不同,C中不同值的条件属性为b、d,所以d13=bd。

由于分辨矩阵是对称的,所以只需求上或下三角部分。

f(D)=(b∨c∨d)∧(b∨d)∧(a∨b∨c)∧(a∨b∨c)∧(a∨b∨c∨d)∧…(分辨矩阵中所有非空项的与)=b∧(a∨d)=(a∧b)∨(b∧d),两个属性约简为{a,b}、{b,d}。

核={a,b}∩{b,d}={b}。

五、(20分)回答以下问题:
(1)按照算法的主要思路,聚类算法分为哪几种常见的类型?BIRCH和DBSCAN算法分别属于什么类型?(10分)
按照聚类分析方法的主要思路,可以被归纳为如下几种:
划分法:基于一定标准构建数据的划分。

层次法:对给定数据对象集合进行层次的分解。

密度法:基于数据对象的相连密度评价。

网格法:将数据空间划分成为有限个单元的网格结构,基于网格结构进行聚类。

模型法:给每一个簇假定一个模型,然后去寻找能够很好的满足这个模型的数据集。

基于层次聚类算法:BIRCH; 基于密度聚类算法:DBSCAN;
(2)简要说明决策树分类算法中常用的选择测试属性和停止划分样本的方式,以及神经网络算法中常用的迭代终止条件。

(10分)
如何选择测试属性?测试属性的选择顺序影响决策树的结构甚至决策树的准确率。

ID3算法主要是给出了通过信息增益的方式来选择测试属性。

C4.5用信息增益率来选择属性,提高了衡量属性划分数据的广度和均匀性。

如何停止划分样本?从根结点测试属性开始,每个内部结点测试属性都把样本空间划分为若干个(子)区域,一般当某个(子)区域的样本同类时,就停止划分样本,有时也通过阈值提前停止划分样本。

迭代结束条件:当某次扫描训练集迭代结束时,所有ΔWij 都小于某个指定阈值,或未正确分类的样本百分比小于某个指定阈值,或进行的迭代次数超过预先指定的迭代次数时,训练终止。

相关文档
最新文档