武汉大学研究生课程-数据挖掘-2015级研究生试题

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

武汉大学计算机学院

2015级研究生“数据仓库和数据挖掘”课程期末考试试题

要求:所有的题目的解答均写在答题纸上,需写清楚题目的序号。每张答题纸都要写上姓名和学号。

一、单项选择题(每小题2分,共20分)

1、下面关于数据仓库的叙述中(B )是错误的。

A.OLAP分为ROLAP、MOLAP和HOLAP

B.星型模式下的维表是规范化的,而雪花模式下的不需要规范化

C.在查询效率方面,星型模式效率更高

D.在事实星座模式中有多个事实表,且它们共享相同的维表

2、下面关于维的叙述中(C)是错误的。

A.维是人们观察数据的特定角度

B.维的层次性是由观察数据细致程度不同造成的

C.“某年某月某日”是时间维的层次错(“某年某月某日”是在时间维上位置的描述)

D.“月、季、年”是时间维的层次对(日、月、季、年是时间维的层次)

3、可以对按季度汇总的销售数据进行(B),来观察按月汇总的数据。

A.上卷

B.下钻

C.切片

D.切块

4、可以对按城市汇总的销售数据进行(A ),来观察按国家汇总的数据。

A.上卷

B.下钻

C.切片

D.切块

5、将原始数据进行集成和变换等处理是在以下(C)步骤的任务。

A.频繁模式挖掘

B.分类和预测

C.数据预处理

D.数据流挖掘

6、当不知道数据所带标签时,可以使用(B)技术促使带同类标签的数据与带其他标签的数据相分离。

A.分类

B.聚类

C.关联分析

D.隐马尔可夫链

7、建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的(C)任务。

A.根据内容检索

B.建模描述

C.预测建模

D.寻找模式和规则

8、利用信息增益方法作为属性选择度量建立决策树时,已知某训练样本集的4个条件属性的信息增益分别为:G(收入)=0.940位,G(职业)=0.151位,G(年龄)=0.780位,G(信誉)=0.048位,则应该选择(A )属性作为决策树的测试属性。选信息增益最大的

A.收入

B.职业

C.年龄

D.信誉

9、以下关于前馈神经网络的叙述中正确的是(C)。

A.前馈神经网络只能有3层错

B.前馈神经网络中存在反馈错

C.前馈神经网络中每一层只接受来自前一层单元的输入

D.以上都是正确的

10、以下(A )不是影响聚类算法结果的主要因素。

A.已知类别的样本的质量

B.聚类结束条件

C.描述属性的选取

D.对象的相似性度量

二、(20分)假定某大学教务部门已经建立有教务管理系统,现在要创建一个数据仓库,至少包含以下分析功能:

(1)分析全校各个专业各个省份学生的基础课程成绩为优秀的人数情况。

(2)分析全校各个专业中年龄在16岁以下学生的人数情况。

(3)分析全校各个学院所有课程的不及格的人数情况。

完成如下任务:

(1)根据你的思考设计该数据仓库的模式图,包含每个维表和事实表的结构。(15分)(2)指出你设计的数据仓库属于哪种模式。(5分)

三、(20分)某个食品连锁店每周的事务记录如表1所示,每个事务表示在一项收款机业务中卖出的商品项集,假定min_sup=40%,min_conf=40%,使用Apriori算法生成的强关联规则。见ppt 5章-例5.1(apriori算法)

表1 一个事务记录表

解:(1)由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C1,计

(2)组合连接L1中的各项目,产生2-候选集C2,计算其支持度,取出支持度小于supmin

至此,所有频繁集都被找到,算法结束,

所以,confidence({面包}→{花生酱})=(4/5)/(3/5)=4/3> confmin

confidence({ 花生酱}→{面包})=(3/5)/(4/5)=3/4> confmin 所以,关联规则{面包}→{花生酱}、{ 花生酱}→{面包}均是强关联规则。

四、(20分)对于如表2所示的决策表(U,C∪D),C={a,b,c,d},D={ e },回答以下问题:

(1)求POS C(D),判断该决策表是否是协调的。(10分)

(2)采用分辨矩阵求其所有相对属性约简和核。(10分)

表2 一个决策表

解:(1)C={a,b,c,d},D={e},

U/C={{1},{2},{3},{4},{5},{6},{7},{8}}(按C属性集划分的等价类)

U/D={{1,4,5},{2,3},{6,7,8}}(按D属性集划分的等价类)

{1,4,5}集合关于U/C的下近似为{1,4,5}

{2,3}集合关于U/C的下近似为{2,3}

{6,7,8}集合关于U/C的下近似为{6,7,8}

所以有POS C(D)={1,4,5}∪{2,3}∪{6,7,8}={1,2,3,4,5,6,7,8}=U,则该决策表是协调的。

分辨矩阵中元素d ij的计算过程是:若第i行与第j行的D值相同,则d ij=φ(空),否则d ij=第i行与第j行不同条件属性值的属性集。如第1行与第3行的D值不同,C中不同值的条件属性为b、d,所以d13=bd。由于分辨矩阵是对称的,所以只需求上或下三角部分。

f(D)=(b∨c∨d)∧(b∨d)∧(a∨b∨c)∧(a∨b∨c)∧(a∨b∨c∨d)∧…(分辨矩阵中所有非空项的与)=b∧(a∨d)=(a∧b)∨(b∧d),两个属性约简为{a,b}、{b,d}。

核={a,b}∩{b,d}={b}。

五、(20分)回答以下问题:

(1)按照算法的主要思路,聚类算法分为哪几种常见的类型?BIRCH和DBSCAN算法分别属于什么类型?(10分)

按照聚类分析方法的主要思路,可以被归纳为如下几种:

划分法:基于一定标准构建数据的划分。

层次法:对给定数据对象集合进行层次的分解。

密度法:基于数据对象的相连密度评价。

网格法:将数据空间划分成为有限个单元的网格结构,基于网格结构进行聚类。

模型法:给每一个簇假定一个模型,然后去寻找能够很好的满足这个模型的数据集。

基于层次聚类算法:BIRCH; 基于密度聚类算法:DBSCAN;

(2)简要说明决策树分类算法中常用的选择测试属性和停止划分样本的方式,以及神经网络算法中常用的迭代终止条件。(10分)

如何选择测试属性?测试属性的选择顺序影响决策树的结构甚至决策树的准确率。

ID3算法主要是给出了通过信息增益的方式来选择测试属性。

C4.5用信息增益率来选择属性,提高了衡量属性划分数据的广度和均匀性。

如何停止划分样本?从根结点测试属性开始,每个内部结点测试属性都把样本空间划分为若干个(子)区域,一般当某个(子)区域的样本同类时,就停止划分样本,有时也通过阈值提前停止划分样本。

迭代结束条件:当某次扫描训练集迭代结束时,所有ΔWij 都小于某个指定阈值,或未正确分类的样本百分比小于某个指定阈值,或进行的迭代次数超过预先指定的迭代次数时,训练终止。

相关文档
最新文档