2012数据挖掘考试题(郑大研究生)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2012年数据挖掘与数据仓库考试题
一、讨论下列每项活动是否是数据挖掘任务(简单陈述你的理由):
(a)根据性别划分公司的顾客。
(b)根据可赢利性划分公司的顾客。
(c)计算公司的总销售额。
(d)按学生的学号对学生数据库排序。
(e)预测掷一对骰子的结果。
(f)使用历史记录预测某公司未来的股票价格。
(g)监视病人心率的异常变化。
(h)监视地震活动的地震波。
(i)提取声波的频率。
二、给出一个例子,那里,数据挖掘对于企业(如银行、保险、通信、零售业等)的成功是至关重要的。该企业需要什么数据挖掘功能(例如,考虑可以挖掘何种类型的模式)?这种模式能够通过简单的查询处理或统计分析得到吗?
三、离群点经常被当作噪声丢弃。然而,一个人的垃圾可能是另一个人的宝贝。例如,信用卡交易中的异常可能帮助我们检测信用卡的欺诈使用。以欺诈检测为例,提出两种可以用来检测离群点的方法,并讨论哪种方法更可靠。
四、假定数据仓库包含三个维:time, doctor和patient;两个度量:count和charge;其中,charge是医生对一位病人的一次诊治的费用。
(a)列举三种流行的数据仓库建模模式。
(b)使用(a)列举的模式之一,画出上面数据仓库的模式图(你可以对三个维给出一些
有意义的属性)。
(c)由基本方体[day, doctor, patient] 开始,为列出2010年每位医生的收费总数,应
当执行哪些OLAP操作?
为得到同样的结果,写一个SQL查询。假定数据存放在关系数据库中,其模式为fee(day, month, year, doctor, hospital, patient, count, charge)。
五、Apriori算法使用子集支持度性质的先验知识。
(a)证明频繁项集的所有非空子集一定也是频繁的。
(b)证明项集s的任意非空子集s’的支持度至少与s的支持度一样大。
(c)给定频繁项集l和l的子集s,证明规则“s’⇒(l-s’)”的置信度不可能大于“s ⇒(l - s)”
的置信度。其中,s’是s的子集。
(d)Apriori算法的一种变形将事务数据库D中的事务划分成n个不重叠的分区。证明
在D中频繁的项集至少在D的一个分区中是频繁的。
六、下表由雇员数据库的训练数据组成。数据已泛化。例如,年龄“31…35”表示年龄在31到35的之间。对于给定的行,count表示department, status, age和salary在该行上具有给定值的元组数。
department status age salary count
sales sales sales systems systems systems systems marketing marketing secretary secretary senior
junior
junior
junior
senior
junior
senior
senior
junior
senior
junior
31 (35)
28 (30)
31 (35)
21 (25)
31 (35)
28 (30)
41 (45)
38 (40)
31 (35)
48 (50)
28 (30)
46K...50K
26K...30K
31K...35K
46K...50K
66K...70K
46K...50K
66K...70K
46K...50K
41K...45K
36K...40K
26K...30K
30
40
40
20
5
3
3
10
4
4
6
设status是类标号属性。
(a)你将如何修改基本决策树算法,以便考虑每个广义数据元组(即每个行)的
count?
(b)使用你的算法,构造给定数据的决策树。
(c)给定一个数据元组,它在属性department, age和salary上的值分别为“systems”,
“26…30”和“46…50K”。该元组status的朴素贝叶斯分类是什么?
七、按如下标准对下列每种聚类方法进行描述:(i)可以确定的簇的形状;(ii)必须指定的输入参数;(iii)局限性
(a)k-均值
(b)k-中心点
(c)凝聚层次聚类
(d)DBSCAN