数据挖掘复习题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.1讨论下列每项活动是否是数据挖掘任务:
(1)根据性别划分公司的顾客。
(2)根据可赢利性划分公司的顾客。
(3)计算公司的总销售额。
(4)按学生的标识号对学生数据库排序。
(5)预测掷一对骰子的结果。
(6)使用历史记录预测某公司未来的股票价格
(7)监视病人心率的异常变化。
(8)监视地震活动的地震波。(9)提取声波的频
率。
答:(1) 不是,这属于简单的数据库查询。
(2) 不是,这个简单的会计计算;但是新客户的利润预测则属于数据挖掘任务。
(3) 不是,还是简单的会计计算。
(4) 不是,这是简单的数据库查询。
(5) 不是,由于每一面都是同等概率,则属于概率计算;如概率是不同等的,根据
历史数据预测结果则更类似于数据挖掘任务。
(6) 是,需要建立模型来预测股票价格,属于数据挖掘领域中的预测模型。可以使
用回归来建模,或使用时间序列分析。
(7) 是,需要建立正常心率行为模型,并预警非正常心率行为。这属于数据挖掘领域
的异常检测。若有正常和非正常心率行为样本,则可以看作一个分类问题。
(8) 是,需要建立与地震活动相关的不同波形的模型,并预警波形活动。属于数据
挖掘领域的分类。
(9) 不是,属于信号处理。
1.2假定你作为一个数据挖掘顾问,受雇于一家因特网搜索引擎公司。通过特定的例子说明,
数据挖掘可以为公司提供哪些帮助,如何使用聚类、分类、关联规则挖掘和离群点检
测等技术为企业服务。
答:
( 1)使用聚类发现互联网中的不同群体,用于网络社区发现;
( 2)使用分类对客户进行等级划分,从而实施不同的服务;
( 3)使用关联规则发现大型数据集中间存在的关系,用于推荐搜索。如大部分搜索了“广外”
的人都会继续搜索“信息学院”,那么在搜索“广外”后会提示是否进进一步搜索“信
息学院”。
( 4)使用离群点挖掘发现与大部分对象不同的对象,用于分析针对网络的秘密收集信息的攻击。
2.12区分噪声和离群值。一定要考虑以下的问题。
(a)噪声曾经有趣的或可取的吗?离群值吗?不,根据定义。是的。(参见第十章)。
(b)噪声对象可以例外吗?是的。随机数据的失真通常负责离群值。
(c)是噪声对象总是异常值吗?不。随机变形会导致一个对象或值一样正常的一个。
(d)异常值总是噪声对象?不。通常离群值仅仅代表一个类的对象是不同的从正常的对象。
(e)噪音可以典型值为一个不寻常的人,反之亦然?是的。
2.14以下属性的测量一群亚洲的大象:体重、身高、象牙长度、躯干长度,和耳朵区域。根据这些测量,什么样的相似性度量从2.4节你会使用比较这些大象或一组?证明你的答案和
解释任何特殊情况。
这些属性都是数值,但可以有广泛不同范围的值,取决于使用的规模来衡量他们。此外,属性不是不对称和属性的大小事务。后面这两个事实消除余弦和相关措施。欧几里得距离,应用标准化后的属性的意思是0和1的标准偏差,将是合适的。
2.15给定m个对象的集合,这些对象划分成K组,其中第i组的大小为m i。如果目标是
得到容量为n (a)从每组随机地选择n×m i/m 个元素。 (b)从数据集中随机地选择n个元素,而不管对象属于哪个组。 答: (a)组保证了可以在每个组里面得到等比例的样本,而(b)组在每个组里面抽取的样 本的个数是随机的,不能保证每个组都能抽到样本。 第一个方案是保证从每组获得相同数量的对象,而对于第二个方案,从每组对象的数 量将有所不同。更具体地说,第二个方案只有永发,平均而言,对象的数量从每个组将 n∗mi/m。 2.24 距离通常定义两个对象之间。 (a)定义两个方法可以定义一组对象之间的距离。 以下两个例子:(i)基于两两距离,即。,最低两两相似或最大两两不同,或(ii)在欧几里得空间点计算质心(points-see8.2节的意思),然后计算总和或平均距离的重心。 (b)你如何定义两组之间的距离在欧几里得空间点吗? 一种方法是计算质心之间的距离的两个点。 (c)你如何定义两组数据对象之间的距离?(没有假设的数据对象,除了任何两个对象之间的距离度量定义)。 一种方法是计算的平均两两距离对象的一组对象与另一组中的对象。其他方法是最小或最大距离。注意,集群的凝聚力的概念有关的一组对象的距离彼此,集群的分离与两组对象的距离的概念。(参见8.4节)。此外,两个集群的距离会凝聚的层次聚类是一个重要的概念。(参见8.2节)。 2.25 你给出一组点在欧几里得空间,以及每一个点的距离在年代x点。(这并不重要,如果 x∈S) (a)如果目标是找到所有点在指定距离ε点y,y=x,解释如何使用三角不等式和已计算距离x 可能减少距离计算的必要吗?提示:三角不等式,d(x,z)≤(x,y)+d(y、x)可以改写为 d(x,y)≥(x,z)−d(y,z)。不幸的是,有一个错字和缺乏清晰的暗示。提示应措辞如下:提示:如果z是一个任意的年代,三角不等式,d(x,y)≤(x,z)+d(y,z)可以改写为 d(y,z)≥(x,y)−d(x,z)。 三角不等式的另一个应用程序从d≤(x,z)d(x,y)+d(y,z),表明,d(y,z)≥(x,z)−d(x,y)。如果低绑定的d(y,z)从这些不平等获得更大比,那么d(y,z)不需要计算。同样,如果上面绑定的d(y,z)获得不平等d(y,z)≤(y,x)+d(x,z)是小于或等于,那么d(x,z)不需要计算。 (b)在一般情况下,x和y之间的距离如何影响数量距离计算吗? 如果x=y,那么不需要计算。随着x变得更远,通常需要更多的距离计算。 (c)假设你能找到点的一个小子集,从原始数据集,数据集内的每个点都是在指定的距离ε的至少一个点,你也有美国的两两距离矩阵描述一个使用这种技术信息计算、最小距离计算的,组内的所有点的距离β一个指定点的数据集。 让x和y是两点,让x y∗∗和点的年代最接近的两个点,分别。如果d(y x∗∗)+2≤β,然后我们