教材部分习题参考答案(发布版)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2
Partner
Yes
No 1 Yes 3Байду номын сангаасNo
Courses
<=5 6 Yes 2 No
>5 3 No
(1) IF Partner = Yes and Courses <=5 THEN Play = Yes 正确率:6/8 = 75% 覆盖率:6/7 = 85.7% (2) IF Partner = Yes and Courses > 5 THEN Play = No 正确率:3/3 = 100% 覆盖率:3/8 = 37.5% (3) IF Partner = No THEN Play = No 正确率:3/4 = 75% 覆盖率:3/8 = 37.5% 5. 计算使用 Partner 作为根节点的增益率值。 (1) Info(I)= -(7/15log2(7/15)+8/15log2(8/15))= 0.996792≈0.9968 (2) Info(I,Partner)= 11/15Info(Yes)+4/15Info(No)= 0.9453 其中:Info(Yes)= - (6/11log2(6/11) + 5/11log2(5/11)) = 0.9940 Info(No)=-(1/4log2(1/4) + 3/4log2(3/4)) = 0.8113 (3) SplitsInfo(Partner)= - (11/15log2(11/15) + 4/15log2(4/15)) = 0.8366 (4) Gain(Partner) = Info(I)- Info(I,Partner)≈0.9968-0.9453 = 0.0515 (5) GainRatio(Partner) = Gain ( Partner) / SplitsInfo(Partner) = 0.0515 / 0.8366 = 0.0616 6. 计算使用 Temperature 作为根节点的增益率值。 (1) Info(I)= -(7/15log2(7/15)+8/15log2(8/15))= 0.996792≈0.9968 (2) Info(I,Temperature)= 3/15Info(-10 ~ 0)+2/15Info(0 ~ 10) +4/15Info(10 ~ 20) +5/15Info(20~30) +1/15Info(30~40)= 0.6406 其中:Info(-10~0)= - (2/3log2(2/3) + 1/3log2(1/3)) = 0.9183 Info(0~10)=-(1/2log2(1/2) + 1/2log2(1/2)) =1 Info(10~20)=- 4/4log2(4/4)= 0 Info(20~30)=-(3/5log2(3/5) + 2/5log2(2/5)) = 0.9710 Info(30~40)=-1/1log2(1/1)= 0
9. 使用表 2.8 所示的数据集,应用 K-means 算法进行聚类,初始值 K 为 2,请写出完整的迭 代过程和最后的聚类结果。使用 Weka 软件完成相同的任务,并检查两个结果的异同。 表 2.8 数据集
Instance 1 2 3 4 5 6 A 4.0 1.5 3.0 4.5 4.0 2.5 B 2.5 1.0 1.5 3.5 2.5 5.0
4
表 1 第一次到第三次迭代中实例与簇之间的简单欧氏距离
簇中心 簇中心 簇中心
C1 = (4.0,2.5) 和 C2=(1.5,1.0)
Instance 1 2 3 4 5 6 0 2.9 1.4 1.1 0 2.9
C1 = (3.6,3.0) 和 C2=(1.5,1.0) C1 = (3.75,3.375) 和 C2=(2.25,1.25) C1
5
使用两种方法的聚类结果不一致。 过程 2:(初始簇中心选择 2) 选择实例 1 作为第 1 个簇中心、实例 6 作为第 2 个簇中心。迭代结果如表 2 所示。
表 2 第一次到第二次迭代中实例与簇之间的简单欧氏距离
簇中心 簇中心
C1 = (4.0,2.5) 和 C2=(2.5,5.0)
Instance 1 2 3 4 5 6 C1 0.0 2.9 1.4 1.1 0.0 2.9 C2 2.9 4.1 3.5 2.5 2.9 0.0
过程 1:(初始簇中心选择 1) (1) 设置 K 值为 2。 (2) 选择实例 1 作为第 1 个簇中心、实例 2 作为第 2 个簇中心。 (3) 使用式(2.9),计算其余实例与两个簇中心的简单欧氏距离,结果如表 1 所示。表中的 C1 和 C2 表示两个簇中心, 表中的值为所有实例距离两个簇中心的距离。 从表中可以看到, 第 3、4、5、 6 实例距离簇 1 最近,故将第 3 、4、5、 6 实例划分到簇 1 中。在算法的第 一次迭代后,得到两个簇: {1,3,4,5,6}和{2}。
IF Juice = 1 & DVD = 1 THEN Earphone =1
置信度= 3/5=60% 支持度=3/7=42.9% 8. 对以下三项条目, 列出三条规则, 使用表 2.3 中的数据确定这些规则的置信度和支持度的值。
Book =1 & Sneaker = 0 & DVD = 1 三条规则为: (1)IF Book = 1 & Sneaker = 0 THEN DVD =1 置信度= 置信度= 置信度= 2/3=66.7% 2/4=50% 2/4=50% 支持度=2/8=25% 支持度=2/5=40% 支持度=2/5=40% (2)IF Book = 1 & DVD =1 THEN Sneaker = 0 (3)IF Sneaker = 0 & DVD =1 THEN Book = 1
0.6 2.9 1.6 1.0 0.6 2.3 2.9 0.0 1.6 3.9 2.9 4.1
C1
2.9 0 1.6 3.9 2.9 4.1
C2
C2
0.9 3.3 2.0 0.8 0.9 2.1
C1
2.2 0.8 0.8 3.2 2.2 3.8
C2
(4) 重新计算新的簇中心。 对于簇 1:x = (4.0+3.0+4.5+4.0+2.5) / 5=3.6,y = (2.5+1.5+3.5+2.5+5.0) / 5 =3.0。 对于簇 2:簇中心不变,即 C2= (1.0,1.0)。 得到新的簇中心 C1= (3.6,3.0) 和 C2= (1.5,1.0),因为簇中心发生了变化,算法必须 执行第二次迭代,重复步骤(3)。 第二次迭代之后的结果导致了簇的变化:{1,4,5,6}和{2,3}。 (5) 重新计算每个簇中心。 对于簇 1:x = (4.0+4.5+4.0+2.5) / 4=3.75,y = (2.5+3.5+2.5+5.0) / 4 = 3.375 。 对于簇 2:x = (1.5+3.0) / 2= 2.25,y = (1.0+1.5) / 2 =1.25。 这次迭代后簇中心再次改变。因此,该过程继续进行第三次迭代,结果形成{1,4,5,6} 和{2,3}两个簇,与第二次迭代后形成的簇完全一样,若继续计算新簇中心的话,簇中心的 值一定不变,至此,算法结束。 聚类结果为:形成{1,4,5,6}和{2,3}两个簇。 Weka 聚类结果:
6.访问 UCI 网站,选择一个数据集,使用 Weka 软件进行有指导的学习、无指导的聚类和关 联分析,并解释和评估结果。 略。
第 2 章 基本数据挖掘技术
1. 关联规则和传统的用于分类的产生式规则有什么异同? 关联规则与传统的用于分类的产生式规则有两点不同。 (1) 在某条关联规则中以前提条件出现的属性可以出现在下一条关联规则的结果中。 (2) 传统的用于分类的产生式规则的结果中仅能有一个属性,而关联规则中则允许其结果 包含一个或多个属性。 2. 对于 K-means 算法,最优聚类的评判标准是什么? K-means 算法的最优聚类通常为:簇中所有实例与簇中心的误差平方和最小。 3. 设计方案解决 K-means 算法缺乏对所发现内容进行解释的问题。提示:尝试使用决策树算 法对 K-means 算法形成的簇的定义进行解释。 略。 4. 画出使用 Partner 作为根节点的决策树,并写出决策时的产生式规则。
C1 =( 3.4,2.2) 和 C2=(2.5,5.0)
C1 0.7 2.2 0.8 1.7 0.7 2.9 C2 2.9 4.1 3.5 2.5 2.9 0.0
聚类结果为:形成{1,2,3,4,5}和{6}两个簇。 与 Weka 的聚类结果不一致。 过程 3:(初始簇中心选择 3) 选择实例 6 作为第 1 个簇中心、 实例 2 作为第 2 个簇中心。 迭代结果如表 3 所示。
说明: 7 个输入属性——Increased –lym (淋巴细胞升高) 、 Leukocytosis (白细胞升高) 、 Fever(发烧)、Acute-onset(起病急)、Sore-throat(咽痛)、Cooling-effect(退热效 果)、Group(群体发病),1 个输出属性——Cold-type(感冒类型)。网络结构包括 7 个 输入结点和 1 个输出结点,选择 9 个隐藏层结点。 4.假设有两个类,各有 100 个实例。第一个类中的实例是患有病毒性感冒(Cold-type = Viral) 的患者数据。第二个类中的实例是患有细菌性感冒(Cold-type = Bacterial)的患者数据。根据 以下规则回答下面的问题。
3
(3) SplitsInfo(Temperature)= - (3/15log2(3/15) + 2/15log2(2/15) + 4/15log2(4/15) + 5/15log2(5/15) + 1/15log2(1/15)) = 2.1493 (4) Gain(Temperature) = Info(I)- Info(I, Temperature)≈0.9968-0.6406 = 0.3561 (5) GainRatio(Temperature) = Gain (Temperature) / SplitsInfo(Temperature) = 0.3561 /2.1493 = 0.1657 7. 使用表 2.3 中的数据,计算以下关联规则的置信度和支持度值。
表 2 第一次到第二次迭代中实例与簇之间的简单欧氏距离
簇中心 簇中心
C1 = (2.5,5.0) 和 C2=(1.5,1.0)
Instance 1 2 6 C1 2.9 4.1 C2 2.9 0.0
C1 =( 3.5,4.25) 和 C2=(3.125,1.875)
IF Increased –lym(淋巴细胞是否升高)= Yes & Sore-throat(是否有咽痛症状 )= No THEN Cold-type = Viral (rule accuracy = 80%,rule coverage = 60%)
(1) 患有病毒性感冒的患者中有多少人淋巴细胞升高且没有咽痛症状? 60 (2) 患有细菌性感冒的患者中有多少人淋巴细胞升高且没有咽痛症状? 60/0.8-60=15 5.在不使用 Sore-throat(咽痛)属性的情况下,使用 Weka 软件为表 1.1 建立一棵决策树,解
1
释和评估结果,并对表 1.2 中的实例进行分类。
决策树(C4.5)检验数据为训练集,分类正确率 80%,模型性能一般。 分类表 1.2 中的两个实例结果:第一个实例被分类为患有细菌性感冒( Cold-type = Bacterial),第二个实例被分类为患有病毒性感冒(Cold-type = Viral)。
部分习题参考答案
第 1 章 认识数据挖掘
1.对于以下问题,考虑使用有指导的学习方法、无指导的聚类方法和数据查询方法中的哪一种 更为合适。若使用有指导的学习方法,请确定可能的输入属性和输出属性。 略。 2.定义“成功人士”的概念。确定概念中的属性特征,并分别从传统角度、概率角度和样本角 度描述这个概念。 略。 3.为表 1.1 感冒类型诊断数据集画一张前馈神经网络图。
相关文档
最新文档