数据挖掘作业

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2。“ +”类的概念是 Y=1 ,“ -”类的概念是 X=0 and X=2 。 表 3-26 习题 3.9 数据集
实例数
X
Y
+
-
0
0
0
100
1
0
0
0
2
0
0
100
1
1
10
0
2
1
10
100
0
2
0
100
1
2
0
0
2
2
0
100
(1) 建 立该数据集的决策树。该决策树能捕捉到“ +”和“ -”的概念吗? (2) 决 策树的准确率、精度、召回率和 F1 各是多少? (注意,精度、召回率和
义)
F1 量均是对“ +”类定
(3) 使 用下面的代价函数建立新的决策树,新决策树能捕捉到“
+ ”的概念么?
C(i , j )
0
如果 i j
1
如果 i , j
实例个数 如果 i , j 实例个数
(提示:只需改变原决策树的结点。 )
3.10 什么是提升?陈述它为何能提高决策树归纳的准确性?
3.11 表 3-27 给出课程数据库中学生的期中和期末考试成绩。
记录号
A
B
C

1
0
0
0
+
2
0
0
1
-
3
0
1
1
-
4
0
1
1
-
5
0
0
1
+
6
1
0
1
+
7
1
0
1
-
8
1
0
1
-
9
1
1
1
+
10
1
0
1
+
(1) 估计条件概率 P ( A | ) , P(B | ) , P(C | ) , P( A | ) , P(B | ) , P (C | ) 。
(2) 根据 (1) 中的条件概率,使用朴素贝叶斯方法预测测试样本 (3) 使用 Laplace 估计方法,其中 p=1/2 , l=4,估计条件概率
第 3 章分类与回归
3.1 简述决策树分类的主要步骤。
ຫໍສະໝຸດ Baidu
3.2 给定决策树,选项有: (1)将决策树转换成规则,然后对结果规则剪枝,或 枝后的树转换成规则。相对于 (2), (1)的优点是什么?
(2) 对决策树剪枝,然后将剪
3.3 计算决策树算法在最坏情况下的时间复杂度是重要的。
给定数据集 D,具有 m 个属性和 |D|个训练记录,
(2) 计算按照属性 A 和 B 划分时 Gini 系数。决策树归纳算法将会选择那个属性?
3.5 证明:将结点划分为更小的后续结点之后,结点熵不会增加。 3.6 为什么朴素贝叶斯称为“朴素”?简述朴素贝叶斯分类的主要思想。
3.7 考虑表 3-24 数据集,请完成以下问题: 表 3-24 习题 3.7 数据集
P (B | ) , P(C | ) 。
(A=0 , B=1 , C=0) 的类标号; P( A | ) , P( B | ) , P(C | ) , P( A | ) ,
(4) 同 (2) ,使用 (3)中的条件概率
(5) 比较估计概率的两种方法,哪一种更好,为什么? 3.8 考虑表 3-25 中的一维数据集。
表 3-27 习题 3.11 数据集
期中考试
期末考试
X
Y
72
84
50
63
81
77
74
78
94
90
86
75
59
49
83
79
65
77
33
52
88
74
81
90
(1) 绘 制数据的散点图。 X 和 Y 看上去具有线性联系吗?
(2) 使 用最小二乘法,由学生课程中成绩预测学生的期末成绩的方程式。 (3) 预 测期中成绩为 86 分的学生的期末成绩。 3.12 通过对预测变量变换,有些非线性回归模型可以转换成线性模型。指出如何将非线性回归方程
证明决策树生长的计算时间最多为 m D log( D ) 。
3.4 考虑表 3-23 所示二元分类问题的数据集。 表 3-23 习题 3.4 数据集
A
B
类标号
T
F
+
T
T
+
T
T
+
T
F
-
T
T
+
F
F
-
F
F
-
F
F
-
T
T
-
T
F
-
(1) 计算按照属性 A 和 B 划分时的信息增益。决策树归纳算法将会选择那个属性?
表 3-25 习题 3.8 数据集
X 0.5 3.0 4.5 4.6 4.9 5.2 5.3 5.5 7.0 9.5
Y-
-
+++-
-
+-
-
根据 1-最近邻、 3-最近邻、 5-最近邻、 9-最近邻,对数据点 x=5.0 分类,使用多数表决。
3.9 表 3-26 的数据集包含两个属性 X 与 Y ,两个类标号“ +”和“ -”。每个属性取三个不同值策略: 0,1 或
y ax 转换成可以用最小二乘法求解的线性回归方程。
相关文档
最新文档