数据挖掘作业
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第3章分类与回归
3.1简述决策树分类的主要步骤。
3.2给定决策树,选项有:(1)将决策树转换成规则,然后对结果规则剪枝,或(2)对决策树剪枝,然后将剪
枝后的树转换成规则。相对于(2),(1)的优点是什么?
3.3计算决策树算法在最坏情况下的时间复杂度是重要的。给定数据集D,具有m个属性和|D|个训练记录,
证明决策树生长的计算时间最多为)
⨯。
m⨯
D
log(D
3.4考虑表3-23所示二元分类问题的数据集。
(1)计算按照属性A和B划分时的信息增益。决策树归纳算法将会选择那个属性?
(2)计算按照属性A和B划分时Gini系数。决策树归纳算法将会选择那个属性?
3.5证明:将结点划分为更小的后续结点之后,结点熵不会增加。
3.6为什么朴素贝叶斯称为“朴素”?简述朴素贝叶斯分类的主要思想。
3.7考虑表3-24数据集,请完成以下问题:
(1)估计条件概率)
|-
C。
P)
A
(+
|
(2)根据(1)中的条件概率,使用朴素贝叶斯方法预测测试样本(A=0,B=1,C=0)的类标号;
(3)使用Laplace估计方法,其中p=1/2,l=4,估计条件概率)
P,)
C
(+
|
(-
P,
A
|
|
(+
P,)
P,)
A
(+
B
|
(-
P。
|
C
(-
P,)
|
)
B
(4)同(2),使用(3)中的条件概率
(5)比较估计概率的两种方法,哪一种更好,为什么?
3.8考虑表3-25中的一维数据集。
表3-25 习题3.8数据集
根据1-最近邻、3-最近邻、5-最近邻、9-最近邻,对数据点x=5.0分类,使用多数表决。 3.9 表3-26的数据集包含两个属性X 与Y ,两个类标号“+”和“-”。每个属性取三个不同值策略:0,1或
2。“+”类的概念是Y=1,“-”类的概念是X=0 and X=2。
(1) 建立该数据集的决策树。该决策树能捕捉到“+”和“-”的概念吗?
(2) 决策树的准确率、精度、召回率和F1各是多少?(注意,精度、召回率和F1量均是对“+”类定
义)
(3) 使用下面的代价函数建立新的决策树,新决策树能捕捉到“+”的概念么?
⎪⎪⎪⎩⎪
⎪⎪⎨⎧+=-=+--=+===
j i j i j i j i C ,,10),(如果实例个数
实例个数如果如果
(提示:只需改变原决策树的结点。)
3.10 什么是提升?陈述它为何能提高决策树归纳的准确性? 3.11 表3-27给出课程数据库中学生的期中和期末考试成绩。
表3-27 习题3.11数据集
(1) 绘制数据的散点图。X 和Y 看上去具有线性联系吗?
(2) 使用最小二乘法,由学生课程中成绩预测学生的期末成绩的方程式。
(3) 预测期中成绩为86分的学生的期末成绩。
3.12通过对预测变量变换,有些非线性回归模型可以转换成线性模型。指出如何将非线性回归方程
β
y=转换成可以用最小二乘法求解的线性回归方程。
ax