数据挖掘作业

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第3章分类与回归

3.1简述决策树分类的主要步骤。

3.2给定决策树,选项有:(1)将决策树转换成规则,然后对结果规则剪枝,或(2)对决策树剪枝,然后将剪

枝后的树转换成规则。相对于(2),(1)的优点是什么?

3.3计算决策树算法在最坏情况下的时间复杂度是重要的。给定数据集D,具有m个属性和|D|个训练记录,

证明决策树生长的计算时间最多为)

⨯。

m⨯

D

log(D

3.4考虑表3-23所示二元分类问题的数据集。

(1)计算按照属性A和B划分时的信息增益。决策树归纳算法将会选择那个属性?

(2)计算按照属性A和B划分时Gini系数。决策树归纳算法将会选择那个属性?

3.5证明:将结点划分为更小的后续结点之后,结点熵不会增加。

3.6为什么朴素贝叶斯称为“朴素”?简述朴素贝叶斯分类的主要思想。

3.7考虑表3-24数据集,请完成以下问题:

(1)估计条件概率)

|-

C。

P)

A

(+

|

(2)根据(1)中的条件概率,使用朴素贝叶斯方法预测测试样本(A=0,B=1,C=0)的类标号;

(3)使用Laplace估计方法,其中p=1/2,l=4,估计条件概率)

P,)

C

(+

|

(-

P,

A

|

|

(+

P,)

P,)

A

(+

B

|

(-

P。

|

C

(-

P,)

|

)

B

(4)同(2),使用(3)中的条件概率

(5)比较估计概率的两种方法,哪一种更好,为什么?

3.8考虑表3-25中的一维数据集。

表3-25 习题3.8数据集

根据1-最近邻、3-最近邻、5-最近邻、9-最近邻,对数据点x=5.0分类,使用多数表决。 3.9 表3-26的数据集包含两个属性X 与Y ,两个类标号“+”和“-”。每个属性取三个不同值策略:0,1或

2。“+”类的概念是Y=1,“-”类的概念是X=0 and X=2。

(1) 建立该数据集的决策树。该决策树能捕捉到“+”和“-”的概念吗?

(2) 决策树的准确率、精度、召回率和F1各是多少?(注意,精度、召回率和F1量均是对“+”类定

义)

(3) 使用下面的代价函数建立新的决策树,新决策树能捕捉到“+”的概念么?

⎪⎪⎪⎩⎪

⎪⎪⎨⎧+=-=+--=+===

j i j i j i j i C ,,10),(如果实例个数

实例个数如果如果

(提示:只需改变原决策树的结点。)

3.10 什么是提升?陈述它为何能提高决策树归纳的准确性? 3.11 表3-27给出课程数据库中学生的期中和期末考试成绩。

表3-27 习题3.11数据集

(1) 绘制数据的散点图。X 和Y 看上去具有线性联系吗?

(2) 使用最小二乘法,由学生课程中成绩预测学生的期末成绩的方程式。

(3) 预测期中成绩为86分的学生的期末成绩。

3.12通过对预测变量变换,有些非线性回归模型可以转换成线性模型。指出如何将非线性回归方程

β

y=转换成可以用最小二乘法求解的线性回归方程。

ax

相关文档
最新文档