(完整word版)数据挖掘与生物医学应用作业杨帆

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

《数据挖掘与生物医学应用》作业
姓名：杨帆学号：B11090314
1.请用分箱方法对向量[3, 6, 7, 15, 11, 40, 33, 20, 30]进行清除噪声处理。

要求是分别使用等深度和等宽度
分割，然后再分别使用均值、中值和边界平滑。

答：等深度分割：
分类一：3 6 7
分类二：11 15 20
分类三：30 33 40
均值平滑: 5 5 5 15 15 15 34 34 34
中值平滑: 6 6 6 15 15 15 33 33 33
边界平滑: 3 7 7 11 11 20 30 30 40
等宽度分割：
分类一：3 6 7 11 [3 ,14]
分类二：15 20 [15 ,26]
分类三：30 33 40 [27 ,40]
均值平滑：7 7 7 7 18 18 34 34 34
中值平滑：7 7 7 7 18 18 33 33 33
边界平滑：3 3 3 14 15 15 27 27 40
2.用直方图表示价格向量[1, 1, 5, 5, 5, 6, 6, 8, 8, 10, 10, 10, 12, 13, 13, 14, 15, 16, 17, 17, 17, 17, 18, 18,
18, 18, 18, 18, 18, 18, 20, 20, 22, 22, 23, 23, 25, 26, 26, 26, 27, 27, 27, 27, 27, 27, 27, 30, 30, 30]。

答：
3.请用表一所示数据作为训练数据，给出构建分类预测模型的步骤。

用表二所示数据作为测试数据，给出
预测每个人是否为终身教授(Tenured)的步骤。

表一
表二
答：
分为两步：
一，构建基于训练数据的模型；
在测试样本数据时，我们以样本的Years和Rank两个属相值为评判标准，来获得训
练模型。

在上述的实验中，我们对表一进行训练，得出模型的训练标准为Rank属性为
Professor或者Years属性值大于6时，我们判断该目标的Tenured为Yes，否则，为No 二，使用构建模型预测目标的类型或特征值。

将表二中的数据带入训练模型，通过判断其Rank和Years属性是否符合判断标准，断定其Tenured 属性。

则结果：
Tom Rank属性不是Professor且Years属性为2，故其Tenured属性为No；
Merlisa Rank属性不是Professor但Years属性为7，故其Tenured属性为Yes；
George Rank属性是Professor故其Tenured属性为Yes；
Joseph Rank属性不是Professor但Years属性为7，故其Tenured属性为Yes；
4.请用年龄、是否为学生以及信用等级为属性构建一棵决策树，用于判断能否批准客户的信用卡申请。

由于这种决策分支画成图形很像一棵树的枝干，故称决策树。

在本题中，我们对一个目标的年龄、是否为学生以及信用等级来作为判断标准进行评判。

在这三个属性中，很明显年龄属性可以包含其余两个属性，因此我们将其作为决策树的根节点。

对于大部分人小于30岁的一般为学生或者刚毕业，要对其进行是否学生的评判。

30到40岁的人一般都有工作，默认其有能力申请信用卡。

而大于40岁的人一般都已经建立了自己的信用等级，可以根据这个判断能否申请信用卡。

具体的
决策树如下：
30-40
5. 请查阅相关文献后给出决策树发展历史上有哪些重要的决策树算法？并简要描述其基本原理，并给出相
关文献的出处。

答：
（一）：第一个关于决策树的算法
[E. B. Hunt, J. Marin, and P . T. Stone’s book “Experiments in Induction” published by Academic Press in 1966]
原理：从一个空的决策树出发，通过添加新的判定节点来完善原有的决策树，直到新的决策树能够正确地将训练实例分类为止。

它从一组无次序、无规则的元组中推理出决策树表示形式的分类规则。

它采用自顶向下的递归方式，在决策树的内部结点进行属性值的比较，并根据不同的属性值从该结点向下分支，叶结点是要学习划分的类。

从根到叶结点的一条路径就对应着一条合取规则，整个决策树就对应着一组析取表达式规则。

（二）：第一个引起广泛关注的决策树算法 -- ID3
原理：ID3采用贪心方法，其中决策树以自顶向下递归的分治方式构造。

大多数决策树归纳算法都沿用
这种自顶向下的方法，从训练元组集和它们的相关联的类标号开始构造决策树。

随着树的构建，训练集递归地划分成较小的子集。

ID3算法中关键的一步是属性选择度量，即选择分裂准则。

其中的三种度量方法分别是信息增益、增益率和Gini指标。

（示例算法选择了第一种方法）。

当获取信息时，将不确定的内容转为确定的内容，因此信息伴着不确定性。

出处：[J. R. Quinlan’s paper in a book “Expert Systems in the Micro Electronic Age” edited by D. Michie, published by Edinburgh University Press in 1979]
（三）：最流行的决策树算法-- C4.5
原理：C4.5决策树能够根据决策树生成一系列规则集,我们可以把一颗决策树看成一系列规则的组合。

一个规则对应着从根节点到叶子节点的路径，该规则的条件是路径上的条件，结果是叶子节点的类别。

C4.5首先根据决策树的每个叶子节点生成一个规则集，对于规则集中的每条规则，算法利用“爬山”搜索来尝试是否有条件可以移除，由于移除一个条件和剪枝一个内部节点本质上是一样的，因此前面提到的悲观剪枝算法也被用在这里进行规则简化。

MDL准则在这里也可以用来衡量对规则进行编码的信息量和对潜在的规则进行排序。

简化后的规则数目要远远小于决策树的叶子节点数。

根据简化后的规则集是无法重构原来的决策树的。

规则集相比决策树而言更具有可操作性，因此在很多情况下我们需要从决策树中推理出规则集。

C4.5有个缺点就是如果数据集增大了一点，那么学习时间会有一个迅速地增长。

出处：[J. R. Quinlan’s book “C4.5: Programs for Machine Learning” published by Morgan Kaufmann in 1993]
（四）：最流行的用于回归的决策树算法– CART
原理：CART算法采用一种二分递归分割的技术，将当前的样本集分为两个子样本集，使得生成的的每个非叶子节点都有两个分支。

因此，CART算法生成的决策树是结构简洁的二叉树。

出处：[L. Breiman, J. H. Friedman, R. A. Olshen, and C. J. Stone’s book “Classification and Regression Trees” published by Wadsworth in 1984]
（五）：目前最强的基于决策树的算法–随机森林
原理：简单的说，随机森林就是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林
里的每一颗决策树之间是没有关联的，在得到森里之后，当有一个新的输入进入样本的时候，就让森里中的每一颗决策树进行一下判断，看看这个样本应该属于那一类（对于分类算法），然后看看那一类被选择最多，就预测这个样本为那一类。

而随机森林的算法主要包括决策树的生长和投票过程。

出处：[L. Breiman’s MLJ’01 paper “Random Forests”]
6.在构建决策树时，如何选择属性作为当前节点的测试属性对最终结果有着重要的影响。

现在表三和表四
中给出两组不同学生的相关信息，要求用信息增益度量的方法计算出选择哪种属性才是最佳的当前测试属性。

表三
表四
答：对于信息增益度量的方法即选择具有最高信息增益(或最大熵压缩)的属性作为当前结点的测试属性。

该属性使得对结果划分中的样本分类所需的信息量最小,并反映划分的最小随机性或“不纯性”。

对一个给定的样本分类所需的期望信息由下式给出。