粗糙集与决策树的分类器设计与对比

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

集合，Va 是属性 a R 的值域； f 为 X R V 的一个信息函数，它为每个对象 X i 的每个属性 a 赋予了一个属性值，即 a R, X i X , f a ( X i ) Va 。
对于信息系统 S ( X , R, V , f ) ， R C D, 其中，C 为条件属性集，D 为决策属性集。具有条件属性和决策属性的信息系统称为决策表。 1.1.2 等价关系属性值相同的两个对象之间的关系为等价关系。对象 X i 和对象 X j 关于属性 A 的等价关系，记为 IND( A) ( X i , X j ) ( X i , X j ) X X , a A, f a ( X i ) f a ( X j ) 。 1.1.3 等价集
对属性集 A 中具有相同等价关系的元素集合成为等价关系 IND(A)的等价集， X A 表在论域 X 中，

示在属性 A 下与 X 具有等价关系的元素的集合,记 X A X j ( X , X j ) IND( A) 。 1.1.4 等价划分从所采集的训练数据集中把属性相同的样品聚类，形成若干等价集，构成 A 集合。在论

1.1.6 正域、负域和边界全集 X 可以划分为 3 个不相交的区域，即正域 POSA 、负域 NEGA 、边界 BNDA ：
正域： POSA (Y ) BY 负域： NEGA (Y ) X BY 边界： BNDA (Y ) BY BY 由此可见： BY BY BNDA (Y ) 。 1.2 属性约简粗糙集属性约简一般分为两种，也就是信息系统的属性约简和决策表的属性约简。下面给出相关的概念： 1.2.1 信息系统的属性约简信息系统的属性约简，对于一个属性集合来说，如果它满足下面两个条件，则称为该信息系统的一个约简（RED）：
1)IND(B) = IND(A); 2)p B, IND( B p ) IND( B).
第一条可以理解为，属性集合 B 和属性全集 A 具有相同的数据分辨能力；第二条可以理解为，去掉集合 B 中的任意一个属性都会降低其数据的分辨能力，即导致部分对象不可分辨。 1.2.2 决策表的属性约简决策表的属性约简，对于一个属性集合 B ( B C ) 来说，如果它满足下面两个条件，则称为该决策表的一个约简（RED）：
2， 3 ，并且具有特性：域 X 中对属性集 A 的所有等价集形成的划分表示为 A Ei Ei X A , i 1，
Ei ; 当i j时， Ei X

E
j
;
E。
i
1.1.5 上下近似
（B X , B X）设 U 为论域，称为概念 X 的上下近似，其中： B X x U x B X , B X x U x B X .
步骤一，建立决策树模型：利用训练集建立并精化一棵决策树。这个过程实际上是一个从数据中获取知识，进行机器学习的过程。这个过程分为两个阶段：建树（Tree Building）：这是一个递归的过程，最终将得到一棵树；剪枝（Tree Pruning）：剪枝的目的是降低由于训练集存在噪声而造成的起伏。步骤二，利用生成完毕的决策树对输入数据进行分类：对输入的待测样品，从根结点依次测试记录待测样品的属性值，直到到达某个叶结点，从而找到该待测样品所在的类。 3.2.2 决策树 ID3 算法 Quinlan 提出的 ID3 算法是决策树算法的代表，具有描述简单、分类速度快的特点。ID3 算法采用分治策略，通过选择窗口形成决策树，利用信息增益寻找训练集数据库中具有最大信息量的属性，建立决策树的一个结点，再根据该属性的不同取值建立树的分支，在每个分支子集中重复建立树的下层结点和分支过程。 ID3 算法的基本思想是：任取一个属性作为决策树的根结点，然后就这个属性所有取值创建树的分支。用这棵树来对训练数据集进行分类，如果一个叶结点无标记否则，选取一个从该结点到根路径中没有出现过的属性为标记，标识该结点，然后就这个属性所有的取值继续创建树的分支；重复算法步骤。这个算法一定可创建一棵基于训练集的正确的决策树，然而这个决策树却不一定是最简单的。不同的属性选取顺序将生成不同的决策树。ID3 算法过程如下： ID3 算法：输入：训练数据集 D，特征集 A，阈值ε 输出：决策树 T。（1）若 D 中所有实例属于同一类 Ck ，则 T 为单结点树，并将 Ck 作为该结点的类标记，返回 T；（2）若 A ,则 T 为单结点树，并将 D 中实例数最大的类 Ck 作为该结点的类标记，返回 T；（3）否则，计算 A 中各特征对 D 的信息增益，选择信息增益最大的特征 Ag ；（4）如果 Ag 的信息增益小于阈值ε，则置 T 为单结点树，并将 D 中实例数最大的类 Ck 作为该结点的类标记，返回 T; （5）否则，对 Ag 的每一个可能值 ai ，依 Ag = ai 将 D 分割为若干个非空子集 Di ，将 Di 中实例最大的类作为标记，构建子结点，由结点及其子结点构成树 T，返回 T；（6）对第 i 个子结点，以 Di 为训练集，以 A Ag 为特征集，递归地调用步（1）—步（5），得到子树 Ti ,返回 Ti 。以下我们将对同一数据对进行粗糙集和决策树的分类实验，并得出结论。在结论中，我们将对粗糙集和决策树分类器从输出规则、计算复杂度等几个方面来进行对比。 4、实验过程及其结果本文采用了实验使用的 UCI 数据集中的 Iris（鸢尾花）数据集（详见附录一）。该数据集一共有 150 个实例，四个属性（分别为某植物的萼片长、萼片宽、花瓣长、花瓣宽。），以及三个类别（山鸢尾、变色鸢尾、维吉尼亚鸢尾），并分别使用决策树和粗糙集分类器对
粗糙集分类器与决策树分类器的设计与对比
游小英
摘要：粗糙集和决策树都是特征选择过程中常用的两种方法,都属于归纳学习方法,都可以从复杂的数据集中抽取出规则。这些规则包含了条件和决策的关系，通常被表示成 if-then 的形式。本文阐述了粗糙集分类器与决策树分类器的设计过程，并运用两种分类器对同一数据集进行分类处理，并从中得出一些有意思的结论，为相关研究提供一系列有价值的参考。关键词：粗糙集、决策树、分类器 The design and comparsion on The rough set classifier and decision tree classifier Abstract: rough set and decision tree are both commonly used in the process of feature selection, which belong to inductive learning method,They can all extract rules from complex data sets. These rules contain the relationship between conditions and decisions, often expressed as if-then forms. This paper expounds the rough set classifier and decision tree classifier's design process, and use two kinds of classifier to classify the same data set , and from which can gain some interesting conclusions, and provide a series of valuable reference for related research. Keywords: rough set, decision tree, classifier. 现在是一个信息大爆炸的时代。我们无时无刻不在体验着信息时代的便捷。知识爆炸使得获取知识变得容易了，但是信息量是巨大的，并不是所有的信息都是有用的。在实际生活中，信息采集的对象多数是多特征、高噪声、非线性的数据集。尤其是在样本很少的情况下，用很多特征来进行分类器的设计，其计算复杂程度是巨大的，同时也会降低分类器的性能。于是，如何从高维特征空间降低到低维特征空间便成为了一个重要的问题。特征选择也叫属性约简，是模式识别、数据挖掘和机器学习中的共同问题。特征选择的目的在于通过去除一些冗余的属性，从而保留一些对原有数据集保持分类能力不变的特征。粗糙集和决策树都是特征选择过程中常用的两种方法,都属于归纳学习方法。都可以从复杂的数据集中抽取出规则。这些规则包含了条件和决策的关系，通常被表示成 if-then 的形式。粗糙集是 1982 年由波兰数学家 Pawlak 提出的一种归纳学习的方法。该方法以粗糙近似为基础，通过去除一些冗余的属性，保留一些对原有数据集保持分类能力不变的特征，对特征空间进行降维，从而减少对一些数据的处理以得到归纳知识。该方法解决了原有数据集特征过多、计算复杂度大等问题，因此也越来越受人们重视，被广泛应用于各个领域。决策树中最著名的 ID3 算法是 1986 年由 Quinlan 提出的。该算法以信息论为基础，以信息增益为启发标准，通过选择扩展属性对目标数据集进行分类，减少所要处理的数据量，从而快速产生近似最优的规则。本文从理论和实验两个角度来分别阐述粗糙集分类器与决策树分类器的设计过程，并运用两种分类器对同一数据集进行分类处理，从而得到一系列有意思的结论。 1、粗糙集概述本节将给出一些粗糙集的相关基础知识，包括一些相关概念、属性约简、规则提取等相
关知识。 1.1 相关概念 1.1.1 信息系统与决策表信息系统通过指定对象的基本特征和特征值来描述对象的知识，以通过一定的方法从大量数据中发现有用的知识和决策规则。信息系统通常用一个四元数组 S 表示：
S ( X , R, V , f )
ห้องสมุดไป่ตู้
其中，X 为非空对象集，并称为论域，记 X X 1 , X 2 ,..., X N ; R 为对象的属性集合；V 为属性值的
), 如果满足 max ( sig（a, B; C） )的属性有多个，求得 are max ( sig（a, B; C）则选取一个
aB C aB C
与 B 的属性值组合最小的属性，令 B B ; 4）计算 I(B,D)=H(D)-H(D|B)，如果 I(B,D)=I(C,D),则转到第 5）步，否则转到第 3）步； 5）输出 B REDC (C )，算法结束。基于信息熵的属性约简算法的思想是从空集开始，根据互信息大小依次添加属性，直到能够正确分类数据为止。 3.2 决策树分类器设计、算法 3.2.1 决策树分类器设计决策树分类器设计过程如下：
2、决策树概述决策树是一种用来表示人们为了做出某个决策而进行的一系列判断过程的树形图。决策树方法的基本思想是：利用训练数据集数据自动地构造决策树，然后根据这个决策树对任意实例进行判定。决策树的基本组成部分有：决策节点、分支和叶。树上的每个内部节点表示一个属性上的测试，叶节点表示一个类。 3、粗糙集分类器与决策树分类器比较粗糙集和决策树都属于归纳学习方法，都可以从一个离散值决策表中抽取出规则。然而，这两者不同在于，决策树算法着眼于寻找有用信息来进行分类，通过构造树状结构获取规则；而粗糙集则注重去除一些对分类没有贡献的冗余属性，通过求属性约简和值约简获取规则。以下，我们将以信息熵的属性约简算法和 ID3 算法为例，对粗糙集和决策树进行分类器设计，给出相应的算法。 3.1 粗糙集分类器设计、算法 3.1.1 粗糙集分类器设计过程粗糙集分类器设计过程如下： 1）构造决策表:输入训练数据集、将特征二值化、去除重复和不一致对象构造决策表、简化决策表； 2）规则训练：规则获取、规则简化、得到最终训练规则； 3）分类判别：输入待测数据集、特征二值化，并在训练规则表查找符合规则、根据决策属性值输出类别。 3.1.2 粗糙集属性约简算法以下给出基于信息熵的属性约简算法：输入决策表 DT = , （U, C D, V, f）输出：决策表的一个相对约简 B REDC (C ). 具体步骤： 1）计算 DT 的条件属性 C 和决策属性 D 的互信息 I(C,D)=H(D)-H(D|C); 2）令 B ; 3） a C B, 计算a相对于 B的重要度 sig (a, B; C ) h( D B) H ( D B a);
闽南师范大学研究生课程考试答题本
考生姓名学号
游小英 2017022014 数学与统计学院
所在学院
专业方向应用数学（粗糙集方向）考试科目考试日期计算智能算法 2017 年 1 月 30 日
评
分
课程论文得分：课程论文评阅意见：
评卷人：
注：1、无评卷人签名试卷无效； 2、必须用红色钢笔或圆珠笔阅卷。用铅笔阅卷无效。 3、答题本封面双面印制，与学生提交的论文一并装订。
1)POSB (D) = POSC (D); 2)p B, POSB p ( D) POSB ( D).
第一条可以理解为，属性集合 B 和属性全集 A 具有相同的数据分类能力；第二条可以理解为，去掉集合 B 中的任意一个属性都会降低其数据的分类能力，即导致部分不同类的对象不可区分。称所有约简的交集为核，记为 CORE Bi , Bi RED. 求属性约简的方法可分为以下 4 种：基于差别矩阵的属性约简方法、盲目删除属约方法、基于属性重要度的属性约简方法，以及基于信息熵的约简方法。第一种方法理论上是可以求出所有约简，后面的方法都是通过启发式来寻找符合条件的约简。由于信息系统和决策表属性约简的方法几乎一样，本文只讨论决策表的属性约简。 1.3 基于属性约简的规则提取对于给定的决策表，可以通过属性约简和值约简两步来得到决策表约简，然后从决策表约简求出其规则。具体可以分为以下 5 步： 1）删除表中的重复对象； 2）求属性约简，删除冗余的条件属性； 3）求值约简，删除每个对象的冗余属性值； 4）求出其决策表约简； 5）根据其约简，求出决策规则。