融合无监督和监督学习策略生成的多分类决策树解读
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
本文提出一种将无监督聚类和监督学习的支持向量机方法结合起来生成多分类决策树的方法.它的基本思想如下:待方法的多类样本可以看成是某一宏观层面之上的刺激机制激励下,或者是在某个进程中产生的.该宏观层面之下刺激机制的差异,或者是进程中的不同阶段导致不同类的出现。差异小的刺激机制,或者相邻进程阶段产生的类别之间的特征较为接近,反之则分散.因而,多类之间虽然具有向异性,但他们在特征空间的分布上有内在规律.如果决策树的树形结构能够体现多类之间的内在规律,就可能在计算效率和准确性上获得较好的均衡,从而提高决策树的性能.本文介绍的方法的目的是通过无监督聚类确定反映多类之间分布规律的决策树的树型,继而利用监督学习支持向量机方法的准确率高的特点对分布接近的类别进行详细分区,使多分类决策树具有较高的计算效率和准确率.
QIU De-hong,CHENChuan-bo
(School of Comouter Science and Technology Huazhong University of Science and Technology,Wuhan 430074,china)
Abstract:In this paper,a new method which combines unsupervised and supervised learning steategy is putforward to construct the multi-classification decision tree,It firstly uses the unsupervised clustering to determine the structure of the multi-classification decision tree,whose each node has a binary branch.The unsupervised clustering is able to find out the relationship between the mulit-classes,therefore the decision tree’s structure determined by it is the best one that fits to the distribution of mulit-classes in feature space.Then,a supervised learning method,i.e.support vector machine,is used to classify the two groups of samples of each node of the decision tree.Most cases the multi-classes cannot be classified by a linear hyperplane,kernel functions are therefore introduced into to solve it.Simultaneously,unsymmetrical constrains of Lagrangian coefficients are set to overcome the negative influences of unbalanced train samples. These efforts guarantee the efficiency and accuracy of the multi-classification decision tree.Satisfying results were obtained in experiment.
Key words:multi-classificationdecision tree; unsupervised cluster support vector machine
1引言
多分类问题是一个比较常见的问题,机器学习理论和方法的研究在解决二分类问题上取得了比较满意的结果[1,2].多分类问题虽然也有研究[3],但在理论构架和现实方法上还有相当大的困难.目前解决多分类问题主要运用多分类决策数,决策树上的每一个节点对应一个二分类器,实际上是利用二分类方法解决多分类问题.生成类分类决策树的方法有(1)‘一对其余’,决策树上N个节点对应的二分类器只判断是某一类还是其余类;(2)‘一对一’,决策树上N(N-1)/2个节点对应的二分类器只能对类中的两类作出是否判断;(3)‘一半对一半’,即决策树的节点对应的二分类器将节点上的类二等分(允许一类别在两个节点上出现),直至叶节点.决策树上节点的数目为,其中为大于或等于log2(N)最小整数.这三类方法生成的决策树虽然具有不同的计算效率和分类效果,但各自在应用中取得了比较好的结果[4~7].
关键词:多分类决策树;无监督聚类;支持向量机
中图分类号:TP391.41文献辨识码:A文章编号:1000-1200(2004)04-0555-05
Construction of Multi-classification Decision Tree Combining
Unsupervised and SupervisedLearning Strategy
融合无监督和监督学习策略生成的多分类决策树
邱德红,陈传波
(华中科技大学计算机科学与技术学院,湖北武汉430074)
摘要:提出了一种融合无监督和监督两种学习策略生成多分类决策树的方法.它首先利用无监督聚类方法能够发现待分类样本之间的内在联系和规律的特点,确定出最为符合多类样本分布特征的决策树的树型,继而利用监督学习支持向量机的方法对样本进行准确的分类.通过采用核函数和不对称的L agrangian系数限制条件,支持向量机很好的解决了样本特征空间上的线性不可分性和决策树型确定过程中出现的训练样本不对称性的影响.该方法具有较高的计算效率和准确性,在实验中取得了比较好的结果.
无监督学习和监督学习是机器学习方法研究的二大策略.无监督学习方法如无监督聚类(UC)[8,9]是从样本的特征向量出发,研究通过某种算法特征比较相似的样本聚集在一起,从而达到区分具有不同特征的样本的目的.无监督聚类的优点是可以发现样本中隐含的共性和规律,但是由于没有专家知识的监督,分类的准确性有限.监督学习方法是通过对已知类别的训练样本的学习,实现对未知样本的分类判断.支持向量机(SVM)[1,2]是一种主要用于二分类的准确率比较高的监督学习方法,其基础是统计学习理论中的结构风险最小化原则.它在许多领域得到了很好的Biblioteka Baidu用[10~12].
QIU De-hong,CHENChuan-bo
(School of Comouter Science and Technology Huazhong University of Science and Technology,Wuhan 430074,china)
Abstract:In this paper,a new method which combines unsupervised and supervised learning steategy is putforward to construct the multi-classification decision tree,It firstly uses the unsupervised clustering to determine the structure of the multi-classification decision tree,whose each node has a binary branch.The unsupervised clustering is able to find out the relationship between the mulit-classes,therefore the decision tree’s structure determined by it is the best one that fits to the distribution of mulit-classes in feature space.Then,a supervised learning method,i.e.support vector machine,is used to classify the two groups of samples of each node of the decision tree.Most cases the multi-classes cannot be classified by a linear hyperplane,kernel functions are therefore introduced into to solve it.Simultaneously,unsymmetrical constrains of Lagrangian coefficients are set to overcome the negative influences of unbalanced train samples. These efforts guarantee the efficiency and accuracy of the multi-classification decision tree.Satisfying results were obtained in experiment.
Key words:multi-classificationdecision tree; unsupervised cluster support vector machine
1引言
多分类问题是一个比较常见的问题,机器学习理论和方法的研究在解决二分类问题上取得了比较满意的结果[1,2].多分类问题虽然也有研究[3],但在理论构架和现实方法上还有相当大的困难.目前解决多分类问题主要运用多分类决策数,决策树上的每一个节点对应一个二分类器,实际上是利用二分类方法解决多分类问题.生成类分类决策树的方法有(1)‘一对其余’,决策树上N个节点对应的二分类器只判断是某一类还是其余类;(2)‘一对一’,决策树上N(N-1)/2个节点对应的二分类器只能对类中的两类作出是否判断;(3)‘一半对一半’,即决策树的节点对应的二分类器将节点上的类二等分(允许一类别在两个节点上出现),直至叶节点.决策树上节点的数目为,其中为大于或等于log2(N)最小整数.这三类方法生成的决策树虽然具有不同的计算效率和分类效果,但各自在应用中取得了比较好的结果[4~7].
关键词:多分类决策树;无监督聚类;支持向量机
中图分类号:TP391.41文献辨识码:A文章编号:1000-1200(2004)04-0555-05
Construction of Multi-classification Decision Tree Combining
Unsupervised and SupervisedLearning Strategy
融合无监督和监督学习策略生成的多分类决策树
邱德红,陈传波
(华中科技大学计算机科学与技术学院,湖北武汉430074)
摘要:提出了一种融合无监督和监督两种学习策略生成多分类决策树的方法.它首先利用无监督聚类方法能够发现待分类样本之间的内在联系和规律的特点,确定出最为符合多类样本分布特征的决策树的树型,继而利用监督学习支持向量机的方法对样本进行准确的分类.通过采用核函数和不对称的L agrangian系数限制条件,支持向量机很好的解决了样本特征空间上的线性不可分性和决策树型确定过程中出现的训练样本不对称性的影响.该方法具有较高的计算效率和准确性,在实验中取得了比较好的结果.
无监督学习和监督学习是机器学习方法研究的二大策略.无监督学习方法如无监督聚类(UC)[8,9]是从样本的特征向量出发,研究通过某种算法特征比较相似的样本聚集在一起,从而达到区分具有不同特征的样本的目的.无监督聚类的优点是可以发现样本中隐含的共性和规律,但是由于没有专家知识的监督,分类的准确性有限.监督学习方法是通过对已知类别的训练样本的学习,实现对未知样本的分类判断.支持向量机(SVM)[1,2]是一种主要用于二分类的准确率比较高的监督学习方法,其基础是统计学习理论中的结构风险最小化原则.它在许多领域得到了很好的Biblioteka Baidu用[10~12].