类别不平衡数据的集成分类研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘要
分类是近年来机器学习和模式识别领域研究的热点问题之一,在分类问题中存在一类特例:各类别样例在数量上相差悬殊,这类数据集被称为不平衡数据集,其中数量占优的类别被称为多数类,稀疏的类别被称为少数类。
传统分类算法在类别平衡的数据集上能有效发挥性能优势,在不平衡数据集上传统分类算法为了追求较高的整体分类精度,将倾向于把少数类样例误分为多数类。
而这些数量稀疏的少数类一旦被误分所付出的代价将比误分多数类的代价高很多。
提高分类器在类别不平衡的数据集上的分类性能和泛化能力在许多应用领域都具有重要价值和现实意义。
如银行信贷风险评估系统中正常借贷交易出现的概率要远高于不良信贷出现的概率,银行工作人员最为关注的正是从众多的正常借贷业务中找出这些极少数的不良交易。
文本检测、产品质量检验、垃圾邮件过滤等都是类别不平衡数据集的典型应用背景。
为简单起见本文仅考虑二分类问题,多分类问题可转换为若干个二分类问题来解决。
为了提高类别不平衡数据集上的分类性能人们在传统的分类算法的基础上提出了很多改进算法。
如代价敏感、SMOTE 重抽样、改进的 SVM、单边选择以及被动学习。
这些算法概括起来主要在两个方面做了改进:一是在数据层面通过对多数类的欠抽样和对少数类的过抽样技术人为改变数据集的数据分布使之变得类别间基本平衡,然后再采用传统的分类算法;另一种是保持原有数据集的分布特征,在算法层面入手通过调整各类样例的训练权重以使分类器能更好地照顾少数类。
这些方法虽然在不同的角度做了改进但少数类的分类精度仍普遍较低,受 Valiant 的 PAC 学习模型的启发很多专家和学者期望通过集成的方式将类别不平衡数据集上的弱学习器组合成可有效提高少数类分类性能的强学习器。
然而传统集成算法的gma下限与错误率之间是开口朝上的二次函数关系,单纯地降低不平衡数据集上的错误率并不能有效提高少数类的分类精度。
本文首先回顾了集成学习中的基本知识和主流模型,讨论了目前集成学习方法的优势和难点。
重点分析了针对类别不平衡数据集的各种改进算法。
本文作者从关注错分的少数类样例入手分别在数据层面和算法层面提出了两种改进方案并通过实验验证了前一种算法的有效性。
本文的主要研究工作有:
1、回顾并总结了基分类器的各种组合形式,阐释了各种选择性集成方式。
在已有理论成
果的基础上分析了刀切法和自助法两种主流重抽样方法的统计学意义,指出在独立同分布且矩有限的条件下通过若干次的重抽样可得到具有良好收敛性的数据模型。
分析了类别不平衡数据集的分布特点,讨论了针对类别不平衡数据集的分类评价标准,归纳了类别不平衡数据集上的改进分类算法。
2、基于不平衡数据集上的集成学习方案,作者提出了一种新的适用于不平衡数据集的算
法ILAdaboost。
该算法利用每一轮学习到的基分类器对原始数据集进行测试评估,并根据评估结果将原始数据集分成四个互不相交的子集,然后在四个子集中重新采样形
I
成平衡的数据集供下一轮基分类器学习。
重抽样是在四个互不相交的子集中进行的,因此保证了基分类器之间的错误独立性。
而抽样过程中更加倾向于少数类和分错的多数类,故合成分类器的分界面会偏离少数类。
在 10 个 UCI 数据集及 2 个仿真数据集上的实验结果证实了该算法的有效性。
3、在“最富信息”策略指导下本文作者结合不平衡数据集的特点在算法层面提出了一种
改进方案。
该方案首先参照类别比例分别给多数类和少数类样例赋以不同的初始权重,每轮基分类器训练完成后对原始数据集进行预测评估,并根据不同的预测结果对下一轮的训练样例更新权重。
理论上该方案能合理照顾少数类又不至于导致多数类牺牲太多的分类精度。
关键字:集成学习,不平衡数据集,最富信息策略,AdaBoost,重抽样
中图分类字:TP391
II
ABSTRACT
Classification is one of the most important fields of machine learning and parttern recognization in recent years.There is a special case in classification problems: The sample is of great difference in number, and this type of data set is called unbalanced dataset, in which category conterned less amount of samples is called minority and the other categories are called majority. The traditional classification can take advantage of performance on the balanced datasets, but on the unbalanced datasets tends to take minority as majority for the purpose of higher classification accuracy. While the minority is essential in the entire dataset, the misclassification will pay a higher cost than the misclassification of majority. Improving the performance and generalization ability of classifier on the unbalanced datasets is of great value and significance. In bank credit risk assessment system, the probability of normal lending transactions is much higher than that of bad credit, but the bank staff concerns the small percentage of bad transactions from the normal practices. Text detection, product quality testing, spam filtering are typical applications of unbalanced datasets. For simplicity this article considers only the two-category classification; the multiple classification can be converted to a number of dichotomous questions to resolve.
In order to improve the performance of classifier on unbalanced datasets, many improvement algorithm are put forward. Such as the cost-sensitive algorithm, SMOTE resample technology, improved SVM, the One-Sided selection algorithms as well as lazy learning. The algorithms are improved in two main areas: one is through undersampling the majority and oversampling the minority, changing the data distribution to get a basic balance of datasets, and then using the traditional classification algorithms. Another is to keep the original distribution of the dataset, starting at the algorithm level by adjusting the sample training weights so that the classifier is better to take care of a minority. Even so, the accuracy of the minority on unbalanced datasets is still very low. Inspired by the PAC model of Valiant, many experts and scholars hope to make weak learner on unbalanced datasets into strong learner which can effectively improve the performance of minority through integration. But in traditional integration algorithm the relationship between the infimum of gma and the error rate is opening up quadratic function. Simply reducing the unbalanced datasets error rate does not improve classification accuracy of minority. This article reviews the basic knowledge in integrated learning and the mainstream model, then illustrates a variety of selective integration method, discusses the advantages and difficulties of the current ensemble learning methods. The article mainly analyzes various improved algorithm of unbalanced datasets. On the basis of the inspiration by "most information strategy", two improved algorithms will be put forth and the former one will be verified by
III
experiment.
The main research object of the paper includes:
1. Reviewing and summarizing the various combinations of base classifiers, particularly selective integration method. On the basis of the former theory analysis, the paper analyzes the statistical significance of two kinds of mainstream to sampling methods, that is JackKnife and Bootstrap. And then point out that in the conditions of IID(independent identically distributed) and finite moment, good convergence of the data model can be obtained through the resampling of several. The paper also analyzes the distribution characteristics of the unbalanced datasets, discusses the classification evaluation criteria for unbalanced datasets, and inducts the improved classification algorithm on the unbalanced dataset.
2. The paper has put forth a new algorithm for unbalanced datasets-ILAdaboost on the basis of the integrated learning program. The algorithm uses base classifier learning from each iteration to evaluate the raw datasets and divides the original dataset into four disjunct subsets based on the assessment results. And then form a balanced data set for the next iteration of base classifiers by resample in four subsets. Because the minority and the wrong majority will be chosen more probably, the interface synthesis of classifier will deviate from the minority. The experimental results of 10 UCI datasets and 2 simulation dataset confirm the validity of the algorithm.
3. Under the guidance of "most information strategy", an improved proposal was made at the algorithm level referring to unbalanced datasets distribution. The majority and minority samples are assigned different initial weights individually according to category population. The assessment on the original dataset will be conducted after the training of base classified, and updated the next iteration weights of training samples according to the different predictions. Theoretically, this method can reasonably take care of the minority and will not cause too much accuracy loss of majority.
Keywords: ensemble learning, unbalanced datasets, most information strategy, AdaBoost, resample
Classification:TP391
IV
第一章绪论
4.本课题的研究背景和意义
在全球信息化浪潮的推动下,我们在工业化生产、数字化管理以及日常生活中所面临的数据总量在迅猛增长,我们似乎正在被充斥着并无多少实用价值的越来越多的信息所淹没。
如何从这些浩如烟海的数据中“淘”到我们真正需要的数据是数据挖掘和机器学习
要面临的一个富有挑战性的课题。
另一方面,计算机的计算和信息处理能力日益增强,但它在诸如人脸、手写体等目标体的识别,环境感知以及其他复杂环境下的决策能力还远不如生物系统,如何将计算机训练成为一个具备感知、识别、能动学习以及自适应能力的智能机器成了诸如人工智能,模式识别,机器学习等学科领域饶有兴趣的研究内容。
尽管如此但不可否认,过去的几十年里有关模式识别的研究进展相当迅速,其实际应用已从最初的光学字符识别(OCR)发展到现在的手写板输入,化学气味的识别,表情识别,图像识别,信息检索以及信号处理等领域。
分类问题(classification)是机器学习和模式识别领域要研究的基本内容之一,在我们的工业生产和日常生活中无时无刻不存在分类问题。
如在生产海鲜罐头的公司里我们希望计算机能自动将生产线上的鲈鱼和鲑鱼区分开。
在人脸识别系统中我们希望计算机能根据人脸中的特征信息自动判断是否是某一个人。
我们同样也希望计算机能自动在卫星云图上自动识别出哪些海面区域存在浮油而哪些区域是正常海面……机器学习中可用下面的语
言给分类器做一个形式化的描述:由n 个互不相交的集合组成一个模式空间
Space S ,S ,......S Ω=λ ,λ ,......λ表示给定的模式类别标签集合,分类器={},集合{}
1 2 n 1 2 m
Classifie的任务是对来自模式空间Space 的任意一个模式x (x∈Space)指定一个类别标签λ({}
λ∈Ω λ,其中的λ代表分类器不能识别此模式。
从训练过程中有没有人为m+1 m+1
指导的角度看,分类问题可以分为有监督学习(Supervised Learning)和无监督学习
(Unsupervised Learning)两种模式。
所谓有监督学习模式是指分类器在训练过程中显示地存在某种指导信号对训练集中的每个样例提供诸如类别标记或分类代价(Cost)等信息,并指导分类器降低总的误分代价。
所谓无监督学习模式是指学习器在训练过程中并无显示的指导信息,学习器对输入的训练样本自动形成聚类(Cluster)或通过某种隐式准则确定的“自然组织”[1]。
有些学者在研究多分类问题时又提出一种称为半监督学习模式(Semi-supervised Learning),在这种学习模式下输入的训练集既包含少量的标注样本还包含大量的未标注样本,它对于减少标注代价提高分类性能具有一定的现实意义。
不管是有监督学习、半监督学习还是无监督学习,分类器学习的主要目标是从已
1
有的包含有限数量样例的训练集上去寻找一个具有较强泛化能力的模型,以便使其对新来的未知数据(测试集)能有一个精确度较高的(或说错误概率较低的)预测。
故研究者在构造各种分类模型时如何提高其泛化能力便成了一个关键问题。
分类问题中有一种特殊情况即提交给分类器的数据集中各类别的样例在数量分布上差距很大,这样的数据集被称为类别不平衡的数据集。
由于类别不平衡数据集中数量上处于劣势地位的样例易被误分为其他类别或被忽略掉。
但现实问题中这些样例一旦被错分所要付出的代价往往比误分数量占优的样例代价要高。
如在卫星云图中绝大部分的区域都是正常的海面,只有很少的零星区域可能存在浮油,但一旦忽略这些零星区域探测便失去了意义。
在银行信贷风险评估系统中绝大部分的信贷业务都是正常业务只有极少数属于不良信贷,但这些极少数的不良信贷却是银行最为关注的业务。
在文本检测,网络入侵检测,产品检验等实际应用中同样存在类似的情形。
如何在这些类别不平衡的数据集上提高少数类别的识别精度成了分类问题中的一个难点,同时也为机器学习和模式识别领域开辟了新的研究空间,近年来相关问题备受业界专家和学者的青睐,也涌现出了很多理论成果。
1.2 本文的主要研究内容及创新点
本文在集成学习的基础理论和类别不平衡数据集的分布特点的基础上主要做了以下研究工作:
1、在前人的基础上分析了刀切法和自助法两种主要抽样方法的统计学意义。
总结了部分选择性集成算法的主要思想。
归纳了类别不平衡数据集上常用的分类评价标准,回顾并总结了基于类别不平衡数据集的分类算法。
指出了传统的集成算法在类别不平衡数据集上并不适用。
总结分析了基于类别不平衡数据集的几种改进集成算法的主要思想。
2、针对类别不平衡数据的分布特点本文在数据层面提出了一种新的适用于类别不平衡数据集的提升算法 ILAdaboost,该算法主要用每一轮产生的基分类器对数据集进行测试评估,再根据评估结果把原始数据集分为四个互不相交子集,最后在四个子集中经重抽样形成平衡的训练集供下一轮学习,重抽样过程中算法更倾向于少数类和错分的多数类,因此集成分类器的分界面会偏离少数类。
在 10 个 UCI 数据集和2个仿真数据集上的实验对比证实了该算法的有效性。
3、根据“最富信息”策略,错分的样例往往对分类器来说包含了有重要价值的信息,因此本文在传统AdaBoost 的基础上在算法层面提出了一种改进方案。
该方案参照数据集中少数类和多数类的样例比例分别给它们赋不同的初始权重,在每一轮更新权重过程中,依据前一轮的评估情况而选择不同的更新策略,理论上说该方案能在保证多数类的分类精度不至于做出太大牺牲的同时提高少数类的分类精度。
2
5.本文的组织结构
本文针对不平衡数据集上的集成学习的相关问题展开研究,以期望通过集成的方法提高在类别不平衡数据集上的分类精度以及少数类的关注程度,本文的研究内容按如下形式组织:
第一章为绪论部分。
主要阐述了在类别不平衡的数据集上进行分类学习的研究背景和意义,介绍了本文的主要研究工作及创新点。
第二章主要介绍了集成学习的基本概念和理论,阐述了目前常用的三种集成模型的基本框架,节选了部分主流的选择性集成算法,指出了集成学习中遇到的一些困难。
第三章分析了类别不平衡数据集的分布特点,研究了针对类别不平衡数据集的分类评价标准,归纳了基于类别不平衡数据集的主流分类算法。
第四章介绍了代价敏感学习的概念,回顾并总结了基于代价敏感的主流学习算法,讨论了代价敏感学习的局限性。
第五章受“最富信息”策略的启发,本文作者结合不平衡数据集的分布特点以Adaboost
算法为框架,在数据层面提出了一种更加倾向于少数类和分错的多数类的算法---ILAdaboost,并通过实验验证了该算法的有效性。
此外,在算法层面提出了一种根据类别比例赋初始权重,根据错分类型更新权重的改进方案。
第六章是总结与展望。
总结了目前已完成的研究工作,指出了研究的不足之处,并在此基础上对未来的研究工作进行展望。
最后为本文的参考文献及攻读硕士学位期间发表的论文及致谢部分。
第二章集成学习的理论基础
集成学习(Ensemble Learning)源于生物学神经系统研究领域,后为解决分类问题引入机器学习和模式识别领域。
其基本模型是借助多个分类精度并不过分要求太高的基分类器(Base Classifier,Weak Classifier)的分类效果通过某种有效方式组合起来去共同解决同一问题,组合而成的分类器称为集成分类器(Ensemb le Classifier,分类器系综)或混合专家(Mixture-of-Expert)。
Schapire 于1990 年构造了一种多项式级的组合方式---最初
的 Boosting 方法。
Schapire 在该文中通过构造法证明了一个大胆的猜想---弱学习算法和
强学习算法间是等价的!
2.1 集成学习的基本概念
在 PAC(Probably Approximately Correct)中,在对一组概念学习过程中,若能找到一个识别率特别高且能用多项式级表达式进行表达的学习器,则称该学习器是强学习器;反之,
3
若只能找到一个识别率仅比随即猜测(可认为识别率为 50%)稍高点的学习器,则称该学习器是弱学习器[2]。
Schapire 在一篇文献中通过最初的Boosting 模型证明了一个大胆的猜想,即通过若干弱学习器(或称基分类器)的组合可得到一个识别率可与强学习器相媲美的集成学习器,这样可以不必刻意去求难度较大的强学习器[3]。
一年后,Freund 在 Schapire 最初的 Boosting 模型基础上构建了一个更为有效的集成模型。
后来 Drucker, Schapire 以及 Simard 在处理 OCR(Optical Character Recognition)任务时首次发现了以上两种算法在实际应用中存在相同的弊端,即两种算法都以基分类器识别率的下限为前提性假设,而实际应用中这个假设通常难以保障。
为了克服先前的 Boosting 算法在实际应用中不适用的难题,Freund 和 Schapire 于 1995 年提出一种称为 AdaBoost 的提升算法,AdaBoost 算法的执行效率和前述两种算法相差无几,但可在真实数据集中成功应用,并成为机器学习领域被深入研究和广泛使用的一种集成模型。
1996 年 Leo Breiman 在一篇学术报告上提出了一种可与 AdaBoost 算法相媲美的集成方法---Bagging(装袋)算法。
Leo Breiman 指出,Bagging 方法对不稳定的(Unstable)构造过程能起到明显的优化作用,有时对稳定的构造过程反而会略微降低它们的性能。
所谓不稳定的构造过程是指训练
集上样例的一个很小的变化∆ε(∆ε足够小)将会引起分类器性能ρ的明显变化,相反则
称为稳定的构造过程。
各个基分类器越不稳定组合而成的集成分类算法效果越优秀,泛化能力越强;而稳定的基分类器集成起来效果并不佳,甚至有时效果反而不如单一的基分类器。
神经网络、采用贪婪算法生成的决策树以及线性回归子集选择问题等都属于不稳定的;而k 紧邻方法是稳定的。
Bagging 和 AdaBoost 都是利用投票(分类)或取平均值(数值预测)的方式来组合各模型的输出;所不同的是,装袋中的各模型是单独建立的,而提升是循环迭代的,每个新模型受先前已建模型性能表现的影响。
本文将在 2.2 节中详细介绍这两种算法。
据我们所知,许多集成学习的研究者主要在两个方面做了大量探索和改进:一是如何生成对集成分类效果贡献更大的基分类器;二是在现存的多个基分类器基础上如何更加有效地将它们组合到一起,以达到更好的分类精度和更强的泛化能力。
从集成算法采用的基分类器上看,目前常见的分类器主要有两种做法:一是将各种同构的基分类器集成起来;另一种是将各种异构的基分类器集成起来。
所谓的同构的基分类器即是指在原始数据集上通过重采样技术形成不同的训练集,而各个基分类器在这些训练集上学习时采用相同的算法。
当然,同构的基分类器采用的学习算法相同但算法中具体使用的参数可能会随各训练集的不同而不同。
相对应地,异构的基分类器是指各个基分类器在学习时使用相同的训练集,采用不同的学习算法。
Xu L,Krzyzak A 以及Suen C Y 总结前人的工作和经验将基分类器的组合方式分成了三大类[4]:抽象水平,即各个基分类器的输出都是类标签;秩水平,即各个基分类器的输出是一个依据其分类效果而被赋予的秩序列;置信值水平,即各个基分类器的输出是一个
4
与其分类精度有关的概率分布。
从训练基分类器的类型上分,目前流行的集成分类算法大体可以分成并行训练基分类
器和串行训练基分类器两种,并行训练的典型代表有:Bagging、随即子空间(Random Subspace)、随机森林(Random Forest)、GASEN 等等,串行训练的典型代表有:AdaBoost、Arc-x4、LPBoot 等等。
使得分类结果更加健壮的一种方法是使用不同的随机数多次重复学习过程,然后将多
个分类器的预测结果通过投票(分类)或平均(数值类型)的方法组合起来。
随机化能增
加各个基分类器的差异性,故能提高整个组合分类器的分类效果。
和集成学习相比随机化
可以适用于稳定的学习器,随机化为此所要付出的代价是可能会造成单个模型的正确率的
下降,所以要权衡使用,最好的随机范围要通过试验才能确定。
2.2 重抽样技术及相关统计学理论
重抽样技术起源于上世纪30 年代其本质是期望从原始数据模型中得到最有代表性的
样本。
重抽样方法的理论基础是,基于统计学意义考虑若从自然模型中抽取数据集的过程
是独立且服从同分布的,则可以认为用由此得到的数据集去拟合自然模型是理想的。
刀切
法(JackKnife)与自助法(BoostStrap)是目前在很多应用领域都方便有效,且具有一定
的统计学理论基础的两种主流重抽样技术。
对集成学习而言,重抽样技术主要涉及四个要
素:○1在服从什么分布特征的数据集上进行重抽样○2基于什么样的重抽样策略○3采用什么类型的算法○4如何集成。
本节将主要介绍这两种抽样技术的主要做法和统计量估计,以期
引起研究者对抽样方法的统计学意义的重视。
2.2刀切法(JackKnife)[5]
刀切法也称为“留一法”(Leave one out),由Maurice Quenouille 于 1949 年首次提出,
后经 Quenouille 和 John W.Tukey 先后不断完善,并由后者将其正式命名为“JackKnife”,刀
切法的诞生成为了近代重抽样方法的标志。
刀切法的主要思想是在具有n 个训练样例且与
未知概率模型服从独立同分布的训练集D 上({}
D , 2 , , x
=x x )顺次剔除一个训练样例
1n
x ,把剩下的数据集{}
D 1, , , , , , 称为刀切法数据集,而计算统计量的估
'=
x x2 x i-x
x
+
i 1 i 1 n
计值时直接采用刀切法数据集。
假设记δ为估计算子的真实值,δˆ为估计算子的期望值,则二者的偏差可写为
ˆ
b =δ-E(δ ) (2-1)
将刀切法用于上式的估计,得到带有偏差的刀切法估计为:
5
山东师范大学硕士学位论文
ˆˆ b = (n -1)(δ
(⋅) -δ)
j (2-2)由(2-2)式可得估计算子期望值的刀切法估计为:
~ δ=ˆ
δ
-b
j
=ˆδ-[(nˆ
-1)(δ (⋅)
ˆ
-δ)]
(2-3)
=ˆnδ-(nˆ
-1)δ (⋅)
1
n
以上公式中的∑
δ (⋅) =(i)
ˆδ
ˆ n 1
i=
由公式(2-3)知刀切法为真实偏差的一个无偏估计。
类似地,也可得到刀切法的方差的估计值。
一般认为,基于刀切法的重抽样技术得到的统计量相比传统的估计方法效果要好,它可将统计量的估计误差由原始的O(1) 降为( 1 )
O ,但同时由此带来的计算复杂度也更
n n
2
大。
刀切法的另一个局限性是当参数不够光滑(Smooth)时刀切法将会失效。
如对中位数就是一个不光滑的例子。
Efron 曾用老鼠数据的例子证实刀切法对中位数的估计有时会因方差较大而失效[6]。
而且在大数据集上用刀切法对中位数估计的标准差有时不能很好地收敛到真实的标准差。
2.2.2 自助法(BoostStrap)[7]
BoostStrap 一词来源于德国拉斯伯的科幻小说《 The Adventures of Baron Munchhausen》,1979 年美国斯坦福大学 Bradley Efron 在《The Annals of Statistics》刊物上首次发表了有关 BoostStrap 法的论文。
文中 Efron 明确了 BoostStrap 方法与刀切法的关系:○1BoostStrap 方法借助经验分布函数(Empirical Distribution Function)把不适定估计概率分布问题转变为在给定训练集上进行重抽样;○2在参数不光滑的数据集上 BoostStrap 方法比刀切法得到的统计量更为敏感;○3可以认为刀切法是 BoostStrap 方法泰勒展开式的一阶近似;○4二者在线性统计量的估计方差上表现相当,但在非线性统计量估计方差上由于刀切法对统计量线性拟合程度过于依赖,导致其在有效性上不及 BoostStrap 方法[8]。
BoostStrap 的抽样过程为,从含有n 个训练样例的原始数据集{}。