Adaboost算法概述

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

AdaBoost classiﬁcation algorithm
ZHAO xingli
( Southwest University, Beibei District, Chongqing Institute of Computer and Information Science, Chongqing 400715) Abstract: This article is designed to the classiﬁcation algorithm -AdaBoost which is one of the ten learning algorithms in data mining .Firstly it introduces the origin, development and application, then introduces the main training process of the algorithm, performance improvements, and ﬁnally discusses the algorithm. Key words:AdaBoost algorithm; development background; training process ; performance improvement;classiﬁcation algorithm
现已有人将Adaboost算法应用到交通管理信息系统中,利用弱学习器来训练道路交通数据,预测道路交通流量情况并且取得良好的效果。Lin将Real Adaboost算法应用到基于内容的图像检索系统中,达到降低噪声的效果,比KNN分类算法准确性有所提高[4]。也有人讲AdaBoost算法应用到区域图像检索中,通过反复训练若分类器而得到了错分率较小的强分类器，可以进行精确地查询。为了解决不同的特征融合分类问题,有人提出了对AdaBoost 算法的改进,改进后的算法在手写数字识别中取得了较好的效果。李闯等人把改进后的AdaBoost 算法应用于目标检测问题等方面。
Freund and Schapire于1995年改进了Boosting算法，取名为Adaboost算法，该算法不需要提前知道所有关于弱学习算法的先验知识，同时运算
效率与Freund在1991年提出的Boosting算法几乎相同。Adaboost即Adaptive Boosting，它能自适应的调整弱学习算法的错误率，经过若干次迭代后错误率能达到预期的效果。另一方面，它不需要精确知道样本空间分布，在每次弱学习后调整样本空间分布，更新所有训练样本的权重，把样本空间中被正确分类的样本权重降低，被错误分类的样本权重将会提高，这样下次弱学习时就更能更关注这些被错误分类的样本。该算法可以很容易地应用到实际问题中，因此，已成为目前最流行的Boosting算法。
AdaBoost分类算法赵兴丽( 西南大学计算机与信息科学学院重庆 400715;) 摘要: 本文主要讲述了数据挖掘中十大分类算法之一AdaBoost学习算法的起源、发展和应用，然后介绍了该算法的主要训练过程，性能改进，最后对该算法进行了展望。关键词: AdaBoost算法；发展背景；训练过程；性能改进；分类算法
在机器学习领域，Boosting算法是一种通用的学习算法，这一算法可以提升任意给定的学习算法的性能其思想源于1984年Valiant提出的”可能近
似正确”-PAC(Probably Approximately Correct)学习模型，在PAC模型中定义了两个概念-强学习算法和弱学习算法。其概念是: 如果一个学习算法通过学习一组样本，识别率很高，则称其为强学习算法;如果识别率仅比随机猜测略高，其猜测准确率大于50
Found=0
For j=1:m eval[j]=Value[i][j](存放所有样本具有
2 AdaBoost算法的基本原理（主要的训练过程）
AdaBoost算法的核心思想是针对同一个训练集训练出不同的分类器（弱分类器），然后把这些弱分类器集合起来，构成一个性能更加强大的分类器（强分类器）。
2.1 弱分类器的构造
构造弱分类器算法如下: 矩形特征值：Value[i][j], 1≤i≤n代表所有的Haar特征，1≤j≤m代表所有的样本 FAULT=(curlerror+currerror)表示当前分类器的错误率的最小值，初始设置：curlerror=currerror=m(m是个暴力大的数值就可以) For i=1:n(对每个特征)
1989年Kearns and Valiant研究了PAC学习模型中弱学习算法和强学习算法两者间的等价问题，即任意给定仅仅比随机猜测稍好(准确率大于0.5)的弱学习算法，是否可以被提升为强学习算法？若两者等价，则我们只需寻找一个比随机猜测稍好的若学习算法，然后将其提升为强学习算法，从而不必费很大力气去直接寻找强学习算法。就此问题，Schapire于1990年首次给出了肯定的答案。他主持这样一个观点：任一弱学习算法可以通过加强提升到一个任意正确率的强学习算法，并通过构造一种多项式级的算法来实现这一加强过程，这就是最初的Boosting算法的原型。Freund于1991年提出了另外一种效率更高的Boosting算法。但此算法需要要提前知道弱学习算法正确率的下限，因而应用范围十分有限。
1 AdaBoost算法的提出背景及其应用范围
Adaboost算法是机器学习中一种比较重要的特征分类算法，已被广泛应用人脸表情识别、图像检索等应用中。就目前而言，对Adaboost算法的研究以及应用大多集中于分类问题，在一些回归问题上也有所应用。Adaboost主要解决的问题有: 两类问题、多类单标签问题、多类多标签问题、回归问题。