集成学习(图像处理)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
h2
Classifier 2
hn …
Classifier n
个体学习器
x1
x2 训练数据集
…
xn
待检样本
数学描述
―基展开”
F (x) m f (x)
m 1 M
与一般的基展开不同的是,这里的 f(x)是“弱学习器”,F(x)是将它们 按一定方式叠加的最终结果。体现 了“投票”的思想。
集成学习
张士杰
内容提要
集成学习简介 弱可学习定理 弱可学习定理 集成学习系统的构建 算法简介:Ada-Boosting&Bagging Ada-Boosting&Bagging 算法简介: 集成核匹配追踪学习机 谱聚类集成
集成学习简介
泛化能力
泛化:generalization
PAC学习理论
1994年,Kearns和Valiant在PAC学习基础上, 进一步将PAC区分为强可学习与弱可学习。
所谓强可学习就是,如果存在一个多项式复杂性的 学习算法来识别一组概念,并且识别错误率以概率 1-δ小于一个很小的常数ε,那么这组概念是强可 学习的。 如果存在一个多项式复杂性的学习算法识别一组概 念的正确率仅比随机猜测略好,那么这组概念是弱 可学习的。
Schapire通过一个构造性方法对该猜想作出了 肯定的证明。
证明思路
1,如何构造弱分类器; 2,证明PAC的两个条件:
证明这样组合的弱分类器与强分类器一样,在概率 1-δ下,其错误率小于ε; 证明构造过程的计算复杂性是多项式的。
证明思路
构造弱分类器:(Y∈{-1,1};令D是原始样 本集合)
[L.K. Hansen & P. Salamon, TPAMI90]
由于集成学习技术可以有效地提高学习系统的泛化能力, 因此它成为国际机器学习界的研究热点,并被国际权威 T.G. Dietterich 称为当前机器学习四大研究方向之首[T.G.
Dietterich, AIMag97]
集成学习
集成学习(Ensemble Learning)是一种机器学习范式, 它使用多个(通常是同质的)学习器来解决同一个问题
Boosting?
是否可以将弱学习算法“提升”(boosting) 成强学习算法?如果回答是肯定的,那么在学 习概念时,只要找到比随机猜测略好的弱学习 算法,就可以将其提升为强学习算法,而不必 直接去寻找通常情况下很难获得的强学习算法。
--- Kearns和Valiant 弱学习算法与强学习算法的等价性猜想
return h = sign(h1+h2+h3)
学习算法
Learn(ε, δ, EX) if(
1/ 2
) return WeakLearn(EX)
flip coin instance v from EX where h1(v)=c(v)
α = g-1(ε) h2 = Learn(α, δ/k,EX2)
return the first instance v from EX where h1(v) ≠h2(v)
证明思路
如果这样得到的h的错误率比原来的弱分类器 都低,则递归地使用这一过程可得到任意低的 错误率ε。
Weak1 h11 Weak2 h12 h1
Weak3
h13 h2 h3
h
证明思路
集成学习中使用的多个学习器称为个体学习器 当个体学习器均为决策树时,称为“决策树集成” 当个体学习器均为神经网络时,称为“神经网络集成”
…… ……
问题 问题
… ... … ...
ቤተ መጻሕፍቲ ባይዱ
集成学习的用处
集成学习技术已经在行星探测、地震波分析、 Web信息过滤、生物特征识别、计算机辅助医 疗诊断等众多领域得到了广泛的应用
从D中选择子集D1,根据D1训练第一个分类器h1, 只需其是一个弱分类器。 选择样本集合D2,使得其中有一半被h1错分,根 据D2训练新的分类器h2。 选择样本集合D3,使得h1和h2对其中所有的样本 分类不一致,根据D3训练分类器h3。 对新样本的分类结果由h1、h2和h3按多数表决h来 决定。
根据三个分布D1、D2、D3的关系,可以证明: 如果h1, h2, h3在任意分布上的错误率小于等 于α﹤1/2,则h=sign(h1+h2+h3)在任意分布上 的错误率小于等于g(α)=3α2-2α3。 由此,经过有限次递归,便得到任意给定精度 的分类器。
证明思路
在上述构造过程中,弱分类器的误差置信度都 是1-δ/k,因此,最终分类器的置信度满足 (1-δ/k)k>1-δ。 由于算法每次递归时的性能增益与弱学习算法 的最大错误率ε呈现多项式关系,可以证明递 归层数是多项式复杂性的,由此证明了构造过 程是多项式复杂性。
只要能用到机器学习的地方,就能用到 集成学习
神经科学基础
Ensemble(集群)一词,正是沿用了 Hebb在神经科学中的术语。 Hebb倡导的多细胞集群学说,主张 视觉客体是由相互关联的神经元集群 来表象,并称其为集群。
最终决策
Σaihi
Combined classifier
合并决策
h1
Classifier 1
集成学习系统的构建
集成方法的系统结构
并行结构,每个学习机都是独立构造的
如Bagging算法
序列结构,每个学习的构造都是前向依赖
Boosting及CWP系统等
扩展的Boosting系统
树状结构,同层并行,不同层间序列结构
集成学习系统的构建
集成学习算法中的合并方法
投票法 平均法 加权平均法 其他方法
个体的增加将使得个体间的差异越来越难以获得 Many Could be Better Than All:在有一组个体学习 器可用时,从中选择一部分进行集成,可能比用所有 个体学习器进行集成更好
集成学习系统的构建 结论
Krogh等人通过研究发现,一个有效的集成系统不仅应该包 含一组精度较高的分类器,而且这些分类器的差异要尽可 能的大。
一个理想的集成系统包含一组精确的且尽可能不同的分类器 而且分类器的数目也不是越多越好
集成学习系统 的构建
最终决策
Σaihi
Combined classifier
合成方法选择 有选择的集成
h1
Classifier 1
h2
Classifier 2
hn …
Classifier n
分类器扰动
特征扰动
x1
x2
弱可学习定理
这个定理说明:多个弱分类器可以集成为一个 强分类器。 为集群机器学习奠定了理论基础,同时定理中 给出了构造弱分类器的重要方法启示:打破已 有分类器在样本分布上的优势,重新采样使后 面的分类器更多地关注难学习的样本。
集成学习系统的构建
集成学习系统的构建
期望结果 期望结果 个体1 (精度33.3%)
…
xn
训练样本扰动
训练数据集
集成学习系统的构建
基于不同训练数据集的构造
基于相同训练集采取不同重抽样技术,如Bagging,
Boosting算法等 将给定的学习对象分成若干个组
基于不同特征集的构造 如随机子空间法、特征选 择、随机投影等 基于不同性质的学习机器或分类器的构造 如线性 判别分类器、二次判别分类器以及符号逻辑分类器 的集成(Kuncheva等人) 基于相同学习机器的不同学习参数的构造,如SVM 中核参数,K均值聚类的初始条件等 其他方法,如综合采用多种构造方式
学习算法
Learn(ε, δ, EX)
if(
1/ 2
) return WeakLearn(EX)
α = g-1(ε)
h1 = Learn(α, δ/k, EX1=EX) h2 = Learn(α, δ/k,EX2) h3 = Learn(α, δ/k,EX3) return h = sign(h1+h2+h3)
学习算法
Learn(ε, δ, EX)
if(
1/ 2
) return WeakLearn(EX)
g(x) = 3x2 – 2x3
α = g-1(ε) h2 = Learn(α, δ/k,EX2) h3 = Learn(α, δ/k,EX3)
h1 = Learn(α, δ/k, EX1=EX)
Effective ensembles have accurate and diverse components
个体越多越好吗?
既然多个个体的集成比单个个体更好,那么是 不是个体越多越好?
更多的个体意味着: • 在预测时需要更大的计算开销,因为要计算更多的个体预测
• 更大的存储开销,因为有更多的个体需要保存
由某个确定但未知的任意分布随机抽取样本, 学习器通过这些样本来学习一个概念,其任务 是学到一个假设或预言规则使得它和这个概念 相一致。这一假设不需要绝对正确,其错误率 足够低(小于ε)只要以一定的概率(1-δ) 成立即可。同时要求学习算法是(关于1/ε, 1/δ)多项式时间的。
Valiant, A theory of learnability,1984
张李王
张李王
集成(精度33.3%)
个体1 (精度33.3%)
个体2 (精度33.3%)
个体2 (精度33.3%)
集成 (精度0%)
个体3 (精度33.3%)
个体3 (精度33.3%)
投票
投票
个体必须有差异
个体精度不能太低
EEA
[A. Krogh & J. Vedelsby, NIPS94]
个体学习器越精确、差异越大,集成越好
h3 = Learn(α, δ/k,EX3) return h = sign(h1+h2+h3)
if heads return the first h1 = Learn(α, δ/k, EX1=EX) else return the first instance v from EX where h1(v) ≠c(v)
R. Schapire and Y. Freund won the 2003 Godel Prize
(one of the most prestigious awards in theoretical computer science)
Prize winning paper (which introduced AdaBoost): "A decision theoretic generalization of on-line learning and an application to Boosting,“ Journal of Computer and System Sciences, 1997, 55: 119-139.
算法简介 Ada-Boosting&Bagging
Boosting
Significant advantageous: Solid theoretical foundation Very accurate prediction Very simple (“just 10 lines of code” [R. Schapire]) Wide and successful applications Often does not overfit ……
What Makes a Good Ensemble?
Krogh and Vedelsby, 1995 Can show that the accuracy of an ensemble is mathematically related:
EEA E is theerrorof theentireensemble E is theaverageerrorof thecomponent classifiers A is a termmeasuringthediversityof thecomponents
泛化能力 (generalization ability) 表征 了学习系统对新事件的适用性
泛化能力越强,处理新数据的能力越好
泛化能力是机器学习关注的基本问题之一
提高泛化能力是永远的追求
集成学习的重要性
问题:对20维超立方体 空间中的区域分类
左图中纵轴为错误率
从上到下的四条线分别表示: 平均神经网络错误率 最好神经网络错误率 两种神经网络集成的错误率 令人惊奇的是,集成的错误率比 最好的个体还低
集成学习理论基础——
弱可学习定理
弱可学习定理
定理:一个概念是弱可学习的,当且仅当它 是强可学习的。
1990年,Schapire在PAC (Probably Approximately Correct,概率近似正确 )学习框架下证明了这一重要 定理,由此奠定了集群机器学习的理论基础。
PAC学习理论