集成学习
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
个体的增加将使得个体间的差异越来越难以获得
选择性集成
选择性集成
选择性集成
选择性集成
• 提出了选择性集成(Selective Ensemble)
• 证明了 “Many Could be Better Than All” Theorem
在有一组个体学习器可用时,从中选择一部分进行集成,可能比用 所有个体学习器进行集成更好
Suppose we make no prior assumptions about the nature of the classification task. Can we expect any classification method to be superior or inferior overall? No Free Lunch Theorem: Answer to above question: NO If goal is to obtain good generalization performance, there is no context-independent or usage-independent reasons to favor one algorithm over others
Bias and Variance
Given true function F(x) Estimated function g(x; D) from a training set D Dependence of function g on training set D. Each training set gives an estimate of error in the fit Taking average over all training sets of size n, MSE is
Difference between expected
来自百度文库
Difference between observed value and expected value
Motivation
泛化能力是机器学习关注的一个根本问题 泛化能力 (generalization ability) 表征 了学习系统对新事件的适用性
–
High-bias implies poor match
High-variance implies a weak match
Variance: measures the specificity of the match
–
Bias and variance are not independent of each other
“当前机器学习四大研究方向之首” [T.G. Dietterich, AIMag97]
Example: Weather Forecast
Reality
1
2
X
X
X X X X X X X
X X X
3
4 5 Combine
X
Intuitions
Majority vote Suppose we have 5 completely independent classifiers…
49
【带权的采样:讨论】
通过给训练数据赋以不同的权,实际上使得每 个学习器关注训练集中的某一部分,这也符合 我们最初民主投票的想法。 直观上,每个学习器关注训练集中的某一部分, 很多个训练集应该可以覆盖训练集中的大部分, 只要巧妙的选择加权平均的权,就可以得到更 好的学习效果。
50
【用多个学习器覆盖样本空间】
• Low bias: on average, we will accurately estimate F from D • Low variance: Estimate of F does not change much with different D
Average error that g(x;D) makes in fitting F(x)
What’s is Machine Learning
机器学习是人工智能的核心研究领域之一
经典定义:利用经验改善系统自身的性能 随着该领域的发展,主要做智能数据分析 典型任务:根据现有数据建立预测模型,然后 用来预测新数据。
机器学习的重要性
……
分子 生物学
工业过 程控制 生物 信息学 计算 金融学
Ensemble Learning (集成学习)
Outline
What’s is Machine Learning? Background and Motivation The AdaBoost Algorithm How and why AdaBoost works? AdaBoost for Face Detection
36
个体学习器越精确、差异越大,集成越好
Ensemble learning
Estimate
which is defined by
Training set , Generate a set of functions
Ensemble learning
Define the misfit of function as
Ensemble learning
选择性集成
既然多个学习器的集成比单个学习器更好,那 么是不是学习器越多越好?
更多的个体意味着:
• 在预测时需要更大的计算开销,因为要计算更多的个体预测 • 更大的存储开销,因为有更多的个体需要保存
EEA
[A. Krogh & J. Vedelsby, NIPS94]
51
【分类设计的重采样技术】
分类器设计的重采样技术也被称为“自适 应的权值重置和组合(arcing, adaptive reweighting and combining); 这类方法的主要思想是利用同一个训练样 本集合构造多个分类器,然后以某种方式 将这些分类器组合成一个分类器;
52 主要方法包括:bagging 算法和boosting算法
信息 安全
机器人 行星 地质学
遥感信 息处理
……
机 器 学 习
美国航空航天局JPL实验室的科学家在《Science》(2001 年9月)上撰文指出:机器学习对科学研究的整个过程正起到
越来越大的支持作用,……,该领域在今后的若干年内将取得稳定 而快速的发展
No Free Lunch Theorem
2 N 1 Cij 2 N Cik N 2 Ek
2 i 1 j 1 i 1 ik
N
N
N
in regression
j j Sum j 1
m
j 1
Sgn Sum j f kj d j 0
in classification
Z.-H. Zhou, J. Wu, and W. Tang. Ensembling neural networks: many could be better than all. Artificial Intelligence, 2002, 137(1-2): 239-263
–
If accuracy is 70% for each
10 (.7^3)(.3^2)+5(.7^4)(.3)+(.7^5) 83.7% majority vote accuracy 99.9% majority vote accuracy
–
101 such classifiers
【如何构建好的集成】
选择性集成
选择性集成思想的一般性:利用多个个体, 并对个体进行选择,可以获得更好的结果
问题
个体解
个体解
… ... … ...
个体解
选择性集成的思想可以用到更多的领域中去
选择的基本原则:个体的效用高、差异大
【集成学习:如何构造?】
办法就是改变训练集。
通常的学习算法,根据训练集的不同,会给出 不同的学习器。这时就可以通过改变训练集来 构造不同的学习器。然后再把它们集成起来。
泛化能力越强越好
提高泛化能力是机器学习永远的追求
Motivation
在机器学习中,直接建立一个高性能的分类器是很 困难的。 但是,如果能找到一系列性能较差的分类器,并把 它们集成起来的话,也许就能得到更好的分类器。 日常生活中,所谓的民主决策,便是部分的利用了 这种想法。 譬如选总统,每个人都以自己的考虑,投下自己的 一票,但最后由多数人选出的总统,似乎应该好于 由一个人指定的总统。
h2(x) Classifier 2
……
hn(x) Classifier N
x Input32 vector
•集成学习
集成学习(Ensemble Learning)是一种机器学习范式, 它使用多个学习器来解决同一个问题
问题 问题
… ... … ... 由于集成学习可以有效地提高学习系统的泛化能力,因此它成 为国际机器学习界的研究热点
No Free Lunch Theorem
If one algorithm seems to outperform another in a particular situation, it is a consequence of its fit to a particular pattern recognition problem. For a new classification problem, what matters most: prior information, data distribution, size of training set, cost fn.
Bias and Variance
No “best classifier” in general
–
Necessity for exploring a variety of methods
How to evaluate if the learning algorithm “matches” the classification problem Bias: measures the quality of the match
No Free Lunch Theorem
It is the assumptions about the learning algorithm that are important Even popular algorithms will perform poorly on some problems, where the learning algorithm and data distribution do not match well In practice, experience with a broad range of techniques is the best insurance for solving arbitrary new classification problems
期望结果 个体1 (精度33.3%)
期望结果
个体1 (精度33.3%)
个体2 (精度33.3%)
集成(精度33.3%)
个体2 (精度33.3%)
集成 (精度0%)
个体3 (精度33.3%)
个体3 (精度33.3%)
投票
投票
个体必须有差异
个体精度不能太低
EEA
[A. Krogh & J. Vedelsby, NIPS94]
The mean square error
Ensemble learning
The average mean square error
Ensemble regression function
Ensemble learning
Now, the mean square error is :
Ensemble learning
30
【集成学习:动机】
集成学习,就是一种把输入送入多个学习器, 再通过某种办法把学习的结果集成起来的办法。 这每一个学习器,也就相应的被称为“弱学习 器”。 集成学习最早也叫做“Committee Voting Method”,也就是因为它和投票的过程相似。
31
【集成学习:图示】
Output Σαihi(x) Classifier ensemble Combine Classifiers h1(x) Classifier 1