集成学习的优势
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
集成学习的优势
集成学习的数学理论源于法国数学家Marie Jean Antoine Nicolas de Caritat和Marquis de Condorcet发表的论文《多数决策的概率理论应用分析》,提出了Condorcet陪审团理论。
我国史书《资治通鉴》中讲到“兼听则明,偏听则暗”,古代谚语“三个臭皮匠,赛过诸葛亮”,都蕴含了集成学习的智慧。
1 集成学习的有效性
集成学习将多个基学习器组合形成强学习器,除在预测精度上的提升外,其有效性还体现在统计、计算和表示3个方面。
1)集成学习在统计上的有效性
对于学习问题的假设空间一般较大,并远远大于测试的已知假设空间范围,因此需要考虑在有限的测试空间,如何运用学习器达到在学习问题全部假设空间的效能。
如果使用单一的学习器,会导致在已知假设空间范围内,为了达到很高的预测效能而导致过度拟合,但缺乏泛化能力,在学习问题的全部假设空间上表现一般,即单一学习器预测值与假设空间实际值偏离过大。
通过结合多个相近效能的学习器,降低单一学习器的偏离问题,得到具有一定泛化能力的预测结构,从而在全部假设空间具有更好的预测效能。
2)集成学习在计算上的有效性
任何问题的学习器本质是给出假设空间上的学习函数,该函数能够为假设空间上所有点给出误差最小的问题解。
由于假设空间一般比给出的示例数据范围大得多,根据已有测试数据集的最优解,一般会陷入局部极小点风险;最优解问题采用神经网络或决策树会陷入NP 困局,因此使用多个相似效能学习器的结合,采用估算方法逼近最优解,是解决假设空间最优学习问题的方法。
3)集成学习在表示上的有效性
当学习问题的假设空间较大时,学习器依托的示例数据不能表示全部假设空间,很多真实存在的假设可能不存在示例假设中。
使用单个学习器难以突破已给出的示例假设空间,利用多个学习器的结合,由于使用的假设空间不同,通过集成能够更好地逼近真实假设,从而能够在更大的真实假设空间发挥更好的学习效能。
集成学习有效性示意图如图7-2所示。
图7-2 集成学习有效性示意图
2 集成学习的准确性
在上述的集成学习有效性分析中,通常将各基学习器(也称弱学习器)默认为相互独立的,即认为相互多样性最强。
当各基学习器存在关联时,会降低集成学习的效能,甚至集成学习预测精度低于基学习器的预测精度。
对于一个二分类问题h(x)∈{1,-1},假设预测目标真实值为y,那么对于基学习器h i(x),其分类错误的概率为:
对于N个基学习器h i(x),使用“大数表决”的原则,当超过一半的基学习器分类正确时,那么集成学习分类正确:
集成学习分类不正确的概率为:
根据霍夫丁不等式,可以得到集成学习误差为:
可以发现集成学习误差上限由基学习器数量N和基学习器误差ε决定,当基学习器数量N越多时,集成学习误差上限越小;当基学习器误差ε<0.5时,基学习器误差ε越小,集成学习误差上限越小。
这里看出来,基学习器一般为弱学习器,一般要求其分类或预测准确度应当高于随机猜测的分类器,即准确度高于50%。
3 集成学习的多样性
在上述的集成学习准确性分析中,我们认为各基学习器相互独立,即基学习器误差不存在相关影响,其误差概率独立,即:
但是实际上集成学习中基学习器误差难以独立,即多个基学习器会在同一个(一批)样本上犯错。
对于一个二分类问题,存在3个数据样本的数据集,构建4个不同基学习器用于对数据集进行分类,4个基学习器在数据集上的分类效果如表7-1所示,其中“√”表示能正确分类,“×”表示不能正确分类。
表7-1 4个基学习器在数据集上分类效果
那么分析基学习器C1、C2、C3和C4,选取其中3个基学习器分别进行集成,集成学习EL1={C1,C2,C3},EL2={C2,C3,C4},观察EL1中的C1、C2、C3,两两之间的相似度为33.33%,EL2中的C2、C3、C4中,C2与C4的相似度为100%,与C1的相似度为33.33%。
按照大数原则进行集成,EL1在数据集的分类精度(正确率)为100%,集成学习精度比基学习器精度都要高。
然而,EL2在数据集的分类精度(正确率)为66.67%,与基学习器相当,集成学习并没有提高预测效果。
因此,通过本实例可以发现,集成学习中的多样性对集成学习精度有重要影响。