集成学习的优势

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

集成学习的优势
集成学习的数学理论源于法国数学家Marie Jean Antoine Nicolas de Caritat和Marquis de Condorcet发表的论文《多数决策的概率理论应用分析》，提出了Condorcet陪审团理论。

我国史书《资治通鉴》中讲到“兼听则明，偏听则暗”，古代谚语“三个臭皮匠，赛过诸葛亮”，都蕴含了集成学习的智慧。

1 集成学习的有效性
集成学习将多个基学习器组合形成强学习器，除在预测精度上的提升外，其有效性还体现在统计、计算和表示3个方面。

1)集成学习在统计上的有效性
对于学习问题的假设空间一般较大，并远远大于测试的已知假设空间范围，因此需要考虑在有限的测试空间，如何运用学习器达到在学习问题全部假设空间的效能。

如果使用单一的学习器，会导致在已知假设空间范围内，为了达到很高的预测效能而导致过度拟合，但缺乏泛化能力，在学习问题的全部假设空间上表现一般，即单一学习器预测值与假设空间实际值偏离过大。

通过结合多个相近效能的学习器，降低单一学习器的偏离问题，得到具有一定泛化能力的预测结构，从而在全部假设空间具有更好的预测效能。

2)集成学习在计算上的有效性
任何问题的学习器本质是给出假设空间上的学习函数，该函数能够为假设空间上所有点给出误差最小的问题解。

由于假设空间一般比给出的示例数据范围大得多，根据已有测试数据集的最优解，一般会陷入局部极小点风险；最优解问题采用神经网络或决策树会陷入NP 困局，因此使用多个相似效能学习器的结合，采用估算方法逼近最优解，是解决假设空间最优学习问题的方法。

3)集成学习在表示上的有效性
当学习问题的假设空间较大时，学习器依托的示例数据不能表示全部假设空间，很多真实存在的假设可能不存在示例假设中。

使用单个学习器难以突破已给出的示例假设空间，利用多个学习器的结合，由于使用的假设空间不同，通过集成能够更好地逼近真实假设，从而能够在更大的真实假设空间发挥更好的学习效能。

集成学习有效性示意图如图7-2所示。

图7-2 集成学习有效性示意图
2 集成学习的准确性
在上述的集成学习有效性分析中，通常将各基学习器（也称弱学习器）默认为相互独立的，即认为相互多样性最强。

当各基学习器存在关联时，会降低集成学习的效能，甚至集成学习预测精度低于基学习器的预测精度。

对于一个二分类问题h(x)∈{1,-1}，假设预测目标真实值为y，那么对于基学习器h i(x)，其分类错误的概率为：
对于N个基学习器h i(x)，使用“大数表决”的原则，当超过一半的基学习器分类正确时，那么集成学习分类正确：
集成学习分类不正确的概率为：
根据霍夫丁不等式，可以得到集成学习误差为：
可以发现集成学习误差上限由基学习器数量N和基学习器误差ε决定，当基学习器数量N越多时，集成学习误差上限越小；当基学习器误差ε＜0.5时，基学习器误差ε越小，集成学习误差上限越小。

这里看出来，基学习器一般为弱学习器，一般要求其分类或预测准确度应当高于随机猜测的分类器，即准确度高于50%。

3 集成学习的多样性
在上述的集成学习准确性分析中，我们认为各基学习器相互独立，即基学习器误差不存在相关影响，其误差概率独立，即：
但是实际上集成学习中基学习器误差难以独立，即多个基学习器会在同一个（一批）样本上犯错。

对于一个二分类问题，存在3个数据样本的数据集，构建4个不同基学习器用于对数据集进行分类，4个基学习器在数据集上的分类效果如表7-1所示，其中“√”表示能正确分类，“×”表示不能正确分类。

表7-1 4个基学习器在数据集上分类效果
那么分析基学习器C1、C2、C3和C4，选取其中3个基学习器分别进行集成，集成学习EL1={C1,C2,C3},EL2={C2,C3,C4}，观察EL1中的C1、C2、C3，两两之间的相似度为33.33%，EL2中的C2、C3、C4中，C2与C4的相似度为100%，与C1的相似度为33.33%。

按照大数原则进行集成，EL1在数据集的分类精度（正确率）为100%，集成学习精度比基学习器精度都要高。

然而，EL2在数据集的分类精度（正确率）为66.67%，与基学习器相当，集成学习并没有提高预测效果。

因此，通过本实例可以发现，集成学习中的多样性对集成学习精度有重要影响。