集成算法概述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关键词:集成算法;装袋算法;增强算法 中图分类号:TP18 文献标识码:A 文章编号:1003-9767(2019)03-050-02
Overview of Ensemble Algorithms
Zhang Peipei
(Shandong Women's University, Jinan Shandong 250300, China)
相较于单个分类器的预测结果,通过这种方式得到的预测结 三种组合策略获得高度准确的分类决策。许多作者已通过集
果更准确。最初的集成方法是贝叶斯平均法 [5],之后又出现 成方法证明了显著的性能改进。当下比较流行的两种集成方
了装法算法、增强算法及叠加算法 [6],包括集成算法中并行、 法是装袋算法和增强算法。前者旨在降低方差,它在不剪枝
Abstract: With the development of artificial intelligence, machine learning has become a hot topic of current research. As a common machine learning algorithm, ensemble algorithm has been paid attention to. Therefore, the classical bagging algorithm and enhancement algorithm of ensemble learning algorithm are introduced respectively, and the corresponding specific algorithm design principle is given, and the performance of these two algorithms is compared simply. At the same time, the design principles of several derivative algorithms of these algorithms are introduced.
算法语言
信息与电脑 China Computer & Communication
集成算法概述
2019 年第 3 期
张佩佩
(山东女子学院,山东 济南 250300)
摘 要:随着人工智能的发展,机器学习也成为了当下研究的热点内容,集成算法作为常见的机器学习算法得到了 重视。因此,分别介绍了集成学习算法中较为经典的装袋算法和增强算法,给出了相应的具体算法设计原理,并在性能 方面简单比较了这两种算法。同时,介绍了这些算法的几种衍生算法的设计原理。
— 50 —
2019 年第 3 期
信息与电脑 China Computer & Communication
算法语言
1.1 装袋算法
那么增强算法易陷入局部最优解。
装袋算法的基本原理是对观测信息进行再抽样,进而对 总体的分布特性进行统计推断。装袋算法首先按照随机有放 回方式进行训练数据的选择,然后在利用选择的数据构造分 类器,最后对得到的分类器进行组合。详细来讲,首先从原 始数据集随机抽选多次,得到多个新数据集;其次使用相同 的模型对每个新数据集进行训练,进而得到多个分类器;然 后当有一个新输入样本进入时,就让这多个分类器分别进行 判断,得到多个分类结果;最后对这些结果按照“少数服从 多数”的选择进行投票,以得到新样本的最终分类结果。每 一基算法之间没有依赖,可以并行计算,它的结果参考了各 种情况,实现在欠拟合和过拟合之间取折中。在进行数值结 果预测时,利用聚合方式对多个分类器的结果进行平均,对 预测器结果进行简单投票。利用分类回归树和线性回归中的 子集选择对真实数据集和模拟数据集进行测试,结果表明, 套袋法在精度上有较大提高。
串行和树形结合的几种不同方式。装袋算法是把每一基模型 的决策树、神经网络取一个折中的结果。增强算法根据旧模型 低偏差,它基于泛化性能相当弱的学习器构建出很强的集成。
基金项目:山东女子学院青年课题“GARCH 期权定价方法中随机波动过程问题研究”(基金项目:2016ZD04)。 作者简介:张佩佩 (1990—),女,山东聊城人,硕士研究生,助教。研究方向:随机控制。
1.2 增强算法
基于错误提升分类器性能,不断迭代建立新模型的同时, 对样本分布特征进行调整,针对上一模型中被错误分类的样 本,新模型应更加重视,进而提升对数据样本整体的处理精 度,执行迭代直到基学习器数目达到指定的值,最后将训练 好的基学习器根据准确率加权组合得到训练结果。它是一种
中的错误对模型进行训练,进行层层改进,进而得到新模型。 叠加算法是把基模型组织起来 [7],基模型本身进行搭配组合, 该方法看起来更灵活,也更复杂。
笔者将重点陈述装法算法和增强算法的原理和算法设计 思路,给出具体的实现步骤,并解释为什么集合的性能通常 优于任何单个分类器,然后分别介绍这两类算法的优点、不 足以及应用中需要注意的问题。
研究提供了很好的思路。
1 算法介绍
集成算法作为常见的机器学习算法,由一组单独训练的
集成算法需先构造一个集合,在集合中的分类器具有多
分类器组成。在对测试集进行分类时,将各分类器的预测值 样性、独立性及较高的准确性。通过加法模型将集合中的弱
按照加权原则进行投票,进而对引入的新数据点进行分类。 分类器进行线性组合,最后利用平均法、投票法或学习法这
Key words: ensemble algorithm; bagging algorithm; boosting algorithm
0 引言
作为人工智能领域和深度学习领域的一种常用手段,机 器学习已成为当下研究的热点内容 [1]。针对机器学习中各种 方法,学者们进行了大量研究。根据常见任务划分,机器学 习研究的问题可分为回归、分类、聚类及降维问题 [2-3],还有 “没有免费的午餐”问题 [4]。集成算法把简单算法组织起来 [5], 集合各种算法优点产生综合的机器学习策略,为实际应用和
Overview of Ensemble Algorithms
Zhang Peipei
(Shandong Women's University, Jinan Shandong 250300, China)
相较于单个分类器的预测结果,通过这种方式得到的预测结 三种组合策略获得高度准确的分类决策。许多作者已通过集
果更准确。最初的集成方法是贝叶斯平均法 [5],之后又出现 成方法证明了显著的性能改进。当下比较流行的两种集成方
了装法算法、增强算法及叠加算法 [6],包括集成算法中并行、 法是装袋算法和增强算法。前者旨在降低方差,它在不剪枝
Abstract: With the development of artificial intelligence, machine learning has become a hot topic of current research. As a common machine learning algorithm, ensemble algorithm has been paid attention to. Therefore, the classical bagging algorithm and enhancement algorithm of ensemble learning algorithm are introduced respectively, and the corresponding specific algorithm design principle is given, and the performance of these two algorithms is compared simply. At the same time, the design principles of several derivative algorithms of these algorithms are introduced.
算法语言
信息与电脑 China Computer & Communication
集成算法概述
2019 年第 3 期
张佩佩
(山东女子学院,山东 济南 250300)
摘 要:随着人工智能的发展,机器学习也成为了当下研究的热点内容,集成算法作为常见的机器学习算法得到了 重视。因此,分别介绍了集成学习算法中较为经典的装袋算法和增强算法,给出了相应的具体算法设计原理,并在性能 方面简单比较了这两种算法。同时,介绍了这些算法的几种衍生算法的设计原理。
— 50 —
2019 年第 3 期
信息与电脑 China Computer & Communication
算法语言
1.1 装袋算法
那么增强算法易陷入局部最优解。
装袋算法的基本原理是对观测信息进行再抽样,进而对 总体的分布特性进行统计推断。装袋算法首先按照随机有放 回方式进行训练数据的选择,然后在利用选择的数据构造分 类器,最后对得到的分类器进行组合。详细来讲,首先从原 始数据集随机抽选多次,得到多个新数据集;其次使用相同 的模型对每个新数据集进行训练,进而得到多个分类器;然 后当有一个新输入样本进入时,就让这多个分类器分别进行 判断,得到多个分类结果;最后对这些结果按照“少数服从 多数”的选择进行投票,以得到新样本的最终分类结果。每 一基算法之间没有依赖,可以并行计算,它的结果参考了各 种情况,实现在欠拟合和过拟合之间取折中。在进行数值结 果预测时,利用聚合方式对多个分类器的结果进行平均,对 预测器结果进行简单投票。利用分类回归树和线性回归中的 子集选择对真实数据集和模拟数据集进行测试,结果表明, 套袋法在精度上有较大提高。
串行和树形结合的几种不同方式。装袋算法是把每一基模型 的决策树、神经网络取一个折中的结果。增强算法根据旧模型 低偏差,它基于泛化性能相当弱的学习器构建出很强的集成。
基金项目:山东女子学院青年课题“GARCH 期权定价方法中随机波动过程问题研究”(基金项目:2016ZD04)。 作者简介:张佩佩 (1990—),女,山东聊城人,硕士研究生,助教。研究方向:随机控制。
1.2 增强算法
基于错误提升分类器性能,不断迭代建立新模型的同时, 对样本分布特征进行调整,针对上一模型中被错误分类的样 本,新模型应更加重视,进而提升对数据样本整体的处理精 度,执行迭代直到基学习器数目达到指定的值,最后将训练 好的基学习器根据准确率加权组合得到训练结果。它是一种
中的错误对模型进行训练,进行层层改进,进而得到新模型。 叠加算法是把基模型组织起来 [7],基模型本身进行搭配组合, 该方法看起来更灵活,也更复杂。
笔者将重点陈述装法算法和增强算法的原理和算法设计 思路,给出具体的实现步骤,并解释为什么集合的性能通常 优于任何单个分类器,然后分别介绍这两类算法的优点、不 足以及应用中需要注意的问题。
研究提供了很好的思路。
1 算法介绍
集成算法作为常见的机器学习算法,由一组单独训练的
集成算法需先构造一个集合,在集合中的分类器具有多
分类器组成。在对测试集进行分类时,将各分类器的预测值 样性、独立性及较高的准确性。通过加法模型将集合中的弱
按照加权原则进行投票,进而对引入的新数据点进行分类。 分类器进行线性组合,最后利用平均法、投票法或学习法这
Key words: ensemble algorithm; bagging algorithm; boosting algorithm
0 引言
作为人工智能领域和深度学习领域的一种常用手段,机 器学习已成为当下研究的热点内容 [1]。针对机器学习中各种 方法,学者们进行了大量研究。根据常见任务划分,机器学 习研究的问题可分为回归、分类、聚类及降维问题 [2-3],还有 “没有免费的午餐”问题 [4]。集成算法把简单算法组织起来 [5], 集合各种算法优点产生综合的机器学习策略,为实际应用和