机器学习ppt

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Bagging的算法原理和 boosting不同,它的弱学习器之间没有依赖关系,可以并行生成,我们可 以用一张图做一个概括如下:
m个样本采样集1
训练
弱学习器1
m个样本训练集
随 机 采 样
m个样本训练集2
训练
弱学习Baidu Nhomakorabea2
结 合 策 略
强学习器
m个样本训练集t
训练
弱学习器t
Boosting模型
Adaboost会根据前一次 的分类效果调整数据权 重 解释:如果某一个数据 在这次分错了,那么在 下一次给出更大的权重
典型代表:AdaBoost,Xgboost,GDBT
权重D(1) 带权重D(1) 训练集 训练
弱学习器1
基于学习误差率e1更 新权重系数a1
根据a1更新样本权重D(2)
最终的结果:每个分类 器根据吱声的准确性来 确定各自的权重,再合 体
m个样本训练集
权重D(2)
带权重D(1) 训练集
训练
弱学习器2
基于学习误差率e2更 新权重系数a2
根据a2更新样本权重D(3)
结 合 策 略
强学习器
权重D(3)
带权重D (T) 训练集
训练
弱学习器T
基于学习误差率eT更 新权重系数aT
应用:神经网络
Stacking模型
堆叠:很暴力,拿来一堆直接说(各种分类器都来了),可以 堆叠各种各样的分类器(KNN,SVM,RF...) 分阶段:第一阶段得出各自结果,第二阶段再用前一阶段结果 训练
平均法
投票法
学习法
对于学习法,代表方法是stacking,当使用stacking的结合策 略时, 我们不是对弱学习器的结果做简单的逻辑处理,而是 再加上一层学习器,也就是说,我们将训练集弱学习器的学习 结果作为输入,将训练集的输出作为输出,重新训练一个学习 器来得到最终结果。
数据处理
(1)本算法中数据共891个,用的是python jupyter(便于演示) (2)处理缺失值 (3)处理字符型数据(转化为数字,便于处理)
回归算法
线性回归
线性回归
逻辑回归
逻辑回归
随机森林
随机森林
概述
用随机的方式建立一个森林,森林里面有很多的决策树组成, 随机森林的每一棵决策树之间是没有关联的。
1.数据的随机性选取 2.待选特征的随机选取
由于二重随机性,使得每个树基本上都 不会一样,最终的结果也会不一样
(随机是要保证泛化能力)
结合策略
对于数值类的回归预测问题,通常使用的结合策略是平均法, 也就是说,对于若干和弱学习器的输出进行平均得到最终的预 测输出。 对于分类问题的预测,我们通常使用的是投票法。假设我们的 预测类别是{c1,c2,...cK},对于任意一个预测样本x,我们的T个 弱学习器的预测结果分别是(h1(x),h2(x)...hT(x))。
强学习器
弱学习器t
目的
让机器学习效果更好,单个不行,群殴走起
集成学习算法类型
Bagging
训练多个分类器取平均 典型代表:随机森林
Boosting
从弱分类器开始加强,通过加权来进行训练 典型代表:①Adaboost ②Xgboost ③ GDBT
Stacking
聚合多个分类或者回归模型
bagging模型
集合策略
集成学习用于对。
3
2
常见集成学习方法
4
在python中的应用
谢谢聆听!
敬请批评指正
集 成 算 法

专业:计算机科学与技术 讲解者:
目录
CATALOG
01
02
03
04
05
集成算法简 介
回归算法
随机森林
集成算法
总结
集成算法简介
集成学习算法
概念
集成学习是用多个弱分类器构成一个强分类器,一般的弱分类器 可以由决策树,神经网络,贝叶斯分类器,K-近邻等构成
弱学习器1
弱学习器2
结 合 策 略
随机性
特点
1.它能够处理很高维度(feature很多)的数据, 并且不用做特征选择
2.能够评估各个特征在分类问题上的重要性(黑箱操作)
3.容易做成并行化方法
随机森林
结果
那么对于一个输入样本,N棵树会有N个分类结果。而随机森林集成了所有的 分类投票结果,将投票次数最多的类别指定为最终的输出,这就是一种最简单的 Bagging 思想。
随机森林
以上两者的区别在于参数的不同
特征选取
Gradient Boost
Gradient Boost
Gradient Boost其实是一个框架,里面可以套入很多不同的算法
总结
优点
集成学习在机器学习算法中具有较高的准确率
缺点
模型的训练过程可能比较复杂,效率不是很高
结论
1
什么是集成学习
集成学习
相关文档
最新文档