机器学习和迁移学习PPT
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 分类算法:最近邻居法、朴素贝叶斯、决策树、 人工神经网络、支持向量机等。
• 聚类算法:K均值、DBSCAN算法、EM算法、模 糊C均值、SOM(自组织映射)等。
5
2.常见算法
2.2 决策树(C4.5)
6
2.常见算法
2.2 决策树(C4.5)
相亲决策树:
7
2.常见算法
2.3 支持向量机(SVM)
8
2.常见算法
2.3 支持向量机(SVM)
9
3.集成方法
3.1 概念简介
• 集成方法(ensemble)是机器学习领域中用来提升分类 算法准确率的技术,主要包括Bagging和Boosting即装袋 和提升。前面介绍的决策树、朴素贝叶斯等均属于弱分类 器,通过集成方法可以将不同的弱分类器组合起来,构造 强分类器。比较有代表性的集成方法有:AdaBoost、随 机森林(RandomForest)等。
For t 1,......,N
1. 设置 pt 满足:
pt
t nm t
i1 i
2. 调用基本分类器,根据合并后的训练数据 T以及T上的权重分布 pt,得到
一个分类器 ht 。
T 3. 计算 ht在
b 上的错误率:
nm
t i n 1
t i
ht
xi
c xi
nm t
in1 i
Hedge( )
15
4.迁移学习
4.4 TrAdaBoost算法示意图
16
4.迁移学习
4.5 TrAdaBoost算法描述
输入:两个训练数据集 Ta 和 Tb(训练数据集T Ta Tb),一个基本分类算法
以及迭代次数N。
初始化:
1. 初始化权重向量 1 (11,...n1,n11,...n1m),各个元素均为1 。
• 由于机器学习是人工智能的一个核心领域,所以也有如下 定义:“机器学习是一门人工智能的科学,该领域的主要 研究对象是人工智能,特别是如何在经验学习中改善具体 算法的性能。
3
1.机器学习
1.2 分类
(1)监督学习:从给定的训练数据集中学习出一个函数,当新的数据到 来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入 和输出,也可以说是特征和目标。训练集中的目标是由人标注的。常见 的监督学习算法包括回归分析和统计分类。
12
4.迁移学习
4.2 分类
• 针对源领域和目标领域样本是否标注以及任务是否相同,可以把迁移学习划 分为: 1、归纳迁移学习 2、直推式迁移学习 3、无监督迁移学习
• 而按照迁移学习方法采用的技术划分,又可以把迁移学习方法大体上分为: 1、基于特征选择的迁移学习算法研究 2、基于特征映射的迁移学习算法研究 3、基于权重的迁移学习算法研究
10
3.集成方法
3.2 AdaBoost算法 (1)在没有先验知识的情况下,初始的分布为等概分布, 也就是训练集如果有n个样本,每个样本的分布概率为1/n, 并设置迭代次数m。
(2)每次训练后得到一个基分类器,并根据准确率计算其 权值。接着提高错误样本的分布概率,即让分类错误的样本 在训练集中的权重增大,分类正确的样本权重减小,使得下 一次训练的基分类器能集中力量对这些错误样本进行判断。
Machine Learning
制作者:黄皓璇 陈韬
2015年5月7日
目录
1 机器学习 2 常见算法 3 集成方法 4 迁移学习
2
1.机器学习
1.1 概念简介
• 机器学习(Machine Learning, ML)是一门多领域交叉学科 ,涉及概率论、统计学、逼近论、凸分析、算法复杂度理 论等多门学科。机器学习算法是一类从数据中自动分析获 得规律,并利用规律对未知数据进行预测的算法。
• 在TrAdaBoost算法中,AdaBoost被用于在目标领域里少量有标签的样本中,
以保证分类模型在目标领域数据上的准确性;而Hedge()被用在源领域数据
上,用于自动调节源领域数据的重要度。
14
4.迁移学习
4.3 TrAdaBoost算法机制
源训练数据 Tb
训练数据 T
辅助训
练数据 Ta
AdaBoost 基本分类器
17
4.迁移学习
4.5 TrAdaBoost算法描述
4. 令 t
t 1 t
和
1ຫໍສະໝຸດ Baidu
1 2 ln n
N
5. 按如下公式更新权重向量:
{ t1
it ht xi c xi ,当i1,......,n
i
it t ht xi c xi ,当in1,......,nm
输出:最终分类器 h f
(3)最后通过级联m个基分类器形成一个强分类器。
11
4.迁移学习
4.1 概念简介
• 在传统分类学习中,为了保证训练得到的分类模型具有准确性和高可靠性, 都有两个基本的假设: (1)用于学习的训练样本与新的测试样本满足独立同分布的条件; (2)必须有足够可利用的训练样本才能学习得到一个好的分类模型。 但是,在实际应用中我们发现,这两个条件往往无法满足。于是乎,迁移学 习应运而生。迁移学习,是一种运用已存有的知识对不同但相关领域的问题 进行求解的新的机器学习方法。
13
4.迁移学习
4.3 TrAdaBoost算法
• TrAdaBoost算法的目标就是从辅助的源数据中找出那些适合测试数据的实例 ,并把这些适合的实例迁移到目标领域中少量有标签样本的学习中去。该算 法的关键思想是利用Boosting技术过滤掉源领域数据中那些与目标领域中少 量有标签样本最不像的样本数据。
(2)无监督学习:与监督学习相比,训练集没有人为标注的结果。常见 的无监督学习算法为聚类。
(3)半监督学习:介于监督学习与无监督学习之间,如迁移学习。
(4)增强学习:通过观察来学习做成如何的动作。每个动作都会对环境 有所影响,学习对象根据观察到的周围环境的反馈来做出判断。
4
2.常见算法
2.1 简介
18
·
谢谢聆听
2020/3/25
19
• 聚类算法:K均值、DBSCAN算法、EM算法、模 糊C均值、SOM(自组织映射)等。
5
2.常见算法
2.2 决策树(C4.5)
6
2.常见算法
2.2 决策树(C4.5)
相亲决策树:
7
2.常见算法
2.3 支持向量机(SVM)
8
2.常见算法
2.3 支持向量机(SVM)
9
3.集成方法
3.1 概念简介
• 集成方法(ensemble)是机器学习领域中用来提升分类 算法准确率的技术,主要包括Bagging和Boosting即装袋 和提升。前面介绍的决策树、朴素贝叶斯等均属于弱分类 器,通过集成方法可以将不同的弱分类器组合起来,构造 强分类器。比较有代表性的集成方法有:AdaBoost、随 机森林(RandomForest)等。
For t 1,......,N
1. 设置 pt 满足:
pt
t nm t
i1 i
2. 调用基本分类器,根据合并后的训练数据 T以及T上的权重分布 pt,得到
一个分类器 ht 。
T 3. 计算 ht在
b 上的错误率:
nm
t i n 1
t i
ht
xi
c xi
nm t
in1 i
Hedge( )
15
4.迁移学习
4.4 TrAdaBoost算法示意图
16
4.迁移学习
4.5 TrAdaBoost算法描述
输入:两个训练数据集 Ta 和 Tb(训练数据集T Ta Tb),一个基本分类算法
以及迭代次数N。
初始化:
1. 初始化权重向量 1 (11,...n1,n11,...n1m),各个元素均为1 。
• 由于机器学习是人工智能的一个核心领域,所以也有如下 定义:“机器学习是一门人工智能的科学,该领域的主要 研究对象是人工智能,特别是如何在经验学习中改善具体 算法的性能。
3
1.机器学习
1.2 分类
(1)监督学习:从给定的训练数据集中学习出一个函数,当新的数据到 来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入 和输出,也可以说是特征和目标。训练集中的目标是由人标注的。常见 的监督学习算法包括回归分析和统计分类。
12
4.迁移学习
4.2 分类
• 针对源领域和目标领域样本是否标注以及任务是否相同,可以把迁移学习划 分为: 1、归纳迁移学习 2、直推式迁移学习 3、无监督迁移学习
• 而按照迁移学习方法采用的技术划分,又可以把迁移学习方法大体上分为: 1、基于特征选择的迁移学习算法研究 2、基于特征映射的迁移学习算法研究 3、基于权重的迁移学习算法研究
10
3.集成方法
3.2 AdaBoost算法 (1)在没有先验知识的情况下,初始的分布为等概分布, 也就是训练集如果有n个样本,每个样本的分布概率为1/n, 并设置迭代次数m。
(2)每次训练后得到一个基分类器,并根据准确率计算其 权值。接着提高错误样本的分布概率,即让分类错误的样本 在训练集中的权重增大,分类正确的样本权重减小,使得下 一次训练的基分类器能集中力量对这些错误样本进行判断。
Machine Learning
制作者:黄皓璇 陈韬
2015年5月7日
目录
1 机器学习 2 常见算法 3 集成方法 4 迁移学习
2
1.机器学习
1.1 概念简介
• 机器学习(Machine Learning, ML)是一门多领域交叉学科 ,涉及概率论、统计学、逼近论、凸分析、算法复杂度理 论等多门学科。机器学习算法是一类从数据中自动分析获 得规律,并利用规律对未知数据进行预测的算法。
• 在TrAdaBoost算法中,AdaBoost被用于在目标领域里少量有标签的样本中,
以保证分类模型在目标领域数据上的准确性;而Hedge()被用在源领域数据
上,用于自动调节源领域数据的重要度。
14
4.迁移学习
4.3 TrAdaBoost算法机制
源训练数据 Tb
训练数据 T
辅助训
练数据 Ta
AdaBoost 基本分类器
17
4.迁移学习
4.5 TrAdaBoost算法描述
4. 令 t
t 1 t
和
1ຫໍສະໝຸດ Baidu
1 2 ln n
N
5. 按如下公式更新权重向量:
{ t1
it ht xi c xi ,当i1,......,n
i
it t ht xi c xi ,当in1,......,nm
输出:最终分类器 h f
(3)最后通过级联m个基分类器形成一个强分类器。
11
4.迁移学习
4.1 概念简介
• 在传统分类学习中,为了保证训练得到的分类模型具有准确性和高可靠性, 都有两个基本的假设: (1)用于学习的训练样本与新的测试样本满足独立同分布的条件; (2)必须有足够可利用的训练样本才能学习得到一个好的分类模型。 但是,在实际应用中我们发现,这两个条件往往无法满足。于是乎,迁移学 习应运而生。迁移学习,是一种运用已存有的知识对不同但相关领域的问题 进行求解的新的机器学习方法。
13
4.迁移学习
4.3 TrAdaBoost算法
• TrAdaBoost算法的目标就是从辅助的源数据中找出那些适合测试数据的实例 ,并把这些适合的实例迁移到目标领域中少量有标签样本的学习中去。该算 法的关键思想是利用Boosting技术过滤掉源领域数据中那些与目标领域中少 量有标签样本最不像的样本数据。
(2)无监督学习:与监督学习相比,训练集没有人为标注的结果。常见 的无监督学习算法为聚类。
(3)半监督学习:介于监督学习与无监督学习之间,如迁移学习。
(4)增强学习:通过观察来学习做成如何的动作。每个动作都会对环境 有所影响,学习对象根据观察到的周围环境的反馈来做出判断。
4
2.常见算法
2.1 简介
18
·
谢谢聆听
2020/3/25
19