迁移学习
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
from unlabeled data
Raina R, Battle A, Lee H, B Packer, AY Ng
Proceedings of the 24th international conference
on Machine learning. ACM, 2007
4.2.1研究背景
• 对机器学习所需的标签数据获取难度高,
均激活值接近于0
• 隐藏层对输入进行了压缩,并在输出层中解压缩(图像的压
缩表示)
自编码器倾向于学习得到能更好地表示输入数据的特征
3
方法
• 对输入层到隐藏层的权重进行可视化,得到如下图所示结果:
3
方法
3.2.2 栈式自编码器
• 由多层稀疏自编码器组成的神经网络,其前一层自编码器的输出作为其
后一层自编码器的输入
• 深度学习的出现导致了一系列迁移学习的新方法
3.1 使用预训练的 CNN 特征
• 较低的卷积层捕获低级图
像特征,如:边缘
• 越高的卷积层捕获越来越
一些通过CNN
学到的卷积模板
高级的特征,如:人脸
• 最后的全连接层通常被认
为是捕获与解决相应任务
相关的信息
一些经过卷积得
到的feature map
3
方法
迁移学习即是在 ≠ 或 ≠ 时,利用 和 中的知识,来帮助学习 上的预测函数 ∙
1
介绍
1.4 迁移学习的应用场景
给定源域 和目标域 , = , ; 给定源任务 和目标任务 , = {, (|)})
≠ :
• ≠ : 源域和目标域的特征空间不一样。比如文本分类任务中,一类是中文文本,一类是
PPT图表下载:w w w .1ppt .com/t ubiao/
优秀PPT下载:w w w .1ppt .com/xiazai/
PPT教程: w w w .1ppt .com/pow erpoint /
W ord教程: w w w .1ppt .com/w ord/
Excel教程:w w w .1ppt .com/excel/
题
• 语音识别中不同的口音
2
应用
2.3 跨语言迁移知识
• 将知识从一种语言迁移到另一种语言
• 可靠的跨语言域的方法会允许我们借用大量的已有的英
文标签数据并将其应用在任何一种语言中,尤其是一些
缺少资源的语言
• 目前还没有比较好的方法
PPT模板下载:w w w .1ppt .com/moban/ 行业PPT模板:w w w .1ppt .com/hangye/
W ord教程: w w w .1ppt .com/w ord/
Excel教程:w w w .1ppt .com/excel/
资料下载:w w w .1ppt .com/ziliao/
PPT课件下载:w w w .1ppt .com/kejian/
范文下载:w w w .1ppt .com/fanw en/
PPT论坛:w w w .1ppt .cn
2
迁移学习的应用
2
应用
2.1 从模拟中学习
• 在现实世界中收集数据、训练模
型:昂贵,耗时,甚至危险
• 从模拟中学习并将学到的知识应
用在现实世界
• 对应应用场景( ) ≠ ( ),即
特征空间一样,但边缘概率分布
不一样(模拟无法完全重现现实)
• 例子:使用游戏来训练无人驾驶
4
相关论文
4.1.2 方法理论
• 源域的大量样本中中存在一部分样本比较适合用来在目标任务上训练有效
的模型
• 使用boosting来过滤掉源域样本中与目标域样本最不像的样本
• boosting的作用是建立一种自动调整权重的机制,源域中重要的样本的权
重将会增加,不重要的样本的权重将会减小
• 调整权重之后,这些源域中带权重的样本将会作为额外的训练数据,与目
PPT素材下载:w w w .1ppt .com/s ucai/
PPT背景图片:w w w .1ppt .com/beijing/
PPT图表下载:w w w .1ppt .com/t ubiao/
优秀PPT下载:w w w .1ppt .com/xiazai/
PPT教程: w w w .1ppt .com/pow erpoint /
Domain: 域 – 数据的来源
1
介绍
1.2 研究迁移学习的原因
• 目前大多数成功的模型都是
依赖于大量的有标签数据
• 很多学习任务很难获得大量
的有标பைடு நூலகம்数据
• 对于每一个任务都从头开始
训练,成本非常高
Andrew Ng预测未来机器学习各领域在产业界的占比
1
介绍
1.3 迁移学习的定义
• Domain(域)
标域中的样本一起训练
4
相关论文
4.1.3 boosting调整权重的例子
仅用一条线是分不开的
用一些线段把红色的
球与深蓝色的球分开
弱
弱
强
24
4
相关论文
4.1.4 具体算法
目标域的数据集; 源域的数据集
4
相关论文
4
相关论文
4.2 第二篇论文
Self-taught learning: transfer learning
Proceedings of the 24th international conference on
Machine learning. ACM, 2007
4.1.1 研究背景
• 对于一个新任务,只有较少的标记样本(目标域有少量标记样本)
• 有大量的其他相关任务的标记样本(源域有大量标记样本)
• 如何通过这两种样本训练出在新任务上表现良好的模型
成本大
• 如何利用大量无标记数据辅助进行迁移学习
• 不要求无标记的数据和目标域的数据同属一
类或取自同一分布
14
相关论文
4.2.2 方法步骤
•首先根据未标数据训练
出一组基(比如稀疏编
码)
• 再对目标域的数据用这
组基表示出来
W ord教程: w w w .1ppt .com/w ord/
Excel教程:w w w .1ppt .com/excel/
资料下载:w w w .1ppt .com/ziliao/
PPT课件下载:w w w .1ppt .com/kejian/
范文下载:w w w .1ppt .com/fanw en/
试卷下载:w w w .1ppt .com/s hit i/
教案下载:w w w .1ppt .com/jiaoan/
PPT论坛:w w w .1ppt .cn
1
迁移学习介绍
1
介绍
1.1 迁移学习的概念
迁移学习 – 利用之前学到的知识来帮助完成新环境下的学习任务
比如:C++ -> Java
Task: 学习任务
PPT模板下载:w w w .1ppt .com/moban/ 行业PPT模板:w w w .1ppt .com/hangye/
节日PPT模板:w w w .1ppt .com/jieri/
PPT素材下载:w w w .1ppt .com/s ucai/
PPT背景图片:w w w .1ppt .com/beijing/
汽车
2
应用
• 另一个需从模拟中学习的领域:
机器人
• 在实际的机器人上训练模型是非
常缓慢和昂贵的
• 从模拟中学习并且将知识迁移到
现实世界的机器人上
2
应用
2.2 适应新的域
• 标签信息易于获取的数据和我们
实际关心的数据经常是不一样的
• 视觉任务中不同的视觉域
• 文本处理中不同的文本类型(报
纸、网络社交媒体)、不同的主
资料下载:w w w .1ppt .com/ziliao/
PPT课件下载:w w w .1ppt .com/kejian/
范文下载:w w w .1ppt .com/fanw en/
试卷下载:w w w .1ppt .com/s hit i/
教案下载:w w w .1ppt .com/jiaoan/
• 例子(包含两个隐藏层):
3
方法
• 将这三层结合起来构建一个包含两个隐藏层和一个最终softmax分类器
层的栈式自编码网络
PPT模板下载:w w w .1ppt .com/moban/ 行业PPT模板:w w w .1ppt .com/hangye/
节日PPT模板:w w w .1ppt .com/jieri/
试卷下载:w w w .1ppt .com/s hit i/
教案下载:w w w .1ppt .com/jiaoan/
PPT论坛:w w w .1ppt .cn
4
相关论文实例
4
相关论文
4.1 第一篇论文
Boosting for transfer learning
Wenyuan Dai, Qiang Yang, Gui-Rong Xue, Yong Yu.
节日PPT模板:w w w .1ppt .com/jieri/
PPT素材下载:w w w .1ppt .com/s ucai/
PPT背景图片:w w w .1ppt .com/beijing/
PPT图表下载:w w w .1ppt .com/t ubiao/
优秀PPT下载:w w w .1ppt .com/xiazai/
英文文本
• ( ) ≠ ( ): 源域和目标域的边缘概率分布不一样。比如文本讨论的话题不一样
≠ (下面两种情景一般同时出现):
• ≠ : 任务的标签空间不一样。 比如源任务是2分类,而目标任务有10个类别
• ( |) ≠ ( |): 任务的条件概率分布不一样。 比如源和目标文档在类别上是不均衡的
• 利用已经训练好的模型帮助解决新的任务
• 训练好的模型包含一些通用特征,如图像里的边缘、形状组合等
• 在已有的模型的基础上,训练新的模型:
保持已有模型的参数不变
使用较小的学习率
一个CNN(Lenet)的结构
3
方法
3.2 学习domain-invariant(域不变)特征
• 域不变特征:和域无关的一些一般性特征
PPT素材下载:w w w .1ppt .com/s ucai/
PPT背景图片:w w w .1ppt .com/beijing/
PPT图表下载:w w w .1ppt .com/t ubiao/
优秀PPT下载:w w w .1ppt .com/xiazai/
PPT教程: w w w .1ppt .com/pow erpoint /
∙ : → 通过训练集 , 训练
( ∈ , ∈ )
→ 用来预测的标签,可以写成(|)
• 迁移学习定义:
给定源域(source domain) 和对应的任务 ,给定目标域(target domain) 和对应任务
PPT教程: w w w .1ppt .com/pow erpoint /
W ord教程: w w w .1ppt .com/w ord/
Excel教程:w w w .1ppt .com/excel/
资料下载:w w w .1ppt .com/ziliao/
PPT课件下载:w w w .1ppt .com/kejian/
迁移学习
Transfer Learning
赖传滨
目录
• 迁移学习介绍
• 迁移学习的应用
• 迁移学习的一些方法
• 相关论文实例
PPT模板下载:w w w .1ppt .com/moban/ 行业PPT模板:w w w .1ppt .com/hangye/
节日PPT模板:w w w .1ppt .com/jieri/
范文下载:w w w .1ppt .com/fanw en/
试卷下载:w w w .1ppt .com/s hit i/
教案下载:w w w .1ppt .com/jiaoan/
PPT论坛:w w w .1ppt .cn
3
迁移学习的一些方法
3
方法
• 迁移学习的研究历史可以追述到上世纪90年代[1]
• 通常只需要每个域中的无标签数据
• 这种一般性的特征通常用栈式的自编码器(Stacked
Autoencoders)学习得到
3
方法
3.2.1 稀疏自编码器
• 稀疏自编码器是具有一层隐藏层的BP神经网络,其思路是
让输出尽可能等于输入。 即尝试学习一个ℎ, () ≈ 的函数
• 稀疏性:隐藏层不能携带太多信息,希望所有隐藏层单元平
= {, ()}
:
= {1 , 2 … , } ∈
:
:
• Task(学习任务) = , ∙
( = {, (|)})
Raina R, Battle A, Lee H, B Packer, AY Ng
Proceedings of the 24th international conference
on Machine learning. ACM, 2007
4.2.1研究背景
• 对机器学习所需的标签数据获取难度高,
均激活值接近于0
• 隐藏层对输入进行了压缩,并在输出层中解压缩(图像的压
缩表示)
自编码器倾向于学习得到能更好地表示输入数据的特征
3
方法
• 对输入层到隐藏层的权重进行可视化,得到如下图所示结果:
3
方法
3.2.2 栈式自编码器
• 由多层稀疏自编码器组成的神经网络,其前一层自编码器的输出作为其
后一层自编码器的输入
• 深度学习的出现导致了一系列迁移学习的新方法
3.1 使用预训练的 CNN 特征
• 较低的卷积层捕获低级图
像特征,如:边缘
• 越高的卷积层捕获越来越
一些通过CNN
学到的卷积模板
高级的特征,如:人脸
• 最后的全连接层通常被认
为是捕获与解决相应任务
相关的信息
一些经过卷积得
到的feature map
3
方法
迁移学习即是在 ≠ 或 ≠ 时,利用 和 中的知识,来帮助学习 上的预测函数 ∙
1
介绍
1.4 迁移学习的应用场景
给定源域 和目标域 , = , ; 给定源任务 和目标任务 , = {, (|)})
≠ :
• ≠ : 源域和目标域的特征空间不一样。比如文本分类任务中,一类是中文文本,一类是
PPT图表下载:w w w .1ppt .com/t ubiao/
优秀PPT下载:w w w .1ppt .com/xiazai/
PPT教程: w w w .1ppt .com/pow erpoint /
W ord教程: w w w .1ppt .com/w ord/
Excel教程:w w w .1ppt .com/excel/
题
• 语音识别中不同的口音
2
应用
2.3 跨语言迁移知识
• 将知识从一种语言迁移到另一种语言
• 可靠的跨语言域的方法会允许我们借用大量的已有的英
文标签数据并将其应用在任何一种语言中,尤其是一些
缺少资源的语言
• 目前还没有比较好的方法
PPT模板下载:w w w .1ppt .com/moban/ 行业PPT模板:w w w .1ppt .com/hangye/
W ord教程: w w w .1ppt .com/w ord/
Excel教程:w w w .1ppt .com/excel/
资料下载:w w w .1ppt .com/ziliao/
PPT课件下载:w w w .1ppt .com/kejian/
范文下载:w w w .1ppt .com/fanw en/
PPT论坛:w w w .1ppt .cn
2
迁移学习的应用
2
应用
2.1 从模拟中学习
• 在现实世界中收集数据、训练模
型:昂贵,耗时,甚至危险
• 从模拟中学习并将学到的知识应
用在现实世界
• 对应应用场景( ) ≠ ( ),即
特征空间一样,但边缘概率分布
不一样(模拟无法完全重现现实)
• 例子:使用游戏来训练无人驾驶
4
相关论文
4.1.2 方法理论
• 源域的大量样本中中存在一部分样本比较适合用来在目标任务上训练有效
的模型
• 使用boosting来过滤掉源域样本中与目标域样本最不像的样本
• boosting的作用是建立一种自动调整权重的机制,源域中重要的样本的权
重将会增加,不重要的样本的权重将会减小
• 调整权重之后,这些源域中带权重的样本将会作为额外的训练数据,与目
PPT素材下载:w w w .1ppt .com/s ucai/
PPT背景图片:w w w .1ppt .com/beijing/
PPT图表下载:w w w .1ppt .com/t ubiao/
优秀PPT下载:w w w .1ppt .com/xiazai/
PPT教程: w w w .1ppt .com/pow erpoint /
Domain: 域 – 数据的来源
1
介绍
1.2 研究迁移学习的原因
• 目前大多数成功的模型都是
依赖于大量的有标签数据
• 很多学习任务很难获得大量
的有标பைடு நூலகம்数据
• 对于每一个任务都从头开始
训练,成本非常高
Andrew Ng预测未来机器学习各领域在产业界的占比
1
介绍
1.3 迁移学习的定义
• Domain(域)
标域中的样本一起训练
4
相关论文
4.1.3 boosting调整权重的例子
仅用一条线是分不开的
用一些线段把红色的
球与深蓝色的球分开
弱
弱
强
24
4
相关论文
4.1.4 具体算法
目标域的数据集; 源域的数据集
4
相关论文
4
相关论文
4.2 第二篇论文
Self-taught learning: transfer learning
Proceedings of the 24th international conference on
Machine learning. ACM, 2007
4.1.1 研究背景
• 对于一个新任务,只有较少的标记样本(目标域有少量标记样本)
• 有大量的其他相关任务的标记样本(源域有大量标记样本)
• 如何通过这两种样本训练出在新任务上表现良好的模型
成本大
• 如何利用大量无标记数据辅助进行迁移学习
• 不要求无标记的数据和目标域的数据同属一
类或取自同一分布
14
相关论文
4.2.2 方法步骤
•首先根据未标数据训练
出一组基(比如稀疏编
码)
• 再对目标域的数据用这
组基表示出来
W ord教程: w w w .1ppt .com/w ord/
Excel教程:w w w .1ppt .com/excel/
资料下载:w w w .1ppt .com/ziliao/
PPT课件下载:w w w .1ppt .com/kejian/
范文下载:w w w .1ppt .com/fanw en/
试卷下载:w w w .1ppt .com/s hit i/
教案下载:w w w .1ppt .com/jiaoan/
PPT论坛:w w w .1ppt .cn
1
迁移学习介绍
1
介绍
1.1 迁移学习的概念
迁移学习 – 利用之前学到的知识来帮助完成新环境下的学习任务
比如:C++ -> Java
Task: 学习任务
PPT模板下载:w w w .1ppt .com/moban/ 行业PPT模板:w w w .1ppt .com/hangye/
节日PPT模板:w w w .1ppt .com/jieri/
PPT素材下载:w w w .1ppt .com/s ucai/
PPT背景图片:w w w .1ppt .com/beijing/
汽车
2
应用
• 另一个需从模拟中学习的领域:
机器人
• 在实际的机器人上训练模型是非
常缓慢和昂贵的
• 从模拟中学习并且将知识迁移到
现实世界的机器人上
2
应用
2.2 适应新的域
• 标签信息易于获取的数据和我们
实际关心的数据经常是不一样的
• 视觉任务中不同的视觉域
• 文本处理中不同的文本类型(报
纸、网络社交媒体)、不同的主
资料下载:w w w .1ppt .com/ziliao/
PPT课件下载:w w w .1ppt .com/kejian/
范文下载:w w w .1ppt .com/fanw en/
试卷下载:w w w .1ppt .com/s hit i/
教案下载:w w w .1ppt .com/jiaoan/
• 例子(包含两个隐藏层):
3
方法
• 将这三层结合起来构建一个包含两个隐藏层和一个最终softmax分类器
层的栈式自编码网络
PPT模板下载:w w w .1ppt .com/moban/ 行业PPT模板:w w w .1ppt .com/hangye/
节日PPT模板:w w w .1ppt .com/jieri/
试卷下载:w w w .1ppt .com/s hit i/
教案下载:w w w .1ppt .com/jiaoan/
PPT论坛:w w w .1ppt .cn
4
相关论文实例
4
相关论文
4.1 第一篇论文
Boosting for transfer learning
Wenyuan Dai, Qiang Yang, Gui-Rong Xue, Yong Yu.
节日PPT模板:w w w .1ppt .com/jieri/
PPT素材下载:w w w .1ppt .com/s ucai/
PPT背景图片:w w w .1ppt .com/beijing/
PPT图表下载:w w w .1ppt .com/t ubiao/
优秀PPT下载:w w w .1ppt .com/xiazai/
英文文本
• ( ) ≠ ( ): 源域和目标域的边缘概率分布不一样。比如文本讨论的话题不一样
≠ (下面两种情景一般同时出现):
• ≠ : 任务的标签空间不一样。 比如源任务是2分类,而目标任务有10个类别
• ( |) ≠ ( |): 任务的条件概率分布不一样。 比如源和目标文档在类别上是不均衡的
• 利用已经训练好的模型帮助解决新的任务
• 训练好的模型包含一些通用特征,如图像里的边缘、形状组合等
• 在已有的模型的基础上,训练新的模型:
保持已有模型的参数不变
使用较小的学习率
一个CNN(Lenet)的结构
3
方法
3.2 学习domain-invariant(域不变)特征
• 域不变特征:和域无关的一些一般性特征
PPT素材下载:w w w .1ppt .com/s ucai/
PPT背景图片:w w w .1ppt .com/beijing/
PPT图表下载:w w w .1ppt .com/t ubiao/
优秀PPT下载:w w w .1ppt .com/xiazai/
PPT教程: w w w .1ppt .com/pow erpoint /
∙ : → 通过训练集 , 训练
( ∈ , ∈ )
→ 用来预测的标签,可以写成(|)
• 迁移学习定义:
给定源域(source domain) 和对应的任务 ,给定目标域(target domain) 和对应任务
PPT教程: w w w .1ppt .com/pow erpoint /
W ord教程: w w w .1ppt .com/w ord/
Excel教程:w w w .1ppt .com/excel/
资料下载:w w w .1ppt .com/ziliao/
PPT课件下载:w w w .1ppt .com/kejian/
迁移学习
Transfer Learning
赖传滨
目录
• 迁移学习介绍
• 迁移学习的应用
• 迁移学习的一些方法
• 相关论文实例
PPT模板下载:w w w .1ppt .com/moban/ 行业PPT模板:w w w .1ppt .com/hangye/
节日PPT模板:w w w .1ppt .com/jieri/
范文下载:w w w .1ppt .com/fanw en/
试卷下载:w w w .1ppt .com/s hit i/
教案下载:w w w .1ppt .com/jiaoan/
PPT论坛:w w w .1ppt .cn
3
迁移学习的一些方法
3
方法
• 迁移学习的研究历史可以追述到上世纪90年代[1]
• 通常只需要每个域中的无标签数据
• 这种一般性的特征通常用栈式的自编码器(Stacked
Autoencoders)学习得到
3
方法
3.2.1 稀疏自编码器
• 稀疏自编码器是具有一层隐藏层的BP神经网络,其思路是
让输出尽可能等于输入。 即尝试学习一个ℎ, () ≈ 的函数
• 稀疏性:隐藏层不能携带太多信息,希望所有隐藏层单元平
= {, ()}
:
= {1 , 2 … , } ∈
:
:
• Task(学习任务) = , ∙
( = {, (|)})