《机器学习可靠性与算法优化》

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

三大研究方向

1.机器学习理论

•随机梯度下降法(SGD)的理论分析

•神经网络收敛性分析

2.机器学习可靠性

•对抗样本与鲁棒性

•其他可靠性研究

3.机器学习与算法优化

•用算法解决机器学习问题

•用机器学习技术设计更好的算法

•机器学习理论是机器学习的基础

•表达能力理论(Representation)

•优化理论(Optimization)

•泛化理论(Generalization)

•主要介绍内容

1.SGD逃离鞍点[Ge, Jin, Huang, Yuan, COLT’15]

2.SGD逃离局部最优点[Kleinberg, Li, Yuan, ICML’18]

3.两层神经网络的收敛性分析[Li, Yuan, NeurIPS’17]

4.未来研究设想:更好地刻画神经网络的收敛规律

•深度学习两大步骤:

1.设计网络结构

2.使用随机梯度下降法(SGD)或其变体进行优化•例如:

•机器视觉,包括图像分类、风格迁移:

•卷积网络+SGD

•Alphago下围棋:

•强化学习、卷积网络、蒙特卡洛树搜索+SGD

•自然语言处理:

•Transformer网络+SGD

拟研究内容

研究方向一:机器学习理论

•因此,需要深刻理解SGD这个算法!•Why:为什么它能够如此好用?•When:它什么时候最有用?•How:它是如何收敛的?

梯度下降法(GD)是什么算法?•目标是优化一个(机器学习)

的损失函数L

L w

•min

w

•优化方法就是简单的迭代

•w t+1=w t−ηt∇L w t

•∇L w t就是L在w t处的导数

GD的两大局限性

1.计算∇L w t非常慢

•如果数据很多,需要扫遍所有数据2.可能会卡在稳定点上(导数为0)

•需要指数时间才能逃离鞍点!!

[Du, Jin, Lee, Jordan, Poczos, Singh,

NeurIPS’17]

随机梯度下降法(SGD)是什么算法?•和梯度下降法非常相似,只是导

数可以有随机性

•w t+1=w t−ηt G t

•E G t=∇L(w t)

•只要期望正确就可以,不需要完

全准确

SGD的一些性质

•人们为什么用SGD呢?

•一开始因为随机导数要比准确导数要算得快

•现在我们还发现:

•SGD可以逃离鞍点[Ge, Jin, Huang, Yuan, COLT’15]

•SGD可以逃离比较陡的局部最优点[Kleinberg, Li, Yuan, ICML’18]•SGD可以实际中找到一些泛化性能更好的解[Keskar, Mudigere, Nocedal, Smelyanskiy, Tang, ICLR’17]

•因此,SGD不仅更快,而且更好

研究方向一:机器学习理论(逃离鞍点)•图中鞍点并不稳定!

噪声能够帮助逃离鞍点•图中鞍点并不稳定

•加一个小的扰动,我们就可以顺着梯度方向滑下去

•典型情况

•存在一个可以逃出去的方

•SGD就可以逃出去

数学定义

•对于一个稳定点w,即∇L w=0

•如果∇2L w>0,w是一个局部最小值

•如果∇2L w<0,w是一个局部最大值

•如果∇2L(w)同时包含正/负的特征值,w是一个严格鞍点•说明至少存在一个方向可以逃离!

•如果∇2L w≥0,w是一个局部最小值或者平坦鞍点•说明不存在任何方向可以逃离!

•严格鞍点函数(非正式定义)

•我们说L是一个严格鞍点函数,如果L定义域中不包含任何平坦鞍点。

数学定理与应用

•我们证明,如果函数是严格鞍点的,那么SGD可以逃离所有鞍点,收敛到某一个局部最小值

•第一篇SGD逃离鞍点的严格理论证明

•意义?

1.如果L是严格鞍点的,则(根据该定理)SGD会收敛到局部最

小值;

2.如果同时L的局部最小值一样好,则SGD收敛到的是全局最小

值!

•以上两个假设可以推出,SGD能够完美优化L这个函数•注意到L是非凸的

满足以上两个假设的L无处不在!

•Community Detection [Huang, Niranjan, Hakeem, Anandkumar, JMLR'14]

•Topic models [Zou, Hsu, Parkes, Adams, NeurIPS'13]•Shallow/linear networks [Kawaguchi, NeurIPS'16]•Matrix completion [Ge, Lee, Ma, NeurIPS'16]•Phase Retrieval [Sun, Qu, Wright, ISIT'16]

•Matrix Sensing [Bhojanapalli, Neyshabur, Srebro, NeurIPS'16]

•……

人们据此也提出了很多新算法

•GD with random initialization [Lee, Simchowitz, Jordan, Recht, COLT'16]

•Normalized GD [Levy'16]

•Perturbed GD [Jin, Ge, Netrapalli, Kakade, Jordan, ICML'17]

•Accelerated GD [Jin, Netrapalli, Jordan, COLT'18]•……

相关文档
最新文档