《机器学习可靠性与算法优化》

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

三大研究方向

1.机器学习理论

•随机梯度下降法（SGD）的理论分析

•神经网络收敛性分析

2.机器学习可靠性

•对抗样本与鲁棒性

•其他可靠性研究

3.机器学习与算法优化

•用算法解决机器学习问题

•用机器学习技术设计更好的算法

•机器学习理论是机器学习的基础

•表达能力理论（Representation）

•优化理论（Optimization）

•泛化理论（Generalization）

•主要介绍内容

1.SGD逃离鞍点[Ge, Jin, Huang, Yuan, COLT’15]

2.SGD逃离局部最优点[Kleinberg, Li, Yuan, ICML’18]

3.两层神经网络的收敛性分析[Li, Yuan, NeurIPS’17]

4.未来研究设想：更好地刻画神经网络的收敛规律

•深度学习两大步骤：

1.设计网络结构

2.使用随机梯度下降法（SGD）或其变体进行优化•例如：

•机器视觉，包括图像分类、风格迁移：

•卷积网络+SGD

•Alphago下围棋：

•强化学习、卷积网络、蒙特卡洛树搜索+SGD

•自然语言处理：

•Transformer网络+SGD

拟研究内容

研究方向一：机器学习理论

•因此，需要深刻理解SGD这个算法！•Why:为什么它能够如此好用？•When:它什么时候最有用？•How:它是如何收敛的？

梯度下降法（GD）是什么算法？•目标是优化一个（机器学习）

的损失函数L

L w

•min

•优化方法就是简单的迭代

•w t+1=w t−ηt∇L w t

•∇L w t就是L在w t处的导数

GD的两大局限性

1.计算∇L w t非常慢

•如果数据很多，需要扫遍所有数据2.可能会卡在稳定点上（导数为0）

•需要指数时间才能逃离鞍点！！

[Du, Jin, Lee, Jordan, Poczos, Singh,

NeurIPS’17]

随机梯度下降法（SGD）是什么算法？•和梯度下降法非常相似，只是导

数可以有随机性

•w t+1=w t−ηt G t

•E G t=∇L(w t)

•只要期望正确就可以，不需要完

全准确

SGD的一些性质

•人们为什么用SGD呢？

•一开始因为随机导数要比准确导数要算得快

•现在我们还发现：

•SGD可以逃离鞍点[Ge, Jin, Huang, Yuan, COLT’15]

•SGD可以逃离比较陡的局部最优点[Kleinberg, Li, Yuan, ICML’18]•SGD可以实际中找到一些泛化性能更好的解[Keskar, Mudigere, Nocedal, Smelyanskiy, Tang, ICLR’17]

•因此，SGD不仅更快，而且更好

研究方向一：机器学习理论（逃离鞍点）•图中鞍点并不稳定！

噪声能够帮助逃离鞍点•图中鞍点并不稳定

•加一个小的扰动，我们就可以顺着梯度方向滑下去

•典型情况

•存在一个可以逃出去的方

向

•SGD就可以逃出去

数学定义

•对于一个稳定点w，即∇L w=0

•如果∇2L w>0，w是一个局部最小值

•如果∇2L w<0，w是一个局部最大值

•如果∇2L(w)同时包含正/负的特征值，w是一个严格鞍点•说明至少存在一个方向可以逃离！

•如果∇2L w≥0，w是一个局部最小值或者平坦鞍点•说明不存在任何方向可以逃离！

•严格鞍点函数（非正式定义）

•我们说L是一个严格鞍点函数，如果L定义域中不包含任何平坦鞍点。

数学定理与应用

•我们证明，如果函数是严格鞍点的，那么SGD可以逃离所有鞍点，收敛到某一个局部最小值

•第一篇SGD逃离鞍点的严格理论证明

•意义？

1.如果L是严格鞍点的，则（根据该定理）SGD会收敛到局部最

小值;

2.如果同时L的局部最小值一样好，则SGD收敛到的是全局最小

值！

•以上两个假设可以推出，SGD能够完美优化L这个函数•注意到L是非凸的

满足以上两个假设的L无处不在！

•Community Detection [Huang, Niranjan, Hakeem, Anandkumar, JMLR'14]

•Topic models [Zou, Hsu, Parkes, Adams, NeurIPS'13]•Shallow/linear networks [Kawaguchi, NeurIPS'16]•Matrix completion [Ge, Lee, Ma, NeurIPS'16]•Phase Retrieval [Sun, Qu, Wright, ISIT'16]

•Matrix Sensing [Bhojanapalli, Neyshabur, Srebro, NeurIPS'16]

•……

人们据此也提出了很多新算法

•GD with random initialization [Lee, Simchowitz, Jordan, Recht, COLT'16]

•Normalized GD [Levy'16]

•Perturbed GD [Jin, Ge, Netrapalli, Kakade, Jordan, ICML'17]

•Accelerated GD [Jin, Netrapalli, Jordan, COLT'18]•……