《机器学习可靠性与算法优化》
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
三大研究方向
1.机器学习理论
•随机梯度下降法(SGD)的理论分析
•神经网络收敛性分析
2.机器学习可靠性
•对抗样本与鲁棒性
•其他可靠性研究
3.机器学习与算法优化
•用算法解决机器学习问题
•用机器学习技术设计更好的算法
•机器学习理论是机器学习的基础
•表达能力理论(Representation)
•优化理论(Optimization)
•泛化理论(Generalization)
•主要介绍内容
1.SGD逃离鞍点[Ge, Jin, Huang, Yuan, COLT’15]
2.SGD逃离局部最优点[Kleinberg, Li, Yuan, ICML’18]
3.两层神经网络的收敛性分析[Li, Yuan, NeurIPS’17]
4.未来研究设想:更好地刻画神经网络的收敛规律
•深度学习两大步骤:
1.设计网络结构
2.使用随机梯度下降法(SGD)或其变体进行优化•例如:
•机器视觉,包括图像分类、风格迁移:
•卷积网络+SGD
•Alphago下围棋:
•强化学习、卷积网络、蒙特卡洛树搜索+SGD
•自然语言处理:
•Transformer网络+SGD
拟研究内容
研究方向一:机器学习理论
•因此,需要深刻理解SGD这个算法!•Why:为什么它能够如此好用?•When:它什么时候最有用?•How:它是如何收敛的?
梯度下降法(GD)是什么算法?•目标是优化一个(机器学习)
的损失函数L
L w
•min
w
•优化方法就是简单的迭代
•w t+1=w t−ηt∇L w t
•∇L w t就是L在w t处的导数
GD的两大局限性
1.计算∇L w t非常慢
•如果数据很多,需要扫遍所有数据2.可能会卡在稳定点上(导数为0)
•需要指数时间才能逃离鞍点!!
[Du, Jin, Lee, Jordan, Poczos, Singh,
NeurIPS’17]
随机梯度下降法(SGD)是什么算法?•和梯度下降法非常相似,只是导
数可以有随机性
•w t+1=w t−ηt G t
•E G t=∇L(w t)
•只要期望正确就可以,不需要完
全准确
SGD的一些性质
•人们为什么用SGD呢?
•一开始因为随机导数要比准确导数要算得快
•现在我们还发现:
•SGD可以逃离鞍点[Ge, Jin, Huang, Yuan, COLT’15]
•SGD可以逃离比较陡的局部最优点[Kleinberg, Li, Yuan, ICML’18]•SGD可以实际中找到一些泛化性能更好的解[Keskar, Mudigere, Nocedal, Smelyanskiy, Tang, ICLR’17]
•因此,SGD不仅更快,而且更好
研究方向一:机器学习理论(逃离鞍点)•图中鞍点并不稳定!
噪声能够帮助逃离鞍点•图中鞍点并不稳定
•加一个小的扰动,我们就可以顺着梯度方向滑下去
•典型情况
•存在一个可以逃出去的方
向
•SGD就可以逃出去
数学定义
•对于一个稳定点w,即∇L w=0
•如果∇2L w>0,w是一个局部最小值
•如果∇2L w<0,w是一个局部最大值
•如果∇2L(w)同时包含正/负的特征值,w是一个严格鞍点•说明至少存在一个方向可以逃离!
•如果∇2L w≥0,w是一个局部最小值或者平坦鞍点•说明不存在任何方向可以逃离!
•严格鞍点函数(非正式定义)
•我们说L是一个严格鞍点函数,如果L定义域中不包含任何平坦鞍点。
数学定理与应用
•我们证明,如果函数是严格鞍点的,那么SGD可以逃离所有鞍点,收敛到某一个局部最小值
•第一篇SGD逃离鞍点的严格理论证明
•意义?
1.如果L是严格鞍点的,则(根据该定理)SGD会收敛到局部最
小值;
2.如果同时L的局部最小值一样好,则SGD收敛到的是全局最小
值!
•以上两个假设可以推出,SGD能够完美优化L这个函数•注意到L是非凸的
满足以上两个假设的L无处不在!
•Community Detection [Huang, Niranjan, Hakeem, Anandkumar, JMLR'14]
•Topic models [Zou, Hsu, Parkes, Adams, NeurIPS'13]•Shallow/linear networks [Kawaguchi, NeurIPS'16]•Matrix completion [Ge, Lee, Ma, NeurIPS'16]•Phase Retrieval [Sun, Qu, Wright, ISIT'16]
•Matrix Sensing [Bhojanapalli, Neyshabur, Srebro, NeurIPS'16]
•……
人们据此也提出了很多新算法
•GD with random initialization [Lee, Simchowitz, Jordan, Recht, COLT'16]
•Normalized GD [Levy'16]
•Perturbed GD [Jin, Ge, Netrapalli, Kakade, Jordan, ICML'17]
•Accelerated GD [Jin, Netrapalli, Jordan, COLT'18]•……