机器学习中矩阵低秩与稀疏近似
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
符号定义:在本文正式开始之前,我们先作如下的符号定义。假设x ∈ Rd×1为一
个向量,X ∈ Rd×n, Y ∈ Rd×n都为一个矩阵,那么 X, Y = i,j XijYij = trace(XT Y ),
向量正则定义为: x p = (
i
|wi
|p
)
1 p
,矩阵
正
则
定
义
为:
X
∈
Rd×n,
Xi
∈
Rn×1 和X j
化原来l0的目标函数,目前的文献都是使用贪心算法来求解(如每次都选择一个使得 当前目标值下降得最快的基)。
1.3 l1正则
式关
系l1正,则w是2稀≤疏w学1习≤中√用n得w最2广,所泛以的最正小则化技l1术正。则由其于实w也意2和味w着最1有小着化这l2样正的则不的
3
华南理工大学工学博士研究生课程论文
a) p ≥ 1
b) 0 < p < 1
图 1 当p ≥ 1与0 < p < 1时,lp正则子的形状示意图。
接近l0正则),也有的研究者使用如下函数逼近来逼近l0: x 0 ≈ i log(ε + |xi|),其 中ε是一个很小的正数,它是为了避免出现log 0数值上的无意义。但对于需要直接优
研究生课程论文
(2011-2012 学年第一学期)
大规模机器学习中的矩阵低秩与稀疏近似算法研究
研究生:袁淦钊
提交日期: 2012 年 1 月 3 日 学 号 201010102528 学
研究生签名: 院 计算机科学与工程学院
课程编号 B0812009
课程名称 计算机应用技术高级专题
学位类别 博士
任课教师 郝志峰 教授
本文先从正则角度探讨了当今流行的正则技术,稀疏和低秩仍然是正则技术的 主流方向。接着,文章还从矩阵逼近的角度,讨论了近年来矩阵方法的机器学习技术 的实质。这些矩阵方法的机器学习技术包括非负矩阵分解、矩阵填充、鲁棒主成分分 析、字典学习、稀疏主成分分析、协方差稀疏选择和低秩半正定矩阵分解等。此外,我 们总结了一些机器学习领域快速高效的机器学习算法以及它们的所适用的范围。最 后我们将会列举一些矩阵方法上的一些存有的以及可能将会出现的应用。
中文摘要: 统计学习是当今机器学习领域的主流技术。向量空间的统计学习算 法已经比较成熟,近几年来,许多研究者主要把目光放在矩阵空间上。与向量空间相 比,基于矩阵空间的学习技术由于缺少扩展性,会随着问题的大小在空间和时间复杂 度上分别呈二次方与三次方增长,所以如何逼近一个目标矩阵而令机器学习技术更 鲁棒更精确更适合于大规模的情况已成为当今机器学习领域十分热门的话题。受到 支持向量机、压缩感知和非负矩阵分解等技术的启发,基于稀疏和低秩性质的假设, 人们开发了一系列基于矩阵方法的机器学习算法。本文主要从矩阵的正则,分解和优 化三个角度探讨机器学习中矩阵逼近问题,最后我们将会列举一些矩阵方法上的有 趣和重要的应用。 这些正则,分解与优化的技术包括以下几点。 (i)正则技术: lp正则,l2正则,l1正则,l0正则,lpq正则,trace正则,Frobenius正则,核子 正则,弹性网络正则,自适应l1正则,Bregman发散正则。 (ii)分解技术: 非负矩阵分解,矩阵填充,鲁棒主成分分析,字典学习,稀疏主成分分 析,协方差稀疏选择和低秩半正定矩阵分解。 (iii)优化方法: 光滑优化(共轭梯度法、截断牛顿法、有限内存的拟牛顿法),非光滑 优化(邻近点方法、逼近方法、非负约束优化),简单约束优化(有梯度投影法、有效 集法、坐标下降法),一般约束优化(非精确交替方向法)。
教师评语:
成绩评定: 分
任课教师签名:
Fra Baidu bibliotek
1
年月日
说明
1、课程论文要有题目、作者姓名、摘要、关键词、正文及参 考文献。论文题目由研究生结合课程所学内容选定;摘要 500 字以 下,博士生课程论文要求有英文摘要;关键词 3~5 个;参考文献 不少于 10 篇,并应有一定的外文文献。
2、论文要求自己动手撰写,如发现论文是从网上下载的,或 者是抄袭剽窃别人文章的,按作弊处理,本门课程考核成绩计 0 分。
∈
Rd×1分别是X的第ith行和第jth列。矩阵的lpq范被定义为: X p,q = (
i
Xi
p q
)
1 p
,特殊
地, X 1 = X 1,1, X F = X 2,2。此外,σi(X)代表着第i大奇异特征值,对于一个
实对称矩阵,λi (X )代表着第i大特征值。
1 矩阵正则
在经典的机器学习算法中,除了考虑经验风险最小化外,还需要考虑泛化风险最 小化。它们两者的均衡通常是靠引入一个用户调整参数来实现。泛化风险最小化就是 要使得所学习的机器学习算法避免对训练数据过拟合,这就需要平滑学习参数的正 则技术。以下我们讨论机器学习中比较流行的正则技术。
1
华南理工大学工学博士研究生课程论文
英 文 摘 要: Statistic machine learning represents the main stream of state-of-the-art technologies in the machine learning community in the world today. Vector-space-based machine learning techniques have become more and more mature nowadays, much attention has been paid to the matrix-space-based statistic learning in recent years. Compared with vectorspace-based machine learning, the matrix-space-based one is lack of scalability, because it scales quadratically and cubically with the size of the problem in term of memory and run time complexity respectively. Therefore, how to approximate the target matrix and make the models more robust, more accurate and more practical for large scale learning is becoming a heated topic and the main concern in the machine learning community. Inspired by the Support Vector Machines(SVMs), Compressed Sensing (CS) and Non-negative Matrix Factorization (NMF) technologies, based on the sparsity and low-rank properties assumptions, a varieties of matrix-based machine learning algorithms were developed. This paper explores the matrix approximation problem from the perspectives of regularization, factorization and optimization. Finally, we list some interesting and important matrix-based applications. The regularization, factorization and optimization techniques are listed as follows. (i)Regularization: lp regularized, l2 regularized, l1 regularized, l0 regularized, lpq regularized, trace regularized, Frobenius regularized, nuclear norm regularized, Elastic net regularized, Adaptive l1 regularized,Bregman divergence regularized. (ii)Factorization: Non-negative Matrix Factorization, Matrix Completion, Robust PCA, Dictionary Learning, Sparse PCA, Sparse Covariance Selection, Low-Rank Positive Semidefinite Factorization. (iii)Optimization: Smooth Optimization (CG, Truncated Newton, L-bfgs), Non-Smooth Optimization(Proximal Point Method, η Approximation Method, Non-Negative Constrainted Optimization), Optimization with simple constraints (Gradient Projection Method, Active Set, Coordinate Gradient Descent), Optimization with general constraints (Inexact Alternating Direction Method)。
1.2 l0正则
l0正则是最直接最根本的稀疏学习技术。然而不幸的是,它具有组合的性质,是 个非凸正则子,难于分析。最小化l0范数是一个NP难的问题,在理论和实践中,均只 存在指数复杂度(相对于向量维数)的算法。一般来说,绝大多数算法对求l0只能得 到一个非精确解,有的直接求解最接近l0正则的凸l1正则(显然在lp正则中,p越少越
4、学位类别按博士、硕士、工程硕士、MBA、MPA 等填写。 5、篇幅、内容等由任课教师提出具体要求。
2
华南理工大学工学博士研究生课程论文
大规模机器学习中的矩阵低秩与稀疏近似算法研究 (Low-Rank and Sparse Matrix Approximation in
Large-Scale Machine Learning)
1.1 lp正则
在讨论其他正则前,我们先讨论一下lp正则,lp正则的图像可参考图1。lp正则的 稀疏性可以通过先将无约束问题转化成有约束问题再在lp构成的内部可行域空间来 讨论。当p ≥ 1时(如1中左图),lp是凸的,随着p值越大,该正则子所诱导的变量中零 的数目越少;而当0 < p < 1时,lp正则是非凸的,该正则子会诱导变量中零的数目稀 疏。
3、课程论文用 A4 纸双面打印。字体全部用宋体简体,题目 要求用小二号字加粗,标题行要求用小四号字加粗,正文内容要求 用小四号字;经学院同意,课程论文可以用英文撰写,字体全部用 Times New Roman,题目要求用 18 号字加粗;标题行要求用 14 号字加粗,正文内容要求用 12 号字;行距为 2 倍行距(方便教师 批注);页边距左为 3cm、右为 2cm、上为 2.5cm、下为 2.5cm;其 它格式请参照学位论文要求。
2
华南理工大学工学博士研究生课程论文
统计学习是当今机器学习领域的主流技术。向量空间的统计学习算法已经比较 成熟,近几年来,许多研究者主要把目光放在矩阵空间上。与向量空间相比,基于矩 阵空间的学习技术由于缺少扩展性,会随着问题的大小在空间和时间复杂度上分别 呈二次方与三次方增长,所以如何逼近一个目标矩阵而令机器学习技术更鲁棒更精 确更适合于大规模的情况已成为当今机器学习领域十分热门的话题。受到支持向量 机、压缩感知和非负矩阵分解等技术的启发,基于稀疏和低秩性质的假设,人们开发 了一系列基于矩阵方法的机器学习算法。