NMF综述报告

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

人脸识别的非负矩阵分解(NMF)方法文献综述
摘要：人类对整体的感知是基于对部分的感知，NMF（非负矩阵分解，Non-negative matrix factorization）的思想正是源于此。

通过对矩阵分解因子加入了非负性约束，使得对高维非负原始数据矩阵的分解结果不存在负值，且具有一定的稀疏性，因而得到了相对低维、纯加性、拥有一定稀疏特性的分解结果。

与PCA（主成分分析，principal components analysis）等传统人脸识别方法相比，NMF的基图像就是人脸的各个局部特征，并且通过对经典算法的一系列优化，改进的NMF算法的识别率和鲁棒性较传统方法有着显著优势。

此外，NMF在机器学习、语义理解等领域也有着重要应用。

关键词：非负矩阵分解（NMF）稀疏性改进的NMF 语义理解
一、引言
在实际中的许多数据都具有非负性，而现实中对数据的处理又要求数据的低秩性经典的数据处理方法一般不能够确保非负性的要求，如何找到一个非负的低秩矩阵来近似原数据矩阵成为一个关键问题。

在这样的背景下，NMF方法应运而生。

NMF方法思想最早可以追溯到由Paatero和Tapper在1994年提出的正矩阵分解（Positive Matrix Factorization,PMF）[1]；此后1999年，Lee和Seung提出了一个以广义KL散度为优化目标函数的基本NMF模型算法，并将其应用于人脸图像表示[2]；2001年，Lee和Seung通过对基本NMF算法进行深入研究，又提出了两个经典的NMF算法，即基于欧氏距离测度的乘性迭代算法和基于广义KL散度的乘性迭代算法，并给出了收敛性证明[3]，这两种算法称为NMF方法的基准算法，广泛应用于各个领域。

但是在实际应用中，由于经典的基准NMF算法存在收敛速度较慢，未利用统计特征，对光线、遮挡等敏感，以及无法进行增量学习等问题，各种改进的NMF算法被提出。

其中包括Lin提出的基于投影梯度（Projected Gradient，PG）的NMF方法[3]，该方法有着很高的分解精度；Berry提出的基于投影非负最小二乘（Projected Non-negative Least Square，PNLS）的NMF方法[5]，通过这种方法得到的基矩阵的稀疏性、正交性叫基准NMF方法都更好；此外还有牛顿类方法[6]和基于有效集[7]的NMF方法等。

二、NMF的基准算法
1.NMF模型
给定一个非负矩阵(即)，和一个正整数，求未知非负矩阵和，使得
用表示逼近误差矩阵。

可以用下图表示该过程：
可以看出，原始数据的高维大矩阵被分解成了两个低维矩阵的乘积，相当于将数据点从高维空间
中变换到了低维空间中，矩阵中r个列向量构成了该空间的一组基，中的列向量是将每个原始数据矢量（矩阵的列向量）近似地表示为该组基的线性表示。

这样我们就可以用矩阵来表示原始数据，进而利用经典的数据分析方法进行数据处理工作。

既然是逼近，也定义了逼近误差，那么问题就转化为了如何让逼近的误差最小。

Lee和Seung 提出了两种测度，用于表征该逼近误差[3]，其一是利用欧式空间的距离，将问题转化为：
另一种测度是利用广义KL散度来刻画逼近误差,即：
2.基准求解算法（Lee和Seung的乘性迭代算法[3]）
(2.1)中的优化目标函数为逼近误差的F范数。

Lee和Seung采用了类似于EM算法的优化策略去交替优化，得到了乘性迭代算法，其优化核心为：
具体地，两人对该算法的收敛性给出了证明[7]：即当算法收敛到可行域内部的有限点时，该点是稳定的，不过该稳定点可能是，也可能不是局部极小点；当有限点落在可行域的边界时，其稳定性不确定。

针对(2.2)式，乘性迭代算法的优化规则为：
三、其他NMF算法
1.梯度下降算法
梯度下降法是求解NMF的比较典型的第二类算法，比如Hoyer在[8]中提出的求解带有稀疏性约束的NMF算法，以及Shahnaz等在[9]中提出的最小二乘约束下的梯度下降法（GD-CLS）来求解NMF等。

基于梯度下降的NMF求解算法的一般框架如下：
Step 1：输入非负矩阵，随机初始化和;
Step 2: 对k=1,2,3,4…迭代
A）
(3.1)
(3.2)
B）检验和是否满足给定的收敛准则，若满足，则结束该步骤；否则重复。

Step 3：算法终止。

基于梯度下降的NMF算法简单而容易实现，但该算法实际使用并不多，因为不仅收敛速度满，而且对于参数和的值非常敏感。

2.基于交替非负最小二乘法的算法
基于交替非负最小二乘法（ANLS）的NMF算法（ANLS-NMF）最早是由Paatero和Tapper提出的[1]，目标函数为(2.1)式，当和同时变化时，目标函数是非凸的，此时可能找不到极值点；但当二者中有一个是固定的，例如基图像集固定的时候，目标函数是关于另一个变量的凸函数。

ANLS-NMF算法正是用这样的思想进行优化，选定基图像集后，针对系数矩阵用非负最小二乘法进行优化；然后互换角色，固定当前系数矩阵，反过来优化基图像集；重复该迭代过程以达到局部极小点。

算法框架如下：
Step 1：输入非负矩阵，随机初始化和;
Step 2: 对k=1,2,3,4…迭代
A）
(3.3)
(3.4)
B）检验和是否满足给定的收敛准则，若满足，则结束该步骤；否则重复。

Step 3：算法终止。

3.梯度投影法改进的NMF算法
在基准的乘性迭代算法中，Lee和Seung根据算法可使目标函数值非严格单调下降，由此证明该算法可以得到局部最优解。

但后来多次被证明这个论断是错误的[7,10]，这是因为，乘性迭代算法产生的迭代点列的极限点并不一定是稳定点，原因就是目标函数并非关于的严格凸函数。

此外，乘性迭代过程中存在0死锁危机，即的某一元素一旦迭代到0值，将永远保持为0，而不会再被更新。

基于此，Lin在[4]中提出了一种用梯度投影法改进的NMF算法。

相比乘性迭代算法，基于梯度投影的算法具有很好的收敛性，且有效避免了0死锁问题。

但是该算法收敛较慢，没有乘性迭代算法收敛速度快。

首先，Lin给出了给出了梯度投影法求解一般边界约束优化问题的算法。

对于边界约束优化问题
其中f(x)是一个连续可微函数，l和u分别是约束边界的上界和下界。

将算法的迭代次数表示为k，设为第k次迭代点，为第k次迭代时的搜索步长因子，则投影算子P定义为：
其中
Lin的算法思路如下：
Step 1：输入给定常数，其中，输入初始可行点;
Step 2: 对k=1,2,3,4…迭代
A)
其中，,依次取1,2,3…，当满足下式时，停止取值，将停止时的取值记为t，
B）检验是否满足一下给定的收敛准则：
其中，
满足则输出，转Step3；不满足则重复。

Step 3：算法终止。

其中，(3.7)为充分下降条件，即Armijo条件。

对于NMF问题，边界约束是指非负性约束，投影算子P定义为
4.牛顿类算法
Bertsekas尝试了不同的搜索步长因子[11]，证明了满足(3.7)的步长因子一定存在，迭代点列的极限点一定是稳定的。

该算法中耗时最多的步骤是搜索满足Armijo条件的步长因子。

为了提高上述算法的效率，More等人提出了一种新的确定步长的准则[12]，为了使目标函数在每次迭代中都取得可观的下降量，首先，每次开始搜索前将作为初值赋给；其次，试探步长因子的变化幅度较大，且取值可以大于1，即可以使放大的。

基于这种准则的算法思路如下：Step 1：输入给定常数，其中，输入初始可行点，取;
Step 2: 对k=1,2,3,4…迭代
A)
B)if 满足
do
{
}
While(满足
Else
do
{
}
While(不满足
C)令
D) 检验是否满足一下给定的收敛准则：
其中，
满足则输出，转Step3；不满足则重复。

Step 3：算法终止。

四、NMF文本学习、语义理解领域的应用[15]
文本学习与理解的基础是文本分类，其难点在于，经向量空间模型表示后的特征空间维数往往很高，一方面导致分类复杂度迅速增大，从而影响分类时间；另一方面不能排除特征中存在冗余的情况，使得分类精度降低。

利用NMF分解结果非负且维数降低的优点，可以对分类过程进行优化。

设经预处理后的文本统计生成的矢量模型用矩阵表示，其中n为特征维数，m为训练样本数。

通过特征提取降低待处理数据的冗余度。

将X向特征基矩阵投影，得到训练样本在特征基空间上的投影矢量矩阵，即
所以可以理解为，是用训练样本在特征基空间上的投影的线性组合来逼近原始训练样本，由于特征基空间的维度较原始样本空间要低很多，且可以选取独立性较强的基用以张成特征空间，因而这样的投影处理可以保证分类复杂度控制在一定量级以下。

NMF的特征提取方法较PCA等方法有着相当的分类性能，但在计算性能方面明显更优；但同时，NMF方法对特征基选取的依赖程度很高，且影响针对具体问题趋势不定。

由于特征提取维数一定程度上决定了特征基空间的选取，因而如何确定最优的特征提取维数（也就是矩阵分解的秩）成为该应用中不可忽视的实际困难。

参考文献
[1]Paatero P, Tapper U. Positive matrix factorization: A non‐negative factor model with optimal utilization of error estimates of data values[J]. Environmetrics, 1994,
5(2):111-126.
[2] D. D. Lee and H. S. Seung, “Learning the parts of objects by non-negative matrix factorization,”Nature, vol. 401, no. 6755, pp. 788-791, 1999.
[3] D. D. Lee and H. S. Seung, “Algorithms for non-negative matrix factorization,” in Advances inNeural Information Processing Systems, 2001, pp. 556-562.
[4]Lin C J. Projected Gradient Methods for Nonnegative Matrix Factorization[J]. Neural Computation, 2007, 19(10):2756.
[5]Berry M W, Brown M, Langvill A N, et al. Algorithms and applications for approximate nonnegative matrix factorization[J]. Computational Statistics & Data Analysis, 2007, 52(1):155-173.
[6]Kim D, Sra S, Dhillon I S. Fast Newton-type methods for the least squares nonnegative matrix approximation problem[C]// in Data Mining, Proceedings of SIAM Conference on. 2008:38--51.
[7]Lin C J. On the Convergence of Multiplicative Update Algorithms for Nonnegative Matrix Factorization[J]. IEEE Transactions on Neural Networks, 2007, 18(6):1589-1596.
[8]Hoyer P O. Non-negative Matrix Factorization with Sparseness Constraints[J]. Journal of Machine Learning Research, 2004, 5(1):1457-1469.
[9]Shahnaz F, Berry M W, Pauca V P, et al. Document clustering using nonnegative matrix factorization ☆[J]. Information Processing & Manage ment, 2006, 42(2):373-386.
[10]Gonzalez E, Zhang Y. Accelerating the Lee-Seung algorithm for non-negative matrix factorization[J]. put. & Appl.math, 2005.
[11]Bertsekas D P. On the Goldstein-Levitin-Polyak gradient projection method[J]. Automatic Control, IEEE Transactions on, 1976, 21(2):174-184.
[12]Lin C, More J. Newton''s Method for Large-scale Bound Constrained Problems[J]. Siam Journal on Optimization, 1999(4):28.
[13]Berry M W, Brown M, Langvill A N, et al. Algorithms and applications for approximate nonnegative matrix factorization[J]. Computational Statistics & Data Analysis, 2007, 52(1):155-173.
[14]Kim D, Sra S, Dhillon I S. Fast Newton-type methods for the least squares nonnegative matrix approximation problem[C]//Proceedings of the 2007 SIAM international conference on data mining. Society for Industrial and Applied Mathematics, 2007: 343-354.
[15]Saul L K, Sha F, Lee D D. Statistical signal processing with nonnegativity constraints[J]. 2003.。