非负矩阵分解算法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

应用于寻找局部最小值。
4
梯度下降法4可能是实现起来最简单的技术，但其收敛速度可能很慢。其他方法如共轭梯度具有更快的收敛（至少在局部最小值附近），但是比梯度下降更复杂[8]。并且，基于梯度的方法的收敛具有对步长选择非常敏感的缺点，这对于大型应用非常不方便。
四．乘法矫正规则
我们发现，以下“乘法矫正规则”是解决问题 1 和 2 的速度和
1
3(��3 −
T ��3TℎT)1
(15)
证明：因为显然�� ℎ, ℎ ≥ �� ℎ ，我们只需要证明�� ℎ, ℎd ≥ �� ℎ ，
为了证明需要，我们对比
�� ℎ = �� ℎe + ℎ − ℎe X∇�� ℎe + g ℎ − ℎe X ��X�� ℎ − ℎe
��TU
=
Z[\ (]^]Z)[\
(7)
那么我们获得在定理 1 中给出的 H 的矫正规则。注意，该重新
调整会得出乘子因子（分母中的梯度的正分量和因子的分子中的负
分量的绝对值）。
对于散度，对角线重新调整梯度下降采取以下显示：
��TU ← ��TU + ��TU[ 3 ��3T��3U/(��)3U − 3 ��3T] (8)
非负矩阵分解算法1
摘要:非负矩阵分解（NMF）是一种处理多变量数据分解极为有效的方
法。这里分析了两种不同的 NMF 多重算法。它们只在矫正规则2中使用的乘法因子上略有不同。一种算法可以最小化传统的最小二乘误差，而另一种算法则能将广义的 Kullback-Leibler 发散度最小化。两种算法的单调收敛性均可使用类似于用于证明期望最大化算法收敛的辅助函数来证明。这些算法采用对角比例梯度下降的方式，重新调整因子被最优选择以确保收敛。
��Tv ℎe = ��Tv(��X��ℎe)T/ℎTe
(13)
那么
�� ℎ, ℎe = �� ℎe + ℎ − ℎe X∇�� ℎe + g ℎ − ℎe X��(ℎe)(ℎ − ℎe)
1
(14)
是一个辅助函数对于
�� ℎ = g
正都是乘以一个因子。特别地，当V = WH时，可以直观地看出这
个乘数因子是一致的，所以完美的重构必然是矫正规则的固定一点
点。
4
Gradient descent 5
五．乘法与加法矫正规则
可以将这些乘法矫正与梯度下降产生的矫正进行对比[14]。特别
地，对于减小平方距离的 H 的简单加法矫正可以被写为：
以我们把它称之为 A 对于 B 的“散度”。它减少到 K-L 散度或相对
熵，当 34 ��34 = 34 ��34 = 1, 使得 A 和 B 可以被认为是归一化的概率分布。
我们现在考虑 NMF 的两种替代方案作为优化问题：
问题 1 最小化||V − WH||1用W和H，约束条件��, H ≥ 0.
关键词：非负矩阵分解，NMF 多重算法, 最小二乘误差,K-L 发散度
一. 介绍
无监督的学习算法，如主成分分析和矢量量化，一种解释是对不同约束条件下的数据矩阵进行分解的算法。根据所使用的约束，所得到的因子可以显示出具有非常不同的表征性质。主成分分析仅执行弱
1 Translated by 卢天培.
和�� , �� ,矫正规则对定理 1 和 2 遵循 Eq.11.
7
图 1:最小化辅助函数�� ℎ, ℎe ≥ �� ℎ 确保�� ℎefg ≤ �� ℎe 对于
ℎefg = arg min ��(ℎ, ℎe)
k
理论 2 如果K(ℎe)是对角矩阵：
通过 Eq.11 重复矫正，我们估计得到了下列方程的收敛局部最小值
ℎo3p
=
arg
min
k
��(ℎ)：
�� ℎo3p ≤ ⋯ �� ℎefg ≤ �� ℎe … ≤ ��(ℎ1) ≤ ��(ℎg) ≤ ��(ℎs)(12)
我们接下去证明通过定义适当的辅助函数�� ℎ, ℎe 对| �� − �� |
��TU ← ��TU + ��TU[(��X��)TU − (��X��)TU]
(6)
如果��TU 设置为小正数，这相当于常规梯度下降方法。只要数字
充分的小矫正会减少到| �� − �� |。
如果我们对对角进行重新调整5变量并设置
量的绝对值）。
5
diagonally rescale
6
由于我们对��TU 的取值不是很小，似乎不能保证这种重新缩放的梯度下降降低成本函数。令人惊讶的是，如下一节所示，这是确定的情况。
六．衔接证明
我们将利用类似于期望最大化算法中使用的辅助函数[15,16]证明
定理 1 和 2。
定义 1 G(h, ℎ′)是��(ℎ)的辅助函数，如果下面的条件成立：
2
update rules. 1
正交约束3，导致了非常分散的表示，这种表示采用用消去法生成变异性 [1,2]。另一方面，矢量量化使用一个有力的全局最优约束，从而将数据聚类成互相独立的原型[3]。
我们以前已经证明，非负性是矩阵分解中有用的约束来进行数据的部分性学习[4,5]。非负基学习向量用于分布式（仍然采用稀疏组合产生表达式）[6,7]。在本文中，我们详细分析了从数据中学习最优非负因子的两种数值算法。
�� /(��)��
当且仅当 W 和 H 处于静止状态时，散度是不变的。
(5)
这些定理的证明在后面的部分给出。现在我们注意到，每个矫
另外一个有用等方法为：
��(��| �� =
34(��34 ��
;<= ><=
−
��34
+
��34 )
(3)
像欧几里德的距离一样，这也是下限为零，当且仅当 A = B 时
才距离消失。但它不能被称为“距离”，它在 A 和 B 中不对称，所
易于实施的一个很好的妥协方法。
理论 1 欧氏距离| �� − �� |在（4）的矫正规则下非减
��
←
��
(��)�� (��)��
��
←
��
(��)�� (��)��
(4)
当且仅当W和H同一点时，欧几里得距离固定。
理论 2 散度D(V|WH)在（5）的矫正规则下非减
k
证明：�� ℎefg < �� ℎefg, ℎe ≤ �� ℎe, ℎe = ��(ℎe)
(11)
注意到��(ℎefg) = ��(ℎe)仅当ℎe是�� ℎ, ℎe 局部最小值时满足。如
果��的导数存在且在ℎe的短区间内连续，这也表明∇�� ℎe = 0。因此
中的示例数。然后将该矩阵近似分解为n×r矩阵��和r×m矩阵��.通常
r 小于 n 或 m，使��和��小于原始矩阵��. 得到原始数据矩阵的压缩版
本。
3
Principal components analysis enforces only a weak or- thogonality constraint, resulting in a very distributed representation that uses cancellations to generate variability [1, 2]
2
方程式(1)近似的意义在于它可以逐列重写为v ≈ ��，其中��和 ℎ是��和��的对应列。换句话说，每个数据向量��近似的由��的列进行线性组合，用ℎ的分量进行加权。因此，��可以被认为是包含对于��中的数据的线性近似优化的基础。由于相对较少的基向量用于表示许多数据向量，所以在数据中只有在基向量发现潜在的结构时才能实现良好的近似。
本文不是关于 NMF 的应用，而是侧重于找到非负矩阵分解的技术方面。当然，其他类型的元分解因子在数值线性代数中已经得到了广泛研究，但是这种非负性约束使得以前的很多工作都不适用于目前的情况[8]。
在这里，我们讨论了基于W和H的迭代矫正的两种 NMF 算法。由于这些算法易于实现，其收敛性能得到保证，我们发现它们在实际应用中非常有用。其他算法可能在整体计算时间内更有效，但是更难实现，并且不能将其推广到不同的成本函数。只有一个因素类似于我们的算法，已经被用于去卷积发射断层扫描和天文图像[9,10,11,12]。
问题 2 最小化��(��||��)用W和H，约束条件��, H ≥ 0. 尽管方程||V − WH||1和��(��||��)在仅W下凸或在仅H下凸，它
在两者之下不为凸。因此，期望一种算法在找到全局最小值的意义
上解决问题 1 和 2 是不切实际的。然而，有许多数值优化技术可以
�� ℎ, ℎd ≥ �� ℎ , �� ℎ, ℎ = ��(ℎ)
(10)
辅助函数说一个有用对概念，因为下面引理（Fig.1 中的插
图）
引理 1 如果��是一个辅助函数，那么��是非增在以下条件下：
ℎefg = arg min ��(ℎ, ℎe)
在我们的算法的每次迭代中，通过将当前值乘以取决于方程式（1）中的近似质量的一些因子来找到W或H的新值。我们证明近似的质量随着这些乘法矫正规则的应用而单调改善。实际上，这意味着矫正规则的重复迭代保证收敛到局部最优矩阵分解。
三. 成本函数
3
为了找到一个近似分解�� ≈ ��，我们首先需要定义量化近似质
�� ← ��
�� /(��)��
�� ← ��
二. 非负矩阵分解
我们正式考虑算法来解决以下问题：
非负矩阵分解（NMF）给定非负矩阵��，找到非负矩阵因子��和��，
使得：
�� ≈ ��
(1)
NMF 可以以下列方式应用于多变量数据的统计分析。给定一组多
元 n 维数据向量，将向量放置在n×m矩阵��的列中，其中 m 是数据集
量的成本函数。可以使用两个非负矩阵��和��之间的距离的一些度量
来构造这样的成本函数。一个有用的方法只是��和��之间的欧几里得
距离的平方[13]。
�� − �� 1 = 34 ��34 − ��34 1
(2)
下限为零，距离消失当且仅当�� = ��.
同样的，如果��TU 设置为小正数，这相当于常规梯度下降方法。
只要数字充分的小矫正会减少到D(V|WH)。如果设置：
��TU =
Z[\ < �� 2 中给出的 H 的矫正规则。该重新调整同
样会得出乘子因子（分母中的梯度的正分量和因子的分子中的负分