非负矩阵分解的基本原理和研究现状分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
非负矩阵分解的基本原理和研究现状分析
摘要:阐述了非负矩阵分解的基本原理、实现方法及其改进,分析了非负矩阵分解当前研究现状和热点,指出了进一步研究方向。
关键词:非负矩阵分解约束优化PCA SVD
非负矩阵分解(Non-negative Matrix Factorization,简记为NMF)是由Lee和Seung在著名的《Nature》杂志上提出的一种新的矩阵分析方法[1],其起源可以追溯到Paatero等人的研究工作。
随着计算机和信息技术的发展,矩阵分解成为处理大规模数据的一种有效手段。
传统的矩阵分解工具,例如PCA(Principal Component Analysis)和SVD等,分解的结果常常含有负值,而负元素在实际问题中往往没有合理的物理解释。
NMF强制分解过程以及最终结果的矩阵中所有元素均为非负,是一种更加自然的对象的表达方法,所以具有广泛的应用前景,目前还存在许多富有挑战性的问题需要研究。
1 非负矩阵分解的基本原理和实现算法
2 非负矩阵分解研究现状分析
以Lee和Seung提出的NMF算法为基础,发展了NMF的很多变体以提高算法性能。
为了说话方便,不妨把Lee和Seung提出的算法称为基本NMF算法。
NMF产生的矩阵和具有一定程度上的稀疏性,减少了数据冗余。
这是NMF技术的最重要特点之一,但是基本的NMF
算法产生的稀疏程度并不能满足某些应用的需要,例如稀疏编码,于是给目标函数中增加稀疏限制项构成了一大类改进的NMF算法。
NMF 分解的结果中没有原始数据的任何类别信息和内部结构信息,当把NMF应用于分类或者查询时就成为该技术的一个明显缺陷,因此,在目标函数中加入鉴别信息项或者把NMF与能够找出数据内在结构的技术相结合,从而达到改进算法性能的目的,成为NMF技术研究的又一个分支。
加权是NMF算法的又一类改进,加权可以使数据中的重要区域被更好地描述。
NMF基本算法及其绝大多数改进的算法中,矩阵和的初始值都是取作非负的随机值。
这是因为在缺少实际问题的更多附加信息时,不能确定和的初始值,因此只好随机取值。
如果用随机值初始化和,算法执行后得到的分解矩阵只是局部最小,而不是全局最优。
因此需要用若干对随机取值的和,多次执行算法,然后从得到的结果中选择一对最优的和最为分解结果。
从理论上可以把NMF看作约束优化问题,因此NMF算法也具有约束优化问题收敛速度慢的不足,执行一次算法需要成百甚至上千次迭代才能达到收敛,而多次执行算法,从中选择最优的分解作为结果使得时间开销非常大,不能满足实时系统的应用需求。
所以,和的初始化问题和开发高效率的NMF算法都是NMF研究领域的重要分支。
到目前为止,解决NMF初始化问题的研究可以分为两大类:一类是利用PCA或者SVD分解数据集,将分解矩阵中的负元素改为零以后作为NMF的初始化矩阵;另一类是利用聚类技术将数据集分类,将聚类中心作为初始化矩阵。
这两种初始化方法都在一定程度
上改进了NMF算法的性能,但是它们都不可能完全解决NMF初始化问题。
原因在于第一种方法有人为规定因素,未必与数据中固有的情况吻合;第二种方法中,聚类个数的确定仍然是一个没有完全解决的问题,而且聚类个数直接影响分类结果。
另外还有如何确定应保留基向量的个数和NMF算法的评测也是当前研究热点。
基向量的个数就是NMF分解中的值,值直接影响分解结果及所给出的物理解释的合理性。
值的确定没有成熟的方法,往往是先人为设定一个值,然后根据得到的分解结果是否符合要求来调整,并抽干内心做实验验证调整的值四否满足应用的要求。
3 结语
NMF是一种有效的数据分析工具,已经初步应用到图像处理和分析、图像融合、图像查询、文本挖掘、语音处理和生物医学等领域。
但是,NMF研究还处于起步阶段,具有多个富有挑战性的问题需要解决。
设计高效率的NMF算法以及算法的初始化、确定保留基向量的个数和评估NMF算法的规则等,都是当前NMF研究领域的热点。
参考文献
[1] LEE D D,SEUNG H S.Learning the parts of objects by non-negative matrix factorization[J].Nature,1999,401(6755):78~791.
[2] Wild S,Curry J,Dougherty A.Improving Non-negative Matrix Factorizations Through Structued Initialization[J].Pattern Recognition,2004,37(11):2217~2232.
[3] 谈爱玲,毕卫红,赵勇.基于稀疏非负矩阵分解和支持向量机的海洋溢油近红外光谱鉴别分析[J].光谱学与光谱分析,2011,35(5):1250~1253.。