概率张量分解综述

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2018年8月

第34卷第4期

陕西理工大学学报(自然科学版)

Journal of Shaanxi University of Technology (Natural Science Edition)

Aug.2018

Vol.34 No.4

[文章编号]2096 -3998(2018)04 -0070 -10

概率张量分解综述

史加荣#’2",张安银1

(1.西安建筑科技大学理学院,陕西西安710055;

2.西安建筑科技大学建筑学院,陕西西安710055)

[摘要]在获取高维多线性数据的过程中,元素通常丢失,而概率张量分解能够在不破坏 数据结构的前提下有效地补全丢失值。综述了近几年出现的主要概率张量分解模型。首先,讨论了经典的张量分解模型;其次,将概率张量分解模型分为平行因子分解和塔克分解两大 类,并给出了求解方法及优缺点。在模型求解过程中,分析了两种最常用的方法:变分贝叶斯 推断和吉布斯采样。最后,指出了有待进一步研究的问题。

[关键词]张量分解;概率张量分解;低秩;变分贝叶斯推断;吉布斯采样

[中图分类号]T P301.6 [文献标识码]A

作为一类数据分析工具,低秩矩阵分解已被广泛地应用在机器学习、计算机视觉、数据挖掘和信号 与图像处理等诸多研究领域。低秩矩阵分解主要包括主成分分析[1]、奇异值分解[2]和非负矩阵分解[3]等模型,它们需要完整的输入数据。在数据获取时若出现数据丢失或者较大的噪声腐蚀,前述的传统低 秩分解方法往往不能给出理想的结果,而概率矩阵分解在一定程度上能克服这些缺陷[49]。与矩阵分解 相比,概率矩阵分解要求低秩成分是随机的,这不但可以增加模型的鲁棒性,而且有利于研究数据的生 成方式。

随着信息技术的快速发展,数据规模急剧扩大,使得高维数据结构更加复杂。传统的机器学习方法 用向量或矩阵形式来表示数据,因而不能很好地刻画数据的多线性结构。作为向量和矩阵的高阶推广,张量表示在一定程度上能够避免上述问题。因此,基于张量的机器学习方法已经受到广泛关注,成为当 今机器学习与数据挖掘领域的一个新的研究方向。平行因子分解(C a n d e c o m p/P a r a f a c,C P)和塔克分解 (T u c k e r)是张量分解的两类最重要的代表模型,它们分别是主成分分析与奇异值分解的高阶推广[10],已成功地应用到计算机视觉[11—14]、人脸识别[15—17]、交通网络分析[18]、社会网络分析[19]和国际关系分 析[20]等领域中。

在获取高维数据的过程中,部分元素可能丢失或者不准确。低秩张量恢复是解决上述问题的一类 方法,它根据待研究数据张量的近似低秩结构来恢复出低秩成分与噪声[2126]。Q u等[2718]认为低秩张 量恢复充分利用了数据所有维度的信息,能有效恢复或预测丢失数据。但现有的低秩张量恢复方法也 有一定的弊端,如:确定张量的秩是多项式非确定性(N o n-d e te r m in istic P o ly n o m ia1,N P)问题,低秩成分是 确定的而不是随机的。这些问题可能会导致过拟合,不利于低秩模型的生成。概率张量分解能够很好 地避免上述问题,已成为处理高维数据的一类重要方法。本文对主要的概率张量模型进行综述。

收稿日期#2017-10-25 修回日期#2018-01-02

基金项目:国家自然科学基金资助项目(61403298);中国博士后科学基金资助项目(2017M613087)

"通信作者:史加荣(1979—),男,山东省聊城市人,西安建筑科技大学教授,博士,主要研究方向为机器学习、模式识别。

• 70 •

第+期史加荣,张安银 概率张量分解综述

1 基本知识

1.1 C P 分解张量C P 分解是将一张量分解成一组秩1张量的线性组合。令7 * R /1X/!X3X-是一个C P 秩为2的 #阶张量,其C P 分解形式为

•,#T )],⑴CR b 2«1«2a R 7 )["⑴ 〇 "⑵-•••〇 "J T ) . [#D ,#⑵,r = 1

其中A ⑷=(W 'a ”,…,为因子矩

阵,E = 1,!,…,T 。图1给出了 3阶张量的C P 分

解示意图。 /

对于某个固定的E ,假设因子矩阵#(E )未知而

其余T - 1个因子矩阵已知,则可通过求解如下的

最优化问题来得到最优的#(E)*

G (i n ||7_ [#( 1),#(2),令$(E ) U #⑷〇…O # — 1)/#^-1)/…〇#(1),则最优化问题(2)等价于g 6"%(e ) _#

㈦$(E )T ||(, ⑶其中%(E )是张量7的E -模式矩阵。使用最小二乘法,得到#(E )的最优解,然后,通过交替迭代方法,可求

出J 的较优的C P 分解形式。

1.2 Tucker 分解

T 阶张量7 * R /1X /!X …^的Tucker 分解是将它分解为一 个核心张量与T 个矩阵的模式积,即

图1 3阶张量的C P 分解•,#(T )]I I (。 ⑵

j ) C X }&⑴ x 2&(2_t &( T ).

[C $&⑴,&⑵,…,&(T)], (4)其中C *R /1X 2X 3X /T 为核心张量,&⑷*

r -x /e 为因子矩阵,

e = 1,2,…,T 。3阶张量的Tucker 分解示意图如图2所示。为得到最优的Tucker 张量分解,可求解下列最优化问

题:

图2 3阶张量的Tucker分解c ,&(1),&?2)1:…,&( t J I 7_[ C $&( 1),&(2),…,&(T )]l l 2&(e )t &(e )(5)”n , E = 1,2,…,T ,

其中'为人阶单位矩阵。当所有因子矩阵给定时,根据其正交性,可得C 的最小二乘解。此时,最优 化问题(5)的目标函数变为|| 7 || (- || C || (,此问题可转化为

&⑴,,•,&(>_1&⑴=X 2&(2)T

X 3...X t &(寧||(,&(n )T&(n )(6)

1,2,…,T ,

使用高阶奇异值分解(Higher-Order Singular Value Decomposition ,H O S V D ),可近似求出问题(5)的最优解[3〇]。

如果Tucker 分解中的核心张量C 是超对角的,且人=人=…=八,则Tucker 分解就退化成C P 分 解。换言之,C P 分解是Tucker 分解的一种特殊情况。本文采用了 Acar 等人[29]的张量符号,关于张量 分解的更多知识可参考文献[9-10 ]和[31 ]。

2概率张量C P 分解

在进行C P 分解之前,需要事先确定张量的C P 秩。计算张量的C P 秩是N P 难的,这无疑增加了模 型的复杂性,而概率张量C P 分解在一定程度上避免了上述不足。下面对概率分解模型做简要综述。

+ 71 +

相关文档
最新文档