张量分解及其在推荐系统中的应用

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

张量分解及其在推荐系统中的应用

代 翔

(中国西南电子技术研究所,四川 成都 610036)

摘 要:在异构信息网络下往往会产生纷繁复杂的数据,这些数据常用一种被称为张量的新的形式来表示。但是由于这些数据中缺失值较多,存在一定的稀疏性,因此需要对张量进行分解,恢复缺失值,找出多元数据之间潜在的关系。张量分解是推荐系统中一种重要的方法,在推荐系统中应用张量分解,可以挖掘出潜在关系,给用户带来更好的推荐体验。笔者以数据挖掘为引,研究了张量分解及其在推荐系统中的应用,并根据当下的研究热点问题提出了未来张量分解在推荐领域的应用方向和发展趋势。

关键词:数据挖掘;异构信息网络;张量分解;矩阵分解;推荐系统

中图分类号:TP391 文献标识码:A 文章编号:1003-9767(2016)22-034-04

1 引言

在这个信息网络高度发达的时代,各个领域时刻都会产生大量的、纷繁复杂的数据,而这些数据之间往往呈现一些潜在的联系,数据挖掘领域就是为了挖掘这些数据之间的联系。数据是伴随许多对象而产生的,把这些不同的对象抽象为图上一个个节点,对象之间用线连接起来,则构成了相互连接的网络。网络下产生的数据用张量来表示,由于数据往往是稀疏的,为了解释数据之间联系,需要对张量进行分解。张量分解最常用的分解方法是CP分解和Tucker分解,当然还有很多其他分解的方法,如INDSCAL[1]、PARAFAC2[2]、CANDELINC[3]、DEDICOM[4]和PARATUCK2[5-6]等。张量分解后会产生一些潜在的因子,通过分析这些潜在的因子,就可以得出分解前数据之间的关联程度,即找出数据间内在的联系。

推荐系统就是针对蕴含着多源异构信息的复杂网络来向用户推荐所需物品的一个研究领域。推荐系统是“利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程”[7]。可以理解为推荐系统就是向用户推荐商品、电影、饮食、旅游地点等一些生活信息的系统,这些推荐信息可能是用户潜在感兴趣的,或者是用户可能需要的。

推荐系统中总是存在着多元关系,例如用户-电影院-电影。如果想得到用户在某电影院看某场电影的观影感受大致评分,那么电影院的设施和电影本身都可能会影响用户的体验效果。一般情况下,这样的三元关系中只有部分关系有数据记录,即现实生活中只有部分用户对某些影院的个别电影参与评分,大多数关系是没有数据记录的,但是我们想要得到有些缺失的数据记录,进而为用户推荐影院电影怎么办呢?方法就是用张量分解的方式,将原空间中的关系映射到低维空间,利用这些潜在因子中恢复出原张量的近似张量,近似张量能恢复出缺失的数据,从而给出原张量中一些潜在关系量的解释。这样用户可以以这些近似的评分作参考,决定要不要去某电影院看某场电影。

2 异构信息网络

我们生活的世界可以看作是一个复杂的大规模网络,网络中有不计其数的节点,这些节点可以是人、动物、植物这些生命个体,也可是计算机、建筑等无生命的实体。节点与节点之间往往都存在一定的联系,即节点与节点之间往往都有交互。

在复杂的大规模网络下,又存在众多的小规模网络,例如我们日常生活轨迹就能构成许多小规模网络,譬如人-工作-就餐。这些网络中往往蕴含着大量的信息,我们称之为信息网络。比如,每个人在工作后的就餐时间,要选择吃饭地点吃饭,那么他日常生活区域中的饭店都有可能成为他的潜在吃饭地点,但是个人口味的不同以及周围人对饭店的评价都会影响到就餐地点的选择。因此,对每个人来说,总有一些饭店会成为潜在的吃饭地点;对每一个饭店来说,总有一些人会成为潜在的客户。挖掘这些潜在的联系成为当今信息网络的热门话题,信息网络分析得到了不同学科研究者广泛的关注,例如计算机科学、社会科学、物理学等[8]。

信息网络的节点被看成现实中一个个对象,节点与节点之间的链接则是对象之间的交互。如果信息网络对象和链接的类型是相同的,或者认为一种类型的对象只对应一种类型的链接,则称此网络是同构信息网络;如果信息网络对象以及链接的类型是不同的,则称此网络是异构信息网络[8-9]。实际生活中,异构信息网络广泛存在,因为网络中对象通常是不同的组分,例如社交网络:每个用户通常对应着文字信息、

作者简介:代翔(1983-),男,河南信阳人,博士研究生,工程师。研究方向:自然语言处理、数据挖掘等。

图1 三阶张量

分解的核心是将张量A分解成若干秩一张量近似和:

(2)(N)

...

u u

其中,秩一张量的定义是:当一个张量A

…,u(N)外积时,A=u(1),u(2),…,u(N

张量是秩一张量。其中,°是向量的外积。

分解如图2所示:

图2 CP分解

3.3 Tucker分解

张量的Tucker分解是将其近似表示成一个核心张量与N 个矩阵的模积,即:

A≈S×1A×2B×3C(2)其中,S∈R I1×I2×I3是核心张量;A∈R I1×N、B∈R I2×M B、

图3 Tucker分解

值得注意的是,CP分解和Tucker分解相辅相成,各有特色,CP分解模型可以看作是Tucker分解模型的特例,更精简,更便于操作。CP分解公式也可表示为如下形式的Tucker分解:

123

B C

A A

≈ℑ×××(3)其中I I I

R××

ℑ∈为单位张量,I为各个维度的潜因子特征数。

图4 用户-电影-相关信息张量

5 张量分解在推荐领域的应用前景

在数据量日益增加的今天,大量数据中蕴含的信息更加

1980,45(1):3-24.

[4] Harshman R A. Models for analysis of asymmetrical relationships among N objects or stimuli[C]//First Joint Meeting of the Psychometric Society and the Society for Mathematical Psychology.Ontario,1978.

[5] Harshman R A, Lundy M E. Uniqueness proof for a family of models sharing features of Tucker's three-mode factor analysis and PARAFAC/CANDECOMP[J]. Psychometrika, 1996,61(1):133-154.

[6] Kolda T G, Bader B W. Tensor decompositions and applications[J]. SIAM review, 2009,51(3):455-500.

[7] ResinickP,Varian H R.Recommender systems[J]. Communications of the ACM, 1997,40(3):56-58.

[8] Shi C, Li Y, Zhang J, et al. A Survey of Heterogeneous Information Network Analysis[J].IEEE Transactions on Knowledge & Data Engineering,2015,29(12):87-99.

[9] Cai D, Shao Z, He X, et al. Mining hidden community in heterogeneous social networks[C]//Proceedings of the 3rd international workshop on Link discovery. ACM, 2005: 58-65.

[10] Feldman R. Link analysis: Current state of the art[J]. Tutorial at the KDD, 2002.

[11] Wasserman S, Faust K. Social network analysis: Methods and applications[M]. Cambridge:Cambridge university press, 1994.

[12] Otte E, Rousseau R. Social network analysis: a powerful strategy, also for the information sciences[J]. Journal of information Science, 2002,28(6):441-453.

[13] D. J. Cook,L. B. Holder.Graph-based data mining[J]. Intelligent Systems & Their Applications IEEE, 2000,15(2):32-41.

[14] Eldén L. Matrix methods in data mining and pattern recognition[M]. SIAM:Society for Industrial and Applied Mathematics,2007.

[15] Zhang T, Golub G H. Rank-one approximation to high order tensors[J]. SIAM Journal on Matrix Analysis and Applications, 2001,23(2):534-550.

[16] De Lathauwer L, De Moor B, Vandewalle J. A multilinear singular value decomposition[J]. SIAM journal on Matrix Analysis and Applications, 2000,21(4):1253-1278.

[17] De Lathauwer L, De Moor B, Vandewalle J. On the best rank-1 and rank-(r 1, r 2,...,rn) approximation of higher-order tensors[J]. SIAM Journal on Matrix Analysis and Applications, 2000,21(4):1324-1342.

[18] Adomavicius G, Tuzhilin A. Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions[J].IEEE Transactions on Knowledge & Data Engineering, 2005,17(6):734-749.

[19]许海玲,吴潇,李晓东,等.互联网推荐系统比较研究[J].软件学报,2009,20(2):350-362.

[20] Karatzoglou A, Amatriain X, Baltrunas L, et al. Multiverse recommendation: n-dimensional tensor factorization for context-aware collaborative filtering[C]//Proceedings of the fourth ACM conference on Recommender systems. ACM, 2010:79-86.

[21] Gunawardana A, Shani G. A survey of accuracy evaluation metrics of recommendation tasks[J]. The Journal of Machine Learning Research, 2009,10(10):2935-2962.

[22]M e l v i l l e P,M o o n e y R J,N a g a r a j a n R. Content-boosted collaborative filtering for improved recommendations[C]//Eighteenth National Conference on Artificial Intelligence,2002:187-192.

[23] Resnick P, Iacovou N, Suchak M, et al. GroupLens: an open architecture for collaborative filtering of netnews[C]// Proceedings of the 1994 ACM conference on Computer supported cooperative work. ACM, 1994:175-186.

[24] Sarwar B, Karypis G, Konstan J, et al. Item-based collaborative filtering recommendation algorithms[C]// Proceedings of the 10th international conference on World Wide Web. ACM, 2001:285-295.

[25] Kautz H, Selman B, Shah M. Referral Web: combining social networks and collaborative filtering[J]. Communications of the ACM, 1997,40(3):63-65.

[26]李乐,章毓晋.非负矩阵分解算法综述[J].电子学报,2008,36(4):737-743.

[27] Zhang Y, Lai G, Zhang M, et al. Explicit factor models for explainable recommendation based on phrase-level sentiment analysis[C]//Proceedings of the 37th international ACM SIGIR conference on Research & development in information retrieval. ACM, 2014:83-92.

[28] Wu Y, Ester M. Flame: A probabilistic model combining aspect based opinion mining and collaborative filtering[C]//Proceedings of the Eighth ACM International Conference on Web Search and Data Mining. ACM, 2015:199-208.

相关文档
最新文档