概率相似度

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

本文在基于item协同过滤算法的框架下，定义了一种新的item相似度计算方法。

该方法是一种基于概率的算法，即两个item的相似度为一个用户随机的选择item，同时选到这两个item 的概率。

本文的实验结果表明，本文的算法准确率要比传统的算法要好，并且本文也给出了该算法在hadoop上的实现过程。

方法：
1. 基本定义
首先定义了几个概念：
分别是选择item y的用户集合和用户u选择的item集合。

如果从item的角度来看，用户u选择商品x的概率应该为这个item的度比上所有item的数目，
即
如果从user的角度来看，用户u选择商品x的概率应该为这个用户的度比上所有用户的数目，
即
下图是用户选择商品的矩阵图，其中橙色的点表示用户喜欢相应的商品，图中没有标记出用户不喜欢商品
根据上述的定义，那些出现橙色点的概率应该为，这些点在本文中定义为positive case
与positive case对应的是negative case，即用户不喜欢商品的概率
结合上述的两种情况，我们最终可以得到用户u选择商品x的概率为
2. 考虑数据density的影响
在上面两个图中，用户u和商品x都是一样，不同的是，左图在x和u附件橙色点比较少，而在右图，x和u附近的橙色点比较多，虽然是同样的用户和同样的商品，但是在上面两个图中计算出来的概率显然是不一样的，因此本文在原来的基础上加入了权重因子π来影响这种density 的影响
其中，V是图中所有橙色点的个数。

最终本文定义的用户u喜欢商品x 的概率为
3. Item的相似度定义方法
首先用户u同时喜欢商品x和y的概率为
而两个商品的交集为
因此两个商品的相似度为
4. 实验结果
从上图中可以看出，本文的算法ProbSim要比其他的一些方法好要，除了基于矩阵分解算法(Vendor_B)和基于语义算法(Vendor_A)。

在Precision指标上，本文算法又要好于这两个算法，
如下图所示：
下图是MovieLens的实验结果
=================================================== 题目：A Probabilistic Definition of Item Similarity
基于概率的相似度定义方法
作者：Oliver Jojic, Manu Shukla and Niranjan Bhosarekar
期刊：RecSys’11, October 23–27, 2011, Chicago, Illinois, USA
链接：/citation.cfm?id=2043973
This entry was posted in 报告. Bookmark the permalink.。