概率相似度

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

本文在基于item协同过滤算法的框架下,定义了一种新的item相似度计算方法。

该方法是一种基于概率的算法,即两个item的相似度为一个用户随机的选择item,同时选到这两个item 的概率。

本文的实验结果表明,本文的算法准确率要比传统的算法要好,并且本文也给出了该算法在hadoop上的实现过程。

方法:
1. 基本定义
首先定义了几个概念:
分别是选择item y的用户集合和用户u选择的item集合。

如果从item的角度来看,用户u选择商品x的概率应该为这个item的度比上所有item的数目,

如果从user的角度来看,用户u选择商品x的概率应该为这个用户的度比上所有用户的数目,

下图是用户选择商品的矩阵图,其中橙色的点表示用户喜欢相应的商品,图中没有标记出用户不喜欢商品
根据上述的定义,那些出现橙色点的概率应该为,这些点在本文中定义为positive case
与positive case对应的是negative case,即用户不喜欢商品的概率
结合上述的两种情况,我们最终可以得到用户u选择商品x的概率为
2. 考虑数据density的影响
在上面两个图中,用户u和商品x都是一样,不同的是,左图在x和u附件橙色点比较少,而在右图,x和u附近的橙色点比较多,虽然是同样的用户和同样的商品,但是在上面两个图中计算出来的概率显然是不一样的,因此本文在原来的基础上加入了权重因子π来影响这种density 的影响
其中,V是图中所有橙色点的个数。

最终本文定义的用户u喜欢商品x 的概率为
3. Item的相似度定义方法
首先用户u同时喜欢商品x和y的概率为
而两个商品的交集为
因此两个商品的相似度为
4. 实验结果
从上图中可以看出,本文的算法ProbSim要比其他的一些方法好要,除了基于矩阵分解算法(Vendor_B)和基于语义算法(Vendor_A)。

在Precision指标上,本文算法又要好于这两个算法,
如下图所示:
下图是MovieLens的实验结果
=================================================== 题目:A Probabilistic Definition of Item Similarity
基于概率的相似度定义方法
作者:Oliver Jojic, Manu Shukla and Niranjan Bhosarekar
期刊:RecSys’11, October 23–27, 2011, Chicago, Illinois, USA
链接:/citation.cfm?id=2043973
This entry was posted in 报告. Bookmark the permalink.。

相关文档
最新文档