我的读书笔记(二):数据分析中相似度计算在算法中的体现

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

我的读书笔记(二):数据分析中相似度计算在算法中的体现

如果有N个集合,求它们之间两两的相似度就需要N*(N-1)/2次计算,当N很大时这个代价仍然承受不起。于是我们需要一种方法能够不遍历所有可能的元素对就找出相似度较大的那些(大于某个给定的阈值t),这就是所谓Locality-Sensitive Hashing。第三章的后半部分基本全是围绕这一话题展开的。

这里又要出现一个比较神奇的方法了:由上篇文章所述,对每一列c(即每个集合)我们都计算出了n行minhash值,我们把这n个值均分成b组,每组包含相邻的r=n/b行。对于每一列,把其每组的r个数都算一个hash 值出来,把此列的编号记录到hash值对应的bucket里。如果两列被放到了同一个bucket里,说明它们至少有一组(r个)数的hash值相同,此时可认为它们有较大可能相似度较高(称为一对candidate)。最后在比较时只对落在同一个bucket里的集合两两计算,而不是全部的两两比较。

下面进行一点理论上的分析。如果两个集合被放到一个桶里,说明它们至少有一组minhash值是相同的。设两个元素的一次minhash值相同的概率是s(就是那个Jaccard相似度),那么一组全相同的概率是s^r,则b组中至少有一组相同的概率为1-(1-s^r)^b。如果b和r固定,那么此概率与s 值形成的曲线是一个S型。S型斜率最高的点大约在(1/b)^(1/r)处。

可以发现这个算法只能得到近似的结果,有可能两个相似度大于阈值t的集合没有被放到一个桶里,于是就漏掉了;另外也可能相似度小于t的集合被放到了一个桶里,造成了无效的计算。我们希望这两种错误都尽可能地小。形式化一点就是,我们定义一种函数(Locality-Sensitive Function, LSF),它把一个集合映射为一个值,如果两个集合映射到的值相同,就认为他们有可能相似度较高。这个函数的好坏可以用一个四元组(d1,d2,p1,p2)表示,意思是说,如果两集合的距离(此处我们把距离定义为1减去Jaccard相似度)小于d1,则它们至少有p1的概率映射为同一个值;如果两集合的距离大于d2,则它们至多有p2的概率映射为同一个值。可以发现对于同样的一对(d1,d2),p1越大p2越小,那么这个函数的效果就越好。

对于上述minhash的例子,如果只用一次minhash值作为LSF,那么它是(d1,d2,1-d1,1-d2)-sensitive,此时其实那个S-曲线是一条直线。比如令d1=0.2, d2=0.6,它就是(0.2, 0.6, 0.8, 0.4)。而如果我们用4组每组4个minhash值按上述方法计算,那么它是(0.2, 0.6, 0.8785, 0.0985),可以发现p1变大而p2变小了。在极端情况下,如果b和r都很大,那个S

曲线将近似成为一个分段函数,一开始的时候几乎一直是0,突然极快地跳到接近1,这时效果是非常好的,但是需要大量的minhash值计算。

另外,这里对于LSH的讨论实际上是很一般化的,待比较的东西不一定是集合,“距离”的定义不一定非和Jaccard相似度有关,LSF函数也不一定和minhash算法有关。比如可以定义01串的hamming距离,或者欧氏空间中的点的距离等等。对于hamming距离,LSF可定义为随机取一个二进制位看其是否相同,那么对于两个长度为L,Hamming距离为d的串,相同的概率就是d/L,所以是(d1,d2,1-d1/L,1-d2/L)-sensitive,此时同样可以用多次取值的方法进行加强。对于欧氏空间的点,情况比较复杂,书上给了一个二维空间的例子,方法是随机取一条直线并将其划分成固定长度的小段,将两个点映射到这条线上,看其是否落入同一个小段内。也可以推出一个四元组的结果,不过推导比较麻烦,在此略过。此文章由超级p57官方网站整理发布

相关文档
最新文档