大数据十大经典算法PageRank 讲解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
每个用户有一个私 人的PageRank向量
对每一个主题方向 建立偏向该主题的 一个PageRank向量
Page 15
思路及公式
假定我们知道某些网页代表一个主题(体育),为了构建面向主题的PageRank, 我们可以安排随机冲浪者只到达一个随机的体育类网页,而不是到达任意类别的 一个网页。
这种做法的后果是,随机冲浪者很可能停留在已知的体育类网页上,或者从这些 已知的体育类网页上通过较短的路径就可到达的网页上。体育类网页链向的网页 很可能与体育类相关,随着离已知体育类网页的距离的增加,这些网页离体育相 关的概率也随之降低。
能否考虑先算出局部的Pagerank值??
Page 12
分块式Pagerank算法:
算单法击实此处现添步加骤段落:文字内容
1.分数据块,计算每一个网络图G[i]的的Local Pagerank。 2.根据各数据块之间的相关性,计算缩略图p的Blockrank。 3.将所得Local Pagerank和Blockrank按照一定原则进行计算,得到 一个新的n维Pagerank. 4.将n维Pagerank多次迭代,得到最后收敛的pagerank向量。
作弊者可在他网页上增 加一个词项,并将该词 项重复千百次,搜索引 擎可能以为该网页与检 索关键词高度相关而把 该网页放在搜索结果的
前列
Page 3
2.Pagerank的定义
Pagerank思想:
“被越多优质的网页所指的网页,它是优质的概率就 越大”
Page 4
2.Pagerank的定义
Pagerank是一个函数,它对Web中的每个网页赋予一个实数 值。它的意图在于,网页的Pagerank越高,那么它就越“重要”。
时停止,从而得到M的主特征向量。 实际上,对于Web本身而言,迭代50-75次
已经足够收敛。
Page 7
3.终止点
一个没有出链的网页称为终止点。
这里D页面不存在外链,是一个终止点。 由矩阵论的知识可推知,迭代结果将最 终归零。
那么该如何处理终止点呢?
迭代拿掉图中的终止点及终止点相关的 边(之所以迭代拿掉是因为当目前的终 止点被拿掉后,可能会出现一批新的终 止点),直到图中没有终止点。对剩下 部分计算rank,然后以拿掉终止点逆向 顺序反推终止点的rank值。
Page 2
1.早期搜索引擎的弊端
早期很多搜索引擎根本 不评价结果重要性,而 是直接按照某自然顺序 (例如时间顺序或编号 顺序)返回结果。一旦 结果集变大,简直就是 一场灾难,这也注定这 种方法不可能用于现代
的通用搜索引擎
基于检索词评价的思想 非常朴素:检索关键词 出现次数越多的页面匹 配度越高,而匹配度越 高的页面重要性越高
设初始时每个页面的rank值为1/N,这里就是1/4。按A-D顺序将页面rank为向量v:
第一步之后,冲浪者的概率分布为Mv; 第二步之后,冲浪者的概率分布为M²v; 第i步之后,依次类推,可得冲浪者经过i步
之后的位置概率分布向量为Miv。 我们可以从初向量v出发,不断左乘矩阵M, 直到前后两轮迭代产生的结果向量差异很小
首先,我们将Web做如下抽象:1、将每个网页抽象成一个节 点;2、如果一个页面A有链接直接链向B,则存在一条有向边从A
到B。因此,整个Web被抽象为一张有向图。
Page 5
对应的转移矩阵如左图
一个N维矩阵,其中i行j列的值 表示用户从页面j转到页面i的概 率。这样一个矩阵叫做转移矩
阵
、
Page 6
Page 8
4.自连接点
如下图,D有外链所以不是终止点,但是它只链向自己(注 意链向自己也算外链,当然同时也是个内链)。这种节点叫 做自连接点,如果对这个图进行计算,会发现ຫໍສະໝຸດ Baidu的rank越来越 大趋近于1,而其它节点rank值几乎归零。
Page 9
为了克服这种问题,需要对Page单R击an添k加计算方法进行一个平滑处理,具体做 法是加入“跳转因子(teleporting)”。所谓跳转因子,就是我们认为在任 何一个页面浏览的用户都有可能以一个极小的概率瞬间转移到另外一个随机 页面。当然,这两个页面可能不存在超链接,因此不可能真的直接转移过去, 跳转因子只是为了算法需要而强加的一种纯数学意义的概率数字。
Page 13
面向主题PageRank
动机
不同的人有不同的兴趣,而有时完全不同的兴趣却采用相同的查询词 项来表达。如果搜索引擎能够推断出用户的兴趣,那么在返回相关页 面的时候会表现得更好
比如用户搜索"苹果"
理想情况 做法
实际情况 做法
Open Directory(DMOZ) 分16个顶层类别
那么(1 − β)eS/|S| 的第二和第 四个分量是 1/10,其它分量 为0.因为1 − β=1/5,S的大小 为2,向量es中B和D对应的分 量为1,A和C 对应分量为0
PageRank算法
基本PageRank 面向主题PageRank Link Spam与反作弊 导航页与权威页
一小组:王高翔,李渠,刘晴,柳永康,刘昊骋 二小组: 王飞,李天照,赵俊杰,陈超,陈瑾翊
一.Pagerank定义及终点,自连接点的概念
早期搜索引擎的弊端 Pagerank的定义 终止点 自连接点
击添加
Page 10
单击此其的处中原添β因往是加往这段被个落设公文置式为字的一内前个容半比部较分小是的向参量数,(因0此.2或必更须小将)β/N,转e为为N向维量单才位能向相量加,。加这入样e,
整个计算就变得平滑,因为每次迭代的结果除了依赖转移矩阵外,还依赖一个小 概率的心灵转移。
如果按这个公式迭代算下去,会发现自连接点的问题解决了,从而每个页面
都拥有一个合理的pagerank。
Page 11
分块式Pagerank算法:
单击此处添加段落文字内容
原来的算法存在的问题:
1.时间开销大。每次迭代就算时间开销为 2.因特网中数据大部分是分布式的,计算过程需要多次传递数据,网 络负担太大。 3.n维矩阵式一个稀疏矩阵,无论计算还是存储都很浪费资源。
假定S是一个网页的集合,其中的网页属于类别S(随机跳转集合)。es是一个 向量,如果其分量对应的网页属于S,则该分量置为1,否则为0。于是S的面向 主题的PageRank的迭代公式如下:
M 是Web的转移矩阵,|S|是集合S的大小
Page 16
例子
假设β = 0.8 S={B,D}.
于是转移矩阵乘以β得: