网页排序算法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
值的累加。
PageRank定义
L.Page等人对PageRank的定义:
PR(Tn ) PR(T1 ) PR(T2 ) PR( A) C ( ... ) C (T1 ) C (T2 ) C (Tn )
PR(A):表示网页A的PageRank值; C:为规范化因子,是保证所有网页的PR值总和为一常量; T1,T2,…,Tn :链接到网页A的其他网页; PR(Ti):网页Ti的PageRank值; C(Ti):网页Ti指向其他网页的超链接数目。
aij= 1 0 (从页面 i 向页面 j 有 链接的情况) (从百度文库面 i 向页面 j 没有链接的情况)
来表示。
PageRank计算(二)
文件数用 N 来表示的话,这个行列阵就成为 N×N 的 方阵。这个相当于在图论中的“邻接矩阵”。也就是 说,Web 的链接关系可以看做是采用了邻接关系有向 图 S。总而言之,只要建立了链接,就应该有邻接关 系。
PageRank定义
基本思想:如果网页T存在一个指向网页A的连接,则 表明T的所有者认为A比较重要,从而把T的一部分重要 性得分赋予A。这个重要性得分值为: PR(T)/C(T)。 其中PR(T)为T的PageRank值,C(T)为T的出链数, 则A的PageRank值为一系列类似于T的页面重要性得分
第二代搜索引擎
基于超链接的检索也称链接分析,是搜索引擎面对网 络这一动态环境,所采用的一种新的检索排序方法。 基本思想 PageRank算法 HITs算法
超链接分析的基本思想
主要是来自传统的文献计量学中的文献引文分析。传 统的文献引文分析认为,一篇学术论文的价值很大程 度上体现在它被其他学术论文作为参考文献饮用的次 数,即被其他学术论文引用得越多,这篇论文的价值 就越高。 超链接分析充分利用了网络自身的超链接结构,提出 了一个假设,即网页的重要性可用其他网页对其超链 接的数量来衡量。
PageRank计算(一)
任意 P S : PR ( P 0) 1 S
While
( PR(P)i PR(P)i1 )
P S;
;
{for each
PR( P)i PR( P)i 1 (
C 1
PR(P)
PS
PR(Tn ) PR(T1 ) PR(T2 ) ... ) C (T1 ) C (T2 ) C (Tn ) ;
PageRank概念
Google的PageRank根据网站的外部链接和内部链接的 数量和质量来衡量网站的价值。PageRank背后的概念 是,每个到页面的链接都是对该页面的一次投票,被 链接的越多,就意味着被其他网站投票越多。这个就 是所谓的“链接流行度”——衡量多少人愿意将他们
的网站和你的网站挂钩。 PageRank分值从0到10,PR值越高说明该网页越受欢 迎。
网络检索
李柯
2010-12
搜索引擎的发展
第一代搜索引擎——基于关键词的检索 第二代搜索引擎——基于超链接的检索 第三代搜索引擎——基于概念的检索
第一代搜索引擎
基于关键词的检索是利用关键词索引来获取文档,即 整个文档的内容通过这些关键词进行表示,同样,用 户的检索提问式也用一组关键词来表示。然后利用关 键词将文档与提问式进行匹配,计算文档与提问式的 相关程度。 布尔模型 向量空间模型 概率模型
超链接分析的基本思想
一般地,我们把一个由网页A指向网页B的超链接理解 为网页A中包含对网页B的引用,则超链接分析最简单 直接的应用是:指向一个网页的超链接数目越多,则 这个网页的重要性就越高。 也可以这样理解: 网页A指向网页B的链接 由网页A对网页B投了一票。
PageRank概念
PageRank(网页级别), 2001年9月被授予美国专 利,专利人是Google创始 人之一拉里· 佩奇(Larry Page)。 它是Google排名运算法则 (排名公式)的一部分, 是Google用于用来标识网 页的等级/重要性的一种方 法,是Google用来衡量一 个网站的好坏的唯一标准。
PageRank计算(二)
PageRank 的行列阵是把这个邻接行列倒置后(行和列 互换),为了将各列(column)矢量的总和变成 1 (全概 率), 把各个列矢量除以各自的链接数(非零要素数)。这 样作成的行列被称为「推移概率行列」,含有 N 个概 率变量,各个行矢量表示状态之间的推移概率。倒置 的理由是,PageRank 并非重视「链接到多少地方」而 是重视「被多少地方链接」。
PageRank计算(一)
利用PageRank的公式定义可以计算网页集合中所有网 页的PR值。假设S为整个网页的总和,由于所有网页的 PR值开始都是未知的,我们进行平均分配,给每个网 页的PR值都赋予1/S,再根据公式定义进行计算,然后 对得到的值再次利用公式定义,这样循环反复,直到 计算所得的PR值收敛于一个相对固定的值。 算法如下:
PageRank定义
假设前提:即认为所有的网页形成一个牢固的链接图, 每个网页都能从其他网页通过超链接到达。定义中给 出的PR值都可以根据所有链接到它的网页的PR值除以 各自向外的超链接数的商再进行求和。 假如一个人对网页上的超链接的点击是随机的,在牢 固链接图的假设前提下,可以到达任一网页,只是到 大的可能性大小不同。 显然,网页链入的超链接数越多,到达的可能性就越 大,相应的PR值就越高。对于PR值高的网页链接到的 网页,到达的可能性也就越大,其PR值也相应越高。
i
PR( P) i C PR( P) i ;
}
for each P S
;
PageRank计算(一)
算法中PR(P)i表示进行i次循环计算后的PR值,C的计算 是保证总PR值为1 L.Page等人通过实验,认为循环次数和链接数目是对 数增长的。
PageRank计算(二)
作为最基本的考虑方法,就是用行列式的形式来表达 链接关系。从页面 i 链接到另一张页面 j 的时,将其成 分定义为1,反之则定义为 0 。即,行列阵 A 的成分 aij 可以用
PageRank定义
L.Page等人对PageRank的定义:
PR(Tn ) PR(T1 ) PR(T2 ) PR( A) C ( ... ) C (T1 ) C (T2 ) C (Tn )
PR(A):表示网页A的PageRank值; C:为规范化因子,是保证所有网页的PR值总和为一常量; T1,T2,…,Tn :链接到网页A的其他网页; PR(Ti):网页Ti的PageRank值; C(Ti):网页Ti指向其他网页的超链接数目。
aij= 1 0 (从页面 i 向页面 j 有 链接的情况) (从百度文库面 i 向页面 j 没有链接的情况)
来表示。
PageRank计算(二)
文件数用 N 来表示的话,这个行列阵就成为 N×N 的 方阵。这个相当于在图论中的“邻接矩阵”。也就是 说,Web 的链接关系可以看做是采用了邻接关系有向 图 S。总而言之,只要建立了链接,就应该有邻接关 系。
PageRank定义
基本思想:如果网页T存在一个指向网页A的连接,则 表明T的所有者认为A比较重要,从而把T的一部分重要 性得分赋予A。这个重要性得分值为: PR(T)/C(T)。 其中PR(T)为T的PageRank值,C(T)为T的出链数, 则A的PageRank值为一系列类似于T的页面重要性得分
第二代搜索引擎
基于超链接的检索也称链接分析,是搜索引擎面对网 络这一动态环境,所采用的一种新的检索排序方法。 基本思想 PageRank算法 HITs算法
超链接分析的基本思想
主要是来自传统的文献计量学中的文献引文分析。传 统的文献引文分析认为,一篇学术论文的价值很大程 度上体现在它被其他学术论文作为参考文献饮用的次 数,即被其他学术论文引用得越多,这篇论文的价值 就越高。 超链接分析充分利用了网络自身的超链接结构,提出 了一个假设,即网页的重要性可用其他网页对其超链 接的数量来衡量。
PageRank计算(一)
任意 P S : PR ( P 0) 1 S
While
( PR(P)i PR(P)i1 )
P S;
;
{for each
PR( P)i PR( P)i 1 (
C 1
PR(P)
PS
PR(Tn ) PR(T1 ) PR(T2 ) ... ) C (T1 ) C (T2 ) C (Tn ) ;
PageRank概念
Google的PageRank根据网站的外部链接和内部链接的 数量和质量来衡量网站的价值。PageRank背后的概念 是,每个到页面的链接都是对该页面的一次投票,被 链接的越多,就意味着被其他网站投票越多。这个就 是所谓的“链接流行度”——衡量多少人愿意将他们
的网站和你的网站挂钩。 PageRank分值从0到10,PR值越高说明该网页越受欢 迎。
网络检索
李柯
2010-12
搜索引擎的发展
第一代搜索引擎——基于关键词的检索 第二代搜索引擎——基于超链接的检索 第三代搜索引擎——基于概念的检索
第一代搜索引擎
基于关键词的检索是利用关键词索引来获取文档,即 整个文档的内容通过这些关键词进行表示,同样,用 户的检索提问式也用一组关键词来表示。然后利用关 键词将文档与提问式进行匹配,计算文档与提问式的 相关程度。 布尔模型 向量空间模型 概率模型
超链接分析的基本思想
一般地,我们把一个由网页A指向网页B的超链接理解 为网页A中包含对网页B的引用,则超链接分析最简单 直接的应用是:指向一个网页的超链接数目越多,则 这个网页的重要性就越高。 也可以这样理解: 网页A指向网页B的链接 由网页A对网页B投了一票。
PageRank概念
PageRank(网页级别), 2001年9月被授予美国专 利,专利人是Google创始 人之一拉里· 佩奇(Larry Page)。 它是Google排名运算法则 (排名公式)的一部分, 是Google用于用来标识网 页的等级/重要性的一种方 法,是Google用来衡量一 个网站的好坏的唯一标准。
PageRank计算(二)
PageRank 的行列阵是把这个邻接行列倒置后(行和列 互换),为了将各列(column)矢量的总和变成 1 (全概 率), 把各个列矢量除以各自的链接数(非零要素数)。这 样作成的行列被称为「推移概率行列」,含有 N 个概 率变量,各个行矢量表示状态之间的推移概率。倒置 的理由是,PageRank 并非重视「链接到多少地方」而 是重视「被多少地方链接」。
PageRank计算(一)
利用PageRank的公式定义可以计算网页集合中所有网 页的PR值。假设S为整个网页的总和,由于所有网页的 PR值开始都是未知的,我们进行平均分配,给每个网 页的PR值都赋予1/S,再根据公式定义进行计算,然后 对得到的值再次利用公式定义,这样循环反复,直到 计算所得的PR值收敛于一个相对固定的值。 算法如下:
PageRank定义
假设前提:即认为所有的网页形成一个牢固的链接图, 每个网页都能从其他网页通过超链接到达。定义中给 出的PR值都可以根据所有链接到它的网页的PR值除以 各自向外的超链接数的商再进行求和。 假如一个人对网页上的超链接的点击是随机的,在牢 固链接图的假设前提下,可以到达任一网页,只是到 大的可能性大小不同。 显然,网页链入的超链接数越多,到达的可能性就越 大,相应的PR值就越高。对于PR值高的网页链接到的 网页,到达的可能性也就越大,其PR值也相应越高。
i
PR( P) i C PR( P) i ;
}
for each P S
;
PageRank计算(一)
算法中PR(P)i表示进行i次循环计算后的PR值,C的计算 是保证总PR值为1 L.Page等人通过实验,认为循环次数和链接数目是对 数增长的。
PageRank计算(二)
作为最基本的考虑方法,就是用行列式的形式来表达 链接关系。从页面 i 链接到另一张页面 j 的时,将其成 分定义为1,反之则定义为 0 。即,行列阵 A 的成分 aij 可以用