网络检索ppt课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
来表示。
PageRank计算(二)
文件数用 N 来表示的话,这个行列阵就成为 N×N 的 方阵。这个相当于在图论中的“邻接矩阵”。也就是 说,Web 的链接关系可以看做是采用了邻接关系有向 图 S。总而言之,只要建立了链接,就应该有邻接关 系。
PageRank计算(二)
PageRank 的行列阵是把这个邻接行列倒置后(行和列 互换),为了将各列(column)矢量的总和变成 1 (全概 率), 把各个列矢量除以各自的链接数(非零要素数)。这 样作成的行列被称为「推移概率行列」,含有 N 个概 率变量,各个行矢量表示状态之间的推移概率。倒置 的理由是,PageRank 并非重视「链接到多少地方」而 是重视「被多少地方链接」。
PageRank计算(二)
一个典型化的例子
PageRank计算(二)
归一化(全概率) A=
转置矩阵
A=
AT=
PageRank计算(二)
计算过程
PageRank计算(二)
将 PageRank 的评价按顺序排列
名次 PageRank
1
0.304
2
0.179
3
0.166
4
0.141
算法如下:
PageRank计算(一)
任意 P S : PR(P0 ) 1 S
While ( PR(P)i PR(P)i1 )
{for each P S;
PR(P)i
C 1
PR(P)i1 PR(P)i ;
( PR(T1) C (T1 )
Βιβλιοθήκη BaiduPR(T2 ) C(T2 )
PageRank与HITS的比较
总之, PageRank算法和HITS算法是具有代表性的两 个网页排序算法,前者更适合于搜索引擎的服务器端, 后者更适合于搜索引擎的客户端。 PageRank算法和 HITS算法为发现核心网页与网页之间的关系提供了基 本的思路和方法。
第三代搜索引擎
目前搜索引擎基本上都采用基于关键词匹配的全文检 索技术,使得检索效果未能实现质的飞跃,发展知识 化、智能化的搜索引擎成为必然趋势,概念检索是关 键技术之一。
ID=2的流入量=(ID=1发出的Rank)+(ID=3发出的Rank)+(ID=4 发出的Rank= 0.304/5+0.141/2+0.105/3= 0.167
ID=3的流入量=(ID=1发出的Rank)+(ID=4发出的Rank)+(ID=5 发出的Rank)= 0.304/5+0.105/3+0.179/4 = 0.141
HITs算法
HITS算法描述两种类型的网页: 1) 权威型(Authority)网页,对于一个特定的检索, 该网页提供最好的相关信息。 2)目录型(Hub)网页,该网页提高很多指向其他高 质量权威型网页的超链接 。
由此,我们可以在每个网页上定义 “权威型权值”和 “目录型权值”两个参数。
HITs算法
值的累加。
PageRank定义
L.Page等人对PageRank的定义:
PR( A)
C(
PR(T1 )
PR(T2
)
...
PR(Tn
) )
C(T1 ) C(T2 )
C(Tn )
PR(A):表示网页A的PageRank值;
C:为规范化因子,是保证所有网页的PR值总和为一常量;
T1,T2,…,Tn :链接到网页A的其他网页; PR(Ti):网页Ti的PageRank值; C(Ti):网页Ti指向其他网页的超链接数目。
从两者的处理对象来看: 都是针对整个Web上的网页的一个自集进行排序、筛 选,没有一个搜索引擎能够将整个Interent上的网页全 部搜索下来。但是 PageRank的处理对象是一个搜索引擎当前搜索下来的 所有网页,一般在几千万个页面以上。 HITS的处理对象是搜索引擎针对具体查询主题所返回 的结果,从几百个页面扩展到几千几万个页面。
网络检索
李柯
2010-12
搜索引擎的发展
第一代搜索引擎——基于关键词的检索 第二代搜索引擎——基于超链接的检索 第三代搜索引擎——基于概念的检索
第一代搜索引擎
基于关键词的检索是利用关键词索引来获取文档,即 整个文档的内容通过这些关键词进行表示,同样,用 户的检索提问式也用一组关键词来表示。然后利用关 键词将文档与提问式进行匹配,计算文档与提问式的 相关程度。
PageRank与HITS的比较
从两者的具体应用来看:
PageRank应用于搜索引擎服务端,可以直接用于关键 字查询并获得较好的结果;若要用于全文查询,需要 与其他相似度判定标准(向量模型等)进行复合,以 针对具体查询形成最终排名。
HITS一般用于全文搜索引擎客户端,对宽主题的搜索 相当有效,可以用于自动编撰Web分类目录,通过找 到指向某网页的Hub网页并以此为根集,可以查到该 网页的相关网页;对于较窄主题的检索,HITS的能力 还较弱,因为根集太小,筛选的效果将不会很好。
显然,网页链入的超链接数越多,到达的可能性就越 大,相应的PR值就越高。对于PR值高的网页链接到的 网页,到达的可能性也就越大,其PR值也相应越高。
PageRank计算(一)
利用PageRank的公式定义可以计算网页集合中所有网 页的PR值。假设S为整个网页的总和,由于所有网页的 PR值开始都是未知的,我们进行平均分配,给每个网 页的PR值都赋予1/S,再根据公式定义进行计算,然后 对得到的值再次利用公式定义,这样循环反复,直到 计算所得的PR值收敛于一个相对固定的值。
布尔模型 向量空间模型 概率模型
第二代搜索引擎
基于超链接的检索也称链接分析,是搜索引擎面对网 络这一动态环境,所采用的一种新的检索排序方法。
基本思想 PageRank算法 HITs算法
超链接分析的基本思想
主要是来自传统的文献计量学中的文献引文分析。传 统的文献引文分析认为,一篇学术论文的价值很大程 度上体现在它被其他学术论文作为参考文献饮用的次 数,即被其他学术论文引用得越多,这篇论文的价值 就越高。
ID=6的流入量=(ID=5发出的Rank= 0.179/4= 0.045 ID=7的流入量=(ID=1发出的Rank= 0.304/5 = 0.061
HITS算法
如果网页A指向大量的重要网页,那么A的建议就会变 得有价值,如果A指向B,则说明B也是一个重要网页。
HITS算法是由康奈尔大学的Kleiberg博士于1998年首 次提出, HITs的全称Hyperlink-Induced Topic Search, 是基于链接分析的网页排名算法。
PageRank概念
Google的PageRank根据网站的外部链接和内部链接的 数量和质量来衡量网站的价值。PageRank背后的概念 是,每个到页面的链接都是对该页面的一次投票,被 链接的越多,就意味着被其他网站投票越多。这个就 是所谓的“链接流行度”——衡量多少人愿意将他们
的网站和你的网站挂钩。
PageRank分值从0到10,PR值越高说明该网页越受欢 迎。
PageRank定义
基本思想:如果网页T存在一个指向网页A的连接,则 表明T的所有者认为A比较重要,从而把T的一部分重要 性得分赋予A。这个重要性得分值为: PR(T)/C(T)。
其中PR(T)为T的PageRank值,C(T)为T的出链数, 则A的PageRank值为一系列类似于T的页面重要性得分
1)HITS通过搜索引擎查询主题词,生成初始网页集合, 称为根集合。由于根集合中有些网页包含指向权威网 页的链接,因此,对根集合进行网页扩展生成基集合, 其中包括根集合指向的网页以及链接到根集合中的网 页。
2)给基集合中的每个网页赋予一个Hub权值hp和一个 权威权值ap,初始值为同一个非负常数,然后对hp和ap 进行运算。
ap hp ,其中网页q指向网页p
hp ap ,其中网页q由网页p指向
HITS算法
通过迭代递归计算网页的Hub权值和权威权值
3)HITS输出与给定主题对应的一些具有较大Hub权值 的网页和具有较大权威权值的网页,即重要的网页。
PageRank与HITS的比较
共同特点:PageRank和HITS的迭代算法都利用了特征 向量作为理论基础和收敛性依据。
5
0.105
6
0.061
7
0.045
文件ID 1 5 2 3 4 7 6
发出链接ID 被链接ID
2,3,4,5,7 2,3,5,6
1,3,4,6 1,4,6,7
1
1,3,4
1,2
1,4,5
2,3,5
1,5
5
1
1,5
5
PageRank计算(二)
PageRank计算(二)
ID=1的流入量=(ID=2发出的Rank)+(ID=3发出的Rank)+(ID=5 发出的Rank)+(ID=6发出的Rank) = 0.166+0.141/2+0.179/4+0.045/2 = 0.304
超链接分析充分利用了网络自身的超链接结构,提出 了一个假设,即网页的重要性可用其他网页对其超链 接的数量来衡量。
超链接分析的基本思想
一般地,我们把一个由网页A指向网页B的超链接理解 为网页A中包含对网页B的引用,则超链接分析最简单 直接的应用是:指向一个网页的超链接数目越多,则 这个网页的重要性就越高。
第三代搜索引擎
概念是关于具有共同属性的一组对象、事件或符号的 知识,是客观事物在头脑中的反映,要通过字、词、 词组等概念描述元素表达出来。
也可以这样理解: 网页A指向网页B的链接
由网页A对网页B投了一票。
PageRank概念
PageRank(网页级别), 2001年9月被授予美国专 利,专利人是Google创始 人之一拉里·佩奇(Larry Page)。
它是Google排名运算法则 (排名公式)的一部分, 是Google用于用来标识网 页的等级/重要性的一种方 法,是Google用来衡量一 个网站的好坏的唯一标准。
...
PR(Tn )) C(Tn )
;
PS
for each P S ;
PR(P)i C PR(P)i ;
}
PageRank计算(一)
算法中PR(P)i表示进行i次循环计算后的PR值,C的计算 是保证总PR值为1
L.Page等人通过实验,认为循环次数和链接数目是对 数增长的。
PageRank定义
假设前提:即认为所有的网页形成一个牢固的链接图, 每个网页都能从其他网页通过超链接到达。定义中给 出的PR值都可以根据所有链接到它的网页的PR值除以 各自向外的超链接数的商再进行求和。
假如一个人对网页上的超链接的点击是随机的,在牢 固链接图的假设前提下,可以到达任一网页,只是到 大的可能性大小不同。
ID=4的流入量=(ID=1发出的Rank)+(ID=5发出的Rank= 0.304/5+0.179/4 = 0.106
ID=5的流入量=(ID=1发出的Rank)+(ID=4发出的Rank)+(ID=6 发出的Rank)+(ID=7发出的Rank) = 0.304/5+0.105/3+0.045/2+0.061 = 0.180
如果一个网页有大量的链接指向其他网页,则这个网 也就可能是一个好的Hub;一个网页如果被大量的链 接所指,那么它就可能是一个好的Authority。
HITS算法的基本思想 1)好的Hub型网页指向好的Authority网页 2)好的Authority网页是由好的Hub型网页所指向的网 页
HITS算法
PageRank计算(二)
作为最基本的考虑方法,就是用行列式的形式来表达 链接关系。从页面 i 链接到另一张页面 j 的时,将其成 分定义为1,反之则定义为 0 。即,行列阵 A 的成分 aij 可以用
aij= 1 (从页面 i 向页面 j 有 链接的情况) 0 (从页面 i 向页面 j 没有链接的情况)
区别: 1)权值传播模型 2) 处理对象 3) 具体应用
PageRank与HITS的比较
从两者的权值传播模型来看:
PageRank基于随机冲浪模型将网页权值直接从 Authority网页传递到Authority网页。
HITS将Authority网页的权值经过hub网页的传递进行 传播。
PageRank与HITS的比较
PageRank计算(二)
文件数用 N 来表示的话,这个行列阵就成为 N×N 的 方阵。这个相当于在图论中的“邻接矩阵”。也就是 说,Web 的链接关系可以看做是采用了邻接关系有向 图 S。总而言之,只要建立了链接,就应该有邻接关 系。
PageRank计算(二)
PageRank 的行列阵是把这个邻接行列倒置后(行和列 互换),为了将各列(column)矢量的总和变成 1 (全概 率), 把各个列矢量除以各自的链接数(非零要素数)。这 样作成的行列被称为「推移概率行列」,含有 N 个概 率变量,各个行矢量表示状态之间的推移概率。倒置 的理由是,PageRank 并非重视「链接到多少地方」而 是重视「被多少地方链接」。
PageRank计算(二)
一个典型化的例子
PageRank计算(二)
归一化(全概率) A=
转置矩阵
A=
AT=
PageRank计算(二)
计算过程
PageRank计算(二)
将 PageRank 的评价按顺序排列
名次 PageRank
1
0.304
2
0.179
3
0.166
4
0.141
算法如下:
PageRank计算(一)
任意 P S : PR(P0 ) 1 S
While ( PR(P)i PR(P)i1 )
{for each P S;
PR(P)i
C 1
PR(P)i1 PR(P)i ;
( PR(T1) C (T1 )
Βιβλιοθήκη BaiduPR(T2 ) C(T2 )
PageRank与HITS的比较
总之, PageRank算法和HITS算法是具有代表性的两 个网页排序算法,前者更适合于搜索引擎的服务器端, 后者更适合于搜索引擎的客户端。 PageRank算法和 HITS算法为发现核心网页与网页之间的关系提供了基 本的思路和方法。
第三代搜索引擎
目前搜索引擎基本上都采用基于关键词匹配的全文检 索技术,使得检索效果未能实现质的飞跃,发展知识 化、智能化的搜索引擎成为必然趋势,概念检索是关 键技术之一。
ID=2的流入量=(ID=1发出的Rank)+(ID=3发出的Rank)+(ID=4 发出的Rank= 0.304/5+0.141/2+0.105/3= 0.167
ID=3的流入量=(ID=1发出的Rank)+(ID=4发出的Rank)+(ID=5 发出的Rank)= 0.304/5+0.105/3+0.179/4 = 0.141
HITs算法
HITS算法描述两种类型的网页: 1) 权威型(Authority)网页,对于一个特定的检索, 该网页提供最好的相关信息。 2)目录型(Hub)网页,该网页提高很多指向其他高 质量权威型网页的超链接 。
由此,我们可以在每个网页上定义 “权威型权值”和 “目录型权值”两个参数。
HITs算法
值的累加。
PageRank定义
L.Page等人对PageRank的定义:
PR( A)
C(
PR(T1 )
PR(T2
)
...
PR(Tn
) )
C(T1 ) C(T2 )
C(Tn )
PR(A):表示网页A的PageRank值;
C:为规范化因子,是保证所有网页的PR值总和为一常量;
T1,T2,…,Tn :链接到网页A的其他网页; PR(Ti):网页Ti的PageRank值; C(Ti):网页Ti指向其他网页的超链接数目。
从两者的处理对象来看: 都是针对整个Web上的网页的一个自集进行排序、筛 选,没有一个搜索引擎能够将整个Interent上的网页全 部搜索下来。但是 PageRank的处理对象是一个搜索引擎当前搜索下来的 所有网页,一般在几千万个页面以上。 HITS的处理对象是搜索引擎针对具体查询主题所返回 的结果,从几百个页面扩展到几千几万个页面。
网络检索
李柯
2010-12
搜索引擎的发展
第一代搜索引擎——基于关键词的检索 第二代搜索引擎——基于超链接的检索 第三代搜索引擎——基于概念的检索
第一代搜索引擎
基于关键词的检索是利用关键词索引来获取文档,即 整个文档的内容通过这些关键词进行表示,同样,用 户的检索提问式也用一组关键词来表示。然后利用关 键词将文档与提问式进行匹配,计算文档与提问式的 相关程度。
PageRank与HITS的比较
从两者的具体应用来看:
PageRank应用于搜索引擎服务端,可以直接用于关键 字查询并获得较好的结果;若要用于全文查询,需要 与其他相似度判定标准(向量模型等)进行复合,以 针对具体查询形成最终排名。
HITS一般用于全文搜索引擎客户端,对宽主题的搜索 相当有效,可以用于自动编撰Web分类目录,通过找 到指向某网页的Hub网页并以此为根集,可以查到该 网页的相关网页;对于较窄主题的检索,HITS的能力 还较弱,因为根集太小,筛选的效果将不会很好。
显然,网页链入的超链接数越多,到达的可能性就越 大,相应的PR值就越高。对于PR值高的网页链接到的 网页,到达的可能性也就越大,其PR值也相应越高。
PageRank计算(一)
利用PageRank的公式定义可以计算网页集合中所有网 页的PR值。假设S为整个网页的总和,由于所有网页的 PR值开始都是未知的,我们进行平均分配,给每个网 页的PR值都赋予1/S,再根据公式定义进行计算,然后 对得到的值再次利用公式定义,这样循环反复,直到 计算所得的PR值收敛于一个相对固定的值。
布尔模型 向量空间模型 概率模型
第二代搜索引擎
基于超链接的检索也称链接分析,是搜索引擎面对网 络这一动态环境,所采用的一种新的检索排序方法。
基本思想 PageRank算法 HITs算法
超链接分析的基本思想
主要是来自传统的文献计量学中的文献引文分析。传 统的文献引文分析认为,一篇学术论文的价值很大程 度上体现在它被其他学术论文作为参考文献饮用的次 数,即被其他学术论文引用得越多,这篇论文的价值 就越高。
ID=6的流入量=(ID=5发出的Rank= 0.179/4= 0.045 ID=7的流入量=(ID=1发出的Rank= 0.304/5 = 0.061
HITS算法
如果网页A指向大量的重要网页,那么A的建议就会变 得有价值,如果A指向B,则说明B也是一个重要网页。
HITS算法是由康奈尔大学的Kleiberg博士于1998年首 次提出, HITs的全称Hyperlink-Induced Topic Search, 是基于链接分析的网页排名算法。
PageRank概念
Google的PageRank根据网站的外部链接和内部链接的 数量和质量来衡量网站的价值。PageRank背后的概念 是,每个到页面的链接都是对该页面的一次投票,被 链接的越多,就意味着被其他网站投票越多。这个就 是所谓的“链接流行度”——衡量多少人愿意将他们
的网站和你的网站挂钩。
PageRank分值从0到10,PR值越高说明该网页越受欢 迎。
PageRank定义
基本思想:如果网页T存在一个指向网页A的连接,则 表明T的所有者认为A比较重要,从而把T的一部分重要 性得分赋予A。这个重要性得分值为: PR(T)/C(T)。
其中PR(T)为T的PageRank值,C(T)为T的出链数, 则A的PageRank值为一系列类似于T的页面重要性得分
1)HITS通过搜索引擎查询主题词,生成初始网页集合, 称为根集合。由于根集合中有些网页包含指向权威网 页的链接,因此,对根集合进行网页扩展生成基集合, 其中包括根集合指向的网页以及链接到根集合中的网 页。
2)给基集合中的每个网页赋予一个Hub权值hp和一个 权威权值ap,初始值为同一个非负常数,然后对hp和ap 进行运算。
ap hp ,其中网页q指向网页p
hp ap ,其中网页q由网页p指向
HITS算法
通过迭代递归计算网页的Hub权值和权威权值
3)HITS输出与给定主题对应的一些具有较大Hub权值 的网页和具有较大权威权值的网页,即重要的网页。
PageRank与HITS的比较
共同特点:PageRank和HITS的迭代算法都利用了特征 向量作为理论基础和收敛性依据。
5
0.105
6
0.061
7
0.045
文件ID 1 5 2 3 4 7 6
发出链接ID 被链接ID
2,3,4,5,7 2,3,5,6
1,3,4,6 1,4,6,7
1
1,3,4
1,2
1,4,5
2,3,5
1,5
5
1
1,5
5
PageRank计算(二)
PageRank计算(二)
ID=1的流入量=(ID=2发出的Rank)+(ID=3发出的Rank)+(ID=5 发出的Rank)+(ID=6发出的Rank) = 0.166+0.141/2+0.179/4+0.045/2 = 0.304
超链接分析充分利用了网络自身的超链接结构,提出 了一个假设,即网页的重要性可用其他网页对其超链 接的数量来衡量。
超链接分析的基本思想
一般地,我们把一个由网页A指向网页B的超链接理解 为网页A中包含对网页B的引用,则超链接分析最简单 直接的应用是:指向一个网页的超链接数目越多,则 这个网页的重要性就越高。
第三代搜索引擎
概念是关于具有共同属性的一组对象、事件或符号的 知识,是客观事物在头脑中的反映,要通过字、词、 词组等概念描述元素表达出来。
也可以这样理解: 网页A指向网页B的链接
由网页A对网页B投了一票。
PageRank概念
PageRank(网页级别), 2001年9月被授予美国专 利,专利人是Google创始 人之一拉里·佩奇(Larry Page)。
它是Google排名运算法则 (排名公式)的一部分, 是Google用于用来标识网 页的等级/重要性的一种方 法,是Google用来衡量一 个网站的好坏的唯一标准。
...
PR(Tn )) C(Tn )
;
PS
for each P S ;
PR(P)i C PR(P)i ;
}
PageRank计算(一)
算法中PR(P)i表示进行i次循环计算后的PR值,C的计算 是保证总PR值为1
L.Page等人通过实验,认为循环次数和链接数目是对 数增长的。
PageRank定义
假设前提:即认为所有的网页形成一个牢固的链接图, 每个网页都能从其他网页通过超链接到达。定义中给 出的PR值都可以根据所有链接到它的网页的PR值除以 各自向外的超链接数的商再进行求和。
假如一个人对网页上的超链接的点击是随机的,在牢 固链接图的假设前提下,可以到达任一网页,只是到 大的可能性大小不同。
ID=4的流入量=(ID=1发出的Rank)+(ID=5发出的Rank= 0.304/5+0.179/4 = 0.106
ID=5的流入量=(ID=1发出的Rank)+(ID=4发出的Rank)+(ID=6 发出的Rank)+(ID=7发出的Rank) = 0.304/5+0.105/3+0.045/2+0.061 = 0.180
如果一个网页有大量的链接指向其他网页,则这个网 也就可能是一个好的Hub;一个网页如果被大量的链 接所指,那么它就可能是一个好的Authority。
HITS算法的基本思想 1)好的Hub型网页指向好的Authority网页 2)好的Authority网页是由好的Hub型网页所指向的网 页
HITS算法
PageRank计算(二)
作为最基本的考虑方法,就是用行列式的形式来表达 链接关系。从页面 i 链接到另一张页面 j 的时,将其成 分定义为1,反之则定义为 0 。即,行列阵 A 的成分 aij 可以用
aij= 1 (从页面 i 向页面 j 有 链接的情况) 0 (从页面 i 向页面 j 没有链接的情况)
区别: 1)权值传播模型 2) 处理对象 3) 具体应用
PageRank与HITS的比较
从两者的权值传播模型来看:
PageRank基于随机冲浪模型将网页权值直接从 Authority网页传递到Authority网页。
HITS将Authority网页的权值经过hub网页的传递进行 传播。
PageRank与HITS的比较