链接分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

21.2.3 面向主题的 PageRank
实际上,我们可以假设每个人的兴趣可通过多个主题网页分布的线 性组合来很好地近似。 比如,拥有 60%体育类兴趣和 40%政治类兴趣的用户的个性化 PageRank 就可以表示成:
其中,分别是面向体育和政治主题的PageRank 。
21.3 Hub 网页及 Authority 网页

问次数,那么 =
其 中,π(i) > 0是状态 i的稳态概率。
21.1.2 PageRank 的计算
原始的PageRank公式
R(u)和R(v)是分别是网页u、v的PageRank值 Bu指的是指向网页u的网页集合 Nv是网页v的出链数目
c为归一化参数 网页的每条出链上每个分量上承载了相同的PageRank分量。
HITS算法(超链导向的主题搜索) 21.3.1 Web 子集的选择
21.1 Web 图
Web可以看成一个有向图 (1) 指向页面 B 的锚文本是对 B 的一个很好的描述。 (2) A 到 B 的超链接表示 A 的作者对 B 的认可。
21.1.1 锚文本和 Web 图
<a href="http://www.acm.org/jacm/">Journal of the ACM.</a> 链接指向页面www.acm.org/jacm/ 其锚文本为 Journal of the ACM。 那么,锚文本到底起什么作用呢?
21.1.2 PageRank 的计算
回顾公式(18-2)转移概率矩阵 P的 N维左特征向量满足
主特征向量 π是带随机跳转操作的随机游走过程的稳态概率,因此也

就是所有 Web网页的Rank Page值。 如果我们计算出对应于矩阵 P 的特征值 1 的主左特征向量的话,那么 就计算出了 PageRank的值。
利用恒等式 p = 5/18,于是=( 5/18 4/9 5/18)
21.2.3 面向主题的 PageRank
考虑非等概率跳到一个随机网页的情况,这样就可以推出基于特定的兴
趣的 PageRank。
比如,一个体育迷可能希望有关体育主题的网页的排名要高于非体育主 题的网页。
在随机游走过程中,一个喜欢体育类网页的冲浪者可能会在这类网页上
21.2.1 马尔科夫链
Web图的邻接矩阵A可以如下定义
如果存在网页i到网页j的一条链接,那么Aij=1,否则 Aij=0。 这样,我们很容易就可以从N×N的矩阵A推导出马尔科夫链的转移 概率矩阵P。
21.2.1 马尔科夫链
转移概率矩阵P的计算
如果A的某一行没有 1,则用 1/N代替每个元素。
对于其他行的处理如下:

如果从 v 到 y 存在一条超链接,则记为 。
21.3 Hub 网页及 Authority 网页
A表示我们所处理的 Web子集的邻接矩阵,每一行和每一列都对应 Web 子图的一个网页。
21.3 Hub 网页及 Authority 网页
于是,可以得到以下重要推论 (1)假定 的主特征向量是唯一的,那么h和a最后会收敛于某个唯一 的稳态向量,而具体稳态向量的取值取决于矩阵 A,也就是说图的结 构。
科夫性。
21.2.1 马尔科夫链
因此,基于马尔科夫性,我们有

=1 满足上述性质的非负矩阵被称为随机矩阵。
21.2.1 马尔科夫链
包含 3个状态的简单马尔科夫链 从中间的状态 A出发,可以分别以等概率 0.5到达 B或 C。 而从 B或 C出发,都会以概率 1到达 A。该马尔科夫链的转移概率 矩阵为:
(1)用每行中的 1 的个数去除每个 1,因此如果某行有 3 个 1,则每
个 1 用 1/3 代替; (2) 上面处理后的结果矩阵乘以 1-α; (3) 对于上面得到的矩阵中的每个元素都加上α/N
21.2.1 马尔科夫链
定义 一个马尔科夫链,如果存在一个正整数 T0使得对其中所有的状态对 i、j 都满
21.1.2 PageRank 的计算
简单计算的例子(c=1)
R(A)=R(C) R(B)=0.5R(A) R(C)=R(B)+0.5R(A) R(A)+R(B)+R(C)=1 解上述方程得: R(A)=R(C)=0.4 R(B)=0.2
21.1.2 PageRank 的计算
原始PageRank的一个不足
21.2 PageRank
某个冲浪者处于节点 A ,其中 A 有三个链接分别指向 B、C、D,那么
下一步他将以 1/3的等概率分别访问这三个节点。
直观地看,这些访问频繁的节点具有很多从其他频繁访问节点中指向 的入链接。 PageRank的思路就是,在随机游走过程中访问越频繁的网页也越重要。
21.2 PageRank
图中存在一个循环通路,循环通路中的每个节点它们并不指出去,即不 将PageRank分配给其他节点!
21.1.2 PageRank 的计算
改进的PageRank公式
到达u的概率由两部分组成:一部分是直接随机选中的概率(1-d)或(1-
d)/N,另一部分是从指向它的网页顺着链接浏览的概率,则有
上述两个公式中,后一个公式所有网页PageRank的和为1,前一个公式 的PageRank和为N(1-d)+d 。 PageRank很难通过解析方式求解,通常通过迭代方式求解,d通常取0.85。
停留大量的时间,因此,体育类网页的稳态分布概率被提升。
21.2.3 面向主题的 PageRank
假定与体育相关的网页集合S非空,因此存在一个非空网页集合 ,其中 Y中的随机游走过程存在稳态分布。

我们将这个面向体育主题的PageRank的分布记,而对于不在Y中出现的 网页,令其PageRank为 0。我们称为面向体育主题的PageRank。
究所,这种网页我们将之称为权威型网页(authority),具有很高
authority值。 另一方面,Web中存在很多网页,这些所谓的导航型网页(hub), 利用这些导航型网页来帮助我们找到权威型网页。
21.3 Hub 网页及 Authority 网页
一个好的 hub网页会同时指向多个好的 authority网页,
第21讲 链接分析
邱均平教授认为,要想取得突破性进展,还需要完善以下几个方面的研究 明确研究对象及相关基础理论研究 加强方法研究,形成自身独特的方法体系
大力开发和完善专用工具和软件
积极探索新的应用领域,使应用视野逐渐突破科研和教育领域,拓展到 更为广泛的应用空间。
第21讲 链接分析
足:
若i 是初始状态,那么对所有的 t>T0,在时刻 t 处于状态 j 的概率都大于 0。 此时,称该马尔科夫链是遍历马尔科夫链。
21.2.1 马尔科夫链
定理 21-1
对任一遍历马尔科夫链,都存在一个唯一的稳态概率 πr,它是 矩阵 P的主左特 征向量,并且如果 η(i, t)是在 t步之内状态 i的访
本节中,给定某个查询,我们对每个网页给出两个得分
一个得分被称为hub值,另外一个被称为authority值。 因此对于任一查询,我们都可以得到两个排序结果列表,其中一个 基于hub值,而另一个基于authority值。
21.3 Hub 网页及 Authority 网页
比如“ 我想了解白血病相关的知识” 。 对于这个主题而言,存在一些权威性的网页,比如美国国家癌症研
21.1.1 锚文本和 Web 图
因此,锚文本往往比网页本身更能揭示网页的内容; 在计算过程中,锚文本应该被赋予比文档中文本更高的权重。
刻意策划的锚文本可能是一种作弊形式 某个网站可以通过构造具有误导性的锚文本来指向自己,从而提高在某些查询词项上的排名。
21.2 PageRank
链接分析的第一种技术是对 Web图中的每个节点赋一个 0 到 1 之间的 分值,这个分值被称为 PageRank。
21.3 Hub 网页及 Authority 网页
HITS计算方法
A( p ) H ( qi ) (其中qi是所有链接到p的页面) H ( p ) A( ri ) (其中ri是所有页面p链接到的页面)
一个网页被越重要的导航型网页指向越多,那么它的Authority越大; 一个网页指向的高重要度权威型网页越多,那么它的Hub越大。
假定我们有一个包含好的 hub网页和 authority网页的 Web子集及它们 之间的链接。
下面我们将介绍如何基于这个子集迭代计算每个网页的 hub值和
authority值。
21.3 Hub 网页及 Authority 网页
在上述 Web子集中,某个网页 v的 hub值记为 h(v),authority值记为 a(v)。 对于任一节点 v,初始化赋值为 h(v)=a(v)=1。
21.3 Hub 网页及 Authority 网页
一个好的 hub网页会同时指向多个好的 authority网页, 而一个好的 authority网页同时会被多个好的 hub网页所指向。
因此,我们似乎可以给出一个 hub值和 authority值的循环定义,然后
通过迭代计算来求解。
21.3 Hub 网页及 Authority 网页
第21讲 链接分析
目前国内外主要将网络链接分析方法用于 网络信息资源评价、网站网络影响力评价、大学评价、期刊评价 核心网络与核心作者发现、网络社区发现(如博客群)
竞争情报与竞争对手分析、网站关联分析
虚拟社区、搜索引擎优化等方面,并且取得了丰硕的研究成果。 网络链接分析及其应用展现出勃勃生机。 文庭孝,王尧等.网络链接分析应用研究综述[J]图书情报知识.2011(4):84-96 李江,殷之明.链接分析研究综述[J]大学图书馆学报.2008(2):51-58
而一个好的 authority网页同时会被多个好的 hub网页所指向。
authority 和 hub 之间相互优化的关系,即为 HITS算法的基础。
21.3 Hub 网页及 Authority 网页
HITS(超链导向的主题搜索)
如果用户希望了解一个陌生领域的研究内容,hub页面所包含的超链指向各种不 同的链宿,能够提供丰富的信息;但如果用户希望查找一个具体的概念或范畴, 则authority 页面的定位更加准确。 因此,每个网页计算两个值 Hub:作为目录型或导航型网页的权重 Authority:作为权威型网页的权重
21.1.2 PageRank 的计算
设想冲浪者的初始状态为 1,对应的初始状态概率分布向量为=(1,0,0)
21.1.2 PageRank 的计算
反复迭代一定次数之后,x=( 5/18 4/9 5/18) 假定状态 1 和状态 3 具有相同的稳态概率,记为 p
稳态概率分布的形式为 = ( p 1-2p p)
第21讲 链接分析
链接:简单地说就是声明两个或更多事物之间的关系,网络链接是 利用超链接和超文本技术表现网络中两个或多个事物之间的关系。 链接分析研究可以追溯到1995~1996年,1996年Greey McKiernan根据 文献计量学中引文Citation的含义首先提出Sitation的概念,用来描述 网页之间相互链接的行为。 文献引用代表某篇学术论文对所引用论文的权威度认可,链接分析 方法也把超链接看成是一个网页对另一个网页的权威度认可。
本章主要关注
链接结构信息在 Web搜索结果排序中的使用。
第21讲 链接分析
21.1 Web 图
21.1.1 锚文本和 Web 图
21.2 PageRank
21.2.1 马尔科夫链 21.1.2 PageRank 的计算 21.2.3 面向主题的 PageRank
21.3 Hub 网页及 AuthorFra Baidu bibliotekty 网页
随机跳转
我们将采用马尔科夫链理论来说明,当冲浪者采用这种混合过程
(随机游走加上随机跳转操作)时,他就会以一个固定的时间比例 π(v)访问每个节点 v,其中 π(v)依赖于 (i) Web 图的结构;(ii) α 的值。 我们称 π(v)为 v 的 PageRank
21.2.1 马尔科夫链
马尔科夫链是一个离散时间随机过程,这个过程中的每一步都需要做 一个随机选择。一个马尔科夫链包括 N个状态(state)。 马尔科夫链通过一个 N×N的转移概率矩阵P来刻画,其中每个元素的 值在[0,1]之间,并且 P 中每一行的元素之和为 1。 Pij被称为转移概率,它仅仅依赖于当前的状态 i,这种性质被称为马尔
相关文档
最新文档