基于超链接分析的排序算法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
WME小组:洪赛 3 20:23:55
超链接分析排序算法概述
超链接分析排序算法的思想起源于文献引文索引机 制:一篇文章若被其他文章引用的次数越多或者被 权威的论文引用,则该文章被认为很有价值。超链 接分析的思想与上述思想极为相似,一个网页被其 他网页引用的次数越多,或者被某一权威的网页所 引用,该网页就显得越重要。
WME小组:洪赛 2
HITS算法
Hub页面与Authority页面 算法基本思想:相互增强 关系 HITS算法 HITS算法存在的问题
HITS算法与PageRank算法 比较
20:23:55
搜索引擎排序算法概述
搜索引擎排序算法,主要经历了三个阶段的发展历程: 第一阶段,主要考虑关键词因素,统计关键词在文档中出现的 频率和关键词在文档中出现的位臵信息。词频位臵加权算法应 用广泛,发展也相对比较成熟,目前这种算法仍然是许多搜索 引擎的核心排序算法。这类算法的代表为TF-IDF。 第二阶段,考虑网页权重因素,网页本身的级别越高,在检索 结果排序中越靠前。利用超链接分析,有效地计算网页的相关 度与重要度,代表的算法有 PageRank ,HITS等。 第三阶段,有效利用用户日志数据与统计学习方法,使网页相 关度与重要度计算的精度有了进一步的提升,代表的方法包括 排序学习、网页重要度学习、匹配学习、话题模型学习、查询 语句转化学习。
WME小组:洪赛 25 20:23:56
算法基本思想:相互增强关系
基本假设1:一个好的Authority页 面会被很多好的Hub页面指向; 基本假设2:一个好的Hub页面会指 向很多好的Authority页面; 具体算法:利用这两个基本假设, 以及相互增强关系等原则进行多轮 迭代计算,每轮迭代计算更新每个 页面的两个权值,直到权值稳定不 再发生明显的变化为止。
WME小组:洪赛 15 20:23:56
PageRank算法原理
Arvind Arasu 在《Junghoo Cho Hector Garcia - Molina, Andreas Paepcke, Sriram Raghavan. Searching the Web》 更加准确的表达为:
p_1, p_2, ..., p_N是被研究的页面,L(p_j)是p_j链出页 面的数量,而N是所有页面的数量。
WME小组:洪赛
4
20:23:55
大部分链接分析算法建立在两个概念模型上: 随机漫游模型:针对浏览网页用户行为建立的抽象概念模型, 用户上网过程中会不断打开链接,在相互有链接指向的网页之 间跳转,这是直接跳转,如果某个页面包含的所有链接用户都 不感兴趣则可能会在浏览器中输入另外的网址,这是远程跳转。 该模型就是对一个直接跳转和远程跳转两种用户浏览行为进行 抽象的概念模型;典型的使用该模型的算法是PageRank; 子集传播模型:基本思想是把互联网网页按照一定规则划分, 分为两个甚至是多个子集合。其中某个子集合具有特殊性质, 很多算法从这个具有特殊性质的子集合出发,给予子集合内网 页初始权值,之后根据这个特殊子集合内网页和其他网页的链 接关系,按照一定方式将权值传递到其他网页。典型的使用该 模型的算法有HITS和Hilltop算法。
WME小组:洪赛 20 20:23:56
PageRank幂法计算
幂法计算过程如下: X设任意一个初始向量, 即设臵初始每 个网页的 PageRank值均。一般为1. R = AX; while (1 ){ if ( l X - R I < Ɛ) { //如果最后两 次的结果近似或者相同,返回R return R; } else { X =R; R = AX;}}
WME小组:洪赛 5 20:23:55
链接分析算法之间的关系
链接算法很多,从其 概念模型来说,基本 遵循上述介绍的随机 游走模型和子集传播 模型。而从图中可看 出,在众多算法中, PageRank和HITS算法 可以说是最重要的两 个具有代表性的链接 分析算法,后续的很 多链接分析算法都是 在这两个算法基础上 衍生出来的改进算法。
对于某个互联网网页A来说,该网页PageRank的计 算基于以下两个基本假设: 数量假设:在Web图模型中,如果一个页面节点接 收到的其他网页指向的入链数量越多,那么这个页 面越重要。 质量假设:指向页面A的入链质量不同,质量高的页 面会通过链接向其他页面传递更多的权重。所以越 是质量高的页面指向页面A,则页面A越重要。
WME小组:洪赛 6 20:23:55
PageRank算法概述
PageRank,即网页排名,又称网页级别、Google左侧排 名或佩奇排名。
源自文库
Google创始人拉里· 佩奇和谢尔盖· 布林于1997年构建早期
搜索系统原型时提出的链接分析算法。 目前很多重要的链接分析算法都是在PageRank算法基础 上衍生出来的。PageRank是Google用于用来标识网页的 等级/重要性的一种方法。
WME小组:洪赛
16
20:23:56
PageRank算法原理
一个页面的PageRank是由其他页面的PageRank计算得到。 Google不断的重复计算每个页面的PageRank。如果给每 个页面一个随机PageRank值(非0),那么经过不断的重 复计算,这些页面的PR值会趋向于正常和稳定。 要得到一个页面的PageRank,得先知道另一些页面的 PageRank。因此需要设臵合理的PageRank初始值。不过, 如果有办法得到合理的PageRank初始值,还需要这个算 法吗? 那么有没有不依赖于初始值的PageRank算法?也就是说, 如果存在一种计算方法,使得无论怎样设臵初始值,最 后都会收敛到同一个值就行了。要做到这样,就要换一 个角度看问题,从线性代数的角度看问题。
WME小组:洪赛 7 20:23:55
PageRank的级别从0到10级,10级为满分。PR值越高说明 该网页越受欢迎(越重要)。 PR值为7到10则表明这个网站非常受欢迎(或者说极其重 要)。一般PR值达到4,就算是一个不错的网站了。
Google把自己的网站的PR值定到10。
WME小组:洪赛
WME小组:洪赛 10 20:23:56
PageRank算法原理
PageRank的计算充分利用了数量假设和质量假设。步骤如下: 1)在初始阶段:网页通过链接关系构建起Web图,每个页面设 臵相同的PageRank值,通过若干轮的计算,会得到每个页面所 获得的最终PageRank值。随着每一轮的计算进行,网页当前的 PageRank值会不断得到更新。 2)在一轮中更新页面PageRank得分的计算方法:在一轮更新 页面PageRank得分的计算中,每个页面将其当前的PageRank 值平均分配到本页面包含的出链上,这样每个链接即获得了相 应的权值。而每个页面将所有指向本页面的入链所传入的权值 求和,即可得到新的PageRank得分。当每个页面都获得了更新 后的PageRank值,就完成了一轮PageRank计算。
WME小组:洪赛 23 20:23:56
HITS算法
HITS(Hyperlink - Induced Topic Search)算法是由康奈 尔大学( Cornell University ) 的Jon Kleinberg 博士于 1997 年首先提出的,为IBM 公司阿尔马登研究中心 ( IBM Almaden Research Center) 的名为“CLEVER”的 研究项目中的一部分。 HITS算法是链接分析中非常基础且重要的算法,目 前已被Teoma搜索引擎(www.teoma.com)作为链 接分析算法在实际中使用。
基于超链接分析的排序算法
洪赛 2015.1.4
WME小组:洪赛
1
20:23:55
CONTENT
搜索引擎排序算法概述 超链接分析排序算法概 述 PageRank算法
PageRank算法概述 从入链数量到 PageRank PageRank算法原理 PageRank幂法计算 PageRank优缺点
WME小组:洪赛 24 20:23:56
Hub页面与Authority页面
Hub页面(枢纽页面)和Authority页面(权威页面)是HITS算 法最基本的两个定义。 所谓“Authority”页面,是指与某个领域或者某个话题相关的 高质量网页,比如搜索引擎领域,Google和百度首页即该领域 的高质量网页,比如视频领域,优酷和土豆首页即该领域的高 质量网页。 所谓“Hub”页面,指的是包含了很多指向高质量“Authority” 页面链接的网页,比如hao123首页可以认为是一个典型的高质 量“Hub”网页。 HITS算法的目的即是通过一定的技术手段,在海量网页中找到 与用户查询主题相关的高质量“Authority”页面和“Hub”页面, 尤其是“Authority”页面,因为这些页面代表了能够满足用户 查询的高质量内容,搜索引擎以此作为搜索结果返回给用户。
WME小组:洪赛 12 20:23:56
PageRank算法原理

WME小组:洪赛
13
20:23:56
PageRank算法原理
例子:如图所示的例子来说明PageRank的具体计算 过程。
WME小组:洪赛
14
20:23:56
PageRank算法原理
修正PageRank计算公式: 由于存在一些出链为0,也就是那些不链接任何其他网页 的网, 也称为孤立网页,使得很多网页能被访问到。 对 PageRank公式进行修正,即在简单公式的基础上增加 了阻尼系数(damping factor)q, q一般取值q=0.85。 其意义是,在任意时刻,用户到达某页面后并继续向后 浏览的概率。1-q=0.15就是用户停止点击,随机跳到新 URL的概率的。
WME小组:洪赛 17 20:23:56
PageRank幂法计算

WME小组:洪赛
18
20:23:56
PageRank幂法计算

WME小组:洪赛
19
20:23:56
PageRank幂法计算
PageRank值是一个P’T中的特征向量。这个特征向量为:
R是如下等式的一个解:
如果网页i有指向网页j的一个链接,则 否则
8
20:23:55
从入链数量到 PageRank
早期的很多搜索引擎也采纳了入链数量作为链接分 析方法,对于搜索引擎效果提升也有较明显的效果。 PageRank除了考虑到入链数量的影响,还参考了网 页质量因素,两者相结合获得了更好的网页重要性 评价标准。
WME小组:洪赛
9
20:23:56
从入链数量到 PageRank
WME小组:洪赛 11 20:23:56
PageRank算法原理
基本思想:如果网页T存在一个指向网页A的连接,则表明T的 所有者认为A比较重要,从而把T的一部分重要性得分赋予A。 这个重要性得分值为: PR(T)/L(T) 其中PR(T)为T的PageRank值,L(T)为T的出链数; 则A的PageRank值为一系列类似于T的页面重要性得分值的累加。 即一个页面的得票数由所有链向它的页面的重要性来决定,到 一个页面的超链接相当于对该页投一票。一个页面的PageRank 是由所有链向它的页面(链入页面)的重要性经过递归算法得 到的。一个有较多链入的页面会有较高的等级,相反如果一个 页面没有任何链入页面,那么它没有等级。
21 20:23:56

WME小组:洪赛
PageRank幂法计算
用幂法计算PageRank 值总是收敛的,即计算的次数 是有限的。 不论初始值如何选取,这种算法都保证了网页排名 的估计值能收敛到他们的真实值。
WME小组:洪赛
22
20:23:56
PageRank优缺点
优点: 是一个与查询无关的静态算法,所有网页的PageRank值通过离 线计算获得;有效减少在线查询时的计算量,极大降低了查询 响应时间。 缺点: 1)人们的查询具有主题特征,PageRank忽略了主题相关性, 导致结果的相关性和主题性降低 2)旧的页面等级会比新页面高。因为即使是非常好的新页面 也不会有很多上游链接,除非它是某个站点的子站点。 PageRank需要多项算法结合应用
相关文档
最新文档