一种基于引力模型的链接分析算法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
F (i ) 为网页 i 的链出集合。
图 1. 当 n 值很大时且网页 i 的链入、链出数目为 n 或 n+1 时, i 的 hub 质量、authority 质量基本不变
G-HITS 算法认为网页 i 链出去的网页越多,其 hub 质量越大,而链向一个网页 i 的网 页越多,其 authority 质量越大;且网页 i 的 hub 质量 M ih 随 | F (i ) | 的增大呈缓慢增长趋势,如 一个网页 i 有 n 或 n+1 个链出网页,其中 n 的值很大,如图 1 所示,即 | F (i) | n 或 | F (i) | n 1 这两种情况下其 M ih 的值基本相同,波动不大;同理 i 的 authority 质量 M ia 随 | B(i) | 的增大也 呈缓慢增长趋势。 当且仅当 | B(i) | 0 、| F (i) | 0 时,网页 i 的 hub 质量 M ih 和 authority 质量 M ia 都为 0,即网页 i 既不具有 hub 属性也不具有 authority 属性,因为它在网络中表现为一个孤 立点,和其它网页之间没有链接关系。 定义 2 网页与网页间的距离
2 HITS 算法模型
Kleinberg[8]提出了一种衡量网页重要程度的 HITS(Hyperlink-Induced Topic Search)算法, 他认为网页的重要程度是与所查询的主题相关的。 在 HITS 算法模型中,Kleinberg 提出了权 威性网页(authority)的概念,即互联网上一个广义的主题包含有大量显著的权威性网页, 这些权威性网页从链接结构的角度来看应该是被大量的超链接所指向的, 也可以说是被大量 的网页作者所认可的。在一般情况下,这些权威性网页之间并不存在相互的链接,但是它们 通常被一些不知名的网页所共同指向。这些网页被称为中心性网页(hub),它们指向多个 主题相关的权威性网页。因此,网页之间的链接结构可以描述为一种依赖关系:一个好的中 心性网页 (hub) 应该指向很多好的权威性网页 (authority) , 一个好的权威性网页 (authority) 应该被很多好的中心性网页(hub)所指向。同时,Kleinberg 还将每个网页赋予两个度量值, 即中心度(hub weight)和权威度(authority weight),中心度为中心性网页所指向的所有权 威性网页的权威度之和, 而权威度为指向权威性网页的所有中心性网页的的中心度之和。 它 们之间有互相增强的作用。 HITS 算法主要包含两个过程: (1)网页链接子图的生成:首先将查询主题通过搜索引擎进行检索,从返回的结果集 中选取前 t 个网页构成 root 集合 R , 然后向 R 集合中加入 R 被引用和引用 R 的网页, 将 R 集合扩展为 base 集合 S ,以 S 中的网页为顶点集 V,网页间的超链接为有向边,构成边集 E,形成了网页链接子图,用 G(V,E)表示。 (2)计算网页的中心度(hub weight)和权威度(authority weight):初始化网页链接 子图 G 中各网页节点的 hub/authority 权重为 1,然后进行 I/O 操作,迭代计算至算法收敛,

其中 W 为网页链接子图 G(V,E)的邻接矩阵。 最后, h, a 收敛为 WW T 和 W TW 的主特征向量 h* 、
a* , hi * 、 ai* 即为网页 i 的中心度(hub weight)和权威度(authority weight)。
HITS 算法由于没有考虑文本内容,所有在实际中存在着一些问题,主要如下: (1)互相增强[9,12]的问题。一个站点 A 上的很多网页可能指向另一个站点 B 上的某个 网页,这就导致站点 A 上网页的 hub 值和站点 B 上的网页的 authority 值的增加。相反的情 况也如此。 (2)TKC(Tightly-Knit Community Effect)[9]现象及主题漂移[12] (topic drift)的问题。由 于 hub 和 authority 的互相增强的作用, 使得算法迭代容易收敛于紧密链接的网页, 导致 TKC 现象的发生,如果 TKC 中的网页是与主题不相关的话题,这时就产生了主题漂移。
ቤተ መጻሕፍቲ ባይዱ
1
基金项目:国家自然科学基金资助项目(面上项目 60673066)。
1
http://www.paper.edu.cn
因为 web 间的关系是复杂的,单纯的链接分析是不够的,而且 web 本身的内容、结构等因 素会影响网页的权威性。 本文在 HITS 算法的基础上提出了一种基于引力模型的链接分析算法—— G-HITS (Gravitation-Based HITS)。G-HITS 将网页模型化为质点、并将网页与网页的链接关系模 型化为相互作用力。 这种作用力反映了网页对网页的支持与认可, 它与两个网页的质量的乘 积成正比,和两个网页间距离的平方成反比。网页的质量可以用网页的链入、链出数量来反 映, 网页间的距离可以用查询和网页的内容相似度来反映, 即若查询与网页的相似度越大则 网页间的距离越近,且若网页间的质量乘积越大,则相应的网页间的作用力就越强。从而使 得网页链接子图的邻接矩阵对应的元素用网页之间的作用力来表示。 实验结果表明, G-HITS 算法提高了原始 HITS 算法查询结果的权威性网页的质量以及收敛速度,并且有效地减少了 原始 HITS 算法的 TKC 现象等问题。 文章结构组织如下,第 2 部分回顾了 HITS 算法并分析了其存在的问题,第 3 部分详细 阐述了本文提出的 G-HITS(Gravitation-Based HITS)算法理论模型,第 4 部分通过实验将 G-HITS 算法和原始 HITS 算法做了比较和分析,第 5 部分是概括总结及展望。
2
http://www.paper.edu.cn
以获取各网页节点的中心度、权威度,每次迭代计算后要进行规范化处理,具体公式如下: I 操作: ai O 操作: hi 迭代过程用矩阵表示为:
a WT h h W a (3) (4)
jB ( i )

hj aj
(1) (2)
jF ( i )
M ih f (| F (i ) |) f (| B (i ) |) M ia f (| B (i ) |) f (| F (i ) |) (5) (6) (7)
1
、 为质量因子,一般地, 为 0.80-0.85, 为 0.15-0.20。其中 B (i ) 为网页 i 的链入集合,
3.1 G-HITS 模型定义
3
http://www.paper.edu.cn
定义 1 网页的 hub 质量和 authority 质量 网页 i 的质量分为 hub 质量 M ih 和 authority 质量 M ia ,且 M ih 、 M ia 为网页 i 的链出和链 入数量的函数,用函数表示如下:
http://www.paper.edu.cn
一种基于引力模型的链接分析算法1
张利国 , 张宪超
大连理工大学软件学院, 辽宁 大连 (116621)
E-mail: Observe@126.com

要:链接分析在 Web 信息检索领域起着重要的作用。HITS 算法是一种经典的链接分析
算法。本文分析了 HITS 算法存在的问题,并在其基础上提出了一种基于引力模型的 Web 链 接分析算法——G-HITS(Gravitation-Based HITS)。G-HITS 将网页模型化为质点;将网 页间的链接关系模型化为网页之间的作用力, 它反映了网页对网页的支持与认可。 因此给出 了链接分析的物理解释。 实验结果表明, G-HITS 算法对于原始 HITS 算法的 TKC (Tightly-Knit Community Effect)现象有更高的健壮性,且提高了原始 HITS 算法查询结果的权威性网页 的质量以及收敛速度。 关键词:链接分析,引力模型,内容相似度,TKC 现象
1 引言
Web 是一个由复杂超文本所组成的巨大的信息源, 而且以每天超过 700 万页面的速度[1,2] 在不断的增长,针对这样一个不断变化的信息源,如何发现和利用 Web 中的有用信息变得 具有挑战性。现有的搜索引擎技术还远远不能让用户满意[1-3]。这是因为 Web 信息是自组织 的和半结构化的,经典的信息检索和数据库技术很难得到有效的应用[2,4]。超链接是 Web 特 有的组成部分,是联系 Web 上数据资源的纽带。链接分析是提高 Web 信息检索质量的最重 要的途径[5,6]。 链接分析具有代表性的算法是 Brin 和 Page(1998)的 PageRank[7]算法以及 Kleinberg(1999) 的 HITS (Hyperlink-Induced Topic Search)算法
[8]
,它们已分别成功地应用于 Google 和
IBM 的 CLEVER 搜索引擎。 大部分的链接分析算法[7-10]都是基于 Markov 模型的随机游走过 程(Random Walk),即用户随机选择跳向某个新网页或跟随链接到某个网页。基于链接分析 的 HITS 算法对一些查询主题可以得到较好的结果,但是由于其不考虑网页的文本内容,在 实际应用中存在着 TKC 现象[9](Tightly-Knit Community Effect)等问题。IBM Almaden 研 究 中 心的 Clever[11] 工 程 组 在 赋予 网页 集对 应的链 接 矩阵 初值 时结 合了链 接 的锚 文本 (anchor),使得不同的链接具有不同的权值。Bharat [12]等人提出了对链接加权的方法,他 们认为一个站内的很多网页或者一个网页对另一个网站内的网页所产生的贡献应该是一样 的,他同时将相似度结合到链接分析中,以克服 HITS 算法的互相增强的问题。R.Lempel 和 S.Moran 提出的 SALSA[9]算法考虑了用户回退浏览网页的情况,保留了 PageRank 的随机 游走和 HITS 的 Authority 和 Hub 的思想, 但未采用 Authority 和 Hub 网页之间的互相加强关 系,并且提出了两条 Markov 链,即 Authority 链和 Hub 链,对于 TKC 现象[9],SALSA 算法 有更高的健壮性。以上这些以及其它一些对 HITS 算法的改进[10, 13, 14]仍然存在着一些问题。
3 G-HITS(Gravitation-Based HITS)算法模型
为了解决 HITS 算法在实际中存在的一些问题, 本文提出了一种基于引力模型的 G-HITS (Gravitation-Based HITS)算法模型。G-HITS 算法思想如下: (1)仍然采用 HITS 算法的权威性网页(authority)、中心性网页(hub)以及网页的 中心度(hub weight)、权威度(authority weight)的概念。 (2)引入万有引力的思想,即自然界中任何两个质点都以一定的力互相吸引着,这种 力与各质点的质量的乘积成正比,与它们之间距离的平方成反比。G-HITS 算法将 Web 中相 互链接的网页抽象成质点,并将网页的质量分为 hub 质量和 authority 质量,它们分别反映 了网页的 hub 属性和 authority 属性。网页间通过链接关系,形成了相互作用力,这种作用 力反映了网页对网页的支持与认可, 它与两个网页的质量的乘积成正比, 和两个网页间距离 的平方成反比。网页的质量可以用网页的链入、链出数量来反映,而网页间的距离可以用查 询和网页的内容相似度来反映, 即若查询与网页的相似度越大则网页间的距离越近, 且若网 页间的质量乘积越大,则相应的网页间的作用力就越强。 (3)间接地对链接做了评价。根据上面第(2)点,如果链接不同,则网页间的作用力不 同,当然链接的重要性不同。如网页 k 同时链向网页 i、j,则若查询主题 q 与网页 i 的相似 度比网页 j 的相似度高,则网页 k 到网页 i 的距离比到网页 j 的距离近;同时若网页 i 的 authority 质量比 j 的 authority 质量大,则有链接 Linkk ,i 比 Linkk , j 重要。
相关文档
最新文档