基于PageRank与HITS的改进算法的网页排名优化
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第42卷第2期武汉科技大学学报
V o l .42,N o .2
2019年4月
J o u r n a l o fW u h a nU n i v e r s i t y o f S c i e n c e a n dT e c h n o l o g y
A p
췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍췍
r .2019 收稿日期:2018-11-02
基金项目:国家自然科学基金资助项目(51874217).
作者简介:库 珊(1993-),女,武汉科技大学硕士生.E -m a i l :1938515966@q q
.c o m 通讯作者:刘 钊(1969-),男,武汉科技大学教授,博士.E -m a i l :l i u z h a o @w u s t .e d u .c n
D O I :10.3969/j
.i s s n .1674-3644.2019.02.013基于P a g
e R a n k 与H I T S 的改进算法的网页排名优化
库 珊,刘 钊
(1.武汉科技大学计算机科学与技术学院,湖北武汉,430065;
2.武汉科技大学智能信息处理与实时工业系统湖北省重点实验室,湖北武汉,430065
)摘要:针对传统网页排序算法P a g e R a n k 和H I T S 中存在的主题漂移㊁检索效率低等不足,本文提出了一种改进算法P H I A (P a g e R a n ka n dH I T S I m p r o v e dA l g o r i t h m )㊂该算法继承了H I T S 算法获取根集和基本集的方法,并且使用根集中所有网页的P a g e R a n k 值作为H u b 和A u t h o r i t y 初始迭代值,最后根据马尔可夫链求随机矩阵的特征向量的方式来获取网页排名的静态分布㊂基于随机关键词的检索结果可知,相比于传统的P a g -e R a n k 和H I T S 算法,改进P H I A 算法具有更快的收敛速度,并且在一定程度上提高了网页排序的准确度㊂关键词:P a g
e R a n k 算法;H I T S 算法;链接结构;网页排序;算法改进中图分类号:T P 301.6 文献标志码:A 文章编号:1674-3644(2019)02-0155-06
P a g e R a n k 算法是1998年由G o o g
l e 创始人S e r g e y B r i n 和L a w r e n c eP a g
e 提出的基于链接分析的网页排序算法[1]
,其思想是通过分析网络
的链接结构来获得网络中网页的重要性排名㊂传统的P a g e R a n k 算法中,对于同一网页链出时的页面等级值(P a g e R a n k )是同等对待且平均分配的,没有考虑到不同链接的重要性会有所不同,而这与W e b 链接的实际情况不符㊂几乎在同一时
期,康奈尔大学的K l e i n b e r g 博士提出了H I T S 算法[2]
,作为同样基于链接分析的算法,该算法中
引入了枢纽(H u b )页面和权威(A u t h o r i t y )页面的概念,两者的相互优化关系构成了H I T S 算法
的基础,但是两者在迭代过程中会相互增强,对查询结果的准确性造成影响㊂此后,相继出现了
A R C [3]㊁S A L S A [4]算法等一系列以链接分析为基
础的页面分级算法,并且在实际应用中取得了一定的成果㊂另一方面,为解决传统P a g
e R a n k 和H I T S 算法中存在的不足,
国内外研究者也提出了许多改进算法,如文献[5]提出了结合链接和内容信息的改进P a g e R a n k 算法,其去除了P a g e R -
a n k 算法需要的前提,考虑到了用户从一个网页直接跳转到非直接相邻但内容相关的另外一个网
页的情况㊂文献[6]提出了通过在P a g e R a n k 算法中添加链入链出权重因子㊁用户反馈因子㊁主题相关因子和时间因子,使得搜索结果更接近用户查询需求,同时兼顾了搜索内容的相关度和查准率㊂文献[7]提出利用P a g e R a n k 算法对L u c e n e 原有的排序算法进行改进,设计并实现了一个针对移动信息的个性化搜索引擎㊂文献[8]提出了一种结合网页文本分析和扩散速率改进的F -H I T S 算法,以解决传统H I T S 算法中易发生主题漂移㊁计算效率低等问题㊂
基于此,本文通过分析传统P a g
e R a n k 和H I T S 算法中存在的不足,
提出了一种基于这两种算法的改进算法P H I A (P a g e R a n ka n d H I T S I m p r o v e dA l g
o r i t h m ),该算法继承了H I T S 算法获取根集和基本集的方法,并使用根集中所有网
页的P a g e R a n k 值作为H u b 值和A u t h o r i t y 值的初始迭代值,放弃了H I T S 算法中的相互迭代方式,而是通过求马尔可夫矩阵的方式来获取网页排名的静态分布㊂
1 网页排序算法
1.1 P a g
e R a n k 算法P a g
e R a n k 算法是根据网页超链接之间的相
武汉科技大学学报2019年第2期
互关系来确定网页的重要性和排名的,基于 由许多网页或一些权威网页链接的网页必然是权威网页 的前提条件,以网页间的链接结构为基础,来划分网页的重要性等级[9]㊂在链接网络中,将网页A指向网页B的链接看作是A对B的投票,
根据一个网页所获得的投票次数来判断网页的重要性,一个网页的P a g e R a n k值P R可由下式(1)表示:
P R(i)=ðjɪQ(i)P R(j)S(j)(1)式中:i㊁j表示网页;Q(i)表示网页i指向的链接集合;S(j)表示网页j指向的所有链接的数目; P R(j)表示页面集Q(i)中任意一个页面j的P R 值;P R(j)/S(j)则表示网页i的链入网页j给予网页i的P R值㊂
但在实际应用中,W e b连接图中常常存在一些出度或入度为0的节点,即存在环的情况,这时会出现两种异常:等级泄露(R a n kL e a k)和等级下沉(R a n kS i n k)[10]㊂为避免上述现象,可以在去掉W e b链接中所有出度为0的节点后,定义一个阻尼系数d(0 P R(i)=dðjɪQ(i)P R(j)S(j)+1-d m(2)式中:m表示节点的总个数㊂ 一个页面的P a g e R a n k值是由所有链向它的页面(链入页面)的重要性经过递归算法得到的,计算过程需要迭代㊂大量实验证明,经过反复迭代计算得到网页的P a g e R a n k值是收敛且有效的㊂P a g e R a n k算法作为与查询主题无关的静态算法,所有网页的P a g e R a n k值均可以通过后台离线计算获得,这有效地减少了在线查询时的计算量,降低了用户查询相应的时间㊂然而,P a g-e R a n k算法的特点使其仍受制于主题漂移㊁偏重旧网页㊁忽视用户个性化等问题㊂ 1.2H I T S算法 H I T S算法是一种基于超链接分析的网页排序算法㊂该算法中,网页被分为A u t h o r i t y和H u b两种类型,所谓A u t h o r i t y页面指的是与查询主题最为相关并具有高质量㊁权威性的网页, H u b页面则是指提供指向A u t h o r i t y网页链接集合的网页㊂同时,也为每个网页定义了两个权值,即A u t h o r i t y值和H u b值,用来判断该网页对特定主题的重要性㊂ H I T S算法的建立基于以下两点假设:①一个好的A u t h o r i t y页面会被很多好的H u b页面指向;②一个好的H u b页面会指向很多好的A u-t h o r i t y页面㊂该算法的具体实现过程为: S t e p1将查询主题q提交给某搜索引擎,从返回结果页面的集合中取前n个结果作为根集Q,Q需要满足:①Q中网页数量足够小;②Q中包含很多与查询相关的页面;③Q中包含很多高质量的A u t h o r i t y页面㊂ S t e p2通过向Q中加入被Q引用的网页和引用Q的网页,将其扩展成一个更大的集合T㊂以T中的H u b网页为顶点集V1,以A u t h o r i t y 网页为顶点集V2,以V1到V2的超链接为边集E,形成一个二分有向图G=(V1,V2,E)㊂对于V1中任一顶点v,用h(v)表示其H u b值;对于V2中任一顶点u,用a(u)表示其A u t h o r i t y值㊂S t e p3初始化a㊁h,令a0=h0=1㊂ S t e p4分别对u㊁v进行如下操作,以修改a(u)和h(v)的值: ①a(u)=ðh(v);②h(v)=ða(u)㊂ S t e p5对a(u)㊁h(v)进行规范化处理,即: ①a(u)=a(u)/ð[a()q]2; ②h(v)=h(v)/ð[h()q]2㊂ S t e p6不断地重复S t e p4和S t e p5,直至a(u)㊁h(v)收敛,输出最大的A u t h o r i t y值和H u b 值㊂ 与P a g e R a n k算法不同,H I T S算法与用户输入的查询请求密切相关,因而必须在接收到用户查询后进行实时计算,计算效率较低;另一方面,尽管H I T S算法在某些查询主题下能够较为准确地提取出A u t h o r i t y网页,但若扩展网页集合里包含部分与查询主题无关的页面,且这些页面之间有较多的相互链接指向,那么使用H I T S算法很可能会给予这些无关网页很高的排名,导致搜索结果发生 主题漂移 ㊂此外,H I T S算法还存在易被作弊者操纵结果㊁结构不稳定等问题㊂2基于P a g e R a n k和H I T S的改进算法P H I A 针对上述不足,本文提出了一种基于P a g e R-a n k和H I T S算法的改进算法P H I A㊂该算法继承了H I T S算法获取根集和基本集的方法,并且使用根集中所有网页的P a g e R a n k值作为H u b 值和A u t h o r i t y值的初始迭代值,以避免 主题漂移 现象的发生;其次,改进算法放弃了H I T S算 651