基于PageRank的页面排序算法研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
值赋 予相应 的权重 ;根据链接所属信息块重要性 的不 同,赋 予相应权值 。实验表 明 ,该算法对提 高页面排序质量是
有 效的。 关 键 词 : 页 面排 序 ; ae a k; 关度 计 算 Pg R n 相
Re e r h o e g nk ng Al o ih s d n Pag Ra s a c n W b Pa e Ra i g r t m Ba e o e nk
接块 ,那 么 w 02 = .。 3 Pg R n 法 的 改进 . ae ak算 2
网页 的相关性, 回更加符合查询主题的结果。 返
5 结语
搜索 引擎是检索 We 息的最重要 工具 ,网页排序算 法 b信
的研 究有助 于提高搜 索引擎 的准确率 ,具有重 要意 义。提 出
一
个 基于 P gR n a e a k网页排序算 法 C P gR n B ae a k算法 ,实验 结
果表 明 ,相对于 P gR n 法 ,该算法能 够提高搜索 引擎 的 ae ak算 准确 率。从算法 复杂 度来看 ,C P gR n 法的 网页分类 和 B ae ak算
bet rr u ti he r n i g qu lt te es l n t a k n a i y. K e r :pa e rnkig ; g Ra y wo ds g a n Pa e nk ;c c a in o i iiiy a ulto fsm lrt
1 引言
NT O KA DCM U I T0 EW R N O M N A1N C
网络与通信
基于 P gR n ae ak的页面排序 算法研 究
杨超 ,李杰 ,李浩 字
(. 1 河北农业大学海洋学 院 ,河北 秦皇岛 0 6 0 ; 2 河北建材职业技术学 院,河北 秦皇岛 0 6 0 ) 604 . 6 0 4 摘 要 : 提 出一种基 于 Pg R n ae a k的 页面排序算法 。采 用网页类别相 关度 计算 ,对来 自不 同类 别网页所传递的权威
链接分 析主要基 于如下 两个重 要假设 :超文本 链 接包含 了用户对 一个 网站 的判断信 息 ;对一 个 网站 而言 ,如果其 他
网站链接 到该 网站 的入链数 越多 ,该 网站越 重要 。以下 简要
例如导航链接 、网站 版权 信息链接 、服 务链 接 、广告链接 等。
作者简介 :杨超 (9 2 ) 18 一 ,男 ,助教 ,学士 ,研究 方向 :软件 工程 、We b应用 ;李 浩宇 (9 4 ) 1 8 一 ,女 ,助理 实验师 ;李杰
户优先浏览… 。网页排序算法的好坏影 响着 We b信息检索 的准 确率 ,是 搜索 引擎 的核心技 术之一 。传 统 的基于 内容 的网页
排序 算法 ,随着 互联 网 的迅速 发展呈 现 出了很 大 的局 限性 : 词语 的一 词多义往 往会破坏 到相关度 的测量 ;大量 网站 的作
E ,结点 v ) ∈V代表一个 We b页面 ,有 向边 (, )∈E代表从 Pq
关链 接中的特殊 U L称为相关链接停用 U L R R。 根据 以上 特点对 网页 中的相关 链接 块和 噪声链 接块进 行 区分 ,具体 区分 规则如下 :如果链 接块 中的某 个链 接符合 特 点 ()或特 点 ( ,则认为该链接块 是噪声块 ;如果链 接块 中 3 4 )
实 验 结 果 数 据 显 示 ,P gR n 算 法 获 取 主 题 相 关 网 页 的 ae a k
词。
值[ 5 1 。根据北京 大学 的网络与分布系统研究室对北大天 网系统
的研究发 现, 用户 在第 1 页点击数 占总点击数 的 4 %,本文 只 7
对检索结果 中排在前 面的 2 网页的准确率进 行分析 。至 于 0个
如何确定 给定 网页是 否符合要求 ,则是 一个非常主观 的概念 , 目前广泛采用的方法仍 然是人l T评价 ,本文也采用 了类似 的 评价 方法 :取 每个算 法 的运行 结 果 中排 序 在前 2 0以内的 网 页 ,合 并成待评 价的 网页集 ,将该 集合 中 的网页 以随机 的次 序提交给 1 0个志愿者进行评价 。网页 的主体 内容是关于查询
(9 8 ) 17 一 ,女 ,助教 。
收 稿 日期 :2 1 - 6 1 0 10 — 8
分 析 P gR n ae ak算法基本思想 、特点及局 限性 ,并 对 P gR n ae ak
算法 的一些相关研究进行介绍 。
P gR n 法 的基本 思想是 :如果一个 页面被许 多其 他 ae ak算
结点 P指 向结点 q的链接 ,结点 P的 出度 是指从 页面 P出发 的超链 接的 总数 ,而人度是 指从所有 指 向页面 P的超链 接总 数。
弊者 ,使 得 以词频 统计为核 心 的向量模 型 的相关度 测算 开始
失 效 ;网页之 间存 在独有 的超链 结构没 有被 利用 ,导 致查 询 的精确度不 高。 目前基于链 接结构 分析 的搜 索引擎 网页 排序算 法主要有 两类 :Bi r n等人提出的 P gR n ae ak算法 1 和 Ken eg 2 ] l br 等人提出 i
网页排 序是指按 照一定 的算法 对搜 索引擎返 回的结 果 网 页进 行排序 ,尽可能地将 用户想要 的 网页排在前 面 ,以便 用
有 被多次引用 ,但被一 个重要 页面引用 ,那么这 个页 面很可 能也是 重要 页面 ;一个 页面 的重 要性被均 分并传 递到 它所 引
用 的页 面 。P gR n 把 We 看 成 是 一个 巨 大 的 有 向图 G f, ae a k b = V
的 HT IS算法 1 a e a k算法 因为是著名搜索 引擎 G ol 3 1 gR n 。P og e的 核 心算法而备 受瞩 目,这种算法 通过对 整个互联 网结 构 图进 行 迭代运算 ,为搜索 引擎所能爬 行到 的所有 网页都赋 予一个
量 化的价值度 ,并对 网页进行 了相关权 威值 的排 序处 理 ,从 而使相 对重要性高 的网页排 在前面 。在分 析 P gR n ae ak及相关 算 法的基础上 ,提 出一 种能有效 提高搜 索结果 质量 的网页排
将进行如下改进 。 31 链 接块 分 析 .
序算 法 ,该算 法计算 网页类 别 的相 关度 ,分别给 来 自不 同类 别 的网页传递 的权威值赋 予不 同的权重 ,并 根据 网页 中链接
所处信息块的重要程 度赋 予链接传递 的权威值相应的权值。
通 常人 们浏览 网页 的时候会 发现 ,整个 页面被分 割成若
()链接 的 U L一般格式较为规整 ,一般不包含 “ aa 4 R Jv
主题 的 ,则认 为是相关 网页 ,相应 的评 价值 为 1 ,否则 为 0 。 当网页相关性 的评价值 之和大 于 7时 ,判 定该 网页 为相关 网
页 ,否则为不相关网页 。
42 结 果 分 析 .
S r t、 “ alo c p” m it”等特殊 U L i R ,这 里将 该类一般不 出现在相
YANG a , i , o u Ch o LIJ e LIHa y
(. ca o eeo bi gi l rl iesy, e e Qi un d o0 6 0 ; 1 O enC l g f l Hee r ut a Un r t H b i n a g a 60 4 A c u v i h 2 H b i ct n l n eh ia C lg f uligMae a H b i ih a g a 6 04 . e e Voa o a a dT cncl ol eo i n t il i e B d r s, e e Q n un d o0 6 0 )
Ab t a t T i p p rp o o e n w lo t m f b p g a k n a e n P g Ra k Af rc c l t n o ls i l i sr c : h s a e r p s sa e ag r h o a e r n ig b s d o a e n . t a u ai fca ssmi r- i we e o i t ,w i e d f r n a t r o t e a t o i h c s d r e r m a e eo g t i e e tca s sWe gv i e e t i h y e g v i e e tfc o st h u h rt w ih i i v d f f y i o p g s b ln o df rn ls e . ie df r n g t f f we f co s t i k a c r i g t h mp ra c ft e p r wh r h i k c me f m. s l i d c ts t e a g rt m a c ev a tr o l c o dn o t e i o t n e o at n h ee te l o o Re u t n i ae h l o h c n a h ie n r i
页 面引用 ,则 这个 页面很可能是 重要 页而 ;一个 页 面尽管 没
黼 鹚 21 0. 1 与
l
电脑编程技 巧与维护
同一个 网页 中相 关链接传 递 的权 威值要 大 于噪声链 接传递 的 权 威值 。通 过对 大量 网页分析发 现 ,网页 中相 关链 接块 中 的
链接 往往 具有 以下几个 特点 : ()链接 文字的长度基 本上 有规律 。 1 ()链接 文字与其所在 页面的标题具有相 同的关键词 。 2 ()链 接文 字一 般 不会 出现 某些 词 ,如 “ 3 首页 ” “ , 导 航 ”等 。将 不 出现在相关 链接 中的特殊 词称 为相关链 接停 用
的链接对权威值 的贡献 ,是计算 网页权威值 的一 个关键 因素 ; 另 外 ,网页 中链接 由于所处 的位 置 、 占据 的空间大 小或者 内 容不 同而具有不 同的重要度 ,对权威值传递的影响也不 同。 基 于以上思想 ,提出将 P gR n 算法 的权威值计算公 式 ae a k
3 基 于链 接分 块 的 P gR n 法 ae ak算
通 过上述对 P g R n ae a k及其相关算法 的分析 ,大 多数算 法
在进行 页面排序 时 ,基本上 考虑到 了 网页 与主题相 关性对 传
递权威值 的影 响 ,但 却没能 考虑到 网页类别 的划分 可 以更 有 效地计算链 接 的价值和权威 性 。如何 区分 不同类别 的 网页 中
源自文库
准 确 率 的平 均 值 为 5 %,B ae ak则 把 准 确 率 提 高 到 了 l P gR n 7 %。改进后 的网页排序算法 B ae ak可 以更加准确地判断 1 P gR n
的所有链接都不符合 规则 ()和规则 () 3 4,则认为该链 接块是
相关 链接块 ;如果链 接块 中的某个链 接与特 点 ()符 合 ,则 2 认 为该链 接块是 相关链 接块 。在 对 网页 中的链接块 进行 区分 后 ,然后对链接块 中的链 接赋予一个权值 w来 描述其重要性 , 假设 链接 j 属于相关链 接块 ,那么 w 08 = ., 如果链 接属于噪声链
干信 息块 ,且 同一信 息块包含 内容相似 ,其 中既包含 了相关
链 接块 ,也包 含 了大 量噪声链接 块。相关 链接 块 中包 含 了与 主题 相关 的链 接 ,该 类链接一般 是对 网页主题 信息 的进一 步 说 明或扩充 。噪声链 接块包含 了一般 与正文主题 的无关链 接 ,
2 P gR n ae a k算 法分析