PageRank算法应用在文献检索排序中的研究及改进_汪志伟_邹艳妮_吴舒霞
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
— 126 —
ຫໍສະໝຸດ Baidu
· 第 39 卷 2016 年第 11 期 ·
情报理论与实践 ( ITA ) 欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟
表1
PR ( A ) 初始值 第一轮 第二轮 第三轮 第四轮 … 1 1 1 0. 5 0. 25 0
1
1. 1
随着互联网的高速发展,越来越多的信息以 电 子 形 态 存储和交换,于是信息检索技术应运而生,并且 仍 在 不 断 地发展和完善 。 文献作为记录 、 保存和传播已有 知 识 成 果 的载体,是人类文明和社会进步的基石,也是科 研 工 作 者 最重要的思想工具 。 那么如何在短时间内准确地 检 索 出 有 价值的文献就具有非常重要的意义 。 传统的文献 检 索 方 式 存在很多不足,角度单一且忽略了文献相互引用 带 来 的 价 值流动,导致经常会出现排名靠前的文献利用价 值 不 高 而 有价值的文献很难找的问题 。 所以近年来,国内 外 很 多 学 者提出将著名 的 链 接 网 络 排 序 算 法 PageRank 应 用 到 文 献 1] 中指出 传 统 引 文 分 析 法 大 多 从 文 献 被 检索中 。 文献 [ 引次数的角度进行分析,而不关注文献的质量, 于 是 提 出 一种基于 PageRank 的 引 文 分 析 法, 为 之 后 将 其 应 用 到 文 2]中 介 绍 了 链 接 分 析 网 献检索提供 了 思 想 基 础 。 文 献 [ 络和引文分 析 网 络 结 构 上 的 相 似 性, 并 在 PageRank 基 础 3] 讨论了 PaperRank 算 上提出了 PaperRank 算法 。 文献 [ 法应用到科技文献排序中的表现,提供了一种开 展 知 识 服
Abstract : Most of the traditional literature retrievals sort the results under one of the conditions of cited frequency , publication time or frequency of the searched words. This method always uses a single angle that ignores the value flow of mutually referred articles and this leads to a phenomenon that some literature gets a too high or too low rank. For this reason , many scholars at home and abroad apply the PageRank algorithm to literature retrieval and some improvements have been made , however they ignore some special circumstances , for example , the value of literature may decline over time , and articles with short publication time have no cited record , so we cannot evaluate their value. To solve these problems , a kind of multidimensional retrieval ordering method is proposed in this paper , which gives a comprehensive consideration to all the influence factors , involves the concept of literature activity and quantifies the value of literatures in weighted manner. Experiments show that the proposed retrieval has a better performance than traditional document retrieval , and the extra amount of calculation caused by weight iteration is done offline in order to improve the accuracy and at the same time to maintain the efficiency of the retrieval. Keywords : document retrieval ; multidimensional retrieval ordering ; PageRank algorithm ; literature activity
式中, i , j 表 示 网 页; B ( i ) 表 示 指 向 i 的 链 接 的 集 合; N ( j) 表 示 j 指 向 的 所 有 链 接 的 个 数; R 表 示 网 页 的 PR 值 。 R ( j) 除以 N ( j) 表示网页将 PR 值平均分配到自 身 所 指向的所有 链 接 中 。 用 线 性 代 数 的 语 言 来 描 述 它 可 以 表 述为: R = AT R (2)
j∈ B ( i)
∑
R ( j) N ( j)
图2
Rank Leak
(1)
表2
PR ( A ) 初始值 第一轮 第二轮 第三轮 1 1 1 0. 5 0. 5 0
Rank Leak 迭代过程
PR ( B ) 1 0. 5 0. 5 0. 5 0. 25 0 PR ( C ) 1 1 0. 5 0. 5 0. 5 0 PR ( D ) 1 0. 5 0. 5 0. 5 0. 25 0
。 那 么 求 PR 值 的 过 程 就 转 化
成了求特征向量的过程 。 由于在实际应用中, Web 图内很有可能存在入度 或 出 度为 0 的节点,这会 使 整 个 迭 代 过 程 出 现 两 种 异 常 情 况: Rank Sink 和 Rank Leak[7] 。 当一个或一组紧密链接成环的网页没有任何其 他 页 面 指向它时就产生了 Rank Sink ,如图 1 和表 1 所示, A , B , C 所构成的环在迭 代 过 程 中 PR 值 不 断 地 流 失, 最 终 趋 近 于 0 ,这意味着我们无法判断出此类节点的重要性 。
信息系统 DOI : 10. 16353 / j. cnki. 10007490. 2016. 11. 024 欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟
● 汪志伟 , 邹艳妮 , 吴舒霞 ( 南昌大学
信息工程学院 , 江西
南昌
330031 )
PageRank 算法
PageRank 算法的原理和基本思路 PageRank 是 Google 创始人 L. Page 和 S. Brin 提 出 的 经
[5 ]
Rank Sink 迭代过程
PR ( C ) 1 1 0. 5 0. 5 0. 5 0 PR ( D ) 1 1. 5 1. 5 2 1. 75 2. 5 PR ( E ) 1 1 1. 5 1. 5 2 2. 5
第四轮 …
将 Web 链接网络中的所有网页记作 1 ,2 ,3 , … , m 。 R( 2 ) , R( 3 ) , …, 其 中, R 是 一 个 m 维 向 量 [R ( 1 ) , R( m) ] ,A 是 一 个 方 阵, 当 网 页 i 指 向 网 页 j 时, 元 素 a ij = 1 / N ( i ) ,否则为 0 。 因 此, 向 量 R 是 矩 阵 A 的 特 征 值为 1 时对应的特征向量
4]研 究 了 PaperRank 、 HTS 算 法 务的思路和方 法 。 文 献 [ 和 4 个 专 业 文 献 检 索 系 统 的 排 序 指 标, 提 出 了 DocumentsRank 排序法 。 以上文 献 从 不 同 角 度 对 传 统 文 献 检 索 方式进行了改进,但是仍然存在一些不足 。 首 先, 他 们 只 考虑了链接网络和引文网络之间的相似性,而忽 略 了 它 们 之间的差异性 。 其次,对文献自身价值可能产 生 的 变 化 没 有做讨论,主要有两种情况: ① 发表时间越长 则 累 积 的 被 引次数越多,但是很有可能这篇文章中描述的内 容 已 经 过 时,研究价值越来越小,此类多见于新陈代谢 速 度 很 快 的 科技类文献 。 ② 发表时间不长但是质量很高 的 文 献, 由 于 被引次数不多而排名靠后 。 为了改进以上不足,本文从多角度出发, 综 合 考 虑 各 因素对文献 检 索 结 果 的 影 响 , 并 结 合 引 文 分 析 网 络 的 特 点,利用文献间的互引关系计算出权值,最后 引 入 文 献 活 跃度对权值进行修正,进而得出文献排名 。 本 文 还 将 进 行 实证分析,讨论其结果是否符合预期并与传统排 序 法 进 行 对比 。
[6 ] T
这个顶点就像一个黑洞 一 样,将 整 体 的 PR 值 慢 慢 地 “吸 。 收 ” 掉了,因此,也被称为 “黑洞效应 ” 为了解决这两个问题,佩奇提出了两步 解 决 方 案, 首 先将所有出 度 为 0 的 Leak 节 点 删 掉, 然 后 在 定 义 中 引 进 一个阻尼系数 d ( 0 < d < 1 ) ,在该 定 义 中, 只 有 d 这 部 分 PR 值被分配给了它所指向的链接,而 1 - d 的 部 分 则 平 均 分配给 Web 中的所有节点 。 公式如下: R ( i) = d *
PR ( B ) 1 0. 5 0. 5 0. 5 0. 5 0
典网页排序算法
,用于衡量由搜索引擎索引构成的 Web
图中的每个网页相对于其他网页而言的重要程 度 。 该 算 法 的基本思想是基于 “从 许 多 优 质 网 页 链 接 过 来 的 网 页 一 定是优质网 页 ” 的 回 归 关 系, 它 将 网 页 A 指 向 网 页 B 的 链接看作是 A 对 B 的 支 持 投 票, 每 个 网 页 的 重 要 性 评 价 都取决于 Web 图 中 其 他 网 页 对 自 己 的 投 票 结 果 。 一 个 网 页的得票数越高,则重要性越高,那么它所指向 的 链 接 获 得的评价也就越高,这是一个递归收敛的过程, 最 终 所 有 网页都会得出一个趋于稳定的 PR 值 。 5] 中,佩奇将上述思想用公式来表达: 在文献 [ R ( i) =
PageRank 算法应用在文献检索排序中的研究及改进
摘 要 : 传统文献检索大多按照被引次数 、 发表时间 、 搜索词出现频次等条件之一对结果进 行 排 序 , 角 度 单 一 且 忽 略了文献相互引用带来的价值流动 , 往往会出现部分文献排名过高或过低的现象 。 为此 , 很多国内外学者 提 出 将 PageRank 算法应用到文献检索中 , 并取得了一定程度的改进 , 但是 忽 略 了 一 些 特 殊 情 况 , 如 文 献 使 用 价 值 可 能 会 随 时 间 的 推 移而产生衰退 , 还有一些发表时间较短的文献被引次数为零 , 如何去评估它的价值等 。 文章针对 这 些 问 题 , 提 出 了 一 种 多维检索排序法 , 综合考虑各种因素 带 来 的 影 响 , 并 引 入 文 献 活 跃 度 的 概 念 , 以 加 权 的 方 式 将 文 献 价 值 量 化 。 实 验 证 明 , 多维检索排序法比传统文献检索排序法效果更好 , 而且由权值迭代所带来的额外的计算量均为 离 线 完 成 , 在 提 高 准 确率的同时也很好地保持了检索的效率 。 关键词 : 文献检索 ; 多维检索排序 ; PageRank 算法 ; 文献活跃度