基于改进PageRank算法的引文文献排序方法_段庆锋

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1
PageRank 算法原理
假设将计算机网络看作有向图 G = （ V， E ）， G 为有
向、无加权的简单图。为了方便讨论，见表 1 。表1
G = （ V，E ） V |V | E |E| I （ i） | I （ i） | O （ i） | O （ i） |
符号约定
Biblioteka Baidu
2
2. 1
改进 PageRank 算法
［1 ］
等提出引文分析以来，以引文为基
引文和链接具有本质上的相近之处，体现了网络模型中从一个元素到另一个元素的指向和影响作用关系。以 PageRank［6］，HITS［7］算法为代表的基于网络结构的排序方法，在互联网络环境中取得成功的同时，也为引文网络分析带来了有益的启示。如 Bergstorm 提出 Eigenfactor 方法，采纳 PageRank 算法原理，并应用于期刊的排序评价
［14 ］［11 ］
、共词分
。马楠等采用 Pag-
，虽然研究对象关系不相同，但在研究范式和方法上
eRank 算法实证分析了分子生物学领域 261 个期刊的科学
［1213 ］
存在相通之处。
。柳泉波等通过加
入个性向量来改进传统 PageRank 算法，并应用于科学文
* 本文为国家自然科学基金委主任基金项目 “科学基金环境类项
［8 ］
础而衍生的各种科学评价指标和评价工具迅速成为科学计量学研究的热点。以 SCI，EI 等为代表的各种科学引文索引，建立在包含海量科技数据的引文数据库基础上，为大规模的科学评价提供了相对低成本、高效的方法。科学文献之间不是孤立的，由文献引用而形成的复杂网络中蕴含节点之间的相互关系，一篇文献的相对重要性也包含其中。因此，从网络的视角分析评价对象的重要性，可以反映其学术水平或价值，是科学评价的一种有效途径。 citation ）常见的引文分析方法有共引分析（ Co文耦合分析（ Bibliographic Coupling ）
［6 ］
，0 ＜ α ＜ 1 代表阻尼因子。按照 “随机冲浪模
，1 － α 可以被解释为浏览者从当前页面随机跳转到其型” 他任一页面的概率。
［10 ］序模型中，提出具有预测未来趋势的 Futurerank 方法。
、引
，借助多维数据处
理方法（如 MDS）、知识图谱的绘制方法、计算机可视化技术、计算机图形聚类算法等，来映射和描绘学科的知识结构关系。此外，还有作者共引分析（ ACA ）析
［5 ］［4 ］
国内研究较多集中在网络分析算法的改进和应用上，李江和孙建军通过对网页评价和文献评价的比较分析，提出了从 PageRank 到 Paperank 的研究思路引文网络，说明该方法的有效性献的排序
［3 ］［2 ］
。Zhou Ding 等提出混合异质网络中的排序方法，并
［9 ］
将 HITS，PageRank 算法的思想应用到不同类型网络节点权值的传递过程中，扩展了引文网络的模型结构。 H. Sayyadi 和 L. Getoor 将引文时间的因素概念纳入网络排
。
目绩效评估方法研究” 资助的成果之一，项目编号： J0910016 。
虽然 Web 网络和引文网络有着相似的拓扑结构， Pag-
·情报理论与实践·
— 115 —
信息系统
eRank 算法可以无缝地应用到引文网络中，但网页排序和文献排序有着不同的网络环境和评价目的，因此，本文结合科学引文网络的特点对 PageRank 算法进行改进，使之更符合科学评价的需求。 PR（ j） |O（ j） |
摘要：通过引文网络的结构特征，有效地识别科学文献的价值并建立某种序关系，为科学评价提供了有价值的参
考，也丰富了科学评价的方法。针对传统 PageRank 算法在引文网络中得到的结果倾向于发表时间久的文献，而不利于发表时间较短但具有学术影响潜力的文献，为了消除这种 “不公平” 性，将引文间隔时间引入算法中。图书馆与情报学领域的实证研究说明改进算法有效地优化了评价的结果，相对于传统 PageRank 算法更有利于发现具有潜力的新发表的文献。关键词：算法；引文文献；排序；评价 Abstract： Based on the structural characteristics of the citation network，this paper identifies the value of scientific literatures effectively and establishes certain ranking relationships， which not only provides valuable references for scientific evaluation， but also enriches the scientific evaluation method. In view of the fact that the results obtained by the classical PageRank algorithm from the citation network tend to be the literatures published long ago，which is unfavorable to those published not long ago but having potential academic influence，and in order to eliminate this “unfairness” ，this paper introduces the citation interval into the algorithm. The empirical studies in the LIS field shows that the improved algorithm optimizes the evaluation results effectively，which is more favorable to finding newlypublished literatures with potential academic influence compared with the classical PageRank algorithm. Keywords： algorithm； citation literature； ranking； evaluation 自从 E. Garfield
ITA
欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟
PR（ i） = （ 1 － α） + α ∑
j∈ I （ i）
（ 2）
按照 PageRank 算法，某页面 i 的 PR 值取决于两方面： ①页面 i 的入度越大，则其 PR 值也越大。 ② 如果链接指向 i 的页面具有较高的 PR 值，则页面 i 的 PR 值也应该较高。这种网络节点重要性的度量方法建立在网络链接关系中，网页之间的相对重要程度体现在网络的链接关系中，或者说网络拓扑结构决定了节点间的相对地位。
定义有向图 G 的 n × n 邻接矩阵 H，其中 n = | V| 。任取 h ij ∈H，如果存在从端点 j 到 i 的链接，则 h ij = 1 ，否则为 0 。任意一个端点 j∈V，它的出度 | O （ j） | = ∑ i h ij 。进而定义图 G 的转移矩阵 M，矩阵中任意一个元素 M ij 表示从端点 j 到 i 的条件转移概率 P （ i | j ）。如果 | O （ j ） | ＞ 0 ，则 M ij = h ij / | O（ j） | ，如果 | O （ j ） | = 0，则 Mij = 0。显然转移矩阵 M 的每一列的元素要么是 1 / | O（ j） | ，要么是 0。 PageRank 算法可以解释为 “随机冲浪模型 ” ，即页面浏览者从一个页面随机点击进入另一个页面，这个过程可以看作是在图 G 上的随机游走，不同的顶点看作相应的 “状态” 。假设图 G 上的随机游走是不可约、非周期的马尔可夫链，则经过无穷次的状态转移后，浏览者停留在某个 “状态” 的概率分布将收敛于稳态分布列向量 PR，即等式 PR = M × PR。在理论上，稳态概率分布 PR 即被视为理想状态下的 PageRank 值，其数值为 M 的特征向量。页面 i 的 PR 值，如公式（ 1 ）所示。 PR（ i） =
j∈ I （ i）
∑ |O（ j） |
PR（ j）
但是由于实际网络环境中存在 “悬挂链接 ” （ Dangling link）的情况，对应于概率转移矩阵 M 中某列为零，导致稳态概率 π 无法收敛的情况出现。为了避免该问题引入了阻尼因子 α，即得到如下的 PageRank 算法，见公式（ 2）
问题的提出尽管从图论的视角看，两种网络环境可以被视为相同
有向图，Web 网络（或引文网络）的模型端点集合端点个数边的集合边的个数所有链接（或引用） i 的端点集合端点 i 的入度所有被 i 链接（或引用）的端点集合端点 i 的出度
的拓扑结构，但 Web 网络与引文网络具有不同的产生机制及应用环境。原本应用于 Web 网络的 PageRank 算法计算得出的结果并不能完全有效地体现引文及引文网络的自身特征。不同之处主要体现在时间流逝对于两种网络产生不同的效果。Web 页面具有更新性，页面更新后旧有的内容就会消失， PageRank 算法研究的对象只是即时的 Web 页面，不需要考虑页面的时间因素。但是文献出版发表的时间是固定的，同一引文网络中的文献具有不同的时间属性，不同时间文献之间的引文链接关系在某种程度上体现了学科发展的轨迹及知识的继承和扩散。 PageRank 算法中完全没有考虑时间因素对文献 PR 值的影响，它更有利于发表时间久的文献获得高的评价，而新发表的文献则难以被发现其潜在价值。发表久的文献可能会由于长时间的积累而获得较高的被引数（入度），新发表文献则正好相反，在 PR 值的比较中处于劣势。以文献 A 和 B 为例，它们的发表年龄分别为 t （ A ）、 t （ B），而且 t （ A ）＞ t （ B ），假设它们的被引数存在关系 C（ A） = C （ B ）。可知单位时间内被引数 C （ A ） / t （ A ）＜ C（ B） / t（ B），可以判断出文献 B 比 A 在更短的时间内获得了科学共同体的认同（不考虑自引及反驳性引文），文献 B 应该比 A 更具有学术价值或影响力。但是 PageRank 算法不考虑时间的因素，难以正确地分辨出 A 和 B 间的比较关系，甚至可能会得出相反的结论。上述例子可以说明科（ 1）学文献的评价不仅要判断引用的总量（被引数），而且要考虑引用的速率，即需要将时间的因素引入 PageRank 算法。 2. 2 算法改进图 1 显示的是有向图 G 的子集，包含了文献 j 和文献 j 所引用的所有文献，j∈V。设任意的文献 i ∈ O （ j ）， PageRank 算法定义从 j 到 i 的转移概率为 M ij = 1 / | O （ j ） | ，说明从 j 发出的所有引用都具有相同的权重（转移概率），但实际上由 j 发出的引用应该是不同质的。从时间的角度
ITA
信息系统
欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟
1， 2 2 2 ● 段庆锋，朱东华，汪雪锋
（ 1. 中北大学 100081 ）
经济与管理学院，山西
太原 030051 ； 2. 北京理工大学
管理与经济学院，北京
* 基于改进 PageRank 算法的引文文献排序方法