基于主题特征和时间因子的改进PageRank算法
基于用户行为与页面分析的改进PageRank算法
V o1.42 N ຫໍສະໝຸດ .2 · 人 工 智 能 及 识 别 技 术 ·
计 算 机 工 程
Com puter Engineering
文章编号 :1000-3428(2016)02-0164.05
文献标识码:A
2016年 2月
February 2016
中图分类号:TP391
中文引用格式 :王旭 阳,任 国盛.基 于用户 行 为与 页 面分 析 的改进 PageRank算 法 [J].计 算 机工 程 ,2016,42(2):
164—168.
英 文 引用 格 式 :Wang Xuyang,Ren Guosheng.Improved PageRank Algorithm Based on User Behavior and Page Analysis[J].Computer Engineering,2016,42(2):164-168.
基 于用 户 行 为 与 页面 分 析 的 改进 PageRank算 法
王 旭 阳 ,任 国盛
(兰 州 理 工 大 学 计 算 机 与 通信 学 院 ,兰 州 730000)
摘 要 :在 经 典 PageRank算 法 中 ,页 面 的 转 移 概 率 平 均 分 配 到 链 出页 面 ,由 于 新 网页 的链 接 较 少 ,其 PR 值 普 遍 较 低 。经 典 PageRank算 法 通 过 链 接 计 算 PR值 ,未 考 虑 到 网 页 的 内容 ,存 在 主 题 漂 移 现 象 。 针 对 上 述 问 题 ,引 入 网 页 权 威 因子 和 时 间 因 子 ,通过 网 页按 关 键 字检 索 后 被 点 击 的 次 数 进 行 统 计 ,根 据 其 在 初 始 排 序 结 果 中 的 位 置 对 网 页 的 PR值 进 行 迭 代 修 正 ,返 回一 个 新 的排 序 结 果 并 分 析 网页 内容 ,采 用 改 进 的 TD—IDF算 法 解 决 网 页 相 关 性 ,避 免 主 题 漂 移 现 象 。仿 真 实 验 结 果 表 明 ,改 进 算 法 可 以提 高 网 页 排 名 的质 量 ,使 相 关 度 较 高 的 网页 通 过 人 们 的 自主选 择 获 得 不 同 程 度 的 加 权 ,获 得 加 权 的 网页 在 检 索 结 果 中 的排 名 得 到 提 升 ,从 而 提 高 用 户 需 求 网页 的查 准 率 。 关 键 词 :权 威 因子 ;时 间 因子 ;主 题 漂 移 ;转 移 概 率 ;PR 值
一种改进的PageRank算法
Ke or s P g Ra k ag rt m ,a c o e t ,s i rt yW d a e n lo i h n h rtx s i l i m a y,t ig f e b c a t r i n e d ak fco m Cls m b r TP ] a s Nu e 3]
关键词 P gRak算 法 ; 文 本 ; 似 度 ;时 间 反馈 因子 ae n 锚 相
T 31 P 1
中图 分 类 号
An I p o e g R a g r t m r v d Pa e nk Al o ihm
W ang Zhon e gf i
( ah mai e a t n ,B oi i r i f t a d S i c s a j 7 1 1 ) M te t sD p rme t a j Unv s yo s n c n e ,B oi 2 0 3 c e t Ar e
博 士研究 生 S r e r eg yB i n和 L wrn eP g 提 出了 a e c a e 网络链 接分 析 的一 个 新算 法 P g R n , o ge应 ae ak G o l
漂 移现象 的发 生 , 高 了搜 索 引擎 的查 准 率 , 改 提 又 善 了新 网页 的 P g R n a e a k值 。
摘移以及偏 重 旧网页 的问题 , ae n 结合锚 文本相 似度 和时 间反馈 因子提 出了一种
PgR n ae ak改进算法 S P 并对 S P T R, T R算法进行实验 分析 。先 比较 了传统 P gRak算 法与加入锚 文本相 似度 的 P gR— ae n ae ak算法 , n 结果表 明加入锚文本相似度的 P g R n a e ak算法有利于减少主题漂移现象 的发 生 ; 其次 比较 了加入锚 文本相似度 的 P g R n 算法与 S R算法 , ae a k TP 结果 表明 S R算法不但减少 了主题漂移现象 , TP 而且还弥补 了新网页的 P g R n ae ak值 。
基于内容相关性和时间分析的改进PageRank算法
( p rme to m p t r S in e De a t n f Co u e c e c ,W u a i e st fTe h o o y,W u a 4 0 7 ) h n Un v r i o c n l g y hn 3 0 0
t n i i rt fl k d we a e ,a d t k stme f co f b p g s i t o sd r t n e tsm l i o n e b p g s n a e i a t ro a y i we a e o c n ie a i ,wh c a n a c h a k v l e n o ih c n e h n e t e r n a u s o e r l v n b p g s Ex e i n a e u t h w h tt e i r v d a g r h e f c i ey s l e h h me d i r b f n w ee a twe a e . pr me t lr s ls s o t a h mp o e l o i m fe t l o v s t e t e - rf p o — t v t lms o r i a l o i m ,a d ma e n w a e ie i h a k n e u t . e fo i n l g rt g a h n k e p g s rs n t e r n i g r s ls
假定 网页 的访 问 者点 击 网页 任 一 链 接 的 概 率是 相
Ab t a t Cl s ia P g Ra k a g rt m e e m ie h a e n a u so b p g so l c o d n o t e l k s r c s rc a sc l a e n lo ih d t r n st e P g Ra k v l e fwe a e n y a c r i g t h i tu — n tr so bp g s u e fwe a e ,wh c s a l e u t h me d i ,t a h g Ra k v l e fwe a e h ta e n tr l td t h ih u u l r s lsi t e - rf h t s t eRa e n a u so b p g st a r o ea e O t e y n t i
网页PageRank算法分析及主题相关性的改进策略
网页 P g r n a e a k算法分析
及 主题 相关性 的改进 策略
姜博 北方工业 大学信 息工程 学院 10 4 14 0
摘 -量 萋 _ i曩 - _ 耍
指 标 ,即 网页 级 别 。重要 的 、高 质量 的 网页 可获 得较 高 的网 页级 别 ,从 而在 搜
索 结果 中获 得 靠前 的排 位 。
假 设 某 网 页 A 的 链 入 网 页 数 量 为 n,
. …
sr tr,p ̄soti sfiec fdt ̄ t cue o t u si ufi y o ee u t n cn
tr  ̄ o ba e rn ig, me n i ti p p r eI f we pg a kn T a whe, h a e l s a ay e te P g E k loih n lz s h a e an ag r m b sd n ik t a e o l n
Hale Waihona Puke 和推荐程度 。一 个网页本身的 P g R n ae ak P g Ra k 法是 在 19 年 由斯坦福 。 值 越 高 ,则 它对 其链 出 网页 的推 荐能 力 ae n 算 8 9 大 学 的 S r e rn [ ar a e 出来 就 越 大 ;一 个 网页的 链 出网页 越 少 ,那 eg y B i  ̄ L ry P g 提 1 的1,是商业搜索 引擎 Go ge ‘ i o l 采用的链接 么它对 其中一 个链 出网页的推 荐程 度就越 高 。据 此 计算 出每个 网页 的重 要性 综 合
式 () 以 用 网 页 的随 机漫 游 模 型进 行 1可
基于主题聚焦模型的PageRank改进算法
21 0 1年 3月
计 算机 应 用与软 件
Co mpu e p i ai n n o t r trAp lc to sa d S f wa e
Vo . 8 No 3 12 .
M a . 01 r2 l
基 于 主 题 聚 焦 模 型 的 P gR n a e a k改 进 算 法
题一个重要性 分值 。这样 可 以有效 地避 免主 题漂移 现象 的发
19 9 8年 , 斯坦 福大 学 的博 士研究 生 Bi r n和 L wec a rne提 出 P gR n … 算 法 ,ae ak算 法 通 过 分 析 网络 中 的 链 接 结 构 来 ae a k P gR n
( colfC m ue c nead Tcn l y D n h aU i rt S a ga 0 6 0 C i ) Sho o p t Si c n ehoo , og u n esy,h n h i 12 ,hn o r e g v i 2 a
Ab t a t sr c T ru h su y n h h r o n s o r d t n lP g Ra k a g r h , h c s a n l z g ag r h fr h p r n s a d i h o g t d i g t e s o t mig f t i o a a e n lo t m w ih i n a ay i l o i m o y el k , n t c a i i n t i s
络 搜 索 引 擎 来 获 得 自己需 要 的信 息 。
分类判 断。这就 需要 足够 的空 问和 时 间来存储 这些 额外 的信
息 , 则就很难抑制主题漂移现象的发生 。 否
一种基于查询主题相关性的PageRank改进算法
b e t w e e n q u e r y t o p i c s . I t i n d i at c e d t h a t he t i mp r o v e d a l g o d t h m es r t r a i n e d h t e T o p i c - D r i f t e f f e c t i v e l y t h r o u g h i n r t o d u c i n g t h e r e l a i t o n me a s u r e, a n d v e d i f e d i t
统P a g e R a n k 存 在 的主题 漂移 问题 提 出 了一 种基 于 查询 主题 相 关性 的改进 算法 。通 过 引入 搜 索页面 与查 询 主题 的 相 关性度 量 , 有 效地 抑 制 了传 统 P a g e R a n k 算 法 的主题 漂移 问题 , 并通 过 实例 加 以验 证。 【 关键 词 】 页 面等级 ; 相似 度 ; 特 征项
象。 本文据 此 提 出了一 种基 于查 询主题 相关 性 的改进算
法 ,将 搜 索页 面 与查 询 主题 的相关 性 用相 似度 来度 量 ,
改进 后 的 P a g e R a n k算 法 较 传 统 的 P a g e Ra n k算 法 在 “ 主 题 漂移 ” 问题 上有 明显 的改 k 算法的基本原理
P a g e R a n k算 法基 于链 接分 析计 算 页面 的权 威 度 , 衡 量 网页 的权威 性 , 实 现搜 索 结果 的等 级 排序 。该 算法 的
有 效工 作需 要 两个假 设前 提 。
( 1 )网页 被引 用次 数越 多 ,网页 的重要 度越 大或权 威性越高 ; 网页 被 重要 的 网页 引用 时 , 重 要度 越 大 或权
PageRank算法的分析及其改进
V L36 o
・
计
算
机
工
程
21 0 0年 l 1月
Nov m b r201 e e 0
N o 22 .
Co pu e m t rEng ne rng பைடு நூலகம் ei
开 发研 究 与设 计 技术 ・
文章编号:l o -2( l2—0 l 3 0 _3 800 2_9—0 0 ’4 2 ) 2
歃丽
■— ——
P g Ra k算 法 的 分析 及 其 改进 ae n
王德 广 ,周志 刚 ,梁 旭
( 大连交通 大学软件 学院 ,辽宁 大连 l6 2 ) 0 8 1
摘
要 :在分析 P gR n a e ak算法存在偏重 旧网页、主题漂移 、网页权值均分、忽视 用户浏览兴趣现象的基础上 ,对其进行改进 ,考虑 网页
修改 日期 、网页文 本信 息、网站权威度 、用户兴趣 度等重要因素 ,重新计算 网页 P R值 。实验结果表明 ,改进算法可提高搜索 引擎对 网页 排序 的准确 度,以及用户对检 索结果的满意度 。 关键词 :P g Rak算法 ;搜索 引擎 ;文本数据挖掘 ;P ae n 尺值
A na yss0 ge a l o ihm nd I sI pr ve e l i fPa R nkA g r t a t m o m nt
W ANG — u n , De g a g ZHO U ig n , ANG Zh — a g LI Xu
( ot r e h oo yI s t t, l nJa tn ies y Dai 1 0 8 C ia Sf wa e c n lg t ue Dai i o gUn v ri , l n 1 6 2 , hn ) T ni a o t a
基于PageRank的主题过滤算法改进
2 00 ) 0 0 0
要】 对通用搜索引擎 中的 P gRak排序 算法进行 分析 , ae n 针对原 PgRa k算 法中“ ae n 主题漂移” 问题 , 出一种与主题相 关的改进算 法。 提
改 进 的 P g Ra k值 由链 接 重 要 性 和 内容 重要 性共 同 确定 。 ae n
一
在 搜 索 引 擎 启 动 时 ,最 开 始 的 任 务 就 是 在互 联 网上 进 行 抓 取 信 息 , 由于 互 联 网 上 的 信 息 是无 组织 、 结 构 多 形 式 的 , 分 布 在 世 界 但 多 且
1 PgR n a e a k算 法
P g R n 术 的基 本 原 理 是 一 个 网页 被 其 他 网 页 链 接 的 次 数 越 ae ak技 多, 则它的重要性越 高 ; 一个 网页并没被其他 网页 引用多 次, 但它却被 重要 的 网 页链 接 , 它 也 是 很 重 要 的 。对 网页 的等 级 评 价 不 是 简 单 在 那 仅仅用链接 它的其它 网页 的数量来评定 , 还依赖于链接到它 的网页本 身 的 质 量 等 级 . 1 1 。 P gRak算 法 是 目前 被 认 为 是 最 成 功 的 一 种 链 接 分 析 方 法 , ae n 是 对 网 络超 链 接 结 构 和 引文 机 制 的相 似 性 进 行 了研 究 . 引文 分析 思 想 把 借 鉴 到 网络 文 档 重 要 性 的计 算 中来 , 用 网 络 自身 的超 链 接 结 构 给 所 利 有 的 网 页 定 义 一 个 重 要 性 的等 级 数 。P gR k就 是 要 从 链 接 结 构 中 ae a n 获取 网 页 的重 要 性 , 网 页 的重 要 性 决 定 着 同时 也 依 赖 于 其 他 网 页 的 而 重要 性 日 网络 的本 质 就 是 超 链 接 , 们 从 逻 辑 上 分 析 , 个 人 都 让 自 。 我 每 己 的 网站 与 某 些 重 要 的站 点 相 链 接 , 么 , 质 上 , 个 站 点 就 投 了对 那 本 这 方 一 票 。 当成 百 上 千 个 站 点 链 接 到 这 个 站 点 时 , 们 认 为 这 个 站 点 是 我 个很好的很重要的站点也就非常符合逻辑了。
一种改进的PageRank算法-STPR
[ 4 ] Xi n g W e n p u , G h o r b a ni A . W e i g h t e d
可 以进一 步的杜绝网页作弊者通过不相关 的网
页 链 接 来 提 高 网 页 的 排 名 。算 法 的 改 进 公 式 如
下 :
肓缺陷。没有考虑到 时间对 于网页权威性 的 向,例如一个很重要 的网页,信 息发布之初
移 。所 谓 的 主 题 漂 移 ,即 所 查 询 结 果 与 查 询 期
存在 漂 移 的 问题 ,进 行 了 内 容 的 改 进, 利 用 VS M 模 型 解 决 了相 似 性 问题。针 对 新 上 网页 对链 接解 构影 响,根据 网页 时 间对 网页
望 不一致。主题漂移使得查询 的相关性造成很 大 的破 坏 。P a g e Ra n k只是 基于 超链 接分 析排 P a g e R a n k算法 首先应 用于 G o o g l e 搜索引
基 于 we b结 构 的 算 法 。 统 计 每 个 页 面 we b 拘出 度 和 入 度 ,然 后 通 过 迭 代 的 方 法 计 算 出
参考文献
[ 1 ] 原 福永 ,张 园园 . 基 于链 接分析 的相 关排
网页与本 网页 内容是 同一个主题 ,那么该链 出
链 接 应 该 更 具 有 价 值 。相 反 如ቤተ መጻሕፍቲ ባይዱ果 是 垃 圾 链 接 ,
基于主题特征和时间因子的改进PageRank算法
() u 特 征 即 网 络 上 的 网 页 具 有 权 威 性 : 1 b H ,
上 网页 相 互 之 间 的 引 用 关 系( 即链 接 结 构 )可 以衡 量 出该 网 页 ,
Abtat h mo sa kn g rh P g R n j sa a zdteiksu t e f e ae, bt i oc niete e t i d s c:T e a u n iga oi m a e ak utn l e n rc r w bpg s u d to s rh l i t a r f r l t y hl t u o d n d r a v yn
c aa tr h ce. r Au o t dr lv c e reaem e ya ay igtel t cu ea dc ne t f bp g s e p ciey P g Ra k h i n t r a ee a ed ge r t lzn i s u tr n o tnso a e s e t l; a e n y n b n h n r k we r v
I r v dP g Ra k ag r h b s do p cc a a tr n mefco mp o e a e n l o i m a e nt i h r ce dt a tr t o a i
DUAN Hu ic u n a—h a , HU P n ig
( 南京工 业 大学 信 息科 学与 工程 学院 ,江苏 南京 2 00 ) 10 9
摘 要:经典 PgR n 法单纯地 考虑到对 网 页的链接 结构 进行分析 ,而不能考虑 到 网页在搜 索主题方 面的相关性和权威 ae ak算 性 ,以及用户对新 旧网 页的依 赖程度 的不 同。针 对经典 Pg R n ae ak算 法存 在 的上 述缺 陷, 综合 网页的主题 特征 和 时间特征 两 个 因素 , 出 了一种 改进 的 Pg R n 法 wT Rwe he tpc ae ak 。该 算法通 过网 页链接 分析和 内容分 析来解决 网页 提 ae ak算 P ( i td o iP gR n ) g 的权 威程度 和相 关程 度 , 过时 间因子 实现 PgR n 通 ae ak值 随时间的 变动而浮 动。仿真 结果表 明, 改进后的算 法与 PgR n ae ak算
基于时序关联分析的PageRank改进算法研究
的最直观感受 , 它 根 据 用 户 的关 键 字 输 入 请 求 决 定 结 果 输
出排序 , 决 定 了用 户 能 否 快 速 找 到 目标 资 源 。
1 文 献 综 述
目前 比较 有 名 的排 序 算 法 有 词 频 位 置 加 权 排 序 算 法 、 Di r e c t Hi t算 法 、 P a g e Ra n k算 法 、 HI TS算 法 以 及 竞 价 排 名服务等 , 这 些 排 序 算 法 各 具 优 劣 。 网 页排 序 技 术 在 搜 索 引 擎 中有 着 非 常重 要 的 作 用 , 但 由于其 难度 和复杂 性 , 直 到2 0世 纪 9 O年 代 才 出现 。 目前 , 常 用 的 网 页 排 序 技 术 主 要 有 HI TS和 P a g e Ra n k两 种 。 HI TS算 法 计 算 简 单 、 效
摘 要 : 搜索 引擎是互联 网资源搜 索的入 口, 搜 索的快捷性 、 准确性 是搜 索引擎的核心 竞争力 , 如 何提 高竞 争力是 业
内企 业 的 工 作 重 点 。 已有 的搜 索 引 擎 算 法 中 , 最具代 表性 的就是 P a g e R a n k算 法 , 针 对 该 算 法 的 改 进 方 法 也 有很 多 ,
改进方法的切入有很多种角度其中一种角度是基于加入权威函数衡量机制改变平均网如斯坦福大学计算机科学系taherhaveliwala提出的一种基于主题敏感度的pagerank算法通过对网页基本主题向量的pagerank值进行解析当用户查询时pagerank算法根据用户所查询的主题或上下文计算出其与已知基本主题的相似度寻找出一个可以代替的查询主题进行解析很好地避免了一些明显的主题漂移现
第1 3 卷 第4 期 2 0 l 4 年 4 月
基于时间反馈和分类技术的PageRank改进算法
其中 R ( ) 是 网页 的页面级 别 , 参 数 d为介 于 ( 0 , 1 ) 区 间的衰 减 因子 , 其 取值 的大 小不影 响 网页 的排 名 , 但一 般取 0 . 8 5左 右 , B , 为指 向 网页 的其 他 网 页 , Ⅳ 是 网页 “中 向外指 出的链接 数 目。 但 是 由于 P a g e R a n k算 法 只是 客观 的分 析 网页
反 馈结 果影 响最 大 的就是 网页 排序 所使 用 的排 序算 法, 它 的作 用是 接受 到用户 检 索需求 时 , 在索 引数 据
库 中查 找 出所需 内容 , 并 将查 询 内容 按 照 相关 度进 行 计算 , 给 出排 列顺 序 , 再 将结 果反馈 给 用户 。 本 文剖 析 了基 于链 接 的经 典 排 序 算 法 P a g e R . a n k算 法 和 H I T S算法 , 并 对 已有 的基于 P a g e r — a n k算 法 的改 进 算 法 也 进 行 了深 入 的分 析 , 在 此 基 础上 , 提 出基 于时 间反馈 和分 类技 术 的 P a g e R a n k改
网页 之 间 相 似 度 的 搜 索 引擎 排 序 算 法 , 即C a t e g o —
r y R a n k算法 。如果 网 页 A有 一 个 指 向 网 页 B 的链 接, 网页 和 曰 在 内容 上 可 以 归类 于 某 一 个 类 别 , 然 后针 对 A和 B所 属 的类 别 之 间 的相 似 度 获 得 一
1 P a g e R a n k算 法分 析
P a g e R a n k 算 法是 搜 索引擎 G o o g l e的核心 算 法 ,
个 权值 , 并把这个权值加权到 R ( A) / N A 中 ,从 而
基于主题聚焦模型的PageRank改进算法
基于主题聚焦模型的PageRank改进算法温泉;丁祥武【摘要】通过研究传统的超链接分析算法PageRank及其改进算法TSPR(topic-sensitive PageRank)和MP-PageRank的不足,提出了一种新的改进方法,基于主题聚焦模型的PageRank算法.这种算法研究用户查询行为,建立主题聚焦模型,较好地解决了PageRank主题漂移问题以及其他改进算法依赖查询上下文的缺点.更加准确地反映出页面的重要性,提供更高质量的查询结果集.%Through studying the shortcomings of traditional PageRank algorithm, which is an analyzing algorithm for hyperlinks, and its improved algorithms TSPR and MP-PageRank, this paper brings up a new approach the PageRank algorithm on the basis of topic focus model. The new algorithm studies the query behavior of users, establishes a topic focus model and well solves the topic drift problem of PageRank algorithm as well as the shortcoming of other improved algorithms in relying on context query. It reflects the importance of the pages more accurately and provides query result set with higher quality.【期刊名称】《计算机应用与软件》【年(卷),期】2011(028)003【总页数】3页(P173-175)【关键词】PageRank;TSPR;MP-PageRank;主题聚焦;主题漂移【作者】温泉;丁祥武【作者单位】东华大学计算机科学与技术学院,上海,201620;东华大学计算机科学与技术学院,上海,201620【正文语种】中文0 引言随着互联网上的信息呈几何级数量递增,如何能找到用户感兴趣的信息,已经变得越来越急切,海量的信息与用户需求的矛盾日益突出。
微博环境下基于用户行为与主题相似度的改进PageRank算法
微博环境下基于用户行为与主题相似度的改进PageRank算法朱颢东;丁温雪;杨立志;冯嘉美【期刊名称】《计算机工程》【年(卷),期】2017(043)005【摘要】针对传统PageRank算法存在主题漂移、网页权值均分等问题,提出一种改进的PageRank算法.为提高用户查询效率和搜索质量,结合时间反馈因子对用户转发、用户评论和微博提及行为进行综合分析,采用统计分析方法对用户行为在微博用户影响力排序中的贡献进行度量,并利用改进的TF-IDF算法计算主题相似度权值使用户能够选择相关度较高的网页,从而获得相对应的PageRank权值.实验结果表明,与微博常用排序算法相比,改进PageRank算法具有更好的用户影响力排序效果.%Aiming at the theme drifting and the page weight splitting of traditional PageRank algorithm,an improved PageRank algorithm is proposed.In order to improve the user query efficiency and search quality,combined with the time feedback factor,it makes a comprehensive analysis on user forwarding,user comments and micro-blog mentions.Statistical analysis is used to measure the contribution of user behavior in the ranking of micro-blog user influence.By using the improved TF-IDF algorithm to calculate the similarity weight of the topic,the user can select the Web page with high relevance to obtain the corresponding PageRank weight.Experimental results show that comparedwith common microblog ranking algorithms,the improved PageRank algorithm has better user influence ranking effect.【总页数】6页(P179-184)【作者】朱颢东;丁温雪;杨立志;冯嘉美【作者单位】郑州轻工业学院计算机与通信工程学院,郑州450002;郑州轻工业学院计算机与通信工程学院,郑州450002;郑州轻工业学院计算机与通信工程学院,郑州450002;郑州轻工业学院计算机与通信工程学院,郑州450002【正文语种】中文【中图分类】TP301【相关文献】1.改进PageRank算法对微博用户交互行为的影响 [J], 席运江;吴柯;廖晓2.基于用户行为与页面分析的改进PageRank算法 [J], 王旭阳;任国盛3.基于用户兴趣与主题相关的PageRank算法改进研究 [J], 王冲;纪仙慧4.基于改进 PageRank算法的微博用户影响力排序研究 [J], 丁温雪;徐家兴;朱颢东5.基于主题相似度改进的PageRank算法研究 [J], 刘齐;黄树成因版权原因,仅展示原文概要,查看原文内容请购买。
基于内容相关性和时间分析的改进PageRank算法
基于内容相关性和时间分析的改进PageRank算法邓丹君;周彩兰【期刊名称】《计算机与数字工程》【年(卷),期】2011(39)1【摘要】Classical PageRank algorithm determines the PageRank values of web pages only according to the link structures of web pages, which usually results in theme-drift, that is the RageRank values of web pages that are not related to the theme content of these web pages are high.The improved PageRank algorithm distributes rank values according to the content similarity of linked web pages, and takes time factor of web pages into consideration, which can enhance the rank values of new relevant web pages.Experimental results show that the improved algorithm effectively solves the theme-drift problems of original algorithm, and make new pages rise in the ranking results.%传统PageRank算法仅仅通过网页链接结构来确定网页的PageRank值,这通常会导致主题漂移问题,即主题内容不相关的网页PageRank值较高.改进的PageRank算法根据链接的网页之间的内容相关性分配rank值,并且将网页的时间因素考虑在内,提高新的内容相关网页的rank值.实验结果证明,改进后的算法有效解决原算法的主题漂移问题,并使新网页在排序结果中上升.【总页数】3页(P25-27)【作者】邓丹君;周彩兰【作者单位】武汉理工大学计算机学院,武汉,430070;武汉理工大学计算机学院,武汉,430070【正文语种】中文【中图分类】TP301.6【相关文献】1.基于网页链接和内容分析的改进PageRank算法 [J], 钱功伟;倪林;MIAO Yuan;曹荣2.网页PageRank算法分析及主题相关性的改进策略 [J], 姜博3.基于改进PageRank算法的跨链公证人机制评价模型 [J], 戴炳荣;姜胜明;李顿伟;李超4.基于主题相关性和时间因素的改进PageRank算法 [J], 耿瑞;李石君;尹为民5.基于主题相似度改进的PageRank算法研究 [J], 刘齐;黄树成因版权原因,仅展示原文概要,查看原文内容请购买。
搜索引擎PageRank算法的改进
搜索引擎PageRank算法的改进杨劲松;凌培亮【期刊名称】《计算机工程》【年(卷),期】2009(035)022【摘要】In order to solve the problems in information retrieval when enterprise making rapid decision, this paper proposes an improved PageRank algorithm. Considering the time factor by Web page, it distributes the forward link different PageRank value based on the proportion by the similarity analysis between anchor text and Web page text. The final PageRank value is more suitable for topic-specific search engine and keeps simplicity of algorithm. Experimental result shows that the improved algorithm can effectively reduce the phenomenon of topic-drift and enhance the PageRank value of new Web page.%为了解决企业快速决策时信息检索的问题,提出一种改进的PageRank算法.在考虑网页产生时间因素的同时,通过锚文本与网页主题的相似度分析按权重分配网页各正向链接PageRank值,产生的PageRank值更贴合主题搜索引擎的要求,并保持算法的简洁性.实验结果证明该改进算法能有效减少主题漂移现象,恰当提升新网页PageRank 值.【总页数】3页(P35-37)【作者】杨劲松;凌培亮【作者单位】同济大学机械工程学院,上海,200092,.;同济大学机械工程学院,上海,200092,.【正文语种】中文【中图分类】TP391【相关文献】1.基于PageRank算法的搜索引擎优化策略 [J], 黄志栋;员巧云2.基于改进PageRank算法的管道专业搜索引擎系统设计与实现 [J], 王兵;许少华;张兴旺3.主题搜索引擎的PageRank算法研究 [J], 县小平4.搜索引擎PageRank算法的改进 [J], 张延红5.搜索引擎PageRank算法的比较与改进 [J], 张毅;张冬梅因版权原因,仅展示原文概要,查看原文内容请购买。
基于用户反馈的PageRank改进算法
基于用户反馈的PageRank改进算法方树峰【期刊名称】《计算技术与自动化》【年(卷),期】2012(31)1【摘要】By analyzing the PageRank algorithm emphasis on old pages.theme,offset and web pages to deceivetthe Pag-eRank algorithm based on user feedback,added the user clicks on the basis of the original algorithm,the algorithm feedback and click time feedback andfeedback weights,combined with the thinking of the sort algorithm-based web content,adding the weight of the web content,to improve the formula of the PR value,thereby overcoming the existing problems by the PageRank algorithm.%摘要:通过分析PageRank算法存在的偏重旧网页问题、主题偏移问题及网页欺骗问题,提出一种基于用户反馈的PageRank改进算法,该算法在原算法的基础上添加用户点击次数反馈和点击时间反馈及反馈权重,并结合基于网页内容的排序算法思想,加入网页内容权重,对PR值的计算公式进行改进,从而克服PageRank算法中存在的问题.【总页数】4页(P89-92)【作者】方树峰【作者单位】陕西工业职业技术学院,陕西咸阳 712000【正文语种】中文【中图分类】TP301.6【相关文献】1.基于用户反馈与链接关系的网页排序改进算法 [J], 王冲;纪仙慧2.基于网页链接与用户反馈的PageRank算法改进研究 [J], 曹姗姗;王冲3.基于用户反馈与主题关联度的网页排序算法改进 [J], 王冲;曹姗姗4.基于PageRank改进的公证人节点信用排序算法 [J], 蒋楚钰;方李西;朱建明5.基于主题相似度改进的PageRank算法研究 [J], 刘齐;黄树成因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
8662010,31(4)计算机工程与设计Computer Engineering and Design0引言目前对实现网络信息挖掘的代表性算法是基于链接结构的PageRank和HITS算法,忽略了网页的主题特征和网页存在的时间,因此,搜索的效果不理想[1]。
根据前人的研究结果,网络上的网页具有两个主题特征:(1)Hub特征[2],即网络上的网页具有权威性;(2)Linkage/Sibling Locality特征[3],即网络上的网页的分布具有相关性。
本文从网页的主题特征和时间特征的角度改进了PageRank算法。
1算法分析1.1PageRank算法PageRank算法源自于传统的文献引文分析法,即可以通过计算其它文献对该文章引用的数量来衡量该文献的质量,该文献在其它文献中被引用的次数越多,则该文献的质量就越高;同理,互联网上某一个网页被其它的网页引用的次数越高,那么同理认为该网页的重要性也越高。
通过揭示互联网上网页相互之间的引用关系(即链接结构),可以衡量出该网页在互联网上的重要程度(即PageRank值)[4]。
根据这个原理,某一网页PageRank值经典的计算方法如公式(1)所示。
11+(1)式中:A——互联网上某个待评价的网页,T1,T2,…,Ti,…,Tn则表示互联网上A的链进网页,C(Ti)表示A的第i个链进网页Ti中链出网页的总数;PR(A)、PR(Ti)分别表示网页A和它的链进网页Ti的PageRank值,我们简称其为PR值;d为网也之间链接的阻尼系数,通常为0.85;CTotal为网络上网页的总量。
虽然PageRank算法能够在一定程度上反映出互联网上网页之间的链接关系,可以有效地从互联网上网页之间的链接结构中挖掘出网页。
但是,PageRank算法仍然存在3点不足:(1)没有考虑到不同的网页,质量的高低不同,有些网页在查询的主题方面具有业内权威性,用户更倾向于获取权威的网页,而传统的PageRank算法不能体现出网页的权威性;收稿日期:2009-02-24;修订日期:2009-07-20。
作者简介:段淮川(1985-),男,江苏阜宁人,硕士,研究方向为计算机控制;胡平(1962-),男,副教授,硕士生导师,研究方向为过程控制。
E-mail:aduan85@基于主题特征和时间因子的改进PageRank算法段淮川,胡平(南京工业大学信息科学与工程学院,江苏南京210009)摘要:经典PageRank算法单纯地考虑到对网页的链接结构进行分析,而不能考虑到网页在搜索主题方面的相关性和权威性,以及用户对新旧网页的依赖程度的不同。
针对经典PageRank算法存在的上述缺陷,综合网页的主题特征和时间特征两个因素,提出了一种改进的PageRank算法WTPR(weighted topic PageRank)。
该算法通过网页链接分析和内容分析来解决网页的权威程度和相关程度,通过时间因子实现PageRank值随时间的变动而浮动。
仿真结果表明,改进后的算法与PageRank算法相比获得了更好的效果。
关键词:主题特征;时间因子;PageRank;相关性分析;链接中图法分类号:TP391.3文献标识码:A文章编号:1000-7024(2010)04-0866-03Improved PageRank algorithm based on topic character and time factorDUAN Huai-chuan,HU Ping(College of Information Science and Engineering,Nanjing University of Technology,Nanjing210009,China) Abstract:The famous ranking algorithm PageRank just analyzed the link structure of web pages,but did not consider the relativity and authority of web pages,as well as the different degree of people’s depending on new web pages and old Web pages.To improve the limitations described above all,the weighted topic PageRank(WTPR)algorithm is presented,combining with topic character and time character.Authority and relevance degree are met by analyzing the link structure and contents of web pages respectively;PageRank value fluctuating with time is met via time character.Experimental results show that the improved algorithm performs better than the fa-mous PageRank algorithm.Key words:topic character;time factor;PageRank;relativity analysis;link计算机工程与设计Computer Engineering and Design段淮川,胡平:基于主题特征和时间因子的改进PageRank 算法2010,31(4)867(2)PageRank 算法单纯地考虑到对网页的链接结构进行分析,没有分析网页中的内容和用户查询的主题是否相关,以及相关程度如何。
因此,常常导致抓取到的网页虽然具有较高的PageRank 值,却与主题无关或相关程度很小的现象(也就是主题漂移现象)发生;(3)PageRank 算法在计算网页的PageRank 值时,对新旧网页都只考虑网页的链接关系,而一些新发布的网页在短期内不能被链接引用,计算出来的PageRank 值会比旧的网页小的多,导致搜索的结果往往不包含新网页,或者排序在尾部,得不到用户的关注。
1.2相关改进的算法针对PageRank 算法的第一点缺陷,由Xing 提出的加权PageRank (WeightedPageRank ,WPageRank )算法[5],增加了Page-Rank 值中的权威性权重,使得权威性网站更容易被搜索到,但却加剧了主题漂移现象的发生,同时引入了乘法,使得计算复杂,搜索效率降低。
针对第2个不足之处,由Ingongngam 等人提出的以主题为核心内容的PageRank (topic centric ,TCPageRank )算法[6],解决了网页内容与查询主题之间的相关性问题,忽略了不同网页的重要程度不同。
对新的网页计算的PR 值往往很低,导致新网页得不到关注。
2改进PageRank 算法WTPR 算法综合对上述算法的分析,根据主题网页的特征,从主题权威性、主题相关性和时间性角度引入了主题预测相关度加权、权威度加权和时间因子。
在原PageRank 算法基础上提出改进PageRank 算法WTPR算法1+1+(2)式中:W s 和W c 分别表示网页T i 的权威性权值和相关性权值;,(3)上式中,,=(4),分别是基于出度和入度的权重因子,I (T i )和O(T i )是某个网页i 的入度和出度。
改进算法中对W s 的计算依据主题网页的Hub 特征,采用入度作为权威性权值,即=2(5)式中:A ij 和T ij 为某个关键词j 在网页A 和T i 中的权值,该权值一般都采用基于关键词频率统计的TF-IDF 算法来计算,设关键词j 在i 文档中的权值为W ji ,则sim (j ,i )=tf ji ×lg (N/df j ),其中tf ji 为关键词j 在i 文档中重复出现的次数,df j 表示包含关键词j 的文档总数,N 表示文档总数。
本文算法仍然采用向量空间模型的算法,只是针对HTML 文档的半结构化特性对TF-IDF 进行一定的改进,对于出现在<TITLE>和</TITLE>之间、<META>、<A href>和</A>、<H1>等标签的关键词我们赋予比其它地方出现的词较高的权重因子,假设关键词j的权重因子为jsim (j ,i )。
本文的根据关键词所在位置设定5种情况:①<TITLE>和</TIT-LE>之间,j=1.6;③<A href>标签内,j=1.5;⑤其它,8682010,31(4)计算机工程与设计Computer Engineering and Design域建立索引存储在MySQL 数据库中。
(3)分别采用PageRank 算法和本文改进算法计算PR 值,对网页建立索引,并按PR 值排序保存进MySQL 数据库。
针对不同的查询,找到对应的Lucene 索引文件,从MySQL 数据库按PR 值降序读出网页。
(4)对网页的PR 值评价分析,对用户来说,越是最新的、内容越是相关的,且越具有权威的网页越容易令用户满意,也就越靠前;反之,则越靠后。
为了验证时间因子对网页PR 值的影响,实验先从采集到的网页集M 中抽取出一子网页集N (=+1,其中n为网页总的个数,本测试选取n 等于前20张网页,i 为n 个网页中的第i 个网页,s i 为满意系数。
满意系数根据用户的主观评价来确定,主题特征越明显且时间越近,越满意。
满意系数分为4个不同的等级,这4个等级分别为:(1)非常满意,网页正文中含有关于查询主题极其重要的信息,而且是最近的;(2)满意,网页正文中含有与查询主题相关的信息;(3)稍微满意,虽然网页内容是最相关的,但网页正文中只含有少量的查询信息;(4)不满意,仅仅在网页的不重要的地方含有查询主题词,网页发布的时间不管是什么时候的。
实验过程中我们设置4个等级对应的s i 值为1.0、0.6、0.1和0.0。
组织一个5人的测试小组,根据上述规则对网页的满意系数评估,少数服从多数,确定满意系数,最后对不同的排序结果计算满意度值。
按体操、游泳、射击、乒乓球、羽毛球的顺序,WTPR 算法的S 值分别为:129.6、124.6、135.2、142.1、136.1;PageRank 算法的S 值分别为:87.7、98.6、85.7、103.5、91。