基于用户行为与页面分析的改进PageRank算法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第 42卷 第 2期
V o1.42 N ຫໍສະໝຸດ .2 · 人 工 智 能 及 识 别 技 术 ·
计 算 机 工 程
Com puter Engineering
文章编号 :1000-3428(2016)02-0164.05
文献标识码:A
2016年 2月
February 2016
中图分类号:TP391
中文引用格式 :王旭 阳,任 国盛.基 于用户 行 为与 页 面分 析 的改进 PageRank算 法 [J].计 算 机工 程 ,2016,42(2):
164—168.
英 文 引用 格 式 :Wang Xuyang,Ren Guosheng.Improved PageRank Algorithm Based on User Behavior and Page Analysis[J].Computer Engineering,2016,42(2):164-168.
基 于用 户 行 为 与 页面 分 析 的 改进 PageRank算 法
王 旭 阳 ,任 国盛
(兰 州 理 工 大 学 计 算 机 与 通信 学 院 ,兰 州 730000)
摘 要 :在 经 典 PageRank算 法 中 ,页 面 的 转 移 概 率 平 均 分 配 到 链 出页 面 ,由 于 新 网页 的链 接 较 少 ,其 PR 值 普 遍 较 低 。经 典 PageRank算 法 通 过 链 接 计 算 PR值 ,未 考 虑 到 网 页 的 内容 ,存 在 主 题 漂 移 现 象 。 针 对 上 述 问 题 ,引 入 网 页 权 威 因子 和 时 间 因 子 ,通过 网 页按 关 键 字检 索 后 被 点 击 的 次 数 进 行 统 计 ,根 据 其 在 初 始 排 序 结 果 中 的 位 置 对 网 页 的 PR值 进 行 迭 代 修 正 ,返 回一 个 新 的排 序 结 果 并 分 析 网页 内容 ,采 用 改 进 的 TD—IDF算 法 解 决 网 页 相 关 性 ,避 免 主 题 漂 移 现 象 。仿 真 实 验 结 果 表 明 ,改 进 算 法 可 以提 高 网 页 排 名 的质 量 ,使 相 关 度 较 高 的 网页 通 过 人 们 的 自主选 择 获 得 不 同 程 度 的 加 权 ,获 得 加 权 的 网页 在 检 索 结 果 中 的排 名 得 到 提 升 ,从 而 提 高 用 户 需 求 网页 的查 准 率 。 关 键 词 :权 威 因子 ;时 间 因子 ;主 题 漂 移 ;转 移 概 率 ;PR 值
【Abstract】In classical PageRank algorithm ,transition probability of page is equally distributed to the outlinks.There are
few links of new page,so its PR value is generally low .Classical PageRank algorithm is used to calculate the PR value through links,without taking into account the content of the page,so there is topic drift.To solve these problem s,this paper introduces authoritative factor and tim e factor to explore the im portance of W eb pages,and after keywords researching,it counts the num ber of clicks.According to their position of initial sorted results,then iteration correcting PR value of W eb page,it returns a new sorted result.The algorithm uses improved TD—IDF algorithm to slove page’s relevance by content analysis,im proving the topic drift.Sim ulation results show that the im proved algorithm can im prove the quality of page ranking.A high degree of correlation of pages obtains different degrees w eighted by the people choose.A weighted page is enhanced in ranking of the search results,and im proves the precision of user dem and pages.
【Key words】authoritative factor;time factor;topic drift;transition probability;PR value
DOI:10.3969/i.issn.1000—3428.2016.02.030
1 概 述
虽 然搜 索 引 擎 的发 展 速 度 非 常 惊 人 ,但 信 息 量 的增 长 速 度 是 呈 几 何 式 的 。人 们 习惯 于 依 靠 根 据 排 名算 法 的搜 索 引 擎 找 到 有 用 的 信 息 。然 而 经 典 的 PageRank 算法 存 在 一 些 缺 点 ,网 络 是 动 态 的 , 新 的 网 页 应 及 时 更 新 ,在 实 际 访 问 时 PageRank算 法 忽 略 时 间 的因 素 ,这 是非 常 不 合理 的 。人 们 总 是 倾 向 于 寻 求 新 的 页 面 ,而 在 经 典 PageRank算 法 中 那 些 旧 的 网页 往 往 能 得 到 更 高 的 PR 值 ,这 违 背 了 用 户 的需 求 。 由浙 江 工 业 大 学 的 黄 德 才 教 授 和 戚
Im proved PageRank Algorithm Based on U ser Behavior and Page Analysis
W A NG X uyang,REN Guosheng (School of Computer and Communication,Lanzhou University of Technology,Lanzhou 730000,China)
V o1.42 N ຫໍສະໝຸດ .2 · 人 工 智 能 及 识 别 技 术 ·
计 算 机 工 程
Com puter Engineering
文章编号 :1000-3428(2016)02-0164.05
文献标识码:A
2016年 2月
February 2016
中图分类号:TP391
中文引用格式 :王旭 阳,任 国盛.基 于用户 行 为与 页 面分 析 的改进 PageRank算 法 [J].计 算 机工 程 ,2016,42(2):
164—168.
英 文 引用 格 式 :Wang Xuyang,Ren Guosheng.Improved PageRank Algorithm Based on User Behavior and Page Analysis[J].Computer Engineering,2016,42(2):164-168.
基 于用 户 行 为 与 页面 分 析 的 改进 PageRank算 法
王 旭 阳 ,任 国盛
(兰 州 理 工 大 学 计 算 机 与 通信 学 院 ,兰 州 730000)
摘 要 :在 经 典 PageRank算 法 中 ,页 面 的 转 移 概 率 平 均 分 配 到 链 出页 面 ,由 于 新 网页 的链 接 较 少 ,其 PR 值 普 遍 较 低 。经 典 PageRank算 法 通 过 链 接 计 算 PR值 ,未 考 虑 到 网 页 的 内容 ,存 在 主 题 漂 移 现 象 。 针 对 上 述 问 题 ,引 入 网 页 权 威 因子 和 时 间 因 子 ,通过 网 页按 关 键 字检 索 后 被 点 击 的 次 数 进 行 统 计 ,根 据 其 在 初 始 排 序 结 果 中 的 位 置 对 网 页 的 PR值 进 行 迭 代 修 正 ,返 回一 个 新 的排 序 结 果 并 分 析 网页 内容 ,采 用 改 进 的 TD—IDF算 法 解 决 网 页 相 关 性 ,避 免 主 题 漂 移 现 象 。仿 真 实 验 结 果 表 明 ,改 进 算 法 可 以提 高 网 页 排 名 的质 量 ,使 相 关 度 较 高 的 网页 通 过 人 们 的 自主选 择 获 得 不 同 程 度 的 加 权 ,获 得 加 权 的 网页 在 检 索 结 果 中 的排 名 得 到 提 升 ,从 而 提 高 用 户 需 求 网页 的查 准 率 。 关 键 词 :权 威 因子 ;时 间 因子 ;主 题 漂 移 ;转 移 概 率 ;PR 值
【Abstract】In classical PageRank algorithm ,transition probability of page is equally distributed to the outlinks.There are
few links of new page,so its PR value is generally low .Classical PageRank algorithm is used to calculate the PR value through links,without taking into account the content of the page,so there is topic drift.To solve these problem s,this paper introduces authoritative factor and tim e factor to explore the im portance of W eb pages,and after keywords researching,it counts the num ber of clicks.According to their position of initial sorted results,then iteration correcting PR value of W eb page,it returns a new sorted result.The algorithm uses improved TD—IDF algorithm to slove page’s relevance by content analysis,im proving the topic drift.Sim ulation results show that the im proved algorithm can im prove the quality of page ranking.A high degree of correlation of pages obtains different degrees w eighted by the people choose.A weighted page is enhanced in ranking of the search results,and im proves the precision of user dem and pages.
【Key words】authoritative factor;time factor;topic drift;transition probability;PR value
DOI:10.3969/i.issn.1000—3428.2016.02.030
1 概 述
虽 然搜 索 引 擎 的发 展 速 度 非 常 惊 人 ,但 信 息 量 的增 长 速 度 是 呈 几 何 式 的 。人 们 习惯 于 依 靠 根 据 排 名算 法 的搜 索 引 擎 找 到 有 用 的 信 息 。然 而 经 典 的 PageRank 算法 存 在 一 些 缺 点 ,网 络 是 动 态 的 , 新 的 网 页 应 及 时 更 新 ,在 实 际 访 问 时 PageRank算 法 忽 略 时 间 的因 素 ,这 是非 常 不 合理 的 。人 们 总 是 倾 向 于 寻 求 新 的 页 面 ,而 在 经 典 PageRank算 法 中 那 些 旧 的 网页 往 往 能 得 到 更 高 的 PR 值 ,这 违 背 了 用 户 的需 求 。 由浙 江 工 业 大 学 的 黄 德 才 教 授 和 戚
Im proved PageRank Algorithm Based on U ser Behavior and Page Analysis
W A NG X uyang,REN Guosheng (School of Computer and Communication,Lanzhou University of Technology,Lanzhou 730000,China)