新闻推荐系统的设计与实现
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 新 闻 推荐 系统 框 架
新 闻推荐 系统 应具有 以下 基本 功 能 :存 储新 闻 数据 、存储 用户 数 据 、计算 用 户兴趣 模 型 、计 算新 闻
模 型 、根 据用 户兴 趣 模 型计 算 可能 感 兴趣 的新 闻 、 展 示用 户可 能喜 欢 的新 闻.根据 推荐 系 统所 需 的功 能设 计 推荐 系统框 架如 图 1所 示 ,其 中包 含 了 5个 主要模 块 :数 据存 储模块 、预 处理模 块 、推 荐算 法模 块 、推荐结果综合模块 、推荐结果展示模块.
阅读 的影 响 .综 合 以上 3种 方 法使 推 荐结 果 考虑 准
确率 的同时也 兼顾 推荐 的新 颖性 和 多样 性 .下 面对
这 3种算 法做 简单介 绍 .
处 理
据
访
荐
I预处理模块 I
l
I推荐结果展示模块l
推 荐 锋 法 模 块
I 撼于LDA的推荐 } -I馋
I基于词语语义的推荐} — 一l推荐结果综合模块 I基于二部图的推荐} j
第 23卷 第 2期 2016年 4月
兰 州 工 业 学 院 学 报
Jour nal of Lanzhou Institute of Technology
文章编号 :1009-2269(2016)02-0064-04
新 闻推 荐 系统 的设 计 与 实现
V0I_Leabharlann Baidu3 No.2 Apr.2016
付 艳 欣
(兰州财 经大 学 信息工程学院 ,甘肃 兰州 730020)
摘 要 :设 计 并 实现 了基 于组 合 策略 的新 闻推荐 系统 ,系统 包括 数据 存 储模 块、预 处 理模 块 、推 荐 算
法模 块 、推荐 结 果综合 模块 、推 荐结 果展 示模 块.推 荐算 法模 块是 系统 的核 心 部 分 ,包含 3个 算 法 :
1)数据 存储 模块 . 数 据存储 模 块 主 要存 储 用 户 行 为 数 据 (主 要 是 用户 阅读 过 哪些 新 闻 )、新 闻 内容 数 据 、用 户 兴 趣 模型 和新 闻分词 结果 等 .数 据存 储 使用 的 是 Ora— ele数 据库 ,它是 甲骨 文公 司 的一种 关 系 型 的数 据 管 理系 统.Oracle数 据 库 的优 点 是 可 移 植 性 好 、功 能 强 、使 用方便 ,它是一 种高效 率 、适 应高 吞 吐量 的 数据 解决 方案 .Oracle数据 库 在数 据 库领 域 一 直 处 于领 先 的地位 ,可 以说它 是 目前 世 界上最 流行 的关 系数 据库 . 2)数据 预处 理模块 . 数 据 预处 理模 块 主要是 从 数 据库 里 读 取新 闻 文本 ,因为我 们 处 理 的 新 闻 文本 是 以 网 页 html标 签 的形 式 存 在 的 ,所 以 先 删 除 html的 标 签 ,删 除 html中的空格 ,删 除 数字 字 符 ;然 后 用分 词 工 具 进 行 新 闻分 词 ,因为本 文使 用 的分 词 工 具 IKAnalyz—
基 于 LDA模 型 的推 荐 算 法 、词语 语 义 分析 的推 荐 算 法、基 于二 部 图的推 荐算 法 ,最 终的推 荐 结 果
由这 3种 结果 的组合 构成 .在真 实数 据 集 上验 证 推 荐 系统 的准 确性 取得 了较 好 的 结果 ,将 组合 推
荐 的 结果 与使 用单 一算 法的 结果 比较 ,组 合算 法 的准确 率 比单一 算法 的准确 率 高.
关 键词 :推荐 系统 ;LDA;词语 语 义 ;二部 图
中图分 类号 :TP391
文 献标 志码 :A
O 引 言
随着 网络 的发 展 ,每天 向 网络 中发布信 息 和从 网络 中接受信息已经成为当代人生活的一部分 ,新 闻作 为 信息传 播 的手段 ,在互 联 网 中 占据着 重要 地 位 .网络新 闻已经 成为 网 民最关 注 的获 取 信 息 的 网 络资源.网络新 闻和传统报纸 、电视新 闻相 比实时 性更好 、便 于用 户 随时 阅读 、不 受 报纸 版 面 或 报 道 时长 的 限制 .但恰恰 是 这些 优点 使 得 网络新 闻无 限 制 的海量 增 长 ,因此 阅读 者不 得不 花 费大量 时 间在 海量 新 闻 中找 出 自己关 心 的新 闻来 阅读 。J.为 了 解决 以上 问题 ,设 计 并 实 现 了 一个 新 闻推 荐 系 统 , 对于进 入 系统 阅读新 闻的用 户 ,数 据存储 模 块会存 储 下 用户 的 阅读 记 录 ,推 荐算 法模 块会 计算 出用 户 可能喜 欢 的新 闻 ,推 荐算 法模 块算 出 的结 果 送到 推 荐 结果 综 合模块 进行 整合 ,得 出 的最终 推荐 结果送 到结 果展 示模块 ,展 示 给用户 .
图 1 新 闻推 荐 系统 框 架
3)推荐 算法模 块 . 推荐 算 法模块 是推 荐系统 的核心部 分 ,推荐 效
2.1 LDA主题模 型 的推荐 算法 潜 在 狄 利 克 雷 分 配 (LDA) 模 型 ,是 一 种 产
生式 的三 层 贝叶斯概 率 主题 模 型.它 是 目前 应用 最 广泛 的一 种概 率主题 模 型 ,它 具有更 全 的文本 生成 假设 .它 通过文 本 、主题 和词 汇三 个层 次 的划 分 ,将 文本 内容 表示 为潜在 主题 的有 限混 合 ,文本 内容 的 主要 区别 在于 它们 的主题 分布 不 同.LDA模 型 的特 点 就是它 的泛 化 能 力强 ,推 理算 法 高 效.基 于 LDA 主题 模 型的推 荐过程 如 下 :
收 稿 日期 :2015-12—21 作者简介 :付艳欣 (1989.),女 ,内蒙古赤峰人 ,硕士生
第 2期
付艳欣 :新 闻推荐系统的设计 与实现
·65 ·
er_3 不带 停 用 词 词 典 ,所 以 自动 添 加 了 停 用 词 词 要 考虑 的是用 户喜好 内容和新 闻内容 间的 匹配 ,二 表 ,然后 对新 闻分 词序 列去掉 停用 词 ,并 保存 结果 . 部 图推荐 主要 考虑 朋 友 的推荐 和新 闻热 度对 用 户
新 闻推荐 系统 应具有 以下 基本 功 能 :存 储新 闻 数据 、存储 用户 数 据 、计算 用 户兴趣 模 型 、计 算新 闻
模 型 、根 据用 户兴 趣 模 型计 算 可能 感 兴趣 的新 闻 、 展 示用 户可 能喜 欢 的新 闻.根据 推荐 系 统所 需 的功 能设 计 推荐 系统框 架如 图 1所 示 ,其 中包 含 了 5个 主要模 块 :数 据存 储模块 、预 处理模 块 、推 荐算 法模 块 、推荐结果综合模块 、推荐结果展示模块.
阅读 的影 响 .综 合 以上 3种 方 法使 推 荐结 果 考虑 准
确率 的同时也 兼顾 推荐 的新 颖性 和 多样 性 .下 面对
这 3种算 法做 简单介 绍 .
处 理
据
访
荐
I预处理模块 I
l
I推荐结果展示模块l
推 荐 锋 法 模 块
I 撼于LDA的推荐 } -I馋
I基于词语语义的推荐} — 一l推荐结果综合模块 I基于二部图的推荐} j
第 23卷 第 2期 2016年 4月
兰 州 工 业 学 院 学 报
Jour nal of Lanzhou Institute of Technology
文章编号 :1009-2269(2016)02-0064-04
新 闻推 荐 系统 的设 计 与 实现
V0I_Leabharlann Baidu3 No.2 Apr.2016
付 艳 欣
(兰州财 经大 学 信息工程学院 ,甘肃 兰州 730020)
摘 要 :设 计 并 实现 了基 于组 合 策略 的新 闻推荐 系统 ,系统 包括 数据 存 储模 块、预 处 理模 块 、推 荐 算
法模 块 、推荐 结 果综合 模块 、推 荐结 果展 示模 块.推 荐算 法模 块是 系统 的核 心 部 分 ,包含 3个 算 法 :
1)数据 存储 模块 . 数 据存储 模 块 主 要存 储 用 户 行 为 数 据 (主 要 是 用户 阅读 过 哪些 新 闻 )、新 闻 内容 数 据 、用 户 兴 趣 模型 和新 闻分词 结果 等 .数 据存 储 使用 的 是 Ora— ele数 据库 ,它是 甲骨 文公 司 的一种 关 系 型 的数 据 管 理系 统.Oracle数 据 库 的优 点 是 可 移 植 性 好 、功 能 强 、使 用方便 ,它是一 种高效 率 、适 应高 吞 吐量 的 数据 解决 方案 .Oracle数据 库 在数 据 库领 域 一 直 处 于领 先 的地位 ,可 以说它 是 目前 世 界上最 流行 的关 系数 据库 . 2)数据 预处 理模块 . 数 据 预处 理模 块 主要是 从 数 据库 里 读 取新 闻 文本 ,因为我 们 处 理 的 新 闻 文本 是 以 网 页 html标 签 的形 式 存 在 的 ,所 以 先 删 除 html的 标 签 ,删 除 html中的空格 ,删 除 数字 字 符 ;然 后 用分 词 工 具 进 行 新 闻分 词 ,因为本 文使 用 的分 词 工 具 IKAnalyz—
基 于 LDA模 型 的推 荐 算 法 、词语 语 义 分析 的推 荐 算 法、基 于二 部 图的推 荐算 法 ,最 终的推 荐 结 果
由这 3种 结果 的组合 构成 .在真 实数 据 集 上验 证 推 荐 系统 的准 确性 取得 了较 好 的 结果 ,将 组合 推
荐 的 结果 与使 用单 一算 法的 结果 比较 ,组 合算 法 的准确 率 比单一 算法 的准确 率 高.
关 键词 :推荐 系统 ;LDA;词语 语 义 ;二部 图
中图分 类号 :TP391
文 献标 志码 :A
O 引 言
随着 网络 的发 展 ,每天 向 网络 中发布信 息 和从 网络 中接受信息已经成为当代人生活的一部分 ,新 闻作 为 信息传 播 的手段 ,在互 联 网 中 占据着 重要 地 位 .网络新 闻已经 成为 网 民最关 注 的获 取 信 息 的 网 络资源.网络新 闻和传统报纸 、电视新 闻相 比实时 性更好 、便 于用 户 随时 阅读 、不 受 报纸 版 面 或 报 道 时长 的 限制 .但恰恰 是 这些 优点 使 得 网络新 闻无 限 制 的海量 增 长 ,因此 阅读 者不 得不 花 费大量 时 间在 海量 新 闻 中找 出 自己关 心 的新 闻来 阅读 。J.为 了 解决 以上 问题 ,设 计 并 实 现 了 一个 新 闻推 荐 系 统 , 对于进 入 系统 阅读新 闻的用 户 ,数 据存储 模 块会存 储 下 用户 的 阅读 记 录 ,推 荐算 法模 块会 计算 出用 户 可能喜 欢 的新 闻 ,推 荐算 法模 块算 出 的结 果 送到 推 荐 结果 综 合模块 进行 整合 ,得 出 的最终 推荐 结果送 到结 果展 示模块 ,展 示 给用户 .
图 1 新 闻推 荐 系统 框 架
3)推荐 算法模 块 . 推荐 算 法模块 是推 荐系统 的核心部 分 ,推荐 效
2.1 LDA主题模 型 的推荐 算法 潜 在 狄 利 克 雷 分 配 (LDA) 模 型 ,是 一 种 产
生式 的三 层 贝叶斯概 率 主题 模 型.它 是 目前 应用 最 广泛 的一 种概 率主题 模 型 ,它 具有更 全 的文本 生成 假设 .它 通过文 本 、主题 和词 汇三 个层 次 的划 分 ,将 文本 内容 表示 为潜在 主题 的有 限混 合 ,文本 内容 的 主要 区别 在于 它们 的主题 分布 不 同.LDA模 型 的特 点 就是它 的泛 化 能 力强 ,推 理算 法 高 效.基 于 LDA 主题 模 型的推 荐过程 如 下 :
收 稿 日期 :2015-12—21 作者简介 :付艳欣 (1989.),女 ,内蒙古赤峰人 ,硕士生
第 2期
付艳欣 :新 闻推荐系统的设计 与实现
·65 ·
er_3 不带 停 用 词 词 典 ,所 以 自动 添 加 了 停 用 词 词 要 考虑 的是用 户喜好 内容和新 闻内容 间的 匹配 ,二 表 ,然后 对新 闻分 词序 列去掉 停用 词 ,并 保存 结果 . 部 图推荐 主要 考虑 朋 友 的推荐 和新 闻热 度对 用 户