一种基于大数据的个性化推荐系统
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
量 一 冀…~ 电 ~ 脑
UJ l A C O PUT 融
D O I : 1 0 . 1 6 7 0 7  ̄ . c n k i . f j p c . 2 0 1 7 . 0 2 . 0 2 9
一
种 基 于大 数 据 的个 性 化 推 荐 系统
张 立燕 ,方 维 ,马华林
( 浙江工商职 业技术 学院 浙江 宁波 3 1 5 0 1 2 )
4 . 2基 于 H a d o o p的个 性 化 推 荐 算法
从编程视 角看 Ha d o o p架 构 的主要模 块是 M a p / R e d u c e模
块 。M a p / R e d u c e 提供 了一个清晰的用于并行计算 的编程模 型。
【 摘 要】 本项 目将结合学习资源推荐 系统 的的特点 , 设计基 于 Ha d o o p的数据挖掘和 个性化推荐算法 , 准对 Ha d o o p
集群任务级调度分配方法在运行 中存在的 负载分布不均的现 象, 通过对节点资源的分析 , 改进 Ha d o o p任务调度 算法 , 提 高推 荐 系统 的效 率 。
出运算 结果。基 于 H a d o o p的学 习资源推荐系 统整 体框 架如下
图。
在大 数据环境下利 用云计算这种 新的基础 架构 是解决 上 述两大 问题的有效解 决方案 。 个性化推荐系统能根据学习者的 学习 目标 、 学习基础 、 爱好和 状态为学 习者提供个 性化 的学 习 资源 , 但 传统的推荐 系统 往往部署在 单一服 务器 , 单一服务器 的运算能力和数据存储 能力有 限, 面对海量 的教学 资源无 能为 力, 因此利用云计算和大数据技术通 过整合多台服务器 的计算 资源和存储资源 , 将繁重的计算 和存储任 务通 过网络分散到服
能够 动 态 的 调度 计 算 资源 富裕 的节 点来 处 理 这 些 子 任 务 , 这 样 计 算 能 力 强 的节 点就 能处 理 更 多 的任 务 , 相 对 平 均 分 配 任 务 可 以避 免 计 算 能 力 弱 的节 点延 长 完 成 时 间 。 Ma p / R e d u c e 架 构 上 的 并 发程 序 首 先 要 输入 文件 , 然 后 把 文 件 分 割 通 过 任 务 调 度 让 多 个w o r k e r 并行 执 行 , 每 个计 算节 点 需 要在 本 地 把 计 算 结 果 写 入 中间文件, 最 后 Ma p / R e d u c e合 并 各 个 计 算 节 点 的 中 间文 件 , 输
强 的服 务 器 承担 。
了基于 H a d o o p架构来实现 推荐系统 ,相 对于传统的需要耗 费 昂贵计算资源的分布式 、网格等技 术, H a d o o p架构上实现 的推 荐系统编程更加简单和有效。
3推 荐 系 统框 架
4 . 1 基 于 Ha d o o p的个 性 化 数 据 挖 掘 算 法 研 究 基于 H a d o o p的 个 性 化 数 据 挖 掘 算 法 必 须 是 能 够 并 行 处 理 的 算 法 。 目前 有 些 传 统 的 数 据 挖 掘 算 法 还 没 有 被 有 效 植 到 H a d o o p的 M a p R e d u c e 框 架 下 。本 系 统 把 关 联 规 则 、 K — m e a n s 等 常用数据挖掘算法进行改进 , 比较 常 用 算 法 在 云 计 算 环 境 下 的 挖 掘 效 果 和 性 能 。通 过 实 验 , K — me a n s 算 法 在 推 荐 系 统 中运 行 性能较好, 但 推 荐 效 果 没 有关 联 规 则 算 法 好 。
务器集群 中 , 并把分散 的计算结果进行 合并 , 是 当 前 一 种 行 之 有 效 的解 决 方 案 。 2基 于 H a d o o p的 学 习 资源 推 荐 系统 由于 在 推 荐 系 统 中 对 运 算 的 实 时 性 要 求 并 不 高 , 本 文 采 用
4推荐 系统运行机制
Biblioteka Baidu
【 关键 字 】 H a d o o p ;  ̄ ¥ 荐 系统; 大数据
1引言
随着云计算、 移动互联 、 新媒体等 网络应用 的快速发 展, 各 类各级教学资源库得到较大 的发展空 间与机遇 ,有大量 视频 、 图片 、 文字组 成的教学资源库数据量达到 T B甚至 P B级 , 这意
味着 大 数 据 时 代 的 到 来 。大 数据 背 景 下 的教 学 资 源 库 主 要 要 解 决两 个 关 键 问题 : ( 1 ) 如何 存 储 和 组 织 T B级 的学 习资 源 ?( 2 ) 如 何 根 据 学 习者 的 学 习 目标 、 学 习基 础 、 爱 好 和 状 态 为 学 习者 提 供 一 个 个 性 化 的 学 习环 境 。
学 习者 通 过 浏 览 器 登 录 系 统 后 , 推 荐 系 统 根 据 学 习 者 的 数 据 挖 掘 结 果 进 行 推荐 。即学 习 者 的数 据 挖 掘 任 务 是 在 后 台空 闲 时执 行 的 。 挖 掘 模 块 会 根 据 学 习 者 的历 史 学 习记 录 启 动 一 个 数 据挖掘任务 。 任 务 调 度 节 点 接 收任 务后 将 对 任 务 进 行 分 割 并 把 子 任 务 分 配 给 集 群 中计 算 资 源 富 裕 的 节 点 。计 算 节 点从 数 据 存 储 节 点 中读 取 挖 掘 任 务需 要 的数 据 , 并 根 据 改 造 的数 据 挖 掘 算 法 进 行 计 算 ,最 后 将 挖 掘 结 果 发 送 到任 务调 度 节 点 进 行 合 并 , 由任 务 调 度 节 点将 最 终 数 据 挖 掘 结 果 进 行 存 储 , 以备 推 荐 系 统 使 用 。在 推 荐 系 统 中任 务 调 度 节 点 十 分 重 要 , 一 般 有 计 算 能 力
UJ l A C O PUT 融
D O I : 1 0 . 1 6 7 0 7  ̄ . c n k i . f j p c . 2 0 1 7 . 0 2 . 0 2 9
一
种 基 于大 数 据 的个 性 化 推 荐 系统
张 立燕 ,方 维 ,马华林
( 浙江工商职 业技术 学院 浙江 宁波 3 1 5 0 1 2 )
4 . 2基 于 H a d o o p的个 性 化 推 荐 算法
从编程视 角看 Ha d o o p架 构 的主要模 块是 M a p / R e d u c e模
块 。M a p / R e d u c e 提供 了一个清晰的用于并行计算 的编程模 型。
【 摘 要】 本项 目将结合学习资源推荐 系统 的的特点 , 设计基 于 Ha d o o p的数据挖掘和 个性化推荐算法 , 准对 Ha d o o p
集群任务级调度分配方法在运行 中存在的 负载分布不均的现 象, 通过对节点资源的分析 , 改进 Ha d o o p任务调度 算法 , 提 高推 荐 系统 的效 率 。
出运算 结果。基 于 H a d o o p的学 习资源推荐系 统整 体框 架如下
图。
在大 数据环境下利 用云计算这种 新的基础 架构 是解决 上 述两大 问题的有效解 决方案 。 个性化推荐系统能根据学习者的 学习 目标 、 学习基础 、 爱好和 状态为学 习者提供个 性化 的学 习 资源 , 但 传统的推荐 系统 往往部署在 单一服 务器 , 单一服务器 的运算能力和数据存储 能力有 限, 面对海量 的教学 资源无 能为 力, 因此利用云计算和大数据技术通 过整合多台服务器 的计算 资源和存储资源 , 将繁重的计算 和存储任 务通 过网络分散到服
能够 动 态 的 调度 计 算 资源 富裕 的节 点来 处 理 这 些 子 任 务 , 这 样 计 算 能 力 强 的节 点就 能处 理 更 多 的任 务 , 相 对 平 均 分 配 任 务 可 以避 免 计 算 能 力 弱 的节 点延 长 完 成 时 间 。 Ma p / R e d u c e 架 构 上 的 并 发程 序 首 先 要 输入 文件 , 然 后 把 文 件 分 割 通 过 任 务 调 度 让 多 个w o r k e r 并行 执 行 , 每 个计 算节 点 需 要在 本 地 把 计 算 结 果 写 入 中间文件, 最 后 Ma p / R e d u c e合 并 各 个 计 算 节 点 的 中 间文 件 , 输
强 的服 务 器 承担 。
了基于 H a d o o p架构来实现 推荐系统 ,相 对于传统的需要耗 费 昂贵计算资源的分布式 、网格等技 术, H a d o o p架构上实现 的推 荐系统编程更加简单和有效。
3推 荐 系 统框 架
4 . 1 基 于 Ha d o o p的个 性 化 数 据 挖 掘 算 法 研 究 基于 H a d o o p的 个 性 化 数 据 挖 掘 算 法 必 须 是 能 够 并 行 处 理 的 算 法 。 目前 有 些 传 统 的 数 据 挖 掘 算 法 还 没 有 被 有 效 植 到 H a d o o p的 M a p R e d u c e 框 架 下 。本 系 统 把 关 联 规 则 、 K — m e a n s 等 常用数据挖掘算法进行改进 , 比较 常 用 算 法 在 云 计 算 环 境 下 的 挖 掘 效 果 和 性 能 。通 过 实 验 , K — me a n s 算 法 在 推 荐 系 统 中运 行 性能较好, 但 推 荐 效 果 没 有关 联 规 则 算 法 好 。
务器集群 中 , 并把分散 的计算结果进行 合并 , 是 当 前 一 种 行 之 有 效 的解 决 方 案 。 2基 于 H a d o o p的 学 习 资源 推 荐 系统 由于 在 推 荐 系 统 中 对 运 算 的 实 时 性 要 求 并 不 高 , 本 文 采 用
4推荐 系统运行机制
Biblioteka Baidu
【 关键 字 】 H a d o o p ;  ̄ ¥ 荐 系统; 大数据
1引言
随着云计算、 移动互联 、 新媒体等 网络应用 的快速发 展, 各 类各级教学资源库得到较大 的发展空 间与机遇 ,有大量 视频 、 图片 、 文字组 成的教学资源库数据量达到 T B甚至 P B级 , 这意
味着 大 数 据 时 代 的 到 来 。大 数据 背 景 下 的教 学 资 源 库 主 要 要 解 决两 个 关 键 问题 : ( 1 ) 如何 存 储 和 组 织 T B级 的学 习资 源 ?( 2 ) 如 何 根 据 学 习者 的 学 习 目标 、 学 习基 础 、 爱 好 和 状 态 为 学 习者 提 供 一 个 个 性 化 的 学 习环 境 。
学 习者 通 过 浏 览 器 登 录 系 统 后 , 推 荐 系 统 根 据 学 习 者 的 数 据 挖 掘 结 果 进 行 推荐 。即学 习 者 的数 据 挖 掘 任 务 是 在 后 台空 闲 时执 行 的 。 挖 掘 模 块 会 根 据 学 习 者 的历 史 学 习记 录 启 动 一 个 数 据挖掘任务 。 任 务 调 度 节 点 接 收任 务后 将 对 任 务 进 行 分 割 并 把 子 任 务 分 配 给 集 群 中计 算 资 源 富 裕 的 节 点 。计 算 节 点从 数 据 存 储 节 点 中读 取 挖 掘 任 务需 要 的数 据 , 并 根 据 改 造 的数 据 挖 掘 算 法 进 行 计 算 ,最 后 将 挖 掘 结 果 发 送 到任 务调 度 节 点 进 行 合 并 , 由任 务 调 度 节 点将 最 终 数 据 挖 掘 结 果 进 行 存 储 , 以备 推 荐 系 统 使 用 。在 推 荐 系 统 中任 务 调 度 节 点 十 分 重 要 , 一 般 有 计 算 能 力