大规模互联网推荐系统优化算法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
: " 研究现状
可以认为 " 推 荐 系 统 是 由 智 能 检 索( 预测理论 其核心部分为推荐引擎 ) 推荐引擎 等发展而来的 "
!算法的优劣 直 接 影 响 到 推 荐 系 统 的 性 能 , )一般
地" 推荐引擎分为三类 " 一类是 协 同过 滤 推 荐 ! A B C 0 # " 另一类是内容分析 ! C @ Q B H @ G , J 69 , C G 6 H , . A B . G 6 . G 0 7 , W# " 最后一类是混合推荐 ! # ) 协同过 ; Q H , I Y @ 6 I K 滤的主要思想是根据用户在系统中的行为 ! 通常为 评级操作 # 计算用户间的相似性 " 进而根据其 * 相似 的行为预测 目 标 用 户 的 潜 在 偏 好 ' 而内容分 用户 + 析的主要思想是根据用户之前对某些内容的行为 " 推测用户对相似内容的行为 ' 混合推荐则针对单一 推荐的不足 " 按照不同的策略进行预测 ) 协同过滤 的运行效率取决于场景是否满足如下假设 $ 若用户 则他们对其他内容的行为 对一些内容的行为相似 " 也大致 相 似 ) 在 古 希 腊 " 有 这 样 一 句 谚 语$ * 观其 友" 知其人 + " 在中国 也 有 * 近 朱 者 赤" 近 墨 者 黑+ 的 如5 ( 俗语 ) 可见 在 大 部 分 场 景 中 " H ? . I )E @ P B . K 等" 这个假设基本成立 ) 随着推荐系统中用户和内容的不断扩充 " 用户 的行为数据将出现极端稀疏性
本文在上述改进的协同过滤算法的基础上 " 针 对大规模网络环境的特征 " 设计了一种对网络的合 理分割与分组的用户相似度计算方法 [ A [ 5! [ , E , 0 C @ H , G @ C M ? C @ G 6E 6 G > B IQ @ 6 IB .[ 6 E 6 . G @ G , B . KA 7 下文简 称 [ " 该方法能有效 A [ 5 算 法# @ . I5 H B ? F" 降低算法规模 " 同时缓解网络稀疏性 )
; " 相似度计算
相似度计算算法是推荐系统中最核心的算法 ) 相似度用于比 较 两 个 用 户 行 为 的 相 近 程 度 ) 通 常 相似度没有固定或者完全准确的值 " 在不同的环境 中" 相似度应当有相对较为合理的一个计算公式 ) 习惯 上 " 相似度通常满足如下三个条件! 这里 使用 ! $ " #! " #表示用户 和 之间的相似度 # ! # -" 且相似度越高取值越 " ! " #! #" " " #, # 接近 ") ! # 即行为完全相同的用户相 ! ! " #! $" " " # 似度为 ") ! # 相似度具有无向 & ! " #! " #! " #" #$ ! " 性) 可见 " 相似度 在 性 质 上 与 距 离 十 分 相 似 " 故相 似度的计算通常与距离的计算有一定的关系 ) 定义 9" 用户特征向 量 为在某系统中用户
9 " 引言
如今人们的生活 ( 工作 ( 娱乐都离不开互联网 " 互联网也 为 人 们 提 供 了 极 其 丰 富 的 信 息 和 资 源 ) 互联网的用 户 不 断 地 增 加 " = 6 Q信息也随之成几 何级数地增长 ) 这些海量的信息 " 使用户无法在第 一时刻找到自己最想要的资源 " 这就是 * 信息过载 +
$ %" ' # ( # ) * ' # " %* + " # ' . (/ " & , + * 0 1 2 3 * + 0 4 % ' 0 % 0 ' 0 3 " (( 0 % ! 0 2 2 ' 0 ( , 5
" " 2 3 )45% 6 . 18 9 6 . : ;<8 = 6 . 0 > ? @ . 7 7
" # V
! # A B E ? G 6 H\ . , . 6 6 H , . M , 6 . M 6 # " &" & W " ! " 计算机工程与科学 "! F 7 7][
பைடு நூலகம்
推荐系统提供的 商 品 " 而 此 前" 能够购买到高质量 产品的消费 者 仅 有 * 在另外一些 WU ) 不 仅 如 此 " 在线商店 中 " 用户的购买行为往往并非事先计划 ! 如图 书 ( 音 乐( 电 影 等# ) 此 时" 一个好的推荐系 统" 不仅能向用户 有 效 传 达 最 新 商 品 信 息 " 而且可 推动产业发展 ) 推荐系 以勾起消费者的购买欲望 " 统会在用户与商品间建立好桥梁关系 " 用户也会对 推荐系统产生依赖 ) 本文第 ! 节介绍推荐系统研究现状 ' 第 & 节介 绍相似度计算方 法 ' 第 T 节 介 绍 网 络 的 分 割 规 则" 并给出 [ 第 W 节是实验仿真及结果 A [ 5 算法流程 ' 对比 ' 最后给出全文总结 )
"" !所造成的 * 信 息 迷 向+ 的 现 象 ) 推 荐 系 统, 则可
目之间的二元关系模型 " 对冗杂的互联网信息进行 过滤 和 筛 选" 并 将 结 果 推 荐 给 用 户)目 前" 一些电 如 )E ( 搜索引擎 子商务 网 站 ! @ P B .( $ @ B Q @ B 等# ! 如5 ( 百 度 等# ( 社交网站! 如9 豆 B B C 6 @ M 6 Q B B N( 7 瓣# 甚至微博 ! 如$ ( 新浪微博 # 都不同程度使 S , G G 6 H
! " " # A B C C 6 6B DA B E ? G 6 H@ . I3 . D B H E @ G , B . ; B > @ ,8 . , J 6 H , G 4 @ . , . " " " # #" A > , . @ 7 F K + 7!
$ $ 6 2 ' * 3 ' L 6 M B EE 6 . I 6 HG 6 E, -B . 6B D G > 6N 6 G 6 M > . , ? 6 , . , . G 6 H . 6 G @ C , M @ G , B . ( $ > 6 G 6 E@ . 0 K K O F F K & " @ C P 6 -? 6 H -Q 6 > @ J , B H @ . IH 6 M B EE 6 . I -F H B I ? M G , . , G , @ G , J 6 G BH 6 C @ M 6 G > 6F @ , J 6@ M M 6 G @ . M 6B D? 6 HH 6 0 K F F & ? 6 G ( $ > 6H 6 M B EE 6 . I 6 HG 6 EM @ . , E H B J 6. B GB . C > 6? 6 H6 R 6 H , 6 . M 6Q ? G @ C BG > 6? 6 H -I 6 , H 6 G B O K F KG F Q ? B E 6 G > , . ( A B C C @ Q B H @ G , J 6 D , C G 6 H , . C B H , G > E, -S , I 6 C 6 I , .G > 6H 6 M B EE 6 . I 6 HG 6 E( 3 .@ C @ H 6 0 K7 7@ 7 K? K 7 G H @ I , G , B . @ C M B C C @ Q B H @ G , J 6 D , C G 6 H , . C B H , G > E -> @ J 66 R G H 6 E 6@ H 6 . 6 -F H B Q C 6 E" @ . IG > ? M @ C 6. 6 G S B H N" 7@ 7 F "S > , M >, -I 6 , . 6 IQ > 6C @ H 6 0 M @ C 6 Q 6 , . , . 6 D D , M , 6 . G () M B C C @ Q B H @ G , J 6D , C G 6 H , . C B H , G > E, -F H B B 6 I 7 KG 7 7 7@ 7 F " . 6 G S B H N6 E 6 . G @ G , B .H ? C 6 ( $ > 6 @ C B H , G > E? 6 G > 6 , I 6 @B D I , J , I 6 @ . IM B . ? 6 H @ C B H , G > E @ . II 6 M B E B 0 7 7 O 7 F " > 6 . M 6H 6 @ M > , . > 6B G , E , P @ G , B .B D @ C B H , G > E( 6 -F H B Q C 6 E , . G B? Q 0 H B Q C 6 E G BB C J 6 7G F 7 F $ ' ' ' 7 0 " ! 2H 6 M B EE 6 . I 6 HG 6 E, E , C @ H , G @ C M ? C @ G , B .M B C C @ Q B H @ G , J 6 D , C G 6 H , . 6 G S B H N6 E 6 . G @ G , B . K KM 7. 7 58 推荐系统根据用户的相关行为构造用户与项
&用到推荐系统 , )
推荐系统利用其在互联网信息推荐方面的优
,势快 速 发 展 ) 早 在 ! # # # 年" ; @ ? Q C与 $ H , D G -T 在 研究电子商务系统时发现 " ' &U 的消费者选择购买
以有效地缓解此类问题 )
!
收稿日期 修回日期 ! # " & 0 # V 0 # "' ! # " & 0 " # 0 " W 基金项目 国家自然科学基金资助项目 ! # * " ! / ! W T & 通讯地址 ! " " " # # 江苏省南京市江宁区佛城西路 V 号河海大学江宁校区 W " & 信箱 $ " " " " $ ! ! 0 2 2 X @ , CY B RW " &" 2 , @ . . , . @ E ? ; B > @ ,8 . , J 6 H , G V9 B M > 6 . I= 6 G 2 , @ . . , . , G H , M G 4 @ . , . " " " # #" 2 , @ . ?" %( L( 7 7A F K 7L 7 7Z + 7! 7 A > , . @
% 4T & 0 " ! W V $ % "A 3 [ [ 4" # # / 0 " & # 1
"""" 计算机工程与科学
A B E ? G 6 H\ . , . 6 6 H , . M , 6 . M 6 F 7 7][
第& W 卷第 " !期! # " &年" !月" ^ B C _ & W" 4 B _ " !" Z 6 M _ ! # " &"
文章编号 # " # # / 0 " & # 1! ! # " & " ! 0 # " # / 0 # /
大规模互联网推荐系统优化算法
姜"鹏 许"峰 周文欢
! 河海大学计算机与信息学院 " 江苏 南京 ! # " " " # #
!
摘"要 推荐系统是互联网应用中的关键技术之一 该 系统 通过分 析 用 户 行 为 用主动向用户推荐产 品的方式替代被动地接受用户请求 优 秀 的 推 荐 系 统 不 仅 可 以 提 高 用 户 体 验 还 能 增 加 用 户 购 买 欲 望 协同过滤算法是推荐系统中广泛应用的算法之一 在大规模 网络 中 传 统协 同 过 滤 算 法 将 出 现 极 端 稀 疏 且算法效率低下 设计了一种通过对网络分割 分 组的 协 同过 滤算 法 该算法的目的是将大规模网 问题 络通过一定的分割规则分割并分组 利用分治的思想 将问题分解为子问题然后求解 以优化算法性能 关键词 推荐系统 相似度计算 协同过滤 网络分割 中图分类号 $ % & ' "( # ' $ % ! " # " #( & ' * ' ( , .( " # # / 0 " & # 1( ! # " &( " !( # " / + 文献标志码 )