基于协同过滤的推荐系统算法研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于协同过滤的推荐 系统算法研究
刘景 昊
华 中科技 大学文华学院
湖北
武汉
4 3 0 0 7 4
【 摘 要】 在 网络 购物 日益风靡 的今 天,怎样提供优质的个性化服务是 当今 电子 商务 系统 的核 心内容 ,而协同过滤推 荐则是 当今发展最成 熟且最成 功的推荐 系统。本文将全方位介绍协 同过滤推荐的 内容 、研究成果 以及协 同过滤 算法中出现 的问题 ,并提 出协 同过 滤算法进一步发展的方向。 【 关键词 】协 同过滤 推荐 系统 发展方向
表示集 合 N 是对 于关联性产 品 与用户 c有最 大相似性 的用户 群 。下 面是 一些 计算公 式的例子 :
∞ - 古 ∑
c , C
^ ∑一 Ⅵ. ,
【 c 】 ‘ + ∑ ( ) ( l r
( 2 )
乘数 k 在这里是提供一个常数项, 通常是用公式: k = l / ∑  ̄ s i m ( c , c ’ )
要预测的评级数 目是很小的 。 从较小数量 的事例 中获得有效的等级预测 是很重要的。 协 同推荐系统 的成功还要依赖足够数量用户的可得 性。 一 种克服评 级稀疏性 问题 的方法就是使用用 户文件信息去计算 用户的相 似度。也就是说 , 二个用 户可 以被认 为相似 , 不仅只是 当他们把 电影评
中图分类号 :T P 3 0 1 . 6 文献标识码 :A 文章编号:1 0 0 9 — 4 0 6 7 ( 2 0 1 3 ) 0 6 — 1 5 7 一 O 1
1 、 引 言
随着网络技术的发展 , 人们正处于一个信息爆炸 的时代 。 协 同推 荐 系统 ( 或协 同过滤系统 ) 尝试基 于其他用户 的过往使用情 况来 预测某个
产 品对于某 个特定的用户 的效用 。大部分 通俗 的做法 ,都是某个产 品 对 于某个 用户 C的效 用 U ( c , ) 的评 价标准都 是基 于产 品 对
其他 一些 “ 类似 ”用户 C的用户 C 的效用 u ( c j , ) ,如在一个 电影 推 荐程 序中 , 为 了给用户 C推荐 电影 , 协 同推荐 系统 首先 尝试找 出用户 C 的同类群 , 也就是其他有 类似欣 赏风格 的用户 , 然后 , 把 只有 最相近于 用户 c的同类群的电影才会被推荐。 被认 为最早的推荐系统是 G r u n d y 系统 。 接 下来 的 T a p e s t r y 系统依 靠 每 名 用 户 的用 户 手 册 辨 认 志 趣 相 投 用 户 。G r o u p L e n s ,V i d e o R e c o m m e n d e r ’ 和 R i n g o 是最 早使用 协 同过滤算 法来 进行 自动预 测
3 、相似度计算
整集 合作一个关联度 的预测。对于用户 c已经产 品 的未知关联度数
值 , 是其他用户对于 同一样产 品 的关联度 的总和 。
,c
。
=a g g r , ,
c EC
(1 )
项 目流行度 、项 目信息熵 、用户个性化的策略 , 并 且组合 了上述 方法 。 2 新项 目问题 。 新项 目 被频繁地增加到推荐系统 中。协作系统单纯 地依靠用户的偏好去做推荐 。 因此 , 直到新 的项 目被大量的用户评级后 推荐系统才能推荐它 。这个问题也能通过使用混 合推荐方法被解决 。 3 稀疏性。在任何推荐系统 中,已经获得 的评级数 目通常相 比于需
表示 。而对 于用 户 c的平 均关 联度 ,在 ( 1 0 c )中是定义为 :
=
( 1 I ) ∑
w h e r e S 。 = ( ∈ ≠ ) . ( 3 )
在 这种情况 中是用与平均值 的相差量 的权重总和来代 替那些完全 不变 的评级 。 另一种克服使用不同评级量表的方法是 : 调整基于优先偏 好 的过滤 ,也就是 专注于推荐 用户相关 优先来 替代 绝对等级值。
ห้องสมุดไป่ตู้
4 、存 在 问题
1 新用户问题 。这是和基于 内容 的推荐系统共同存在的问题。为 了 做精确的推荐 , 系统首先必须从用户给 出的评级了解用户的偏好 。 几种 技术已经被提出来了去解决这个问题 。 其 中的大部分都使用混合推荐方 法 即把基于 内容和协同的技术结合起来。 另一种方法被描述 , 为 了决定 给新用户推荐最好的项 目而探讨了各种不同的技术 。 这些技术使用基于
的, 其 它协同系统包括 A m a z o n . t o m 的书籍推荐 ,帮助人们在万 维网上 搜索相关信 息的 P h o a k s 以及推荐笑话 的 J e s t e r 。
2 、算法介绍
协同过滤算 法可 以分为 两大类 :以记忆 行为为基础 与以模 型为 基 础 。基 于记 忆行 为的算法 ,其 本质上是基于用户先前相关条 目的完
且 ・ 歹 表示在向 量 与歹之间的 所 有点所 对应的产品。 还 有其他的
处理方法就是通过度量用户群之间的平均方差值来计算相似度 。不同的推 荐系统有不同的方法来提升在用户相似度计算以及评级估算的有效 陛。一 个很普遍的策略就是预先 ( 因为 网络群体通常不会在短时间内发生剧烈改 变) 计算所有用户的总体相似度 s i m ( x , Y )( 包括计算 ) , 然后再分别重 新计算每个用户的相似度 。因此 ,无论用户何时对系统发出请求 , 它的评 级都能通过实时按需计算而有效 的得到。一种不同的方法被采用 ,目 的是 来改善 已经存在的协同过滤算法的性能 , 在这个方法中用户组评级 的输入 是被精心挑选的 , 使用的技术包括排除噪音 、冗余度还有就是利用 了评级 数据的稀疏陛。此外 , 在其中的最新发展中,提出了一种协同过滤 的概率 方法,即把基于记忆与基于模型的技术结合起来的方法 。
刘景 昊
华 中科技 大学文华学院
湖北
武汉
4 3 0 0 7 4
【 摘 要】 在 网络 购物 日益风靡 的今 天,怎样提供优质的个性化服务是 当今 电子 商务 系统 的核 心内容 ,而协同过滤推 荐则是 当今发展最成 熟且最成 功的推荐 系统。本文将全方位介绍协 同过滤推荐的 内容 、研究成果 以及协 同过滤 算法中出现 的问题 ,并提 出协 同过 滤算法进一步发展的方向。 【 关键词 】协 同过滤 推荐 系统 发展方向
表示集 合 N 是对 于关联性产 品 与用户 c有最 大相似性 的用户 群 。下 面是 一些 计算公 式的例子 :
∞ - 古 ∑
c , C
^ ∑一 Ⅵ. ,
【 c 】 ‘ + ∑ ( ) ( l r
( 2 )
乘数 k 在这里是提供一个常数项, 通常是用公式: k = l / ∑  ̄ s i m ( c , c ’ )
要预测的评级数 目是很小的 。 从较小数量 的事例 中获得有效的等级预测 是很重要的。 协 同推荐系统 的成功还要依赖足够数量用户的可得 性。 一 种克服评 级稀疏性 问题 的方法就是使用用 户文件信息去计算 用户的相 似度。也就是说 , 二个用 户可 以被认 为相似 , 不仅只是 当他们把 电影评
中图分类号 :T P 3 0 1 . 6 文献标识码 :A 文章编号:1 0 0 9 — 4 0 6 7 ( 2 0 1 3 ) 0 6 — 1 5 7 一 O 1
1 、 引 言
随着网络技术的发展 , 人们正处于一个信息爆炸 的时代 。 协 同推 荐 系统 ( 或协 同过滤系统 ) 尝试基 于其他用户 的过往使用情 况来 预测某个
产 品对于某 个特定的用户 的效用 。大部分 通俗 的做法 ,都是某个产 品 对 于某个 用户 C的效 用 U ( c , ) 的评 价标准都 是基 于产 品 对
其他 一些 “ 类似 ”用户 C的用户 C 的效用 u ( c j , ) ,如在一个 电影 推 荐程 序中 , 为 了给用户 C推荐 电影 , 协 同推荐 系统 首先 尝试找 出用户 C 的同类群 , 也就是其他有 类似欣 赏风格 的用户 , 然后 , 把 只有 最相近于 用户 c的同类群的电影才会被推荐。 被认 为最早的推荐系统是 G r u n d y 系统 。 接 下来 的 T a p e s t r y 系统依 靠 每 名 用 户 的用 户 手 册 辨 认 志 趣 相 投 用 户 。G r o u p L e n s ,V i d e o R e c o m m e n d e r ’ 和 R i n g o 是最 早使用 协 同过滤算 法来 进行 自动预 测
3 、相似度计算
整集 合作一个关联度 的预测。对于用户 c已经产 品 的未知关联度数
值 , 是其他用户对于 同一样产 品 的关联度 的总和 。
,c
。
=a g g r , ,
c EC
(1 )
项 目流行度 、项 目信息熵 、用户个性化的策略 , 并 且组合 了上述 方法 。 2 新项 目问题 。 新项 目 被频繁地增加到推荐系统 中。协作系统单纯 地依靠用户的偏好去做推荐 。 因此 , 直到新 的项 目被大量的用户评级后 推荐系统才能推荐它 。这个问题也能通过使用混 合推荐方法被解决 。 3 稀疏性。在任何推荐系统 中,已经获得 的评级数 目通常相 比于需
表示 。而对 于用 户 c的平 均关 联度 ,在 ( 1 0 c )中是定义为 :
=
( 1 I ) ∑
w h e r e S 。 = ( ∈ ≠ ) . ( 3 )
在 这种情况 中是用与平均值 的相差量 的权重总和来代 替那些完全 不变 的评级 。 另一种克服使用不同评级量表的方法是 : 调整基于优先偏 好 的过滤 ,也就是 专注于推荐 用户相关 优先来 替代 绝对等级值。
ห้องสมุดไป่ตู้
4 、存 在 问题
1 新用户问题 。这是和基于 内容 的推荐系统共同存在的问题。为 了 做精确的推荐 , 系统首先必须从用户给 出的评级了解用户的偏好 。 几种 技术已经被提出来了去解决这个问题 。 其 中的大部分都使用混合推荐方 法 即把基于 内容和协同的技术结合起来。 另一种方法被描述 , 为 了决定 给新用户推荐最好的项 目而探讨了各种不同的技术 。 这些技术使用基于
的, 其 它协同系统包括 A m a z o n . t o m 的书籍推荐 ,帮助人们在万 维网上 搜索相关信 息的 P h o a k s 以及推荐笑话 的 J e s t e r 。
2 、算法介绍
协同过滤算 法可 以分为 两大类 :以记忆 行为为基础 与以模 型为 基 础 。基 于记 忆行 为的算法 ,其 本质上是基于用户先前相关条 目的完
且 ・ 歹 表示在向 量 与歹之间的 所 有点所 对应的产品。 还 有其他的
处理方法就是通过度量用户群之间的平均方差值来计算相似度 。不同的推 荐系统有不同的方法来提升在用户相似度计算以及评级估算的有效 陛。一 个很普遍的策略就是预先 ( 因为 网络群体通常不会在短时间内发生剧烈改 变) 计算所有用户的总体相似度 s i m ( x , Y )( 包括计算 ) , 然后再分别重 新计算每个用户的相似度 。因此 ,无论用户何时对系统发出请求 , 它的评 级都能通过实时按需计算而有效 的得到。一种不同的方法被采用 ,目 的是 来改善 已经存在的协同过滤算法的性能 , 在这个方法中用户组评级 的输入 是被精心挑选的 , 使用的技术包括排除噪音 、冗余度还有就是利用 了评级 数据的稀疏陛。此外 , 在其中的最新发展中,提出了一种协同过滤 的概率 方法,即把基于记忆与基于模型的技术结合起来的方法 。