协同过滤推荐

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对用户行为进行深度分析,去发现用户行为数据中那些 不是显而易见的规律。
BIG 协同过滤算法的定义 DA TE
基于用户行为分析的推荐算法是个性化推荐系统 的重要算法,学术界一般将这种类型的算法称为 协同过滤算法。
BIG 用户行为数据简介 DA TE
在网站上最简单的存在形式就是日志。
原始日志
(raw log)
http://mmdays.com/2008/11/22/power_law_1 Python MovieLens http://www.grouplens.org/node/73
BIG 余弦相似度算法的伪代码 DA TE
缺点: 时间复杂度O(|U|*|U|) 不必要的计算,很多时候
BIG
倒排表法
DA
TE
BIG 用户对物品兴趣程度 DA TE
得到用户之间的兴趣相似度后,UserCF算法会给用 户推荐和他兴趣最相似的K个用户喜欢的物品。如下 的公式度量了UserCF算法中用户u对物品i的感兴趣 程度:
基于领域的方法
隐语义模型
基于用户的协同过滤算法 基于物品的协同过滤算法
基于图的随机游走 算法
BIG 推荐系统的指标 DA TE
计算和获得这些指标的主要实验方法:离线实验,用户调 查,在线实验。
离线实验的步骤: 1.通过日志系统获得用户行为数据,并按照一定格式生成 一个标准的数据集; 2.将数据集按照一定的规则分成训练集和测试集; 3.在训练集上训练呢用户兴趣模型,在测试集上进行预测; 4.通过事先定义的离线指标评测算法在测试集上的预测结 果;
BIG User算法实现 DA TE
BIG DA
Usercf算法指标
TE
BIG 用户相似度计算的改进 DA TE
BIG
方法对比
DA
TE
Book-Crossing Dataset http://www.informatik.unifreiburg.de/~cziegler/BX/ Lastfm http://www.dtic.upf.edu/~ocelma/MusicReco mmendationDataset/lastfm-1K.html Netflix Prize http://netflixprize.com/ 浅谈网络世界的Power Law现象
会话日志
(session log)
展示日志
(impression log)
Hadoop Hive Google Dreme
点击日志
(click log)
BIG
用户行为分类
DA
TE
显性反馈行为。不同的显性反馈系统根据网站自己的特点设计评分系统 。
隐形反馈行为。隐形反馈系统最具代表的就是页面浏览行为。
BIG 兴趣相似度的计算 DA TE
给定用户u和用户v,令N(u)表示用户u曾经有过 正反馈的物品集合,令N(v)为用户v曾经有过正反馈的 物品集合。那么,我们可以通过如下的Jaccard公式简 单地计算u和v的兴趣相似度:
或者通过余弦相似度计算:
BIG
举例说
DA

TE
举例说明UserCF计算用户兴趣相似度。 在该例中,用户A对物品{a, b, d}有过行为,用户B 对物品{a, c}有过行为,利用余弦相似度公式计算 用户A和用户B的兴趣相似度为:
各个领域中这两种行为的例子
BIG 用户行为的统一表示 DA
TE
数 无上下文信息的隐形反馈数据集 Book-Crossing
据 无上下文信息的显性反馈数据集
Lastfm
集 代 表
有上下文信息的隐性反馈数据集 有上下文信息的显性反馈数据集
Netflix Prize
BIG 用户行为分析 DA TE
用户活跃度和物品流行度分布:很多关于互联网数据的研究发 现,互联网上的很多数据分布都满足一种称为Power Law 的分 布,这个分布在互联网领域也叫长尾分布。
很多研究人员发现,用户行为数据也蕴含着这种规律。
图图22--21,,用物户品活流跃行度度的的长长尾尾分分布布
BIG 用户活跃度和物品流行度的关系 DA TE
新用户倾向于浏览热门的物品 老用户会逐渐开始浏览冷门的物品
图2-3,MovieLens数据集中用户活跃
BIG 协同过滤算法的方Biblioteka Baidu DA TE
协同过滤推荐
贵州大学计算机科学与技术学 院 主讲人:牛俊洁
BIG 目录 DA TE
协同过滤
协同过 滤定义
用户行 为分析
算法测 评
协同过 滤算法
算法改 进
BIG 用户行为分析的重要性 DA TE
为了让推荐结果符合用户口味,我们需要深入了解用户。 最理想情况是用户注册的时候主动告诉我们他喜欢什么。
数据挖掘的经典案例啤酒和尿布 这是一个现代商场智能化信息分析系统发现的秘密。这 个故事被公认是商业领域数据挖掘的诞生。
BIG 实验设计和算法测评 DA TE
Movielens数据集
防止某次实验结果过拟合
BIG DA
基召于回用率户/准的确协率同过滤算法
TE
BIG
覆盖率
DA
TE
BIG
新颖度
DA
TE
BIG 基于用户的协同过滤算法 DA TE
给用户推荐和他兴趣相似的其他用户喜欢的物品 最古老 标志 绝对性地位
基于用户的协同过滤算法主要包括两个步骤。 (1) 找到和目标用户兴趣相似的用户集合。 (2) 找到这个集合中的用户喜欢的,且目标用户 没有听说过的物品推荐给目标用户。
相关文档
最新文档