协同过滤推荐
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对用户行为进行深度分析,去发现用户行为数据中那些 不是显而易见的规律。
BIG 协同过滤算法的定义 DA TE
基于用户行为分析的推荐算法是个性化推荐系统 的重要算法,学术界一般将这种类型的算法称为 协同过滤算法。
BIG 用户行为数据简介 DA TE
在网站上最简单的存在形式就是日志。
原始日志
(raw log)
http://mmdays.com/2008/11/22/power_law_1 Python MovieLens http://www.grouplens.org/node/73
BIG 余弦相似度算法的伪代码 DA TE
缺点: 时间复杂度O(|U|*|U|) 不必要的计算,很多时候
BIG
倒排表法
DA
TE
BIG 用户对物品兴趣程度 DA TE
得到用户之间的兴趣相似度后,UserCF算法会给用 户推荐和他兴趣最相似的K个用户喜欢的物品。如下 的公式度量了UserCF算法中用户u对物品i的感兴趣 程度:
基于领域的方法
隐语义模型
基于用户的协同过滤算法 基于物品的协同过滤算法
基于图的随机游走 算法
BIG 推荐系统的指标 DA TE
计算和获得这些指标的主要实验方法:离线实验,用户调 查,在线实验。
离线实验的步骤: 1.通过日志系统获得用户行为数据,并按照一定格式生成 一个标准的数据集; 2.将数据集按照一定的规则分成训练集和测试集; 3.在训练集上训练呢用户兴趣模型,在测试集上进行预测; 4.通过事先定义的离线指标评测算法在测试集上的预测结 果;
BIG User算法实现 DA TE
BIG DA
Usercf算法指标
TE
BIG 用户相似度计算的改进 DA TE
BIG
方法对比
DA
TE
Book-Crossing Dataset http://www.informatik.unifreiburg.de/~cziegler/BX/ Lastfm http://www.dtic.upf.edu/~ocelma/MusicReco mmendationDataset/lastfm-1K.html Netflix Prize http://netflixprize.com/ 浅谈网络世界的Power Law现象
会话日志
(session log)
展示日志
(impression log)
Hadoop Hive Google Dreme
点击日志
(click log)
BIG
用户行为分类
DA
TE
显性反馈行为。不同的显性反馈系统根据网站自己的特点设计评分系统 。
隐形反馈行为。隐形反馈系统最具代表的就是页面浏览行为。
BIG 兴趣相似度的计算 DA TE
给定用户u和用户v,令N(u)表示用户u曾经有过 正反馈的物品集合,令N(v)为用户v曾经有过正反馈的 物品集合。那么,我们可以通过如下的Jaccard公式简 单地计算u和v的兴趣相似度:
或者通过余弦相似度计算:
BIG
举例说
DA
明
TE
举例说明UserCF计算用户兴趣相似度。 在该例中,用户A对物品{a, b, d}有过行为,用户B 对物品{a, c}有过行为,利用余弦相似度公式计算 用户A和用户B的兴趣相似度为:
各个领域中这两种行为的例子
BIG 用户行为的统一表示 DA
TE
数 无上下文信息的隐形反馈数据集 Book-Crossing
据 无上下文信息的显性反馈数据集
Lastfm
集 代 表
有上下文信息的隐性反馈数据集 有上下文信息的显性反馈数据集
Netflix Prize
BIG 用户行为分析 DA TE
用户活跃度和物品流行度分布:很多关于互联网数据的研究发 现,互联网上的很多数据分布都满足一种称为Power Law 的分 布,这个分布在互联网领域也叫长尾分布。
很多研究人员发现,用户行为数据也蕴含着这种规律。
图图22--21,,用物户品活流跃行度度的的长长尾尾分分布布
BIG 用户活跃度和物品流行度的关系 DA TE
新用户倾向于浏览热门的物品 老用户会逐渐开始浏览冷门的物品
图2-3,MovieLens数据集中用户活跃
BIG 协同过滤算法的方Biblioteka Baidu DA TE
协同过滤推荐
贵州大学计算机科学与技术学 院 主讲人:牛俊洁
BIG 目录 DA TE
协同过滤
协同过 滤定义
用户行 为分析
算法测 评
协同过 滤算法
算法改 进
BIG 用户行为分析的重要性 DA TE
为了让推荐结果符合用户口味,我们需要深入了解用户。 最理想情况是用户注册的时候主动告诉我们他喜欢什么。
数据挖掘的经典案例啤酒和尿布 这是一个现代商场智能化信息分析系统发现的秘密。这 个故事被公认是商业领域数据挖掘的诞生。
BIG 实验设计和算法测评 DA TE
Movielens数据集
防止某次实验结果过拟合
BIG DA
基召于回用率户/准的确协率同过滤算法
TE
BIG
覆盖率
DA
TE
BIG
新颖度
DA
TE
BIG 基于用户的协同过滤算法 DA TE
给用户推荐和他兴趣相似的其他用户喜欢的物品 最古老 标志 绝对性地位
基于用户的协同过滤算法主要包括两个步骤。 (1) 找到和目标用户兴趣相似的用户集合。 (2) 找到这个集合中的用户喜欢的,且目标用户 没有听说过的物品推荐给目标用户。
BIG 协同过滤算法的定义 DA TE
基于用户行为分析的推荐算法是个性化推荐系统 的重要算法,学术界一般将这种类型的算法称为 协同过滤算法。
BIG 用户行为数据简介 DA TE
在网站上最简单的存在形式就是日志。
原始日志
(raw log)
http://mmdays.com/2008/11/22/power_law_1 Python MovieLens http://www.grouplens.org/node/73
BIG 余弦相似度算法的伪代码 DA TE
缺点: 时间复杂度O(|U|*|U|) 不必要的计算,很多时候
BIG
倒排表法
DA
TE
BIG 用户对物品兴趣程度 DA TE
得到用户之间的兴趣相似度后,UserCF算法会给用 户推荐和他兴趣最相似的K个用户喜欢的物品。如下 的公式度量了UserCF算法中用户u对物品i的感兴趣 程度:
基于领域的方法
隐语义模型
基于用户的协同过滤算法 基于物品的协同过滤算法
基于图的随机游走 算法
BIG 推荐系统的指标 DA TE
计算和获得这些指标的主要实验方法:离线实验,用户调 查,在线实验。
离线实验的步骤: 1.通过日志系统获得用户行为数据,并按照一定格式生成 一个标准的数据集; 2.将数据集按照一定的规则分成训练集和测试集; 3.在训练集上训练呢用户兴趣模型,在测试集上进行预测; 4.通过事先定义的离线指标评测算法在测试集上的预测结 果;
BIG User算法实现 DA TE
BIG DA
Usercf算法指标
TE
BIG 用户相似度计算的改进 DA TE
BIG
方法对比
DA
TE
Book-Crossing Dataset http://www.informatik.unifreiburg.de/~cziegler/BX/ Lastfm http://www.dtic.upf.edu/~ocelma/MusicReco mmendationDataset/lastfm-1K.html Netflix Prize http://netflixprize.com/ 浅谈网络世界的Power Law现象
会话日志
(session log)
展示日志
(impression log)
Hadoop Hive Google Dreme
点击日志
(click log)
BIG
用户行为分类
DA
TE
显性反馈行为。不同的显性反馈系统根据网站自己的特点设计评分系统 。
隐形反馈行为。隐形反馈系统最具代表的就是页面浏览行为。
BIG 兴趣相似度的计算 DA TE
给定用户u和用户v,令N(u)表示用户u曾经有过 正反馈的物品集合,令N(v)为用户v曾经有过正反馈的 物品集合。那么,我们可以通过如下的Jaccard公式简 单地计算u和v的兴趣相似度:
或者通过余弦相似度计算:
BIG
举例说
DA
明
TE
举例说明UserCF计算用户兴趣相似度。 在该例中,用户A对物品{a, b, d}有过行为,用户B 对物品{a, c}有过行为,利用余弦相似度公式计算 用户A和用户B的兴趣相似度为:
各个领域中这两种行为的例子
BIG 用户行为的统一表示 DA
TE
数 无上下文信息的隐形反馈数据集 Book-Crossing
据 无上下文信息的显性反馈数据集
Lastfm
集 代 表
有上下文信息的隐性反馈数据集 有上下文信息的显性反馈数据集
Netflix Prize
BIG 用户行为分析 DA TE
用户活跃度和物品流行度分布:很多关于互联网数据的研究发 现,互联网上的很多数据分布都满足一种称为Power Law 的分 布,这个分布在互联网领域也叫长尾分布。
很多研究人员发现,用户行为数据也蕴含着这种规律。
图图22--21,,用物户品活流跃行度度的的长长尾尾分分布布
BIG 用户活跃度和物品流行度的关系 DA TE
新用户倾向于浏览热门的物品 老用户会逐渐开始浏览冷门的物品
图2-3,MovieLens数据集中用户活跃
BIG 协同过滤算法的方Biblioteka Baidu DA TE
协同过滤推荐
贵州大学计算机科学与技术学 院 主讲人:牛俊洁
BIG 目录 DA TE
协同过滤
协同过 滤定义
用户行 为分析
算法测 评
协同过 滤算法
算法改 进
BIG 用户行为分析的重要性 DA TE
为了让推荐结果符合用户口味,我们需要深入了解用户。 最理想情况是用户注册的时候主动告诉我们他喜欢什么。
数据挖掘的经典案例啤酒和尿布 这是一个现代商场智能化信息分析系统发现的秘密。这 个故事被公认是商业领域数据挖掘的诞生。
BIG 实验设计和算法测评 DA TE
Movielens数据集
防止某次实验结果过拟合
BIG DA
基召于回用率户/准的确协率同过滤算法
TE
BIG
覆盖率
DA
TE
BIG
新颖度
DA
TE
BIG 基于用户的协同过滤算法 DA TE
给用户推荐和他兴趣相似的其他用户喜欢的物品 最古老 标志 绝对性地位
基于用户的协同过滤算法主要包括两个步骤。 (1) 找到和目标用户兴趣相似的用户集合。 (2) 找到这个集合中的用户喜欢的,且目标用户 没有听说过的物品推荐给目标用户。