5- 基于隐反馈的协同过滤推荐模型——【大数据 精品讲义】
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[1] Hu Y, Koren Y, Volinsky C. Collaborative Filtering for Implicit Feedback Datasets[C]//ICDM. 2008, 8: 263-272.
1.模型简介
• 模型选型
WR-MF模型解决了隐反馈中对负反馈数据建模的问题,将隐反馈中的正样本和负 样本统一建模,为隐反馈推荐算法的发展打下了重要基础。
1.模型简介
• 隐反馈来自百度文库荐算法
1.模型简介
• 背景介绍
一般而言,用户基于物品的显性反馈是可以出显示出用户对物品的喜好程度的。 但是现实生活中其实还存在着很多的隐性反馈(比如购买记录、浏览记录,搜索记录 等),这一类数据普遍都存在一个缺陷,即它们是很难有证据显示出用户对该物品的 不喜欢程度毕竟用户的打分才是最直接表示喜好的一种行为。所以如何处理隐性数据 ,以及如何显示出用户对物品的喜好程度,成为了隐反馈推荐中亟待解决的问题。
④ 把x和y带入损失函数,使得损失函数最小。重复上面2和3步骤,直到达到自己想要 的损失函数的最低值或者达到更新多少次的要求。
3.模型运行
• 数据集划分
根据用户的交互时间排序 ,采取leave one out策 略,对于每一位用户,我 们将其交互记录中最新的 一条作为测试集,剩下的 数据作为训练集。
1.模型简介
• 模型选型
大多数推荐系统主要关注用户的显示反馈行为,如评分等,忽略用户的隐式反馈 信息,如浏览记录等。 但是,显示反馈信息并不总是容易得到,在很多情况下,隐 反馈则很容易进行收集。传统的基于显示反馈的方法仅仅考虑了评分项,忽略了隐反 馈中的大量缺失项目,明显不适用于隐反馈的推荐中。
为此,Hu等人在论文Collaborative Filtering for Implicit Feedback Datasets (ICDM ,2008)中提出WR-MF(Weighted Regularized Matrix Factorization)模型[1]。WR-MF模 型引入了用户的喜好程度和置信程度来建模隐反馈数据,同时设计了交替最小二乘法 ( alternating least squares ,ALS)优化算法求解模型,效果取得到明显的提升
2.模型结构
• 参数解释
符号
m n X Y
解释
评分数据|或者次数的数据 用户u对物品i的喜好程度
用户数量 物品数量 用户特征向量的矩阵(每一行代表用 户, m* f ,f是潜在特征向量的大小) 物品特征向量的矩阵(每一列代表物 品,n* f)
2.模型结构
• 模型框架
由于隐性反馈数据是不能显示用户的喜好程度的,毕竟用户的打分才是最直接表 示喜好的一种行为。所以如何处理隐性数据,以及如何显示出用户对item的喜好程度 ,成为了隐反馈推荐要研究的重要问题。
3.模型运行
• 数据集
我们使用Movielens-100k来评价模型的表现 。MovieLens-100k 是一份被广泛使 用于验证 CF 算法表现效果的电影评分数据集。MovieLens 具有多个版本,在ALS 实验中我们选择。在这个版本的 MovieLens 数据集中,包含943个用户对于1682部 电 影 , 拥 有 100000 次 评 分 记 录 。 数 据 集 地 址 : https://grouplens.org/datasets/movielens/。对于其中的评分项,我们将其分数全部置1 ,仅代表用户与该物品发生过交互。
5 基于隐反馈的协同过滤推荐模型
目录
一. WR-MF( Weighted Regularized Matrix Factorization )模型
01 模型简介 02 模型结构 03 模型运行 04 模型总结
1.模型简介
• 显反馈与隐反馈
协同过滤是指在预测一个用户对物品的喜好程度时,不仅仅依赖于该用户的历史记 录,同时也要考虑其他用户的历史记录。其基本假设是兴趣相投、拥有共同经验的群 体未来会喜欢相似的物品。协同过滤建模主要使用用户对物品的历史交互数据,也称 为反馈数据。根据交互行为是否反映用户对物品的喜好程度可以把反馈数据分为两类 :①显式反馈,通常是指评分,直接反映用户对物品的喜好程度,例如豆瓣网提供用 户对电影1~5的评分;②隐式反馈,例如点击、购买、看视频、听音乐等行为,其不 能直接揭示用户是否喜欢一个物品,但能侧面反映出用户对物品的兴趣。
1.模型简介
相比于显式反馈,互联网内容提供商更容易获得隐式反馈,例如电商/视频网站可 以从服务器日志中直接获得用户的点击/观看历史。由于不需要用户显式提供打分,隐 式反馈中的选择偏差较小,而且其规模相对较大。因此隐反馈推荐的应用更为广泛。 与显式反馈类似,可以将隐式反馈数据描述为一个二维矩阵Y;不同的是这里Y中的 每一个元素不是一个具体的打分,而是代表用户是否选择了某一物品:1代表选择,0 代表没有选择。因此,建模隐式反馈更像是一个二分类问题——预测用户选择一个物 品的概率。
WR-MF模型把隐性反馈数据转换成了两个维度,一个是喜好程度(preference),代表 用户是否喜好该物品,另一个是置信程度(confidence),表示用户对物品喜好的置信程 度。以此,得出最后的分数。
2.模型结构
2.模型结构
2.模型结构
2.模型结构
• 更新过程
2.模型结构
然后,令导数为0可得:
由于在实际应用中,用户和物品的数据量是十分巨大的。为此,作者对于模型的 优化并没有采用随机梯度下降等算法进行优化,而是设计了线性时间复杂度的ALS优 化算法,使得其对于大型稀疏数据仍然能保持较好的预测性能,加快了模型的收敛速 度,在工业界和大规模数据中也得到了广泛的应用。
目前,在Apacha Mahout和Spark中均提供了ALS算法和并行计算的支持,通过 Hadoop(https://mahout.apache.org/users/recommender/intro-als-hadoop.html )平台的支持 ,我们可以很容易的实现工业级别下的个性化推荐系统的搭建,
1.模型简介
• 模型选型
WR-MF模型解决了隐反馈中对负反馈数据建模的问题,将隐反馈中的正样本和负 样本统一建模,为隐反馈推荐算法的发展打下了重要基础。
1.模型简介
• 隐反馈来自百度文库荐算法
1.模型简介
• 背景介绍
一般而言,用户基于物品的显性反馈是可以出显示出用户对物品的喜好程度的。 但是现实生活中其实还存在着很多的隐性反馈(比如购买记录、浏览记录,搜索记录 等),这一类数据普遍都存在一个缺陷,即它们是很难有证据显示出用户对该物品的 不喜欢程度毕竟用户的打分才是最直接表示喜好的一种行为。所以如何处理隐性数据 ,以及如何显示出用户对物品的喜好程度,成为了隐反馈推荐中亟待解决的问题。
④ 把x和y带入损失函数,使得损失函数最小。重复上面2和3步骤,直到达到自己想要 的损失函数的最低值或者达到更新多少次的要求。
3.模型运行
• 数据集划分
根据用户的交互时间排序 ,采取leave one out策 略,对于每一位用户,我 们将其交互记录中最新的 一条作为测试集,剩下的 数据作为训练集。
1.模型简介
• 模型选型
大多数推荐系统主要关注用户的显示反馈行为,如评分等,忽略用户的隐式反馈 信息,如浏览记录等。 但是,显示反馈信息并不总是容易得到,在很多情况下,隐 反馈则很容易进行收集。传统的基于显示反馈的方法仅仅考虑了评分项,忽略了隐反 馈中的大量缺失项目,明显不适用于隐反馈的推荐中。
为此,Hu等人在论文Collaborative Filtering for Implicit Feedback Datasets (ICDM ,2008)中提出WR-MF(Weighted Regularized Matrix Factorization)模型[1]。WR-MF模 型引入了用户的喜好程度和置信程度来建模隐反馈数据,同时设计了交替最小二乘法 ( alternating least squares ,ALS)优化算法求解模型,效果取得到明显的提升
2.模型结构
• 参数解释
符号
m n X Y
解释
评分数据|或者次数的数据 用户u对物品i的喜好程度
用户数量 物品数量 用户特征向量的矩阵(每一行代表用 户, m* f ,f是潜在特征向量的大小) 物品特征向量的矩阵(每一列代表物 品,n* f)
2.模型结构
• 模型框架
由于隐性反馈数据是不能显示用户的喜好程度的,毕竟用户的打分才是最直接表 示喜好的一种行为。所以如何处理隐性数据,以及如何显示出用户对item的喜好程度 ,成为了隐反馈推荐要研究的重要问题。
3.模型运行
• 数据集
我们使用Movielens-100k来评价模型的表现 。MovieLens-100k 是一份被广泛使 用于验证 CF 算法表现效果的电影评分数据集。MovieLens 具有多个版本,在ALS 实验中我们选择。在这个版本的 MovieLens 数据集中,包含943个用户对于1682部 电 影 , 拥 有 100000 次 评 分 记 录 。 数 据 集 地 址 : https://grouplens.org/datasets/movielens/。对于其中的评分项,我们将其分数全部置1 ,仅代表用户与该物品发生过交互。
5 基于隐反馈的协同过滤推荐模型
目录
一. WR-MF( Weighted Regularized Matrix Factorization )模型
01 模型简介 02 模型结构 03 模型运行 04 模型总结
1.模型简介
• 显反馈与隐反馈
协同过滤是指在预测一个用户对物品的喜好程度时,不仅仅依赖于该用户的历史记 录,同时也要考虑其他用户的历史记录。其基本假设是兴趣相投、拥有共同经验的群 体未来会喜欢相似的物品。协同过滤建模主要使用用户对物品的历史交互数据,也称 为反馈数据。根据交互行为是否反映用户对物品的喜好程度可以把反馈数据分为两类 :①显式反馈,通常是指评分,直接反映用户对物品的喜好程度,例如豆瓣网提供用 户对电影1~5的评分;②隐式反馈,例如点击、购买、看视频、听音乐等行为,其不 能直接揭示用户是否喜欢一个物品,但能侧面反映出用户对物品的兴趣。
1.模型简介
相比于显式反馈,互联网内容提供商更容易获得隐式反馈,例如电商/视频网站可 以从服务器日志中直接获得用户的点击/观看历史。由于不需要用户显式提供打分,隐 式反馈中的选择偏差较小,而且其规模相对较大。因此隐反馈推荐的应用更为广泛。 与显式反馈类似,可以将隐式反馈数据描述为一个二维矩阵Y;不同的是这里Y中的 每一个元素不是一个具体的打分,而是代表用户是否选择了某一物品:1代表选择,0 代表没有选择。因此,建模隐式反馈更像是一个二分类问题——预测用户选择一个物 品的概率。
WR-MF模型把隐性反馈数据转换成了两个维度,一个是喜好程度(preference),代表 用户是否喜好该物品,另一个是置信程度(confidence),表示用户对物品喜好的置信程 度。以此,得出最后的分数。
2.模型结构
2.模型结构
2.模型结构
2.模型结构
• 更新过程
2.模型结构
然后,令导数为0可得:
由于在实际应用中,用户和物品的数据量是十分巨大的。为此,作者对于模型的 优化并没有采用随机梯度下降等算法进行优化,而是设计了线性时间复杂度的ALS优 化算法,使得其对于大型稀疏数据仍然能保持较好的预测性能,加快了模型的收敛速 度,在工业界和大规模数据中也得到了广泛的应用。
目前,在Apacha Mahout和Spark中均提供了ALS算法和并行计算的支持,通过 Hadoop(https://mahout.apache.org/users/recommender/intro-als-hadoop.html )平台的支持 ,我们可以很容易的实现工业级别下的个性化推荐系统的搭建,