协同过滤推荐算法精品PPT课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
协同过滤这一概念首次于1992 年由Goldberg、Nicols、Oki及 Terry提出,应用于Tapestry系统, 该系统仅适用较小用户群(比如, 某一个单位内部),而且对用户有过多要求(比如,要求用户显式的 给出评价).目前,许多电子商务网站都已经使用了推荐系统, 如 Amazon、CDNow、Drugstore,当当网上书店和Moviefinder 等。
基于项目的协同过滤推荐算法认为, 用户对不同项目的评分存 在相似性, 当需要估计用户对某个项目的评分时, 可以用户对该项 目的若干相似项目的评分进行估计.
计算机应用技术
一 算法简介
1. 存在两个问题:
稀疏性: 在推荐系统中,每个用户涉及的信息相当有限 ,用户所评价或 者购买的产品占产品总数的比例很小,造成用户—项目偏好矩 阵非常稀疏 ,很难找到相似用户 ,推荐性能可能很差。
协同过滤推荐算法
2011年11月17日
一:协同过滤算法综述 二:在个性化服务中的应用
计算机应用技术
综述
➢ 算法简介 ➢ 相似性比较方法 ➢ 用户-项目矩阵稀疏性问题及解决办法 ➢ 冷启动问题 ➢ 推荐速度 ➢ 推荐策略 ➢ 评估方法
计算机应用技术
一 算法简介
随着互联网的普及,网络资源的激增,用户很难快速找到需要 的信息。为了提供精确而又快速的推荐, 研究者提出了多种推荐算 法, 其中协同过滤推荐算法是应用最为成功的一种。
1.1 BP 神经网络
BP 神经网络对复杂的输入输出关系有比较强大的学习和建模能 力,能够有效地处理非完整信息。BP神经网络是一个3层网络,分别为 输入层、隐含层和输出层.
计算机应用技术
三 : 用户-项目矩阵稀疏性问题及解决办法
BP 神经网络把用户对各个项目的评分看作训练样本, 分别输入到输入 层的各个单元中; 这些单元经过加权, 输出到隐含层的各个单元; 隐含层 的加权输出再经过一次加权作为输出层的单元输入; 最后由输出层产生给 定样本的预测值.这种矩阵填充技术对噪声数据有较强的承受能力, 可以有 效降低用户-项目矩阵的稀疏性, 达到提高推荐精度的目的. 然而,BP 算法 的缺点为存在随着训练时间的增加, 收敛速度有变慢的趋势,以致会延长最 近邻居的查找时间.
扩展性: 是指发现相似关系的运算法则通常需要很长的计算时间 ,并且 时间会随着用户数目和产品数目的增加而增加 ,特别是在在线 实时推荐中 ,这是一个急需解决的问题。
2. 基于协同过滤技术的推荐过程可分为 3个阶段:
数据表述;发现最近邻居;产生推荐数据集。
计算机应用技术
二:相似性比较方法
相似性计算是协同过滤推荐算法中最关键的一 步,传统的相似度计算方法有以下几种: 1.余弦相似性
计算机应用技术
一 算法简介
目前主要有两类协同过滤推荐算法: 基于用户的协同过 滤推荐算法和基于项目的协同过滤推荐算法.
基于用户的协同过滤推荐算法基于这样一个假设, 即如果用户 对一些项目的评分比较相似, 则他们对其他项目的评分也比较相似. 算法根据目标用户的最近邻居(最相似的若干用户)对某个项目的评 分逼近目标用户对该项目的评分.
计算机应用技术
三: 用户-项目矩阵稀疏性问题及解决办法
1. 矩阵填充技术
最简单的填充办法就是将用户对未评分项目的评分设为一个固 定的缺省值, 或者设为其他用户对该项目的平均评分. 然而用户对 未评分项目的评分不可能完全相同,这种办法不能从根本上解决稀疏 性问题.
能够产生较理想的推荐效果, 矩阵填充技术主要有以下几类:
计算机应用技术
三 : 用户-项目矩阵稀疏性问题及解决办法
1.2 Naive Bayesian 分类方法
Naive Bayesian 分类方法基于概率模型进行分类,可以使用该 方法估算一个实例属于某一类的概率, 在得到某一个项目所属的分 类之后, 可以利用此分类中其他项目的评分情况来预测未评分项目 的评分, 从而可以填充用户-项目矩阵, 降低稀疏性.
修正的余弦相似性方法在余弦相似性基础上, 减去了用户对项目 的平均评分, 然而该方法更多体现的是用户之间的相关性而非相似性, 相关性和相似性是两个不同的概念,相似性反映的是聚合特点, 而相关 性反映的是组合特点;
相似相关性方法, 依据双方共同评分的项目进行用户相似性评价, 如果用户间的所有评分项目均为共同评分项目, 那么相似相关性和修 正的余弦相似性是等同的. 用户对共同评分项目的评分确实能很好地 体现用户的相似程度, 但由于用户评分数据的极端稀疏性, 用户间共 同评分的项目极稀少, 使得相似相关性评价方法实际不可行.
1.3 基于内容的预测
基于内容的预测又称基于属性的预测或基于语义的预测, 该方法 根据项目的属性联系以及项目所处的地位、相互关系和项目元信息 等内容计算项目之间的内容相似性, 而不依赖于用户对项目的评分.
计算机应用技术
三 用户-项目矩阵稀疏性问题及解决办法
得到项目之间的内容相似性后, 选择与目标项目相似性最大的 若干个项目进行评分预测, 用预测评分填充用户-项目矩阵中的空 项, 降低其稀疏性. 由于不同类别的项目之间在属性描述上有较 大差别, 因此基于语义的方法无法计算跨类别的项目之间的相似 性, 也就无法进行跨类别的评分预测.另外基于语义的相似性计算 需要提取项目的属性特征,涉及到领域知识, 应用面较窄.
计算机应用技术
二:相似性比较方法
3. 相关相似性
设经用户i和用户j共同评分的项目集合用Iij表示,则用户i 和用户j 之间的相似性sim ( i, j )通过Pearson 相关系数度 量:
计算机应用技术
二:相似性比较方法
余弦相似性度量方法把用户评分看作一个向量, 用向量的余弦夹 角度量用户间的相似性, 然而没有包含用户评分的统计特征;
把用户评分看作n 维项目空间上的向量, 用户间的相似性通 过向量间的余弦夹角度量, 设用户i和用户j在n 维Baidu Nhomakorabea目空间上 的评分分别表示为向量, 则用户i和用户j之间的相似性为:
计算机应用技术
二:相似性比较方法
2. 修正的余弦相似性
余弦相似性度量方法中没有考虑不同用户的评分尺度问题, 修正的余弦相似性度量方法通过减去用户对项目的平均评分来 改善上述缺陷。
相关文档
最新文档