一种融合协同过滤和内容过滤的混合推荐方法_高虎明

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

好。内容过滤的关键在于项目特征的提取、用户兴趣模型的建立与相似度的计算。 (1) 提取项目特征项目特征要求具有标志性, 特征的不同既可以区分项目又能反映用户的兴趣诉求。一个项目可以有多个标志性特征, 每个标志性特征又包含一些相区别的内容。例如, 电影的标志性特征包括类型、导演、演员、出品时间等, 对于类型这一特征所包含的相区别的内容有动作、励志、科幻、爱情等。提取的项目特征可以构建项目特征矩阵 ( 由项目特征与每个特征对应的内容组成), 也可以用来建立用
提出的
CF-IDF 方法使用余弦相似度衡量项目与用户之间的将领域分类模型上的概率分布引入到内容过滤的算法中, 提升了推荐精度。另外, 为了充分发挥协同过滤和内容过滤各自的优势, 学者们提出将二者混合的混合推荐策略。曹毅
[12]
对协同过滤和内
容过滤的预测值进行加权求和, 在推荐系统运行过程中, 通过权重参数对预测值进行动态调节, 以期在不同阶段采取不同的推荐方法。此方法的优点是能发挥协同过滤各自的优势, 在推荐系统运行早期, 由于评分数据比较稀疏, 利用内容过滤推荐算法, 而当中后期, 评分数据比较稠密后再着重利用协同过滤推荐算法。但此方法也存在弊端, 即推荐系统运行不同时期的界定以及权重参数如何合理地、动态地自我调节都是必须要解决的关键问题。李忠俊等[13]通过内容过滤预测用户对所有项目的评分, 构造预测误差矩阵, 并利用协同过滤计算误差矩阵的空缺值, 结合预测值与误差值获得用户对未知项目修正的预测评分。该方法虽然能对基于内容推荐算法的预测评分进行有针对的修正, 但是对同一项目评分误差相似的用户兴趣不一定相似, 所以评分矩阵由于可以反映用户的兴趣偏好而具有协同功能, 但评分差值却不一定有。因此, 将协同过滤算法应用在误差矩阵上来计算误差偏差是有缺陷的。陈天昊等[14]先用协同过滤推荐算法对当前用户推荐, 并得到当前用户的推荐项目集, 再利用内容过滤滤除掉与用户兴趣不匹配的项目, 得到最终优化后的推荐项目。此方法虽然能有针对地滤除掉与用户兴趣存在偏差的项目, 但是这样做将使推荐结果过于单调且缺乏新颖, 不能满足用户的多样化需求, 也不能引发用户新的兴趣。本文从寻找可信邻居出发, 将基于内容过滤的推荐方法融入到协同过滤相似邻居的寻找中, 提出一种融合协同过滤和内容过滤的混合推荐方法。该方法以基于相似用户的协同过滤为基础, 在计算用户相似度时, 考虑到让两个用户对有争议的项目达成共识会比对广受欢迎的项目达成共识更有价值这一道理
研究论文
一种融合协同过滤和内容过滤的混合推荐方法
高虎明赵凤跃 (天津财经大学商学院天津 300222) 摘要: 【目的】探索协同过滤与内容过滤新的融合方法, 提高个性化推荐方法的推荐准确度。【方法】提出项目热度计算方法并对 Pearson 相关系数算法进行改进, 建立当前用户与其邻居的兴趣模型, 对邻居用户进行过滤, 由最终得到的可信邻居对当前用户进行推荐。【结果】在 MovieLens 1M 电影评分数据集上的实验结果表明, 提出的混合推荐方法推荐效度要好于现存的两种混合方法。【局限】在为用户建立兴趣模型时, 项目的不同标志性特征需要人为抽取, 且对于项目的标志性特征个数及其在用户的兴趣中所占的权重分配问题, 不同的研究者可能会有不同的见解。【结论】本文提出的混合推荐方法可有效提高个性化推荐的准确度。关键词: 个性化推荐协同过滤内容过滤可信邻居项目热度兴趣模型分类号 : TP391
1
引
言
果大打折扣。内容过滤是建立在对项目内容信息进行分析和特征提取的基础之上。因此, 相对于协同过滤对评分数据的依赖性要小得多。其优点是能推荐没有评分的新项目且能针对用户兴趣偏好非常直观地进行推荐; 缺点是要求项目具有良好的结构性以便于特征的提取, 另外完全进行项目特征匹配, 推荐结果往往缺乏新颖性[2]。
[11] [10] [9]
2015 年
第6期
似用户的可信性。另外基于内容过滤的思想, 通过对初步得到的相似用户进行分类并分别建立他们与目标用户的兴趣模型, 通过兴趣模型滤除与目标用户兴趣迥异的邻居, 由最终得到的可信邻居对当前用户进行推荐。本文提出的混合推荐方法的优势主要体现在将内容过滤应用在协同过滤可信邻居的寻找中, 而不是推荐项目的过滤中, 这样既缓解了由于评分矩阵稀疏而导致的利用协同过滤寻找相似用户困难的缺陷, 也避免了利用内容过滤推荐结果缺乏新颖的固有弊端。另外, 通过对协同过滤推荐算法中的 Pearson 相关系数进行优化, 增加了相似用户的可信度。
hp
N
r i,p
i 1
NБайду номын сангаас
( h p ＞ 0)
(1)
其中, N 表示用户总数(包括未对项目 p 评分的用户), ri,p 表示用户 i 对项目 p 的评分( i 1…N); 在计算评分和时, 如果用户 i 对项目 p 没有评分记录, 则跳过该用户; 可知, 对项目进行评分的人越多且评分越高, 则项目越热, 热度的值域为: 0＜hp＜Max{ ri,p}。常用的计算用户相似性的方法为 Pearson 相关系数。给定用户集 U、项目集 P 以及用户对项目的评分矩阵 R, ru 表示用户 u 对项目 p 评分的平均值, 则用
在寻找相似用户集时发现, 两个用户对有争议的项目达成共识会比对热门项目达成共识更有价值, 但现有的相似度计算方法无法将这种情况考虑在内。为了寻找对推荐结果更有价值的相似用户, 笔者对 Pearson 相关系数(公式(2))进行改进, 将项目热度 hp 以参数的形式加入到相似度计算公式中, 以降低热门项目对寻找相似用户的相对重要性。优化后的相似度计算公式如下:
通讯作者 : 赵凤跃 , ORCID: 0000-0001-9607-3367, E-mail: foreverzfy3@。
20
现代图书情报技术
总第 259 期
求缓解评分矩阵的稀疏问题[6-8]。对基于内容过滤算法的改进与应用方面, 饶俊阳等将语义相似度模型引入基于内容过滤的推荐系统中, 计算用户和项目之间的语义相似度, 提高了推荐效果。 Goossen 等相似度。曾春等
XIANDAI TUSHU QINGBAO JISHU
, 将
项目的热度属性引入到相似度计算公式中, 以提高相
21
研究论文
户 a 和用户 b 的相似度表示如下[15]:
sim(a, b)
进行特征提取形成特征矩阵, 利用项目的特征矩阵与用户–项目评分矩阵对用户构建兴趣模型来描述其喜
(2)
pP (ra,p ra)(rb,p rb) pP (ra,p ra )2 pP (rb,p rb )2
互联网技术的迅猛发展把人们带进了信息爆炸时代。网络在为用户提供海量资源的同时, 也给用户获取真正感兴趣的信息与服务带来困难。另外, 信息爆炸也使得大量少人问津的信息成为网络中的 “ 暗信息”, 无法被一般用户获取, 这对于用户对信息的诉求与信息本身的共享都是不利的[1]。推荐系统的应用成为过滤信息的有效方法。然而 , 如果推荐质量差, 推荐系统不但不能迎合用户, 反而适得其反, 因此如何提高个性化推荐质量, 已成为商家与学者需要解决的问题。典型的个性化推荐技术主要有协同过滤与内容过滤两种。协同过滤分为基于用户的协同过滤和基于项目的协同过滤两种。协同过滤的优点是在评分矩阵较密集的情况下推荐效果好, 并且除了用户评分, 不需要知道关于项目的其他信息, 这样的好处是避免付出很大的代价向系统提供详细且实时更新的项目描述信息; 但协同过滤主要的缺点是过于依赖评分矩阵, 在数据稀疏的情况下, 用户相似度计算不准确, 推荐效
sim (a, b) 1 pP h (ra,p ra )(rb,p rb) p (3)
pP (ra,p ra )2 pP (rb,p rb)2
户的兴趣模型, 因为用户对项目的兴趣可以体现在他对项目特征的偏好上, 所以可以根据用户过去对项目的评分矩阵, 统计用户好评项目的各个标志性特征在对应内容上的分布来建立用户的兴趣模型。下面以用户 – 电影评分矩阵为例 , 具体阐述用户的兴趣模型建立过程。 (2) 建立用户兴趣模型收集用户对电影的评分得到用户 – 电影评分矩阵。假设对于 5 分制的评分矩阵 (评分范围为 1-5), 如果用户对某一部电影的评分大于等于 3, 则认为他喜欢这部电影。根据用户喜欢的电影特征建立用户的兴趣链表。电影的标志性特征有很多, 包括电影的类型、导演、演员、出品时间等。这里以挖掘用户喜欢的电影类型为例说明。电影的类型包括动作、励志、科幻、爱情等, 每部电影在存入影视库时都有相应的标签标明。对于当前用户的评分数值大于等于 3 的电影, 逐个从数据库中获取这些电影的信息, 记录这些电影所属的类型, 并统计每种类型出现的次数, 再按次数由高到低进行排名, 形成该用户的电影类型属性兴趣链表, 如表 1 所示:
[15]
3
融合协同过滤和内容过滤的混合推荐方法
3.1
协同过滤寻找邻居用户协同过滤是一种传统而有效的推荐方法, 也是如
今应用最广泛的推荐方法。随着学者们对其不断的研究和深入, 传统的协同过滤推荐方法可以细分为两种: 基于用户的协同过滤与基于项目的协同过滤。本文提出的混合算法是以基于用户的协同过滤算法为基础 , 计算用户之间的相似度。在计算过程中提出项目热度概念并对相似度计算公式进行优化。 (1) 项目热度与优化的 Pearson 相关系数项目热度指项目受欢迎程度。广受欢迎, 则项目的热度越高, 反之亦然; 一个项目的热度可以体现在对项目进行评分用户的数量和对应的综合评价上。项目的热度可以根据获取的用户–项目评分矩阵来定义。为此, 笔者提出项目 p 的热度 h p 的计算公式如下:
表1 用户感兴趣的电影类型链表
出现的次数
从公式(3)中可以看出, 项目热度越高, 对于用户 a 和 b 之间相似性计算作用越小。利用优化的 Pearson 相关系数计算当前用户与其余用户的相似度。由 Top-N 原则选出当前用户的 N 位邻居。 (2) 相似用户的分类在用笔者改进的用户相似度计算公式 ( 公式 (3)) 计算得到的相似用户集中 , 并不是对所有的用户都能带来很好的推荐结果。为了更好地区分用户, 笔者将相似用户集中的用户划分为 A、B、C 三类。其中 A 是指兴趣与目标用户非常相似的用户 , 称作 “真邻居”; B 是指喜欢的项目比较分散, 并且兴趣与目标用户差异很大的用户 , 称作“假邻居 ”, 这类用户之所以会通过相似度检验出现在相似用户集中 , 主要是评分矩阵比较稀疏所致 , 由这样的用户产生的推荐是非常危险的 ; C 是指兴趣与目标用户整体上基本一致 , 但自己也有小异的用户 , 称作 “ 潜力邻居 ”, 这样的用户生成的推荐容易带来惊喜 , 引发目标用户新的兴趣。接下来要做的就是滤除邻居 B, 保留邻居 A 与邻居 C, 从而在不失惊喜度的情况下, 提高推荐结果的准确度。而区分这三种相似用户的方法就是利用内容过滤为相似用户集中每一位用户与目标用户分别建立各自的兴趣模型, 通过比较兴趣相似度来区分。 3.2 内容过滤滤除 “假邻居 ” 利用内容过滤滤除“假邻居”, 需要对项目的内容
2
研究背景
传统的个性化推荐方法虽然被广泛应用, 但并不
完美, 许多学者开始从不同角度对个性化推荐方法进行研究, 且大多集中在对协同过滤和内容过滤的推荐方法的改进研究。对协同过滤的改进方面, 廉涛等[3] 将潜在因素模型(LDA 主题模型)与协同过滤相结合。王海艳等[4]基于 Beta 信任模型构建邻居用户的可信联盟, 利用可信联盟进行服务推荐。许智宏等[5]综合考虑项目相似度和类别相似度提出基于项目综合相似度的协同过滤推荐算法, 还有一些研究应用不同的理论对项目进行聚类来对同一类内未评分项目进行预测以