基于内容的推荐算法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于内容的推荐算法(Content-Based Recommendation)1.基本思想

基本思想就是给用户推荐与他们曾经喜欢的项目内容相匹配的新项目。

基于内容的推荐的基本思想是:对每个项目的内容进行特征提取(FeatureExtraction),形成特征向量(Feature Vector);对每个用户都用一个称作用户的兴趣模型(User Profile)的文件构成数据结构来描述其喜好;当需要对某个用户进行推荐时,把该用户的用户兴趣模型同所有项目的特征矩阵进行比较得到二者的相似度,系统通过相似度推荐文档。

(基于内容的推荐算法不用用户对项目的评分,它通过特定的特征提取方法得到项目特征用来表示项目,根据用户所偏好的项目的特征来训练学习用户的兴趣模型,然后计算一个新项目的内容特征和用户兴趣模型的匹配程度,进而把匹配程度高的项目推荐给用户。)

2.基于内容的推荐层次结构图:

CB的过程一般包括以下三步:

(1)Item Representation:为每个item抽取出一些特征(也就是item的content 了)来表示此item;对应着上图中的Content Analyzer。

(2)Profile Learning:利用一个用户过去喜欢(及不喜欢)的item的特征数据,来学习出此用户的喜好特征(profile);对应着上图中的Profile Learner。

(3)Recommendation Generation:通过比较上一步得到的用户profile与候选item 的特征,为此用户推荐一组相关性最大的item。对应着上图中的Filtering Component。

3.详细介绍上面的三个步骤:

3.1 Item Representation

项目表示:对项目进行特征提取,比如最著名的特征向量空间模型,它首先将一份文本(项目)以词袋形式来表示,然后对每一个词用词频-逆向文档频率(TF-IDF)来计算权重,找出若干权重较大的词作为关键词(特征)。每个文本(项目)都可以表示成相同维度的一个向量

TF-IDF词频-逆文档频率计算:

TF 词项t在文档d中出现的次数,df 表示词项t在所有文档出现的次数,idf 为反向文档频率,N为文档集中所有文档的数目。

TF-IDF公式同时引入词频和反向文档频率,词频TF表示词项在单个文档中的局部权重,某一词项在文档中出现的频率越高,说明它区分文档内容的属性越强,权重越大。IDF表示词项在整个文档集中的全局权重,某一词项在各大文档都有出现,说明它区分文档类别属性的能力越低,权值越小。

TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。

加1是为了防止分母为0.

3.2 Profile Learning

用户兴趣模型表示:总结用户喜欢的所有项目的平均值,进而表示用户的兴趣。

假设用户u已经对一些item给出了他的喜好判断,喜欢其中的一部分item,不喜欢其中的另一部分。那么,这一步要做的就是通过用户u过去的这些喜好判断,为他产生一个模型。有了这个模型,我们就可以根据此模型来判断用户u是否会喜欢一个新的item。所以,我们要解决的是一个典型的有监督分类问题,理论上机器学习里的分类算法都可以照搬进这里。

简单地说,就是把用户所有浏览过的item分类,分成用户喜爱和不喜爱的两类,然后利用喜爱的这部分对用户进行建模。

下面我们简单介绍下CB里常用的一些学习算法:

3.2.1 最近邻方法(k-NearestNeighbor,简称KNN)

对于一个新的item,最近邻方法首先找用户u已经评判过并与此新item最相似的k 个item,然后依据用户u对这k个item的喜好程度来判断其对此新item的喜好程度。这种做法和CF中的item-based KNN很相似,差别在于这里的item相似度是根据item的属性向量计算得到,而CF中是根据所有用户对item的评分计算得到。

对于这个方法,比较关键的可能就是如何通过item的属性向量计算item之间的两两相似度。建议对于结构化数据,相似度计算使用欧几里得距离;而如果使用向量空间模型(VSM)来表示item的话,则相似度计算可以使用cosine。

3.2.2 Rocchio算法

Rocchio算法是信息检索中处理相关反馈(Relevance Feedback)的一个著名算法。比如你在搜索引擎里搜“苹果”,当你最开始搜这个词时,搜索引擎不知道你到底是要能吃的苹果,还是要不能吃的苹果,所以它往往会尽量呈现给你各种结果。当你看到这些结果后,你会点一些你觉得相关的结果(这就是所谓的相关反馈了)。然后如果你翻页查看第二页的结果时,搜索引擎可以通过你刚才给的相关反馈,修改你的查询向量取值,重新计算网页得分,把跟你刚才点击的结果相似的结果排前面。比如你最开始搜索“苹果”时,对应的查询向量是{“苹果” : 1}。而当你点击了一些与Mac、iPhone相关的结果后,搜索引擎会把你的查询向量修改为{“苹果” : 1, “Mac” : 0.8, “iPhone” : 0.7},通过这个新的查询向量,搜索引擎就能比较明确地知道你要找的是不能吃的苹果了。Rocchio算法的作用就是用来修改你的查询向量的:{“苹果”: 1}--> {“苹果”: 1, “Mac”: 0.8, “iPhone”:0.7}。

正如在本节开头所说,本节要解决的是一个典型的有监督分类问题。所以各种有效的分类机器学习算法都可以用到这里,下面列举几个常用的分类算法:

3.2.3 决策树算法(DecisionTree,简称DT)

当item的属性较少而且是结构化属性时,决策树一般会是个好的选择。这种情况下决策树可以产生简单直观、容易让人理解的结果。而且我们可以把决策树的决策过程展示给用户u,告诉他为什么这些item会被推荐。但是如果item的属性较多,且都来源于非结构化数据(如item是文章),那么决策树的效果可能并不会很好。

3.2.4 线性分类算法(LinearClassifer,简称LC)

相关文档
最新文档