基于用户兴趣的个性化推荐系统比较研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于用户兴趣的个性化推荐系统比较研究
尚鲜连;陈静;张苏
【摘要】个性化推荐系统是解决信息过载的有效途径之一,已广泛应用于电子商务等领域。
介绍推荐系统及其组成部分,就个性化推荐系统的几个关键技术进行了阐述和比较,总结推荐系统主要的评价指标,并对未来可能的发展方向进行了初步预测。
%Personalized recommendation system is one of the effective ways to solve information overload.It is widely used in areas such as E-commerce.First,the recommendation system and their components are introduced in this article.Then it expounds respectively key technologies in the system and analyzes its own advantages and disadvantages.Every recommendation method is compared.The main evaluation methods are exhibited.Finally, the article points out the development trend of the recommendation system in the future.
【期刊名称】《苏州市职业大学学报》
【年(卷),期】2013(000)003
【总页数】5页(P7-11)
【关键词】推荐系统;个性化;用户兴趣;信息过载
【作者】尚鲜连;陈静;张苏
【作者单位】苏州市职业大学计算机工程学院,江苏苏州 215104;苏州市职业大学计算机工程学院,江苏苏州 215104;苏州市职业大学计算机工程学院,江苏苏州 215104
【正文语种】中文
【中图分类】TP391
互联网的迅速发展带来了大量的信息,但是用户在面对大量的信息时无法真正获得自己明确需要的那部分信息,同时,用户需求还有扩展的不确定性和模糊性,即潜在需求需要被挖掘出来,因此对信息的使用率反而降低了,这就是信息过载.
如何从过载的信息中主动根据用户特征有针对性地为用户推送其感兴趣的信息,这就是个性化推荐系统所要完成的主要任务.个性化推荐系统目前已应用到很多领域,最典型的应用领域是电子商务领域.近年来已成为研究的热点,本文就个性化推荐
系统的几个关键技术进行了阐述和比较,并对其发展趋势进行了初步探讨.
目前,被广泛接受的是1997年由Resnick和Varian[1]给出的推荐系统的定义:“它是利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程”.主要由用户建模、推荐对象建模和
推荐算法3个模块组成.
在推荐系统中,首先将用户模型中的用户兴趣需求信息和推荐对象模型中的相关特征信息进行匹配,并且用推荐算法进行计算筛选,根据筛选的结果找到用户可能感兴趣的推荐对象;最后推荐给用户.
推荐系统的形式化定义为[3]
式中:C,S均为集合;C是所有用户的集合;S是所有可以推荐给用户的对象的
集合.现实生活中,这两个集合的规模一般都很大,如百千万的顾客以及千万种商
品等.设u( )是效用函数,能计算对象s对用户c的推荐度(如提供商的可靠性和产
品的可得性等),即u:C×S→R,R是一定范围内的全序的非负实数,推荐要研究的问题就是找到推荐度R最大的那些对象S*.
通用的推荐系统模型流程[2]如图1所示.
用户模型是个性化推荐系统的基础,能完成用户兴趣的获取、表示、存储和更新等基础操作,更重要的是能进行智能化的推理,能对用户进行识别和分类,分析理解用户的需求和任务,更好地实现用户需求.推荐对象模型针对不同的领域进行推荐计算,将用户模型中的用户描述文件内的兴趣偏好和推荐对象中的描述文件内的对象特征进行对比计算,得到推荐对象的推荐度,由于涉及到描述文件的对比计算,所以二者的描述文件密切相关.
整个推荐系统中最核心和关键的部分是推荐算法,对推荐系统类型和性能的优劣起着重要的影响.目前,对推荐算法的研究比较热门,但对其分类的标准还不统一,很多学者从不同的角度对推荐算法进行研究.公认的主流推荐算法包括:基于内容的推荐、基于协同过滤的推荐、基于图结构的推荐、混合推荐等.
基于内容的推荐(content-based recommendation)起源于信息获取领域,是信息检索领域的重要研究内容之一.是计算系统拥有的资源和用户兴趣之间的相似匹配度,把结果中最相似的资源推荐给用户,如新闻、博客推荐等,相对于多媒体信息的特征提取来说,基于内容的特征提取更容易一些.计算其相似度的一个函数[4]为
式中score的计算可以使用如下常规的余弦定律计算[5]
对计算结果进行排序,将计算结果中最大的前N项作为推荐结果反馈给用户.
基于内容的推荐优点在于比较简单和有效,不需要用户的历史数据,有比较成熟的分类学习方法提供支持,没有冷启动和稀疏问题.缺点是受推荐对象特征能力的限制,对用户兴趣的准确描述可能受到影响.比如多媒体数据,没有有效的特征提取方法,用户的满意度将受到影响.
协同过滤推荐(collaborative filtering recommendation)是推荐系统中应用最广泛和成功的技术.1992年由Goldberg等学者在研究报告中正式提出.典型的协同过滤推荐系统有Grundy书籍推荐系统、Tapestry邮件处理系统,GroupLens和
Ringo等.
协同过滤推荐一般分为基于用户的协同推荐(user-based collaborative filtering)、基于项目的协同推荐(item-based collaborative filtering)和基于模型的协同推荐(model-based collaborative filtering).
基于用户的协同推荐又叫基于内存的协同推荐(memory-based collaborative filtering),该推荐算法的基本思想是用户选择推荐对象,是在朋友推荐的对象范
围内选择的.即如果用户i和用户j的行为相似性接近,则可以把用户i感兴趣的资源信息推荐给用户j.基于用户的协同推荐工作分两个步骤,第一步是查询最近邻居,第二步是产生推荐,其工作过程如图2所示.
查询最近邻居是最主要的工作.用户之间的相似度越高,用户就越相近.把用户i和
用户j之间的相似性记为sim(i,j).每个用户对推荐对象的评分可看作是一个m维向量,度量用户间的相似度就可以用不同的m维向量间的相似度进行度量.用户间相似性的度量方法主要有3种[6-7].
1) 余弦相似性(cosine).设用户i和用户j在m维对象空间上的评分表示为向量i、j,则sim(i,j)的相似性计算方法为
2) 相关相似性(correlation).设Ii,j表示用户i和用户j共同评分的对象集合,则
用户i和用户j之间的相似性通过Pearson相关系数度量为
式中:Ri,c为用户i对推荐对象c的评分;分别为用户i和用户j的平均评分.
3) 修正余弦函数相似性(adjusted cosine).修正了在余弦相似度量方法中不同用户的评分尺度欠考虑问题.设用Ii,j表示用户i和用户j共同评分过的推荐对象集合,用户i和用户j评分过的推荐对象集合分别用Ii和Ij表示,则用户i和用户j之间
的相似性sim(i,j)为
式中:Ri,c为用户i对推荐对象c的评分;分别为用户i和用户j的平均评分.
经过上述方法的计算可以得到最近邻居,进一步产生相应的推荐,其算式为
式中:NNu为用户u的最近邻居集合;Pu,i为用户u对推荐对象i的预测评分;sim(u,n)为用户u和用户n之间的相似性;Rn,i为用户n对推荐对象i的评分
分别为用户u和用户n对推荐系统的平均评分.
所有未评分的推荐对象经用户的预测评分后,预测评分最高的前N项将作为推荐
对象反馈给当前用户.
基于协同过滤的推荐优点是对复杂的非结构化的对象可以进行处理,如多媒体数据.能发现用户的新兴趣,随用户数的增多推荐性能不断提升.其缺点是存在冷启动问
题和稀疏性问题,推荐质量取决于历史数据集.
基于图结构的推荐需要预处理数据集,将评分数据转换为二部图(bipartite graph)结构.用户和项目可以表示为图中的节点,用户对项目的评价可以表示为边,用户–项目矩阵则可建模为一个二部图.
借鉴动态网络资源分配过程,文献[8]提出了基于二部图结构分析的推荐算法.该方
法首先需要建立推荐二部图.推荐系统中n个用户和m个项目为二部图中的n+m
个节点,若用户i偏好项目j,则存在边,令ai,j=1,否则令ai,j=0.二部图建好后,计算资源分配矩阵W.wi,j表示项目j到项目i的资源分配权重,其计算公式为
式中Dj表示节点j的度.
进一步针对指定用户计算各项目的资源分配.令fi=(ai,1,ai,2,…,ai,m),表示用户i对m个项目的初始资源分配,fi
'表示用户i对m个项目的最终资源分配,则有fi'=Wfi.
最后根据fi'中从大到小的顺序排列产生推荐项目列表,如有用户已经偏好的项目
除外.
基于图结构的推荐倾向于向用户推荐热门列表,注重推荐的准确性.此外,大多数
基于图结构的推荐算法都不考虑边的权重,有实验表明,考虑权重的推荐算法在推
荐准确性方面优于不考虑权重的推荐算法[9].
每种推荐算法都有各自的优缺点,如果能将他们之间组合起来,相互之间取长补短,实现最佳的推荐系统,就是最理想的效果.混合推荐正是达到了此目的,从而能产
生更符合用户需求的推荐.
混合推荐可以是先独立运用各自的推荐算法,将两个或多个产生的推荐结果进行融合,再将融合后的结果推荐给用户.这种情况是属于推荐结果的混合.
还有一种混合策略就是以某种推荐方法为基本框架,融合另一种推荐方法,如以基于内容的方法为框架,融合协同过滤的方法,或者以协同过滤的方法为框架,融合基于内容的方法.也可直接触合各种推荐方法,如将基于内容和协同过滤的方法整
合到一个统一的框架模型下.
还有一些其他的推荐方式,首先是基于关联规则分析法,另外还有基于用户购买行为预测产品的出售情况.目前已有很多学者对各种混合推荐进行了研究.
由于算法本身的特征决定了没有哪种方法能够适合所有的场合.
在基于内容的推荐方法中,不需要历史数据,方法较简单和有效,但比较难应用于多媒体数据,即使在文本数据下,也无法仅仅通过词频统计的方式区分文档质量.
另外,为用户推荐内容的结果多样性也比较差.对新用户来说,因为没有选择过任
何对象,推荐就尤其困难.
协同过滤的方法从某种程度上克服了基于内容方法自动化程度低、推荐结果不丰富等弊端,可以对复杂的非结构化的对象进行处理.但是,其推荐质量取决于历史数
据集,存在稀疏问题和冷启动问题.
基于图结构的推荐倾向于向用户推荐热门列表,注重推荐的准确性,也注重多样性.但是基于图结构的推荐结果前需要预处理数据集,而且大部分都不考虑边的权重. 混合推荐策略由于组合方式不同,其性能特点差异很大,故不在此讨论范围内.
评价推荐系统性能的好坏通常用推荐的精确度和推荐效率两个指标进行衡量.精确
度的衡量最典型的指标是平均绝对误差(mean absolute error,MAE)和均方根误差(root mean squared error,RMSE) [2].计算公式为
式中:n为系统中用户i打分产品的个数;pia,ria分别为预测打分和实际打分;ni为为系统中用户–产品对的个数.
推荐质量的精确度还可用准确率(precision)和召回率( recall)来衡量.准确率是指推荐列表中用户喜欢的产品和所有被推荐产品的比率.召回率是指推荐列表中用户喜欢的产品与系统中用户喜欢的所有产品的比率.他们必须一起使用才能全面评价算法的好坏.
随着新技术的不断发展,庞大的网络信息量海量增加,用户需求不断增多,推荐系统的研究难点和重点成为未来发展的方向.
1) 特征提取问题.全球互联网络的大量信息以多媒体形式呈现,仅提取和推荐文本信息是远远不够的,而多媒体信息的自动特征提取目前又受到很大的限制,用户兴趣获取方法和推荐对象的特征提取方法都进展缓慢,需要引入更精确的推荐方法.
2) 用户兴趣获取多样化.用户兴趣的获取除了显式获取外,应采用深度挖掘技术等隐式获取用户浏览信息,提高对用户兴趣的分析,增强个性化的体验感.
3) 推荐系统的安全性.个性化推荐系统要推荐给用户更合适的兴趣就必须要分析用户的行为和兴趣,这样必然会涉及到用户的隐私.但是一些不法的用户采取一些非法的手段来攻击推荐系统或非法营销,恶意破坏,这是一对矛盾体.如何提高用户信息的安全性,同时又能得到用户信息而提高推荐系统性能也是目前亟待解决的问题.
4) 图方法及复杂网络理论的推荐系统研究.图方法和复杂网络理论在网络的应用中已经有不少研究,应用到推荐系统中可以提高智能挖掘的性能,从而提高推荐性能.
5) 稀疏性和冷启动研究.稀疏性和冷启动问题仍是困扰推荐系统的问题,包括经典的协同过滤算法.为了解决该问题已有很多个学者提出了不同的方法,但问题依然
存在,仍需进一步研究.
信息过载已成为当今互联网发展时代的一个重要问题,个性化推荐系统是解决该问题的有效工具,以帮助用户获得所需信息,已被广泛应用于电子商务及其他领域.推荐算法经过了这么多年的发展有了一定的应用领域,但仍面临诸多问题,比如多媒体信息特征提取、数据安全、数据稀疏、冷启动等.随着应用领域的不断拓展,还会面临新的问题和挑战,进一步研究将会持续关注并探讨推荐系统在信息检索、数据挖掘等智能信息处理领域的最新研究进展.
【相关文献】
[1]RESINICK P,VARIAN H R.Recommender systems[J].Communications of the ACM,1997,40(3) :56-58.
[2]许海玲.互联网推荐系统比较研究[J].软件学报,2009,20(2) :350-362.
[3]ADOMAVICIUS G,TUZHILIN A.Toward the next generation of recommender systems:
a survey of the state-of-the-art and possible extensions[J].IEEE Trans on Knowledge and Data Engingeering,2005,17(6) :734-749.
[4]BAEZA-YATES R, RIBEIRO-NETO B.Modem Information Retrieval[M].New York:Addison-Wesley Publishing Co.,1999.
[5]MURTHI BPS,SARKAR S.The role of the management sciences in research on personalization[J].Management Science,2003,49 (10) :1 344-1 362.
[6]王国霞,刘贺平. 个性化推荐系统综述[J]. 计算机工程与应用,2012,48(7) :66-76.
[7]邓爱林. 电子商务推荐系统关键技术研究[D]. 上海:复旦大学,2003.
[8]ZHOU Tao,REN J,MEDO M.Bipartite network projection and personal recommendation[J].Physical Review E,2007,76:46-55.
[9]LIU Jie,SHANG Mingsheng,CHEN Duanbing.Personal recommendation based on weighted bipartite networks[C]//process of the 6th International Conference on Fuzzy Systems and Knowledge Discovery,Chongqing:Springer,2012:29-31.。