基于标签的个性化推荐系统研究进展

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于标签的个性化推荐系统研究进展1)

张富国1,2

(1.江西财经大学信息管理学院,江西南昌330013; 2.瑞士弗里堡大学物理系交叉学科组,弗里堡CH-1700)

摘要数据稀疏性多年来一直是困扰传统推荐系统性能表现的一个大问题,社会化标签为推荐系统获得用户的偏好信息提供了一个新的数据来源,同时也对传统的基于二维数据的推荐技术提出了新的挑战。近年来,基于标签的个性化推荐技术研究逐渐受到比较多的关注。本文从社会化标签系统的概念模型、用户兴趣模型表示、基于标签的个性化项目推荐方法、典型社会化标签系统实例及其数据集的取得等进行前沿概括、比较和分析。最后,对基于标签的推荐系统有待深入的研究难点和发展趋势进行了展望。

关键词社会化标签系统推荐系统兴趣偏好推荐方法

Research and Development on Tag-based Recommend

Recommender er Systems

1,2

ZHANG Fu-guo

(1.School of Information Technology Jiangxi University of Finance&Economics,Nanchang330013China;

2.The Interdisciplinary Physics Group,Physics Department,University of Fribourg,CH-1700Fribourg,Switzerland) Abstract Data sparsity is a major problem which causes the decline of the recommendation performance in the recommender systems.Social tags provide a new data resource for recommender systems to obtain users’preference information,and traditional recommendation technology based on two dimensions datum is facing a new challenge.In recent years,the research on personalized recommendation technology has been paid more attention.This paper presents an overview of tag-based recommender systems, including concept model,user interest model,tag-based recommendation methods,typical social taging systems and the way to obtain their datasets.Finally,the prospects for future development and suggestions for possible extensions are also discussed. Keywords social taging system,recommender system,preference,recommendation method.

1引言

互联网技术的迅猛发展把我们带进了信息爆炸的时代。海量信息的同时呈现,一方面使用户很难从中发现自己感兴趣的部分,另一方面也使得大量少人问津的信息成为网络中的“暗信息”,无法被一般用户获取[1]。个性化推荐系统的出现为用户处理信息过载问题提供了一个有效的工具,同时,推荐系统也能帮助商家把用户的潜在需求转化为现实需求,从而达到提高商家产品销售量的目的。实际的推荐系统应用也证明了这点,Amazon宣称35%的产品销售额来源于推荐[2],而Netflix宣称大约有60%的出租业务来源于推荐[3],因此即便是推荐质量上的稍小改进也会对此类公司产生巨大的商业利润,于是,Netflix公司在2006年悬赏100万美元用于奖励提高其推荐准确率10%的研究人员。从推荐技术来看,基于内容的过滤方法(Content-based)[4-6]受限于不能对非文本类对象进行信息的自动提取;而被认为是很有前途,也是关注最多的协同过滤(Collaborative Filtering)[7-10]推荐方法以及最近兴起的基于用户—产品二部图网络结构的推荐方法[11-14]都依赖于用户对项目的评分矩阵或关联关系。但从实际的推荐系统来看,由于评分数据的极端稀疏性(如:Netflix Prize数据集480189个用户对17770电影进行评分,评分值只有100,480,507个,近99%的评分未知),使得推荐系统无法准确获知用户的偏好,巧妇难为无米之炊,导致推荐系统性能的大

收稿日期:

作者简介:张富国,男,1969年生,副教授,主要研究领域为个性化推荐、信息检索。

资助项目:江西省教育厅科技计划项目(GJJ.10696)资助。

幅下降[7,15,16]。

在Web2.0下,用户会搜集自己感兴趣的资源并对其添加标签,以方便管理个人目录和搜索有用信息,因为其简单、易用等优点而逐渐成为Web2.0环境下一个比较流行的应用,在企业界出现了各种各样的社会化标签系统,比如Delicious、Flickr、Bibisonomy和豆瓣等。社会化标签既是信息资源的分类工具,也是用户个人偏好的反映,因此,社会化标签为推荐系统获得用户的偏好信息提供了一个新的数据来源,同时对传统的基于二维数据的推荐技术提出了新的挑战。近年来,社会化标签系统推荐的对象包括标签、用户和项目资源[17],前者研究的文献最多,后者作为一个较新的研究领域,也逐渐受到学术界的广泛关注,本文分析的就是对项目资源的推荐。

目前,国内外在该领域的综述性文献还很少见,本文在分析社会化标签的概念模型之上,详细分析讨论了用户偏好的表示方法、基于社会化标签的个性化推荐方法以及相关社会化标签系统实例及其实验数据集的获得方式,最后,指出了这些系统存在的缺陷和未来可能的若干研究方向。我们将该领域的研究进展和趋势介绍给信息科学工作者,希望能促进我国在该领域的研究工作。

2社会化标签系统的概念模型

目前,国内外对社会化标签的概念还没有统一的定义,但学者们普遍认同社会化标签是由用户产生的,对网络内容进行组织和共享的自下而上的组织分类体系[18]。相比较之前的系统,对资源进行科学分类大多是依靠少数领域专家,这种方法虽然比较科学和权威,但是不能很好的表达用户的个人想法和观点,而这一点也是社会化标签受到普遍欢迎的原因。

一个社会化标签系统由用户、项目和标签三类对象构成,它的概念模型如图1所示[19],用户可以对项目标注多个标签,标注的方法主要有两种:一种是手工标注,完全由用户从自己的词表中选择合适的词来标注资源;另外一种就是半自动标注,即社会化标签系统为用户推荐标签列表,用户从中选择合适的标签进行标注。这种标注关系的形式化表示为:},....,,,,{F 21t tag tag tag item user =,其中t表示用户对项目使用的标签数。在图1中,项目之间的有向虚线连接表示项目之间可能存在着的关联关系(比方说文献之间存在互相的引用关系);相类似的,用户之间的无向虚线连接用来说明某些用户之间可能存在的关联关系(比方说处在同一社会网络群组或同一部门下,如果用户是处在信任网络中,它就是个有向连接)。

Users Items

T a g s

图1社会化标签系统的概念模型

从社会化标签在标识项目方面的功效来说,文[20]

将其归纳为以下七种:

(1)标识对象的内容主题。一般用名词,如:IBM,Music,房产销售等标签。

(2)标识对象的载体类别。如:标识对象是文章,日志或书籍。

(3)标识对象的创建者或所有者。

(4)标识对象的品质和特征。如:有趣,幽默等标签。

(5)自己参考用的标签。如:myphoto、myfavourite等标签。

(6)分类提炼用的标签。如用数字标签对现有分类进一步细化。

(7)用户任务组织的标签。如:to read,to print等标签。

第1类和第4类社会化标签最能体现用户的兴趣所在,而第5类和第7类社会化标签则对反映用户的兴趣

相关文档
最新文档