电子商务协同过滤推荐系统的研究与进展

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

电子商务协同过滤推荐系统的研究与进展

张富国

江西财经大学信息管理学院江西南昌330013

redbird_mail@

摘要：个性化推荐系统的出现提供了一个解决电子商务网站的商品信息过载问题的强大工具，而协同过滤技术被认为是最有前途的个性化推荐技术之一。文章从协同过滤技术的基本原理出发，系统评述了协同过滤各类常用算法的特点，分析了其中存在的数据稀疏性、冷启动、“托”攻击和灵活性等问题，最后指出了协同过滤技术将来的研究方向。

关键词：协同过滤，推荐系统，个性化，信任

1 引言

网络所带来的便捷的信息传递和信息服务推动着电子商务的蓬勃发展，人们在逐渐享受由此带来的巨大惊喜的同时，也面临着从传统购物方式向网络虚拟购物方式转变的挑战：面对Web商家如此众多的商品，用户发觉自己很难通过一个小小的计算机屏幕方便地发现自己感兴趣的商品。个性化推荐系统的出现为用户提供了一个解决Web商品信息过载问题的强大工具，承担了在识别客户消费偏好的基础上，模拟商店销售人员向客户提供商品信息和建议，帮助客户完成购买过程，从而使客户避免信息“超载”所带来的麻烦，顺利完成购买过程的功能[1]。在实际应用中，许多电子商务网站，如Amazon、eBay和CDNow等网站已经充分领略到了推荐系统带来的好处。

基于内容的过滤技术根据信息的内容和用户偏好之间的相关性向用户推荐信息，它的缺点是不能处理难以进行机器自动内容分析的信息，比如，艺术品、电影等，也不能基于一些复杂的、难以表达的概念比如质量、品位等进行过滤推荐。另外，由于它是一种基于经验的方法，只能发现和用户已有兴趣相似的信息，而不能为用户发现新的感兴趣的资源[2]。关于协同过滤技术的第一个研究报告在1994年出版[3]，从那以后，对协同过滤的研究和商业运用开始出现。鉴于协同过滤推荐技术克服了基于内容的过滤技术的以上所列缺点，使得对个性化推荐系统的研究有了长足的进步，是到目前为止相对较为成功的一种推荐方法[4]，已被用于许多站点。被认为是最有前途的推荐技术之一。但协同过滤推荐技术还有很多问题需要克服，目前也出现了一些新的发展趋势，本文主要分析和评述了个性化推荐技术取得的研究成果以及存在的问题，并对基于协同过滤技术的推荐系统发展方向进行了展望。

2 基本原理分析

协同过滤技术的出发点是任何人的兴趣都不是孤立的，应处于某个群体所关心的兴趣当中，如果某些用户对一些项目的评分比较相似，则他们对其他项目的评分也比较相似。该推荐方法实现的基本思想是采用某种技术找到目标用户的若干最近邻居(与目标用户有相似兴趣的用户)，然后根据最近邻居对目标项目的评分产生推荐，把预测评分值最高的多项商品作为该用户的推荐列表。

协同过滤推荐系统可以通过显式评分或隐式评分两种方式取得用户对项目的兴趣程度。显式评分是指推荐系统需要用户直接对某些项目进行评分；而隐式评分则是通过用户的使用日志来获得，比如说，如果一个用户购买了某本书，则说明该用户喜欢该书[5]。

不同的协同过滤推荐算法的推荐模型均可归属于如图一所示模型，模型分成用户层和项目层，两者用用户对项目的评分联系起来。各个算法通过不同程度地利用该两层模型来预测用户对项目的评分。如基于邻居用户的协同过滤算法考虑了用户层中用户间的相似性，但不考虑项目层的项目相似性，而基于项目的协同过滤算法则相反。

图1 协同过滤二层推荐模型

3 常用协同过滤算法

经过多年的研究积累，出现了多种协同过滤算法，一般把协同过滤算法分成两类：

(1) 基于内存的协同过滤算法。该方法先用统计的方法得到具有相似兴趣爱好的邻居用户，再基于邻居进行计算，所以该方法也称基于用户的协同过滤或基于邻居的协同过滤。Sarwar等人从协同过滤的基本思想的两个方面入手，把基于内存的协同过滤方法分为基于邻居用户（User-based）的协同过滤算法和基于项目（Item-based）的协同过滤算法[6]。

(2) 基于模型的协同过滤算法。该方法先用历史数据得到一个模型，模型的建立可以使用各种机器学习的方法如贝叶斯网络技术、聚类技术、人工神经网络、概率模型等，再用此模型进行预测。

就两类协同过滤算法比较而言，基于模型的协同过滤由于建模过程可以离线完成，克服了基于内存的协同过滤方法基于整个用户数据库进行在线实时运算带来的性能问题，推荐系统的伸缩性较好，适合于大型电子商务推荐系统，但建模过程比较复杂，本身较耗时，所以只能周期性对模型进行更新，导致模型相对于原始用户数据而言具有一定的滞后效应。基于用户的协同过滤算法由于在线计算，随用户增加而线性增加，所以伸缩性较基于项目的协同过滤算法差。4研究热点问题分析

4.1 稀疏性问题

在许多推荐系统中，每个用户涉及的信息量相当有限，使得评分矩阵非常稀疏，如用于研究的Eachmovie和Movielens这两个典型数据集的评分矩阵稀疏性分别为97.6%和95.8%，在一些大的系统如网站中，用户最多不过就评估了上百万本书的1%-2%，造成评分矩阵数据相当稀疏，难以找到真正的相似用户集，导致推荐效果大大降低[7]。

稀疏问题通常由高维数据引起的，在本质上属于模式识别与人工智能领域的小样本问题。目前，大多采用机器学习中的分类概念来解决稀疏问题，用初始评价矩阵的奇异值分解(sirgular value decomposition)维度压缩技术去抽取一些本质的特征，利用评价数据阵中的潜在结构可极大地减少维数，使数据变得更为稠密[8,9]。

4.2冷启动问题

冷启动(cold start)问题分为新项目问题(new item)和新用户(new user)问题[10]。

(1)新项目问题：一个未获得足够评价的新项目不易被推荐出去。新项目问题常出现在不断增加新项目、但用户仅对其中一小部分做出评价的情况下。如果一个新项目没有人去评价它，或都不去评价它，则这个项目肯定得不到推荐，推荐系统就失去了作用，这在协同推荐技术问题上最为突出。目前，