电子商务个性化推荐算法研究

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

针对电子商务发展的需求，本文通过对协同过滤推荐算法的文献综述，提出传统过滤算法无法适用于用户多兴趣下的推荐问题进行了剖析，提出了一种基于用户多兴趣的协同过滤推荐改进算法，分析了基于用户多兴趣的协同过滤推荐算法的电子商务系统。

一、引言

电子商务迅猛发展的时代已经到来，网上购物的交易方式正在改变着传统的商业模式。2007年，电子商务的交易额达到了8900亿人民币。面对如此众多的商品，无疑会大大增加用户发现满意商品的困难。于是个性化推荐系统逐渐成为电子商务领域中的一项重要的研究内容，得到了广泛关注。

研究电子商务推荐系统对企业和社会具有很高的经济价值。电子商务个性化推荐系统的关键是建立用户模型。推荐系统的热点问题是推荐技术和推荐算法的研究。推荐算法是整个推荐系统的核心，它的性能决定了最终推荐结果的好坏。为了建立合理的用户模型，满足不同用户对实时性、推荐方式等的要求，产生了一系列的推荐技术和算法。涉及的技术包括基于内容的过滤技术、协同过滤技术、关联规则挖掘技术、分类和聚类技术、神经网络技术等等。

协同过滤推荐是迄今为止最成功的个性化推荐技术，被应用到很多领域中，协同过滤相当突出的优点是其决策基础是“人”而不是“内容的分析”，能针对任何形态的内容进行过滤，更能处理相当复杂和艰难的概念呈现，以获得意料之外的结论。

文章重点研究电子商务系统中协同过滤推荐算法。

二、电子商务推荐算法的研究

目前的电子商务推荐系统中运用的推荐算法主要可分为三大类：基于内容的推荐算法(Content-based Recommendation Algorithm)、基于规则的推荐算法(Rule-based Recommendation Algorithm)和协同过滤推荐算法(Collaborative Filtering Recommendation Algorithm)。

1.基于内容的推荐算法是信息过滤研究的派生和继续

基于内容的推荐系统需要分析资源内容信息，根据用户兴趣建立用户档案(Profile),用户档案中包含了用户的品位、偏好和需求信息。然后根据资源内容与用户档案之间的相似性向用户提供推荐服务。在一个这样的系统中,通常采用相关特征来定义所要推荐的物品。

2.关联规则挖掘技术在零售业得到了广泛的应用，它可以发现不同商品在销售过程中的潜在相关性

随着数据挖掘的兴起，关联规则被应用于推荐系统，形成了一种新的推荐技术基于规则的推荐技术。基于规则的推荐技术在评价表上挖掘项目间的关联规则(项目关联)和用户间的关联规则为当前用户进行推荐。使用项目关联进行推荐时，每条项目关联的前件相当于一个兴趣组，而规则的后件则相当于这个兴趣组的推荐。如果当前用户对该规则前件中的所有项

目都喜欢，那么就把规则的后件以一定可信度推荐给当前用户。而使用用户关联进行推荐时，用户关联的后件必须是当前用户，使用用户关联的前件中的用户的共同兴趣模拟当前用户的兴趣，模拟的可信度就是用户关联的可信度，以此作为推荐的依据。

3.协同过滤(Collaborative Filtering)的基本概念就是把这种推荐方式变成自动化的流程

协同过滤主要是以属性或兴趣相近的用户经验与建议作为提供个性化推荐的基础。透过协同过滤，有助于搜集具有类似偏好或属性的用户，并将其意见提供给同一集群中的用户作为参考，以满足人们通常在决策之前参考他人意见的心态。

本人认为，协同过滤技术应包括如下几方面:(1)一种比对和搜集每个用户兴趣偏好的过程;(2)它需要许多用户的信息去预测个人的兴趣偏好;(3)通过对用户之间兴趣偏好相关程度的统计去发展建议那些有相同兴趣偏好的用户。

三、协同过滤推荐现有算法的分类研究与分析

正是因为传统协同过滤推荐算法存在着诸多问题，研究者们才不断提出改进的协同过滤推荐算法。

1.全局数值算法

全局数值算法每生成针对一个用户的推荐项目列表就需要扫描用户评价数据库一遍，这种方法能随数据的变化而变化，实现也比较简单，所以被大量才采用。但是在实践中数据稀疏性难以解决，面对庞大的用户数据库，推荐产生也非常耗时，从而使得整个电子商务推荐系统的实时性难以保证，成为全局数值算法面临的主要挑战。

2.基于模型的算法

基于模型的算法只需扫描一遍用户评分数据库就可以完成对所有用户的推荐。优点是建立的模型相对于原始数据集而言小得多，因此能有效缓解推荐算法的实时性问题。但模型具有滞后效应，为了保证模型的有效性，必须周期性的对模型进行更新。而模型的训练代价高，因此该算法不适合数据更新频率快的系统。

3.组合推荐算法

(1)协同过滤和基于内容的结合算法。两种算法的结合可以利用基于内容算法的优点，对项目进行相似度匹配，尤其当项目尚未得到用户评价的情况下也能推荐给用户,避免新项目问题;另一方面利用协同过滤的特点,当用户数和评价很多时,协同过滤推荐更准确。(2)协同过滤和基于关联规则的结合算法。关联规则技术用于协同过滤系统是利用Apriori算法通过挖掘用户的评价记录的关联来进行推荐。该算法往往首先对客户的购买行为进行关联规则挖掘，并进行单一客户的偏好建模；然后，应用协同过滤技术寻找与此客户兴趣相似的客户集，并从客户集中找出和目标最相似的客户;最后根据匹配集合求解推荐意见。规则模型的形成可以离线进行，协同过滤推荐算法与基于规则算法的结合可以保证有效推荐系统的实时性要求。

四、协同过滤推荐算法的改进

传统的协同过滤推荐算法是用邻居用户对某一项目的偏好信息来判断用户对该项目的偏好，邻居用户是和当前用户具有相似兴趣爱好的用户。但在传统的协同过滤推荐算法中，邻居用户和当前用户的共同兴趣爱好并不一定是要预测的项目方面的兴趣爱好，而可能是另一方面的兴趣爱好。如果还是用这些邻居用户来预测，其误差可想而知。

1.基于用户多兴趣的协同过滤推荐算法

基于此，我对传统协同过滤算法将作如下改进:(1)对用户兴趣进行分类，因为在系统中用户的兴趣是通过对项目的选择来进行了解的，所以把对用户兴趣的分类转化为对项目的分类，引入用户兴趣度的概念，来探讨用户在不同类别项目中所表现出来的兴趣差异，进而实现对用户多兴趣的了解。(2)对于同一用户，如预测项目所属类别不同，用来预测的邻居用户也不同，也就是邻居用户与待预测的项目在内容上具有一定相似性，从而保证用来预测的邻居用户与当前用户在待预测项目上具有相似的兴趣爱好。(3)用户具有多兴趣性，但用户对每类项目的兴趣也是不尽相同的,在推荐集中考虑以用户对不同类别项目的兴趣度作为权重，来分配每类项目的推荐数目。

首先将项目采用某种技术按照某种标准划分为不同类别，然后把对此类项目有评价的用户的评价信息映射到此类，统计参数，计算用户在每类项目的兴趣度，当超过阈值时，认为该用户对该类项目有兴趣偏好，并由<优麦电子商务论文>这些用户形成聚类，从聚类中搜寻针对此类项目的邻居用户，产生推荐。

(1)按照分类规则对项目进行分类。把整个项目空间划分成若干类别，每个项目可能属于多个类别,每个类别包含至少一个项目。目前对项目进行分类有众多方法。

(2)映射评价信息，统计参数，计算用户兴趣度，建立用户兴趣度矩阵,构造用户兴趣偏好特征。假设提出了用户兴趣度Ai,j，即用户i对项目类别j的兴趣度，来衡量用户对某一类别项目的兴趣偏好。

其中Mi,j表示用户i所评价的项目类别j中的项目数目；Nk表示项目类别k中包含的项目数目。

(3)依据用户兴趣度矩阵和项目类别体系，进行用户聚类，形成用户兴趣模型。

2.算法说明

(1)由于对同一用户，需要分别在不同的项目类别中分别计算其邻居用户。

(2)该算法对数据的稠密性要求比传统的协同过滤推荐算法要高。

(3)用户的兴趣可能会随着时间而变化，有的项目类别可能会随着时间的推移使用户对他失去兴趣，所以推荐系统必须密切注意用户的兴趣是否改变，最好的办法就是持续跟踪。