基于协同过滤算法的推荐系统
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
附件B:
毕业设计(论文)开题报告
1、课题的目的及意义(含国内外的研究现状分析或设计方案比较、选型分析等)
本课题研究的是基于协同过滤算法的推荐系统设计与实现,实现根据用户的兴趣特点和购买行为,向用户推荐相对应的商品。
个性化商品推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息过程无疑会使淹没在信息过载问题中的顾客不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐的最大的优点在于,它能收集用户特征资料并根据用户特征,如兴趣偏好,为用户主动作出个性化的推荐。而且,系统给出的推荐是可以实时更新的,即当系统中的商品库或用户特征库发生改变时,给出的推荐序列会自动改变。目前主要有两种类型的推荐系统,一种是以网页为推荐对象的搜索系统,主要采用web数据挖掘的方法与技术,为用户推荐符合其兴趣爱好的网页,如Google等;另一种是网上购物环境下、以商品为推荐对象的个性化推荐系统,为用户推荐符合兴趣爱好的商品,如书籍、音像等,称这种推荐系统为电子商务个性化推荐系统,简称电子商务推荐系统。
整个电子商务推荐系统主要可分为输入功能模块、推荐方法模块和输出功能模块。输入可来自客户个人和社团群体两部分。客户个人输入主要指目标用户,即要求获得推荐的人,为得到推荐必须对一些项目进行评价,以表达自己的偏好,包括隐式浏览输入、显式浏览输入、关键词和项目属性输入以及用户购买历史等;社团群体输入主要指集体形式的评价数据,包括项目属性、社团购买历史、文本评价和等级评分等。输出主要为推荐系统获得输入信息后推荐给用户的内容,主要形式有:①建议(suggestion),分为单个建议(single item)、未排序建议列表(unorderelist)和排序建议列表(ordered list),典型的如Top N:根据客户的喜好向客户推荐最可能吸引客户的N件产品;②预测(prediction),系统对给定项目的总体评分;③个体评分(individual rating),输出其他客户对商品的个体评分;④评论(Review),输出其他客户对商品的文本评价。
推荐方法模块是推荐系统的核心部分,决定着推荐系统的性能优劣。
协同过滤推荐是目前研究最多的个性化推荐技术,它基于邻居用户的资料得到目标用户的推荐,推荐的个性化程度高。协同过滤的最大优点是对推荐对象没有特殊要求,能处理非结构化的复杂对象,如音乐、电影。
协同过滤推荐主要分为两类:一是基于内存的协同过滤:先用相似统计的方法得到具有相似兴趣爱好的邻居用户,所以该方法也称基于用户的协同过或基于邻居的协同过滤。二是基于模型的协同过滤,先用历史数据得到一个模型,再用此模型进行预测。基于模型的推荐广泛使用的技术包括神经网络等学习技术、潜在语
义检索和贝叶斯网络,训练一个样本得到模型。
优点是:
1)能够过滤难以进行机器自动基于内容分析的信息。如艺术品、音乐;
2)能够基于一些复杂的,难以表达的概念(信息质量、品位)进行过滤;
3)推荐的新颖性。正因为如此,协同过滤在商业应用上也取得了不错的成绩。CDNow,MovieFinder,都采用了协同过滤的技术来提高服务质量
缺点是:
1)用户对商品的评价非常稀疏,这样基于用户的评价所得到的用户间的相似性可能不准确(即稀疏性问题);
2)随着用户和商品的增多,系统的性能会越来越低(即可扩展性问题);
3)如果从来没有用户对某一商品加以评价,则这个商品就不可能被推荐案例: AMAZON 个性化推荐系统先驱(基于协同过滤)
AMAZON是一个虚拟的网上书店,它没有自己的店面,而是在网上进行在线销售。它提供了高质量的综合节目数据库和检索系统,用户可以在网上查询有关图书的信息。如果用户需要购买的话,可以把选择的书放在虚拟购书篮中,最后查看购书篮中的商品,选择合适的服务方式并且提交订单,这样读者所选购的书在几天后就可以送到家。AMAZON书店还提供先进的个性化推荐功能,能为不同兴趣偏好的用户自动推荐尽量符合其兴趣需要的书籍。AMAZON使用推荐软件对读者曾经购买过的书以及该读者对其他书的评价进行分析后,将向读者推荐他可能喜欢的新书,只要鼠标点一下,就可以买到该书;AMAZON能对顾客购买过的东西进行自动分析,然后因人而异的提出合适的建议。读者的信息将被再次保存,这样顾客下次来时就能更容易的买到想要的书。此外,完善的售后服务也是AMAZON的优势,读者可以在拿到书籍的30天内,将完好无损的书和音乐光盘退回AMAZON,AMAZON将原价退款。当然AMAZON的成功还不止于此,如果一位顾客在AMAZON购买一本书,下次他再次访问时,映入眼帘的首先是这位顾客的名字和欢迎的字样。
其他算法:(1)基于内容的推荐技术(2)基于用户统计信息的推荐(3)基于效用的推荐(4)基于知识的推荐(5)基于关联规则的推荐。
2、课题任务、重点研究内容、实现途径
2.1课题任务和重点研究内容:
本课题的任务是设计实现一个基于协同过滤算法的推荐系统,主要内容包括:
1.用户管理:创建若干个用户,买家可以在搭建的平台上购买,评价商品。
卖家销售商品。可以修改用户资料,查看购物车等。
2.权限管理:为每个创立的用户授予权限,买家和卖家各自的权限,买家只
能购买商品,卖家只能销售商品。
3.商品管理:描述商品信息,如价格,图片等,包括之前买家的评价。添加,
删除,修改商品价格等等商品管理的功能。
4.评价管理:买家购买后添加评价,评价只能由买家添加和删除,卖家不
得添加和删除,评价添加和更新商品信息的数据库。
5.推荐管理:根据先前买家的评价和当前买家购买的内容,根据此对用户进行推荐。
2.2实现途径:
基于用户的协同过滤算的基本思想是:通过计算用户对项目评分之间的相似性,搜索目标用户的临近邻居,然后根据最近邻居的评分向目标用户产生推荐,这里采用基于用户的,协同过滤算法分为3步:
建立用户模型,寻找最近邻居,产生推荐项目。
①建立用户模型: 协同过滤算法的输入数据通常表示为一个 m*n 的用户一 评价矩阵R ,m 是用户数,n 是项目数,其中Rij 表示第i 个用户对第j 个项目的评分值;
⎥⎥⎥⎥⎥⎥⎥⎦
⎤⎢⎢⎢
⎢⎢⎢⎢⎣⎡=mn in m i m i n n r r r r r r r r r r r r R ..................
(221122221)
11211 ②寻找最近邻居:在这一阶段,主要完成对目标用户最近邻居的查找。通过计算目标用户与其他用户之间的相似度,算出与目标用户最相似的“最近邻居”集。即: 对 目标用户u 产生一个以相似度sim(u ,v)递减排列 的“ 邻居” 集合。该过程分两步完成: 首先计算用户之间的相似度,可采用皮尔森相关系数、余弦相似性和修正的余弦相似性等度量方法,其次是根据如下方法选择“ 最近邻居”:(1)选择相似度大于设定阈值的用户;(2)选择相似度最大的前 k 个用户;(3) 选择相似度大于预定阈值的 k 个用户。
③产生推荐项目:计算方法如下 :
∑∑+=∈∈-NBSi j NBSi j j d
j i d i j i sim R R j i sim R P )),(()(*),(,, (1)
其中),(j i sim 表示用户i 与用户j 之间的相似性,
d j R ,表示最近邻居用户j 对项目d 的评分,i R 和j R 分别表示用户i 和用户j 的平均评分,公式(1)的实质是在用户的最近邻居集NESi 中查找用户,并将目标用户与查找到的用户的相似度的值作为权值,然后将邻居用户对该项目的评分与此邻居用户的所有评分的差值进行加权平均。