基于用户兴趣的个性化推荐
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1引言
进入21世纪后,随着网络的普及,Internet 正以前所未有的速度改变着我们的生活。然而,随着网络资源的不断丰富和网络信息量的不断膨胀,对于用户而言,要从中挑选出自己真正需要的东西如同大海捞针。搜索引擎用一种信息采集软件访问各种站点,从一个已知的文档集中读取信息,并检查这些文档的链接指针,指出新的信息空间,然后取出这些新空间中的文档,并将它们加入到索引数据库中,因此索引数据库往往很大,检索软件通过索引数据库为用户的查询请求提供服务,检索的查准率不高。个性化推荐系统能够基于用户的特性偏好和预计的兴趣,动态地将一些定制的服务内容提交给用户,以满足用户的特殊需要。由于信息是针对用户的需求而提交给用户的,从而改变了过去那种面对大量信息用户无所适从的境况。
因此,如何有效地从用户的浏览行为和历史记录中挖掘出用户感兴趣的东西,建立基于用户兴趣的个性化推荐系统是一个重要的研究课题。
1.1
传统的个性化推荐系统
协同过滤技术是个性化推荐系统中最早也是最为成功的技术之一。协同过滤(Collaborative Filtering ),又称社会过滤(Social Filtering ),其基本思想十分直观:在日常生活中,人们往往会根据亲朋好友的推荐来做出一些选择(购物、阅读、音乐……),传统的协同过滤推荐技术根据用户显式评分产生推
荐结果。协同过滤技术的出发点在于任何人的兴趣不是独特和不可预测的,个人的偏好往往处于某个群体范围内。因此,根据相同或相近兴趣的用户对相应资源做出评价,向其它用户进行推荐,其关键是相似用户群的发现。目前协同过滤技术方面的研究主要有基于用户的协同过滤技术和基于项目的协同过滤技术。
1.2传统协同过滤推荐技术存在问题
(1)用户数据采用显式评分获得。显式评分有着明显的缺点,即用户必须暂停浏览或阅读,转而输入网页的评分,这不符合大多数用户的习惯。除非明确知道对网页进行评分所能得到的好处(如获取小礼品等),否则用户大多不愿意浪费时间做这种无意义劳动,这将导致评分数据非常缺乏。而实验证明,只有当每一网页都有相当数量的评分数据时,推荐系统才能产生比较精确的推荐结果,用户评分数据的极端稀疏性将直接导致推荐质量的下降。
(2)不能为用户发现新的感兴趣的资源,只能发现和用户已有兴趣相似的资源。
(3)没有综合用户个性化检索和利用群体共性做主动推荐的各种优点。
(4)可扩展性差,且随着系统规模的进一步扩大,用户数目和项目数据急剧增加,也会导致用户评分数据的极端稀疏性。在用户评分数据极端稀疏的情况下,传统相似性度量方法均存在各自的弊端,使得计算得到的目标用户的最近邻居不准确,推荐系统的推荐质量急剧下降。
基于用户兴趣的个性化推荐模型
针对传统协同过滤F (F )技术存在的
基于用户兴趣的个性化推荐
郭正恩
(郑州市商业技师学院,河南郑州450001)
摘
要:随着Internet 技术的发展和日益普及,网络信息呈指数级增长。为用户提供准确、有效的个性化推荐信息,在
W eb 信息检索领域获得了广泛关注,在实际的个性化服务系统中也得到了广泛应用。本文分析了传统协同过滤算法中存在的问题,对其相似性计算和推荐集选取方法进行了改进,并提出了一种优化的UPR 算法。实验表明,同传统ICF 算法相比该算法有效地提高了推荐的精度。
关
键
词:网络日志挖掘;用户兴趣模型;协同过滤;个性化推荐
中图分类号:TP391
文献标识码:A
Personalized Recommendations Based on Users ’Inter est
GUO Zheng-en
(Zhengzhou Commercial Technician Institute ,Henan Zhengzho u 450001)
Key wor ds :Web-lo g mining ;Users ’interests
mo del ;collaborative filtering ;perso naliz ation recommendation
作者简介:郭正恩(-
),男,河南省洛阳市人,大学本科,讲
师,机电一体化技师,主要研究方向:机电及自动化技术。
·光盘数据库与信息系统·
郭正恩:基于用户兴趣的个性化推荐
19
2C Co llab o rativ e ilterin g 1971
2009年第7
期
问题,这里提出一个基于用户兴趣的个性化推荐UPR (Users ’Instrest-based Personalization Recommendation )模型。UPR 模型利用网络日志中蕴含的用户兴趣,设计了一个基于Web 用户访问频率的用户兴趣模型,该模型的假设基础是一组兴趣相似的人访问的页面有可能相关。模型从用户群中找出对输入页面感兴趣的用户,通过聚类从这些用户中找出一类具有相似兴趣背景且对输入页面最感兴趣的用户,综合这类用户感兴趣的页面,从中挖掘出与输入页面相关的页面。模型的分析对象是用户访问频率矩阵,在模型中称为用户兴趣矩阵。用户对页面的兴趣度基于用户对页面的访问频率而定义,推荐系统模型如图1。
图1基于用户兴趣的个性化推荐模型
基于用户兴趣的个性化推荐模型与传统基于邻居用户的协同过滤技术相比有如下改进:
(1)大多数信息过滤系统都需要用户主动参与去评价对象,利用这些显示的评价去预测。而UPR 模型所利用的信息是网络日志,是用户无意中遗留下来的信息。所以本模型不需要用户的参与,所有步骤均由系统自动完成,克服了信息过滤系统中初期数据稀疏性的问题。
(2)UPR 模型与CF 模型的另一个根本差异在于聚类在具体算法中的应用。CF 模型只做了用户兴趣聚类或项目聚类,而UPR 模型可看成是先对用户做了兴趣聚类,然后又基于兴趣聚类的结果对Web 页面做了相关聚类。
(3)在对用户做兴趣聚类这一具体步骤上,CF 模型与UPR 模型也存在着不同之处。CF 技术中的用户聚类是要找出以新用户为中心的一类兴趣相似的用户,而UPR 模型是要在一组用户中做兴趣聚类,聚类的中心和聚类的结果在聚类前是未知的。因此相比较而言,UPR 模型的聚类工作难度要大一些。
(4)CF 模型是已知一类兴趣相似的用户群U 对一组对象P 的评价,对于一个新用户uk ,如果判断出这个新用户uk 与用户群U 的兴趣背景相似,那么系统可以基于U 对的评价预测出对的评价。而U R 模型是已知一类兴趣相似的用户群U 对一组对象的评价,又已知一个新用户和用户群U 对一个
新的对象pl 的评价,那么模型可以在那一组对象P 中挖掘出与新对象pl 相关的对象,将相关页面推荐给访问pi 的用户。相比CF 模型而言,UPR 模型推荐对象更准确。两者区别见图2。
图2UPR 模型与CF 模型对比图
3实验与分析
3.1
实验过程分析
本文探讨的主要内容是基于用户兴趣的个性化推荐模型(UPR ),模型在传统邻居用户聚类基础上,对相关页面进行了相关聚类,相比传统协同过滤算法,其准确度得到提高。实验主要通过与传统协同过滤推荐算法(在实验中采用的是基于项目评测的协同过滤推荐算法ICF )进行对比分析,说明UPR 算法推荐的准确度比ICF 算法有了明显提高。整个实验过程主要做了如下工作:
(1)比较本文提出的UPR 推荐算法和传统基于项目的协同过滤算法ICF 在进行推荐时的准确率和召回率,得出UPR 算法准确率与召回率比ICF 算法的准确率和召回率都得到明显提高,证明此算法是可行的。
(2)通过对不同用户访问量的日志记录进行对比分析,得出随着日志规模的增长,用户检索时间相比ICF 算法检索时间要长。经过分析,如果在用户能够忍受的检索时间范围内,适当调整日志规模是可行的。
3.2
实验结果分析
实验是为了比较本文提出的基于用户兴趣的个性化推荐算法(UPR )与传统基于项目的协同过滤算法(ICF ),最终选择近10000多个用户访问记录,引入划分系数x ,x 分为9个刻度,从0.1-0.9,相应训练集是1000-9000,测试集是9000-1000,然后分别计算两种算法的召回率和准确率。查准率采用查准率进行评价,见表及图3、图。
20
P uk P P P u k 10-14