推荐系统分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于协同过滤的推荐(研究的较多)
• 基于用户的推荐(User-based Recommendation) • 于物品的推荐(Item-based Recommendation)
• 基于模型的推荐(Model-based Recommendation)
基于用户的推荐
• 基本假设:用户可能会喜欢和他具有相似爱好的用户所喜欢的物 品; • 这里的“相似用户”,不是用 User Profile 计算出来的,而是用用 户的打分历史记录计算出来的。这里的基本想法是,具有相似偏 好的用户,他们在所有 Item 上的打分情况(哪些打了分,哪些没 打分;打分的分值是多少等)也是相似的。 • 缺点:当系统用户数量过多时,计算relevant user时间太长; 当新用户加入系统的时候,他的打分记录太少,很难计算 相似的user;
基于物品的推荐
• 产生:鉴于 User-Based 协同过滤方法随着用户数增加,计算时间 显著增长,有人提出了Item-based算法; • 应用:目前是亚马逊网络商城推荐系统的底层核心算法; • 假设:用户可能会喜欢与他之前曾经喜欢的物品相似的物品; • 与 Content-Based 方法不同的是,这里的“相似物品”不是通过 Item Profile 来计算的,而是通过物品被打分的历史记录来计算的。
基于物品的推荐
• 对于一个 User 行向量中的 0 值(用户未购买的物品),我们需要去 预测该用户在该物品(记为 I)上可能的打分,预测方法是,考 虑所有该用户已经打过分的 Item,以它们与 I 的相似度为权重, 对它们的分值进行加权平均,作为对 I 的预测打分,最终以预测 打分的高低为顺序给出推荐列表。 • 优点:是计算简单,容易实现实时响应; 可解释性好,用户可能不了解其他人的购物情况,但是对 自己的购物历史总是很清楚的; 缺点:精确度较低;冷启动问题;
推荐系统的应用(商业应用系统)
• Netflix 在线视频推荐系统; • Amazon 网络购物商城; • 如淘宝、京东商城、美丽说、豆瓣、百度....; • Amazon 发布的数据显示,亚马逊网络书城的推荐算法为亚马逊 每年贡献近三十个百分点的创收。
推荐系统的构成
• 输入
• 用户 • 物品 • 评价
• 一般采用 Hybrid(结合 Content-based 和 CF)方法解决该问题
Shilling Attack
• 有些人对于自己的东西或者对自己有利的东西打高分,竞争对手 的东西打低分,这会影响协同过滤算法的正常工作; • 主动的解决办法是采用 AntiSpam 的技术识别和去除作弊者的影响.
输出
• 推荐列表:按照一定的优先级列出用户可能喜欢的物品; • 推荐理由:比如购买了某商品的用户有 90%也购买了该商品;
典型的推荐方法分类
-----(依据推荐方法的不同)
• 也就是考虑如何发现数据的相关性:大部分的推荐系统其工作原 理还是基于物品或用户的相似性进行推荐:
• • • • 基于人口统计学的推荐(Demographic-based Recommendation) 基于内容的推荐(Content-Based Recommendation) 基于协同过滤的推荐 (Collaborative Filtering-Based Recommendation) 混合型推荐系统 (Hybrid Recommendation)
• 输出
• 推荐列表 • 推荐理由
输入(物品Item)
• 物品(Item):item profile,描述一个item的性质;
• 比如图书推荐:可能包括图书所属类别、作者、页数、出版时间、 出版商等; • 比如新闻推荐:新闻的文本内容、关键词、时间等; • 电影推荐:片名、时长、上映时间、主演、剧情描述等;
输入(用户user)
• 用来描述一个用户的“个性”,也就是 User Profile; • 根据不同的应用场景以及不同的具体算法,User Profile 可能有不 同的表示方式; • 比如该用户的性别、年龄、年收入、活跃时间、所在城市; • 但是往往user profile需要含有和item相关性较强的一些属性,比 如在什么时间购买了或者浏览了什么物品;
输入(评价review)
• 评价是联系一个User与一个Item的纽带; • 最简单的Review是User对某一Item的打分(Rate),表示了该 User 对该 Item 的喜好程度; • 主要分为两类:显示的用户反馈(比如对商品的评价),隐式用 户反馈(比如用户浏览网页查看了那些物品的信息以及浏览时间的 长短)
推荐系统面临的问题
• 1.数据稀疏性 Data Sparsity • 2.同义词问题 Synonymy • 3.Gray Sheep 问题 • 4.Shilling AtLeabharlann Baiduack
数据稀疏性
• 主要表现: • Neighbour Transitivity Problem,因为数据量过小,没有用户对相 同的 item 进行过评价,因此没法计算他们之间的相似性(例如在 电影推荐系统中,有很多电影只被小部分用户评级,而且这些电 影会很少被推荐,即使那小部分用户给予很高评级。 • Reduced Coverage 问题,rating 相对于item 来说太少了 • 解决办法:降维技术 (Dimensionality Reduction),通过奇异值 分解(SVD, Singular Value Decomposition)来降低稀疏矩阵的维度, 为原始矩阵求的最好的低维近似
同义词问题
• 问题表现为推荐系统中同一类物品有时被归为不同的名字(这也 进一步导致了数据稀疏性) • 解决办法:同义词挖掘、利用 SVD 进行语义分析等
Gray Sheep 问题
• 问题表现为有些人的偏好与任何人都不同(Black Sheep 是那些偏 好与正常人完全相反,根本没有办法向他们推荐的人群,gray sheep is derived from it)
推荐系统原理及问题分析
参考资料
• 1.维基百科:协同过滤 • 2.推荐系统调研报告及综述-----张永 • 3.百度搜索 • 4.http://h2ex.com/865 • 5.google搜索
什么是推荐系统
• 推荐系统属于资讯过滤的一种应用。推荐系统能够将可能受喜好 的资讯或实物(例如:电影、电视节目、音乐、书籍、新闻、图 片、网页)推荐给使用者。