《推荐系统技术》PPT课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
推荐系统
a
作者:苗原 联系方式:xhmiaoyuan@163.com
目标
• 推荐系统的意义 • 基于内容推荐 • 协同过滤推荐 • 频繁模式挖掘 • 标签系统 • 推荐结果评价
2
a
3
a
推荐源自文库统的意义
• 随着信息技术的迅速发展和信息内容的日益增长, “信息过载”问题愈来愈严重,愈发带来很大的 信息负担。
a
28
a
A用户基本信息:年龄25-30岁,性别:女 B用户基本信息:年龄30-35岁,性别:男 C用户基本信息:年龄25-30岁,性别:女
a(3,1) b(4,0) c(3,1)
年龄分:0-10 10-25 25-30 30-35 35-60 60-
性别:男 女
9
a
基于内容推荐(人口统计学的推荐)
余弦相似性
推荐系统的意义
5
a
基于内容推荐
信息来源:
• 物品基本信息 • 用户的基本信息 • 用户和物品之间的信息
6
a
7
a
基于内容推荐(人口统计学的推荐)
基于人口统计学的推荐思想: 根据系统用户的基本信息发现用 户的相关程度,然后将相似用户 喜爱的其他物品推荐给当前用户
8
a
基于内容推荐(人口统计学的推荐)
rule C =>A (50%, 100%)
25
a
频繁模式挖掘(频繁项集 )
项集 (Itemset): a set of items 例如 acm={a, c, m} , sup=3 频繁项集(高频项集) 如果项集满足最小支持度, 则称之为频繁项集
如果 min_sup = 3, 则 acm 是 频繁项集 如果频繁项集中 包含 K 个项,则称为频繁 K -项集
优缺点: • 能很好的建模用户的口味,能提供更加精确的推荐; • 物品相似度的分析仅仅依赖于物品本身的特征,这里没有考虑人对物品的态度; • 因为需要基于用户以往的喜好历史做出推荐,所以对于新用户有“冷启动”的
问题;
15
a
基于协同过滤推荐
信息来源: • 用户和物品之间的信息
• 基于用户的协同过滤(user-based CF) • 基于商品的协同过滤(item-based CF)
18
a
基于协同过滤推荐( item-based CF )
考虑到大多数电商网站多人多热门商品要远少于人 数,一般会选择基于物品的协同过滤算法。
19
a
基于协同过滤推荐
20
a
基于协同过滤推荐
优缺点: • 不需要考虑物品内容和人口属性,需要历史记录。 • 由于需要用户的历史偏好,所以存在新用户的“冷启动”问题;
21
a
频繁模式挖掘
• 关联规则挖掘的典型案例: 购物篮问题
• 在商场中拥有大量的商品(项目),如: 牛奶、面包等,客户将所购买的商品放 入到自己的购物篮中。
22
a
频繁模式挖掘(支持度与置信度 )
关联规则的支持度
如果交易数据库D中s的交易包含A∪B,则称规则A =>B在事务集D上的支持度为s。 Support(A=>B)=P(A∪B)
16
a
基于协同过滤推荐( user-based CF )
• 思想:根据所有用户对物 品或者信息的偏好,发现 与当前用户口味和偏好相 似的“邻居”用户群,为 当前户进行推荐;
17
a
基于协同过滤推荐( item-based CF )
• 思想:使用所有用户对物 品或者信息的偏好,发现 物品和物品之间的相似度, 然后根据用户的历史偏好 信息,将类似的物品推荐 给用户;
关联规则的置信度
如果交易数据库D中,包含A的交易中有c(%) 的交易同时也包含B,称规则的置信度为c。 (条件概率) Confidence (A =>B)=P(B|A) =support({A} => {B})/support({A}) (注:这里的U是指在交易中同时出现{A}和{B})
23
a
频繁模式挖掘
查找所有的规则 A=>C 具有最小支持度和 可信度 支持度 , s , 一次交易中包含 {A 、 C} 的可能性 置信度 , c, 包含 {A} 的交易中也包含 C 的条件概率
频繁模式挖掘
24
a
rule A=>C :
• support = support({ A } { C }) = 50% • confidence = support({ A } { C })/support({ A }) = 66.7%
• 施拉姆信息选择公式,人们对媒体的注意或选择 的可能性(然率)与它能够提供的报偿(价值) 程度成正比,与人们获得它的代价(费力)程度 成反比。
• 人们愿意用最小的代价获取价值最大的新闻信息。
4
a
推荐系统的意义
• 在互联网时代由于网络技术能以很低的成本让人 们去获得更多的信息和选择,事 实上,每一个人 的品味和偏好都并非和主流人群完全一致,当我 们发现得越多,我们就越能体会到我们需要更多 的选择。如果说搜索引擎体现着马 太效应的话, 那么长尾理论则阐述了推荐系统发挥的价值。
12
a
基于内容推荐(物品内容推荐)
物品相似度计算方法: • 基于物品基本信息 • 基于语义特征
13
a
基于内容推荐(物品内容推荐)
TF-IDF算法:自动提取关键词 如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映 了这篇文章的特性,正是我们所需要的关键词。
14
a
基于内容推荐(物品内容推荐)
10
a
基于内容推荐(人口统计学的推荐)
优缺点: (1)由于不使用当前用户对物品的喜好历史数据,所以 对于新用户来讲没有“冷启动”的问题; (2)可能涉及到一些与信息发现问题本身无关却比较敏 感的信息,比如用户的年龄等,这些用户信息不是很好 获取;
11
a
基于内容推荐(物品内容推荐)
系统首先对物品的属性进行建模, 图中用类型作为属性。通过 相似度 计算,发现电影A和C相似度较高, 因为他们都属于爱情类。系统还会 发现用户A喜欢电影A,由此得出结 论,用户A很可能对电影C也感兴趣。 于是将电影 C推荐给A。
26
a
频繁模式挖掘(Apriori算法 )
• 寻找最大频繁集 • 逐层搜索的迭代方法。 • 用k-项集探求(k+1)-项集。 • 具体地:
• 首先找出频繁1-项集,该集合记为L • 用L找出频繁2-项集的集合L • 如此继续下去,直到找到最大频繁项集
该方法,主要有连接和剪枝两步构成。
标签系统
27
相关文档
最新文档