推荐系统评价指标综述PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
推荐系统评价指标综述
汇报人:李烽
文献来源: 朱郁筱,吕琳媛. 推荐系统评价指标综述[J]. 电子科技大学学报,2012,02:163-175.
2
研究背景
信息过载 信息过载 多种推荐算多法种推荐算法
孰优孰劣
孰优孰劣
3
研究背景
信息过载
Web2.0时代,每个人既是信息接收者,也是信息创造者。信息数量庞大但质量参差 不齐,造成信息过载。
6
评价指标
✓ 准确度指标 ✓ 基于排序加权的指标 ✓ 覆盖率 ✓ 多样性和新颖性
7
准确度指标
预测评分的 准确度
预测评分关联
准确度 指标
分类准确度
排序准确度
8
预测评分的准确度
衡量算法预测的评分与用户实际评分的贴近程度
思路:计算预测评分和用户真实评分的差异
平均绝对误差(mean absolute error,MAE)定义为:
10
预测评分的准确度
标准平均绝对误差(normalized mean absolute error,NMAE)定义为:
NMAE = ������������������
������������������������−������������������������
式中,������������������������和������������������������分别为用户评分区间的最大值和最小值。 NMAE在评分区间上做了归一化处理,从而可以在不同数据及集对同一个推荐算法表现进 行比较
对各个指标的优劣和适用性了解较少,在评价指标 的选择和结果解释方面存在不足
5
评价方法
在线评价
设计在线用户实验,根据用户在线实时反馈或事后问卷调查等结果来衡量推荐系统的表现 A/B测试 高额成本
离线评价
根据待评价的推荐系统在实验数据集上的表现来衡量推荐系统的质量 方便、经济 数据集的划分(常用随机划分)与评价指标的选择
12
预测评分关联
Kendall’s Tau和Spearman类似,也是刻画两种排序值的统一程度,定义为:
������ =
������−������ ������+������
式中,C为正序对的数目;D为逆序对的数目。
缺点:对于所有的排名偏差都分配相等的权重,而不管具体的排序值,显然,不同的排名 偏差不能同等对待,用户更关心排在前面的推荐商品。
多种推荐算法
信息过滤,为满足用户需求推荐个性化推荐。协同过滤算法、基于内容的推荐算法、 混合推荐算法。。。
孰优孰劣
如何有效、客观评价推荐系统的效能,从实验室到实际应用的转换。
4
研究背景
很多学者对推荐评价指标认识不全面,局限于精确 性,忽视多样性、新颖性、覆盖率等指标
学术界尚未建立推荐算法评估完整统一的指标群, 部分学者写论文时只选择对自己有利的指标
局限:对MAE指标贡献大的往往是那种很难预测准确的低分商品
9
预测评分的准确度
平均平方误差(mean squared error,MSE)定义为:
MSE
=
1 |������������|
σ(������,������)∈������������(������������������
−
���������′��������� )2
均方根误差(root mean squared error,RMSE)定义为:
RMSE =
1 |������������|
σ(������,������)∈������������(������������������
−
���������′��������� )2
MSE和RMSE指标对每个绝对误差首先做平方运算,所以这两个指标对比较大的绝对误差有 了更重的惩罚
13
预测评分关联
弱关系排序问题:在实际系统中可能有某用户对两个或者多个商品评分一致的情况。
当真实排名和预测排名有并列情况出现时,可以用基于Kendall’s Tau改进的一个指标来衡量, 定义为:
������ ≈
������−������
(������+������+������������)(������+������+������������)
式中,������������ 表示真实评分相同的商品对数量,������������ 表示预测评分相同的商品对数量。
14
预测评分排关序相联悖是指在两个商品α和β中系统预测的是某用户更喜欢商品α,然而实际上用
户更喜欢是商品β; 排序兼容指的是系统预测用户对商品α和β同等喜欢,然而实际上用户更喜欢的是商 品α或者是商品β。 为了比较两个不同的弱排序序列, 文献[36] 提出了一种归一化的基于距离的评价指标 (normalized distance-based performance measure,NDPM)。 它的主要思想是: 先统计两个排序相悖的商品对个数������−以及两个排源自文库兼容的商品对个数������������。
σ������(���������′���−������′)2 σ������(������������−������′)2
������������和���������′���分别表示商品������的真实评分和预测评分。
Spearman关联和Pearson关联定义的形式是一样的,只是考虑的是根据预测评分值得到的排 序值,即 将上式中的������������和���������′���分别替换成商品������的真是排名和预测排名
MAE
=
1 |������������|
σ(������,������)∈������������
|������������������
−
���������′��������� |
������������������ 表示用户u对商品������的真实评分; ���������′��������� 表示用户u对商品������的预测评分; ������ ������ 表示测试集。
11
预测评分关联
衡量算法预测的评分与用户实际评分之间的相关性 最常见的三种相关性指标:Pearson积距相关、Spearman相关、Kendall’s Tau
Pearson积距相关系数衡量的是预测评分和真实评分的线性相关程度,定义为:
PCC =
σ������(���������′���−������′)(������������−������′)
汇报人:李烽
文献来源: 朱郁筱,吕琳媛. 推荐系统评价指标综述[J]. 电子科技大学学报,2012,02:163-175.
2
研究背景
信息过载 信息过载 多种推荐算多法种推荐算法
孰优孰劣
孰优孰劣
3
研究背景
信息过载
Web2.0时代,每个人既是信息接收者,也是信息创造者。信息数量庞大但质量参差 不齐,造成信息过载。
6
评价指标
✓ 准确度指标 ✓ 基于排序加权的指标 ✓ 覆盖率 ✓ 多样性和新颖性
7
准确度指标
预测评分的 准确度
预测评分关联
准确度 指标
分类准确度
排序准确度
8
预测评分的准确度
衡量算法预测的评分与用户实际评分的贴近程度
思路:计算预测评分和用户真实评分的差异
平均绝对误差(mean absolute error,MAE)定义为:
10
预测评分的准确度
标准平均绝对误差(normalized mean absolute error,NMAE)定义为:
NMAE = ������������������
������������������������−������������������������
式中,������������������������和������������������������分别为用户评分区间的最大值和最小值。 NMAE在评分区间上做了归一化处理,从而可以在不同数据及集对同一个推荐算法表现进 行比较
对各个指标的优劣和适用性了解较少,在评价指标 的选择和结果解释方面存在不足
5
评价方法
在线评价
设计在线用户实验,根据用户在线实时反馈或事后问卷调查等结果来衡量推荐系统的表现 A/B测试 高额成本
离线评价
根据待评价的推荐系统在实验数据集上的表现来衡量推荐系统的质量 方便、经济 数据集的划分(常用随机划分)与评价指标的选择
12
预测评分关联
Kendall’s Tau和Spearman类似,也是刻画两种排序值的统一程度,定义为:
������ =
������−������ ������+������
式中,C为正序对的数目;D为逆序对的数目。
缺点:对于所有的排名偏差都分配相等的权重,而不管具体的排序值,显然,不同的排名 偏差不能同等对待,用户更关心排在前面的推荐商品。
多种推荐算法
信息过滤,为满足用户需求推荐个性化推荐。协同过滤算法、基于内容的推荐算法、 混合推荐算法。。。
孰优孰劣
如何有效、客观评价推荐系统的效能,从实验室到实际应用的转换。
4
研究背景
很多学者对推荐评价指标认识不全面,局限于精确 性,忽视多样性、新颖性、覆盖率等指标
学术界尚未建立推荐算法评估完整统一的指标群, 部分学者写论文时只选择对自己有利的指标
局限:对MAE指标贡献大的往往是那种很难预测准确的低分商品
9
预测评分的准确度
平均平方误差(mean squared error,MSE)定义为:
MSE
=
1 |������������|
σ(������,������)∈������������(������������������
−
���������′��������� )2
均方根误差(root mean squared error,RMSE)定义为:
RMSE =
1 |������������|
σ(������,������)∈������������(������������������
−
���������′��������� )2
MSE和RMSE指标对每个绝对误差首先做平方运算,所以这两个指标对比较大的绝对误差有 了更重的惩罚
13
预测评分关联
弱关系排序问题:在实际系统中可能有某用户对两个或者多个商品评分一致的情况。
当真实排名和预测排名有并列情况出现时,可以用基于Kendall’s Tau改进的一个指标来衡量, 定义为:
������ ≈
������−������
(������+������+������������)(������+������+������������)
式中,������������ 表示真实评分相同的商品对数量,������������ 表示预测评分相同的商品对数量。
14
预测评分排关序相联悖是指在两个商品α和β中系统预测的是某用户更喜欢商品α,然而实际上用
户更喜欢是商品β; 排序兼容指的是系统预测用户对商品α和β同等喜欢,然而实际上用户更喜欢的是商 品α或者是商品β。 为了比较两个不同的弱排序序列, 文献[36] 提出了一种归一化的基于距离的评价指标 (normalized distance-based performance measure,NDPM)。 它的主要思想是: 先统计两个排序相悖的商品对个数������−以及两个排源自文库兼容的商品对个数������������。
σ������(���������′���−������′)2 σ������(������������−������′)2
������������和���������′���分别表示商品������的真实评分和预测评分。
Spearman关联和Pearson关联定义的形式是一样的,只是考虑的是根据预测评分值得到的排 序值,即 将上式中的������������和���������′���分别替换成商品������的真是排名和预测排名
MAE
=
1 |������������|
σ(������,������)∈������������
|������������������
−
���������′��������� |
������������������ 表示用户u对商品������的真实评分; ���������′��������� 表示用户u对商品������的预测评分; ������ ������ 表示测试集。
11
预测评分关联
衡量算法预测的评分与用户实际评分之间的相关性 最常见的三种相关性指标:Pearson积距相关、Spearman相关、Kendall’s Tau
Pearson积距相关系数衡量的是预测评分和真实评分的线性相关程度,定义为:
PCC =
σ������(���������′���−������′)(������������−������′)