TTRec时间相关的直播电视推荐算法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
小型微型计算机系统Journal of Chinese C o m p u t e r Systems 2021年6月第6期V ol.42 N o.62021
TTRec:时间相关的直播电视推荐算法
朱晓松u,郭景峰U2,李爽〃’5,郝童1’2
、燕山大学信息科学与工程学院,河北秦皇岛066004)
2(河北省文化旅游大数据技术创新中心,河北承德067000)
3(河北环境工程学院生态系,河北秦皇岛066102)
4(天津大学建筑学院,天津30_)
5(秦皇岛市城市景观生态与规划设计重点实验室,河北秦皇岛066102)
E-mail :xiaosongzhu@ ysu. edu. cn
摘要:随着直播频道的不断增加,观众不得不花费额外的时间和精力来选择适合的节目.通常,推荐系统可有效缓解上述问 题,然而直播电视所具有的实时性、多用户、隐性反馈、冷启动等特点给推荐系统的研究带来挑战.针对这些特点,现有的方法大 多利用时段划分的方式将用户对节目的偏好转换为对频道的偏好,通过推荐频道来完成节目的推荐.然而,这些方法的时段划 分规则依赖经验,不具通用性,可解释性差,并且未考虑用户偏好会随时间的推移而变化的情况,同时,推荐频道的模型往往忽 视了对正在播出的节目的关注.为此,本文提出了时间相关的直播电视推荐算法T T R ec.首先,采用聚类的方法按时段将每个物 理频道划分为若干虚拟频道,构建用户-虚拟频道偏好矩阵.其次,利用遗忘函数调整用户隐性反馈的量化结果,将其作为偏好 矩阵的填充值.然后,采用协同过滤算法对偏好矩阵中未知项进行预测.最后,以节目的时间特征为属性,通过计算正在播出的 新节目与历史节目的相似度来调整偏好矩阵中对应的数值,按调整后的结果生成推荐列表.在真实的数据集中的对比实验表 明,T T R e c明显优于对比算法.
关键词:直播电视;推荐系统;冷启动;时间相关;虚拟频道;聚类
中图分类号:TP302文献标识码:A文章编号:1000-1220(2021)06-1184-08
TTRec : a Time-aware Recommender System of Live TV
Z H U Xiao-song1.2,G U O Jing-feng1’2,LI S h u a n g3,4,5,H A O T o n g1,2
1 (College of Information Science and Engineering,YanShan University,Qinhuangdao 066004,Ch i n a)
2(Technology Innovation Center of Cultural Tourism Big Data of Hebei Province,Chengde 067000.China)
3(Faculty of Ecology,Environmental M a n a g e m e n t College of China,Qinhuangdao 066102, China)
4 (School of Architecture, Tianjin University .Tianjin 300000, China)
5(K e y Laboratory of Urban Landscape Ecology &Planning and Design of Qinhuangdao,Qinhuangdao 066102 .China)
Abstract:W i t h the increasing of live T V channels,viewers have to spend extra time and energy to choose suitable T V shows. Generally, a r e c o m m e n d e r system is able to effectively alleviate this problem,but the real-time,multi-user,implicit feedback,cold start bring challenges to the r e c o m m e n d e r systems of live T V.Facing these characteristics,m o s t of the methods adopted time-division strategies to shift the user's preference o n programs to the user's preference on T V channels,and r e c o m m e n d channels to perform the program recommendation. H o w e v e r,these time-division strategies rely on experience,are not universal,have poor interpretability,and do not take into account the fact that user preferences will be changed with the passage of time. M e a n w h i l e,those channel-recommended models ignore the characteristics of on-aired programs. Therefore, w e propose a time-dependent recommendation algorithm for live T V,
T T R e c. Firstly,each physical T V channel is divided into several virtual channels b y clustering,and a user-virtual channel preference matrix is constructed. Se c ondly,m e m o r y functions are used to adjust the evaluation of implicit feedbacks,which are used as filling values of preference matrix. T h en, w e adopt collaborative filtering algorithm to predict the u n k n o w n s of preference matrix. Finally, the corresponding values in the preference matrix are adjusted by the similarity between the on-aired program and the historical p r o grams, and a recommendation list is generated according to the adjusted results. C o m p arison experiments in real data sets s h o w that T T R e c i s superior to the comparison algorithms.
Key words:live T V;r e c o m m e n d e r systems ;cold start;time-aware;virtual channel ;clustering
收稿日期:202(M)6-13 收修改稿日期:202(M)7-23 基金项目:河北省重点研发计划项目(20310301D)资助;国家自然科学基金项目(61472340)资助;河北省文化旅游大数据技术创新中心开放课题项目(SG2019036-Z d2005)资助.作者简介:朱晓松,男,1982年生,博士研究生,高级工程师,C C F会员,研究方向为推荐系统;郭景峰(通讯作者),男,1962年生,博士,教授,C C F会员,研究方向为社会网络分析;李爽,女,1982年生,博士研究生,副教授,研究方向为数字景观、深度学习;郝童,女,1996年生,硕士研究生,研究方向为深度学习.
朱晓松等:TTRec:时间相关的直播电视推荐算法1185 6期
1引言
一直以来,直播电视是人们主要的收视形态之一.随着直
播频道的不断增加,节目越来越丰富,观众享受视听盛宴的同
时不得不花费额外的时间和精力思考“我该看哪个?”,这就
是所谓的“信息过载”问题.经统计,传统有线电视用户浏览
频道的平均人机响应时间为3-5秒,N o g u e i r a等研究表明用
户寻找一个合适的内容平均需要152秒[1],通过切换频道寻
找目标节目的方式耗时且令人厌烦.推荐系统成为直播电视
有效的收视工具[2].推荐系统在V o D(Video on D e m a n d)领域
的工业应用广泛,比如Netflix[31,Y ou tu be[4]•与V o D相比,直
播电视有诸多特点,这给其推荐系统的实施带来挑战:
1) 实时性.V o D为按需收视,它为用户提供了选择和检 索节目所需的时间和条件.而直播电视以广播形式实时播出,
视频的推荐只能发生在候选节目正在播出时.提前推荐,则候
选节目未播出.事后推荐,则候选节目已播放完毕.因此,直播
电视的推荐时间窗口小,推荐系统需对用户有快速的反馈.
2) 多用户.直播电视通常面对一群人,比如家庭成员,这 些人共用一个账户,这给用户的偏好提取增加了困难.
3)隐性反馈.直播电视通常以电视机和机顶盒为载体,用户通过遥控器来选择节目,人机交互效率低.因此,用户留
下的反馈类型单一,通常以隐性反馈(比如收视时长)代替显
性反馈(比如评分)来表达对节目的偏好.
4) 冷启动.直播电视每天更新大量节目,这些新节目没有 用户的反馈,推荐系统缺乏推荐依据,节目冷启动问题突出.从推荐目标来看,直播电视推荐系统可划分为推荐节目
和推荐频道两类方法[5].推荐节目的方法与V o D领域的推荐
策略相近,其中协同过滤被广泛采用,然而协同过滤的主要缺
点是无法应对冷启动,并且实时性差.推荐频道的方法关注用
户对频道的偏好,往往利用时间信息区分用户偏好,从而得到
用户在某个时段对频道的偏好,它不需要关注频道内容,因此
能够应对节目冷启动问题.推荐频道的方法可通过线下训练
模型,具有较好的实时性.然而,这类方法也存在不足,表现在
3个方面:
1) 大多方法利用收视时段区分多用户偏好,然而时段划
分规则依赖经验,不具通用性,可解释性差;
2) 在偏好估计时,现有模型很少考虑用户偏好会随时间
的推移而发生变化.
3)已有的频道推荐的模型往往不关注正在播出的节目,
无法根据实时节目特征动态调整输出结果.
为解决上述问题,本文仅以用户收视记录和电子节目指
南(Electronic Pro gr am G u i d e s,E P G)为原始数据,针对节目冷
启动下的直播电视推荐任务,提出了时间相关的推荐算法
T T R e c(见图1).首先,采用聚类的方法按时段将每个物理频
道划分为若干虚拟频道,构建用户-虚拟频道偏好矩阵.其次,
利用遗忘函数调整用户隐性反馈的量化结果,将其作为偏好
矩阵的填充值.然后,采用协同过滤算法对偏好矩阵中未知项
进行预测.最后,以节目时间特征为属性,通过计算正在播出
的新节目与历史节B的相似度来调整偏好矩阵中对应的数
值,调整后的结果用于生成推荐列表.
Preference estimation Preference prediction
C1-1Cl-2C2-1Cl-2Cl-l Cl-2C2-1Cl-2
0.520.260.520.260.170.61
0.330.220.87
C F
—►0.740.330.220.87
0.150.600.490.200.150.60ci r p i
Cl \p l
Recommendation at t
t、
Broadcasting
TV programs
3V
\]l
Cl-l Cl-2 C2-1 C2-2 w, |0.52 |0.26 |0.17 |0.61 | ^t
w, |i?(0.52)|/?(0.i7)|
Pi P2
图1所提算法 Fig. 1Proposed algorithm
本文的主要贡献包括:
•采用聚类的方法将每个物理频道划分为多个虚拟频道 来区分多用户偏好,以用户-虚拟频道偏好矩阵代替传统的用 户-项目矩阵来估计用户偏好.
•利用遗忘函数调整用户的隐性反馈的量化结果,从而 优化偏好估计的效果.
•通过用户-虚拟频道偏好矩阵将直播电视冷启动下的 推荐转换为协同过滤问题,采用协同过滤算法对矩阵中未知 项进行预测,解决了节目冷启动问题.
•通过节目相似度计算将正在播出的节目信息引人模型 中,提升推荐结果.
2相关工作
随着移动互联网的发展及智能电视、智能机顶盒的普及,直播电视推荐系统的研究逐渐成为热点.在直播电视用户的收视行为中,收视时间是一项重要的信息,它反映了用户的收 视偏好,也间接体现了节目(频道)的特征.因此,它在直播电 视推荐任务中得到了研究者的关注.本文根据推荐推荐目标 将直播电视推荐方法分为推荐节目的方法和推荐频道的方 法,并分别阐述两类方法中的利用收视时间信息的研究成果. 推荐节目的方法与V o D推荐任务的解决方案相近.在2015 年,R a s等[5]做了一项关于电视推荐问题相关文献的调查工 作,尤其是推荐节目的方法.B a m b i n i等[6]提出了基于内容方 法,他们通过计算节目媒体信息的相似度来解决直播电视节 目冷启动问题.基于内容的算法是各类推荐任务中解决冷启 动问题的通用方法,但推荐结果在新颖度和多样性方面表现 较差,推荐准确性依赖标签的维度和质量.H u等[7]将用户对 节目的偏好直接转换为〇或1,利用矩阵分解方法预测偏好.这种转换丢失了大量原始信息.Ji n等[8]构造了一种用户收视 时长和观看时长占比的评分函数,利用P e a r s o n相关系数计 算用户间相似度,通过基于用户相似度的协同过滤算法(U s
1186小型微型计算机系统2021 年
er-based C F,U C F)实现节目推荐.W a n g等构建了account-
item-t i m e张量,通过聚类张量分解后的时间子空间,来标识 账户里面的用户.C h o等[|°]利用最小二乘法对user-item偏好
矩阵进行偏好预测生成评分矩阵,利用收视概率模型对评分 矩阵调节.R e CT i m e[11]考虑了时间因素的两个维度构建4-d张 量,通过因式分解,系统自然地同时识别了推荐时间和推荐项. 然而,这类基于协同过滤技术的方法面临着矩阵(张量)稀疏 和节目冷启动的问题.其它一些方法,比如,C h a n g等[12]和 Z h a n g等[|3]从用户收视历史和社会网络当中获得用户偏好. K i m等[141利用媒体信息提出了一个知识扩展的方法应用到媒 体推荐上,也可用于直播电视推荐.H s u[l5)在假定获得用户众 多属性的情况下进行推荐任务研究,包括兴趣,情感,经历,人 口信息等,利用_实现节目推荐.S o n g等[161利用基于贝叶 斯概率模型的数据挖掘方法来分析节目大量的本文信息提取 用户偏好,向个体或者群体用户提供推荐.Y o u n g等[n]引人了 O T T数据,并将其与I P T V数据混合使用,利用显性的混合策 略提升推荐准确率.G o n ea l v es等[|8]提出了一个U R的方法利 用上下文信息和隐性反馈来帮助运营商提升推荐效果.可见,这些方法都依靠了不同类型的额外数据来解决冷启动问题.
电视节目以频道为载体,因此推荐频道的方法是直播电
视推荐任务特有的方法,相比推荐节目的方法,其相关研究工 作较少.推荐频道的方法通常借助时间因素将用户对节目的 偏好转换为对频道的偏好,并以频道为媒介把历史节目和新 节目关联起来,从而解决节目冷启动问题.比如,Cremonesi 等[191将一天分成8个时段并为每个用户构建time-c ha nn el评 分矩阵,利用每个收视时段的累积收视时长作为用户在该时 段的收视偏好,通过张量分解预测偏好.Turrin等[M]和W u 等[21]分别将一周等分成24 x7和48 x7个时段,结合节目分 类信息捕捉用户偏好.上述方法所采用的偏好估计模型(比如user-channel)的规模远小于user-i t e m矩阵,因而缓解了数 据稀疏性问题.Y u等[22]融合多种推荐频道的策略,把推荐任 务看作二分类问题,该方法即考虑用户对频道的偏好又兼顾 了当前正在播出的节目,采用24均分的时段划分策略.Zui 等[23]将用户在频道上的累计观看时长作为频道偏好,通过计 算频道间的相似度完成推荐.B a h n和B a e k M]分析用户的历 史收视行为从时间局部性和流行相关性提取用户收视特征. 综上,推荐频道的方法不必关注新节目播放时用户的反馈和 正在播出的节目信息,因而可通过线下实现模型的全部计算,使得算法具有较好实时性.然而,上述方法的时段划分策略依 赖经验,可解释性差,忽视了对正在播出的节目特征的提取,也未考虑用户的偏好会随时间的推移而变化的特点.
3本文算法
3.1准备工作
假定:已知用户集"、频道集合C、历史节目集合,在/时刻,正在播出的节目集合为/T'节目冷启动问题表示为尺始门尺謂=0,有| | = I C I,且对于任意历史节目// e 有a r s C/u m/j e K/)e C,同理,任意正在播出的节目
/T-,有叫C V w/m W(p")e C.那么推荐任务是:在丨时刻,为 用户《的产生T O P-N推荐列表(C,A〇(推荐频道)或者ra<(/T W)(推荐节目).选择用户切换频道的时刻作为换
台时刻,换台操作表明当前用户正在寻找喜爱的内容,此时的
推荐正好满足其需求,而这一时刻就是用户收视记录的开始
时间.对于直播电视而言,常见的数据集包含收视记录和E P G
(见表1和表2),这些数据为最为基础,本文以此开展工作,所
提方法包括偏好估计、偏好预测、推荐3个过程(见图1).
表1收视记录
Table 1Vie wi ng record
名称描述
uid用户i d
start _time收视行为的开始时间
end一t ime收视行为的结束时间
channel一id频道i d
event 一id节目i d
1)偏好估计.通过收视时段划分的方式将每个频道划分
成M个收视时段,每个时段被称为一个虚拟频道.因此,m个
用户的所有收视行为均可映射到n个虚拟频道上,通过构建
用户-虚拟频道评分矩阵£=(匕^:^^来描述用户偏好-具体
的,将每个收视行为量化,并经遗忘函数调整后累加到£中,
S中的未填充项保留为空.
表 2 E P G
Table2E P G
名称描述
event 一i d节目i d
event_name节目名称
bs—time开始播放时间
be—time结束播放时间
channel 一i d频道i d
channel_name频道名称
2) 偏好预测.在评分矩阵£的基础上,采用协同过滤方 法预测用户的偏好.分别以奇异值分解(Singular Value D e-composition,S V D)和张量 Tucker分解(Tensor Tucker D e c o mposition) 两种方式为例,填充 £中 的空项,从而得到= (e,")…•
3) 推荐.计算虚拟频道V中正在播出的节目P与当前用 户在虚拟频道V中收看过的历史节目P'的相似度d m,以此调
整々•
下文将详细描述上述过程.
3.2偏好估计
偏好估计包含量化隐性反馈、生成虚拟频道、构建用户-
虚拟频道评分矩阵3个步骤.
首先,量化隐性反馈.用户的隐性反馈如表1所示.已有
的量化方法包括收视时长累计法[25],“0-1”法[26],收视时长
占比法[H>].注意到,收视时长累计法只考虑了用户的收视时
长,但未考虑节目自身的长度.假设用户《从节目的播放时刻
O m'm e)分别收看了阿甘正传(节目时长为142分钟)和纸
牌屋(节目时长为45分钟)各40分钟,收视时长累计法认为
两次收视行为等价,但很显然用户《对纸牌屋的偏好要髙于
阿甘正传•“0-1”法只反映了用户是否收看了目标节目,对原
始信息的利用明显不足.因此,本文选择收视占比法,即:
朱晓松等:TTRec:时间相关的直播电视推荐算法1187 6期
^ff3, vrf = end_tim e-start_tim e, rt = be_time-start_time.
其次,电视频道通常在不同的时段播放不同类型的节目,尤其是综合类型的频道•比如,C C T V-1在早晨播放早间新闻,在下午放学后播放动画片,在晚上播放电视剧和晚间新闻 等,每个时段播放的内容面向不同的收视群体,电视节目的播 出呈现周期性•因此,将频道c的一个播出周期(比如一天)划分成若干子时段,每个子时段称为一个虚拟频道.与现有基 于经验的时段划分策略不同,考虑到每个频道的节目风格及 播出计划存在差异,本文将与频道c相关的所有用户的收视 记录的开始时间(■s torCfime)作为输人,利用K m e a n s++ (欧 式距离)将频道c的一个播出周期(比如一天)聚类为《个子 时段,每个子时段对应频道c的一个虚拟频道.即:
D c:=j j d css.t.n d cs=0(2)
式(2)表明,频道c的时段划^集合R由连续的收视子时 段组成,各子时段没有交集.其中,是频道c的第s个收视 时段,也即频道c的第s个虚拟频道.对于任意频道1若
则久#虚拟频道集合为V = |丨c e C,s e[1,
2,-“,/m>2(«,L J]|人表示为所有用户关于频道c的收视记录 集合,C为物理频道的集合.聚类结果反映了该频道周期性的播
出特征.类似的,陶永才等[27]针对用户阅读过的新闻聚类,为用 户划分阅读时段•注意到,尽管虚拟频道数量多于物理频道,但任 意时刻正在播出节目的虚拟频道的数量与物理频道数量相等.
虚拟频道本质上是通过引入时间因素将物理频道划分为 若干子“频道”,由于电视节目的播出呈现明显的周期性,因此,这种基于时段的划分方式能够有效地反映每个频道的播 出特征.此外,直播电视观众分为若干收视群体,比如老年人,儿童,成年人等,不同的收视人群在收视时段的选择和频道的 选择方面存在差异,而基于收视行为的虚拟频道划分恰能区 分不同的收视人群.相比基于经验的时段划分方式,本文方法 反映了频道间的差异、可解释性强.
最后,构建用户-虚拟频道评分矩阵£= (e….v),用户《对虚拟频道v的评分为:
e».v= (3)
其中,■«;:表示用户《的收视行为的处于频道 c 的第^个时段时对应的节目集合,F(r….,_,/〇表示用户M关于 节目/的评分经过\小时衰减后的评分.窦羚源等[28]自定义了衰减函数,本文则分别引入牛顿冷却定律式(4)和艾 宾浩斯遗忘曲线式(5)作为衰减函数.
n r u,i,h i)=r u_l x e1-'^(4)其中,/表示为冷却系数,《为数学常数.
H r^A) =rM x(l -0.56X A,006)(5)
观众的收视行为呈周期性,主要体现在收视时段上,而不 是在频道或是节目的选择上.比如,“追剧”是一种常见的收 视行为,某观众在每晚20:05收看北京卫视的《大宅门》,此 后又在每晚19:35 “追”浙江卫视的《亮剑》,两次“追剧”发生 在同一个收视时段^在两次追剧评分相等的情况下,若整部 《亮剑》还未结束,该观众仍有继续“追”《亮剑》可能,此时通 过遗忘函数使得该用户在f时段对浙江卫视的偏好高于对北京卫视的偏好.
3.3偏好预测
通过偏好估计,用户对节目的偏好(包含将要播出的节
目)被转换为用户对《个虚拟频道的偏好,有效地缓解了节
目冷启动和数据稀疏的问题.然而,这并不能保证所有用户对
每个虚拟频道都有评价,也即矩阵£中仍可能存在空值.因
此,利用协同过滤算法填充£中的空置项从而获得£'=
(,u.•这里分别S V D和T u c k e r分解两种方式为例进行
偏好预测.
1)S V D是著名的矩阵分解算法,它将X p,分解成3个不 同的矩阵i p,,表示为:
X =LMR t(6)其中,,和,分别为正交矩阵.为奇异矩阵,其
对角线数字为非负实数.如从高到低保留S个对角线数字,其
余对角线数字用〇代替,那么通过式(7),得到与原始矩阵X
接近的低秩矩阵X u),从而对原始矩阵中的未知项进行预测.
=L、g、M(g)R⑷(7)
2)张量分解包括C P分解和T u c k e r分解.其中,Tuckei•分
解将张量分解为核心张量在每个模型上与矩阵的乘积.因此,
三维张量可以表示为:
P Q R
X X= [G;A,5,C](8)
p =1q =1r = 1
其中,/^»〃'5£1^><£!和(:£股*^为因子矩阵,通常
是正交的.G e R P x e><R为核心张量.P、Q和R为A、B和C的
成分数(例如列相量的数目)/?«/!:.对于X中未
知元素,
采用式(9)进行预测:
P Q R
xat ^Z S X SP q r aiP bJ q ck r(9)
p=\ q=1r = l
这里令[= /?= 1,采用式(9)预测二维张量Mjer-vi’rma/
c/ianne/的空置项.
3.4推荐
经过偏好预测,在推荐时刻G用户《的任意候选节目均
能唯一对应一个虚拟频道并在偏好预测矩阵F中对应一个
预测评分,此时已经能够应对节目冷启动.为进一步优化
推荐模型,本文引入候选节目信息.通常,各频道在每天的同
一时段播放的节目类型相似.因此,通过计算同一虚拟频道中
候选节目与历史节目的相似度,结合用户对历史节目的评分
来预测用户对候选节目的评分.节目间相似度的计算通常采
用基于媒体信息(比如节目分类)的方法,本文提出利用时间
信息计算节目相似度的方法.假设同一虚拟频道播出的不同
节目 i'和丨_,若二者时间信息
丨相近,则两个节目相似,利用欧式距离来计算两节目的
相似度h m〇_',〇.推荐过程包括3个步骤:
首先,利用节目相似度预测用户《对节目^的评分^.,.,
如式(10)所示:
S ,6(F( r«,«»hi) ^S i m(i\i))
m i n(Su/^n o w)y
〇0
K1:,= 0
(10)
其中,i_'为虚拟频道v中正在播出的节目,/?匕表示用户《
1188小型微型计算机系统2021 年从虚拟频道v中收视的历史节目集合,I/'e4.3模型选择与结果分析
,/T~表示候选节目集.
其次,通过式(11)对&,.进行归一化处理,并将最终结果 调整到[1,2]中.
m a x(S uRmw) -s ut.
K.f = 2(11)
^u,R n o w)/WI/z(Su n n〇w )
最后,通过式(12)得到用户《在时间f对节目r的偏好:
r u.i' = e u,v~e u.v X(12)
4推荐模型选择及实验结果分析
4.1数据处理及评价标准
数据源来于生产系统,从2017年5月17日-2017年6月20曰包括包含35143个机顶盒的收视记录和E P G.为方便实 验,本文随机选择500个账号,每个账号至少200条收视记 录,生成用作实验的数据集.将每个账号的收视记录按照发生 时间先后排序,以80:20的比例分成训练集和测试集,过滤掉 测试集中收视时长少于300秒的收视行为.数据集中各节目 i d均不相同,相关算法在完全节目冷启动条件下实施,即
=0.采用 Precision'Recall、n D C G 和 M R R 作为评价标准.
4.2对比方法
为展示所提算法的性能,本文从偏好估计及偏好预测的 角度选择对比算法,并增加P o p方法以反映直播电视业务的 收视特点,这些方法均能应对冷启动问题:
P o p:在推荐时刻统计每个频道的在线收看人次,按照 从多到少排列.
U C T[29]:基于时段划分的推荐模型.首先,将每天分成8 个收视时段,构建user-time-c ha n n el评分展张量;其次,将每 个收视时段的累积收视时长作为用户在该时段的收视偏好;最后,通过Tucker•分解实现结果预测.
M F H M8]:基于用户相似度的协同过滤模型.通过引入 权重系数,融合用户的收视时长和观看时长占比,构建用户收 视评分函数.利用P e a r s o n相关系数计算用户间相似度,通过 基于user-b a s e d的协同过滤算法实现推荐,在推荐时刻利用 邻居对当前节目已播放部分/V的评分来代替未播放部分P,的评分.
S T[30]:基于图的推荐方法.本文采用基于|用户,项目,标签13部图的方法51'(30]来捕捉用户-频道-时段特征.1)将 所有节目的播出开始时间聚类,产生P= 24个时段标签集 H s;2)将所有节目的播出结束时间聚类,产生P= 24个时段 标签集H e;3)频道名称标签集T e.全部标签集为T= |H S, H e,T e|,标签总数为ITI =24 + 24+ n.
W I M11()]:当前最新的直播电视推荐算法,它从偏好估计、评分预测、推荐3个环节提升算法性能.首先,将用户的收视 行为提取为收视评分以及评分权重;其次,采用加权的最小二 乘法预测未评分项;最后,利用收视概率模型对评分矩阵调节,将调节结果按照降序后产生推荐列表.本文采用加权的最 小二乘法的隐特征空间维度为60,迭代次数300.本文对W I M进行了调整以使其能应对节目冷启动,调整方法在对比 实验中说明.4.3.1 数据的利用
偏好估计是本文模型的基础,本文利用偏好估计来选择 最佳的原始数据.直播电视用户通过反馈收视时长来表达对 目标节目的偏好.极短的一个收视时长很可能意味着用户刚 刚了解的节目内容(比如,节目名称及节目类型)便表达了一 种负面情绪,这类行为在收视行为中比重较大,比如,30秒以 内的收视时长,占收视行为的比例为60. 58%,这类表达负面 情绪的收视行为被称为负反馈,其余行为则被称为正反馈.区 分正负反馈的目的在于有效的利用数据,提高偏好估计的效 果.对于不同的模型,正负反馈的区分标准也不相同,比如,W I M采用收视时长占比[11)1,W a n g等[9]采用设定收视时长阈 值(300秒).本文设定收视时长阈值a来过滤数据,探讨如何 给本文模型提供最佳输人.分别将a e 10,60,120,180,240, 300,3601作为门限过滤掉“短暂”的收视行为.从表3看到,当a=〇时,本文模型获得最好结果.当a =240,本文模型获表3 a对偏好估计的影响(《=8)
Table3 Impaction of a o n preference estimate(« = 8)
Metrics060120180240300360 Recall@l0.35580.35730.35520.35570.36240.35780.3570
Recall @50.67250.66680.66230.65790.65190.64900.6428 Predsion@l0.35580.35730.35520.35570.36240.35780.3570 Precision @50.13450.13340.13250.1316o.\m0.12980.1286
n D C G@l0.35580.35730.35520.35570.36240.35780.3570
n D C G @50.52550.52340.52080.51950.51920.51540.5118
M R R0.49850.49460.49260.49170.49330.48920.4868
得最好的T〇P-l,但推荐列表质量下降.这是由于随着数据量 的减少,偏好估计矩阵变得稀疏,同时非热点偏好的估计可能 变得不准确,影响了冷门偏好的推荐效果.然而,因热门偏好 的样本丰富,数据的减少对热门偏好估计的影响较小.相反,数据质量的提升使得其偏好估计更加准确,从而提升了模型 对热点内容的推荐精度.
4.3.2 偏好估计效果
固定《=〇,调整虚拟节目划分的聚类数.如表4所示,尽 管在^ = 12处和《= 1处,部分指标表现突出.但在《= 4处,
n D C G@5和M R R明显优于其它.由于好的候选项列表对后 续的偏好预测和推荐有利.因此,选择在a=〇,《=4的条件 下,比较遗忘函数的效果.为便于呈现,将User-virtual channel 偏好提取策略表示为E l,N e w t o n's law of cooling(冷却系数 f= 0.03)表示为E2, H e r m a n n E b b i n g h a u s遗忘曲线表示为
E3.如表5所示,相比E l,组合(El +E2)和组合(El +E3)各 方面的评价结果都有不同程度的提升.在采用E1的条件下,
牛顿冷却定律的效果优于艾宾浩斯遗忘曲线.从表6中,本文 获得了牛顿冷却定律的最佳冷却系数(/=〇.〇3).
4.3.3 偏好估计效果
如表7所示,P1表示S V D,P2表示T u c k e r分解.通过策 略组合来评价每个策略的作用.组合(El + E2 + P1)和组合 (El +E2+P2)的效果均比组合(El +E2)(表5)的效果好,同样,组合(El +E3+P1)和组合(El +E3 +P2)的效果均比 组合(E l +E3)(表5)的效果好,这说明S V D和张量分解均 发挥了作用.组合(El+ E2 + P1 )的效果优于组合。