基于二部图网络的个性化推荐系统
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
个性化推荐系统研究
Part 1
目 录
CONTENTS
基于二部图网络的推荐算法
Part 2
算法优缺点分析
Part 3
1
LOREM IPSUM DOLOR
搜索引擎技术是最早被提出的针对互联网信息超载问题的研究方法,但 是由于它需要用户提供明确的搜索目标,而且返回的搜索结果时间过于雷同, 因此没有办法很好的满足用户的多元化及个性化需求。针对上述搜索引擎中 存在的局限,个性化推荐系统应运而生。系统主要由用户模块、项目模块以 及推荐算法三部分构成。 个性化推荐系统在用户模块中分析用户的历史行为,比如浏览哪些信息、 点击哪些商品等,从而生成用户偏好模型。项目模块被用来分析不同项目的 特征信息,并以此来完成对项目模型的构建。最后,系统通过某种推荐算法 将用户模块中的用户兴趣偏好与项目模块中的项目特征模型进行比对,选出 符合用户偏好的所有项目生成推荐列表,并把推荐列表推荐给用户,从而完 成推荐。其中最关键的部分就是个性化推荐算法,通过设置高效的推荐算法, 系统可以自动地向其中所有用户进行智能的个性化推荐。
图1.1 通用推荐系统模型
推荐算法的优劣直接决定了整个系统的推荐效果 .。目前 学界尚未有一个统一的标准来对其进行系统的分类,较为常 用的推荐算法主要包括以下几种。 基于内容的推荐算法(Content Based Recommendation Algorithm) 协同过滤推荐算法(Collaborative Filtering Recommendation Algorithm) 混合推荐算法(Hybrid Recommendation Algorithm) 基于复杂网络的推荐算法 (Complex Networks Based Recommendation Algorithm)
1 2
LOREM IPSUM DOLOR
二部图网络结构是复杂网络中一种重要的表现形式,具有一定的普遍性, 是复杂科学中的研究热点。基于二部图网络的推荐算法以二部图网络中的节点及 连边代替传统推荐算法中的角色及其选择关系,并通过在网络结构上进行形式化 的计算来发掘用户的兴趣点。二部图是的二分网络的数据结构表现形式,它是由 两种不同类型的节点集以及这些节点间相连的边所组成的网状结构。设G={V,E}, 是一个无向图,它的顶点集V包括两个子集V1和V2,其满足以下条件。
其中,用户ui∈U,项目op∈O。当aip=1时,代表用户i与项目P之间存在 选择关系,当aip=0时,则代表用户i与项目P之间不存在选择关系。
基于图的推荐算法由Aggarwal于1999年首次提出,并迅速成为了个性化推荐 领域中新的研究热点。基于二部图网络的推荐算法以二部图中的节点及其连边代 替传统推荐算法中的角色及其选择关系,并通过在网络结构上进行形式化的计算 来发掘用户的兴趣点。当用户和项目之间发生选择关系时,在二部图结构中的相 应节点间便出现了一条代表这种选择关系的连边,我们认为在相连的节点之间存 在着某种可传递的能力值。 算法的基本思想如下:在一个二部图网络中,推荐系统希望通过节点之间的选 择关系,向目标用户进行推荐。当目标用户选择了某项目时,代表这个项目中必 然存在着某种用户感兴趣的属性值,它代表一种可传递的能力值,根据二部图网 络的关联结构,这个项目可以将自身的属性值传递给与其相连的项目节点。通过 对目标用户所有选择过的项目上的属性值进行传递及计算,便得到了用户感兴趣 的属性在二部图上各项目节点中的分布。 在二部图网络的基础上引入扩散动力学,实现了物质扩散(Mass Diffusion ) 及热传导(Heat Conduction )推荐算法。下面我们对两种算法分别进行分析。
1 3
LOREM IPSUM DOLOR
优点: (1)不拘于推荐内容:算法通过二部图网络上的选择关系来实现算法对用户的 推荐,并不考虑节点中项目的内容类型。只要节点之间存在选择关系,就可以在 网络中实施推荐过程,因此算法较基于内容的推荐可应用的场景更加丰富。 (2)重视推荐多样性:在热传导算法中,多样性的体现尤甚。二部图网络的结 构优势决定了它可以对算法的准确性和多样性兼而得之,大大提高了系统推荐冷 门项目的能力,算法也因此受到了更为广泛的关注。 缺点: (1)存在冷启动问题:本算法的计算过程是围绕着二部图网络进行的。当有新 的节点加入系统时,由于缺少选择记录,在二部图结构中尚未存在新节点与其他 节点的连边,因此节点上的传递值也无法扩散到新节点当中,因而无法对其产生 推荐,即出现冷启动问题。 (2)关联强度过大:在本章提出的算法中,对初始资源均等地赋值为1,这不利 于区分项目的受喜爱程度;同时在资源值传递时亦选择等分的传递方式,致使在 经过一段时间的传递后,节点间的资源值有所增强,关联程度有所升高,这会导 致算法精度的下降,也降低了算法的多样性效果。
1.数据稀疏性问题 作为依赖用户对项目评价信息的推荐算法所面临的主要问题,评分矩阵的稀疏性会严重影响推荐算 法的性能,导致系统难以准确地发现目标用户的相似邻居,致使用户感兴趣的内容无法被完整发掘,令 推荐效果大打折扣,无法充分满足用户需求。 2.冷启动问题 在实际应用中,系统的受众和项目随着系统规模的扩大呈指数型增长,这是就容易出现冷启动问题。 当新项目出现时,由于缺少任何用户对该项目的评分,从而难以对用户相似性或匹配程度进行计算,也 无法对项目进行评分预测,系统因此无法对该项目产生任何推荐,当新用户加入系统时同理。目前虽然 己有许多研究人员针对这一问题提出了解决办法,但问题仍未被彻底解决,还需要对其进行深入的研究。 3.可扩展性问题 在实际应用中,针对用户的项目推荐难度也随着系统规模的不断扩大而愈发提高,由此导致的可扩 展性问题也成为推荐算法中鱼待解决的问题之一。通过离线计算以及降维、聚类等方式,可以解决在大 型系统中出现的反应过慢、计算量过大等问题,这些改进方法都在一定程度上对系统的可扩展性有所提 高。 4.系统安全性问题 个性化推荐系统在对用户进行推荐时需要以某种方式来获取其偏好,但用户往往由于担心泄密而拒 绝提供个人信息,这是推荐系统中长期面临的问题。如何既能获取用户兴趣信息而提高系统的推荐效率, 又能有效保护用户的个人隐私,这也是个性化推荐系统中的重要研究方向。同时也有一些用户出于个人 意愿恶意捏造评分数据,以达到提高或降低某些项目被推荐概率的目的,这被称为推荐攻击,也是推荐 系统中存在的安全问题之一。如何检测并预防推荐攻击,也是个性化推荐系统的另一个研究方向。
1.设某项目op的初始资源为 f(op)>0,经过这一步传递,用户ui接收 到的资源f(ui)等于与其相连的所有项 目资源的平均值,其计算公式如下:
2.流向用户集的资源再反馈给项目 集,项目op分配到的资源f(op)为与其 相连的所有产品拥有资源的平均值, 其计算公式如下:
图2.3 热传导过程实例
1.所有初始资源等概率的从项目集 O流向用户集U,则用户集U中第i个节 点u所分配到的资源f(ui)计算公式如 下:
2.流向用户集U的资源再等概率的 流回项目集O,此时项目op分配到上午 资源f(op)计算公式如下:
图2.2 物质扩散过程实例
Hale Waihona Puke Baidu
推荐系统中的热传导过程类似于热量在用户一项目二部图中扩散的过程。基 于热传导的推荐算法(HCBI)将物质扩散算法中代表推荐能力的资源命名为物质, 热量的传递同样通过三步来完成:首先,我们同样为所有目标用户选择过的项目 分配一个初始值I,它代表了某种用户喜爱的属性。然后根据选择关系,把项目 节点上的初始值按照一定的方式传递给用户节点。最后,计算所有用户节点获得 的分配值,并把它们按照同样的传递方式返回给项目节点,通过计算,每个项目 节点最终都获得了一定的代表目标用户喜爱特性的属性值。在这里热量传递的方 式为每个节点所得到的所有相连节点分配给它的值的和除以这个节点的度。热传 导的实现过程如图2.3所示。
我们就把它称为一个典型的二部图, 常记为G={V1,V2,E}如图2.1所示。
图2.1 二部图结构模型
系统输入的数字可以组成一个二部图G={U,O,E},m个用户的用户集 U={u1,u2,…,um},含有n个项目的项目集O={o1,o2,…,on},边集 E={eip(ui∈U,op∈O)},二部图G具有以下拓扑性质。 (1)度和度的分布 节点度被用来表示网络中某节点的连接特性,在一个网络中,所有节 点度的集合可以映射出这个网络的连通关系。网络中某节点1的度k;代表 着与其相连的节点数量。 (2)邻接矩阵 aip可构成mxn的邻接矩阵A,它记录了用户i与项目p之间的选择关系, 其结构如下
基于物质扩散(Mass Diffusion)的推荐算法假设目标用户选择过的所有项 目都具有一定的其喜爱的属性,并且可以通过网络结构中节点之间的连边来传递 这种属性,我们称这种属性为节点所拥有的资源值。拥有这种资源的项目节点会 把资源更多的传递给目标用户喜爱的项目。具体推荐过程分为三步:首先,为所 有目标用户选择过的项目分配一个初始值,在这里我们将初始值设为1,它代表 了某种用户喜爱的属性。然后,根据用户和项目之间的选择关系,把项目节点上 的初始值按照一定的方式传递给用户节点。最后,计算所有用户节点获得的分配 值,并把它们按照同样的传递方式返回给项目节点,最终,每个项目节点都获得 了一定的代表目标用户喜爱特性的属性值。算法中每个节点分配给对应节点的分 配值都是通过其自身拥有的初始值除以节点度得到的。算法的实现过程如图2.2 所示。