基于用户兴趣建模的个性化推荐
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
然而,只用统计学的方法,利用资源访问量的高低来建立用 户模型,会使得用户兴趣的范畴受到了资源访问范畴的影响,无 法推理出访问资源范畴以外的潜在用户兴趣,导致随着资源访
收稿日期:2012 -08 -17。 石林,讲师,主研领域:海量数据存储,智 能软件技术。 徐飞,硕士生。 徐守坤,教授。
212
第 30 卷第 12 期 2013 年 12 月
计算机应用与软件 Computer Applications and Software
Vol畅30 No.12 Dec.2013
基于用户兴趣建模的个性化推荐
石 林 徐 飞 徐守坤
( 常州大学信息科学与工程学院 江苏 常州 213164)
摘 要 针对当前大多数个性化推荐中用户兴趣挖掘不足,导致资源推荐过快收敛的问题,以图书馆领域为背景,引入本体建模、 本体查询、 Apriori 算法来全面挖掘用户潜在兴趣,同时利用概念频繁兴趣簇来控制最终用户推荐的收敛性。 实验表明,该用户建模 能保证在较高的资源推荐查准率基础上,防止推荐过快收敛,体现用户确切的兴趣。 关键词 本体查询 概念频繁兴趣簇 Apriori 算法 中图分类号 TP311 文献标识码 A DOI:10.3969 /j.issn.1000-386x.2013.12.055
Abstract In light of the problems that in most personalised recommendation the users interest mining is insufficient currently , which leads to too fast convergence of the resources recommendation , in this paper, we take the field of library as the background , introduce the ontology modelling, ontology query and Apriori algorithm to comprehensively mine the potential users interest .Meanwhile, we use the concept frequent interest clusters to control the convergence of final users recommendation .Experimental results show that the user modelling can guarantee the prevention of too fast recommendation convergence on the basis of quite high resource recommendation precision rate , and reflect the exact interest of users.
用户兴趣模型模块 将概念频繁兴趣簇和潜在即时兴趣进 行合并,形成最终的用户兴趣模型。
总体过程 四个模块处于线性链接的过程。 行为记录模块 是整个系统的输入部分。 资源本体模块通过接受行为记录集, 对行为记录集中所涉及到的资源 RDF 文档进行本体查询,形成 用户的概念兴趣串集,作为兴趣挖掘模块的输入部分。 在更新 周期到达的时候,兴趣挖掘模块就对输入端的信息进行 Apriori 算法处理,潜在兴趣的挖掘,形成用户兴趣的概念频繁兴趣簇和 潜在即时兴趣簇,输入到用户兴趣模型模块。 用户兴趣模型模 块,则根据更新算法,将概念频繁兴趣簇和潜在即时兴趣簇进行 模型合并,形成最终的用户兴趣模型作为整个系统的输出。
定义 3 概念频繁兴趣簇 Fq ={ηn 1≤n≤N, ηn ∈F},其 中 F ={ fj 1≤j≤J} 为本体的所有概念集合,SQ ={Sq(ik ) 1≤ k≤K, Sq( ik )彻F} 是概念兴趣串集,而由概念频繁兴趣簇组成 了概念频繁兴趣簇集 FQ。
定义 4 推荐收敛性 Rc ={Fq(i, UR) 1≤i≤N , UR -> ∞},其中 Fq( i, UR) 为当用户行为记录集趋向于无穷大的时 候,用户兴趣模型中概念频繁兴趣簇的个数。
(3) “形式化” 是指本体是能够为计算机所理解、处理的。 (4) “共享”指本体中体现的是共同认可的知识,反映的是相 关领域中公认的概念集,也即本体针对的是团体而非个体的共识。 本体的目标是描述某一领域的共同的知识,对该领域的共 同理解。 根据这个原则,我们将领域本体应用到图书馆资源的 描述中,构建图书馆资源本体,用于这个系统的核心部位。 避免本体概念的重复累赘,如图 2 所示,首先利用原有图书 资源的本体建立大体的图书资源分类,再根据中华主题分词表, 对各个领域的分类、概念进行补充。 第一层为类别层,分为资源 表示分支和学科划分分支。 在资源表示分支第二层中,以图书 资源的表现形式,如:书本,期刊,杂志,文献等分类。 而后则以 时间、用途等进行分类。 在学科划分分支中,根据中图法,将各 个学科的分类作为第二层的类别分类,如:矿业工程、通信技术、 石油天然气工业、计算机技术等。 第三层就是将类型层中的各 个类别再细化为各个专题,比如计算机技术可以细化分为:计算 机软件、计算机网络、计算机安全等。 再将各个专题进行细化。 该本体资源的建立为用户建模的核心部分,在该本体上进行兴 趣的推理、挖掘。 形成概念兴趣串,用于兴趣挖掘模块的使用。
计算机应用与软件
2013 年
问量的增加,用户兴趣模型很难发生改变,推荐资源迅速收敛, 不能及时地满足描述用户兴趣转变的要求。 为了弥补这样的问 题,本文将向量空间模型和本体论结合,利用用户对资源的访问 量作为用户兴趣建模的基础,并将本体推理机制和 Apriori 算法 应用于用户兴趣建模中,推理出用户的潜在兴趣,跳出资源推荐 瓶颈,较好地满足了描述用户兴趣跳变的要求。
2 基于本体和概念频繁兴趣簇的用户建模
2.1 本体和概念频繁兴趣簇用户建模的总体设计
如图 1 所示,本文提出的用户建模方法,主要分为四个模 块:用户行为记录模块、资源本体模块、兴趣挖掘模块和用户兴 趣模型模块。
图 1 用户建模总体过程图
行为记录模块 主要负责通过用户对页面链接的浏览,资 源的点击和下载,反馈信息等行为所形成的行为日志文件进行 收集,形成比较实体的用户兴趣范围,用以进行资源本体的查询 和推理操作。 对于用户兴趣模型而言,行为记录所表示的用户 兴趣是一切工作的基础。
1 传统的用户兴趣建模
目前国内外传统的用户兴趣模型有基于向量空间的用户模 型和基于本体论的用户模型,向量空间模型是针对用户对资源 的使用程度,利用文本内容中的关键字或文本内容的主题向量,
进行关注频率的加权计算,将权值高的前几个关键字或主题向 量作为用户的兴趣模型。 文献[1] 提出的频繁集聚类用户模 型,计算用户频繁使用的资源的内容主题向量,形成多个频繁兴 趣簇来表征用户的多个兴趣方向。 本体论的用户模型则是向量 空间用户模型的一种完善,使用户兴趣模型更加富有语义信息, 加强了用户模型表征力度;文献[2] 提出的一种基于领域本体 的用户模型,利用用户访问量,采用改进的相似度算法,实现用 户分类建立用户模型,体现用户个人偏好;文献[3] 基于用户知 识本体和概念向量构建用户模型,实现了用户兴趣的个性化语 义描述;文献[4] 研究如何利用本体形式化描述用户的认知结 构,为用户构建基于领域本体的用户模型,提高了个性化检索的 质量;虽然基于本体论的用户模型解决了前者的不包含语义,很 难准确表征用户兴趣的问题,但是都是利用用户对资源的访问 量。 用统计学的方法,前者利用关注频率的加权计算,后者[1 -8] 利用概念关注度的计算,来最终形成不同存储形式的用户兴趣 模型。 可见无论是用向量模型还是本体模型进行用户兴趣建 模,用户对资源的访问量是构建用户兴趣模型的基础。
图 2 部分图书馆本体构件图
第 12 期
石林等:基于用户兴趣建模的个性化推荐
213
2.4 兴趣挖掘模块
概念频繁兴趣簇的构建: 定义 2 概念兴趣串 Sq(ik ) ={ ηkl 1≤l≤Ll , ηkl ∈F},其
中 F =fj 1≤j≤J}为本体的所有概念集合,ηkl 为资源 ik 的一个 核心内容概念,Ll 为资源 ik 的核心内容概念的数目,而概念兴 趣串 Sq(ik )彻F。
基于内容过滤的个性化推荐系统可分为:资源表征模块、用 户兴趣模型模块、资源匹配推荐模块。 用户的兴趣模型的建立 是整个系统的核心,资源推荐的准度和广度,完全取决于用户建 模表征用户兴趣的准确度和潜在用户兴趣的挖掘度。
然而,目前的用户建模研究比较单一[1 -8] ,用户模型只能表 征用户的行为兴趣,而不用挖掘用户行为记录后的潜在兴趣,完 全影响了资源推荐的效果。 建立基于用户兴趣的个性化推荐系 统已经成为了一个重要的课题。 针对这些问题,本文提出了一 种基于本体查询和频繁兴趣簇的用户兴趣建模,挖掘用户潜在 兴趣,并通过实验证实了模型的有效性。
下面将各个系统模块的详细设计和任务进行说明。
2.2 行为记录模块
定义 1 用户行为记录集 UR ={ recordn 1≤n≤N},其中 recordn =( irdfn , tn ),irdfn 表示用户行为所涉及到的资源的 RDF 文 档,tn 表示一个时间因子。
个性化推荐系统,首先设置用户的初始兴趣方向,或是根据 用户在推荐系统中以往的查询记录,所阅览的图书记录进行兴 趣分析,得到用户的兴趣方向。 所以用户在系统上的历史操作, 是创建用户兴趣模型的重要输入。 在本文提及的用户兴趣建模 中,图书资源本体将每一个资源实例以单独的 RDF 文档的形式 进行保存,用于在资源本体中的推理。 用户对图书馆网络中电 子图书的浏览、点击等隐性行为记录,将记录于网络日志中。 通 过对网络日志的分析,对用户以往所涉及图书资源的 RDF 文档 进行收集,用于构建用户兴趣模型。
PERSONALISED RECOMMENDATION BASED ON USERS′INTEREST MODELLING
Shi Lin Xu Fei Xu Shoukun
( School of Information Science and Engineering, Changzhou University, Changzhou 213164, Jiangsu, China )
2Hale Waihona Puke Baidu3 资源本体模块及图书馆资源本体应用
本体是概念化的明确的规范说明。 这说明本体的概念包含 了 4 层含义:概念模型、明确、形式化和共享。
(1) “概念模型” 指的是通过抽象出现实世界中的一些现 象的相关概念而得到的模型。 概念模型所表示的含义独立于具 体的环境状态。
(2) “明确” 所指的是使用的概念以及使用这些概念的约 束都有明确的定义。
Keywords Ontology inquires Concept frequent interest cluster Apriori algorithm
0 引 言
基于内容过滤的个性化推荐系统是当前图书文献资源检索 领域的一个发展方向。 根据用户的各种兴趣、要求、条件进行个 性化的资源检索,是当前在海量信息下,完成资源检索的一个挑 战,是使图书馆资源更好地服务于使用人群的一个挑战。
资源本体模块 主要是用于资源的描述功能,将每个资源 的内容,通过资源本体的某一些概念的组合来表示。 资源本体 模块是整个系统的核心,行为记录转化为概念兴趣串,以及通过 行为记录挖掘潜在的用户兴趣,都要运用资源本体来进行查询 和推理。
兴趣挖掘模块 是整个模型的优势特点模块,利用改进的 Apriori 算法将行为记录和资源本体模块所形成的概念兴趣串, 形成无冗余、无重复的、可表示用户长期兴趣方向的概念频繁兴 趣簇和利用 Sparql 本体查询语言以及挖掘算法,从概念兴趣串 挖掘出用户的潜在的即使兴趣,提高用户兴趣模型表示用户兴 趣的准确度和跳出用户资源推荐瓶颈。
收稿日期:2012 -08 -17。 石林,讲师,主研领域:海量数据存储,智 能软件技术。 徐飞,硕士生。 徐守坤,教授。
212
第 30 卷第 12 期 2013 年 12 月
计算机应用与软件 Computer Applications and Software
Vol畅30 No.12 Dec.2013
基于用户兴趣建模的个性化推荐
石 林 徐 飞 徐守坤
( 常州大学信息科学与工程学院 江苏 常州 213164)
摘 要 针对当前大多数个性化推荐中用户兴趣挖掘不足,导致资源推荐过快收敛的问题,以图书馆领域为背景,引入本体建模、 本体查询、 Apriori 算法来全面挖掘用户潜在兴趣,同时利用概念频繁兴趣簇来控制最终用户推荐的收敛性。 实验表明,该用户建模 能保证在较高的资源推荐查准率基础上,防止推荐过快收敛,体现用户确切的兴趣。 关键词 本体查询 概念频繁兴趣簇 Apriori 算法 中图分类号 TP311 文献标识码 A DOI:10.3969 /j.issn.1000-386x.2013.12.055
Abstract In light of the problems that in most personalised recommendation the users interest mining is insufficient currently , which leads to too fast convergence of the resources recommendation , in this paper, we take the field of library as the background , introduce the ontology modelling, ontology query and Apriori algorithm to comprehensively mine the potential users interest .Meanwhile, we use the concept frequent interest clusters to control the convergence of final users recommendation .Experimental results show that the user modelling can guarantee the prevention of too fast recommendation convergence on the basis of quite high resource recommendation precision rate , and reflect the exact interest of users.
用户兴趣模型模块 将概念频繁兴趣簇和潜在即时兴趣进 行合并,形成最终的用户兴趣模型。
总体过程 四个模块处于线性链接的过程。 行为记录模块 是整个系统的输入部分。 资源本体模块通过接受行为记录集, 对行为记录集中所涉及到的资源 RDF 文档进行本体查询,形成 用户的概念兴趣串集,作为兴趣挖掘模块的输入部分。 在更新 周期到达的时候,兴趣挖掘模块就对输入端的信息进行 Apriori 算法处理,潜在兴趣的挖掘,形成用户兴趣的概念频繁兴趣簇和 潜在即时兴趣簇,输入到用户兴趣模型模块。 用户兴趣模型模 块,则根据更新算法,将概念频繁兴趣簇和潜在即时兴趣簇进行 模型合并,形成最终的用户兴趣模型作为整个系统的输出。
定义 3 概念频繁兴趣簇 Fq ={ηn 1≤n≤N, ηn ∈F},其 中 F ={ fj 1≤j≤J} 为本体的所有概念集合,SQ ={Sq(ik ) 1≤ k≤K, Sq( ik )彻F} 是概念兴趣串集,而由概念频繁兴趣簇组成 了概念频繁兴趣簇集 FQ。
定义 4 推荐收敛性 Rc ={Fq(i, UR) 1≤i≤N , UR -> ∞},其中 Fq( i, UR) 为当用户行为记录集趋向于无穷大的时 候,用户兴趣模型中概念频繁兴趣簇的个数。
(3) “形式化” 是指本体是能够为计算机所理解、处理的。 (4) “共享”指本体中体现的是共同认可的知识,反映的是相 关领域中公认的概念集,也即本体针对的是团体而非个体的共识。 本体的目标是描述某一领域的共同的知识,对该领域的共 同理解。 根据这个原则,我们将领域本体应用到图书馆资源的 描述中,构建图书馆资源本体,用于这个系统的核心部位。 避免本体概念的重复累赘,如图 2 所示,首先利用原有图书 资源的本体建立大体的图书资源分类,再根据中华主题分词表, 对各个领域的分类、概念进行补充。 第一层为类别层,分为资源 表示分支和学科划分分支。 在资源表示分支第二层中,以图书 资源的表现形式,如:书本,期刊,杂志,文献等分类。 而后则以 时间、用途等进行分类。 在学科划分分支中,根据中图法,将各 个学科的分类作为第二层的类别分类,如:矿业工程、通信技术、 石油天然气工业、计算机技术等。 第三层就是将类型层中的各 个类别再细化为各个专题,比如计算机技术可以细化分为:计算 机软件、计算机网络、计算机安全等。 再将各个专题进行细化。 该本体资源的建立为用户建模的核心部分,在该本体上进行兴 趣的推理、挖掘。 形成概念兴趣串,用于兴趣挖掘模块的使用。
计算机应用与软件
2013 年
问量的增加,用户兴趣模型很难发生改变,推荐资源迅速收敛, 不能及时地满足描述用户兴趣转变的要求。 为了弥补这样的问 题,本文将向量空间模型和本体论结合,利用用户对资源的访问 量作为用户兴趣建模的基础,并将本体推理机制和 Apriori 算法 应用于用户兴趣建模中,推理出用户的潜在兴趣,跳出资源推荐 瓶颈,较好地满足了描述用户兴趣跳变的要求。
2 基于本体和概念频繁兴趣簇的用户建模
2.1 本体和概念频繁兴趣簇用户建模的总体设计
如图 1 所示,本文提出的用户建模方法,主要分为四个模 块:用户行为记录模块、资源本体模块、兴趣挖掘模块和用户兴 趣模型模块。
图 1 用户建模总体过程图
行为记录模块 主要负责通过用户对页面链接的浏览,资 源的点击和下载,反馈信息等行为所形成的行为日志文件进行 收集,形成比较实体的用户兴趣范围,用以进行资源本体的查询 和推理操作。 对于用户兴趣模型而言,行为记录所表示的用户 兴趣是一切工作的基础。
1 传统的用户兴趣建模
目前国内外传统的用户兴趣模型有基于向量空间的用户模 型和基于本体论的用户模型,向量空间模型是针对用户对资源 的使用程度,利用文本内容中的关键字或文本内容的主题向量,
进行关注频率的加权计算,将权值高的前几个关键字或主题向 量作为用户的兴趣模型。 文献[1] 提出的频繁集聚类用户模 型,计算用户频繁使用的资源的内容主题向量,形成多个频繁兴 趣簇来表征用户的多个兴趣方向。 本体论的用户模型则是向量 空间用户模型的一种完善,使用户兴趣模型更加富有语义信息, 加强了用户模型表征力度;文献[2] 提出的一种基于领域本体 的用户模型,利用用户访问量,采用改进的相似度算法,实现用 户分类建立用户模型,体现用户个人偏好;文献[3] 基于用户知 识本体和概念向量构建用户模型,实现了用户兴趣的个性化语 义描述;文献[4] 研究如何利用本体形式化描述用户的认知结 构,为用户构建基于领域本体的用户模型,提高了个性化检索的 质量;虽然基于本体论的用户模型解决了前者的不包含语义,很 难准确表征用户兴趣的问题,但是都是利用用户对资源的访问 量。 用统计学的方法,前者利用关注频率的加权计算,后者[1 -8] 利用概念关注度的计算,来最终形成不同存储形式的用户兴趣 模型。 可见无论是用向量模型还是本体模型进行用户兴趣建 模,用户对资源的访问量是构建用户兴趣模型的基础。
图 2 部分图书馆本体构件图
第 12 期
石林等:基于用户兴趣建模的个性化推荐
213
2.4 兴趣挖掘模块
概念频繁兴趣簇的构建: 定义 2 概念兴趣串 Sq(ik ) ={ ηkl 1≤l≤Ll , ηkl ∈F},其
中 F =fj 1≤j≤J}为本体的所有概念集合,ηkl 为资源 ik 的一个 核心内容概念,Ll 为资源 ik 的核心内容概念的数目,而概念兴 趣串 Sq(ik )彻F。
基于内容过滤的个性化推荐系统可分为:资源表征模块、用 户兴趣模型模块、资源匹配推荐模块。 用户的兴趣模型的建立 是整个系统的核心,资源推荐的准度和广度,完全取决于用户建 模表征用户兴趣的准确度和潜在用户兴趣的挖掘度。
然而,目前的用户建模研究比较单一[1 -8] ,用户模型只能表 征用户的行为兴趣,而不用挖掘用户行为记录后的潜在兴趣,完 全影响了资源推荐的效果。 建立基于用户兴趣的个性化推荐系 统已经成为了一个重要的课题。 针对这些问题,本文提出了一 种基于本体查询和频繁兴趣簇的用户兴趣建模,挖掘用户潜在 兴趣,并通过实验证实了模型的有效性。
下面将各个系统模块的详细设计和任务进行说明。
2.2 行为记录模块
定义 1 用户行为记录集 UR ={ recordn 1≤n≤N},其中 recordn =( irdfn , tn ),irdfn 表示用户行为所涉及到的资源的 RDF 文 档,tn 表示一个时间因子。
个性化推荐系统,首先设置用户的初始兴趣方向,或是根据 用户在推荐系统中以往的查询记录,所阅览的图书记录进行兴 趣分析,得到用户的兴趣方向。 所以用户在系统上的历史操作, 是创建用户兴趣模型的重要输入。 在本文提及的用户兴趣建模 中,图书资源本体将每一个资源实例以单独的 RDF 文档的形式 进行保存,用于在资源本体中的推理。 用户对图书馆网络中电 子图书的浏览、点击等隐性行为记录,将记录于网络日志中。 通 过对网络日志的分析,对用户以往所涉及图书资源的 RDF 文档 进行收集,用于构建用户兴趣模型。
PERSONALISED RECOMMENDATION BASED ON USERS′INTEREST MODELLING
Shi Lin Xu Fei Xu Shoukun
( School of Information Science and Engineering, Changzhou University, Changzhou 213164, Jiangsu, China )
2Hale Waihona Puke Baidu3 资源本体模块及图书馆资源本体应用
本体是概念化的明确的规范说明。 这说明本体的概念包含 了 4 层含义:概念模型、明确、形式化和共享。
(1) “概念模型” 指的是通过抽象出现实世界中的一些现 象的相关概念而得到的模型。 概念模型所表示的含义独立于具 体的环境状态。
(2) “明确” 所指的是使用的概念以及使用这些概念的约 束都有明确的定义。
Keywords Ontology inquires Concept frequent interest cluster Apriori algorithm
0 引 言
基于内容过滤的个性化推荐系统是当前图书文献资源检索 领域的一个发展方向。 根据用户的各种兴趣、要求、条件进行个 性化的资源检索,是当前在海量信息下,完成资源检索的一个挑 战,是使图书馆资源更好地服务于使用人群的一个挑战。
资源本体模块 主要是用于资源的描述功能,将每个资源 的内容,通过资源本体的某一些概念的组合来表示。 资源本体 模块是整个系统的核心,行为记录转化为概念兴趣串,以及通过 行为记录挖掘潜在的用户兴趣,都要运用资源本体来进行查询 和推理。
兴趣挖掘模块 是整个模型的优势特点模块,利用改进的 Apriori 算法将行为记录和资源本体模块所形成的概念兴趣串, 形成无冗余、无重复的、可表示用户长期兴趣方向的概念频繁兴 趣簇和利用 Sparql 本体查询语言以及挖掘算法,从概念兴趣串 挖掘出用户的潜在的即使兴趣,提高用户兴趣模型表示用户兴 趣的准确度和跳出用户资源推荐瓶颈。