个性化新闻推荐系统中用户兴趣建模研究_宫玲玲
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 相关技术
1.1 本体
本体(Ontology)的概念最初起源于哲学领域, 20 世纪 70 年代末 John McCarthy 将这个哲学术语引 入到计算机领域。在人工智能界,Gruber(1993 年) 给出了本体一个较为广泛接受的定义,即“本体是 概念模型的明确的规范说明”【4-5】。本体由四部分组 成:概念(Concept,用于表示一组或一类实体)、关系 (Relation,用 于 表 示 概 念 或 它 们 的 属 性 之 间 的 关 系)、公理(Axiom,即规则集,用于对类或实体的值进 行约束)和实例(Instances,指属于某概念类的基本元 素,即某概念类所指的具体实体)【6】。本体作为描述 知识的一种手段,是某个领域中不同主体进行知识 交流的语义基础。本文用到的领域本体是指依赖 于某个领域,特定领域内可以重用的,提供该领域 特定概念定义、概念之间关系、发生的活动以及该 领域主要理论和基本原理等的概念模型。
用户兴趣分为长期兴趣和短期兴趣,兴趣是不 断发生变化的。长期兴趣反映出用户长期的偏好 特征,短期兴趣随着时间的推移发生改变。一般情 况下,每个用户都会对某种类型的新闻内容有稳定 的兴趣。比如某用户喜欢足球新闻,且喜欢科技类 新闻等类别,这属于长期兴趣,不易改变。除长期 兴趣外,用户可能在某个特定时期临时关注某些信 息,这属于短期兴趣。比如某用户某段时间想购买 电脑,所以对关于电脑的信息特别关注,但购买之 后关于这方面的信息就不再关注了。还有些短期 兴趣是周期性的,比如每到五一假期,很多人对旅 游产生兴趣。识别用户的短期兴趣,只能通过统计 用户使用系统的记录,但是用户的短期兴趣持续时 间短,很难与用户偶然性的浏览相区分。本文所建 立的用户模型将用户的长期兴趣和短期兴趣相结 合,能同时反映出用户的长期兴趣和短期兴趣的变 化,所以使推荐更加准确有效。
收稿日期:2012-05-22 基金项目:山东省软科学项目(2011RKGB5025) 作者简介:宫玲玲(1988-),女,山东烟台人,硕士研究生,主要从事情报学、网络信息系统研究.
- 127 -
·Doctor Forum·
INFORMATION SCIENCE Vol.32,No.5 May,2014
本文领域本体的构建根据 ODP 的前三个层 次,共 15 个一级大类,582 个二级类目。第三层在 采用 ODP 第三层类目的基础上,根据中文维基百科 的分类索引进行特征词的扩充。这样基本能够涵 盖新闻领域的大部分概念及其关系。如图 1 所示一 个简单的新闻领域本体的部分结构。本文使用 Stanford 大学开发的 Protégé 4.1 本体编辑器来建立 本体。此软件是基于 Java 语言开发的本体编辑和 知识获取软件,属于开放源代码软件,用于创建、可 视化、操纵各种表现形式的本体。
大小。当 tmin ≤ tij ≤ tmax 时,如式(2)所示。
Cij
=
Ri × tij size( j)
(2)
其中,tmin 表示最小阅读时间,tmax 表示最大阅 读时间。当 tij < tmin 时,Cij =0;若 tij 小于最小阅读
时间,则认为用户没有阅读该篇新闻,以减少用户
误操作或新闻标题与页面内容不相符两种情况所
Construction of User Interest Model in Personalized News Recommendation System
GONG Ling-ling,QIAO Hong
(School of Management Science and Engineer,Shandong Normal University,Jinan 250014,China)
1.2 Web 文档的表示
本 文 中 新 闻 文 本 采 用 向 量 空 间 模 型 (VSM,即
Vector Space Model)的表示方法。向量空间模型的
基本思想是用向量来表示页面的文本特征。用 Ti
表示文档 D 中的特征词,用 Wi 表示特征词 Ki 的权
重 ,则 文 档 D 可 以 表 示 为 :D(Kl,Wl;K2,W2…Ki,
·博士论坛·
情报科学
第 32 卷 第 5 期 2014 年 5 月
个性化新闻推荐系统中用户兴趣建模研究
宫玲玲,乔 鸿
(山东师范大学 管理科学与工程学院,山东 济南 250014)
摘 要:为了使个性化新闻推荐系统中,用户兴趣模型更好的被系统所理解,提出了用户兴趣模型 的表示和更新机制。根据新闻领域的特点,基于 ODP 构建新闻领域本体,建立基于领域本体的加 权关键词用户兴趣模型。基于用户行为,分析用户对页面的兴趣度,改进了用户兴趣模型的表示和 更新方式。该模型能准确描述用户兴趣的动态变化过程,区分用户的长期和短期兴趣。随着用户 浏览新闻页面的不断增加,该模型不断自我更新,跟踪用户兴趣变化,并能发现用户新的兴趣。 关键字:兴趣模型;本体;更新机制 中图分类号:G250.7 文献标识码:A 文章编号:1007-7634(2014)05-127-04
定义用户兴趣模型中节点为四元组,其中每个 节点定义为:
node = {keyword,weight,time,ch ildren} 其中,keyword 是这一节点的关键词,weight 为 该 关 键 词 的 权 重 ,time 为 权 重 的 更 新 时 间 , ch ildren 为该节点的子节点信息。对于该兴趣模型
解决完信息收集问题,下面就是对收集到的数 据进行分析。用户对某新闻标题的行为分两种:点
- 128 -
·博士论坛·
情报科学
第 32 卷 第 5 期 2014 年 5 月
击和未点击。用户 i 对某新闻页面 j 感兴趣的程度
可以用 Iij 来表示。假设:用户点击某新闻标题,则
Iij=1,若用户未点击某新闻标题,则 Iij=0【9】。不同用
这些特征词通常情况下都不具有代表性。
2 基于本体的用户兴趣模型构建
2.1 构建领域本体
本文直接根据 ODP(Open Directory Project)开 放式目录信息构建新闻领域本体。ODP 是目前互 联网上最大的、最广泛的人工目录。它是由来自世 界各地的志愿者共同维护与建设的最大的全人工
编制的公共分类检索系统。ODP 开放式目录将知 识体系按多层次化结构来表示,上层主题父类是对 下层所有子类的共同属性的概括,而下层子类则是 从不同角度对上层父类的细化,所有子类之间形成 平等的兄弟关系。层次越深,对主题的分类就越 细,用来描述用户的兴趣类别就越具体【8】。
目前,网络已成为网民获取信息的主要途径, 而浏览新闻是他们主要的网络活动之一【1】。同时, 发展也向人们提出了如何在海量的新闻数据和大 量的用户之间找到其中的关联,以便更好的为用户 提供个性化服务。推荐系统需要经过用户建模、项 目匹配和推荐输出三个阶段来实现个性化推荐【2】。
最常见的构建用户兴趣模型的方式是基于向量空 间模型的方法,但是该方法无法准确地反映用户兴 趣的语义信息,无法实现知识的重用和共享【3】。本 文引入领域本体,采用基于改进本体的用户兴趣建 模方法。基于本体的用户兴趣建模方法能依靠多 层次的领域知识,准确表示用户的兴趣信息。
图 1 部分新闻领域本体示例
2.2 用户兴趣的收集与分析
用户兴趣模型的创建首先需要收集用户兴趣, 这一过程为用户兴趣模型的建立提供必要的数据 源,可采用显性和隐性两种方式。本文采用显性方 式和隐性方式相结合的方法。系统使用初期,用户 可以从领域本体中手动添加自己感兴趣的概念,通 过这种方法可以初始化用户兴趣模型。然后通过 用户的浏览行为来更新用户兴趣模型。
中,任一节点 node n ,如式(3)所示。
n.weight = ∑ nc.weight nc ∈ ch ildren
(3)
图 2 用户兴趣模型
根节点是一个特殊的节点,它用于表示用户个 人信息,并不满足以上条件。在初始状态下,用户 兴趣模型中仅存在根节点和用户显性选择的兴趣 主题。
2.4 用户兴趣模型的更新
Wi…)。首先提取文档 D 的特征词 Ki ,然后计算 Ki在
文
档
中
对
应
的Fra Baidu bibliotek
权
重
W 。 【7】 i
目
前最
常
用
的
方
式
是
采
用其 TF-IDF 值作为权重。TF-IDF 既考虑了特征词
在一个文档中出现的频率,又考虑了特征词在整个
文档集中出现的频率。它的核心思想是过滤掉那
些在所有项目中都出现的且频率很高特征词,因为
造成的影响。当
tij
>
tmax
时,Cij
=
Rsii z×e(t
max
j)
;当用户
在某页面的停留时间超过设定的阈值 tmax 时,Cij 的 计算以最大阅读时间 tmax 为准。用户打开文档后处 理其他事情,但没有关闭文档,这时会使用户在某
文档的停留时间超过正常范围,从而无法正确获得
用户的关注度。设置了最大阅读时间 tmax 能有效解 决这个问题。
最 终 ,用 户 i 对 新 闻 页 面 j 感 兴 趣 的 程 度
Pij = Iij × Cij 。
2.3 用户兴趣模型的表示
本文采用基于本体的加权关键词兴趣表示方 法。用户兴趣模型是新闻领域本体的部分映射,由 其中部分兴趣类别和特征词组成。用户兴趣的层 次结构如图 2 所示。该方法通过不同组合的概念节 点及其权值构成用户个体兴趣本体来表示用户的 兴趣概念。通过调整各个节点的权值或增加相应 的主题节点适应用户兴趣的变化。
Abstract:In order that personalized news recommendation system can understand user interest model better, we propose an approach of building and updating user interest model. The article build news do⁃ main ontology based on ODP and build weighted-keywords user interest model based on domain ontology, in accordance with the characteristics of news information. We gather user behavior and analysis the user interest to the news based on the behavior. In the study, we improve the presentation and updating mecha⁃ nism of user interest model. The model can describe the dynamic changes of user interest accurately. It can differentiate long-term and short-term interests as well. As more and more news pages are browsed, it can be updated and trace the changes of interests and detect the new coming interests. Key words: user interest model; ontology; updating mechanism
户的阅读速度是不同的,用 Ri 表示用户 i 的平均阅
读速度,如式(1)所示。
Ri
=
size(i) time(i)
(1)
在公式(1)中,size(i)是用户 i 所有阅读过的新闻
文档的大小之和,time(i)是用户阅读过的新闻所花
费的时间之和。
用户 i 对新闻 j 的关注程度用 Cij表示,tij表示用 户 i 阅读新闻 j 所用的时间,size(j)表示新闻文档 j 的
用户在网络中阅读新闻的主要方式为随意浏 览,没有特定的搜索目标。用户首先浏览新闻标 题,若感兴趣,则点击标题进入新闻正文页面进行 阅读,因此可以通过用户的阅读行为来推断用户的 兴趣信息。建立用户兴趣模型基于以下假设:用户 对某新闻标题感兴趣,则点击进入,用户点击进入 后,在新闻页面浏览时间越长,则说明用户对该信 息越感兴趣。关于用户浏览的信息通过 Web 服务 器日志和运行在客户端的软件隐性获取,整个过程 不需要用户的参与。用户浏览的过程中,记录下用 户 IP、文档的 URL、网页文档的大小、停留时间等信 息,将这些信息保存到数据库中。