基于向量空间模型的用户兴趣模型研究_郭新明

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

(7)
加权向量空间模型新算法构造的模型
0.8 0.7 0.6 0 100 200 300 400
样本空间大小
最终得到的用户兴趣模型依然是两个向量：T (T11，T12，…，T21，T22，…，Tij)，Tij 表示第 i 个页面上的第 j 个关键词，与之对应的另一个向量是 W(W11，W12， …，W21，W22，…，Wij)，其中 Wij 表示第 i 个页面上的第 j 个关键词的权重。该用户兴趣模型综合考虑了页面反馈度和关键词在页面中出现的频度和位置这两个因素，因此更加充分地反映了用户的个性化特征。
摘
要：分析了搜索引擎服务质量不高的原因，提出使用用户兴趣模型提高个性化信息检
索质量的方案。设计了一个基于向量空间模型的用户兴趣模型算法，该算法根据页面的反馈度以及关键词在页面中出现的频度和位置计算该关键词的权重，使个性化信息检索效果得到了明显提高。关键词：个性化；向量空间模型；用户兴趣模型中图分类号：TP393 文献标识码： A 文章编号：1672-2914（2009）06-0048-03 按照标签在页面中出现的位置和特征计算标签中内容在页面中的用户兴趣度，然后综合考虑这两个因素，将它们进行混合运算得到各关键词在本次查询中的用户兴趣度，从而得到用户的兴趣模型，该模型具有能够反应用户兴趣变化的特征。
第 24 卷
2009 年 11 月第6期
咸阳师范学院学报
Journal of Xianyang Normal University
Nov.2009 Vol.24 No.6
［计算机科学与应用研究］
基于向量空间模型的用户兴趣模型研究
郭新明，弋改珍
（咸阳师范学院信息工程学院，陕西咸阳 712000 ）
图 2 查全率对比图
4 实验结果分析
实验数据来源于使用 Spider 从 Internet 上收集到的包含 “计算机”、“网络”和“编码”这三个关键词的 400 个页面。在这个页面集合上对关键词“网络编码”进行检索，对首次检索结果分别运用新的用户兴趣模型算法和加权向量空间模型算法提取用户的兴趣模型。得到用户兴趣模型后，再对关键词“网络编码”进行二次检索，对检索到的页面进行查准率与查全率统计，结果如图 1 和图 2 所示。实验表明随着页面样本的增加，新用户兴趣模型算法比加权向量空间模型算法得到的用户兴趣模
由于是同一次查询的结果，检索出来的内容绝大部分具有相似性，利用这个特征设计了一个新的基于 VSM 的用户兴趣模型提取算法。因为存在部分关键词会出现在多个页面中的情况，在构造新的用户兴趣模型之前要对页面中的关键词进行预处理。对于重复出现某个关键词的若干页面，只在 F (Pi) 值最大的页面中保留它，而在其余页面中删除该关键词。用 Pi 表示用户点击的第 i 个页面，用 wij 表示Pi 页面中的第 j 个关键词在 Pi 中的权重，那么关键词 Tij 的临时权重 Lij 用公式（6）计算。
Freq(Pi)
F(Pi)=
Σ t(P ，j)-μ+3σ
i j=1
6σ
（2 ）
2
用户兴趣模型表示方法
2.1 向量空间模型
向量空间模型将用户兴趣用两个向量表示，一个是用户感兴趣的关键词构成的向量 T(tl，t2，…，tn)，另一个是由用户对相应关键词的兴趣度 ( 也称为权重 ) 构成的向量 W ( wl ， w2 ， … ， wn ) ，当需要对未知文档和用户兴趣模型进行比较时，就通过计算文档的关键词权重向量 V ( vl ， v2 ，… ， vn) 和用户兴趣度向量 W(wl，w2，…，wn)之间的余弦相似度公式（3）来度量， Sim(V,W)越大，说明两个向量的匹配程度越高[9,11]。
收稿日期：２００９－０９－２１基金项目：陕西省教育厅科研基金项目（08JK481 ）；咸阳师范学院教学改革基金项目（200802014 ）。作者简介：郭新明（1979－），男，陕西蓝田县人，咸阳师范学院信息工程学院讲师，硕士，研究方向为信息检索与网络安全技术。
第6期表1 操作方式保存、收藏等操作下载文档浏览摘要忽略文档浏览页面
姨Σ 姨Σ
vi ×
j=1
2
由于传统的向量空间模型，只是简单地统计检索信息在文档中出现的频度，检索结果时常与文档不一致，没有完全反映出真实的相关性。按照特征词在文档中的位置(一般分为标题、摘要、关键词、正文、结论和超链接等 6 个位置 )，分别赋予不同的加
0.9 0.85
查准率
加权向量空间模型新算法构造的模型
需求，使信息检索的效率得到了明显提高。该模型只描述了用户一次性信息检索的兴趣偏好，不受用户检索历史的约束，因此对用户兴趣模型的更新有一定的帮助作用，以后在这方面需要进一步深入研究。
随着数字化信息的迅猛增长和信息更新速度的不断加快，信息检索的查全率（recall ）和查准率（precision ）开始逐渐下降，致使搜索引擎的服务质量不能得到保障。搜索引擎服务质量不高的一个重要原因是因为没有考虑到用户的个人因素，而是按照一般意图的检索方法提供服务 [1]。为了满足用户信息检索的个性化需求，个性化搜索引擎应运而生。用户兴趣模型是进行个性化信息检索的关键 , 它反映了用户的个人特征和兴趣偏好，是进行个性化信息检索的重要依据 [2]。用户兴趣模型的表示方法主要有两种：向量空间模型表示法和概念层次表示法。向量空间模型把用户的兴趣用一个特征向量来描述，这种方法简单，但检索效率不高。概念层次模型的基础是本体论，它把用户的兴趣表示成一个树型的层次结构，这种表示方法能比较准确地描述用户的兴趣特征，但是缺乏定量表示，因此检索效果也不理想。目前，用户兴趣模型的研究依然是以这两种模型为基础的，基于向量空间模型的研究，主要采用挖掘用户浏览日志 [3] 和用户行为分析 [4，5] 等方法来获得用户兴趣模型；基于概念层次模型的研究，主要有层次模型 [6]和基于贝叶斯网络的语义相关性模型 [7]等。还有一些学者将向量空间模型和概念层次模型相结合构造出具有混合特性的用户兴趣模型 [8,9]。这些用户兴趣模型都不同程度地提高了信息检索的效率，但又暴露出另外一个问题，当用户兴趣发生改变时，用户兴趣模型的更新速度较慢，致使信息检索效果不佳。本文通过对用户浏览行为和页面结构的研究与分析，根据用户的浏览行为计算页面在某次查询中的用户兴趣度，同时
1 用户浏览行为分析
用户浏览页面的时间长短以及对页面的保存、收藏、打印等行为能够充分表达用户的兴趣，可见通过对用户浏览行为进行分析，可以获得用户的兴趣。用户浏览一次相关页面的行为形成相应的一条历史记录，运用 Web 日志挖掘技术，可以分析出用户在一定时间段内浏览页面的行为特征，从而可以判断出用户对一个页面的感兴趣程度。用户的浏览行为大致可以分为以下 5 种情况，其中前 3 项表示用户的显著行为，其余属于用户的隐式行为 [10]： (1) 用户保存了网页，说明对此网页有强烈的兴趣； (2) 用户打印了网页，说明对此网页有强烈的兴趣； (3)用户收藏了网页，说明对此网页有强烈的兴趣； (4) 用户花费长时间浏览网页，说明用户对网页有较强兴趣； (5)用户在一时间段对同一网页浏览多次，说明用户对网页有一定兴趣。对用户的浏览行为，可用权重来反映用户对网页的感兴趣程度，权重设置如表 1 所示。由表 1 可知，除了浏览页面行为以外，其余操作方式的感兴趣程度都可以直接度量，其实用户浏览页面行为的感兴趣程度随时间长短和浏览次数的不同而变化，因此需要根据浏览的具体情况计算得出。这里把用户对页面 P 的反馈度 F (P) 作为度量
t= Σ t(Pi，j)
j=1
（1 ）
<H3>)。 ② 正文体：加重字 ( 代码：<Strong>)；黑体字 ( 代码：<B>) ；斜体字 ( 代码：<I>) ；链接锚文字 ( 代码：<a href>) ，由于 “ 锚 ” 中的词通常与该页面紧密相关，因
n
wi=ΣNp*Cp
p=1
(4)
其中 Np 表示关键词 ti 在 p 类标签中出现次数； Cp 为 p 类标签的归一权值，如公式（5）所示[10]： (5) C = Tn
p 6
ΣT
p=1
j
3
新用户兴趣模型算法
Sim(V,W)=
Σv × w
i j=1 n j=1
Leabharlann Baidu
i n
(3) wi
2
2.2 加权向量空间模型
郭新明，等：基于向量空间模型的用户兴趣模型研究用户操作行为与权值对应表感兴趣程度非常感兴趣较感兴趣一般感兴趣不感兴趣不确定权值
· 49 ·
0.3 0.2 0.1 -0.2
需计算
用户对页面感兴趣程度的依据（即权值）。 Freq （P）表示浏览页面 P 的次数，t (P) 表示浏览页面 P 的时间。用户浏览页面 Pi 的次数为 Freq(Pi)，第 j 次浏览页面 Pi 的时间为 t (Pi，j)，则用户浏览页面 Pi 的总浏览时间如公式（1）所示 [10]：
Freq(Pi)
权系数，由于 Web 文档信息都是通过链接来完成的，Web 上的各种标记和链接包含了页面的结构信息，可以根据 Html 的标签来判定特征项在文档中的位置。 Html 中的标签有很多，其中与字符属性及文章标题相关的标签主要有 :Title ，H1 －H6，P，Strong， B，I，U，DL，OL，UL 等，另外文档之间的超链 Href 也反映了文档间的某种联系，因此，可利用 Html 标签来辨别关键词的权值 [10]。首先，对 Html 的不同标签可分为 2 大类别，分别为： ① 标题类：标题 ( 代码：<Title>) ；一级标题 ( 代码； <Hl>)；二级标题 ( 代码：<H2>)；三级标题 ( 代码：
此，认为 “ 锚 ” 中的词具有与 “ 一级标题 ” 相同的权值；其它为正文体。标题部分的重要性要比正文部分高。这就意味着一个页面标题中包含的关键词的权重要远远高于正文中包含的关键词。综上所述，对 Html 的不同标签可分为 6 种不同权值的标签类，用 p 表示；每类给定对应位置权值 Tp，分别为：标题 (T1=6)、一级标题和链接锚文字(T2=5)、二级标题(T3=4)、三级标题(T4=3)、正文体(加重字，黑体字，斜体字)(T5=2)、正文体(其它)(T6=1)。通过公式（4）计算页面中每个关键词 ti 的权重 wi[10]：
6
假设用户从本次查询 j=1 页面列表中共点击了 L 个页面，构成本次用户点击页面集 T。则 T 中所有页面的总浏览时间可以看成一个数列，计算此数列的平均值 μ 和标准方差 σ，然后对该数列进行高斯归一化处理，数列中的每个数归入 [-1,1] 区间内的概率约为 99%，再通过平移操作使 F (Pi)最终落在[0,1]上。综上所述，页面反馈度 F (Pi)的计算如公式（2）所示[10]：
Lij= F(Pi)×Wij
(6)
对保留下的每个关键词计算它的临时权重，并计算临时权重的平均值 μ′ 和标准方差 σ′ ，然后用高
· 50 ·
咸阳师范学院学报
1 0.9
查全率
第 24 卷
斯归一化公式计算每一个关键词的最终权重 Wij 用公式（7）计算。
Wij= Lij-μ′+3σ′ 6σ′