基于向量空间模型的用户兴趣模型研究_郭新明
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(7)
加权向量 空间模型 新算法构 造的模型
0.8 0.7 0.6 0 100 200 300 400
样本空间大小
最 终 得 到 的 用 户 兴 趣 模 型 依 然 是 两 个 向 量 :T (T11,T12,…,T21,T22,…,Tij),Tij 表示第 i 个页面上的第 j 个关键词 , 与之对应的另一个向量是 W(W11,W12, …,W21,W22,…,Wij), 其中 Wij 表示第 i 个页面上的第 j 个关键词的权重 。 该用户兴趣模型综合考虑了页面 反馈度和关键词在页面中出现的频度和位置这两个 因素 , 因此更加充分地反映了用户的个性化特征 。
摘
要 : 分析了搜索引擎服务质量不高的原因 , 提出使用用户兴趣模型提高个性化信息检
索质量的方案 。 设计了一个基于向量空间模型的用户兴趣模型算法 , 该算法根据页面的反馈度 以及关键词在页面中出现的频度和位置计算该关键词的权重 ,使个性化信息检索效果得到了明 显提高 。 关键词 :个性化 ;向量空间模型 ;用户兴趣模型 中图分类号 :TP393 文献标识码 : A 文章编号 :1672-2914(2009)06-0048-03 按照标签在页面中出现的位置和特征计算标签中内 容在页面中的用户兴趣度 , 然后综合考虑这两个因 素 ,将它们进行混合运算得到各关键词在本次查询中 的用户兴趣度 , 从而得到用户的兴趣模型 , 该模型具 有能够反应用户兴趣变化的特征 。
第 24 卷
2009 年 11 月 第6期
咸阳师范学院学报
Journal of Xianyang Normal University
Nov.2009 Vol.24 No.6
[计算机科学与应用研究 ]
基于向量空间模型的用户兴趣模型研究
郭新明 ,弋改珍
( 咸阳师范学院 信息工程学院 , 陕西 咸阳 712000 )
图 2 查全率对比图
4 实验结果分析
实验数据来源于使用 Spider 从 Internet 上收集到 的包含 “计算机”、“网络”和“编码”这三个关键词的 400 个页面。 在这个页面集合上对关键词“网络编码”进行检 索,对首次检索结果分别运用新的用户兴趣模型算法和 加权向量空间模型算法提取用户的兴趣模型。 得到用户 兴趣模型后,再对关键词“网络编码”进行二次检索 ,对 检索到的页面进行查准率与查全率统计,结果如图 1 和 图 2 所示。 实验表明随着页面样本的增加,新用户兴趣 模型算法比加权向量空间模型算法得到的用户兴趣模
由于是同一次查询的结果 , 检索出来的内容绝 大部分具有相似性 , 利用这个特征设计了一个新的 基于 VSM 的用户兴趣模型提取算法 。 因为存在部分 关键词会出现在多个页面中的情况 ,在构造新的用户 兴趣模型之前要对页面中的关键词进行预处理 。 对于 重复出现某个关键词的若干页面 , 只在 F (Pi) 值最大 的页面中保留它 ,而在其余页面中删除该关键词 。 用 Pi 表示用户点击的第 i 个页面 ,用 wij 表示Pi 页面中的 第 j 个关键词在 Pi 中的权重 , 那么关键词 Tij 的临时 权重 Lij 用公式 (6)计算 。
Freq(Pi)
F(Pi)=
Σ t(P ,j)-μ+3σ
i j=1
6σ
(2 )
2
用户兴趣模型表示方法
2.1 向量空间模型
向量空间模型将用户兴趣用两个向量表示 , 一 个是用户感兴趣的关键词构成的向量 T(tl,t2,…,tn), 另一个是由用户对相应关键词的兴 趣 度 ( 也 称 为 权 重 ) 构 成 的 向 量 W ( wl , w2 , … , wn ) , 当 需 要 对 未 知 文 档和用户兴趣模型进行比较时, 就通过计算文档 的 关 键 词 权 重 向 量 V ( vl , v2 ,… , vn) 和 用 户 兴 趣 度 向 量 W(wl,w2,…,wn)之间的余弦相似度公式 (3)来度量 , Sim(V,W)越大,说明两个向量的匹配程度越高[9,11]。
收稿日期 : 2009-09-21 基金项目 : 陕西省教育厅科研基金项目 (08JK481 ); 咸阳师范学院教学改革基金项目 (200802014 )。 作者简介 : 郭新明(1979-),男,陕西蓝田县人,咸阳师范学院信息工程学院讲师 ,硕士,研究方向为信息检索与网络安全技术 。
第6期 表1 操作方式 保存 、 收藏等操作 下载文档 浏览摘要 忽略文档 浏览页面
姨Σ 姨Σ
vi ×
j=1
2
由于传统的向量空间模型 , 只是简单地统计检 索信息在文档中出现的频度 , 检索结果时常与文档 不一致 ,没有完全反映出真实的相关性 。 按照特征词 在 文 档 中 的 位 置(一 般 分 为 标 题 、摘 要 、关 键 词 、正 文 、 结论和超链接等 6 个位置 ), 分 别 赋 予 不 同 的 加
0.9 0.85
查准率
加权向量 空间模型 新算法构 造的模型
需求 , 使信息检索的效率得到了明显提高 。 该模型只 描述了用户一次性信息检索的兴趣偏好 , 不受用户 检索历史的约束 , 因此对用户兴趣模型的更新有一 定的帮助作用 , 以后在这方面需要进一步深入研究 。
随着数字化信息的迅猛增长和信息更新速度的 不断加快 , 信息检索的查全率 (recall ) 和查准率 (precision ) 开始逐渐下降 , 致使 搜 索 引 擎 的 服 务 质 量 不 能得到保障 。 搜索引擎服务质量不高的一个重要原 因是因为没有考虑到用户的个人因素 , 而是按照一 般意图的检索方法提供服务 [1]。 为了满足用户信息检 索的个性化需求 , 个性化搜索引擎应运而生 。 用户兴 趣模型是进行个性化信息检索的关键 , 它反映了用 户的个人特征和兴趣偏好 , 是进行个性化信息检索 的重要依据 [2]。 用户兴趣模型的表示方法主要有两种 : 向量空 间模型表示法和概念层次表示法 。 向量空间模型把 用户的兴趣用一个特征向量来描述 , 这种方法简单 , 但检索效率不高 。 概念层次模型的基础是本体论 , 它 把用户的兴趣表示成一个树型的层次结构 , 这种表 示方法能比较准确地描述用户的兴趣特征 , 但是缺 乏定量表示 , 因此检索效果也不理想 。 目前 , 用户兴 趣模型的研究依然是以这两种模型为基础的 , 基于 向量空间模型的研究 , 主要采用挖掘用户浏览日志 [3] 和用户行为分析 [4,5] 等方法来获得用户兴趣模型 ; 基 于概念层次模型的研究 , 主要有层次模型 [6]和基于贝 叶斯网络的语义相关性模型 [7]等 。 还有一些学者将向 量空间模型和概念层次模型相结合构造出具有混合 特性的用户兴趣模型 [8,9]。 这些用户兴趣模型都不同 程度地提高了信息检索的效率 , 但又暴露出另外一 个问题 , 当用户兴趣发生改变时 , 用户兴趣模型的更 新速度较慢 , 致使信息检索效果不佳 。 本文通过对用 户浏览行为和页面结构的研究与分析 , 根据用户的 浏览行为计算页面在某次查询中的用户兴趣度 ,同时
1 用户浏览行为分析
用户浏览页面的时间长短以及对页面的保存 、 收藏 、 打印等行为能够充分表达用户的兴趣 , 可见通 过对用户浏览行为进行分析 , 可以获得用户的兴趣 。 用户浏览一次相关页面的行为形成相应的一条历史 记录 , 运用 Web 日志挖掘技术 , 可 以 分 析 出 用 户 在 一定时间段内浏览页面的行为特征 , 从而可以判断 出用户对一个页面的感兴趣程度 。 用户的浏览行为 大致可以分为以下 5 种情况 , 其中前 3 项表示用户 的显著行为 , 其余属于用户的隐式行为 [10]: (1) 用户保存了网页,说明对此网页有强烈的兴趣; (2) 用户打印了网页,说明对此网页有强烈的兴趣; (3)用户收藏了网页,说明对此网页有强烈的兴趣; (4) 用户花费长时间浏览网页 , 说明用户 对 网 页 有较强兴趣 ; (5)用户在一时间段对同一网页浏览多次 ,说明用 户对网页有一定兴趣 。 对用户的浏览行为 , 可用权重来反映用户对网 页的感兴趣程度 , 权重设置如表 1 所示 。 由表 1 可知 , 除了浏览页面行为以外 , 其余操作 方式的感兴趣程度都可以直接度量 , 其实用户浏览 页面行为的感兴趣程度随时间长短和浏览次数的不 同而变化 , 因此需要根据浏览的具体情况计算得出 。 这里把用户对页面 P 的 反 馈 度 F (P) 作 为 度 量
t= Σ t(Pi,j)
j=1
(1 )
<H3>)。 ② 正 文 体 : 加 重 字 ( 代 码 :<Strong>); 黑 体 字 ( 代 码 :<B>) ; 斜 体 字 ( 代 码 :<I>) ; 链 接 锚 文 字 ( 代 码 :<a href>) , 由于 “ 锚 ” 中的词通常与该页面紧密相关 , 因
n
wi=ΣNp*Cp
p=1
(4)
其中 Np 表示关键词 ti 在 p 类标签中出现次数 ; Cp 为 p 类标签的归一权值 ,如公式 (5)所示[10]: (5) C = Tn
p 6
ΣT
p=1
j
3
新用户兴趣模型算法
Sim(V,W)=
Σv × w
i j=1 n j=1
Leabharlann Baidu
i n
(3) wi
2
2.2 加权向量空间模型
郭新明 , 等 : 基于向量空间模型的用户兴趣模型研究 用户操作行为与权值对应表 感兴趣程度 非常感兴趣 较感兴趣 一般感兴趣 不感兴趣 不确定 权值
· 49 ·
0.3 0.2 0.1 -0.2
需计算
用户对页面感兴趣程度的依据 ( 即权值 )。 Freq (P) 表 示浏览页面 P 的次数 ,t (P) 表示浏览页面 P 的时间 。 用户浏览页面 Pi 的次数为 Freq(Pi), 第 j 次浏览页面 Pi 的时间为 t (Pi,j), 则用户浏览页面 Pi 的总浏览时 间如公式 (1) 所示 [10]:
Freq(Pi)
权系数 , 由于 Web 文档 信 息 都 是 通 过 链 接 来 完 成 的 ,Web 上的各种标记和链接包含了页面的结构信 息 ,可以根据 Html 的标签来判定特征项在文档中的 位置 。 Html 中的标签有很多 , 其中与字符属性及文 章标题相关的标签主要有 :Title ,H1 -H6,P,Strong, B,I,U,DL,OL,UL 等 ,另外文档之间的超链 Href 也 反映了文档间的某种联系 , 因此 , 可利用 Html 标签 来辨别关键词的权值 [10]。 首先,对 Html 的不同标签可分为 2 大类别,分别为: ① 标题类 : 标题 ( 代码 :<Title>) ; 一级标题 ( 代码 ; <Hl>); 二级标题 ( 代码 :<H2>); 三级标题 ( 代码 :
此 ,认为 “ 锚 ” 中的词具有与 “ 一级标题 ” 相同的权值 ; 其它为正文体 。 标题部分的重要性要比正文部分高 。 这就意味着一个页面标题中包含的关键词的权重要 远远高于正文中包含的关键词 。 综上所述,对 Html 的不同标签可分为 6 种不同权 值的标签类 ,用 p 表示;每类给定对应位置权值 Tp,分 别为 :标题 (T1=6)、一级标题和链接锚文字(T2=5)、二级 标题(T3=4)、三级标题(T4=3)、正文体(加重字,黑体字,斜 体字)(T5=2)、正文体(其它)(T6=1)。 通过公式 (4)计算页 面中每个关键词 ti 的权重 wi[10]:
6
假设用户从本次查询 j=1 页面列表中共点击了 L 个页面 ,构成本次用户点击页面集 T。 则 T 中所有 页面的总浏览时间可以看成一个数列 ,计算此数列的 平均值 μ 和标准方差 σ,然后对该数列进行高斯归一 化处理 , 数列中的每个数归入 [-1,1] 区间内的概率约 为 99%,再通过平移操作使 F (Pi)最终落在[0,1]上 。 综 上所述 ,页面反馈度 F (Pi)的计算如公式 (2)所示[10]:
Lij= F(Pi)×Wij
(6)
对保留下的每个关键词计算它的临时权重 , 并 计算临时权重的平均值 μ′ 和标准方差 σ′ , 然后用高
· 50 ·
咸阳师范学院学报
1 0.9
查全率
第 24 卷
斯归一化公式计算每一个关键词的最终权重 Wij 用 公式 (7) 计算 。
Wij= Lij-μ′+3σ′ 6σ′