基于行为分析的用户兴趣建模
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1. 3 根据用户对页面的点击率来确定页面权重的 方法 如果一个用户对某一网页比较感兴趣 , 那么该 用户在浏览此网页时就会消耗更多的时间 , 同时也会 经常重复访问此网页 。这是一种定量测度用户兴趣的 方法 。但是用户的点击次数不能准确反应用户的兴 趣 ,因为随着时间的积累 ,用户对某个网页的点击次数 一定会很多 。
许 波 张结魁 周 军
( 合肥工业大学管理学院电子商务研究所 合肥 230009)
摘 要 了解用户的兴趣是网站实现个性化的基础 。为了更好地为用户提供个性化服务 ,在分析用户的浏览行为 特征的基础上 ,根据用户在页面中的滞留时间 ,用户对页面中的超文本链的点击情况以及页面的点击频率建立了计 算用户兴趣度的模型 ,并提出用神经网络模型来描述它们之间的相关性 ,且通过实验论证了这种模型的合理性和有 效性 。实验结果表明这种模型能比较准确地发现用户感兴趣的页面 。 关键词 个性化 用户浏览行为 用户兴趣度 RBF 网络 中图分类号 TP183 文献标识码 A 文章编号 1002 - 1965 ( 2009) 06 - 0166 - 04
J 2) ( 3)
∑∑
本文根据以上提取的用户访问行为的特征 , 给出 了根据用户的浏览行为确定用户兴趣度的计算方法 。 构建了以下公式 :
W ( CR T ) = f [ C ( P) , R ( P) , T ( P) ] ( 6)
m ji / cji ]
其中 J 表示针对用户每次进入新站点的信息迷失 率 。因为超文本与传统的信息载体不同 , 在超文本中 存在各种不同的超链接 ,指向各不相同的内容 ,用户在 浏览网页时很容易就会跟随着超链接 , 在 Internet 复 杂的网状信息空间中迷失航向 , 不知道他们现在处于 信息空间中什么位置 ,无法返回到某个节点 ,忘记原有 的检索目标 。
T ( P) = [α +
192 58 15 8
18 42 85 102
∑( T / n) ] 3 B ∑B 3 ∑T
i i i
i
如表 2 所示 A 页面的点击总次数 273 大于 B 页面
( 2)
的点击总次数 247 , 但是第四周的时候显然用户对 B 页面是更感兴趣的 , 因此用户的点击率更能反映兴趣 的变化和强度 。 点击率可以用以下公式来描述 :
随着互联网技术在全球的应用和发展 , 网络正在 各个方面影响着人们的工作和生活方式 。然而 , 现有 的信息服务系统存在着明显的缺陷 ,比如资源分散 , 检 索集中 ,对于所有用户提供的信息都是相同的 ,有求则 应 ,无求不动 。对于普通用户来说 , Internet 上的 “信息 迷航” 和 “信息过载” 已经成为日益严重的问题 。解决 这些问题的关键在于将 Internet 从被动接受浏览者的 请求转化为主动感知浏览者的信息需求
作者简介 : 许 波 ,男 ,1984 年生 ,硕士研究生 ,研究方向为数据挖掘 、 社会性网络 ;张结魁 ,男 ,1974 年生 ,博士研究生 , 研究方向为网络消费者 行为 ; 周 军 ,男 ,1984 年生 ,硕士研究生 ,研究方向为数据挖掘 。
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.
( RBF 网络) 结构自适应确定 、 输出与初始权值无关且
图 1 中四条曲线分别是用 10 、 30 、 60 个页面时训 练所得的计算值 ( 让用户自由浏览系统内的页面) 以及 用户估算值所描绘的 。
效率高等特点 ,设计了一种基于 RBF 网络的模型 。 基于 RBF 网 络 模 型 的 基 本 思 想 是 : 首 先 , 用
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.
情 报 杂 志 第 28 卷 ・ 168 ・
, 实现 In2
ternet 系统对浏览者的个性化主动信息服务 。
为了实现个性化服务 , 首先需要跟踪和学习用户 的兴趣和行为 , 刻画用户的特征与用户之间的关系 。 根据浏览行为或浏览内容来分析 、 捕获用户兴趣是目 前个性化服务研究的一个重要方向
[2]
。径向基函数
( Radial Basis Function ,RBF) 神经网络以其深厚的生理
http://www.cnki.net
如表 1 ,则计算站点 1 的权重公式为 :
R ( S 1 ) = ( 1 - J 1 ) ×( 4/ 8 + 3/ 6 + 2/ 6) + ( 1 - J 2 )
×( 2/ 6) = ( 1 - J 1 ) ×( 4/ 3) + ( 1 - J 2 ) ×( 1/ 3)
( GS 1 , …, GS j , …, GS h)
T
作 为 网 络 的 输 入 向 量 , GV
= ( gv 1 , …, gv k , …, gv p ) 作为目标向量 , 对 RBF 网络
进行训练 , 得到一个训练好的 RBF 网络 , 根据此时网 络的实际输出 GV ′= ( gv′ 1 , …, gv′ k , …, gv′ p ) , 并对 比目标向量计算精度 , 再调整参数 , 使得 GV , GV ′ 尽 可能的接近 。 建立基于 RBF 网络模型确定方法的具体步骤如 下: 第 1 步 初始化 , 设 RBF 网络的输入向量 为
站点 1 页面 2
6 3
站点 2 页面 3
6 2 6 2
特点 ,训练抽取用户不同的需求 ,将用户分为不同的聚 类 ,然后运用于网页的个性化推荐 ,来改善电子商务网 站信息过载的问题 。其中最常用的神经网络是 BP 网 络 ,也叫多层前馈网络 ,BP 网络用于函数逼近时 , 权值 的调节采用的是负梯度下降法 , 这种调节权值的方法 有它的局限性 ,存在着收敛速度慢和局部极小等缺点 。 而径向基神经网络在逼近能力 、 分类能力和学习速度 等方面均优于 BP 网络 。本文利用基于径向基网络
表1 链接点击情况
站点 页面 存在的链接 点击过的链接 页面 1
8 4
其中 , W 是经过加权计算所得的用户对网页 P 的 兴趣度 。 网页兴趣度是指用户对一个网页内容的感兴趣程 度 ,采用 0 ~ 1 间的实数表示 ,0 和 1 分别表示无兴趣 和最大兴趣 。 文献 [ 3 ] 利用神经网络适应能力和学习能力强的
( GS 1 , …, GS j , …, GS h )
T
图1 兴趣度变化对比
表 4 采用 SPSS 统计分析软件进行相关分析 ,采用 了距离分析的方法来进行相似性测度 , 得到相似性矩 阵 ( aa 表示估算值) 。
收稿日期 :2008 - 12 - 20 修回日期 :2009 - 03 - 05
( 编号 :70672097) ; 国家自然科学基金重点项目 基金项目 : 国家自然科学基金项目 “基于网络消费者信息需求模型的网站导航问题研究” “群决 ( 编号 :70631003) 。 策理论与方法研究”
C ( P) = m/ M ( 5)
其中 B i 表示 i 页面的信息量 。 即该页面时长与总 浏览时长的比值与网页字节数与总信息比值的乘积 。 1. 2 根据用户对页面中超文本链的点击情况判断 用户兴趣度 设用户针对某一个关键词进行检索得到 某个站点的 URL ,浏览该站点各个页面的情况为页面
表2 页面点击情况
时间 第一周 第二周 第三周 第四周 点击情况 (次)
A 页面 B 页面
且 T ( P) 表示页面 P 根据用户的滞留时间所得到的 权重 。 设 α表示在当前页面用户滞留的有效时间 , 则 计算页面的权重的递归公式为 :
T ( P) = α +
∑( T /
i
n)
( 1)
该公式考虑到了子节点具有父节点的一些特征 , 有的子节点更是父节点的一个具体的实例 , 因此对子 节点兴趣强度增加 , 可看作对其父节点兴趣强度有所 贡献 。 事实上 , 浏览网页的时长与网页的信息总量也是 密切相关的 。 考虑到这种情形以上公式可以改为 :
A →B → C → … → N 。 又从该站点链接到其他站点 S 1 , S 2 , …, S i 。 则其权重的计算公式为 : R ( p) = ( 1 - J 1 ) [
其中 m 为本次该节点的访问次数 , M 为本次所有 节点的访问总次数 。 2 建模并验证
∑m 1/ c 1 + ( 1 i i
[1]
带有某种喜好 ,不同的用户间有不同的兴趣爱好 。用 户的访问路径中蕴藏了用户对于站点的兴趣及用户兴 趣的转移 。文献 [ 4 ] 指出 ,用户的很多动作都能暗示其 喜好 ,如查询 、 浏览页面和文章 、 标记书签 、 反馈信息 、 点击鼠标 、 拖动滚动条 、 前进 、 后退等 。文献 [ 5 ] 的研究 指出 ,用户访问时的停留时间 、 访问次数 、 保存 、 编辑 、 修改等动作能够揭示用户兴趣 。但是 , 在这些文章里 并没有对哪些行为究竟如何反映用户的兴趣进行量化 估算 。 从表面上看 ,能够揭示用户对网页的兴趣度的浏 览行为很多 ,但我们分析发现 ,起关键作用的有三种行 为 : 在网页上的浏览时间 ( 浏览行为以特定的时间间隔 进行划分 , 使用聚类的方法 , 建立一个个性化推荐模 型[ 6 ] ) ,在某页面下点击的链接 ( 通过收集用户浏览行 为的信息 ,通过一定的机制来预测用户的下一步行为 , 计算网页权重 ,并做页面的推荐[ 4 ] ) , 某个页面的点击 频率 ( 用户在使用浏览器时如何使用标记和收藏 ,来进 一步分析用户的浏览和搜寻行为[ 7 ] ) 。原因有三个 :a. 查询 、 编辑 、 修改等行为必定增加网页浏览时间和翻页 次数 ( 由于翻页后定位的仍然是同一个 URL , 故表现 出来的仍然是增加网页浏览时间) ,因此能够通过网页 浏览时间间接地得到反映 。b. 执行了保存 、 标记书签 等动作的页面 ,若真为用户所关心 ,通常以后会被多次 地调出来重新浏览 , 故可体现访问次数 。c. 用户检索
H2 , …, Hi } , 在其中逗留的时间为{ T 1 , T 2 , …, T i } , 并
其中 J 1 , J 2 是应该根据统计数据给出的针对用户 每次进入新站点的信息迷失率 。 根据上述公式 , 计算网 站 i 内一个具体网页 1 的权重公式则为 :
R ( I ) = m i 1 / ci 1 ( 4)
学基础 、 简单的网络结构 、 快速的学习能力 、 优良的逼 近性能 ,在网页个性化推荐中也得到了良好的应用[ 3 ] 。 本文给出一种通过对用户浏览行为的分析来计算用户 对网页的兴趣度的方法 , 抓住几个重要特征描述了用 户浏览行为 ,并用 RBF 网络模型来描述它们之间的相 关性 。 1 用户访问行为的特征提取 大量研究表明 ,用户对网页的兴趣度与其在该网 页上的浏览行为密切相关 。用户访问一个站点 , 通常
情 报 杂 志 第 28 卷 第6期 28 No. 6 Vol. 2009 年 6 月 J une 2009 J OURNAL OF IN TELL I GENCE
ຫໍສະໝຸດ Baidu基于行为分析的用户兴趣建模
A User Interest Model Based on the Analysis of User Behaviors
http://www.cnki.net
第 6 期 许 波等 : 基于行为分析的用户兴趣建模
・167 ・
时如果是基于站点的 , 而且站点中存在的让用户感兴 趣的链接越多 ,用户相应点击的链接也越多 ,则该页面 越重要 。 1. 1 根据用户在页面中的滞留时间来确定页面权 重的方法 假设用户所访问的一个页面 p 中有 n 个超 文本链接 , 其中用户访问过的超文本链分别是 { H1 ,