基于大规模日志分析的搜索引擎用户行为分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
! $ !9 1 7 7 M(gZK ; T R K U K F F ; # # # ? A G J G" "’ 0 , # . % $ & . W K R8 7 ; : 8 W F WF WF S 7 R T : ; TQ 7 R] 7 T PH K ]F ; Q 7 R S : T F 7 ;R K T R F K V : 8T K O P ; 7 8 7 F K W: ; YO 7 SS K R O F : 8W K : R O P G: X [ G !\ K ; F ; K: 8 7 R F T P S W 9 / ;7 R Y K RT 7] K T T K RM ; Y K R W T : ; YW K : R O P] K P : V F 7 R7 QP F ; K W KH K ]W K : R O PM W K R W K[ R K W K ; T W: ; G G : ; : 8 W F W7 Q1 7 7 M1 K : R O P0 ; F ; K‘ M K R 8 7 7 ; W F W T F ; Q: R 7 N F S : T K 8 #S F 8 8 F 7 ;K ; T R F K WQ 7 RW K : R O PR K M K W T W7 V K R: X G G X GO G7 [ [ XB ‘ ! K R F 7 Y7 Q7 ; KS 7 ; T P9 3 P K: ; : 8 W F W F ; O 8 M Y K WW K : R O PR K T R F K V : 8] K P : V F 7 R F ;F ; Y F V F Y M : 8 M K R F K WY F W T R F ] M T F 7 ; M W K RR K M K W T [ X ‘ ‘ O M W T 7 S W F ;T P KW : S KW K W W F 7 ;: ; Y\ P K T P K RM W F ; Y V : ; O K YW K : R O PQ M ; O T F 7 ; W 97 ; O 8 M W F 7 ; WS : K 8 S R 7 V KH K ] G: XP [F [ F ; Q 7 R S : T F 7 ;R K T R F K V : 8 : 8 7 R F T P S W: ; YW K : R O P[ K R Q 7 R S : ; O KK V : 8 M : T F 7 ;S K T P 7 Y W 9 G " %%\ % % 7 " ( % 5 # O 7 S M T K R: 8 F O : T F 7 ; P F ; K W KF ; Q 7 R S : T F 7 ;[ R 7 O K W W F ; K ]F ; Q 7 R S : T F 7 ;R K T R F K V : 8 W K : R O PK ; F ; K M W K R [ [ [ G G 38 % ] K P : V F 7 R: ; : 8 W F W O 8 F O ^T P R 7 M PY : T :: ; : 8 W F W X G X
M K R ‘ X ’( + T F S K R : ; ^ 7 R Y K R ! F Y W M ] S F T T K R F ; Q 7 R S : T F 7 ; 图 "! 搜索引擎用户的行为流程 表 9! 搜狗网络日志的内容 名 !! 称 记 录 内 容 用户提交的查询 用户点击的结果地址 用户点击发生时的日期 # 时间 该 ’( + 在返回结果中的排名 用户点击的顺序号 ) 这是 用 户 点 击的第几个页面 * 由系统自动分配的用户标识号 浏览器信息 " 计算机信息
收稿日期 " ! # # > = # $ = ! >! 定稿日期 " ! # # > = " # = " " 基金项 目 "国 家 重 点 基 础 研 究 # 资助项目# % 国家自然科学基金资助项目# @ $ <$ ! # # A U < " ? " # ?$ > # ! ! < # # A! > # < ! " # # !! $ % 教育部科学技术研究重点资助项目 # $ > # < # < # # B! > # B # < # > A " # A ! < > 作者简介 "余慧佳 # ! 女! 本科生 ! 主要研究方向为信息检索 & " @ ? B($ 万方数据
?& " 截止 到 ! 我国的 况统计报告 % # # B年" !月< " 日"
网民数达到了 "9 " "亿" > BC 的用户指出搜索引擎是 他 们 经 常 使 用 的 网 络 服 务 功 能 ! 另 外 "根 据 1 M 8 8 F V : ;的 统 计 @ " ! # # A 年 底" 5 7 7 8 K作 为 世 界 上 G 索引量最大和访问 频 率 最 高 的 搜 索 引 擎 " 能够索引
ቤተ መጻሕፍቲ ባይዱ" " " ! "
# ! ! "9 Z K : R T S K ; T7 Q7 S M T K R1 O F K ; O K: ; Y3 K O P ; 7 8 7 3 W F ; P M :’ ; F V K R W F T U K F F ; # # # ? A% [ [ G X G X J G"
%&
到超过 ? 而其每天处理的用户查询 # 亿的网络页面 " 则超过 !9 B 亿个 ! 面对如此庞大的搜索需求 " 深入挖掘发现用户行 为特点 " 进而提高搜索引擎算法的效率和准确率显得 尤其重要 !" @ @ ? 年" R : F F 8 V K R W T K F ; 等人对大规模 G1 % & A 英文搜索日志进行了分析 " 结论指出? B C 的查询用 户都只翻看了查询结果的第一页内 容等 ! 这 些 结论 都对英文搜索引擎的算法改进和发展起到了 有 益 的 作用 ! 由于中文网络数据的特殊性以 及 中英 文 网 民 行为的差异 " 对中文搜索引擎进行较大规模的分析以 找出中文搜索引擎用户的行为特征是很有必要的 ! 此外 " 对用户检索目的的分析也是近年来用户行 为分析研究的热点之一 " / U 2 研究院的 U R 7 Y K R首先 万方数据 提出了’ 任务驱动 ( 的概念 " 在他构想的用户检索流程
;! 搜索引擎用户的行为构成与日志设计
搜索引擎用户的行为构成可由图 " 表示 ! 用于分析的搜狗网络日志由一系列查询需求组 成" 每个查询需求都包括如表 " 所示条目 ! 利用 查 询 词 和 用 户 点 击 页 面 的 信 息 " 我们可以 分析出用户提交的查询一般有什么特点 " 如长短 # 频 而由用户点击 结 果 页 面 的 信 息 我 们 能 得 到 用 度等 $ 户的点击习惯等 ! 我们的实验主要是建立在对大量 的用户需求进行统 计 的 基 础 上 的 宏 观 分 析 " 主要目 的是寻找用户需求中的热点 # 词频分布规律 # 查询行 为特点等 " 进而对检 索 系 统 的 系 统 结 构 和 算 法 设 计 做出改进 !
中文 网 络 数 据 环 境 与 英 文 的 有 较 大 的 差 异 " 除 了数据上的 " 还 有 使 用 群 体 的 文 化# 语言习惯等差 异" 这些都造成了中 文 搜 索 引 擎 用 户 行 为 上 的 特 异 性 ! 因此有必要对中文搜索引擎的用户行为进行分 析" 以针对中文搜索 引 擎 的 算 法 或 检 索 性 能 评 测 方 法等指出有益的方向 ! 本文将对为期一个月的真实规模中文搜索引擎 网络日志进行研究 " 从较大规模的数据中分析中文 搜索引擎用户行为 的 一 些 特 点 " 为中文搜索引擎算 法的改进 和 检 索 性 能 的 评 测 等 提 供 一 定 依 据 和 方 向 ! 因为日志数据规模较大 " 所以更具一般性 " 更能 反映出大部分用户的行为特征 ! 在下文中我们将首 先对已有工作和搜索引擎的日志设计等作简单的介 绍$ 然后对基于日志 的 搜 索 引 擎 用 户 的 行 为 进 行 分 析$ 最后针对中文与 英 文 搜 索 引 擎 用 户 行 为 差 异 尝 评测方法 试提出一些对于中 文 搜 索 引 擎 算 法 设 计 # 设计有益的启示 !
载体 ! 国内外的不少 研 究 者 都 针 对 网 络 搜 索 引 擎 的 用户日志进行了相关的研究 & 网络信息检索工具得 到普及之后 ! 面向 网 络 信 息 检 索 的 用 户 行 为 分 析 得 到了更多的关注 !文 献 ) 就分别在@ "!<* #年代中 期左右对 H K ] 用户的浏览行为进行了调研和 分析 % 到" 部分研 究 者 如 文 献 ) 等就开始 @ @ ? 年前后 ! A! B* 对商业搜索引擎的用户日志进行大规模的分析 & 但 由于各方面条件的限制 ! 这种研究 ! 例如查询词频分 布规律的研究等 ! 都很少集中在中文网络用户的行
" " # 为分析上 !
中 文 信 息 学 报
! # # $年
查询任务决定了用户 的查询 需求 " 进而反 映 模型中 " 在查询词上 ! 他在文献% & 中指出 " 用户的查询任务 " # 包括导航类 # 信息类和事物类三类 ! 对查询任务进行 划分的出发点在于 " 针对三类检索可以使用不同的检 参数 " 甚至评价方法也 随着 检索类 别的变 化 索模型 # 而有所区别 ! 因此实现检索类别的自动划 分对 于提 高检索性能和增加检索评价的可信度都有非 常重要 的意义 !
! " # " $ % & ’ )6 " $ % & ’D ) ) "M # " %Q " ’ $ O ( %Q $ # " 5( )K ( ) $ / # # 1 10 3
E’ . M F = F :! + / ’E F = M ;! L .*) 52 F ;! (’ + F = M ; !2*1 P : 7 = F ; J ‘ X [ G
基于大规模日志分析的搜索引擎用户行为分析
余慧佳"! 刘奕群"! 张敏"! 茹立云!! 马少平"
# 清华大学 智能技术与系统国家重点实验室 ! 北京 " 搜狗公司 研发中心 ! 北京 " $ "9 # # # ? A% !9 # # # ? A 摘 ! 要 "用户行为分析是网络信息检索技术得以前进的重要基 石 ! 也是能够在商用搜索引擎中发挥重要作用的各 种算法的基本出发点 之 一 & 为 了 更 好 的 理 解 中 文 搜 索 用 户 的 检 索 行 为 ! 本文对搜狗搜索引擎在一个月内的近 我们从独立查询词分布 ’ 同一W B# # # 万条查询日志进行了分析 & K W W F 7 ;内的用户查询习惯及用户是否使用高级检 索功能等方面对用户行为进行了分析 & 分析结论对于 改 进 中 文 搜 索 引 擎 的 检 索 算 法 和 更 准 确 的 评 测 检 索 效 果 都 有较好的指导意义 & 关键词 "计算机应用 % 中文信息处理 % 网络信息检索 % 搜索引擎 % 用户行为分析 % 点击信息分析 中图分类号 " 3 4 < @ "!!!! 文献标识码 "*
搜索引擎日志是网络搜索引擎用户行为的重要
9! 引言
随着 网 络 与 信 息 资 源 的 飞 速 发 展 ! 网络搜索引 擎已经成为人们获取网络信息的主要途径 & 但现在 人们通常只是简单地通过短短几个词的查询与检索 系统进行沟通 ! 而在 网 络 信 息 资 源 规 模 如 此 庞 大 的 情况下这种沟通是 远 远 不 够 的 ! 检索系统往往不能 比较准确地返回 用 户 所 真 正 需 求 的 信 息 & 因 此 ! 进 行搜索引擎的用户行为分析是非常必要的 &
:! 已有工作概述
十五期中 国 互 联 网 络 发 展 状 况 ! # # < 年第十四 # % >& 统计报告 指出 " ! # # A 年中国搜索 引 擎 用户 已 占 互 联网用户的 @ 每 天 的 搜 索 请 求 量 达 到 近 "9 B9 !C " @ 亿次 ! 而根据最近发布的壹期中国互联网络发展状
第! "卷!第"期 ! # # $年"月
中文信息学报 % &’( )* +& ,-. / ) 0 1 0/ ) , & (2*3 / &) 4 ( & 0 1 1 / )5
6 7 8 9 ! "!) 7 9 " ! ! # # $ % : ; 9
文章编号 " # $ " # # < = # # $ $ ! # # $ # " = # " # @ = # >
M K R ‘ X ’( + T F S K R : ; ^ 7 R Y K R ! F Y W M ] S F T T K R F ; Q 7 R S : T F 7 ; 图 "! 搜索引擎用户的行为流程 表 9! 搜狗网络日志的内容 名 !! 称 记 录 内 容 用户提交的查询 用户点击的结果地址 用户点击发生时的日期 # 时间 该 ’( + 在返回结果中的排名 用户点击的顺序号 ) 这是 用 户 点 击的第几个页面 * 由系统自动分配的用户标识号 浏览器信息 " 计算机信息
收稿日期 " ! # # > = # $ = ! >! 定稿日期 " ! # # > = " # = " " 基金项 目 "国 家 重 点 基 础 研 究 # 资助项目# % 国家自然科学基金资助项目# @ $ <$ ! # # A U < " ? " # ?$ > # ! ! < # # A! > # < ! " # # !! $ % 教育部科学技术研究重点资助项目 # $ > # < # < # # B! > # B # < # > A " # A ! < > 作者简介 "余慧佳 # ! 女! 本科生 ! 主要研究方向为信息检索 & " @ ? B($ 万方数据
?& " 截止 到 ! 我国的 况统计报告 % # # B年" !月< " 日"
网民数达到了 "9 " "亿" > BC 的用户指出搜索引擎是 他 们 经 常 使 用 的 网 络 服 务 功 能 ! 另 外 "根 据 1 M 8 8 F V : ;的 统 计 @ " ! # # A 年 底" 5 7 7 8 K作 为 世 界 上 G 索引量最大和访问 频 率 最 高 的 搜 索 引 擎 " 能够索引
ቤተ መጻሕፍቲ ባይዱ" " " ! "
# ! ! "9 Z K : R T S K ; T7 Q7 S M T K R1 O F K ; O K: ; Y3 K O P ; 7 8 7 3 W F ; P M :’ ; F V K R W F T U K F F ; # # # ? A% [ [ G X G X J G"
%&
到超过 ? 而其每天处理的用户查询 # 亿的网络页面 " 则超过 !9 B 亿个 ! 面对如此庞大的搜索需求 " 深入挖掘发现用户行 为特点 " 进而提高搜索引擎算法的效率和准确率显得 尤其重要 !" @ @ ? 年" R : F F 8 V K R W T K F ; 等人对大规模 G1 % & A 英文搜索日志进行了分析 " 结论指出? B C 的查询用 户都只翻看了查询结果的第一页内 容等 ! 这 些 结论 都对英文搜索引擎的算法改进和发展起到了 有 益 的 作用 ! 由于中文网络数据的特殊性以 及 中英 文 网 民 行为的差异 " 对中文搜索引擎进行较大规模的分析以 找出中文搜索引擎用户的行为特征是很有必要的 ! 此外 " 对用户检索目的的分析也是近年来用户行 为分析研究的热点之一 " / U 2 研究院的 U R 7 Y K R首先 万方数据 提出了’ 任务驱动 ( 的概念 " 在他构想的用户检索流程
;! 搜索引擎用户的行为构成与日志设计
搜索引擎用户的行为构成可由图 " 表示 ! 用于分析的搜狗网络日志由一系列查询需求组 成" 每个查询需求都包括如表 " 所示条目 ! 利用 查 询 词 和 用 户 点 击 页 面 的 信 息 " 我们可以 分析出用户提交的查询一般有什么特点 " 如长短 # 频 而由用户点击 结 果 页 面 的 信 息 我 们 能 得 到 用 度等 $ 户的点击习惯等 ! 我们的实验主要是建立在对大量 的用户需求进行统 计 的 基 础 上 的 宏 观 分 析 " 主要目 的是寻找用户需求中的热点 # 词频分布规律 # 查询行 为特点等 " 进而对检 索 系 统 的 系 统 结 构 和 算 法 设 计 做出改进 !
中文 网 络 数 据 环 境 与 英 文 的 有 较 大 的 差 异 " 除 了数据上的 " 还 有 使 用 群 体 的 文 化# 语言习惯等差 异" 这些都造成了中 文 搜 索 引 擎 用 户 行 为 上 的 特 异 性 ! 因此有必要对中文搜索引擎的用户行为进行分 析" 以针对中文搜索 引 擎 的 算 法 或 检 索 性 能 评 测 方 法等指出有益的方向 ! 本文将对为期一个月的真实规模中文搜索引擎 网络日志进行研究 " 从较大规模的数据中分析中文 搜索引擎用户行为 的 一 些 特 点 " 为中文搜索引擎算 法的改进 和 检 索 性 能 的 评 测 等 提 供 一 定 依 据 和 方 向 ! 因为日志数据规模较大 " 所以更具一般性 " 更能 反映出大部分用户的行为特征 ! 在下文中我们将首 先对已有工作和搜索引擎的日志设计等作简单的介 绍$ 然后对基于日志 的 搜 索 引 擎 用 户 的 行 为 进 行 分 析$ 最后针对中文与 英 文 搜 索 引 擎 用 户 行 为 差 异 尝 评测方法 试提出一些对于中 文 搜 索 引 擎 算 法 设 计 # 设计有益的启示 !
载体 ! 国内外的不少 研 究 者 都 针 对 网 络 搜 索 引 擎 的 用户日志进行了相关的研究 & 网络信息检索工具得 到普及之后 ! 面向 网 络 信 息 检 索 的 用 户 行 为 分 析 得 到了更多的关注 !文 献 ) 就分别在@ "!<* #年代中 期左右对 H K ] 用户的浏览行为进行了调研和 分析 % 到" 部分研 究 者 如 文 献 ) 等就开始 @ @ ? 年前后 ! A! B* 对商业搜索引擎的用户日志进行大规模的分析 & 但 由于各方面条件的限制 ! 这种研究 ! 例如查询词频分 布规律的研究等 ! 都很少集中在中文网络用户的行
" " # 为分析上 !
中 文 信 息 学 报
! # # $年
查询任务决定了用户 的查询 需求 " 进而反 映 模型中 " 在查询词上 ! 他在文献% & 中指出 " 用户的查询任务 " # 包括导航类 # 信息类和事物类三类 ! 对查询任务进行 划分的出发点在于 " 针对三类检索可以使用不同的检 参数 " 甚至评价方法也 随着 检索类 别的变 化 索模型 # 而有所区别 ! 因此实现检索类别的自动划 分对 于提 高检索性能和增加检索评价的可信度都有非 常重要 的意义 !
! " # " $ % & ’ )6 " $ % & ’D ) ) "M # " %Q " ’ $ O ( %Q $ # " 5( )K ( ) $ / # # 1 10 3
E’ . M F = F :! + / ’E F = M ;! L .*) 52 F ;! (’ + F = M ; !2*1 P : 7 = F ; J ‘ X [ G
基于大规模日志分析的搜索引擎用户行为分析
余慧佳"! 刘奕群"! 张敏"! 茹立云!! 马少平"
# 清华大学 智能技术与系统国家重点实验室 ! 北京 " 搜狗公司 研发中心 ! 北京 " $ "9 # # # ? A% !9 # # # ? A 摘 ! 要 "用户行为分析是网络信息检索技术得以前进的重要基 石 ! 也是能够在商用搜索引擎中发挥重要作用的各 种算法的基本出发点 之 一 & 为 了 更 好 的 理 解 中 文 搜 索 用 户 的 检 索 行 为 ! 本文对搜狗搜索引擎在一个月内的近 我们从独立查询词分布 ’ 同一W B# # # 万条查询日志进行了分析 & K W W F 7 ;内的用户查询习惯及用户是否使用高级检 索功能等方面对用户行为进行了分析 & 分析结论对于 改 进 中 文 搜 索 引 擎 的 检 索 算 法 和 更 准 确 的 评 测 检 索 效 果 都 有较好的指导意义 & 关键词 "计算机应用 % 中文信息处理 % 网络信息检索 % 搜索引擎 % 用户行为分析 % 点击信息分析 中图分类号 " 3 4 < @ "!!!! 文献标识码 "*
搜索引擎日志是网络搜索引擎用户行为的重要
9! 引言
随着 网 络 与 信 息 资 源 的 飞 速 发 展 ! 网络搜索引 擎已经成为人们获取网络信息的主要途径 & 但现在 人们通常只是简单地通过短短几个词的查询与检索 系统进行沟通 ! 而在 网 络 信 息 资 源 规 模 如 此 庞 大 的 情况下这种沟通是 远 远 不 够 的 ! 检索系统往往不能 比较准确地返回 用 户 所 真 正 需 求 的 信 息 & 因 此 ! 进 行搜索引擎的用户行为分析是非常必要的 &
:! 已有工作概述
十五期中 国 互 联 网 络 发 展 状 况 ! # # < 年第十四 # % >& 统计报告 指出 " ! # # A 年中国搜索 引 擎 用户 已 占 互 联网用户的 @ 每 天 的 搜 索 请 求 量 达 到 近 "9 B9 !C " @ 亿次 ! 而根据最近发布的壹期中国互联网络发展状
第! "卷!第"期 ! # # $年"月
中文信息学报 % &’( )* +& ,-. / ) 0 1 0/ ) , & (2*3 / &) 4 ( & 0 1 1 / )5
6 7 8 9 ! "!) 7 9 " ! ! # # $ % : ; 9
文章编号 " # $ " # # < = # # $ $ ! # # $ # " = # " # @ = # >