基于移动互联网日志的搜索引擎用户行为研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于移动互联网日志的搜索引擎用户行为研究摘要:随着移动互联网的迅速发展,移动搜索用户大规模增加,移动搜索引擎用户行为分析对改进搜索引擎性能,提高用户体验具有重要意义。该文选取某移动搜索引擎2011年6月第一周的日志,对移动互联网用户搜索行为进行分析和研究。我们从查询词分析、会话分析以及用户点击分析3个角度出发,对查询词长度和频度、问题式查询和网址查询比例、会话内查询个数、查询词修改方式以及用户点击位置进行研究,并与互联网搜索引擎相应指标进行对比。相关分析结论对于移动搜索引擎算法改进与系统优化具有一定参考意义。

关键词:移动搜索引擎;搜索引擎日志;用户行为分析

1引言

随着通信技术的进步、终端设备硬件水平的提升以及三网融合政策的逐步推进,移动互联网得到迅速发展,网络应用内容进一步增加,用户应用体验不断提高,我国由此进入移动互联网的大时代。据C N N IC第29次中国互联网络发展状况统计报告n]显示,截至2011年12月底,中国手机网民规模达到3.56亿,占整体网民比例的69.3,用户规模增速已超过宽带用户。

鉴于如此大规模的用户,互联网应用提供商纷纷布局移动互联网,主流应用提供商均推出了相应的W A P版本或客户端,为客户提供移动互联网服务,以移动搜索为代表的信息获取已发展为移动互联网的主流应用。当前,移动搜索引擎用户数量众多,应用门槛较低,适用范围较广。在未来竞争中,搜索结果的精确程度与个性化服务将会成为保持用户黏性的重要因素。为提高搜索准确性,移动搜索服务提供商需要挖掘用户特点和行为习惯,预测用户潜在需求,以应对市场竞争。

移动互联网搜索服务提供商每天记录大量的用户搜索数据,比如访问者唯一标志符、检索词、点击页面、访问时间等,这些数据构成了搜索引擎日志。搜索引擎日志包含很多对服务商非常有用的信息,可以反映出用户的兴趣及其行为特点,是研究搜索引擎用户行为的重要载体。本文将通过对一周内中文移动搜索引擎日志的分析,研究真实环境下移动搜索引擎用户的行为特点。

本文安排如下:第2节总结目前搜索引擎用户行为的研究现状;第3节介绍本文使用的移动互联网搜索引擎日志数据;第4节根据上述日志数据进行实证分析,分别研究移动互联网环境下用户查询行为与用户点击行为;最后进行总结和展望。

2相关工作概述

目前,对互联网的大规模搜索引擎日志的用户行为分析已有一些研究成果,主要集中在搜索引擎用户独立查询、查询会话分析以及用户点击行为等方面,但基于移动互联网的用户行为分析相对极少。Si lverstein等(1998)对A ltaV ista用户检索行为进行分析,提出在一个查询会话中,用户只进行一次点击的大约占63.8,约有35.2的用户对于搜索词进行了完全的改变,12的用户增加或减少了搜索词的数目[1 23。Soyeon P ark等(2005)选取韩国著名搜索引擎N A V E R一周内的日志数据,经过会话识别、查询分类、数据预处理等操作后,对用户检索行为进行分析,结果显示同一会话中用户输入的查询倾向于彻底更换查询内容,而不是增删检索词项或修改检索词项。L i w ei等(2011)统计了同一会话中检索词的个数,发现同一会话中只有一个检索词的会话占所有会话数的70.866 9,6。王继民等(2004)选取北大天网的用户日志,对用户访问时间、用户查询类型、用户查询长度、用户点击次数进行了统计分析,结论表明用户访问时间分布并不均等,多数用户只输入一个词项查询。余慧佳等(2007)选取搜狗搜索引擎一个月内的查询日志,就用户查询长度、查询频度、查询会话内的查询数目、查询会话内的查询内容以及用户点击行为进行了分析,将相应特征同英文搜索引擎用户行为进行对比,发现中文搜索引擎用户使用高级检索的比例远远低于英文搜索引擎,查询重复率远高于英文搜索引擎。岑荣伟等(2OLO)在文献工作的基础上,对用户搜索需求进行区分,从查询集合中提取了导航集和色情集这两类特殊的查询集合,针对不同检索目的对上述统计特征进行分析。针对以上工作中用户查询会话分析的不足,王晓春等(2011)定义了8种查询修改,在查询会话基础上分析了查询修改动作、用户点击结果数同查询修改次数之间的关系,发现查询修改动作和查询修改次数有关,而点击结果数量保持稳定。张磊等(2009)对于现有的网页搜索引擎查询日志中查询会话的划分方法进行了分析和总结,提出了可以使用时间作为划分会话的一种标准。马少平等(2011)基于搜狗搜索引擎2006年至·2011年的搜索日志,对用户查询行为与用户点击行为进行分析,分析总结了中文搜索引擎用户行为的演化规律。

而移动搜索引擎同桌面搜索引擎存在一定的差异,如用户可以不受固定终端限制,随时随地搜索信息,具有很强的时效性;移动搜索可以同定位服务相结合,为用户提供更具针对性以及精确的服务;移动搜索屏幕有限,每页显示结果数量有限。这些差异在搜索引擎的使用上造成了一些不同,因此有必要对移动搜索引擎的用户行为进行分析,帮助移动搜索算法的改进,更好地为用户服务。

3实验数据

本文实验数据取自于某无线搜索服务提供商2011年6月1日至2011年6月7日共一周的日志记录。其中日志中每条查询记录的格式如表1所示。

为正确把握基于移动搜索引擎的用户行为特征,本文首先进行了数据处理,其中有以下几个问题需要说明。

(1)cookie问题。由于该无线搜索服务提供商采用cookie技术标识用户,本文假定用户不主动删除cooki e,则同一用户仅拥有一个cooki e,不同用户拥有不同cookie,cookie作为用户唯一标志;

(2)数据格式问题。考虑到用户的异常操作,日志文件中存在极少量异常数据,如用户cookie格式错误等,在数据处理时,本文将cookie格式有误,检索词长度大于100以及U R L 长度大于600的记录予以删除。

4基于日志的用户行为研究

经过数据处理之后,我们共得到4 997 416条查询记录,其中含用户1 751 612个,非重复查询971 197个,非重复网页1 613 762个,查询会话2 317 215个。

4.1查询词分析

4.1.1查询词长度

查询词长度在本文中定义为用户查询词中被空格所隔开的词语或字的个数。本文从两个层面分析查询词长度:一为分词之前,即用户自主输入的用空格分开的查询词长度;二为分词之后词语个数。本文在进行用户查询词分词操作时,充分考虑了用户查询需求以及这一时间段内的热点话题,将常用名词如人名、流行词、导航网址以及游戏名称等导入分词词典,提高分词准确率。分析结果表明,分词之前查询词平均长度为1.10个词,分词之后查询词长度为3.45个词,这与文献中关于互联网搜索引擎平均查询长度的分析相一致。图1显示了查询词长度和相应查询数量之间的变化情况。

相关文档
最新文档