谢运洁-浅论Web使用挖掘
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
浅Web使用挖掘
谢运洁
(武汉大学信息管理学院,重庆教育学院图书馆重庆 400067)
摘要:系统介绍了Web使用挖掘的相关概念、基本流程以及各种方法在Web使用挖掘中的应用。
关键词:信息分析数据挖掘 Web使用挖掘
正文:
0引言
随着Internet和网络技术的进一步发展,许多企业机构都拥有了自己的Web站点,向用户提供各种基于Web的信息服务,如电子商务、网上银行、用户反馈、技术支持等等,对他们来讲,如何更好地向用户提供更具有针对性的服务,根据用户的网络行为来推测企业未来的发展策略变得十分重要。同时,Web网页在以惊人的速度增长,新闻、广告、教育、经济等各种信息充斥在用户面前,加上其更新速度也越来越快,使得用户在信息的海洋中无所适从,如何把信息在恰当的时间、恰当的地点以恰当的方式提供给用户更是我们必须解决的问题。Web使用挖掘,其任务是挖掘Web用户的行为模式,根据挖掘结果改进站点结构,减少用户在获取所需信息或产品之前的寻找时间,向特定用户主动提供个性化服务。
1基本概念
1.1Web数据挖掘
Web数据挖掘是指利用数据挖掘技术对Web存取模式、Web结构和规则,以及动态Web内容的查找。一般地,根据挖掘对象的不同,可以将Web数据挖掘分为三大类:Web内容挖掘(Web Content Mining)、Web结构挖掘(Web Structure Mining)和Web使用挖掘(Web Usage Mining),另外web结构挖掘可以被认为是Web内容挖掘的一部分,这样可以简单的把Web挖掘分为Web 内容挖掘和Web使用挖掘。
1.2Web使用挖掘
Web使用挖掘是指利用数据挖掘技术对Web服务器中的日志记录进行分析,发现各种用户使用模式的过程,其目的在于更好的为用户提供各种服务。Web使用挖掘可以挖掘出用户的隐藏信息,根据用户行为趋势确定企业未来的战略方向。Web使用挖掘的基本流程主要包括数据准备、数据预处理、模式发现和模式分析几个步骤。
2数据准备
Web使用挖掘的数据来源大致可分为三大块:服务器端(Server Log File)、中介代理端(Intermediary Data)以及客户端(Client Side Data)。
2.1服务器端数据
2.1.1服务器日志文件(Server Log File)
Web服务器日志文件是一个存储用户基本信息、描述用户浏览行为信息的文件。特别是,它可以存储用户浏览网页时沿着网页链接所产生的点击流序列信息,是Web使用挖掘的主要数据来源。Web服务器日志通常以两种格式存储文件:普通日志文件格式(Common Log File Format),它可以存储用户IP、用户名、请求文件名、文件大小及服务器名等最基本的信息;扩展日志格式(Extended Log Format),存储了一些额外的信息,比如主机地址、请求日期和时间、用户名、传输字节数、事务完成时间等。Web使用挖掘把Web服务器日志作为主要
的数据来源,但是由于Web高速缓存等的使用,Web服务器日志文件也有不尽人意的地方。如,Web高速缓存是为了降低数据传输延迟而使用的工具,当用户提出请求时,缓存中会存储一份请求副本,若用户再次提出相同的请求,缓存会直接使用此副本而不会向服务器提出新的请求,这样,服务器日志文件中就不会存储这一请求的相关信息。
2.1.2Cookie
除了使用Web服务器日志文件外,在Web使用挖掘中,Cookie也是重要的数据来源。Cookie 是存储在用户计算机中包含会话信息的一个很小的数据文件。它记录了用户会话信息,如用户ID、密码、浏览过的网页、停留时间等信息,都是Web使用挖掘所需的重要数据,特别是对后面的会话识别具有非常重要的作用。但同样,Cookie也存在一些不够完美的地方,比如:多用户共用一台计算机时生成的信息会存储于同一个Cookie中,除非是多用户操作系统;单用户使用多台计算机时服务器也会认为是不同用户;另外用户出于隐私的考虑,有可能关闭了Cookie功能。
2.1.3用户注册信息
多数Web网站需要用户注册,通过用户注册信息可以获得最直接、清楚的信息,如年龄、职业、收入等。但如果站点是一般性网站,用户通常不会如实填写。只有像网上银行这样对用户注册信息经过严格审核的网站,可以获得详细的用户信息,其真实度也较高。但这也涉及用户隐私必须获得用户的同意,不是理想的渠道。
2.2中介代理服务器数据(Intermediary Data)
2.2.1.代理服务器(Proxy Server)
代理服务器是介于用户浏览器和Web服务器之间的一台服务器,当用户通过代理服务器上网时,浏览器不是直接向Web服务器提出请求,而是先向代理服务器发出请求,代理服务器在缓存中查找是否具有用户需要的信息(用户最近使用过),如果有就直接返回给用户,否则代理服务器代替用户向Web服务器发出请求,Web服务器再返回给代理服务器,代理服务器保存一份副本再传给用户。
类似于服务器日志,代理服务器也使用日志来记录用户的请求信息,因此代理服务器日志也是Web使用挖掘数据的重要来源,但是,还是存在像Web服务器一样的问题,即高速缓存的使用。
2.2.2嗅探器(Sniffer)
Sniffer是一种利用以太网的特性把网络适配器置为杂乱模式状态的工具,一旦网卡设为这种模式,它就能接受传输在网络上的信息包,Sniffer分为软件和硬件两种。使用Sniffer 的好处是可以获得即时信息;其次,重要的是所获得的信息不是存在LOG文件中的,便于整理;这些信息中包含详细的用户请求时间、服务器反应时间、用户名甚至用户口令等。但其缺点是不能肯定收集到所有用户访问信息,最严重的是Sniffer通常是黑客使用的工具,对用户是种严重的隐私侵犯。
2.3客户端数据(Client Side Data)
从客户端获取的数据较从服务器端获取的信息准确,因为不存在上文提到的缓存问题。一个最常见的收集客户端数据的技术是利用远程代理(Remote Agent),通过Java或Javascript嵌入Web浏览器实现。但收集客户端数据仍然有缺陷,例如隐私问题,需征得用户的同意。
3数据预处理
这阶段主要完成对数据的清洗、过滤掉多余不相关的数据,和转换等过程,从中抽取出挖掘目标所需的会话和事务。
3.1数据过滤(Data Filtering)
这一步的主要任务是对在数据准备阶段获得的数据进行过滤,剔除不相关和冗余的数