Web服务器日志分析的原理和技术

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

程序分析的结果并以页面的形式发送给WEBSERVER。

日志分析程序:接收CGI程序传送来的分析请求,从日志文件里读数据,分析后把结果传给CGI程序。

图7WEB日志分析实现的结构和流程
整个流程基本上是这样的:WEBSERVER接收到客户端发来的分析请求。

经CGI程序处理后。

调用日志分析程序按照分析请求对日志文件进行分析,日志分析的结果传回给CGI程序。

CGI程序对结果进行处理,使之变成HTML页面并经WEBSERVER把结果返回给客户端。

CGI程序和日志分析程序可以用c来开发,这样做的好处是运行效率比较高,由于日志文件往往很大,运行效率是一个值得重视的问题。

另外,也可以用PERL来开发,这样做的好处一是开发好的程序可以跨平台运行,二是CGI程序和日志分析程序可以做在一起,三是PERL的字符串处理能力较强,二、三都加快开发进度有帮助。

四、结束语
对WEBSERVER的日志文件进行分析,目前已经有很多人做过此类的研究和开发,也有了一些比较成熟的软件。

本文仅对WEBSERVER日志分析的原理和开发技术做一个概括性的介绍。

由于本人水平有限,疏漏在所难免,请同志们批评指正。

参考文献
1NetseapeEnterpriseServer。

Administrator’sGuideNetscapecorperation,1996.
2http://developer.netscape,Lx)m
Principleandtechnologyinanalyzing
WebServer’slogfile
Zhang130
(ComputerNetworkInformationCenter.ChineseAcademyofSciences,Beijing100800)
AbstractWiththerapiddevelopmentofInternet.thenumberofWebserversisincreasingrapidly.There—fore.itisimportanttomonitorthewebserver’sstatus.Thisarticleisabouthowtoanalyzewebserver’slogfileandtheprincipleandtechnologyusedintheprocess.
Keywords:webserver;logfile;analysis.
·136·
Web服务器日志分析的原理和技术
作者:张波
作者单位:中国科学院计算机网络信息中心,北京,100080
1.学位论文龙春旻基于远程教育的Web数据挖掘技术应用研究2006
远程教育在我国蓬勃发展,学习者接受远程教育的过程就是在教育网站中浏览页面内容的过程,这些浏览信息被Web服务器自动收集,保存在日志文件中。

在被保存的数据中,蕴涵了学习者兴趣偏好、网站结构设置状况等信息。

通过对日志文件进行Web数据挖掘,可以找出我们感兴趣、有价值的规则。

本文以一个具体的例子,从日志文件的数据收集入手,对数据进行预处理,建立关联距阵,进行规一化处理,采用基于模糊相似理论的距离度量法——海明距离对学习者之间的相似度、页面之间的相似度进行分析,从而发现相似学习者群体和相关页面,同时,通过对学习者访问路径的频度分析
,发现学习者频繁访问路径。

这些规则的发现,将对指导网站建设,提高远程教育质量起到积极的作用。

该方法对数据预处理的要求不高,不需要进行用户识别和会话识别,对Web日志文件的格式没有特殊要求,算法简单、容易实现,是对教育网站日志文件进行Web数据挖掘的最佳方法。

2.会议论文刘友生.杨宇.陈一平实现Web服务器安全的移动监控2005
在分析远程监控原理的基础上,结合日志文件管理、创建、检索、荻取日志文件内容等的实现方法和WebServices方式的日志处理,利用
FileWatcher组件,通过对日志文件的监控,在移动Web的开发中,实现对Web服务器的移动监控.
3.学位论文刘洋基于IIS审计的入侵检测系统设计2007
入侵检测技术是继“防火墙”、“数据加密”等传统安全保护措施后新一代的主动型安全保障技术,它对计算机和网络资源上的恶意使用或入侵行为进行识别和响应。

随着信息化建设的不断深入,信息安全的完善一直是个关键的环节。

众所周知,现在的系统设计主流是B/S结构模式,即以浏览器作为客户端,以WEB服务器作为服务器端,进行通信的。

通常大多数WEB站点的设计目标都是以最易接受的方式为访问者提供即时的信息访问。

在过去的几年中,越来越多的黑客、病毒和蠕虫带来的安全问题严重影响了网站的可访问性。

尽管Apache服务器也常常是攻击者的目标,然而微软的Inteornet信息服务(ⅡS)--WEB服务器才是真正意义上的众矢之的。

本文的工作重点正是针对WEB服务器(ⅡS)设计的入侵检测系统。

从当前国内外网络安全的发展现状出发,重点研究基于主机审计的入侵检测系统
,并把ⅡS日志文件作为主要研究对象。

基于日志文件的分析,本文提出改进的基于排除的串匹配入侵检测算法,使得系统能够更有效地检测已知的入侵行为和异常入侵行为。

目标系统ⅡS Analyzcr结构上分四大模块,分别是数据采集模块、数据库管理模块、安全分析模块和系统响应模块,核心是安全分析模块。

本目标系统的特点是对安全分析模块的模式匹配算法进行了改进,提出了基于排除的匹配算法,该算法使得设计的系统提高了检测的效率。

4.期刊论文杨延娇.王治和.YANG Yan-jiao.WANG Zhi-he异常数据挖掘在Web服务器日志文件中的应用-西北师范
大学学报(自然科学版)2008,44(6)
讨论了基于距离的异常点检测算法,分析了使用该算法进行异常点检测时效率较低、需要设置参数、算法实现困难等缺点;利用基于距离和的异常点定义方法及基于抽样的近似检测算法实现Web服务器日志文件的异常数据检测.实验结果表明了算法的有效性.
5.学位论文杨延娇基于Web服务安全的异常数据挖掘算法研究2007
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

在数据挖掘的过程中,数据库中可能包含一些数据对象,它们与数据的一般行为或模型不一致,这些数据对象被称为异常点,对异常点的查找过程称为异常数据挖掘,它是数据挖掘技术中的一种。

异常数据挖掘又称孤立点分析、异常检测、例外挖掘、小事件检测、挖掘极小类、偏差检测等。

孤立点可能是“脏数据”,也可能是与实际对应的有意义的事件。

从知识发现的角度看,在某些应用里,那些很少发生的事件往往比经常发生的事件更有趣、也更有研究价值,例外的检测能为我们提供比较重要的信息,使我们发现一些真实而又出乎预料的知识。

因此,异常数据的检测和分析是一项重要且有意义的研究工作。

本文重点讨论基于Web服务器日志文件的异常数据挖掘。

系统地介绍了异常数据挖掘的基本理论,分别利用基于统计的方法、基于距离的方法和基于偏离的方法讨论了异常点的检测。

重点讨论了基于距离的异常数据挖掘算法,即基于索引的算法、嵌套循环算法和基于单元的算法;并从时间复杂度、空间复杂度等角度进行了优缺点分析。

考虑到使用基于距离的异常数据挖掘算法其效率较低并且需要设置参数,算法实现困难,因此提出基于距离和的孤立点定义方法,利用基于抽样的近似检测算法来实现Web服务器日志文件的异常数据检测,实验结果表明了该算法的有效性。

6.期刊论文岳修志图书馆Apache服务器日志文件数据的分析-现代图书情报技术2005,""(2)
按照标准的服务器日志格式,对图书馆Web服务器日志文件的记录进行分析,并通过对其一定时间段的数据挖掘,对图书馆网站的使用状况进行了有益的探讨.
7.学位论文赵利平使用PHP技术构造Web服务器日志分析软件2007
随着INTERNET的快速发展,WEB网站的访问量越来越大。

网站的维护和安全已经成为了一个重要问题。

WEB日志如实地记录了网站的被访问情况,因此日志分析可以帮助我们进行日常维护和科学的决策。

国外出现了大量日志分析工具,可以从各个角度对日志文件进行深入地剖析,并将分析结果以报表形式呈现给用户。

这些国外分析工具虽然性能优越,但是往往价格昂贵而且都是英文界面,另外它们提供的一些报表也不太符合用户的需求。

本项目包含了国外日志分析软件的大部分功能,主要面向数据库资源中心的网站。

根据该中心的具体需求定制日志分析报表。

通过报表可以准确地反映出中心网站各专业数据库,各页面的实际使用情况。

同时也可支持站点的日常维护和安全防护。

PHP技术是比较成熟的WEB开发技术,而且具有开源免费的特点。

PHP拥有大量免费的组件可以提高开发效率。

PEAR是PHP扩展及应用程序存储库,里面包含了构造WEB程序所需的大量组件。

本项目利用PEAR MDB2可以连接多种数据库软件,提高了适用性,利用PEAR自带的PDF组件将报表存储到PDF文件中。

JpGraph组件快速构建曲线图,丰富了软件的界面。

本项目还可以利用PHP技术进一步扩展为站点监控系统,而不仅仅局限于日志分析。

8.学位论文黄慧剑基于Win 2000 IIS日志文件入侵分析系统的设计与实现2006
本文论述了基于Win 2000 IIS日志文件入侵分析系统的设计与实现。

随着计算机应用的普及和网络技术的发展,无论是企业还是高等学校,都相继建立了内部信息网络(Intranet),同时设立了自己的Web网站,而且越来越多的应用系统开始向因特网平台转移,基于Web的应用在全球被越来越多的公司和机构所使用。

很多企业在享受电子商务、CRM、ERP、EAI等带来的快捷便利的同时,却又被紧随其后的黑客非法人侵的安全问题所困扰。

作为较为流行的WEB服务系统,Windows 2000/NT的IIS服务已被大多数用户所认可,但用户在使用IIS服务系统的同时,也注意到IIS作为WEB服务器所存在的风险,IIS的安全性是建立在Windows系统基础上的,然而Windows系统存在着各种程序漏洞,这些漏洞如果被黑客利用将导致系统崩溃或数据遗失等灾难性问题,这对任何一个用户来说,都是无法承受的。

所以如何尽可能的降低IIS服务的安全风险,作为一个重要课题,已被所有使用者所关注。

入侵检测分析系统通过采集用户访问WEB服务的访问记录来进行入侵分析,IIS服务将所有用户的访问行为都通过日志的方式记录下来,通过对这些日志内容的分析,就可以发现黑客入侵的轨迹,但传统方法是通过人工搜索日志文件内容来进行入侵分析,但要从成千上万的正常访问记录中人工查出入侵记录,费时费力,效率很低。

而且准确度也不高。

根据对IIS日志文件中的记录规律和格式的研究,发现可以通过对IIS日志文件进行过滤和入侵分析来达到WEB服务入侵检测的目的,基于这个原理提出了基于IIS日志文件的入侵分析系统的设计思路,首先在系统网络硬件结构上将IIS服务器和入侵分析服务器分开,通过分离耗费资源较大的入侵分析服务,有效的降低了IIS服务器的环境复杂度,提高了服务器的性能。

其次对软件系统结构进行了设计,首先根据事先配置好的过滤规则对日志文件进行过滤,去除正常的访问记录,剩下可能的入侵记录,并对这些记录进行入侵模式分析,将入侵分析的结果储存到数据库中。

另外系统安全人员可以随时通过界面对程序参数,过滤规则以及入侵分析规则进行设置,并对入侵分析结果进行有效的查询。

本课题的意义是首先改变了原来人工分析IIS日志文件的方式,采用了后台程序自动分析,系统安全人员通过界面及时了解入侵分析状况,并尽早地实施安全措施。

提高了入侵检测分析的工作效率,并降低了人力成本。

另外由于入侵数据的数据库存储方式,对数据的处理和展现提供了较大的便利
,并为将来的入侵数据的综合挖掘和分析提供了可能。

9.学位论文吕红燕基于网络多层结构的WEB日志挖掘研究2003
随着Internet的普及和WWW的迅猛发展,Web信息遍及各个领域,只有凭借Web挖掘技术才能更好的在网上搜索出有价值的信息,更好的为人类服务。

本文首先介绍了Web挖掘的基本概念、分类及目前的研究现状,Web挖掘一般分为Web内容挖掘、Web结构挖掘与Web日志挖掘三类。

本文重点讨论Web日志挖掘,即通过分析Web服务器上的日志文件发现用户访问站点的频繁浏览模式。

在介绍日志挖掘的基础上,结合现有的Web服务概念,重点介绍了如何将Web日志挖掘软件做成Web服务。

文中着重给出了Web挖掘服务的体系结构、Web日志挖掘预处理模块服务化的具体实现以及实现过程中遇到的问题。

本文还详细介绍了用户频繁遍历模式挖掘的算法,并给出了无候选模式频繁模式挖掘算法WAP-Mine的实现。

最后作者根据目前的发展状况,提出一些数据挖掘、web挖掘技术未来的研究方向。

10.期刊论文冀亚林.艾迪明.王学义.刘滨.Ji Yalin.Ai Diming.Wang Xueyi.Liu Bin Web服务器日志文件广义集
成分析模型-计算机工程与应用2006,42(12)
文章以大系统理论为基础,将定性与定量分析相集合,提出了一种新型Web日志文件知识发现模型--Web服务器日志文件广义集成分析模型.同时,对模型的三种子模型:结构模型、数学模型、知识模型,分别进行了详细的分析和讨论.在此基础上,给出了优化网站结构的综合分析方法.并且以某高校网站的真实数据进行试验,结果表明该方法的实用性和有效性.
本文链接:/Conference_6317391.aspx
下载时间:2010年5月29日。

相关文档
最新文档