网站空间IIS日志分析

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一个网站一直以来都有个问题困扰着他们,这个网站的注册一共分为4个步骤就是通过四次下一步就能够完成网站的注册,他们发现这个注册页面每10000个人都来到了注册的第一步,但是到第四个步骤完成注册的人却只有几十个,这个是一个非常大的落差,但是他们一开始也没有太注意,认为可能只是根据人的习惯不同而导致的,但是在一次日志分析中意外发现有某一个页面出现了90000多次的404状态码,经过查看之后发现这个页面正好就是这个注册页面的第二个步骤相应的页面,因为程序出现了一些问题导致很多时候点击下一步的时候出现错误导致无法完成注册。可以想象这么多用户流失是一个多么大的损失,而这些都是流量统计工具无法找到的,如果能够及时的分析网站的日志就能够早点发现这个问题避免损失的出现。

什么是网站日志?

网站日志是记录web服务器接收处理请求以及运行时错误等各种原始信息的以.log结尾的

文件。

用我自己的理解就是我们可以通俗的认为他就是一个流水账,就像是你今天早上吃了啥,谁来了你家做客等等统统记下来的一本流水账,只不过这本流水账使用的是自己的方式记录的,我们也许看起来不是那么方便,如果你对服务器返回代码比较熟悉的话是没有多大问题,如果你对代码不熟悉那就头痛了,那么我们这个时候就要用到IIS日志分析工具了。有了IIS日志分析工具我们就能够很直观了了解到今天自己的网站发生了哪些事情,是否有蜘蛛来过。

IIS日志文件详解

找到日志打开,发现日志的前几行如下

#Software: Microsoft Internet Information Services 5.1 //iis版本#Version: 1.0 //版本#Date: 2010-07-30 00:53:58 //创建时间#Fields: date time c-ip

cs-username s-sitename s-computername s-ip s-port cs-method cs-uri-stem cs-uri-query sc-status sc-win32-status sc-bytes cs-bytes time-taken cs-version cs-host

cs(User-Agent) cs(Cookie) cs(Referer) //日志格式

下面的日志我在本地上测试的,扩展属性全部选中。2010-07-30 01:06:43

192.168.0.102 - W3SVC1 MGL 192.168.0.102 80 GET /css/rss.xslt - 304 0 140 358 0 HTTP/1.1 192.168.0.102

Mozilla/4.0+(compatible;+MSIE+7.0;+Windows+NT+5.1;+Trident/4.0;+InfoPath.2;+360SE) ASPSESSIONIDACRRDABA=IDDHCBBBHBMBODAGCIDKAGLM -

下面对日志格式进行详细解答。Fields: date 2010-07-30 \\爬行日期time 01:06:43 \\时间s-sitename W3SVC1 \\服务器名称s-computername MGL \\ 网站名称s-ip 192.168.0.102 \\网站IP cs-method GET \\获取方法cs-uri-stem

/css/rss.xslt \\文件的URL cs-uri-query - \\?后面的参数s-port 80 \\服务器端口cs-username - \\用户名c-ip 192.168.0.102 \访问者(蜘蛛)ip cs-version HTTP/1.1 \\协议版本cs(User-Agent)

Mozilla/4.0+(compatible;+MSIE+7.0;+Windows+NT+5.1;+Trident/4.0;+InfoPath.2;+360SE) \\用户代理,即用户所用的浏览器(这个最重要)cs(Cookie) ASPSESSIONIDACRRDABA=IDDHCBBBHBMBODAGCIDKAGLM \\发送或接收的 Cookie 内容(如果有)cs(Referer) - \\选择该选项可以记录用户访问的前一个站点。此站点提供与当前站点的链接。cs-host 192.168.0.102 \\主机头的内容。我本地访问的是IP,这个应该是网站域名。

sc-status 304 \\协议状态(200是正常的 404 是找不到文件,304未改变。更多请查看IIS返回日志详解)sc-substatus 0 \\协议子状态sc-win32-status 0 \\win32状态

sc-bytes 140 \\发送的字节数cs-bytes 358 \\接受的字节数time-taken 0 \\所用时间200 0 0 4600 316 140返回200正常,4600发送的字节数,316接受的字节数 140所用时间。这个时间应该是毫秒级别的。

下面介绍几个常见的百度蜘蛛IP

IIS日记上的百度蜘蛛IP为例:

123.125.68.*这个蜘蛛经常来,别的来的少,表示网站可能要进入沙盒了,或被者降权。

220.181.68.*每天这个IP 段只增不减很有可能进沙盒或K站。

220.181.7.*、123.125.66.* 代表百度蜘蛛IP造访,准备抓取你东西。

121.14.89.*这个ip段作为度过新站考察期。

203.208.60.*这个ip段出现在新站及站点有不正常现象后。

210.72.225.*这个ip段不间断巡逻各站。

125.90.88.* 广东茂名市电信也属于百度蜘蛛IP 主要造成成分,是新上线站较多,还有使用过站长工具,或SEO综合检测造成的。

220.181.108.95这个是百度抓取首页的专用IP,如是220.181.108段的话,基本来说你的网站会天天隔夜快照220.181.108.92 同上98%抓取首页,可能还会抓取其他 (不是指内

页)220.181段属于权重IP段此段爬过的文章或首页基本24小时放出来。

123.125.71.106 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

220.181.108.91属于综合的,主要抓取首页和内页或其他,属于权重IP 段,爬过的文章或首页基本24小时放出来。

220.181.108.75重点抓取更新文章的内页达到90%,8%抓取首页,2%其他。权重IP 段,爬过的文章或首页基本24小时放出来。

220.181.108.86专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

123.125.71.95 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

123.125.71.97 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。

220.181.108.89专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。

相关文档
最新文档