服务器日志返回304的原因、影响及解决方式

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

服务器日志返回304的原因、影响及解决方式
网站不收录,长期只收录首页,无论怎样努力、原创、各种引蜘蛛都毫无起色,这些都是站长们经常遇到的情况。

本人的一个新站,自认为很用心努力了,半个月过去还是只有首页收录,今天楼主去看了服务器,发现304状态码过多,后果就是蜘蛛来爬行、抓取网站的次数就减少,从而导致网站快照更新慢,文章也不能被收录。

那么为什么会出现304?怎么处理?
304 (未修改) 的意思是自从上次请求后,请求的网页未修改过。

服务器返回此响应时,不会返回网页内容。

字面意思意味着网站没怎么更新,至少更新的未几,当然,大部分站长们看到这个解释会很无辜,事实上很少是因为真的没更新、更新频率太低,而是因为下面的几个因素:
1、服务器缓存(IIS缓存)缘故
当我们打开一个网站或者和一些较大的网站换友情链接,常常发现ctrl+F5重新加载后才会显示新的页面,这其实就是缓存的缘故。

而设置缓存的作用一般都是为了加速网站的提前加载。

措施:对主机端的缓存做设置,让网页型文件每过三小时就过期一次。

可以使用这段代码ExpiresByType text/html “access plus 3 hours”,但是要注意一点就是,不要对所有文件做短期缓存过期处理,比如图片,Flash等,那样你的用户访问速度会非常的慢因为每次都有相应加载。

遗留问题:很多网站因为图片缓存大量返回304。

2、网站结构问题
如果网站结构不能有效的让蜘蛛顺利爬行,也就是说虽然蜘蛛有抓取,但由于网站结构问题导致蜘蛛前后两次抓取内容相同,或者说蜘蛛每次抓取首页都只抓了那块固定的内容,那么就势必导致蜘蛛对首页的抓取返回304状态码。

措施:制作网站地图,放在网站首页前面的位置,给蜘蛛引路。

3、网站速度问题
有的时候由于速度因素导致网站只加载了头部,后面部分而没有及时显示出来,也可能导致蜘蛛只抓取了头部部分内容,而由于一般网站的头部都是相同的,也就容易出现了抓取返回没更新的状态码。

谷歌就针对网站的加载时间更新过算法,把网站加载时间纳入了排名因素,就算搜索引擎排名不重视这点,对于用户体验也是有很大影响,谁也不会愿意多花时间在一个需要加载几十秒甚至几分钟的网站上面。

措施:这个就涉及到各种文件及代码的压缩及合并了,还有就是第一点说的缓存,鱼和熊掌不可兼得啊,尽量少用图片,Flash,也可以考虑一下是不是屏蔽图片,Flash。

4、被降权被K站——老站新域名
由于采集或者其他原因被百度惩罚,权重降了,百度自然不会稀罕你网站的内容。

最近几个月很多站长们这样干吧,拿被降权的站换域名重新来过,为省事就换个域名,没啥改动,虽然换域名等于从头再来,也不能保证就脱离关系完全不被牵连。

这种情况下日志会经常出现蜘蛛频繁地抓取首页并返回304,并且很少抓取内页,建议规规矩矩做站,多弄原创文章。

除了以上提到的网站地图、删除IIS缓存、合并代码等,另外,建议站长们做好静动态处理,没办法提高更新频率的话推荐文章建议采取随机显示文章的方式。

详细情况查看RFC文档(以下借用以供参考):
GET:请求指定的页面信息,并返回实体主体。

HEAD:只请求页面的首部。

POST:请求服务器接受所指定的文档作为对所标识的URI的新的从属实体。

PUT:从客户端向服务器传送的数据取代指定的文档的内容。

DELETE:请求服务器删除指定的页面。

OPTIONS:允许客户端查看服务器的性能。

TRACE:请求服务器在响应中的实体主体部分返回所得到的内容。

PA TCH:实体中包含一个表,表中说明与该URI所表示的原内容的区别。

MOVE:请求服务器将指定的页面移至另一个网络地址。

COPY:请求服务器将指定的页面拷贝至另一个网络地址。

LINK:请求服务器建立链接关系。

UNLINK:断开链接关系。

WRAPPED:允许客户端发送经过封装的请求。

Extension-mothed:在不改动协议的前提下,可增加另外的方法。

相关文档
最新文档