网站优化关于robot的基本使用

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

网站优化关于robot的基本使用
当搜索引擎访问一个网站的时候,第一步就是检查网站的robots.txt文件,显然这是我们seo 必做的内容。

在了解robots.txt文件写法之前,我们就先要知道robot是什么?
robot英文翻译过来:机器人。

robots.txt文件也很好理解:搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。

robots.txt这个文件用于指定spider(蜘蛛)在您网站上的抓取范围。

关于robots.txt需要注意以下几点:
1,robots.txt文件应该放置在网站根目录下。

比如,当spider访问http://www. 时,首先会检查该网站中是否存在/robots.txt这个文件,如果Spider 找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。

2,每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误文件(无法找到文件)。

每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误文件,所以不管你是否需要屏蔽蜘蛛抓取,都应该在网站中添加一个robots.txt。

3,一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。

这些内容目录可以通过robots.txt 屏蔽。

4,robots.txt里主要有两个函数:User-agent和Disallow。

5,robots.txt文件里还可以直接包括在sitemap文件的链接。

就像这样:
Sitemap: http://www. /sitemap.xml
6,举例个robots.txt,不懂的朋友可以根据自己的网站情况,作为参考。

User-agent: *
Disallow: /admin/ 后台管理文件
Disallow: /require/ 程序文件
Disallow: /attachment/ 附件
Disallow: /images/ 图片
Disallow: /data/ 数据库文件
Disallow: /template/ 模板文件
Disallow: /css/ 样式表文件
Disallow: /lang/ 编码文件
Disallow: /script/ 脚本文件
7,文件里面至少要有一个Disallow函数,如果都允许收录,则写: Disallow: ,如果都不允许收录,则写:Disallow: / (注:只是差一个斜杆)。

8,常见Robots名字
名称搜索引擎
google蜘蛛:googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
altavista蜘蛛:scooter
lycos蜘蛛:lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler/
inktomi蜘蛛:slurp。

相关文档
最新文档