Robots.txt标准制作方法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

$通配符 - 匹配 URL 结尾的字符。如下面代码将允许蜘蛛访问以.htm 为后缀的 URL： User-agent: * Allow: .htm$ *通配符 - 告诉蜘蛛匹配任意一段字符。如下面一段代码将禁止蜘蛛抓取所有 htm 文件： User-agent: * Disallow: /*.htm Sitemaps 位置 - 告诉蜘蛛你的网站地图在哪里，格式为： Sitemap: 三家都支持的 Meta 标签包括： NOINDEX - 告诉蜘蛛不要索引某个网页。 NOFOLLOW - 告诉蜘蛛不要跟踪网页上的链接。 NOSNIPPET - 告诉蜘蛛不要在搜索结果中显示说明文字。
NOARCHIVE - 告诉蜘蛛不要显示快照。 NOODP - 告诉蜘蛛不要使用开放目录中的标题和说明。上面这些记录或标签，现在三家都共同支持支持的 Meta 标签有： UNAVAILABLE_AFTER 告诉蜘蛛网页什幺时候过期。在这个日期之
Robots.txt 标准制作方法
一个网站，可以有 Robots.txt 标准，也可以没有。但是如果要有，那就必须做的规范，下面就个人经验来说下 robots.txt 的制作方法。 robots.txt 文件命令包括： Disallow - 告诉蜘蛛不要抓取某些文件或目录。如下面代码将阻止蜘蛛抓取所有的网站文件： User-agent: * Disallow: / Allow - 告诉蜘蛛应该抓取某些文件。Allow 和 Disallow 配合使用，可以告诉蜘蛛某个目录下，大部分都不抓取，只抓取一部分。如下面代码将使蜘蛛不抓取 ab 目录下其他文件，而只抓取其中 cd 下的文件： User-agent: * Disallow: /ab/ Allow: /ab/cd
后，不应该再出现在搜索结果中。 NOIMAGEINDEX - 告诉蜘蛛不要索引页面上的图片。 NOTRANSLATE - 告诉蜘蛛不要翻译页面内容。雅虎还支持 Meta 标签： Crawl-Delay - 允许蜘蛛延时抓取的频率。 NOYDIR - 和 NOODP 标签相似，但是指雅虎目录，而不是开放目录。 Robots-nocontent - 告诉蜘蛛被标注的部分 html 不是网页内容的一部分，或
者换个角度，告诉蜘蛛哪些部分是页面的主要内容(想被检索的内容)。 MSN 还支持 Meta 标签： Crawl-Delay 另外提醒大家注意的是，返回 404 错误的时候，意味着允许蜘蛛抓取所有内容。但抓取 robots.txt 文件时却发生超时之类的错误，可能导致搜索引擎不收录网站，因为蜘蛛不知道 robots.txt 文件是否存在或者里面有什幺内容，这与确认文件不存在是不一样的。以上就是我们给大家介绍的 Robots.txt 标准了。希望大家学业有成，工作顺利