Robots.txt标准制作方法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
$通配符 - 匹配 URL 结尾的字符。如下面代码将允许蜘蛛访问以.htm 为后 缀的 URL: User-agent: * Allow: .htm$ *通配符 - 告诉蜘蛛匹配任意一段字符。如下面一段代码将禁止蜘蛛抓取 所有 htm 文件: User-agent: * Disallow: /*.htm Sitemaps 位置 - 告诉蜘蛛你的网站地图在哪里,格式为: Sitemap: 三家都支持的 Meta 标签包括: NOINDEX - 告诉蜘蛛不要索引某个网页。 NOFOLLOW - 告诉蜘蛛不要跟踪网页上的链接。 NOSNIPPET - 告诉蜘蛛不要在搜索结果中显示说明文字。
NOARCHIVE - 告诉蜘蛛不要显示快照。 NOODP - 告诉蜘蛛不要使用开放目录中的标题和说明。 上面这些记录或标签,现在三家都共同支持 支持的 Meta 标签有: UNAVAILABLE_AFTER 告诉蜘蛛网页什幺时候过期。在这个日期之
Robots.txt 标准制作方法
一个网站,可以有 Robots.txt 标准,也可以没有。但是如果要有,那就 必须做的规范,下面就个人经验来说下 robots.txt 的制作方法。 robots.txt 文件命令包括: Disallow - 告诉蜘蛛不要抓取某些文件或目录。如下面代码将阻止蜘蛛抓 取所有的网站文件: User-agent: * Disallow: / Allow - 告诉蜘蛛应该抓取某些文件。Allow 和 Disallow 配合使用,可以告 诉蜘蛛某个目录下,大部分都不抓取,只抓取一部分。如下面代码将使蜘蛛 不抓取 ab 目录下其他文件,而只抓取其中 cd 下的文件: User-agent: * Disallow: /ab/ Allow: /ab/cd
后,不应该再出现在搜索结果中。 NOIMAGEINDEX - 告诉蜘蛛不要索引页面上的图片。 NOTRANSLATE - 告诉蜘蛛不要翻译页面内容。 雅虎还支持 Meta 标签: Crawl-Delay - 允许蜘蛛延时抓取的频率。 NOYDIR - 和 NOODP 标签相似,但是指雅虎目录,而不是开放目录。 Robots-nocontent - 告诉蜘蛛被标注的部分 html 不是网页内容的一部分,或
者换个角度,告诉蜘蛛哪些部分是页面的主要内容(想被检索的内容)。 MSN 还支持 Meta 标签: Crawl-Delay 另外提醒大家注意的是,返回 404 错误的时候,意味着允许蜘蛛抓取所有 内容。但抓取 robots.txt 文件时却发生超时之类的错误,可能导致搜索引擎不 收录网站,因为蜘蛛不知道 robots.txt 文件是否存在或者里面有什幺内容,这 与确认文件不存在是不一样的。 以上就是我们给大家介绍的 Robots.txt 标准了。希望大家学业有成,工作 顺利