Sitemap和Robots.txt SEO优化技巧
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在做网站优化的时候,我们不仅要进行网站内容,外链,内链的优化,还需要从sitemap.xml 和robots.txt这些细节之处着手。
sitemap和robots.txt是一个网站针对搜索引擎设置的两个极其重要的文件。
一般的站长都知道,建好网站后需要建立网站的sitemap.xml,还有特殊情况的话需要进行robots.txt文件的设置。
下面说说Sitemap和Robots.txt SEO优化技巧。
第一部分:网站sitemap优化的技巧
1. 网站必须要设立sitemap文件。
不管你的网站是不是已经被收录,设置sitemap文件就像相当于给搜索引擎提供了你网站的目录,让搜索引擎更有效率的在你的网站上爬行抓取。
2. 根目录下必须要有sitemap.xml文件。
这是针对第一点来说的,许多网站系统可以自动生成sitemap文件。
但是存储的名称和位置可是多种多样:比如ecshop默认生成的sitemap文件命名为sitemaps.xml;dedecms系统生成的sitemap文件就位于data/rss/目录之下,名称也是已数字命名的。
这些都不是规范的。
搜索引擎默认的格式是你根目录下的sitemap.xml文件。
也就是说,搜索引擎来到你网站的时候会自动寻找你的sitemap.xml文件,而不是其他目录或其他名称的文件。
3. 建立sitemap的索引文件。
关于sitemap的索引文件,了解的人并不多,主要是大家都没有考虑到第2个问题,以为只要自己设立了sitemap文件就可以了。
俗话说酒香还怕巷子深,你把sitemap文件放到那么深的文件目录,你觉得搜索能找到吗。
有人说,我提交到搜索引擎的管理员工具中,但并不是每个搜索引擎都有管理员工具的。
如果你在网站根目录下设立了默认的sitemap索引文件,则可以便捷的向来到你网站的任何一个搜索引擎展示你的网站目录。
并不是每个网站都需要一个sitemap索引文件。
这是因为索引文件的作用是指引搜索引擎爬行你真正的sitemap文件的。
一般情况下,当你的sitemap文件至少在两个或以上时,才建议设立sitemap索引文件。
在根目录下建立以sitemap.xml命名的索引文件指向你真正的sitemap文件。
1、什么是Sitemap
1)Sitemap协议
定义:Sitemap简称网站地图,就是网站上的网页列表
作用:通过Sitemap告诉蜘蛛站点中哪些网页可供抓取
格式:分为三种格式:txt文本格式、xml格式、Sitemap索引格式
2)百度Sitemap
定义:指百度支持的收录标准,在原有协议上做出了扩展
作用:通过Sitemap告诉百度蜘蛛全面的站点链接,优化自己的网站
格式:分为三种格式:txt文本格式、xml格式、Sitemap索引格式
2、Sitemap可以给站长带来什么
百度搜索引擎会使用Sitemap中的数据来了解网站的结构等信息,熟悉网站后可以更好抓取。
百度对已提交的数据,会有选择的抓取及索引网址。
您的网站会被百度更好的抓取
二、手把手教您制作Sitemap文件
1、xml格式的Sitemap文件
样例:
<loc></loc>该页的网址。
该值必须少于256个字节(必填项)。
格式为<loc>您的url地址</loc>
<lastmod>2010-01-01</lastmod>该文件上次修改的日期(选填项)。
格式为<lastmod>年-月-日</lastmod>
<changefreq> always </ changefreq >页面可能发生更改的频率(选填项) 。
有效值为:always、hourly、daily、weekly、monthly、yearly、never
<priority>1.0</priority >此网页的优先级。
有效值范围从0.0 到1.0 (选填项) 。
0.0优先级最低、1.0最高。
将如样例中写好的xml文件保存至网站根目录下,如您的站点是,文件名为Sitemap.xml,则上传Sitemap文件给百度时填写的Sitemap的url地址为:/sitemap.xml
2、Sitemap索引文件
样例:
<loc>/map1.xml</loc>识别Sitemap的位置(必填项)。
这里提供的信息是您分割的Sitemap文件存放路径。
<lastmod>2010-01-01</lastmod>识别相对Sitemap文件的修改时间(选填项)。
格式为<lastmod>年-月-日
</lastmod>
3、txt格式的Sitemap文件
样例:
在这个txt格式的Sitemap文件中填写您想提交让百度蜘蛛知道的URL地址列表
将如样例中写好txt格式的Sitemap文件保存至网站根目录下,如您的站点是,文件名为sitemap.txt,则上传Sitemap文件给百度时填写的Sitemap的url地址为:
/sitemap.txt
4. 在robots.txt声明你的sitemap文件。
如果没有直接链接的话,也许有的搜索引擎并不主动搜索你网站目录下的sitemap文件。
但是,不论是google,baidu,还是其他不知名的小搜索引擎,都会首先索引你网站根目录下的robots.txt文件。
如果你在robots.txt文件中声明你sitemap文件及其位置,那么蜘蛛的爬行也就顺利成章了。
第二部分:网站robots.txt优化的技巧
1. 根据需要设立robots.txt文件。
对任何一个东西进行优化,首先要了解它是干什么用的。
robots.txt文件是专门给你搜索引
擎看的,告诉他这个网站那些地方你可以爬行,那些地方你不可以爬行。
或者那些蜘蛛可以爬行,哪些蜘蛛不能爬行。
比如:淘宝网的robots.txt中就声明了禁止百度的蜘蛛爬行。
其实,说白了,robots.txt就是搜索引擎爬行网站的准许证,在拿到了准许证后,根据网站的目录(sitemap文件)来爬行你的网站。
如果你的网站有特殊设置,可以利用robots.txt来设置。
2. 把你网站的非实质内容页面及目录在robot.txt中设定。
这里说的设定一般是指disallow这些没有实质内容的页面及目录。
为什么这么做,原因在于搜索引擎在每个网站上停留及爬行的时间都有限。
我们需要确保搜索引擎爬行及收录我们网站上最有价值的页面。
通过这些有价值的内容页面给我们带来更多流量。
如果有些目录和页面就算被搜索引擎爬行收录了也带不来流量,反而占用了搜索引擎搜索你其他有价值页面的机会,那就得不偿失。
这些目录和页面常见的有:
a. 管理后台,被加密的目录(搜索引擎爬了对你没好处)。
b. 功能目录,无内容页面链接的目录;
c. 注册,注销,收藏,打印等链接(或使用rel=“nofollow”标记);
3. 在robots.txt中声明你的sitemap文件。
具体原因已经在上面说过了,设置的方法如下:
在robots.txt加入如下的一行文字:
Sitemap: /sitemap.xml (替换你自己实际的sitemap文件地址)
有多个sitemap文件,没有建立sitemap索引文件的也可以在robots.txt里同时声明。
Sitemap: /sitemap.xml
Sitemap: /sitemap_index.xml。