利用Robots解决404错误页分权问题
网络营销之404页面的作用
•网站的死链接和错误链接是难以避免的,站内文章的删除、网站的改版都会遗留下很多死链接,错误链接的来源主要是在外链发布中可能会因为输错或遗漏一些字符而导致链接无法访问,当一个用户访问网站时,有出现友好的404页面,那么不管是死链接还是错误的链接,都可以很好的将用户引导进入网站,可以说404页面的制作是提升用户体验的一大表现,是网站不可或缺的一部分。
404页面的制作其实不难,操作一遍几乎就可以掌握。
对于404页面的制作,个人认为不需要太花哨,应该结合自己的网站主题去制作,特别是一些关于转化率的网站,更应该慎重考虑,稍微有点疏忽,制作的页面过于偏离,可能会让用户有种不信任的感觉;用户对于网站的第一感觉是很重要的,一旦他门认可,那么成功的几率就非常高的,而如果当用户因为网站的某些不足而咨询你时,那么成功的几率就大大减小,无论你怎么解释,他都会产生些怀疑和不信任。
观察了很多大型网站,他们的404页面制作都有所不同,新浪的是5秒内跳转到导航页,admin5的没有设置跳转,直接到404错误页面;对于404页面,SEOER主要有两个问题经常会遇到的,一是404页面是否需要用robots进行屏蔽,二是是否需要设置自动跳转到首页,下面说下自己对于这两方面的一个看法:一、是否需要用robots进行屏蔽?很多站长认为404页面应该用robots进行屏蔽,因为没有屏蔽的话可能会让搜索引擎抓取太多的重复页面,事实上站长能屏蔽的只有一个404.htm页面,而其他用户访问的错误页面或死链接页面根本没办法屏蔽,最多只能通过观察iis日志,进行相对于的屏蔽,比如一些因为外部地址写错的链接,本来发布的链接是/xxjj,在外链发布是写成/xxj,漏掉了一个字母,那蜘蛛可能就会爬取这个链接,这个错误的页面就很有可能被搜索引擎收录,因此对于404页面个人认为是根本没办法进行一一屏蔽的。
二、是否需要自动跳转到首页?对于404页面是否需要设置自动跳转到首页,产生了比较大的争议,一些站长认为跳转到首页有利于首页权重的提升,一些站长认为跳转的时间不宜太快,时间应该在10秒货20秒为宜,而新浪的404页面跳转的时间为5秒钟:但新浪并不是直接跳转到首页,而是跳转到导航页面。
避免死链接的方法
避免死链接的方法1、避免死链接页面被收录一个网站的运营,死链接的出现是不可避免的。
当我们删除一个栏目或者删除某一篇内容的时候,无论这一些页面收录与否,我们都需要进行屏蔽处理。
有的人可能有疑惑,为什么没有收录的页面也要进行屏蔽了,其实原因很简单,搜索引擎的收录有时并不是收录后就马上放出来,而是要过一阶段才放出。
这一些虽然没被放出来的但是已经收录的页面我们也不可忽视。
我们可以借由404错误页面或者使用robots文件进行屏蔽处理。
2、避免重复的页面被收录如果你有仔细的阅读过百度的优化指南,你应该会记得其中有一条信息是关于重复页面的信息,该提示指出如果我们站点上有两个不同的URL地址指向一个相同的页面的话,那么搜索引擎只会在两者之中知其一。
而搜索引擎起初并不能区分要收录哪一个页面,会将所有的重复页面都收录。
虽然我们的收录之后有成倍增长,但是最终都会被搜索引擎剔除。
这就导致我们的收录数量出现大的波动。
而且如果出现大量重复的页面有可能会被搜索引擎直接认为是作弊的手段。
当然避免重复的页面被收录也不能,我们只要通过robots屏蔽掉这些链接,或者使用重定向将这些页面重定向到标准的我们想让搜索引擎收录的页面就可以了。
3、避免收录对搜索引擎不友好的页面在用户的友好体验与SEO上我们难免会遇到两难的局面,一个页面的质量高低,搜索引擎与用户之间的评判总是存在着一定的差异。
可能我们有一个页面对于用户友好,但是对搜索引擎不友好的话,我们就可以适当的屏蔽这些页面,让搜索引擎无法收录。
举一个简单的实例,我们可以发现很多论坛都开始有广告专区,这一个板块的目的方便用户发布广告,和获得广告信息,但是我们也不得不免对一个问题,就是在这一板块中可能出现内容的质量低,很多内容都是直接复制重复的,或者是文章中充满了外链等等,这些页面虽然用户看起来并不反感,但是在搜索引擎严重这些是一些质量非常低的页面,而且这些页面中链接有可能是一些被惩罚的网站的链接,假如我们放着这些页面被搜索引擎收录,无非对站点的SEO是一大打击。
常见HTTP状态,404错误等等301,201。
常见HTTP状态(304,200等)
在网站建设的实际应用中,容易出现很多小小的失误,就像mysql当初优化不到位,影响整体网站的浏览效果一样,其实,网站的常规http状态码的表现也是一样,Google无法验证网站几种解决办法,提及到由于404状态页面设置不正常,导致了google管理员工具无法验证的情况,当然,影响的不仅仅是这一方面,影响的更是网站的整体浏览效果。
因此,比较清楚详细的了解http状态码的具体含义,对于一个网站站长来说,这是很有必要俱备的网站制作基础条件。
如果某项请求发送到您的服务器要求显示您网站上的某个网页(例如,用户通过浏览器访问您的网页或Googlebot 抓取网页时),服务器将会返回HTTP 状态码响应请求。
此状态码提供关于请求状态的信息,告诉Googlebot 关于您的网站和请求的网页的信息。
一些常见的状态码为:
•200–服务器成功返回网页
•404–请求的网页不存在
•503–服务器超时
下面提供HTTP 状态码的完整列表。
点击链接可了解详情。
您也可以访问HTTP 状态码上的W3C 页获取更多信息。
1xx(临时响应)
表示临时响应并需要请求者继续执行操作的状态码。
3xx(重定向)
要完成请求,需要进一步操作。
通常,这些状态码用来重定向。
Google 建议您在每次请求中使用重定向不要超过5 次。
您可以使用网站管理员工具查看一下Googlebot 在抓取重定向网页时是否遇到问题。
诊断下的网络抓取页列出了由于重定向错误导致Googlebot 无法抓取的网址。
如有侵权请联系告知删除,感谢你们的配合!。
noindex和NOFOLLOW
有的时候,站长并不希望某些页面被抓取和收录,如付费内容、还在测试阶段的页面复制内容页面等。
网站上不出现链接,或者使用davaScript. 1~ lash链接,使用nofollow等方法都不能保证页面一定不被收录·站长自己虽然没有链接到不想被收录的页面,其他网站可能由于某种原因出现导入链接,导致页面被收录。
要确保页面不被收录,需要使用bots文件或Meta Robots标签。
1. robots文件搜索引擎蜘蛛访问网站时,会先查看网站根目录下有没有一个命名为robots.txt的纯文本文件,robots.txt用于指令搜索引擎禁止抓取网站某些内容或指定允许抓取某些内容。
只有在需要禁止抓取某些内容时,写robots.txt才有意义。
robots文件不存在或者是空文件都意味着允许搜索引擎抓取所有内容。
有的服务器设置有问题,robots文件不存在时会返回200状态码及一些错误信息,而不是404状态码,这有可能使搜索引擎错误解读robots 文件信息,所以建议就算允许抓取所有内容,也要建一个空的robots.txt文件,放在根目录下。
robots文件由记录组成,记录之间以空行分开。
记录格式为:<域>:<可选空格><域值><可选空格>最简单的robots文件:User-agent:*Disallow:/上面这个robots文件禁止所有搜索引擎抓取任何内容。
User-agent:指定下面的规则适用于哪个蜘蛛。
通配符*代表所有搜索引擎。
只适用于百度蜘蛛则用:User-agent: Baiduspider只适用于Google蜘蛛则用:User-Agent: GooglebotDisallow:告诉蜘蛛不要抓取某些文件或目录。
Disallow:禁止的目录或文件必须分开写,每个一行。
下面的指令相当于允许所有搜索引擎抓取任何内容:User-agent:*Disallow:主流搜索引擎都遵守robots文件指令,robots. txt禁止抓取的文件搜索引擎将不访问,不抓取。
robots.txt使用误区与技巧-电脑资料
robots.txt使用误区与技巧-电脑资料1. 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件),。
每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。
2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。
比如:大多数网站服务器都有程序储存在“CGI-bin”目录下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。
一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。
下面是VeryCMS里的robots.txt文件:User-agent: *Disallow: /admin/ 后台管理文件Disallow: /require/ 程序文件Disallow: /attachment/ 附件Disallow: /images/ 图片Disallow: /data/ 数据库文件Disallow: /template/ 模板文件Disallow: /CSS/ 样式表文件Disallow: /lang/ 编码文件Disallow: /script/ 脚本文件3. 如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。
那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。
4. robots.txt文件里还可以直接包括在sitemap文件的链接。
就像这样:目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN,电脑资料《robots.txt使用误区与技巧》(https://www.)。
而中文搜索引擎公司,显然不在这个圈子内。
404页面设置的方法以及删除快照的技巧
404页⾯设置的⽅法以及删除快照的技巧404页⾯设置及删除已收录页⾯的处理⽅法之前做过⼀个⽹站遇到这样的问题:⽹站改版之后遗留了很多死链接,为了让百度不收录这些页⾯,于是设置了404页⾯,但是后来发现,这些⼤量的 404页⾯百度仍然在收录,多次向百度提交过死链,依然没有改善。
有⼈说这是百度的问题,很多⼈都遇到过这种情况。
这样的问题如果属于⽐较⼩型的⽹站可能很难感觉到影响,但是⼀旦⽹站规模⽐较⼤,⽽且死链⼜⽐较多,就会对⽹站本⾝的收录、权重、排名、流量带来影响。
最后在⼀些朋友的帮助下,404页⾯的收录问题终于得到解决。
这⾥也说⼀些题外话,如果你的⽹站遇到了⾃⼰暂时不能解决的问题,不妨多和别⼈沟通交流,相信会有⼈能很快的解决你的这些疑难问题。
我们都知道404页⾯的⼀些基本规则,但是却很少有⼈重视,即使你发现了这些问题也因为感觉问题不⼤就没有继续深究下去。
不过,如果你任由这样的漏洞存在,时间长了就会⾃⾷其果了,所以笔者建议作为站长,任何细微的问题都应该有穷追猛打的劲头。
这⾥,我将⾃⼰对404页⾯的⼀些新的认识分享出来,也欢迎更多的朋友跟我交流合作。
404页⾯会不会被收录关于这个问题,看法并不统⼀,有⼈说404页⾯不会被收录,404本⾝就是告诉搜索引擎以及访问者这个页⾯已经不存在了,请绕道或者去其他的页⾯逛逛。
也有⼀些⼈认为404页⾯会被收录。
在企赢001可以找到⽐较专业的说法:搜索引擎不会收录404页⾯,但是有例外的情况,那就是已经收录过的页⾯被删除后设置的404,百度会收录。
这⼀点,跟笔者的⽹站遇到的情况类似,笔者也是通过企赢001的专家才解决了这些问题。
404页⾯被收录的危害:404页⾯收录的⼀个特征就是已经设置了404的页⾯,百度仍然放出来,可以检索的到,但是快照⼀直不会更新。
少数的404页⾯被收录,或者你的⽹站本⾝就没有多少404页⾯,就不会感觉多有多少危害。
⽽对于哪些成⽴不久,但是发展快速的⽹站来说,庞⼤的数据之下就必然有⼤量的死链、错误链接,这时候你就不能回避404页⾯被收录的问题。
robots.txt文件中应该屏蔽哪些目录
robots.txt文件中应该屏蔽哪些目录一个合格的网站,必须在根目录下包含一下robots.txt文件,这个文件的作用对所有运营网站的朋友来说并不陌生,网上也提供了很多制作robots.txt 文件的方法和软件,可谓相当方便。
但是,你真的知道网站的robots.txt文件设置是否合理,哪些文件或者目录需要屏蔽、哪些设置方法对网站运营有好处?那下面带着这些疑问,笔者会进行详细的解答,希望对新手站长朋友们有所帮助,老鸟勿喷。
一、什么是robots.txt笔者引用百度站长工具中后段话来解释。
搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。
spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。
您可以在您的网站中创建一个robots.txt,在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。
二、robots.txt文件对网站有什么好处1、快速增加网站权重和访问量;2、禁止某些文件被搜索引擎索引,可以节省服务器带宽和网站访问速度;3、为搜索引擎提供一个简洁明了的索引环境三、哪些网站的目录需要使用robots.txt文件禁止抓取1)、图片目录图片是构成网站的主要组成元素。
随着现在建站越来越方便,大量CMS的出现,真正做到了会打字就会建网站,而正是因为如此方便,网上出现了大量的同质化模板网站,被反复使用,这样的网站搜索引擎是肯定不喜欢的,就算是你的网站被收录了,那你的效果也是很差的。
如果你非要用这种网站的话,建议你应该在robots.txt文件中进行屏蔽,通常的网站图片目录是:imags 或者 img;2)、网站模板目录如上面图片目录中所说,CMS的强大和灵活,也导致了很多同质化的网站模板的出现和滥用,高度的重复性模板在搜索引擎中形成了一种冗余,且模板文件常常与生成文件高度相似,同样易造成雷同内容的出现。
什么是robots?如何设置robots?
什么是robots?如何设置robots?robots是位于网站根目录的一个TXT文本文件,主要的作用是告诉搜索引擎那些页面可以抓取,那些页面不可以抓取。
一、robots定义:robots是网站和搜索引擎爬虫之间的协议,当搜索引擎爬虫爬取一个网站之前,第一先访问该网站有没有robots协议,如果有按照设置的robots协议进行对网站的抓取,如果没有默认网站所有页面都可以被抓取。
搜索引擎通过一个程序(搜索引擎蜘蛛),自动获取互联网上数亿的网页,经过分析和对比,筛选出质量优质的网页,进行收录和索引,最后得到网页的排名,用户查询关键词就可以访问到被收录的网页。
所以在网站的根目录创建一个robots协议用来告诉搜索引擎,网站这个页面可以被抓取,那个网页不让抓取。
可以说robots协议是对搜索引擎蜘蛛的行为设定了要求。
二、robots注意事项网站所有的内容都可以让搜索引擎抓取,我就不设置robots文件这是不对的,每次搜索引擎蜘蛛来到网站访问robots 文件都会生成一个404页面,网页不存在,对网站有不好的影响。
这种的可以在网站根目录放一个空的robots文件,什么都不写就可以了。
设置所有网页都让搜索引擎抓取,可以增加收目率这个想法也是错误的,搜索引擎对html文件情有独钟,对JS、框架等文件很是排斥。
网站的脚本文件、样式表等可以选择屏蔽,浪费服务器资源还得不到好处。
蜘蛛抓取浪费服务器资源,在robots协议中屏蔽所有搜索引擎这样就把搜索引擎蜘蛛屏蔽了,搜索引擎蜘蛛不会抓取网站内的内容,也不会有收录robots文件需要放置到网站的根目录,url格式域名+robots.txtrobots文件可以放置网站地图的链接,搜索引擎蜘蛛每次到网站首先访问的就是robots文件,所以放上网站的网站地图,有利于搜索引擎蜘蛛发现更多的链接。
robots文件必须是小写命名三、robots协议的设置robots文件的设置有两种参数,一个允许,一个拒绝。
宝塔文件配置返回404的规则
宝塔文件配置返回404的规则宝塔文件配置返回404的规则可以帮助网站管理员解决页面找不到的问题,提升用户体验,增加网站的可靠性和可访问性。
下面将详细介绍宝塔文件配置返回404的规则,以及如何进行配置。
一、什么是404错误页面?当网页无法被找到时,服务器会返回一个404错误码,告诉用户所请求的资源不存在。
这通常是由于网页链接错误、文件被删除或者文件移动导致的。
如果不进行处理,用户将看到一个空白页面或者服务器默认的错误页面,给用户带来不好的使用体验。
二、为什么要配置404错误页面?配置404错误页面可以提升网站的可访问性和用户体验。
通过自定义404错误页面,可以向用户展示一个友好的页面,提供相关的导航和搜索功能,帮助用户找到他们想要的信息或页面。
并且,通过配置404错误页面,还可以避免用户在页面找不到时离开网站,增加网站的黏性和转化率。
三、宝塔文件配置返回404的规则步骤1. 登录宝塔面板并进入网站的文件管理页面。
2. 在文件管理页面,找到网站的根目录,一般是public_html目录。
3. 在根目录下创建一个名为"404.html"的文件,这个文件将作为404错误页面的内容。
4. 打开网站根目录下的`.htaccess`文件,如果没有该文件,可以通过宝塔面板的文件编辑功能新建一个。
5. 在`.htaccess`文件中添加以下代码:```ErrorDocument 404 /404.html```其中,`/404.html`是你刚刚创建的404错误页面的路径,可以根据自己的情况进行修改。
6. 保存`.htaccess`文件并关闭文件编辑器。
7. 访问网站上一个不存在的页面,应该能够看到你刚刚创建的404错误页面。
8. 根据需要,可以在404错误页面中添加导航、搜索框等功能,方便用户导航和搜索相关内容。
四、常见问题和注意事项1. 确保宝塔面板和所使用的服务器支持`.htaccess`文件。
404错误到底能否通过301重定向解决
今天在A5看到了一篇《浅谈利用301重定向将404页面转移成自己外链的危害》,反驳了我之前那篇文章中的观点。我觉得非常好,SEO行业正应该有这种质疑的精神和独立思考的能力。仔细拜读了文章,发现作者误解了我的意思。所以再写一篇文章澄清一下其中的观点,以及介绍一下301重定向的作用。首先我明确两个在《使用301重定向将404错误转化为网站外链》一文中的思路:
首先,对于“自身行为”还是“外部行为”,显然搜索引擎有着明确的区分。拿链接建设来说,内链和外链在权重方面的效果是不同的。这点大家都很清楚。其核心思想就是外链是网站站长无法控制的,而内链是站长可以自行设置的。虽然在搜索引擎的发展过程中,出现“可被站长控制的外链”这一因素(就是平常的外链建设)。但无论可控还是不可控,有一个思想是明确的,即谁也不会在别人的网站可以发布正确URL的前提下,却去发错误的URL,导致用户无法正常访问自己的网站或在自己的网站上出现“该网页不存在”的字眼。
文章所讲述的是将404错误URL,通过301重定向回到原文的URL。这点需要说明,我没有在文章提到任何301到首页或者其他页面的意思,文章中的例子,讲述的是从外部(B网站)链入自身网站(A网站),在过程中有可能出现的URL错误拼写、链接添加错误甚至故意产生错误URL的行为。而不是A网站自身出现的404错误。
网站出现404错误,不一定是网站内部程序的问题。蜘蛛通过外部网站(以B网站为例)一个错误的URL爬行到自身网站(以A网站为例),同样会造成404错误,即:错误的URL导致了错误的页面。蜘蛛是不会管你链接URL存在于网站内部还是外部,只要在顺着URL爬行的过程中出现了“页面不存在”的情况,就会记录一个404错误。
如何解决在谷歌网站管理员工具的抓取错误
从谷歌员工苏珊Moskwa:
他说:“ 是最好的方式来阻止Googlebot的抓取网址,它已经发现,在过去的这些URL(如旧的站点地图)404。经过看到一个URL多次404,我们停止抓取。之后,我们停止抓取的网站地图,它应该放弃你的“所有的Sitemap”选项卡“。
不遵循
这些错误往往是由于重定向错误。确保您最大限度地减少重定向链,重定向计时器设置为在短期内,不使用元刷新你的页面的头部。
检查您的网站,查看缓存版本的网站的网站从谷歌SERP上市的纯文字版本,然后选择“纯文本版本。确保你可以看到所有的链接,他们没有被隐藏的Javascript,Flash中,饼干,会话ID,DHTML或框架。
一定要使用绝对路径,而不是相对链接,内容刮刀刮的图像或链接,他们可以在其网站上引用你的亲戚联系,如果不正确的解析,您可能会看到后面没有错误显示在您的网站管理员工具,出现这种情况与我们的网站之前,找出导致错误的源链接来自这几乎是不可能的。
有数以千计的404错误,特别是那些被编入索引或链接到其他页面的URL构成了潜在的不良的用户体验,为您的用户。如果他们登陆在一个会话中的多个404页,为您的网站的信任降低,当然会导致挫折和反弹。
您还没有想错过来自其他网站的链接汁,它们都指向一个死在您的网站的URL,如果你能解决这个问题的抓取错误,并把它重定向到一个良好的URL,你可以捕捉,链接,帮助您的排名。
在Sitemap
在Sitemap中的错误往往是由老网站地图,因为404'd有引起,或在当前站点地图返回404错误页面。请确保您的网站地图中的所有链接质量的工作,你希望谷歌抓取的链接。
谷歌确实是一个令人沮丧的事,它会不断地爬,因为你已经删除,以检查站点地图和网址,其实是死的老网站地图。如果你有一个旧的站点地图,你已经删除了网站管理员工具,你不希望被抓取,请务必让站点地图404和你不重定向网站地图您的当前站点地图。
Robots.txt的写法和利用百度站长平台工具自动生成
Robots.txt的写法和利用百度站长平台工具自动生成百度站长平台提供了一个很好的robots.txt自动生成工具,利用它我们可以很方便的写出robots.txt,通过robots.txt阻止搜索引擎收录你不想要被收录的页面及目录,还可以阻止及引导蜘蛛爬行更多的页面,减少蜘蛛的爬行量,提高蜘蛛的爬行效率,有效的提升更多的页面被收录。
前面我们介绍了通过IIS日志分析让你更好的了解网站运行情况,可以通过IIS日志查询到蜘蛛爬行中返回404状态的页面,这里我们可以用robots.txt禁止蜘蛛爬行。
百度站长平台注册及网站验证方法这里就不说了,下面讲讲Robots工具的使用方法:通过上图可以看到,蜘蛛返回404状态的页面都是网站改版前使用的网址,现在都不存在了,但是搜索引擎数据库还保存有记录,所以每天蜘蛛还是会来抓取这个页面的数据的,还有的时候是蜘蛛顺着别的网站上面留下的外链爬过来的。
下面我们演示怎样将通过光年SEO日志分析软件生成的日志报告中显示的404状态不存在的页面都屏蔽掉,不让蜘蛛抓取。
首先登陆百度站长平台,点击左边菜单的"Robots工具"进入Robots自动生成界面。
然后将上图中404状态的页面路径整理后复制到Robots工具输入框中。
User-agent底下选择"所有",状态选择"不允许抓取",输入路径后点击后面的"创建",上图我们测试了两个路径,分别是目录和一个文件,可以一下子输入多个路径,建议先在记事本里面将网址整理好再提交,一行一个路径。
点击"创建"以后,可以看到,底下的robots.txt内容中出现的代码,而且百度站长平台Robots工具有一个好处就是,不论你是多层目录还是网站单文件页面,它都自动识别后排序生成,不会造成单页面和目录顺序错乱造成蜘蛛抓取robots.txt的时候出现错误,所以我们大不必担心格式问题了。
三招分享如何处理网站大量404页面
三招分享如何处理网站大量404页面跟随着网站的发展,网站改版成为满足业务需要和提升用户体验的必经之路,网站改版也总数是存在着诸多不可预测的因素,其中网站404页面总是困扰着每一个经历过网站改版的站长,404页面的产生要么因为网站URL地址的变更,要么是因为网站数据的删除和内容数据库分离,针对网站改版产生404页面笔者就来分享笔者自身网站改版处理的三个手段:案例说明:笔者网站已是建站超过1年时间,被百度收录超过12000个页面的网站,网站首页主关键词排名百度第一页,谷歌未受影响,网站改版后因为处理得当并未导致网站关键词掉落和网站降权情况。
一:标准化URL:标准化URL是前提,更是关键一个良好健康的网站,因为改版而产生错误URL地址是一件非常让人头疼的事;一个良好健康的网站百度的抓取时间和频率以及量一定会非常勤快,如果网站前端一旦有错误地址的出现非常短时间内会被收录,至此会影响到网站的收录和网站快照,甚至影响到关键词排名稳定。
网站大范围的改版时一定要将URL地址标准化做为前提条件,改版前地址无法访问再加上后期URL地址频常波动,那么你的站基本无药可就;网站地址URL 标准化有利于网站错误地址批量重定向和错误地址的检查。
这里笔者要提醒各位站长一定要注意内容页分页和频道页搜索地址,这些地址将是产生大量404错误的集中地。
二:301重定向:一种挽救,一种转移网站改版从一个目录到另一个目录;从动态地址到伪静态地址;从目录层级3个缩短到2个等,这个时候301重定向就显得尤为重要,301重定向的方法笔者认为ISS重定向和程序性重定向二种,当然因为服务器端WEB服务器的不同而不同处理。
当网站改版而造成目录和URI地址的变化,这属于批量调整范围,这靠服务器301重定向无法解决,这个时间就需要网站程序员进行批量目录301重定向;如网站生成页面出现错误时一定要学会目录批量式ISS重定向。
百度和谷歌目前根据笔者自身的设置情况看来,谷歌301重定向生效时间一般在3-7天,百度在15-30天。
Swagger2配置方式(解决404报错)
Swagger2配置⽅式(解决404报错)⽬录Swagger2配置(解决404报错)⼀、引⼊依赖⼆、编写配置⽂件三、解决404报错swagger配置好后仍然404问题Swagger2配置(解决404报错)在spring boot项⽬中配置Swagger2,配置好了但是访问确实404,SwaggerConfig中的注⼊⽅法也执⾏了还是访问不到页⾯。
究其原因是MVC没有找到swagger-ui包中的swagger-ui.html⽂件。
Swagger2的配置步骤如下:⼀、引⼊依赖pom.wml<dependency><groupId>io.springfox</groupId><artifactId>springfox-swagger2</artifactId><version>2.9.2</version></dependency><dependency><groupId>io.springfox</groupId><artifactId>springfox-swagger-ui</artifactId><version>2.9.2</version></dependency>⼆、编写配置⽂件package tticy.config;import mon.base.Function;import mon.base.Optional;import mon.base.Predicate;import org.springframework.context.annotation.Bean;import org.springframework.context.annotation.Configuration;import org.springframework.web.servlet.config.annotation.EnableWebMvc;import springfox.documentation.RequestHandler;import springfox.documentation.builders.ApiInfoBuilder;import springfox.documentation.builders.PathSelectors;import springfox.documentation.service.ApiInfo;import springfox.documentation.spi.DocumentationType;import springfox.documentation.spring.web.plugins.Docket;import springfox.documentation.swagger2.annotations.EnableSwagger2;@Configuration@EnableSwagger2public class SwaggerConfig {// 定义分隔符private static final String splitor = ";";@BeanDocket docket() {System.out.println("Swagger===========================================");return new Docket(DocumentationType.SWAGGER_2).apiInfo(apiInfo()).select().apis(basePackage("tticy.controller.v1")) //这⾥采⽤包扫描的⽅式来确定要显⽰的接⼝// .apis(RequestHandlerSelectors.withMethodAnnotation(ApiOperation.class)) //这⾥采⽤包含注解的⽅式来确定要显⽰的接⼝ .paths(PathSelectors.any()).build();}private ApiInfo apiInfo() {return new ApiInfoBuilder().title("CMS").description("电商⼩程序 CMS Api⽂档").termsOfServiceUrl("https:///xfx_1994").version("1.0").build();}public static Predicate <RequestHandler> basePackage(final String basePackage) {return input -> declaringClass(input).transform(handlerPackage(basePackage)).or(true);}private static Function <Class<?>, Boolean> handlerPackage(final String basePackage) {return input -> {// 循环判断匹配for (String strPackage : basePackage.split(splitor)) {boolean isMatch = input.getPackage().getName().startsWith(strPackage);if (isMatch) {return true;}}return false;};}private static Optional<? extends Class<?>> declaringClass(RequestHandler input) {return Optional.fromNullable(input.declaringClass());}}如果访问成功则不需要继续下⾯的配置,如果访问失败出现404报错,则进⾏下⾯的配置三、解决404报错package tticy.config;import org.springframework.context.annotation.Configuration;import org.springframework.web.servlet.config.annotation.ResourceHandlerRegistry;import org.springframework.web.servlet.config.annotation.WebMvcConfigurer;@Configurationpublic class WebMvcConfig implements WebMvcConfigurer {@Overridepublic void addResourceHandlers(ResourceHandlerRegistry registry) {registry.addResourceHandler("/**").addResourceLocations("classpath:/static/");registry.addResourceHandler("swagger-ui.html").addResourceLocations("classpath:/META-INF/resources/");registry.addResourceHandler("/webjars/**").addResourceLocations("classpath:/META-INF/resources/webjars/");}}原理就是帮助MVC找到 swagger-ui.html 及其 CSS,JS 对应的⽂件swagger配置好后仍然404问题记录⼀下学习spring boot 遇到的问题swagger2@Overridepublic void addResourceHandlers(ResourceHandlerRegistry registry) {registry.addResourceHandler("swagger-ui.html").addResourceLocations("classpath:/META-INF/resources/");registry.addResourceHandler("/webjars/**").addResourceLocations("classpath:/META-INF/resources/webjars/");}swagger 添加此配置之后仍然4041.有可能是有其他类实现了 WebMvcConfigurer 或者继承了 WebMvcConfigurationSupport导致的WebMvcConfigurationSupport 在继承的时候没有重写addResourceHandlers 2.spring boot 启动模式有三种如果默认没有改动的话应该是SERVLETNONESERVLETREACTIVE注意查看只有SERVLET 会加载webmvc配置以上为个⼈经验,希望能给⼤家⼀个参考,也希望⼤家多多⽀持。
访问网站提示404notfound怎么办404notfound修复方法
访问⽹站提⽰404notfound怎么办404notfound修复⽅法
在⽇常使⽤电脑访问⽹页的过程中,⼤家可能都有看到过⼀个“404 not found”提醒,404 not found是什么意思?要怎么修复404 not found?下⾯⼀起来看看吧。
访问⽹站提⽰404 not found怎么办 404 not found修复⽅法:
404 not found是什么意思?
浏览器打开页⾯提⽰“404 not found”表⽰该链接打不开,页⾯不存在,是⼀个默认错误提⽰,也就是所谓的“死链”。
404 not found怎么修复?
如果⼤家在访问页⾯的时候出现了“404 not found”提⽰,应该通过以下⽅式来检查:
1、检查链接
看看⾃⼰输⼊的链接是否有错误,⼀个细微的标点符号或者格式错误都可能会导致访问失败,所以⼤家⼀定要输⼊正确的链接,保证⼊⼝的合法性。
2、检查⽹络
保证⾃⼰的⽹络链接是正常OK的,如果⾃⼰没有连上⽹络或者⽹络较差,也可能会出现这个提⽰,所以⼀定要在⼀个绿⾊⾼速的⽹络下访问⽹页。
3、⽹络屏蔽
当浏览器设置了⼀些⿊名单或者访问⼀些guowai⽹站的时候也会出现这个错误,检查⾃⼰的浏览器安全性设置或者看看⾃⼰访问的是否是guowai⽹站。
4、资源被删
⼀些社区的帖⼦或者其他资源可能会因为⼀些原因被删除,当这些资源页⾯被删除之后,访问就会出现404了,可以检查⼀下该页⾯是否还存在。
5、访问快照
当⼤家使⽤百度搜索引擎搜索访问页⾯的时候,在搜索结果的右下⾓可以看到【百度快照】按钮,点击快照可以看到页⾯正常时的缓存数据。
robots说明
robots.txtRobots是搜索引擎的爬虫程序通告(爬行器通告)。
对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开。
为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签。
1、什么是robots.txt?robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。
当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
下面是一些robots.txt基本的用法:禁止所有搜索引擎访问网站的任何部分:User-agent: *Disallow: /允许所有的robot访问User-agent: *Disallow:或者也可以建一个空文件"/robots.txt" file禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private目录)User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /private/禁止某个搜索引擎的访问(下例中的BadBot)User-agent: BadBotDisallow: /只允许某个搜索引擎的访问(下例中的WebCrawler)User-agent: WebCrawlerDisallow:User-agent: *Disallow: /3、常见搜索引擎机器人Robots名字名称搜索引擎Baiduspider Scooter ia_archiver bot FAST-WebCrawler Slurp BOT 4、robots.txt举例下面是一些著名站点的robots.txt:/robots.txtttp:///robots.txt/robots.txt/robots.txt5、常见robots.txt错误颠倒了顺序:错误写成Disallow: Bot正确的应该是:User-agent: GoogleBotDisallow: *把多个禁止命令放在一行中:例如,错误地写成Disallow: /css/ /cgi-bin/ /images/正确的应该是Disallow: /css/Disallow: /cgi-bin/Disallow: /images/行前有大量空格例如写成Disallow: /cgi-bin/尽管在标准没有谈到这个,但是这种方式很容易出问题。
robots.txt规则
robots.txt规则robots.txt是一种文件,用于告诉搜索引擎爬虫哪些页面可以被访问,哪些不可以被访问。
它通常放置于网站的根目录下,即域名后面的第一个文件。
网站管理员可以通过修改robots.txt来控制搜索引擎爬虫的行为,从而保证网站内容的安全和正确性。
下面是robots.txt规则及其解释。
User-agent:Disallow:这是robots.txt文件中最基本的规则,意思是所有的搜索引擎爬虫都不可以访问网站的任何页面。
这个规则的意思是所有的搜索引擎爬虫都不可以访问网站的任何页面。
这个规则通常比较危险,应该只在特殊情况下使用,比如网站被黑或者正在进行重大维护升级等。
这个规则的意思是只限制Google爬虫(googlebot)不能访问网站的/private/目录下的页面。
其他的搜索引擎爬虫依然可以访问这些页面。
User-agent: *Disallow: /admin/Disallow: /cgi-bin/Disallow: /db/Disallow: /includes/Disallow: /modules/Disallow: /tmp/Disallow: /web_services/Disallow: /xmlrpc/这个规则禁止搜索引擎爬虫访问网站的管理员目录、cgi-bin目录、数据库目录、代码包含目录、模块目录、临时文件目录、Web服务目录和XML-RPC目录。
这些目录通常包含的是网站的敏感信息和业务数据,所以要严格控制访问权限。
这个规则是WordPress网站的标准robots.txt规则。
它禁止了Google爬虫访问网站的说明文件、许可证文件、登录页面、XML-RPC文件以及WordPress的后台目录和核心文件目录。
其他的搜索引擎爬虫也可以根据这个规则进行访问控制。
这个规则禁止搜索引擎爬虫访问网站的压缩文件、PDF文件、Word文件、Excel文件、PPT文件和Flash文件。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Robots的作用相信很多站长都比较了解,说robots是搜索引擎的敲门砖一点也不错,robots限制搜索引擎抓取哪些页面,不允许抓取哪些页面,对网站来说,至关重要!本文针对robots的作用,对404错误页面的分权问题做一个解释!
Robots文件是搜索引擎访问网站时第一个要读取的文件,它告诉搜索程序服务器上哪些内容可以抓取,哪些不用抓取。
目前网站的robots文件里面的抓取规则已经日趋完善,比如禁止了网页中图片的抓取,禁止蜘蛛抓取一些会员隐私(个人简历)页面、一些无用页面(之前的推广页面)、样式表文件等,但是仍然有部分页面并不需要蜘蛛程序的抓取,这部分页面只是面向用户的,搜索引擎抓取了并没有什么意义,瓜分了页面的权重。
一、网站的404页面
每个网站都存在一些错误页面,404页面的存在就是为了当用户访问了错误页面的时候能够将用户引导到正确的页面上,防止网站流量的流失。
而一个页面较多的网站肯定存在很多的错误页面,这就导致存在很多相似的404页面。
所以,一旦404页面太多,而还让搜索引擎去收录,就会导致网站把权重分给这些404页面,所以应该屏蔽404页面。
添加规则:Disallow:/404.html
二、网站部分导航页面
网站底部的一些导航页面,如“市场合作”“网站声明”“付费方式”等都是针对客户的页面,几乎没有用户通过搜索引擎上搜索这些页面并到达网站,而且这些导航页面是全站显示的,所有的内容页面都存在,同样的也要分散这些页面的权重。
这部分页面都是位于同一目录/main下,该目录下除保留部分页面需蜘蛛进行抓取外,其他页面可以都禁止,保留页面为:“关于我
们”(main/aboutus.asp),友情链接(main/friendlink.asp)。
此外“资费标准”“付费方式”页面位于企业会员中心页面,这些页面也没有必要对搜索引擎开放。
添加规则:
Allow:/main/aboutus*
Allow:/main/friendlink*
Allow:/main/recruitmeeting*
Allow:/main/investigation*
Disallow:/main/
Disallow:/company/companyapplymember*
将现有规则中最后一条删除:disallow: /main/refuse*
将新添加的两条“Allow”规则放到disallow命令的前面。
通过一些对搜索引擎抓取意义不大的页面,将首页和一些内容页面的权重更加集中。
文章由电视连续剧流影在线整理分享!。