爬行及练习 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第七次作业

一、蜘蛛爬行原理：

搜索引擎蜘蛛我们通常称它为机器人，是一种能够自己抓取网站，下载网页的程序。

它可以访问互联网上的网页、图片、视频等内容，喜欢收集对用户有用的内容。当蜘蛛爬行一个网站的时候，它需要爬行的信息首先就是站内的结构，查看站内结构是否是安全的，如果有危险性的话蜘蛛是不会对其网站爬行的，一般蜘蛛识别网站不安全的是动态网站，因为动态网站容易生成死循环，如果蜘蛛掉进死循环也就是我们所说的蜘蛛陷阱的话就很难再爬行出来，所以如果一个网站有危险性，蜘蛛是不会对其网站爬行的，当蜘蛛爬行网站看完结构辨认是安全的话，那么它下面要做的就是对站内信息的收录，蜘蛛辨认站内信息收录的主要因素是创新的，原创的，如果说你的页面上面全部是图片、Flash等蜘蛛无法辨认的东西，那么蜘蛛是不会收录信息的，蜘蛛只收文字信息，图片信息等蜘蛛是无法识别的，当蜘蛛辨认文章是创新的而且是原创，那么蜘蛛就会把信息带到服务器，然后服务器整合以后看文章的价值，然后做排名处理。

搜索引擎蜘蛛抓取内容大致可以分为纵向抓取和横向抓取，

横向抓取原理分析：当蜘蛛进入一个网站时，会沿着一个连接逐步深入，直到无法再向前进时再返回爬行另一个连接。

纵向抓取原理分析：当蜘蛛进入一个网站时，在一个网页上发现很多连接时，不是顺着各个连接进行一步步的纵向抓取，而是一层层的抓取，把第一层的全部连接抓取完成，再沿着第二层连接进行抓取。

一般来说，在搜索引擎蜘蛛进入网站时，首先是对内部连接进行纵向抓取，其次是对外部连接进行横向抓取，搜索引擎蜘蛛抓取页面是纵向原则和横向原则相结合的，无论是纵向还是横向蜘蛛都能将网站所有网页爬完。

二、爬行图：

三、练习搜索引擎高级指令：