第二章第一课百度算法-蜘蛛爬行原理解析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
感谢观看 广州嘉鑫科技
百度推广第二章,第一课:蜘蛛爬行原理
03
③PR优先策略
RP优先策略是一个非常注明的链接分析方法,它用 于衡量网页的重要性,通常它会计算一个页面上 URL的PR,按照从高到低的顺序进行抓取。
由于PR值的计算,需要不断的迭代更新,通常这里 所采用的都是非完全PageRank策略。
④反链策略
反链策略,并没有一个明确的官方文档说明,我认 为,它主要是基于反链的数量以及种子页面的权威 度,二者进行加权评估后,按照优先顺序抓取。
总结
言外之意,如果你的URL最先没有在 百度网址提交,而是出现在社交媒体 中,比如:头条文章,也是很有可能 被百度抓取的。
06
⑤社会化媒体分享策略
社会化媒体分析策略,主要是指一个 URL在社交媒体中的流行度,它的转 载量,评论,转发量,综合指标的评 估。
05
01
常见 抓取
04
02
②宽度优先遍历策略
宽度优先便利策略,是早期搜索引擎常用的一 种抓取策略,主要流程是提取整个页面中的URL, 其中未被抓取的URL,就被放入待抓取列队,以 此循环。
URL使用关键词拼音对SEO优化有什么影响
在SEO优化中,URL起着很重要的作用,那么URL使用关键词拼音对SEO优化有什么影响,这里为大家详细介绍一下:
针对搜索引擎: 1、提高识别度 URL中使用关键词拼音,让搜索引擎蜘蛛更容易识别页面相关度。 2、突出页面主题 URL中使用关键词拼音,可以突出页面主题,提升页面相关度。 3、提升排名 URL中使用关键词拼音,利于关键词排名,在同等的页面质量下,URL中含有该关键词的页面更具有排名能力。
一般蜘蛛抓取的流程
一般蜘 蛛抓取
对于搜索引擎而言,常见的抓取流程包括:种子页URL提取->整
1.
理新的待抓取URL集合->合并更新链接(包括已经抓取过的链接)
->解析页面内容->进入链接总库(索引库)
其中,在解析页面内容,进入索引库的时候,它需要经过多层复
2.
杂的系统计算,评估目标URL的质量,从而决定是否进入低质量
服务器的连通率是决定,搜 索引擎蜘蛛是否能够顺利抓 取的主要因素,如果你的网 站经常产生延迟,识别对抓 取与索引产生重要影响。
高权重的站点,更受搜索引 擎的亲睐,蜘蛛抓取的也相 对频繁,但这个评级,并不 是咱们SEO专员,简单通过 站长工具查询的结果,而是 百度自身,一个非常私密的 评估体系.
对于合理引导蜘蛛爬行页面,具体常见的操作是以上几种
蜘蛛爬行原理
对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。网络蜘蛛在访问网 站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。 当然,网站的所有者可以通过协议让网络蜘蛛不去抓取,但对于一些出售报告的网站,他们希望搜索 引擎能搜索到他们的报告,但又不能完全免费的让搜索者查看,这样就需要给网络蜘蛛提供相应的用 户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索,而当搜索者点 击查看该网页的时候,同样需要搜索者提供相应的权限验证。
扁平化与非扁平化区分
非扁平化设计:多达6层点击到达最终产品页
扁平化设计:最多三次点击即可找到想要的产品
利于搜索引擎权重传递从而提高网页排名,就与搜索引擎算法有关了。
3种蜘蛛爬行策略
1、最佳优先
搜索策略按照一定的网页分析算 法,预测候选URL与目标网页的 相似度,或与主题的相关性,并 选取评价最好的一个或几个URL 进行抓取,它只访问经过网页分 析算法预测为“有用”的网页。
针对用户: 1、增加点击率 用户能从URL大致判断网页内容以及网站结构信息,并且可以预测将要看到的内容,会增加用户点击率。 2、提升用户搜索体验 部分用户搜索的时候,可能会使用拼音进行搜索,URL中使用拼音关键词利于用户搜索体验。
02 蜘蛛抓取的策略
常见蜘蛛抓取的策略
①深度优先遍历策略
深度优先遍历策略主要是指建立一个起点,按照这个起 点的顺序,顺序抓取链条上,没有被抓取的每个节点。 但有的时候,面对“无限循环”节点的时候,这一策略 便显得捉禁见肘。
库。
如何引蜘蛛爬行页面
内容更新频率
内容更新质量
网站页面稳定
整站目标权重
理论上,如果你的页面更新 频率相对较高,那么搜索引 擎自然爬虫就是频繁来访, 目的是抓取更多潜在的优质 内容。
言外之意,如果你长期频繁 更新低质量内容,是不可取 的,特别是百度爬虫而言, 如果你定期输出高质量且具 有稀缺性的内容(独特的视 角)你会发现蜘蛛的来访频 率很高,并且经过一定周期 的信任度累积,很容易达到 “秒收录”
网络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索,而当搜索者点击查看该网页 的时候,同样需要搜索者提供相应的权限验证。由于搜索引擎蜘蛛为了能够抓取网上尽量多的页面, 它会追踪网页上的链接,从一个页面爬到下一个页面,就好像是蜘蛛在蜘蛛网上爬行那样,这就是搜 索引擎蜘蛛这个名称的来因。整个互联网网站都是相互链接组成的,也就是说,搜索引擎蜘蛛从任何 一个页面出发最终都会爬完所有页面。
存在的一个问题是,在爬虫抓取 路径上的很多相关网页可能被wk.baidu.com 略,因为最佳优先策略是一种局 部最优搜索算法,因此需要将最 佳优先结合具体的应用进行改进 ,以跳出局部最优点,据古月建 站博客的研究发现,这样的闭环 调整可以将无关网页数量降低 30%~90%
2、深度优先(层级)
深度优先是指蜘蛛沿着发现的链 接一直向前爬行,直到前面再也 没有其他链接,然后返回到第一 个页面,沿着另一个链接再一直 往前爬行。
3种爬行策略
3、广度优先(平级)
广度优先是指蜘蛛在一个页面发 现多个链接时,不是顺着一个链 接一直向前,而是把页面上所有 链接都爬一遍,然后再进入第二 层页面沿着第二层上发现的链接 爬向第三层页面。
从理论上说,无论是深度优先还是 广度优先,只要给蜘蛛足够的时间, 都能爬完整个互联网。
在实际工作中,蜘蛛的带宽资源、 时间都不是无限的,也不能爬完所 有页面,实际上最大的搜索引擎也 只是爬行和收录了互联网的一小部 分,当然也并不是搜索引擎蜘蛛爬 取的越多越好。因此,为了尽量多 的抓取用户信息,深度优先和广度 优先通常是混合使用的,这样既可 以照顾到尽量多的网站,也能照顾 到一部分网站的内页。
广州嘉鑫科技有限公司
百度推广第二章
第一课,搜索引擎蜘蛛原理
目录/Contents
搜索引擎蜘蛛原理
01
蜘蛛抓取的策略
02
01
搜索引擎蜘蛛原理
搜索引擎蜘蛛访问网站页面时类似于普通用户使用浏览器,蜘 蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程 序把收到的代码存入原始页面数据库,搜索引擎为了提高爬行 和抓取的速度,都使用多个蜘蛛分布爬行。