搜索引擎工作过程
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
搜索引擎工作过程
第一步爬行和抓取
1)搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也叫机器人(bot)。蜘蛛其实就是搜索引擎的手下,搜索引擎命令它到互联网上浏览网页,从而得到互联网的所有数据,然后把这些数据存到搜索引擎自己的数据库中。我们网站中不能有死链接。必须要让蜘蛛在网站网站里面畅通无阻的抓取页面。
2)蜘蛛爬行的方法
不管是哪个级别的蜘蛛爬行的方法都是一样的,一共分为两种:1、深度优先;2、宽度优先。蜘蛛都是顺着锚文本往下爬,直到最后,所以这里就体现了网站内部链接的重要性。
①、深度优先。
深度优先就是指蜘蛛到达一个页面后,发现一个锚文本链接,就是爬进去另个一页面,然后又在另一个页面发现另一个锚文本链接,接着往里面爬,直到最后爬完这个网站。
②、宽度优先。
宽度优先就是蜘蛛到达一个页面后,发现锚文本不是直接进去,而是把整个页面所有都爬行完毕,再一起进入所有锚文本的另一个页面,直到整个网站爬行完毕。
3)搜索引擎是根据什么指标来确定对一个网站的抓取频次的呢,主要指标有四个:
a、网站更新频率:更新快多来,更新慢少来,直接影响蜘蛛的来访频率
b、网站更新质量:更新频率提高了,仅仅是吸引了蜘蛛的注意,蜘蛛对质量是有严格要求的,如果网站每天更新出的大量内容都被蜘蛛判定为低质页面,依然没有意义。
c、连通度:网站应该安全稳定、对Baiduspider保持畅通,经常给蜘蛛吃闭门羹可不是好事情
d、站点评价:百度搜索引擎对每个站点都会有一个评价,且这个评价会根据站点情况不断变化,是百度搜索引擎对站点的一个基础打分(绝非外界所说的百度权重),是百度内部一个非常机密的数据。站点评级从不独立使用,会配合其它因子和阈值一起共同影响对网站的抓取和排序。
第二步数据库处理
搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。其中有,网站数据库,就是动态网站存放网站数据的空间。索引数据库,索引是对数据库表中一列或多列的值进行排序的一种结构,使用索引可快速访问数据库表中的特定信息。简单的来说,就是把【抓取】的网页放进数据库。
第三步分析检索服务
用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。
用户检索的过程是对前两个过程的检验,检验该搜索引擎能否给出最准确、最广泛的信息,检验该搜索引擎能否迅速地给出用户最想得到的信息。
第四步排名
把提取出来的网页按照不同维度的得分进行综合排序。“不同维度”包括:
相关性:网页内容与用户检索需求的匹配程度,比如网页包含的用户检查关键词的个数,以及这些关键词出现的位置;外部网页指向该页面所用的锚文本等
权威性:用户喜欢有一定权威性网站提供的内容,相应的,百度搜索引擎也更相信优质权威站点提供的内容。
时效性:时效性结果指的是新出现的网页,且网页内承载了新鲜的内容。目前时效性结果在搜索引擎中日趋重要。
重要性:网页内容与用户检查需求匹配的重要程度或受欢迎程度
丰富度:丰富度看似简单却是一个覆盖范围非常广的命题。可以理解为网页内容丰富,可以完全满足用户需求;不仅可以满足用户单一需求,还可以满足用户的延展需求。
受欢迎程度:指该网页是不是受欢迎。
搜索引擎经过搜索词处理,文件匹配,相关性计算,过滤调整,排名显示等经过复杂的工作步骤完成最终排名。