搜索引擎的基本工作原理分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
互联网营销学员优秀课堂作品:搜索引擎的基本工作原理分析
实践出真知,课堂上讲得好的老师不一定是好老师,能让学生理解,转化为实际操作才是好老师。尤其是在IT培训里,能够将知识转化为生产力,能够将构想转化为页面,能够将理论真正融合入学生的知识库里,才是一名好的讲师。这是互联网营销919班赵同学的作业,老师对她的这篇分析在班级里提出了重点表扬。下面我们来一起感受学习下赵同学的收获吧!
题目:搜索引擎的基本工作原理分析
首先,搜索引擎的基本工作原理包括如下三个过程:
1、搜索引擎蜘蛛爬行抓取:在互联网中发现、搜集网页信息,同时对信息进行提取和组织后,建立索引库;
2、预处理:再由检索器根据用户输入的查询关键字,在临时索引库中快速检出文档,进行文档与查询的相关度匹配与评价;
3、排名展现:对相关匹配度较高的文档做为输出的结果,并进行排序后,将查询结果返回给用户。
接下来,进入索引与链接关系内容,先附上一张工作原理图,可以帮助您加深理解,开始喽~
搜索引擎工作原理图
第一步:正向索引
我们知道搜索引擎蜘蛛在爬行和抓取网页的时候进行了提取文字信息,分词,去噪,去重等处理,最后便得到了一个关于页面主题的关键词集合,接下来搜索引擎会对这个集合进行正向索引,即把每个页面中的多个关键词和页面建立对应关系,并且同时会对这些关键词记录它们的密度,频率,表现格式等权重信息,表现格式主要是分析这些关键词是否使用了H1标签,是否使用了粗体或颜色变化,是否出现在了页面的title,description,keywords标签等权重标签。
第二步:倒序索引
当这个正向索引关键词集合建立起来以后,依然不能用来进行排名计算,如果用户在搜索引擎中输入关键词,那么搜索引擎需要在这个集合中先找见关键词,然后再找出与关键词对应的页面,最后通过进行复杂的计算程序得出排名,显然这个运算过程在短时间内是难以完成的。
为了提高用户搜索信息能实时返回结果,搜索引擎会对上面得到的正向索引信息进行反向索引,即以关键词为单位,把跟它对应的页面放入同一个集合中,这样在用户搜索关键词进行排序的时候,搜索引擎只要找到匹配的关键词就能返回包含这个关键词的页面集合,当搜索引擎预处理工作进行到这里时,大家是不是对它的工作原理已经有点明朗了。
第三步:链接关系计算
当搜索引擎进行反向索引之后,还需要计算大量的相关信息才能对页面做出排名,在这个过程中最为关键的就是计算页面的链接关系,比如有哪些页面通过链接导入这个页面,这个页面导出了哪些链接,链接的锚文本采用了哪些关键词等等,这个运算量是非常庞大的。关于计算链接关系,google的PR值就是这种链接关系的一种体现。
额外补充:除了对html文件进行索引外,搜索引擎还能对其他形式的文件进行索引,比如常见的TXT,PPT,WORD,PDF文件等,虽然现在搜索引擎对图片,Flash动画,视频的索引能力大大增强,但是跟索引html文件能力比起来,还是有一段距离的,所以大家在网站中放置一些图片,动画或者视频的时候,最好配上文字说明,为搜索引擎蜘蛛做出引导,减轻它的工作压力哦。