搜索引擎分类及工作原理修订稿
搜索引擎的工作原理
搜索引擎的工作原理搜索引擎是一种用于在互联网上搜索和获取信息的工具。
它通过分析和索引互联网上的网页内容,并根据用户的搜索关键词返回相关的搜索结果。
搜索引擎的工作原理可以简单地分为三个步骤:爬取、索引和检索。
1. 爬取(Crawling):搜索引擎通过网络爬虫(Web Crawler)程序自动地从互联网上获取网页内容。
爬虫程序会从一个起始网页开始,然后根据网页中的链接递归地访问其他网页。
爬虫程序会下载网页的HTML代码,并提取其中的文本内容和链接。
2. 索引(Indexing):在爬取到的网页内容中,搜索引擎会提取关键词和其他相关信息,并将其存储在一个称为索引(Index)的数据库中。
索引是搜索引擎的核心组成部份,它包含了大量的关键词和对应的网页信息。
搜索引擎会根据关键词的重要性和相关性对网页进行排序,并建立倒排索引(Inverted Index)来加快搜索速度。
3. 检索(Retrieval):当用户在搜索引擎中输入关键词并点击搜索按钮后,搜索引擎会根据用户的关键词从索引中检索相关的网页。
搜索引擎会根据一系列算法和规则来确定搜索结果的排序。
这些算法和规则包括关键词的浮现频率、网页的质量和可信度、网页的链接结构等等。
搜索引擎会返回一系列与用户关键词相关的网页链接和摘要,用户可以点击链接查看完整的网页内容。
除了以上的基本工作原理,搜索引擎还有一些其他的功能和特点:1. 自然语言处理:搜索引擎可以理解和处理用户输入的自然语言查询,而不仅仅是简单的关键词匹配。
它可以识别和理解用户的意图,并根据意图返回相关的搜索结果。
2. 搜索结果的个性化:搜索引擎会根据用户的搜索历史、地理位置和其他个人信息来调整搜索结果的排序和内容。
这样可以提供更加符适合户需求的搜索结果。
3. 图象和视频搜索:搜索引擎不仅可以搜索文本内容,还可以搜索图象和视频。
它可以通过图象和视频的特征来匹配和检索相关的内容。
4. 广告和推广:搜索引擎通过展示相关的广告和推广内容来获取收入。
《搜索引擎》 讲义
《搜索引擎》讲义一、什么是搜索引擎在当今数字化的时代,搜索引擎已经成为我们获取信息不可或缺的工具。
简单来说,搜索引擎就是一种能够帮助用户在互联网上快速查找所需信息的系统。
当我们在搜索引擎的输入框中输入关键词或短语时,搜索引擎会在其庞大的数据库中进行搜索和匹配,然后将相关的网页、文档、图片、视频等结果展示给我们。
搜索引擎的工作原理可以大致分为三个主要步骤:抓取、索引和排名。
首先是抓取,搜索引擎使用被称为“爬虫”或“蜘蛛”的程序,自动访问互联网上的网页,并将网页的内容下载下来。
接下来是索引,搜索引擎对抓取到的网页内容进行分析和处理,提取出关键信息,如关键词、标题、描述等,并将这些信息存储在一个巨大的数据库中。
最后是排名,当用户输入搜索词时,搜索引擎会根据一系列复杂的算法对数据库中的网页进行排序,将最相关、最有用的网页排在前面,呈现给用户。
二、搜索引擎的发展历程搜索引擎的发展可以追溯到上世纪 90 年代。
早期的搜索引擎技术相对简单,搜索结果的准确性和相关性都比较有限。
例如,早期的搜索引擎主要依靠网页的关键词匹配来进行搜索,这往往导致大量不相关的结果出现。
随着技术的不断进步,搜索引擎逐渐变得更加智能和精准。
如今,搜索引擎不仅能够理解用户的搜索意图,还能通过自然语言处理技术更好地处理复杂的搜索请求。
一些知名的搜索引擎,如谷歌、百度等,不断投入大量的资源进行技术研发和创新,推出了一系列的功能和服务,如语音搜索、图像搜索、知识图谱等,以提供更优质的用户体验。
三、搜索引擎的类型搜索引擎可以分为多种类型,常见的包括通用搜索引擎、垂直搜索引擎和元搜索引擎。
通用搜索引擎是我们最常用的类型,如谷歌、百度、必应等,它们能够搜索各种类型的信息,涵盖了几乎所有的领域。
垂直搜索引擎则专注于特定的领域或行业,例如专门搜索旅游信息的携程、专门搜索学术文献的知网等。
这些搜索引擎在特定领域能够提供更深入、更专业的搜索结果。
元搜索引擎则是同时调用多个其他搜索引擎的结果,并对这些结果进行整合和排序,为用户提供更全面的搜索视角。
搜索引擎分类和原理
一个好的搜索引擎,不仅数据库容量要大,更新频率、检索速度要快,支持对多语言的搜索,而且随着数据库容量的不断膨胀,还要能从庞大的资料库中精确地找到正确的资料。
⒈提高搜索引擎对用户检索提问的理解。为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言。为了克服关键词检索和目录查询的缺点,现在已经出现了自然语言智能答询。用户可以输入简单的疑问句,比如“如何能杀死计算机中的病毒”,搜索引擎在对提问进行结构和内容的分析之后,或直接给出提问的答案,或引导用户从几个可选择的问题中进行再选择。自然语言的优势在于,一是使网络交流更加人性化,二是使查询变得更加方便、直接、有效。就以上面的例子来讲,如果用关键词查询,多半人会用“病毒”这个词来检索,结果中必然会包括各类病毒的介绍,病毒是怎样产生的等等许多无用信息,而用“如何能杀死计算机中的病毒”检索,搜索引擎会将怎样杀死病毒的信息提供给用户,提高了检索效率。
11.分布式结构、精心设计的优化算法、容错设计保证系统在大访问量下的高可用性、高扩展性、高性能和高稳定性。每个部分均采用N+1的冗余设计,1台服务器时刻处于备用状态。因而整个系统能在99.9%的时间内提供高可用性和高稳定性的服务。
12.高可配置性使得搜索服务能够满足不同用户的需求。在搜索调度、相关性评价、内容过滤、显示方式等方面均为客户提供了可配置手段,使系统具有服务,由他们自行决定搜索结果的显示方式,加入自己的广告和公司图标(logo)。
8.可以提供一周、二周、四周等多种服务方式。可以在7天之内完成网页的更新,是目前更新时间最快、数据量最大的中文搜索引擎。
9.检索结果输出支持内容类聚、网站类聚、内容类聚+网站类聚等多种方式。支持用户选择时间范围,提高用户检索效率。
搜索引擎的工作原理
搜索引擎到工作原理第一节搜索引擎的定义和功能构成所谓“搜索引擎”,说到底是一个计算机应用软件系统,或者说是一个网络应用软件系统。
从网络用户的角度看,它根据用户提交的类自然语言查询词或者短语,返回一系列很可能与该查询相关的网页信息,供用户进一步判断和选取。
为了有效地做到这一点,它大致上被分成三个功能模块,或者三个子系统:即网页搜集,预处理和查询服务。
应该指出,在实践中这三个部分是相对独立的,它们的工作形成了搜索引擎工作的三个阶段,通常分别由人工启动。
同时我们注意到,在早期的搜索引擎中,系统处理的网页数量少,预处理部分的工作比较简单,只是涉及到汉语的分词(英文还没有这个问题)和建索引,因此也有将分词合并到网页搜集过程中,将建索引归到查询服务子系统中,从而整个系统看起来只有两个模块的安排。
图片一:搜索引擎三段式工作原理模式图第二节、网页搜集搜索引擎这样一个软件系统应该是何种工作方式?如果说软件系统是工作在某还是即时。
我们都有经验,在网络比较畅通的引擎服务的基础应该是一批预先搜集好的网页个数据集合上的程序的话,这个软件系统操作的数据不仅包括内容不可预测的用户查询,还要包括在数量上动态变化的海量网页,并且这些网页不会主动送到系统来,而是需要由系统去抓取。
首先,我们考虑抓取的时机:事先情况下,从网上下载一篇网页大约需要1秒钟左右,因此如果在用户查询的时候即时去网上抓来成千上万的网页,一个个分析处理,和用户的查询匹配,不可能满足搜索引擎的响应时间要求。
不仅如此,这样做的系统效益也不高(会重复抓取太多的网页);面对大量的用户查询,不可能想象每来一个查询,系统就到网上“搜索”一次。
因此我们看到,大规模引擎服务的基础应该是一批预先搜集好的网页(直接或者间接1)。
这一批网页如何维护?可以有两种基本的考虑。
定期搜集,每次搜集替换上一次的内容,我们称之为“批量搜集”。
由于每次都是重新来一次,对于大规模搜索引擎来说,每次搜集的时间通常会花几周。
《搜索引擎》 讲义
《搜索引擎》讲义在当今数字化的时代,搜索引擎已经成为我们获取信息的重要工具。
无论是查找学术资料、解决生活中的疑问,还是了解最新的新闻动态,搜索引擎都能在瞬间为我们提供大量的相关内容。
那么,搜索引擎究竟是如何工作的?它又有着怎样的发展历程和未来趋势呢?接下来,让我们一起深入探讨搜索引擎的奥秘。
一、搜索引擎的定义与工作原理搜索引擎,简单来说,就是一种用于在互联网上搜索信息的工具。
它通过使用复杂的算法和技术,对互联网上的网页进行索引和分类,然后根据用户输入的关键词或短语,快速找到与之相关的网页,并按照一定的规则进行排序,将最相关、最有用的结果展示给用户。
搜索引擎的工作原理主要包括以下几个步骤:1、抓取网页搜索引擎会使用一种称为“网络爬虫”的程序,自动地在互联网上浏览和抓取网页。
网络爬虫会从一些已知的网页开始,然后顺着网页中的链接不断地访问新的网页,将它们的内容下载下来。
2、索引网页抓取到的网页会被进行分析和处理,提取出其中的关键词、标题、描述等信息,并建立一个索引。
这个索引就像是一本书的目录,方便搜索引擎在接收到用户的查询时能够快速地找到相关的网页。
3、处理查询当用户在搜索引擎中输入关键词或短语时,搜索引擎会对用户的输入进行分析和理解,然后在之前建立的索引中查找与之匹配的网页。
4、排序结果找到相关的网页后,搜索引擎会根据一系列的因素对这些网页进行排序。
这些因素包括网页的内容质量、相关性、网页的权威性和可信度、用户的浏览历史和偏好等。
5、展示结果最后,搜索引擎将排序后的结果展示给用户。
通常,用户会看到一个包含网页标题、描述和链接的列表,用户可以点击感兴趣的链接进一步查看网页的详细内容。
二、搜索引擎的发展历程搜索引擎的发展可以追溯到上世纪 90 年代。
早期的搜索引擎功能比较简单,只能对网页中的关键词进行匹配,搜索结果的准确性和相关性也比较差。
随着技术的不断进步,搜索引擎逐渐变得更加智能和强大。
其中,谷歌的出现可以说是搜索引擎发展的一个重要里程碑。
搜索引擎分类与工作原理
搜索引擎分类与工作原理搜索引擎是一种用于从互联网上收集信息并按相关性进行排序的软件工具。
根据不同的分类标准,搜索引擎可以分为多种类型,例如传统搜索引擎、垂直搜索引擎和元搜索引擎。
传统搜索引擎是指最常见的搜索引擎,如Google、Bing和Yahoo等。
它们的工作原理可以总结为三个主要步骤:1. 爬取和索引网页:搜索引擎会使用称为“爬虫”或“蜘蛛”的程序在互联网上爬取网页。
爬虫会按照设定的规则和算法逐个访问网页,并将其内容保存在搜索引擎的数据库中,以便后续的搜索和排序。
2. 建立倒排索引:搜索引擎会对爬取的网页内容进行处理,将关键词和对应的网页链接建立倒排索引。
倒排索引是一种数据结构,它将每个关键词和包含该关键词的网页链接关联起来,以便在用户进行搜索时能快速地找到相关网页。
3. 排名和排序:在用户输入搜索关键词后,搜索引擎会根据事先设定的算法对倒排索引中的网页进行排序,并将最相关的网页排在前面展示给用户。
搜索引擎的排序算法考虑了很多因素,包括关键词出现频率、网页质量、外部链接等。
垂直搜索引擎是专门针对某个特定领域或主题进行搜索和排序的搜索引擎。
它们的工作原理与传统搜索引擎类似,但爬取和索引的网页通常是特定领域相关的网页,使得搜索结果更加精确和专业。
元搜索引擎是一种同时使用多个不同搜索引擎的搜索工具。
它的工作原理是将用户的搜索请求发送给多个搜索引擎,并将它们的搜索结果进行整合和排序后展示给用户。
这种方式可以提供更全面和多样化的搜索结果,但也会增加搜索的时间和计算开销。
综上所述,搜索引擎根据分类标准的不同可以分为传统搜索引擎、垂直搜索引擎和元搜索引擎。
它们的工作原理都是通过爬取、索引和排序网页来提供相关的搜索结果。
每种搜索引擎都有其特点和应用场景,用户可以根据自己的需求选择适合的搜索引擎来获取所需的信息。
搜索引擎的工作原理
搜索引擎的工作原理搜索引擎是一种用于查找和获取互联网上信息的工具。
它通过建立一个庞大的索引数据库来实现对互联网上网页的搜索和排序。
搜索引擎的工作原理可以分为三个主要步骤:抓取网页、建立索引和排序结果。
1. 抓取网页搜索引擎使用网络爬虫(也称为蜘蛛或者机器人)来抓取互联网上的网页。
网络爬虫按照预定的规则从一个网页开始,通过链接跟踪和分析,逐步抓取更多的网页。
爬虫会下载网页的HTML内容,并提取其中的文本和链接。
2. 建立索引抓取到的网页内容需要经过处理,以便搜索引擎能够快速地检索和排序。
搜索引擎会对网页的文本进行分词,将文本中的单词提取出来,并去除常见的停用词(如“的”、“是”、“在”等)。
然后,搜索引擎会建立一个倒排索引(Inverted Index),将每一个单词与包含该单词的网页进行关联。
倒排索引记录了每一个单词在哪些网页中浮现,以及浮现的位置。
3. 排序结果当用户输入关键词进行搜索时,搜索引擎会根据倒排索引快速找到包含关键词的网页。
然后,搜索引擎会根据一系列算法对这些网页进行排序,以便将最相关的网页排在前面。
排序算法会考虑多个因素,如关键词的浮现频率、关键词在网页中的位置、网页的质量和权威性等。
最终,搜索引擎会将排序后的结果呈现给用户。
除了以上三个主要步骤,搜索引擎还会考虑用户的搜索历史、地理位置和其他个性化因素来提供更精准的搜索结果。
搜索引擎还会定期更新索引数据库,以保持对互联网上新网页的抓取和索引。
搜索引擎的工作原理虽然简单,但暗地里需要庞大的计算和存储资源来支持。
为了提高搜索效率,搜索引擎公司通常会在全球范围内建立多个数据中心,以便将搜索结果尽快传递给用户。
总结起来,搜索引擎的工作原理包括抓取网页、建立索引和排序结果三个主要步骤。
通过这些步骤,搜索引擎能够快速地找到和呈现与用户搜索相关的网页。
搜索引擎的工作离不开网络爬虫、倒排索引和排序算法等关键技术,这些技术的不断发展也推动了搜索引擎的进步和改进。
seo---搜索引擎以及工作原理和高级搜索
seo---搜索引擎以及⼯作原理和⾼级搜索什么是搜索引擎?1.搜索引擎是指根据⼀定的策略、运⽤特定的计算机程序从互联⽹上搜集信息,在对信息进⾏组织和处理后,为⽤户提供检索服务,将⽤户检索相关的信息展⽰给⽤户的系统。
⽹站,搜索引擎和⽤户这三者的关系⽹站提供需求,搜索引擎为中介,⽤户需求2.搜索引擎按类别可分为:全⽂搜索引擎:全⽅位搜索⽬录搜索引擎:⽬录搜索引擎是以⼈⼯⽅式或半⾃动⽅式搜集信息,由编辑员查看信息之后,⼈⼯形成信息摘要,并将信息置于事先确定的分类框架中。
信息⼤多⾯向⽹站,提供⽬录浏览服务和直接检索服务。
元搜索引擎:垂直搜索引擎:⾏业搜索门户搜索引擎:门户内搜索3.中⽂最⼤搜索引擎?4.英⽂最⼤搜索引擎?主流搜索引擎⽹址:–百度:–⾕歌:–360:–搜狗:–搜搜:–雅虎:以下主流是搜索引擎⽹站收录地址:百度搜索⽹站登录⼝:/search/url_submit.html百度单个⽹页提交⼊⼝:/sitesubmitGoogle⽹站登录⼝:https:///webmasters/tools/submit-url360搜索引擎登录⼊⼝:/site_submit.html搜搜⽹站收录提交⼊⼝:/help/usb/urlsubm搜狗⽹站收录提交⼊⼝:/feedback/urlfeedback.php必应⽹站提交登录⼊⼝:/toolbox/submit-site-url搜索引擎⼯作原理第⼀步:爬⾏搜索引擎是通过⼀种特定规律的程序跟踪⽹页的链接,从⼀个链接爬⾏到另外⼀个链接,像蜘蛛在蜘蛛⽹上爬⾏⼀样,所以引擎程序被称为“蜘蛛”也被称为“机器⼈”爬⾏顺序第⼆步:抓取存储蜘蛛通过爬⾏,跟踪链接到达⽹页抓取数据,并将数据存⼊原始页⾯数据库页⾯收录原理/1.html内容1页⾯(原创内容)/2.html内容2页⾯(采集内容)/3.html内容3页⾯(原创内容)百度蜘蛛做重复内容检测,采集或者复制的内容页⾯2不在爬⾏,提取页⾯1和页⾯3对应的链接内容存储到百度的数据库。
搜索引擎分类与工作原理
搜索引擎分类与工作原理搜索引擎是互联网应用中最重要的工具之一,主要用于根据用户输入的关键词,在互联网上查找和获取与关键词相关的信息。
根据搜索引擎的工作原理和特点,可以将其分为以下几类:基于关键词的搜索引擎、基于内容的搜索引擎和基于推荐的搜索引擎。
基于关键词的搜索引擎是目前应用最广泛的搜索引擎类型。
这种搜索引擎通过用户输入的关键词,在互联网上查找包含这些关键词的网页,并按照一定的排名算法将搜索结果返回给用户。
这种搜索引擎主要依靠关键词匹配来进行搜索,但是也会考虑其他因素,例如网页的质量和权重等。
基于内容的搜索引擎是一种比较新型的搜索引擎,它不仅仅根据关键词进行搜索,还会对网页的内容进行分析和理解。
这种搜索引擎利用自然语言处理和人工智能等技术,能够理解用户输入的上下文和意图,从而提供更加精准和准确的搜索结果。
例如,用户可以直接输入一个问题,而不是简单的关键词,搜索引擎会根据问题的语义和含义来查找相关的答案。
基于推荐的搜索引擎是根据用户的个人兴趣和行为,向用户推荐相关的内容和信息。
这种搜索引擎通过分析用户的搜索历史、点击记录和社交网络等数据,来推测用户的兴趣和需求,并根据这些信息来个性化地定制搜索结果。
基于推荐的搜索引擎可以提供更加个性化和定制化的搜索体验,但也引发了用户隐私保护的问题。
这些不同类型的搜索引擎在工作原理上也存在差异。
基于关键词的搜索引擎主要通过建立庞大的索引库,对网页进行关键词的索引和储存,当用户输入关键词时,搜索引擎会在索引库中快速定位到相关的网页。
基于内容的搜索引擎则需要利用自然语言处理、机器学习和语义分析等技术,对网页的内容进行理解和分析。
基于推荐的搜索引擎则依赖于用户行为数据的处理和分析,通过建立用户画像和推荐算法来实现个性化的搜索体验。
总结起来,不同类型的搜索引擎具有不同的特点和工作原理,但它们的目标都是为了提供更好的搜索服务,让用户能够快速、准确地找到所需的信息。
搜索引擎的工作原理
搜索引擎的工作原理引言概述:搜索引擎是我们日常生活中不可或缺的工具,它能够帮助我们快速准确地找到我们需要的信息。
但是,你是否曾经想过搜索引擎是如何工作的呢?本文将详细介绍搜索引擎的工作原理,帮助你更好地理解它的背后机制。
一、网络爬虫1.1 网络爬虫的定义和作用网络爬虫是搜索引擎的重要组成部分,它是一种自动化程序,能够按照事先设定的规则,自动地在互联网上抓取网页信息。
网络爬虫的作用是收集互联网上的网页内容,并将这些内容存储到搜索引擎的数据库中。
1.2 网络爬虫的工作流程网络爬虫的工作流程可以分为以下几个步骤:(1)确定起始网址:网络爬虫需要指定一个或多个起始网址,从这些网址开始抓取网页信息。
(2)抓取网页内容:网络爬虫按照设定的规则,自动地抓取网页的HTML代码,并提取其中的有用信息。
(3)解析和存储:网络爬虫会对抓取到的网页进行解析,提取其中的链接和关键词等信息,并将这些信息存储到搜索引擎的数据库中。
1.3 网络爬虫的技术挑战网络爬虫在工作过程中面临着一些技术挑战,例如:(1)网页数量庞大:互联网上的网页数量庞大,网络爬虫需要具备高效的抓取能力,以应对大规模的网页抓取任务。
(2)反爬虫机制:为了保护网站的内容,一些网站会采取反爬虫机制,例如限制访问频率、使用验证码等,这对网络爬虫的工作造成了一定的阻碍。
(3)网页结构多样性:互联网上的网页结构多种多样,网络爬虫需要具备强大的解析能力,才能准确地提取有用信息。
二、索引和排序2.1 索引的定义和作用索引是搜索引擎的核心组成部分,它是一个包含了大量关键词和对应网页链接的数据库。
索引的作用是将收集到的网页内容进行组织和分类,以便用户在搜索时能够快速找到相关的网页。
2.2 索引的构建过程索引的构建过程可以分为以下几个步骤:(1)分词和词频统计:搜索引擎会对收集到的网页内容进行分词,将文本切分成一个个的词语,并统计每个词语在网页中出现的频率。
(2)建立倒排索引:搜索引擎会将每个词语与出现该词语的网页链接进行关联,形成倒排索引,以便用户在搜索时能够根据关键词快速找到相关的网页。
搜索引擎工作原理
搜索引擎工作原理搜索引擎是当今互联网时代最重要的工具之一,它们通过采集、整理和索引互联网上的信息,匡助用户快速找到所需的内容。
搜索引擎的工作原理可以分为四个主要步骤:爬取、索引、排名和展示。
1. 爬取(Crawling):搜索引擎通过网络爬虫(Web Crawler)程序从互联网上抓取网页。
网络爬虫会从一个初始的种子URL开始,然后通过解析网页中的链接,逐渐扩展到更多的网页。
爬虫会遵循网站的robots.txt文件和网站的访问规则,以确保合法、合规的爬取行为。
2. 索引(Indexing):在爬取网页的过程中,搜索引擎会将抓取到的网页内容进行分析和处理,提取出其中的关键信息。
这些信息包括网页的标题、正文、链接、图片等。
然后,搜索引擎会将这些信息存储在一个庞大的索引数据库中,以便后续的检索和排序。
3. 排名(Ranking):当用户输入关键词进行搜索时,搜索引擎会根据索引数据库中的内容进行匹配,并计算每一个网页的相关性。
搜索引擎使用一系列的算法和评价指标来确定每一个网页的排名。
其中,最著名的算法是Google的PageRank算法,它根据网页的链接数量和质量来评估网页的重要性。
4. 展示(Display):最后,搜索引擎会根据排名结果将搜索结果呈现给用户。
搜索引擎会根据用户的搜索意图和搜索历史等因素,选择性地显示相关的网页、图片、视频、新闻等内容。
搜索引擎还会提供搜索结果的相关信息,如网页的摘要、URL、发布时间等,以匡助用户更好地选择和理解搜索结果。
搜索引擎工作原理的核心是建立一个庞大的索引数据库,并通过复杂的算法和评价指标对网页进行排序和展示。
搜索引擎的目标是提供最相关、最有价值的搜索结果,以满足用户的信息需求。
为了实现这一目标,搜索引擎不断优化算法,提高索引和检索的效率,同时也面临着保护用户隐私和打击垃圾信息的挑战。
总之,搜索引擎是一个复杂而庞大的系统,它通过爬取、索引、排名和展示等步骤,将互联网上的信息组织起来,为用户提供便捷、高效的搜索服务。
搜索引擎的分类及其工作原理
睥.3r'1目录1.技索引擎的分类及其工作原理...............................................-11.1分类................................................................-11.1.1全文搜索引擎.................................................-11.1.2目录搜索引擎.................................................-11.1.3元搜索引擎...................................................-21.1.4其他搜索引擎.................................................-2(1)垂直搜索引擎.................................................-2(2)集合式搜索引擎...............................................-2(3)门户搜索引擎.................................................-2(4)免费链接列表(简称FFA).....................................-21.2工作原理............................................................-21.2.1基本工作原理..................................................-2(1)抓取网页.....................................................-2(2)处理网页.....................................................-3(3)提供检索服务.................................................-31-2.2基本工作原理示意图............................................-31-2.3具体介绍......................................................-3(1)全文搜索引擎.................................................-3(2)目录索引.....................................................-4 2.搜索引擎的历史和发展.....................................................-42.1历史................................................................-4(1)Archie.........................................................-4(2)“蜘蛛”程序...................................................-4(3)最初原理.....................................................-5(4)真正搜索引擎的出现...........................................-52.2发展................................................................-53.搜索引擎的评价标准.......................................................-63.1查全率..............................................................-63.2查准率..............................................................-63.3响应时间............................................................-63.4呈现方式............................................................-63.5标准化程度.........................................................-64.搜索引竽常用搜索技巧.....................................................-74.1基本搜索技巧.......................................................-74.2快速搜索技巧.......................................................-75.搜索引辛比较..............................................................-85.1确定搜索引擎.......................................................-85.2搜索比较............................................................-85.3分析比较...........................................................-116.心得与发现...............................................................-126.1心得与体会.........................................................-126.2发现与探索.........................................................-126.3参考文献...........................................................-13名片一搜索引擎搜索引擎(search engine):指根据一定的策略.运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
搜索引擎的工作原理
搜索引擎的工作原理引言概述:搜索引擎已经成为我们日常生活中不可或缺的一部分。
无论是寻找资讯、购物、还是解决问题,我们都倚赖搜索引擎来获取我们所需的信息。
然而,你是否想过搜索引擎是如何工作的呢?本文将详细介绍搜索引擎的工作原理,从网页抓取到搜索结果的呈现,帮助读者更好地理解搜索引擎的背后机制。
一、网页抓取1.1 网络爬虫网络爬虫是搜索引擎的核心组成部分之一。
它是一种自动化程序,通过遍历互联网上的网页,将网页内容下载到搜索引擎的数据库中。
网络爬虫首先从一个或多个初始URL开始,然后按照一定的规则解析网页,提取其中的链接,并将这些链接添加到待抓取队列中。
通过不断地抓取和解析,网络爬虫可以获取大量的网页内容。
1.2 网页解析网页解析是网络爬虫的重要环节。
当网络爬虫下载网页后,需要解析网页的HTML代码,提取出有用的信息。
网页解析通常使用解析库或者解析器来实现,例如Python中的BeautifulSoup库。
解析器可以将HTML代码解析为DOM树的形式,通过DOM树的遍历和查询,可以提取出网页中的标题、正文、链接等信息。
1.3 网页去重在抓取网页的过程中,网络爬虫可能会遇到重复的网页。
为了避免重复抓取和存储相同的网页,搜索引擎需要进行网页去重。
网页去重的方法有很多种,常见的方法包括基于URL的去重和基于内容的去重。
基于URL的去重通过比较网页的URL来判断是否重复,而基于内容的去重则通过比较网页的内容来判断是否重复。
二、索引构建2.1 倒排索引倒排索引是搜索引擎中最常用的索引结构之一。
它将每个词与包含该词的文档关联起来。
倒排索引的构建过程包括分词、词频统计和索引生成。
首先,搜索引擎会对网页进行分词,将文本切分成一系列的词语。
然后,对于每个词语,统计它在每个文档中的出现次数。
最后,生成倒排索引,将每个词与包含该词的文档关联起来。
2.2 倒排索引优化为了提高搜索效率,搜索引擎对倒排索引进行了优化。
一种常见的优化方法是压缩倒排索引的大小,减少索引的存储空间。
搜索引擎的工作原理
搜索引擎的工作原理搜索引擎是一种用于在互联网上搜索信息的工具,它能够根据用户输入的关键词,从海量的网页中找到相关的内容并呈现给用户。
搜索引擎的工作原理可以分为三个主要的步骤:抓取、索引和检索。
1. 抓取(Crawling):搜索引擎会使用称为“爬虫”(Crawler)的程序来抓取互联网上的网页。
爬虫从一个起始网页开始,然后通过网页中的链接逐步遍历整个互联网。
爬虫会自动发现新的网页,并将这些网页的内容下载到搜索引擎的数据库中。
2. 索引(Indexing):一旦网页被抓取,搜索引擎会对其内容进行处理和分析,以便建立一个索引。
索引是一个包含了网页关键词及其对应位置的数据库。
搜索引擎会将网页中的文本、标题、链接和其他元数据提取出来,并将其存储在索引中。
这样,当用户输入关键词进行搜索时,搜索引擎可以快速地在索引中找到相关的网页。
3. 检索(Retrieval):当用户输入关键词进行搜索时,搜索引擎会根据索引中的信息来确定相关的网页。
搜索引擎会根据一系列的算法和排名因素来判断网页的相关性,并将相关性较高的网页按照一定的顺序呈现给用户。
这样,用户就可以在搜索结果中找到他们所需的信息。
搜索引擎的工作原理涉及到不少复杂的技术和算法。
以下是一些常用的算法和技术:1. 关键词匹配算法:搜索引擎会将用户输入的关键词与索引中的关键词进行匹配。
匹配算法会考虑关键词的浮现频率、位置和相关性等因素,以确定网页的相关性。
2. 倒排索引:倒排索引是一种常用的索引结构,它将关键词映射到包含这些关键词的网页。
倒排索引可以快速地定位包含特定关键词的网页。
3. PageRank算法:PageRank是一种由Google发明的算法,用于评估网页的重要性。
PageRank算法会考虑网页的链接结构,根据网页的入链数量和质量来确定网页的重要性。
4. 内容质量评估:搜索引擎会对网页的内容进行质量评估,以确定网页的可信度和相关性。
内容质量评估算法会考虑网页的原创性、权威性和用户体验等因素。
搜索引擎的工作原理
搜索引擎的工作原理搜索引擎是一种用于在互联网上查找和获取信息的工具。
它通过收集、索引和排名互联网上的网页内容,以便用户可以通过关键词搜索来获取相关的信息。
搜索引擎的工作原理可以分为以下几个步骤:网页抓取、索引构建和搜索结果展示。
1. 网页抓取:搜索引擎通过网络爬虫(也称为蜘蛛或机器人)来抓取网页。
网络爬虫是一种自动化程序,它按照一定的规则遍历互联网上的网页,并将这些网页的内容下载到搜索引擎的服务器上。
网络爬虫会从一个起始网页开始,然后通过网页上的链接不断地跳转到其他网页,以此类推,直到抓取到所有相关的网页。
2. 索引构建:抓取到的网页内容会被搜索引擎进行处理和分析,以构建索引。
索引是搜索引擎的核心部分,它类似于一本巨大的目录,记录了互联网上所有网页的相关信息。
搜索引擎会提取网页中的关键词、标题、摘要等内容,并将这些信息存储在索引中。
同时,搜索引擎还会记录网页的URL、发布时间、页面质量等信息,以便后续的搜索和排名。
3. 搜索结果展示:当用户输入关键词进行搜索时,搜索引擎会根据索引中的信息进行匹配和排序,并返回相关的搜索结果。
搜索引擎会根据关键词的相关性、网页的质量和用户的搜索历史等因素,对搜索结果进行排序。
通常,搜索引擎会将最相关的网页显示在前面,并提供摘要、URL和其他相关信息,以便用户快速浏览和选择。
搜索引擎的工作原理还涉及到一些其他的技术和算法,例如倒排索引、关键词提取、页面质量评估等。
倒排索引是一种常用的索引结构,它将关键词映射到对应的网页,以加快搜索的速度。
关键词提取是指从网页中提取出最相关的关键词,以便搜索引擎进行匹配和排序。
页面质量评估是搜索引擎用来评估网页质量的一种方法,它可以通过分析网页的链接、用户反馈等指标来判断网页的可信度和权威性。
总结起来,搜索引擎的工作原理是通过网页抓取、索引构建和搜索结果展示三个步骤来实现的。
搜索引擎通过收集和索引互联网上的网页内容,以便用户可以通过关键词搜索来获取相关的信息。
(整理)搜索引擎基本工作原理
(整理)搜索引擎基本⼯作原理搜索引擎基本原理⼀.全⽂搜索引擎在搜索引擎分类部分我们提到过全⽂搜索引擎从⽹站提取信息建⽴⽹页数据库的概念。
搜索引擎的⾃动信息搜集功能分两种。
⼀种是定期搜索,即每隔⼀段时间(⽐如Google⼀般是28天),搜索引擎主动派出“蜘蛛”程序,对⼀定IP地址范围内的互联⽹站进⾏检索,⼀旦发现新的⽹站,它会⾃动提取⽹站的信息和⽹址加⼊⾃⼰的数据库。
另⼀种是提交⽹站搜索,即⽹站拥有者主动向搜索引擎提交⽹址,它在⼀定时间内(2天到数⽉不等)定向向你的⽹站派出“蜘蛛”程序,扫描你的⽹站并将有关信息存⼊数据库,以备⽤户查询。
由于近年来搜索引擎索引规则发⽣了很⼤变化,主动提交⽹址并不保证你的⽹站能进⼊搜索引擎数据库,因此⽬前最好的办法是多获得⼀些外部链接,让搜索引擎有更多机会找到你并⾃动将你的⽹站收录。
当⽤户以关键词查找信息时,搜索引擎会在数据库中进⾏搜寻,如果找到与⽤户要求内容相符的⽹站,便采⽤特殊的算法——通常根据⽹页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各⽹页的相关度及排名等级,然后根据关联度⾼低,按顺序将这些⽹页链接返回给⽤户。
⼆.⽬录索引与全⽂搜索引擎相⽐,⽬录索引有许多不同之处。
⾸先,搜索引擎属于⾃动⽹站检索,⽽⽬录索引则完全依赖⼿⼯操作。
⽤户提交⽹站后,⽬录编辑⼈员会亲⾃浏览你的⽹站,然后根据⼀套⾃定的评判标准甚⾄编辑⼈员的主观印象,决定是否接纳你的⽹站。
其次,搜索引擎收录⽹站时,只要⽹站本⾝没有违反有关的规则,⼀般都能登录成功。
⽽⽬录索引对⽹站的要求则⾼得多,有时即使登录多次也不⼀定成功。
尤其象Yahoo!这样的超级索引,登录更是困难。
(由于登录Yahoo!的难度最⼤,⽽它⼜是商家⽹络营销必争之地,所以我们会在后⾯⽤专门的篇幅介绍登录Yahoo雅虎的技巧)此外,在登录搜索引擎时,我们⼀般不⽤考虑⽹站的分类问题,⽽登录⽬录索引时则必须将⽹站放在⼀个最合适的⽬录(Directory)。
搜索引擎的工作原理
C.异常发现模型
异常发现模型也是一个高度抽象化的算法框架模型,其基本假设认为:作弊 网页必然存在有异于正常网页的特征,这种特征有可能是内容方面的,也有 可能是链接关系方面的。而制定具体算法的流程往往是先找到一些作弊的网 页集合,分析出其异常特征有哪些,然后利用这些异常特征来识别作弊网页。
5.2 分析用户意图
准确分析用户的搜索意图是目前搜索引擎的重点研究方向。 用户的意图可以初略分为导航型,信息型,事物型 搜索日志是挖掘用户意图的重要数据来源 点击图:用户在查询结果出来后点击的链接可能更是他希望的结果
查询回话:用户在短时间的连续查询词存在相关性
查询图:构建用户查询之间的结构关系 用户在搜索时可能想不到合适的搜索词,或者关键词输入错误,这时候就需要 帮助用户澄清搜索意图。 常见的方法是:相关搜索,查询纠错
在海量的网页数据中,通过一定的技术手段或者人工半人工手段,从中筛选 出部分完全值得信任的页面,也就是肯定不会作弊的页面(可以理解为白名 单),算法以这些白名单内的页面作为出发点,赋予白名单内的页面节点较 高的信任度分值,其他页面是否作弊,要根据其和白名单内节点的链接关系 来确定。白名单内节点通过链接关系将信任度分值向外扩散传播,如果某个 节点最后得到的信任度分值高于一定阈值,则认为没有问题,而低于这一阈 值的网页则会被认为是作弊网页。
5.3 网页去重
经过统计,网络中有相当比例的网页是近似相同或者完全相同的,高达29%。 如果搜索返回大量相似网页,显然降低了搜索结果质量。针对这一现象,网 页去重就显得十分必要。 网页去重一般是在爬虫抓取到网页后,对其建立索引之前。去重算法应该兼 顾准确性和运行效率。
搜索引擎的工作原理
搜索引擎的工作原理搜索引擎是一种用于从互联网上获取信息的工具,它通过收集、索引和排序网页来提供用户所需的搜索结果。
搜索引擎的工作原理可以分为以下几个步骤:网页抓取、网页索引和搜索结果排序。
1. 网页抓取:搜索引擎通过网络爬虫程序(也称为蜘蛛、机器人)从互联网上抓取网页。
网络爬虫会按照一定的规则自动遍历互联网上的网页,并将抓取到的网页内容保存在搜索引擎的数据库中。
爬虫程序会从一个初始网页开始,然后通过网页中的链接逐步遍历其他网页,形成一个庞大的网页索引。
2. 网页索引:网页索引是搜索引擎的核心组成部分,它是一个包含大量网页信息的数据库。
搜索引擎会对抓取到的网页进行处理,提取出网页的关键词和其他相关信息,并将这些信息存储在索引中。
索引的目的是为了加快搜索引擎的检索速度和准确性。
当用户输入关键词进行搜索时,搜索引擎会根据索引中的信息进行匹配,找到与关键词相关的网页。
3. 搜索结果排序:当用户输入关键词进行搜索后,搜索引擎会根据一定的算法对索引中的网页进行排序,以便将最相关的网页展示给用户。
搜索引擎的排序算法通常会考虑多个因素,如关键词的匹配程度、网页的权威性和用户的搜索习惯等。
通过不断优化算法,搜索引擎可以提供更准确、相关的搜索结果。
除了以上的基本工作原理,搜索引擎还会根据用户的搜索行为和反馈信息进行改进和优化。
例如,搜索引擎会记录用户的搜索历史和点击行为,以便更好地理解用户的需求,并根据用户的反馈信息对搜索结果进行调整。
总结起来,搜索引擎的工作原理主要包括网页抓取、网页索引和搜索结果排序。
通过不断优化算法和收集用户反馈,搜索引擎可以提供更准确、相关的搜索结果,帮助用户快速获取所需的信息。
搜索引擎的工作原理
搜索引擎的工作原理搜索引擎是当今互联网世界中不可或缺的工具,它们通过自己的算法和技术,能够帮助用户在海量的信息中快速准确地找到他们需要的内容。
那么,搜索引擎是如何工作的呢?本文将从搜索引擎的工作原理、搜索引擎优化和搜索结果排序等方面来详细介绍搜索引擎的工作原理。
搜索引擎的工作原理可以简单地分为三个步骤,抓取、索引和排序。
首先是抓取,搜索引擎会利用爬虫程序(也称为蜘蛛)在互联网上抓取网页内容。
爬虫程序会按照一定的规则和算法,从一个页面跳转到另一个页面,不断地抓取页面上的内容,包括文本、图片、视频等。
接下来是索引,搜索引擎会将抓取到的内容进行索引化处理,建立起一个庞大的数据库,这个数据库中包含了互联网上绝大部分的网页内容。
最后是排序,当用户输入查询关键词时,搜索引擎会根据自己的算法和技术,从索引库中找到相关的网页内容,并按照一定的规则对这些内容进行排序,将最相关的内容展示给用户。
在搜索引擎的工作原理中,索引是一个非常关键的环节。
搜索引擎会将抓取到的内容进行索引化处理,这样才能够快速准确地找到用户需要的内容。
在索引化处理中,搜索引擎会对网页的文本内容进行分词,将文本内容分成一个个的词语,并建立起词语与网页的对应关系。
这样,当用户输入查询关键词时,搜索引擎就可以根据这些词语在索引库中快速找到相关的网页内容。
除了文本内容,搜索引擎还会对网页的链接、图片、视频等内容进行处理,以便更全面地为用户提供相关的搜索结果。
除了搜索引擎的工作原理,搜索引擎优化(SEO)也是一个非常重要的概念。
搜索引擎优化是指通过优化网站内容和结构,使其更容易被搜索引擎抓取和索引,从而提高网站在搜索引擎中的排名,吸引更多的用户访问。
搜索引擎优化包括内部优化和外部优化两个方面。
内部优化主要包括网站内容的优化、网站结构的优化、网站速度的优化等,这些优化措施可以使搜索引擎更容易地抓取和索引网站内容。
外部优化主要包括外部链接的获取、社交媒体的推广、内容营销等,这些优化措施可以提高网站在搜索引擎中的权威性和影响力,从而提高网站的排名。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
搜索引擎分类及工作原理WEIHUA system office room 【WEIHUA 16H-WEIHUA WEIHUA8Q8-搜索引擎的分类及工作原理姓名:XXX 班级:XXX摘要:这篇论文是关于搜索引擎的分类及原理的分析。
在浩瀚的网络资源中,搜索引擎(Search Engine)是一种网上信息检索工具,它能帮助用户迅速而全面地找到所需要的信息。
它是一个集中了千千万万个站点的地方,主要功能是给人们搜索这些站点。
它还会分门别类的把一些好的站点列出来,以方便人们查找资料,有了搜索引擎你就能很容易的找到你想要的内容或站点,因此掌握好使用搜索引擎对于任何上网的用户至关重要。
一个好的搜索引擎,不仅数据库容量要大,更新频率、检索速度要快,支持对多语言的搜索,而且随着数据库容量的不断膨胀,还要能从庞大的资料库中精确地找到正确的资料。
关键词:搜索引擎工作原理分类蜘蛛搜集网站1.前言获得网站网页资料,能够建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。
搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。
真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。
当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。
在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。
2.搜索引擎分类搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
全文搜索引擎全文搜索引擎是从网站提取信息建立网页数据库。
搜索引擎的自动信息搜集功能分两种。
一种是定期搜索,即每隔一段时间搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。
另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。
由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。
当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。
目录索引首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。
用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。
其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。
此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录。
最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。
更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。
元搜索引擎 (META Search Engine)元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。
着名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的有搜星搜索引擎。
在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo 3 搜索引擎的原理全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。
它为保证采集的资料最新,还会回访已抓取过的网页。
网络机器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。
我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。
不同的搜索引擎,网页索引数据库不同,排名规则也不尽相同,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。
和全文搜索引擎一样,分类目录的整个工作过程也同样分为收集信息、分析信息和查询信息三部分,只不过分类目录的收集、分析信息两部分主要依靠人工完成。
分类目录一般都有专门的编辑人员,负责收集网站的信息。
随着收录站点的增多,现在一般都是由站点管理者递交自己的网站信息给分类目录,然后由分类目录的编辑人员审核递交的网站,以决定是否收录该站点。
如果该站点审核通过,分类目录的编辑人员还需要分析该站点的内容,并将该站点放在相应的类别和目录中。
所有这些收录的站点同样被存放在一个“索引数据库”中。
用户在查询信息时,可以选择按照关键词搜索,也可按分类目录逐层查找。
如以关键词搜索,返回的结果跟全文搜索引擎一样,也是根据信息关联程度排列网站。
需要注意的是,分类目录的关键词查询只能在网站的名称、网址、简介等内容中进行,它的查询结果也只是被收录网站首页的URL地址,而不是具体的页面。
分类目录就像一个电话号码薄一样,按照各个网站的性质,把其网址分门别类排在一起,大类下面套着小类,一直到各个网站的详细地址,一般还会提供各个网站的内容简介,用户不使用关键词也可进行查询,只要找到相关目录,就完全可以找到相关的网站(注意:是相关的网站,而不是这个网站上某个网页的内容,某一目录中网站的排名一般是按照标题字母的先后顺序或者收录的时间顺序决定的)。
现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。
所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。
而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前搜索引擎的工作原理可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。
从互联网上抓取网页利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。
建立索引数据库由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大些与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
在索引数据库中搜索排序当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。
因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。
最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。
这样,网页的具体内容和变化情况就会反映到用户查询的结果中。
互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。
大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千G甚至几万G。
但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。
我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。
而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。
在做网页的提取过程中详细的原理如下3.4.1 关键词的提取所谓“目标网页”指的是搜索引擎设计覆盖的网页范围.例如Google是全球,天网是全中国.随便取一篇网页的源文件(例如通过浏览器的“查看源文件”功能),我们可以看到其中的情况纷乱繁杂.除了我们从浏览器中能够正常看到的文字内容外,还有大量的HTML标记.据统计,网页文档源文件的大小(字节量)通常大约是其中内容大小的4 倍.另外,由于HTML文档产生来源的多样性,许多网页在内容上比较随意,不仅文字不讲究规范、完整,而且还可能包含许多和主要内容无关的信息.这些情况既给有效的信息查询带来了挑战,也带来了一些新的机遇,这里我们只是指出,为了支持后面的查询服务,需要从网页源文件中提取出能够代表它的内容的一些特征.从人们现在的认识和实践来看,所含的关键词即为这种特征最好的代表.于是,作为预处理阶段的一个基本任务,就是要提取出网页源文件的内容部分所含的关键词.对于中文来说,就是要根据一个词典Σ,用一个所谓“切词软件”,从网页文字中切出Σ所含的词语来.在那之后,一篇网页主要就由一组词来近似代表了,p = {t1, t2, …, tn}.一般来讲,我们可能得到很多词,同一个词可能在一篇网页中多次出现.从效果和效率考虑,不应该让所有的词都出现在网页的表示中,要去掉诸如“的”,"在"等没有内容指示意义的词,称为“停用词”.这样,对一篇网页来说,有效的词语数量大约在200个左右.3.4.2重复或转载网页的消除与生俱来的数字化和网络化给网页的复制以及转载和修改再发表带来了便利,因此我们看到Web上的信息存在大量的重复现象.据统计,网页的重复率平均大约为4.也就是说,当你通过一个URL在网上看到一篇网页的时候,平均还有另外3个不同的URL也给出相同或者基本相似的内容.这种现象对于广大的网民来说是有正面意义的,因为有了更多的信息访问机会.但对于搜索引擎来说,则主要是负面的;它不仅在搜集网页时要消耗机器时间和网络带宽资源,而且如果在查询结果中出现,无意义地消耗了计算机显示屏资源,也会引来用户的抱怨,“这么多重复的,给我一个就够了”.因此,消除内容重复或主题内容重复的网页是预处理阶段的一个重要任务.3..链接分析前面提到,大量的HTML标记既给网页的预处理造成了一些麻烦,也带来了一些新的机遇.从信息检索的角度讲,如果系统面对的仅仅是内容的文字,我们能依据的就是“共有词汇假设”,即内容所包含的关键词集合,最多加上词频(term frequency 或tf、TF)和词在文档集合中出现的文档频率(document frequency 或df、DF)之类的统计量.而TF和DF这样的频率信息能在一定程度上指示词语在一篇文档中的相对重要性或者和某些内容的相关性,这是有意义的.有了HTML标记后,情况还可能进一步改善,例如在同一篇文档中,<H1>和</H1>之间的信息很可能就比在<H4>和</H4>之间的信息更重要.特别地,HTML文档中所含的指向其他文档的链接信息是人们近几年来特别关注的对象,认为它们不仅给出了网页之间的关系,而且还对判断网页的内容有很重要的作用.例如“传世群英传外挂”这几个字在传奇归来外挂的主页上是没有的,因此一个仅靠内容文字分析的搜索引擎就不可能返回该主页作为结果.3.4.4 网页重要程度的计算搜索引擎返回给用户的,是一个和用户查询相关的结果列表.列表中条目的顺序是很重要的一个问题.由于面对各种各样的用户,加之查询的自然语言风格,对同样的q0返回相同的列表肯定是不能使所有提交q0的用户都满意的(或者都达到最高的满意度).因此搜索引擎实际上追求的是一种统计意义上的满意.人们认为Google目前比百度好,是因为在多数情况下前者返回的内容要更符合用户的需要,而不是所有情况下都如此.如何对查询结果进行排序有很多因素需要考虑,后面将有深入的讨论.这里只是概要解释在预处理阶段可能形成的所谓“重要性”因素.顾名思义,既然是在预处理阶段形成的,就是和用户查询无关的.如何讲一篇网页比另外一篇网页重要?人们参照科技文献重要性的评估方式,核心想法就是“被引用多的就是重要的”.“引用”这个概念恰好可以通过HTML超链在网页之间体现得非常好,作为Google创立核心技术的PageRank就是这种思路的成功体现.除此以外,人们还注意到网页和文献的不同特点,即一些网页主要是大量对外的链接,其本身基本没有一个明确的主题内容,而另外有些网页则被大量的其他网页链接.从某种意义上讲,这形成了一种对偶的关系,这种关系使得人们可以在网页上建立另外一种重要性指标.这些指标有的可以在预处理阶段计算,有的则要在查询阶段计算,但都是作为在查询服务阶段最终形成结果排序的部分参数.总结:搜索引擎只能搜到它网页索引数据库里储存的内容。