搜索引擎的概念

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

搜索引擎的工作原理:

抓取网页

每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。

处理网页

搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。

提供检索服务

用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

搜索引擎的作用

以百度为例介绍搜素引擎的用法

1. 搜索,就这么简单

只要在搜索框中输入关键词,并按一下按钮,百度就会自动找出相关的网站和资料。

百度会寻找所有符合您全部查询条件的资料,并把最相关的网站或资料排在前列。

小技巧:输入关键词后,直接按键盘上的回车键(即Enter健),百度也会自动找出相关的网站或资料。

2. 什么是关键词

关键词,就是您输入搜索框中的文字,也就是您命令百度寻找的东西。

您可以命令百度寻找任何内容,所以关键词的内容可以是:人名、网站、新闻、小说、软件、游戏、星座、工作、购物、论文、、、

关键词,可以是任何中文、英文、数字,或中文英文数字的混合体。

例如,您可以搜索[大话西游]、[windows]、[911]、[F-1赛车]。

关键词,您可以输入一个,也可以输入两个、三个、四个,您甚至可以输入一句话。

例如,您可以搜索[爱]、[美女]、[mp3 下载]、[游戏攻略大全]、[蓦然回首,那人却在灯火阑珊处]。

提示:多个关键词之间必须留一个空格(按一下键盘上最长的那个键)。

3. 准确的关键词

百度搜索引擎严谨认真,要求“一字不差“。

例如:分别输入[舒淇] 和[舒琪] ,搜索结果是不同的。

分别输入[电脑] 和[计算机] ,搜索结果也是不同的。

因此,如果您对搜索结果不满意,建议检查输入文字有无错误,并换用不同的关键词搜索。

4. 输入两个关键词搜索

输入多个关键词搜索,可以获得更精确更丰富的搜索结果。

例如,搜索[北京暂住证],可以找到几万篇资料。而搜索[北京暂住证],则只有严格含有“北京暂住证“连续5个字的网页才能被找出来,不但找到的资料只有几百篇,资料的准确性也比前者差得多。

因此,当你要查的关键词较为冗长时,建议将它拆成几个关键词来搜索,词与词之间用空格隔开。

多数情况下,输入两个关键词搜索,就已经有很好的搜索结果。

高级搜索功能

1. 减除无关资料

有时候,排除含有某些词语的资料有利于缩小查询范围。

百度支持“-“功能,用于有目的地删除某些无关网页,但减号之前必须留一空格,语法是“A -B“。

例如,要搜寻关于“武侠小说“,但不含“古龙“的资料,可使用如下查询:

2. 并行搜索

使用“A | B“来搜索“或者包含关键词A,或者包含关键词B“的网页。

例如:您要查询“图片“或“写真“相关资料,无须分两次查询,只要输入[图片| 写真] 搜索即可。百度会提供跟“|“前后任何关键词相关的网站和资料。

3. 相关检索

如果您无法确定输入什么关键词才能找到满意的资料,百度相关检索可以帮助您。

您先输入一个简单词语搜索,然后,百度搜索引擎会为您提供“其它用户搜索过的相关搜索词“作参考。点击任何一个相关搜索词,都能得到那个相关搜索词的搜索结果。

■百度高级搜索技巧

把搜索范围限定在网页标题中——intitle

网页标题通常是对网页内容提纲挈领式的归纳。把查询内容范围限定在网页标题中,有时能获得良好的效果。使用的方式,是把查询内容中,特别关键的部分,用“intitle:”领起来。

例如,找林青霞的写真,就可以这样查询:写真intitle:林青霞

注意,intitle:和后面的关键词之间,不要有空格。

把搜索范围限定在特定站点中——site

有时候,您如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。使用的方式,是在查询内容的后面,加上“site:站点域名”。

例如,天空网下载软件不错,就可以这样查询:msn site:

注意,“site:”后面跟的站点域名,不要带“http://”;另外,site:和站点名之间,不要带空格。

把搜索范围限定在url链接中——inurl

网页url中的某些信息,常常有某种有价值的含义。于是,您如果对搜索结果的url做某种限定,就可以获得良好的效果。实现的方式,是用“inurl:”,后跟需要在url中出现的关键词。

例如,找关于photoshop的使用技巧,可以这样查询:photoshop inurl:jiqiao

上面这个查询串中的“photoshop”,是可以出现在网页的任何位置,而“jiqiao”则必须出现在网页url中。

注意,inurl:语法和后面所跟的关键词,不要有空格。

精确匹配——双引号和书名号

如果输入的查询词很长,百度在经过分析后,给出的搜索结果中的查询词,可能是拆分的。如果您对这种情况不满意,可以尝试让百度不拆分查询词。给查询词加上双引号,就可以达到这种效果。

例如,搜索上海科技大学,如果不加双引号,搜索结果被拆分,效果不是很好,但加上双引号后,“上海科技大学”,获得的结果就全是符合要求的了。

书名号是百度独有的一个特殊查询语法。在其他搜索引擎中,书名号会被忽略,而在百度,中文书名号是可被查询的。加上书名号的查询词,有两层特殊功能,一是书名号会出现在搜索结果中;二是被书名号扩起来的内容,不会被拆分。书名号在某些情况下特别有效果,例如,查名字很通俗和常用的那些电影或者小说。比如,查电影“手机”,如果不加书名号,很多情况下出来的是通讯工具——手机,而加上书名号后,《手机》结果就都是

相关文档
最新文档