Google搜索引擎
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
27
五、高级搜索
GOOGLE的常用高级搜索语法:site,link, inurl,allinurl,intitle,allintitle filetype
28
“site”表示搜索结果局限于某个具体网站或者网 站频道,如“sina.com.cn”、“edu.sina.com.cn”, 或者是某个域名,如“com.cn”、“com”等等。 如果是要排除某网站或者域名范围内的页面,只 需用“-网站/域名”。 示例:搜索中文教育科研网站(edu.cn)上所有 包含“鲁迅”的页面。 搜索:“鲁迅 site:edu.cn” 结果:已搜索有关鲁迅 site:edu.cn的中文(简体) 网页。共约有3,780项查询结果,这是第1-10项 。 搜索用时0.31秒。
6
目录和搜索引擎的区别
1、不同方式: 目录和搜索引擎在组织和展现信息方面使用不同的 方式。
例如,Yahoo! 中国目录是由雅虎的编辑,即由人来 决定,在有关主题的结构中列入哪些网站。雅虎的 编辑不会将整个网络中每个网站的所有页面都放进 去。他们的做法是,谨慎地选择网站的首页,7将其 放入相应的适当类目中。例如,北京大学网站是位 于大专院校类目下的。
14
Google搜索引擎 www.google.com
第一次进入GOOGLE,它会根据你的操作系 统,确定语言界面。GOOGLE是通过cookie 来存储页面设定的,所以,如果你的系统 禁用cookie,就无法对GOOGLE界面进行个 人设定了。GOOGLE的首页很简洁,LOGO 下面,排列了四大功能模块:网站、图像、 新闻组和目录服务。默认是网站搜索。
23
四、辅助搜索
ห้องสมุดไป่ตู้
GOOGLE不支持通配符,如“*”、“?” 等,只能做精确查询,关键字后面的“*” 或者“?”会被忽略掉。 GOOGLE对英文字符大小写不敏感, “GOD”和“god”搜索的结果是一样的。 GOOGLE的关键字可以是词组(中间没有 空格),也可以是句子(中间有空格), 但是,用句子做关键字,必须加英文引号。
19
GOOGLE用减号“-”表示逻辑“非”操 作。 示例:搜索所有包含“易筋经”而不含 “吸星大法”的中文网页 搜索:“易筋经 -吸星大法” 结果:已搜索有关易筋经 -吸星大法的中 文(简体)网页。共约有6,030项查询结果, 这是第1-10项。搜索用时0.20秒。
20
注意:这里的“+”和“-”号,是英文字 符,而不是中文字符的“+”和“-”。 此外,操作符与作用的关键字之间,不能 有空格。比如“易筋经 - 吸星大法”,搜 索引擎将视为逻辑“与”操作,中间的“-” 被忽略。 GOOGLE不支持关键字为中文的逻辑“或” 查询,但支持英文关键字的“或”操作, 语法是大写的“OR”。
Lycos(www.lycos.com)
4
第二代搜索引擎 只做后台技术提供者与大量应用人工智能 是第二代搜索引擎的标志 Inktomi(www.inktomi.com)
Askjeeves(www.ask.com)
Google(www.google.com) search(www.search.com)
17
二、GOOGLE特点 GOOGLE支持多达132种语言,包括简体中文和繁体中 文; GOOGLE网站只提供搜索引擎功能,不提供其它内容 GOOGLE速度极快,据说有8000多台服务器,200多条 T3级宽带; GOOGLE的专利网页级别技术PageRank能够提供高命中 率的搜索结果; GOOGLE的搜索结果摘录查询网页的部分具体内容,而 不仅仅是网站简介; GOOGLE智能化的“手气不错”功能,提供可能最符合 要求的网站; GOOGLE的“网页快照”功能,能从GOOGLE服务器里 直接取出缓存的网页。
7
2、另一方面,搜索引擎一般会运行自动程序, 持续对网络上浩瀚的内容进行逐页扫描,将所有 相关的信息自动存储下来。通常,在搜索引擎中 搜索时,所得到的结果是基于相关性,也就是按 照您所搜索的关键字在页面中出现的次数来排 序。 (在Yahoo! 中国中搜索时,所得结果是基于类目 名称、网站名称、网站描述以及网址的匹配来显 示的。)
15
16
一、GOOGLE简介 Google是由两个斯坦福大学博士生Larry Page与Sergey Brin于1998年9月发明, Google Inc. 于1999年创立。2000年7月份, Google替代Inktomi成为Yahoo公司的搜索 引擎,同年9月份,Google成为中国网易公 司的搜索引擎。98年至今,GOOGLE已经 获得30多项业界大奖。
13
4、模糊检索
允许被检索信息和检索提问之间有一定的差异如数据库 采用的是“lung cancer treatment”标引,用户可以用 “treatment of lung cancer”查找出“lung cancer treatment”标引的信息。 5、概念检索 检索工具不仅可以检索包含具体词汇的检索结果,还可 以检索出包含那些与该检索词汇同属一类概念词汇的结 果。 如检索“elderly people” 会同时检索“senior citizens”、”retired people”因为计算机判断出这单个词组 属于同一个概念。
22
例:查阅天龙八部具体是哪八部。 分析:如果光用“天龙八部”做关键字,搜索结果有 26,500项,而且排前列的主要与金庸的小说《天龙八 部》相关,很难找到所需要的资讯。可以用两个方法 减少无关结果。 1,如果你知道八部中的某一部,比如阿修罗,增加 “阿修罗”关键字,搜索结果就只有995项,可以直 接找到全部八部,“天龙八部 阿修罗”。 2,如果你不知道八部中的任何一部,但知道这与佛 教相关,可以排除与金庸小说相关的记录,查询结果 为1,010项,可以迅速找到需要的资料,“天龙八部 佛教 -金庸”。
18
三、基本搜索 GOOGLE的基本搜索语法:+,-,OR GOOGLE无需用明文的“+”来表示逻辑“与”操作, 只要空格就可以了。 示例:搜索所有包含关键词 “易筋经”和“吸星大法”的中文网页 搜索:“易筋经 吸星大法” 结果:已搜索有关易筋经 吸星大法的中文(简体)网 页。共约有988项查询结果,这是第1-10项。搜索用 时0.30秒。 注意:文章中搜索语法外面的引号仅起引用作用, 不能带入搜索栏内。
24
示例:搜索包含“long long ago”字串的页 面。 搜索:“"long long ago"” 结果:已向英特网搜索"long long ago". 共 约有24,600项查询结果,这是第1-10项。 搜索用时1.23秒。
25
注意:GOOGLE对中文句子作智能化处理, 会自动把句子分割成词语作为关键词。 比如,搜索包含“啊 我的太阳”这样句 子,“"啊 我的太阳"”,并没有搜到完 全匹配的结果,但是,GOOGLE以“啊”、 “我的”、“太阳”等词语为关键词, 给出了符合诸如“啊,我的太阳”这样 的结果。
8
3、不同用法: 由于存储和展现网络内容的方式迥异,您可以用 目录和搜索引擎作不同的事情。 如果您要寻找一个特定网站,也就是说,您知道 搜寻目标的名称,可以使用目录。如果您想找一 个相同主题的所有网站,那么用目录就非常好。 (Yahoo! 中国目录能列出您能想到的主题的所有 网站。)
9
Yahoo! 中国在搜索页面上,目录和搜索引擎 的搜索结果都会给出。您在用Yahoo! 中国搜 索时,会看见搜索结果页面上有个窄长的框框。 如果“相关网站”被高亮,说明您正在查看包 含在雅虎目录中的网站。如果“相关网页”被 高亮,说明您在查看包含在Google搜索引擎里 面的网页。
5
搜索引擎的分类
1、分类目录型:专业人员将网上个站点按主题内 容组成的等级结构,查找时按照大类逐渐向下查 找. 2、搜索引擎型:包括数据的采集、标引、组织和 数据的检索。 分类目录和搜索引擎的区别:分类目录保存的是 网站的站名、网址、和内容提要;搜索引擎保存 的是个网站每一个网页的全部内容。分类目录中 分类是网站的分类,而搜索引擎中的分类是网页 的分类。
2
spider ----收集数据 Indexer ----建立索引 Searcher----进行搜索
3
第一代搜索引擎 门户成为第一代搜索引擎的终点 Altavista(www.altavista.com)
Infoseek(www.infoseek.com)
Excite(www.excite.com)
10
按检索内容划分
综合性 专题性 特殊性检索工具 按检索工具的数量划分 集合型:将一个检索请求传给许多单独 型搜索引擎去执行,然后将结果返回。 单独型:有自己独立的数据库。
11
检索功能
一、基本检索功能 1、布尔检索(and 、or 、not)有些检索工具省 略 了布尔逻辑检索词,用其它形式代替, 如match all terms表示and;match any terms表示any. 2、+/-检索:+号表示and 的意思;-号表示 not 的意思。 3、截词检索包括“*,?” 4、短语检索:用“ ”将一个此作为短语检索如 “先天性心脏病” 5、区分大小写检索:可以用开查找某些专用名词
21
示例:搜索包含布兰妮“Britney”或者披头士 “Beatles”、或者两者均有的中文网页。 搜索:“britney OR beatles” 结果:已搜索有关beatles OR britney的中文(简体) 网页。共约有19,800项查询结果,这是第1-10项。 搜索用时0.35秒。 搜索:“布兰妮 OR 披头士” 结果:找不到和您的查询-布兰妮 OR 披头士-相符 的网页。 “+”和“-”的作用有的时候是相同的,都是为了 缩小搜索结果的范围,提高查询结果命中率。
29
示例:搜索包含“金庸”和“古龙”的中文新浪 网站页面, 搜索:“金庸 古龙 site:sina.com.cn” 结果:已在sina.com.cn搜索有关金庸 古龙的中 文(简体)网页。共约有722项查询结果,这是第110项。搜索用时0.34秒。 注意:site后的冒号为英文字符,而且,冒号后 不能有空格,否则,“site:”将被作为一个搜索 的关键字。此外,网站域名不能有“http”以及 “www”前缀,也不能有任何“/”的目录后缀; 网站频道则只局限于“频道名.域名”方式,而不 能是“域名/频道名”方式。诸如“金庸 site:edu.sina.com.cn/1/”的语法是错误的。
26
GOOGLE对一些网路上出现频率极高的词(主要 是英文单词),如“i”、“com”,以及一些符号 如“*”、“.”等,作忽略处理,如果用户必须 要求关键字中包含这些常用词,就要用强制语法 “+”。 示例:搜索包含“Who am I ?”的网页。如果用 “"who am i ?"”,“Who”、“I”、“?”会被省略掉, 搜索将只用“am”作关键字,所以应该用强制搜 索。 搜索:“"who am +i"” 结果:已向英特网搜索"who am +i". 共约有 310,000项查询结果,这是第1-10项。搜索用时 0.30秒。 注意:英文符号无法成为搜索关键字,加强制也 不行。
12
高级检索
1、字段检索:将检索范围限定在某一指定的字 段,如title(t);url;link(链接点文字);text(网页的 正文);domain(检索包含特定域名的网页);url(u)。 2、自然语言检索:用户可以输入一句话进行检 索,检索系统根据禁用词表,取除无实质 意义的词,将剩下的词作为关键词进行检索。 3、相关信息反馈检索:查找与检索结果类似的 信息,在光盘检索时可以从检索结果中选取 与检索提问相关的词作为下一次检索的用词。 在网络检索时该检索功能是自动完成的如excite 的“search for more documents like this one”
搜索引擎
1
搜索引擎的核心技术
1、基于Robot的搜索引擎 利用一个Robot的程序自动访问Web站点提取站点上 的网页,并根据网页上的链接进一步提取其它网页。 2、基于目录的搜索引擎 目录的数据库是依靠专职编辑或志愿者建立起来的, 把站点的URL和描述放在一个类中,当用户查询某个关 键词时搜索软件只在这些描述中进行搜索。 3、基于Meta的搜索引擎(Multiple search Engine) 本身并没有存放网页数据库,当用户查询一个关键 词时,将该关键词转化为其它搜索引擎接受的命令, 最后将整个结果返回给用户。
五、高级搜索
GOOGLE的常用高级搜索语法:site,link, inurl,allinurl,intitle,allintitle filetype
28
“site”表示搜索结果局限于某个具体网站或者网 站频道,如“sina.com.cn”、“edu.sina.com.cn”, 或者是某个域名,如“com.cn”、“com”等等。 如果是要排除某网站或者域名范围内的页面,只 需用“-网站/域名”。 示例:搜索中文教育科研网站(edu.cn)上所有 包含“鲁迅”的页面。 搜索:“鲁迅 site:edu.cn” 结果:已搜索有关鲁迅 site:edu.cn的中文(简体) 网页。共约有3,780项查询结果,这是第1-10项 。 搜索用时0.31秒。
6
目录和搜索引擎的区别
1、不同方式: 目录和搜索引擎在组织和展现信息方面使用不同的 方式。
例如,Yahoo! 中国目录是由雅虎的编辑,即由人来 决定,在有关主题的结构中列入哪些网站。雅虎的 编辑不会将整个网络中每个网站的所有页面都放进 去。他们的做法是,谨慎地选择网站的首页,7将其 放入相应的适当类目中。例如,北京大学网站是位 于大专院校类目下的。
14
Google搜索引擎 www.google.com
第一次进入GOOGLE,它会根据你的操作系 统,确定语言界面。GOOGLE是通过cookie 来存储页面设定的,所以,如果你的系统 禁用cookie,就无法对GOOGLE界面进行个 人设定了。GOOGLE的首页很简洁,LOGO 下面,排列了四大功能模块:网站、图像、 新闻组和目录服务。默认是网站搜索。
23
四、辅助搜索
ห้องสมุดไป่ตู้
GOOGLE不支持通配符,如“*”、“?” 等,只能做精确查询,关键字后面的“*” 或者“?”会被忽略掉。 GOOGLE对英文字符大小写不敏感, “GOD”和“god”搜索的结果是一样的。 GOOGLE的关键字可以是词组(中间没有 空格),也可以是句子(中间有空格), 但是,用句子做关键字,必须加英文引号。
19
GOOGLE用减号“-”表示逻辑“非”操 作。 示例:搜索所有包含“易筋经”而不含 “吸星大法”的中文网页 搜索:“易筋经 -吸星大法” 结果:已搜索有关易筋经 -吸星大法的中 文(简体)网页。共约有6,030项查询结果, 这是第1-10项。搜索用时0.20秒。
20
注意:这里的“+”和“-”号,是英文字 符,而不是中文字符的“+”和“-”。 此外,操作符与作用的关键字之间,不能 有空格。比如“易筋经 - 吸星大法”,搜 索引擎将视为逻辑“与”操作,中间的“-” 被忽略。 GOOGLE不支持关键字为中文的逻辑“或” 查询,但支持英文关键字的“或”操作, 语法是大写的“OR”。
Lycos(www.lycos.com)
4
第二代搜索引擎 只做后台技术提供者与大量应用人工智能 是第二代搜索引擎的标志 Inktomi(www.inktomi.com)
Askjeeves(www.ask.com)
Google(www.google.com) search(www.search.com)
17
二、GOOGLE特点 GOOGLE支持多达132种语言,包括简体中文和繁体中 文; GOOGLE网站只提供搜索引擎功能,不提供其它内容 GOOGLE速度极快,据说有8000多台服务器,200多条 T3级宽带; GOOGLE的专利网页级别技术PageRank能够提供高命中 率的搜索结果; GOOGLE的搜索结果摘录查询网页的部分具体内容,而 不仅仅是网站简介; GOOGLE智能化的“手气不错”功能,提供可能最符合 要求的网站; GOOGLE的“网页快照”功能,能从GOOGLE服务器里 直接取出缓存的网页。
7
2、另一方面,搜索引擎一般会运行自动程序, 持续对网络上浩瀚的内容进行逐页扫描,将所有 相关的信息自动存储下来。通常,在搜索引擎中 搜索时,所得到的结果是基于相关性,也就是按 照您所搜索的关键字在页面中出现的次数来排 序。 (在Yahoo! 中国中搜索时,所得结果是基于类目 名称、网站名称、网站描述以及网址的匹配来显 示的。)
15
16
一、GOOGLE简介 Google是由两个斯坦福大学博士生Larry Page与Sergey Brin于1998年9月发明, Google Inc. 于1999年创立。2000年7月份, Google替代Inktomi成为Yahoo公司的搜索 引擎,同年9月份,Google成为中国网易公 司的搜索引擎。98年至今,GOOGLE已经 获得30多项业界大奖。
13
4、模糊检索
允许被检索信息和检索提问之间有一定的差异如数据库 采用的是“lung cancer treatment”标引,用户可以用 “treatment of lung cancer”查找出“lung cancer treatment”标引的信息。 5、概念检索 检索工具不仅可以检索包含具体词汇的检索结果,还可 以检索出包含那些与该检索词汇同属一类概念词汇的结 果。 如检索“elderly people” 会同时检索“senior citizens”、”retired people”因为计算机判断出这单个词组 属于同一个概念。
22
例:查阅天龙八部具体是哪八部。 分析:如果光用“天龙八部”做关键字,搜索结果有 26,500项,而且排前列的主要与金庸的小说《天龙八 部》相关,很难找到所需要的资讯。可以用两个方法 减少无关结果。 1,如果你知道八部中的某一部,比如阿修罗,增加 “阿修罗”关键字,搜索结果就只有995项,可以直 接找到全部八部,“天龙八部 阿修罗”。 2,如果你不知道八部中的任何一部,但知道这与佛 教相关,可以排除与金庸小说相关的记录,查询结果 为1,010项,可以迅速找到需要的资料,“天龙八部 佛教 -金庸”。
18
三、基本搜索 GOOGLE的基本搜索语法:+,-,OR GOOGLE无需用明文的“+”来表示逻辑“与”操作, 只要空格就可以了。 示例:搜索所有包含关键词 “易筋经”和“吸星大法”的中文网页 搜索:“易筋经 吸星大法” 结果:已搜索有关易筋经 吸星大法的中文(简体)网 页。共约有988项查询结果,这是第1-10项。搜索用 时0.30秒。 注意:文章中搜索语法外面的引号仅起引用作用, 不能带入搜索栏内。
24
示例:搜索包含“long long ago”字串的页 面。 搜索:“"long long ago"” 结果:已向英特网搜索"long long ago". 共 约有24,600项查询结果,这是第1-10项。 搜索用时1.23秒。
25
注意:GOOGLE对中文句子作智能化处理, 会自动把句子分割成词语作为关键词。 比如,搜索包含“啊 我的太阳”这样句 子,“"啊 我的太阳"”,并没有搜到完 全匹配的结果,但是,GOOGLE以“啊”、 “我的”、“太阳”等词语为关键词, 给出了符合诸如“啊,我的太阳”这样 的结果。
8
3、不同用法: 由于存储和展现网络内容的方式迥异,您可以用 目录和搜索引擎作不同的事情。 如果您要寻找一个特定网站,也就是说,您知道 搜寻目标的名称,可以使用目录。如果您想找一 个相同主题的所有网站,那么用目录就非常好。 (Yahoo! 中国目录能列出您能想到的主题的所有 网站。)
9
Yahoo! 中国在搜索页面上,目录和搜索引擎 的搜索结果都会给出。您在用Yahoo! 中国搜 索时,会看见搜索结果页面上有个窄长的框框。 如果“相关网站”被高亮,说明您正在查看包 含在雅虎目录中的网站。如果“相关网页”被 高亮,说明您在查看包含在Google搜索引擎里 面的网页。
5
搜索引擎的分类
1、分类目录型:专业人员将网上个站点按主题内 容组成的等级结构,查找时按照大类逐渐向下查 找. 2、搜索引擎型:包括数据的采集、标引、组织和 数据的检索。 分类目录和搜索引擎的区别:分类目录保存的是 网站的站名、网址、和内容提要;搜索引擎保存 的是个网站每一个网页的全部内容。分类目录中 分类是网站的分类,而搜索引擎中的分类是网页 的分类。
2
spider ----收集数据 Indexer ----建立索引 Searcher----进行搜索
3
第一代搜索引擎 门户成为第一代搜索引擎的终点 Altavista(www.altavista.com)
Infoseek(www.infoseek.com)
Excite(www.excite.com)
10
按检索内容划分
综合性 专题性 特殊性检索工具 按检索工具的数量划分 集合型:将一个检索请求传给许多单独 型搜索引擎去执行,然后将结果返回。 单独型:有自己独立的数据库。
11
检索功能
一、基本检索功能 1、布尔检索(and 、or 、not)有些检索工具省 略 了布尔逻辑检索词,用其它形式代替, 如match all terms表示and;match any terms表示any. 2、+/-检索:+号表示and 的意思;-号表示 not 的意思。 3、截词检索包括“*,?” 4、短语检索:用“ ”将一个此作为短语检索如 “先天性心脏病” 5、区分大小写检索:可以用开查找某些专用名词
21
示例:搜索包含布兰妮“Britney”或者披头士 “Beatles”、或者两者均有的中文网页。 搜索:“britney OR beatles” 结果:已搜索有关beatles OR britney的中文(简体) 网页。共约有19,800项查询结果,这是第1-10项。 搜索用时0.35秒。 搜索:“布兰妮 OR 披头士” 结果:找不到和您的查询-布兰妮 OR 披头士-相符 的网页。 “+”和“-”的作用有的时候是相同的,都是为了 缩小搜索结果的范围,提高查询结果命中率。
29
示例:搜索包含“金庸”和“古龙”的中文新浪 网站页面, 搜索:“金庸 古龙 site:sina.com.cn” 结果:已在sina.com.cn搜索有关金庸 古龙的中 文(简体)网页。共约有722项查询结果,这是第110项。搜索用时0.34秒。 注意:site后的冒号为英文字符,而且,冒号后 不能有空格,否则,“site:”将被作为一个搜索 的关键字。此外,网站域名不能有“http”以及 “www”前缀,也不能有任何“/”的目录后缀; 网站频道则只局限于“频道名.域名”方式,而不 能是“域名/频道名”方式。诸如“金庸 site:edu.sina.com.cn/1/”的语法是错误的。
26
GOOGLE对一些网路上出现频率极高的词(主要 是英文单词),如“i”、“com”,以及一些符号 如“*”、“.”等,作忽略处理,如果用户必须 要求关键字中包含这些常用词,就要用强制语法 “+”。 示例:搜索包含“Who am I ?”的网页。如果用 “"who am i ?"”,“Who”、“I”、“?”会被省略掉, 搜索将只用“am”作关键字,所以应该用强制搜 索。 搜索:“"who am +i"” 结果:已向英特网搜索"who am +i". 共约有 310,000项查询结果,这是第1-10项。搜索用时 0.30秒。 注意:英文符号无法成为搜索关键字,加强制也 不行。
12
高级检索
1、字段检索:将检索范围限定在某一指定的字 段,如title(t);url;link(链接点文字);text(网页的 正文);domain(检索包含特定域名的网页);url(u)。 2、自然语言检索:用户可以输入一句话进行检 索,检索系统根据禁用词表,取除无实质 意义的词,将剩下的词作为关键词进行检索。 3、相关信息反馈检索:查找与检索结果类似的 信息,在光盘检索时可以从检索结果中选取 与检索提问相关的词作为下一次检索的用词。 在网络检索时该检索功能是自动完成的如excite 的“search for more documents like this one”
搜索引擎
1
搜索引擎的核心技术
1、基于Robot的搜索引擎 利用一个Robot的程序自动访问Web站点提取站点上 的网页,并根据网页上的链接进一步提取其它网页。 2、基于目录的搜索引擎 目录的数据库是依靠专职编辑或志愿者建立起来的, 把站点的URL和描述放在一个类中,当用户查询某个关 键词时搜索软件只在这些描述中进行搜索。 3、基于Meta的搜索引擎(Multiple search Engine) 本身并没有存放网页数据库,当用户查询一个关键 词时,将该关键词转化为其它搜索引擎接受的命令, 最后将整个结果返回给用户。