第五章 网络信息检索
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 5)site:对搜索的网站进行限制. "site"表示搜索结果局限于某个具体网站或者网站频道, 例如:想搜索中文教育科研网站(edu.cn)上关于搜索引擎技巧 的页面,检索式为:搜索引擎 技巧 site:edu.cn。 • 6)filetype:在某一类文件中查找信息. 例如:想搜索几个资产负债表的Office文档,检索式为:资产负 债表 filetype:doc OR filetype:xls OR filetype:ppt。 • 7)inurl:搜索的关键字包含在URL链接中。 INURL语法通常能提供非常精确的专题资料。 例如:想查找MIDI曲“沧海一声笑”,检索式为:inurl:midi “沧海一声笑”。 注意:“inurl:”后面不能有空格,Google也不对URL符号如“/”进 行搜索。Google会把“cgi.bin/phf"中的"/"当成空格处理。
个人年终总结 filetype:doc
• 4)inurl:限定在URL链接中搜索。 网页url中的某些信息,常常有某种有价值的含义,用 户可通过对搜索结果的url做某种限定来获得良好的 效果。(URL(Uniform Resoure Locator:统一资源 定位器)是WWW页的地址,即常说的网址) • 使用的方式是用“inurl:”,后跟需要在url中出现的 关键词。 • 例如,找关于photoshop的使用技巧,检索式为:photos hop inurl:jiqiao,上面这个查询串中的"photoshop", 是可以出现在网页的任何位臵,而"jiqia"则必须出现 在网页url中。 • 注意inurl:语法和后面所跟的关键词不要有空格。
6.2.2 Google
1.概述 • GoogIe(谷歌)成立于1998年,创始人为美国斯坦福大学的两 位博士研究生Larry Page和Serger Brin。2000年7月,Google成 为Yahoo公司的搜索引擎,同年9月,Goog1e成为网易公司的搜索 引擎。GoogLe一词由英文单词“googol”变化而来,表示1后边带 有100个零的数字,使用这个词显示了GoogLe欲整合网上海量信 息的远大目标。Google被公认为全球最大的搜索引擎,目前可搜 索的网页高达80亿个之多,其中文网页约5亿多个。该公司已将 其网上搜索技术许可证颁发给30多个国家和地区的120多家公司。 不仅美国人喜欢搜索引擎Google,由于有中文版,现在越来越多 的中国人也同样喜欢使用Google。其搜索引擎技术还受到了中文 雅虎、网易等知名门户网站的青睐,大大提升了Google在国内的 影响力。 • 现在网址是http://www.google.com.hk
• 3)filetype:对搜索对象做格式限制。 使用方法是在filetype:后跟文件格式。 “filetype:”可以跟以下文件格式:DOC、PPT、P DF、TXT、RTF、ALL,其中,ALL表示搜索所有这 些文件类型。 例如:想搜索含有“个人年终总结”的doc文档, 检索式为:个人年终总结 filetype:doc。
• 7)书名号(《》):精确匹配, 书名号是百度独有的一个特殊查询语法。在其他搜索 引擎中,书名号会被忽略,而在百度,中文书名号是可被 查询的。加上书名号的查询词,有两层特殊功能,一是 书名号会出现在搜索结果中;二是被书名号扩起来的内 容,不会被拆分。 例如:搜索《手机》这部电影。 • 8)管道符号“|”:并行搜索, 可以使用"A|B"来搜索"或者包含词语A,或者包含词语B "的网页。百度会提供跟"|"前后任何字词相关的资料, 并把最相关的网页排在前列。
“OR” 有时用“|”表示,例如在百度搜索引擎的格式是“关键 词A | 关键词B”。
Google直接用“OR”表示,格式是“关键词A OR 关键词B”。
2 运算符——字段限定
① intitle title是网页的标题, intitle: A指所有搜索结果的title中都要包 含“关键词A”。 ② site site是限定在某类站点或某个网站内搜 索。 ③ filetype 限定文件类型。 用法是“关键词A filetype:文件格式后缀 名”。 ④ inurl url就是地址栏里的域名等。 inurl常见的使用方式是“关键词A inurl:英文 字符B”。
高级检索功能
相关搜索
二次检索
主要搜索语法
• 1)双引号:精确匹配。 输入的查询词很长,百度在经过分析后,给出的搜索 结果中的查询词,可能是拆分的。用户可以给查询词 加上双引号而尝试让百度不拆分查询词. • 2)intitle:关键词在网页标题中。 网页标题通常是对网页内容提纲辈领式的归纳。把 查询内容范围限定在网页标题中,有时能获得良好的 效果。 注意 intitle:和后面的关键词之间不要有空格。
搜索引擎
6.1 基本知识
6.2 典型的搜索引擎 6.3 搜索引擎的检索技巧
6.4 免费网络资源
6.1 基本知识
搜索引擎
搜索引擎实际是因特网上的一类网 站,其主要工作是自动搜寻WEB服务器的 信息,将信息进行分类、建立索引,然后
把索引的内容存放到数据库中。每一个搜
索引擎代表一个数据库,库中含有WEB页
搜索语法
• Google 的基本检索算符是:空格、减号和“OR” • 1)空格表示逻辑“与” 操作。 • 2)减号表示逻辑“非” 操作。例如想搜索所有包含“搜索 引擎”和“历史”但不含“文化”、“中国历史“和”世界 历史“的中文网页,检索式为:搜索引擎历史 一文化 一中国 历史 一世界历史。注意减号前必须留有空格。 • 3)OR 表示逻辑“或”操作。注意必须用大写的"OR",而不是 小写的"or"。 • 4)双引号(“”) 表示精确匹配,在查询到的文档中将作为一个 整体出现。这一方法在查找名言警句或专有名词时显得格外 有用。
பைடு நூலகம்
• 6)减号(一):不含特定关键字, 如果用户想除去包含特定关键词的网页,可以用减号语法。 例如:想搜索有关武侠小说《神雕侠侣》方面的内容而不希 望出现关于其电视剧方面的网页,检索式为:神雕侠侣 电视剧。 注意前一个关键词和减号之间必须有空格,否则减号会被 当成连字符处理,而失去减号语法功能。减号和后一个关 键词之间,有无空格均可。
网络信息检索方法
• 2.基于搜索引擎的网络信息资源检索
(1)目录型搜索引擎 也被称为网络资源指南,是浏览式的搜索引擎。由专业信息人员以人工 或半自动的方式搜集网络信息资源,按主题分类体系编制的可供浏览、检索 的等级结构式目录(网络链接列表),如雅虎、搜狐和网易等。 (2)索引型搜索引擎 基于关键词检索引擎也被称为机器人搜索引擎或关键词。搜索引擎是提 供给用户进行关键词、词组或自然语言检索的工具。用户提出检索要求,搜索 引擎代替用户在数据库中进行检索,并将检索结果提供给用户。 目前声望较高的搜索引擎有百度、Google等。 (3)元搜索引擎 将多个独立的搜索引擎集成到一起,提供统一的用户查询界面,将用户的 检索提问同事提交给多个独立搜索引擎,并检索其共享的多个独立搜索引擎的 数据库,经过聚合。去掉重复信息和排序等处理,将结果返回的网络检索工具。 如万纬搜索、索天下、元搜索和聚合搜索等。
神雕侠侣 –电视剧 –视频
金庸 site:edu.cn
Inurl:security windows 2000 site:microsoft.com
检索特色
•
•
• • •
(1)搜图功能。Google号称“互联网上最好的图片搜索工 具”,能搜索近4亿张图片。 (2)英文在线的活字典。不管是想查找某个词的意思还是 想了解某个词的用法,都可将Google作为一个在线活字典,进 入英语Google.输入想查找的单词。 (3)“手气不错”功能。智能化的“手气不错”功能,提供 可能最符合要求的网站,省时方便。 (4)出色的网页翻译。虽然目前只能支持有限的法语、拉 丁语、德语、葡萄牙语和西班牙语,但这种功能已经很难得了。 因为机器翻译是个很前沿的人工高智能课题。 (5)多语种检索。GoogIe允许以多种语言进行搜索,在操 作界面中提供多达15种语言选择,包括英语、主要欧洲国家语 言、日语、中文简繁体、朝鲜语等。同时还可以用10种东欧语 言进行查询。
5.2 典型的搜索引擎
1. 百度 2. Google. 3. 雅虎
6.2.1
百度
• 百度于1999年底成立于美国硅谷,创始人是北京 大学的两位毕业生李彦宏和徐勇。 • “百度”一词来源于辛弃疾脍炙人口的词句“众 里寻他干百度”,象征着百度对中文信息检索技 术执著的追求,旨在建立“简单,可依赖”的信 息获取方式。 • 目前世界上规模最大的中文搜索引擎,可供搜索 的中文网页己达8亿个之多,每天处理来自100多 个国家的超过1亿人次的搜索请求,其流量居全 球中文网站的首位,在全球排名居第5位。 • 1997年李彦宏申请“超链分析”专利。 • 其网址是http://www.baidu.com
• 5)site:限定搜索目标范围。 如果用户已经知道某个站点中有自己需要找的东西,可 以把搜索范围限定在这个站点中,提高查询效率。 使用的方式是在查询内容的后面,加上“site:站点域 名”。 例如输入检索式:mp3 播放器 site:Samsung.com.cn,搜 索结果为Samsung.com.cn这个网站上含有关键字“mp3 播放器”的网页。 注意"site:"后面跟的站点域名,不要带"http://"和"/" 符号;另外,site:和站点名之间不要带空格。
的URL地址以及其他网络资源。
1 运算符——逻辑运算符
搜索引擎基本上都支持“与”、“或”、“非”、括号或引 号等逻辑运算符号,不同的搜索引擎使用的逻辑符不完全相 同,常见的有“AND”、“OR”、“NOT” 以及“+”、“-”、 “&”、“^”等逻辑符号 “AND” 在中文搜索引擎都可以用空格代替; “NOT” 有时可以用减号代替,格式如“关键词A -关键词B”, 减号前面要有空格。
第6章 网络信息搜索
网络信息检索方法
• 1.直接浏览
• (1)网址查询:直接在浏览器地址栏中输人已知的网站或网页地址进行浏览,这 是一种最常见最有效的信息资源的获取方式。用户对自己侧重的研究领域或喜 爱的主题,会有意识地积累一些与此相关的网址,充分利用浏览器中的收藏夹 功能,保存和管理浏览过的感兴趣的网站或网页。 • (2)偶然发现:这是在网络上发现、检索信息的原始方法。即在日常的网络阅读、 漫游过程中、意外发现一些有用信息。这种方式的目的性不是很强,其不可预 见性、偶然性使检索过程具有某种探索宝藏的意味,也许会充满乐趣,但也可能 一无所获。 • (3))顺”链”而行:指用户在阅读超文本文档时,利用文档中的链接从一网页转 向另一相关网页。这种方法可以在很短的时间内获得大量相关信息,但也有可 能在”顺链而行”中偏离了检索目标,或迷失于网络信息空间中,而且找到合适 的检索起点也不容易。
• 8)intitle:搜索的关键字包含在网页标题中,网页标题就是H TML标记语言title中的部分。网页设计的一个原则就是要把 主页的关键内容用简洁的语言表示在网页标题中。因此,只查 询标题栏,通常也可以找到高相关率的专题页面。 • 9)link:搜索所有链接到某个URL地址的网页。可以得到一个 所有包含了某个指定URL的页面列表。例如想搜索所有含指向 华军软件园“www.newhua.com”链接的网页,检索式为:link:w ww.newhua.com。注意“link”不能与其他语法相混合操作,所 以“link:”后面即使有空格,也将被Goode忽略。 • 10)通配符(*):Google支持的通配符是星号(*),代表完整的 字词而不是单词中的某个或几个字母的键盘字符。例如,在Go ogle上搜索"flower * pots"将返回包含"flower filled pot s等词组的结果而不会返回包含词组"flowerful pots"的结果, 因为这些结果只是单词"flower"(花)的衍生词,不是完整的字 词。
• 主要搜索功能 百度主要提供网页搜索、新闻搜索、mp3搜 索、地图搜索、图片搜索、地区搜索等搜索功能, 百度可提供硬盘搜索功能,(百度的硬盘搜索功能 可在文件里进行搜索。) 百度还推出了针对手机用户的 PDA搜索功能和WAP搜索功能
常用网址
百度快照:慢或 不稳定,死链 接,网页较长 迅速定位,亮 度加标