第三章 网络信息检索
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章网络信息检索
第一节网络信息检索的基本方法
1、布尔逻辑检索
逻辑检索是一种比较成熟、较为流行的检索技术。逻辑检索的基础是逻辑运算,逻辑运算中最常用的是布尔逻辑运算符,主要的运算符有:
(1)逻辑―与‖
逻辑―与‖用AND(或﹡)表示。检索词A、B若用逻辑―与‖相连,即A AND B(A*B),则表示同时含有这两个检索词才能被命中。
例如,要检索儿童教育的文献,检索逻辑式可表示为:child AND education
(2)逻辑―或‖
逻辑―或‖用OR(或+)表示。检索词A、B若用逻辑―或‖相连,即A OR B(A+B),则表示只要含有其中一个检索词或同时含有这两个检索词的文献都将被命中。
例如,要检索―计算机‖或―机器人‖方面的文献,检索逻辑式可表示为:computer OR robot. (3)逻辑―非‖
逻辑―非‖用NOT(AND NOT,BUT NOT)(或-)表示。检索词A、B若用―非‖相连,即A NOT B(A-B),则表示被检索文献在含有检索词A而不含有检索词B时才能被命中。
例如,要检索有关―能源‖方面的文献,但涉及―核能‖方面的文献不要,检索逻辑式可表示为:energy NOT nuclear(energy –nuclear)。
1、搜索引擎的定义
搜索引擎是提供给用户进行关键词、词组或自然语言检索的工具,简言之,搜索引擎就是一种在因特网上查找信息的工具。用户提出检索要求,搜索引擎代替用户在数据库中进行检索,并将检索结果反馈给用户。
搜索引擎一般都有固定的显示格式,内容详简程度不一,常常带有URL、题名、标题、关键词、摘要(文本描述摘录)、超链接文件大小、检索结果总数、相关度估计、评论等。搜索引擎的检索结果一般按查询的相关程度进行排列,最相关的通常排在最前面。
2、搜索引擎的常用检索方法
(1)简单搜索(simple search)
指输入一个单词(关键词),提交搜索引擎检索后反馈结果。它也叫单词搜索。这是最基本的检索方法。
(2)词组搜索(phrase search)
指输入两个单词以上的组(短语),提交搜索引擎检索并反馈结果。它也叫短语搜索。现有搜索引擎一般都约定把词组或短语放在引号―‖内。
(3)高级搜索(advanced search)
指用布尔逻辑组配方式检索或在高级搜索界面将检索策略输入检索框中进行检索。常用的逻辑运算为AND(与)、OR(或)、NOT(非)。恰当应用这些逻辑运算,可以使搜索结果非常精确。而且,可以用括号将搜索词组合起来,如[(火星)OR金星]AND探测]NOT(行星探测)。
此外,不少搜索引擎还支持加(+)、减(一)词操作,相当于逻辑与(AND)和逻辑非(NOT)。在搜索词前冠以加号―+‖可以限定搜索结果中必须包含的词汇,用减号―-‖则限定搜索结果不能包含的词汇。
3、搜索引擎的其他检索方法
(1)语句搜索(sentence search)
指输入任意自然语言文句,提交搜索引擎检索并反馈结果。这种方式也叫任意检索,实际上就是自然语言检索。
(2)目录搜索(catalog search)
指按搜索引擎提供的分类目录逐级检索。用户一般不需要输入检索词,而是按照检索系统所给的几种分类项目,选择类别进行搜索。它也叫分类搜索(classified search)。
4、常用搜索引擎介绍
网络搜索引擎数量不少,但常用的搜索引擎有:独立搜索引擎、元搜索引擎、目录式搜索引擎、FTP搜索引擎、Blog(博客)搜索引擎、答案搜索引擎、BT搜索引擎等。
第三节百度和Google介绍
一、百度()
(1)简单搜索
只需要在搜索框内输入需要查询的内容,敲回车键,或者鼠标点击搜索框右侧的百度一下按钮,就可以得到最符合查询需求的网页内容。
(2)词组(多个词语)搜索
输入多个词语搜索(不同字词之间用一个空格隔开),可以获得更精确的搜索结果。例如:想了解上海人民公园的相关信息,在搜索框中输入[上海人民公园] 获得的搜索效果会比输入[人民公园] 得到的结果更好。
(3)高级搜索
可以用高级搜索语法制定检索策略输入百度主页面的检索框中进行检索,也可以进入高级检索界面后将检索策略输入检索框中进行检索。
如搜神雕侠侣,希望是关于武侠小说方面的内容,而不要关于电视剧方面的网页。用高级语法编写检索式为神雕侠侣-电视剧或"神雕侠侣" -(电视剧)
3)专业文档搜索
百度支持对Office文档(包括Word、Excel、Powerpoint)、Adobe PDF文档、RTF 文档进行了全文搜索。
检索式为:查询词filetype:文档类型。
―Filetype:‖后可以跟以下文件格式:DOC、XLS、PPT、PDF、RTF、ALL。其中,ALL表示搜索所有这些文件类型。
例如,查找张五常关于交易费用方面的经济学论文。―交易费用张五常filetype:doc‖,您也可以通过百度文档搜索界面(),直接使用专业文档搜索功能。
4)高级搜索语法
①把搜索范围限定在网页标题中——intitle
网页标题通常是对网页内容提纲挈领式的归纳。
表达式为intitle:关键词
例如,找林青霞的写真,就可以这样查询:写真intitle:林青霞
注意,intitle:和后面的关键词之间,不要有空格。
②把搜索范围限定在特定站点中——site
有时候,你如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。
表达式为关键词site:站点域名
例如,天空网下载软件不错,就可以这样查询:msn site:
注意,―site:‖后面跟的站点域名,不要带―http://‖;另外,site:和站点名之间,不要带空格。
③把搜索范围限定在url链接中——inurl
网页url中的某些信息,常常有某种有价值的含义。
表达式为inurl:关键词
例如,找关于photoshop的使用技巧,可以这样查询:photoshop inurl:jiqiao
上面这个查询串中的―photoshop‖,是可以出现在网页的任何位置,而―jiqiao‖则必须出现在网页url中。
注意,inurl:语法和后面所跟的关键词,不要有空格。
④精确匹配——双引号和书名号
例如,搜索上海科技大学,如果不加双引号,搜索结果被拆分,效果不是很好,但加上双引号后,―上海科技大学‖,获得的结果就全是符合要求的了。