信息检索基本方法教案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章信息检索的基本方法
5.1 布尔逻辑检索Boolean logic
由GEORGE BOOLE 1815-1864提出,目前大多数搜索引擎都采用
与AND,*,&
或OR,+ ,︱
非NOT,—,!
逻辑“与”:用关系词AND表示(可写作“*”或“&”)。逻辑“与”表示AND 所连接的两个检索词必须同时在结果中出现才满足检索条件。
逻辑“或”:用关系词OR表示(可写作“+”或“︱”),逻辑“或”表示OR所连接的两个检索词只要有一个能出现在结果中就算满足了检索条件。
逻辑“非”:用关系词NOT表示(可写作“and not”“—”或“!”),逻辑“非”表示NOT后面的那个检索词一定不能在检索结果中出现。
例如:校庆AND 武汉大学
高等教育* 中国
湖南OR 湖北
移动学习+ 泛在学习
大学NOT 武汉大学
玉米–甜玉米
例如,用GFsoso检索,电子AND 读书笔记
电子读书笔记OR 读书笔记软件
5.2 位置限制检索
临近检索(Proximity Search)
以Dialog为例,收900多个数据库
(1)PRE/0,P/0 表示前后词序不能颠倒,中间不能插入其他词,但可以插入符号。
With, (W)
例如:Wuhan P/0 University
(2)PRE/#,P/# 表示前后词序不能颠倒,中间可插入一定数量的单词,即插入#个单词。
例如:Wuhan P/1 University
检索结果:Wuhan Medical University;
Wuhan Agriculture University;
Wuhan Technology University;
(3)NEAR/0,N/0 表示前后词序可以颠倒,但中间不能插入单词。
例如:Wuhan N/0 University
检索结果:Wuhan University;Wuhan – University;Wuhan ,University University, Wuhan; University-Wuhan; University Wuhan
(4)NEAR/#,N/# 表示前后词序可以颠倒,中间可以插入#个单词。
例如:Wuhan N/1 University
检索结果:Wuhan Medical University;
Wuhan Agriculture University;
Wuhan Technology University;
University of Wuhan;
University in Wuhan;
University at Wuhan
(5)(s)是sentence的缩写,A(s)B表示A和B必须同时出现在记录的同一个句子或短语中,但次序可以随意改变,A与B之间可以有若干个其他的词。
如:resin (s) ester (酯化树脂)
【练习】1、查找computer和game的间隔不大于100个单词的网页
2、检索“杂交玉米”的外文文献,要求两词间隔1个词,前后次序固定。hybrid、corn
答案:1、computer near/100 game
2、hybrid p/1 corn
hybrid w/1 corn
5.3 短语检索(精确检索)(Phrase Search Exact Search)
一般用“”表示。常见类型:
(1)机构名称检索:“Wuhan University”
“The World Intellectual Property Organization”
(2)人名检索:如“George W. Washington”
否则可能出现:George W. Bush spoke at Washington D.C about human rights (3)用于专有名称检索:如“information retrieval”
“sleepless in seattle”电影名
电子读书笔记与“电子读书笔记”的检索结果是不同的
5.4 截词检索(Truncation Wildcat)
是指在检索式中用专门的截词符号(一般用* 表示)表示检索词中的某一部分允许有一定的词形的变化。因此,检索词的不变部分加上由截词符号所代表的任何变化形式所构成的词汇都是合法检索词。
截词符号可以用*,?,位置可分左截断、右截断、中间截断、左右截断(1)左截断:*physics可检索出physics, bio physics, chemophysics, geo physics等。
*ology →Biology, geology, zoology
*ism, *graphy
(2)右截断:Comput*可检索出Comput, Computing,Computer,Computerized 等。
econom*,→economy; economic; economics; economical; economist; economize; ……
(3)中间截断wom*n 一个?代表一个字符,结果是woman, women
(4)左右截断*toxic* →cytotoxic; neurotoxicities; hepatoxicologic;…
表5-1 世界上主要数据库截词算符
5.5字段限制检索(Field Limiting)
通过对检索词出现的位置进行限定,以实现精确检索。
例如:中国有多少政府网站?无固定答案,因该题是一个动态变化的过程。
网站的构成规律,斜杠越多,层次越多。
例如:/teacher/teach-info.php
cn 国家或地区代码,美国没有us
edu 机构类型代码,如gov表示政府机构;org表示非盈利机构;com表示商业性机构
whu 表示机构名称
sim表示某机构下面的子机构,此处代表School of Information Management (1)网址字段:URL: Uniform Resource Locator
例如:url:结果有多少个记录,就有多少个政府网站(2)题名字段:title(ti): Wuhan University
(3)出版字段:PY >=2010 (PY=Publication Year)
(4)语种字段:la = english
(5)链接字段:link: (link用来查找链接到某个网站的所有的网页,如果某人有自己的博客或主页,通过这种方法可以看到它被链接的情况,从而了解到本人的知名度。此外,用link还可以查看其它网站的链接情况)(6)多字段组合检索