信息检索基本方法教案.doc
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
布尔逻辑检索 Boolean logic
由 GEORGE BOOLE 1815-1864提出,目前大多数搜索引擎都
采用与AND,*,&
或OR,+ ,︱
非 NOT,—, !
逻辑“与” : 用关系词 AND表示 ( 可写作“ * ”或“ &”) 。逻辑“与”表示 AND 所连接的两个检索词必须同时在结果中出现才满足检索条件。
逻辑“或” : 用关系词 OR表示 ( 可写作“ +”或“︱” ), 逻辑“或”表示 OR所连接的两个检索词只要有一个能出现在结果中就算满足了检索条件。
逻辑“非” : 用关系词 NOT表示 ( 可写作“ and not ”“ —”或“ ! ” ), 逻辑“非”表示 NOT后面的那个检索词一定不能在检索结果中出现。
例如:校庆AND武汉大学
高等教育 *中国
湖南 OR 湖北
移动学习 + 泛在学习
大学 NOT 武汉大学
玉米–甜玉米
例如,用 GFsoso检索,电子AND读书笔记
电子读书笔记 OR 读书笔记软件
位置限制检索
临近检索( Proximity Search)
以 Dialog 为例,收 900 多个数据库
(1)PRE/0, P/0表示前后词序不能颠倒,中间不能插入其他词,但可以插
入符号。
With,(W)
例如: Wuhan P/0 University
(2)PRE/#, P/#表示前后词序不能颠倒,中间可插入一定数量的单词,即
插入 #个单词。
例如: Wuhan P/1 University
检索结果:Wuhan Medical University ;
Wuhan Agriculture University ;
Wuhan Technology University ;
(3)NEAR/0,N/0表示前后词序可以颠倒,但中间不能插入单词。
例如:Wuhan N/0 University
检索结果: Wuhan University;Wuhan–University;Wuhan,University
University, Wuhan; University-Wuhan; University Wuhan
(4)NEAR/#,N/#表示前后词序可以颠倒,中间可以插入#个单词。
例如: Wuhan N/1 University
检索结果: Wuhan Medical University;
Wuhan Agriculture University;
Wuhan Technology University;
University of Wuhan;
University in Wuhan;
University at Wuhan
(5)(s)是 sentence 的缩写, A( s) B 表示 A 和 B 必须同时出现在记录的同一个句子或短语中,但次序可以随意改变, A 与 B 之间可以有若干个其他的词。
如: resin (s) ester (酯化树脂)
【练习】 1、查找 computer 和 game的间隔不大于 100 个单词的网页
2、检索“杂交玉米”的外文文献,要求两词间隔 1 个词,前后次序固
定。 hybrid 、corn
答案: 1、computer near/100 game
2、hybrid p/1 corn
hybrid w/1 corn
短语检索(精确检索)( Phrase Search Exact Search)
一般用“”表示。常见类型:
( 1)机构名称检索:“Wuhan University”
“The World Intellectual Property Organization”
(2)人名检索:如“ George W. Washington ”
否则可能出现: George W. Bush spoke at Washington about human rights (3)用于专有名称检索:如“ information retrieval”
“ sleepless in seattle”电影名
电子读书笔记与“电子读书笔记”的检索结果是不同的
截词检索( Truncation Wildcat)
是指在检索式中用专门的截词符号 ( 一般用 * 表示 ) 表示检索词中的某一部分
允许有一定的词形的变化。因此,检索词的不变部分加上由截词符号所代表的任
何变化形式所构成的词汇都是合法检索词。
截词符号可以用 * ,,位置可分左截断、右截断、中间截断、左右截断
(1)左截断:*physics可检索出physics,bio physics, chemophysics, geo physics 等。
*ology → Biology, geology, zoology
*ism, *graphy
(2)右截断:Comput*可检索出 Comput, Computing,Computer,Computerized 等。
econom*,→ economy; economic; economics; economical;economist; economize;
(3)中间截断 wom*n 一个代表一个字符,结果是woman, women
(4)左右截断*toxic*→cytotoxic;neurotoxicities; hepatoxicologic;
表 5-1世界上主要数据库截词算符