第二讲 网络信息检索基本方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

网络信息检索基本方法
【目的与要求】 掌握布尔逻辑检索等网络信息检索的基本技术。 熟悉网络信息检索的途径和步骤。
【重点】 布尔逻辑语言、邻近检索、截词检索
【难点】 邻近检索
影响信息检索质量的因素
信息资源本身的质量对信息检索的影响(鱼龙混杂,参差不齐) 检索软件对信息检索的影响(不同的搜索引擎,数据库系统) 用户水平对信息检索的影响
组成数据库的最小单位是记录,一条完整的记录中的每一个著录事项为字段。
一般来说,数据库的记录基本包括下列字段: 题名(TI,title)、 关键词(KW,keyword)、 主题词(DE, descriptor)、 文摘(AB,abstract)、 全文(FT, Full text)、 作者(AU,author)、 作者机构(CS,Coporate Source) 期刊名称(JN,Journal)、 出版国(CO,Country)、 出版年份(PY,Publication Year)、 语种 (LA,Language)
英语类
1. 听力特快 英语节目:空中美语、空中英语听力 2. 普特英语 3. 大耳朵英语网 每天都有听力更新,可以直接点击收听, 听英语广播时,在下面的原文可以划词,随时翻译, 网站会自动将所划得词加到生词本里。 每天的记单词、单词测试 4.旺旺英语
LOGO
第二讲
2010-9-13
我们要利用位置逻辑算符来限定检索词与检索词之间的位置关系,从而使检 索出的文献更确切地符合用户要求,提高查准率。
①(W)—WITH算符
表示两个检索词紧挨着,词序必须按此前后的顺序排列,顺序不能 颠倒,中间不能有其他词,但可以有空格和标点符号。也可以用() 表达式:A(W)B AB两词靠近,次序为A先B后。 举例:communication (w) satellite 或者 communication()satellite,只检索出communication satellite, communication - satellite的记录 需要特别提示的是: 词组检索与WITH算符有所不同,其间不允许有任何符号。例如: digital library,若用digital(w)library,检索结果中会出 现digital-library,而用“digital library”,则只会检出 digital library的记录。
④(nN)算符
表示两个检索词之间可以插入 n 个词并且词序可以颠倒 表达式:A(nN)B:AB两词靠近,次序可变,中间最多可加n 个词。
举例:information(1N)retrieval可检索出information retrieval , information and retrieval, retrieval of information的记录。 information(3N)retrieval,可检出information retrieval,retrieval information,retrieval of information,retrieval of law information,retrieval of Chinese law information等,retrieval和 information最多可插入3个词。
4.截词检索(truncation/wildcat)
截词检索又称部分一致检索,是指在检索标识中保留相同的部分, 用相应的截词符代替可变化部分。检索中,计算机会将所有含有相 同部分标识的记录全部检索出来。截词符用“?”或“*”标识。
截词检索是预防漏检,提高查全率,尤其适用于英语,常用于处理 词语的单复数,不同拼写方式,相同词根的近义词,以及动词的不 同形式等。
字段限制检索就是通过限制字段和限制字段的范围来缩小检索结 果,达到精确检索的方法。 检索方式主要有:限定字段检索和限定范围检索 (1)限定字段检索:将检索词限定在特定的字段中,一般有两种表达方式。
①前缀方式,将检索词放在所限定的字段代码之后,如用在著者(AU)、刊 名(JN)、出版年(PY)、语种(LA)等字段后, 例如:AU=Evans,A., LA=Chinese
运算优先级顺序为NOT、AND、OR,可以用括号“( 如A and (B or C),检索顺序为先B或C,然后再与A
)”改变它们的运算顺序。
逻辑算符举例
①查找关于“动物保护”的文献: “动物 AND 保护”
②查找有关冬虫夏草的文献: “冬虫夏草 or 冬虫草 or 虫草”
③查找关于能源方面的文章,但关于“核能”的不要: “energy not nuclear”(energy - nuclear) ④检索西红柿种植技术的相关文章: (西红柿+番茄)*(种植+栽培+培育)
③(N)(Near)算符
表示两个检索词为相邻关系,两个词之间不能插入任何词,但词序可 以颠倒。 表达式:A(N)B :AB两词靠近,次序可变。 举例:building (N) construction可检索出building– construction, construction building, constructionbuilding的记录
②后缀方式,将检索词放在字段代码之前,之后用字段限定符号:in 或/;如: Furniture/TI即家具一词出现在题目中。
(2)限定范围检索:是通过使用限定符来限制信息的检索范围,以达到 优化检索的方法。 不同的检索系统略有不同,常通过使用的有:“=、<= 、>=、<、 >、:” 等。 表达式:字段名=(<= 、>=、<、>、) 例如: PY>=1995 即限定出版年份为1995及以后的文献; PY=1996:2005即1996年至2005年的文章
⑤(F)——Field
(F)表示在此运算符两侧的检索词必须同时出现在文献记录的同 一字段内,如出现在篇名字段、文摘字段等,但两个词的前后顺 序不限,夹在两个词之间的词的个数也不限。
ຫໍສະໝຸດ Baidu
⑥(S)算符
(S)算符表示在此运算符两侧的检索词必须同时出现在 文献记录的子字段或同一段话中,两个词次序不限,中间 插入词的数量也不限。
②(nW) 算符
表示两个检索词之间插有n个词,但顺序不能颠倒。
表达式: A(nW)B AB两词靠近,次序为A先B后,中间最多 可加n个词。
举例:communication(2w)satellite,只检索出 communication satellite、communicationsatellite,communication through satellite、 communication on the satellite词组的记录。
网络信息检索的基本技术
网络信息检索 基本方法
网络信息检索的基本途径
网络信息检索基本步骤
信息检索过程的实质:
计算机将检索提 问词
MACTH
文献记录标引词
一、网络信息检索的基本技术
1.布尔逻辑检索(boolean logic)
逻辑检索是一种比较成熟、较为流行的检索技术,现代的情报检索系统大多都采用这种技术。 逻辑检索的基础是逻辑运算,逻辑运算中最常用的是布尔逻辑运算符(boolean logic operator), 它的作用主要是利用布尔逻辑算符将一些具有简单的、表达某一主题概念的检索单元(或检索 标识)组配成一个具有复杂概念的检索式,以满足课题检索的要求。 主要运算符有 “和(and,*)”、“或(or,+)”、“非(not,-)”。
思考:比较3个检索式检索结果的不同
“Information retrieval”/TI
Information AND retrieval /TI
Information(F) retrieval
不仅要求在题名字段中,还要求两者必须与输入的形式完全相同 只要求在题名字段中,而不严格限制它们是短语,如“information organization methods for effective retrieval” 只需要在同一个字段中
IEEE可以为学生提供什么?
•需要参加IEEE国际会议的支助 •需要IEEE学生奖学金 •想参加IEEE论文竞赛或者创意大赛 •想和IEEE Fellow交流 •…
IEEE.ORG学生奖学金与竞赛信息
http://ieee.org/web/membership/students/scholarshipsaward scontests/SAG_homepage.html
特别提示:“*”、“?”的比较 “*”,无限截词,代表0-无数个字符如regard*, 代表 regard, regarding, regardless等。 “?”,有限截词,代表0-1个字符,如library?,library, librarys。
5.字段限制检索技术(field limiting)
2.词组检索(phrase search)
通常在所检索词上加“”对所检索词视为词组处理,表示检索与“”内形 式完全相同的短语,以提高检索的精度和准确度,因而也有人称之为“精 确检索”(exact search)。 例如:“动物保护”,表示动物保护是个词组,检索结果动物和保护不能 分开。若不加“”,检索结果可以是动物保护、动物多样性保护、动物栖 息地保护、动物资源保护等形式。
3. 邻近检索(proximity search)
又称为位置算符检索,用来规定检索系统原始记录中的检索词之间的特 定位置关系
文献记录中词语的相对 次序或位置不同,所表 达的意思可能不同
同样一个检索表达式 中词语的相对次序不 同,其表达的检索意 图也不一样 Eg:“粉末的 掺合与颜料包 装”
布尔逻辑运算符和词组 检索虽然能有效的扩大 和缩小检索范围,但 无法对检索词之间的 相对位置进行限制
常用的截词法
有左截、右截、中间截断和中间屏蔽4种形式,而目前用的较多的 是以下三种形式:
(1)前截词(左截)——同根词检索 *ology
(2)中间截词——用于中美拼写不同和单复数 输入wom?n,可检出woman,women colo?r 可检出的词为colour(英音)、color(美音)。 (3)后截词(词尾截词) Cat?,检出cat, cats(有限截断)——用于单复数 Cat*,检出Cat,Cats,catalog,catalogue, category……(无限截断)——同根词检索
Science Direct用双引号“”表示宽松短语检索,标点符号、连 字符、停用字等会被自动忽略,如检索式为“heart attack”会 检出包含“heart attack”和“heart-attack”的检索结果。
在该数据库中,精确检索是用“{}”表示。
邻近检索有时又被称为位置算符检索。 因此,我们要利用位置逻辑算符来限定检索词与检索词之间的位置关系, 从而使检索出的文献更确切地符合用户要求,提高查准率。 在不同的检索系统中,所采用的位置算符是不同的,功能也有差异。下面 以全球最大的联机检索系统Dialog为例来说明位置算符的用法,OCLC也 是如此。
Exercise1:
查找电子图书的标准 (Digital book OR electronic book OR e-book OR online book) AND standard
Goolge的默认运算符就是逻辑“与”,用空格、 “AND”和“+”都表示,而逻辑“非”只能用“-”而 不能用“NOT”表示。 百度的默认运算符是逻辑“或”,空格、“OR”均表 示逻辑“或”。 在ISI Web of Knowledge平台上,逻辑算符 “AND”、“NOT”、“OR”不区分大小写,但不支 持以“*”、“-”、“+”代替。 在Science Direct中,逻辑“非”是用“AND NOT” 表示,而不是我们常用的“NOT”。
相关文档
最新文档