文献检索课件-第二章
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.3 计算机检索的技术
2.3.1 布尔逻辑检索 2.3.2 截词检索 2.3.3 字段检索 2.3.4 位置检索 2.3.5 限制检索
2.3.1 布尔逻辑检索
布尔逻辑检索的定义 简称逻辑检索,是指利用逻辑“或”、“与”、 “非”等运算符将同一个字段内两个以上被检索 词进行逻辑组配,组成逻辑检索提问式进行的检 索。 布尔逻辑运算符有逻辑与(and)、逻辑或 (or)和逻辑非(not)。
2.3 计算机检索的技术
2.3.1 布尔逻辑检索 2.3.2 截词检索 2.3.3 字段检索 2.3.4 位置检索 2.3.5 限制检索
2.3.4 位置检索
概括地说,位置检索是一类针对自然语言文本中检索 词之间特定位置关系而进行的检索匹配技术。位置检索允 许用户使用自然语言作为检索入口,并可深入到原文的章、 节、段、句等文本范围内进行信息的查找和匹配。
超星数字图书馆
A——网络
B——发展
逻辑或(OR)
用逻辑“或”运算符将同一字段内两个被检 索词(A或B)进行组配并检索的检索方式称逻辑 “或”检索,其检索结果将包括所带有A或B两个 检索中任意一个检索词的记录。
同时包含检索词A或B
维普期刊资源
A——晶体生长
B——计算机模拟
中国知网
A——晶体生长
断。
2.3 计算机检索的技术
2.3.1 布尔逻辑检索 2.3.2 截词检索 2.3.3 字段检索 2.3.4 位置检索 2.3.5 限制检索
2.3.3 字段检索
通过限制检索词在命中结果记录中出现的位 置(主要指记录的不同字段位置)来实现的。从 本质上说,字段检索仍属于布尔检索的范畴,可 以认为是一种受限的布尔检索,其主要目的是为
截词检索的分类
截词检索有多种不同方式,一般按照截断的 位置来分,截词可分为后截断、前截断和中截断。 (1)后截词检索
即将截词符号置放在一个字符串右方,以表 示其右的有限或无限个字符不影响该字符串的检 索匹配。
Science Direct数据库
归纳起来,后截词主要使用在以下四个方面:
(1)词的单复数;
中国知网
A——晶体生长
B——计算机模拟
万方数据库
A——晶体生长
B——计算机模拟
2.3 计算机检索的技术
2.3.1 布尔逻辑检索 2.3.2 截词检索 2.3.3 字段检索 2.3.4 位置检索 2.3.5 限制检索
2.3.2 截词检索
所谓截词(Word Truncation),是指检索者 将检索词汇在他认为合适的地方截断;而截词检 索,则是指使用被截断的词汇进行检索匹配,并 认为凡满足这个词局部中所有字符(串)要求的 记录,都为命中结果。 目前,各检索系统中使用的截词符号互不相同, 也没有统一的规定,我们下面举例中使用“*”表 示不限截断,使用“?”表示有限截断。
(1)准确
关键词表述准确是获得良好检索结果的必要前提。提
高关键词的准确性,需要注意两个方面:一是避免错别字;
二是避免有歧义的字、词。
• 作为关键词同时应避免最常用的词;
• 即使需要使用这些常用词,需加以限定; • 对于简单、通俗,容易产生歧义的关键词,也应该加一些 限制性的修饰词; • 采用搜索语法组合关键词,也可有效地提高搜索质量。
(4)选择多个关键词 关键词数量太少,不能准确地限定检索范围, 可能会得出大量的检索结果;太多则可能不被搜 索引擎识别,也会影响搜索效果。 每个搜索引擎对关键词数量的要求和态度不 同。
(5)根据网页特征选择查询词
很多类型的网页都有某种相似的特征。 • 例子一,要去“黄山”旅游,想了解一下相关事宜早作准
常用位置运算符 按照两个检索词出现的顺序和距离,可以有多 种位置算符。对同一位置算符,检索系统不同, 规定的位置算符也不相同。以美国Dialog联机检 索系统使用的位置算符为例,介绍常用的几种位
置算符。
ProQust学位论文全文数据库属于之一。
(1)“(W)”算符
“W”是“with”的缩写。这个算符表示其两 侧的检索词必须紧密相连,除空格和标点符号外, 不得插入其他词或字母,两词的词序不可以颠倒。 “(W)”算符还可以使用其简略形式“()”。
第二章
文献检索的基本原理和技术
2.1 文献检索的原理
文献检索的原理是揭示如何将文献的有关特 征输入到检索系统中,又如何从检索系统中输出 的过程。 文献检索系统具有存储和检索两种只能,存 储是文献的输入过程,检索是文献的输出过程; 存储是检索的基础,检索是存储的目的。
2.2 检索词的选择 关键词的选择是信息搜集成败的关键,它影 响着检索结果的查准率、查全率和结果的排序等。 2.2.1 关键词的选择原则 (1)准确; (2)力求简练; (3)具有代表性; (4)选择多个关键词; (5)根据网页特征选择查询词。
(2)“(nW)”算符 “(nw)”是“nWord”的缩写,表示此算符 两侧的检索词之间允许插入n个词,顺序不可颠倒, 而且检索词之间不允许有其他的词或字母,但允 许有空格或连字符号。
(3)“(N)”算符 “N”是“near”的缩写。这个算符表示其两 侧的检索词必须紧密相连,除空格和标点符号外, 不得插入其他词或字母,两词的词序可以颠倒。
2.2.3 检索词的扩展方法
(1)基于同物异名的名称扩展法 • 寻找同一事物的学名和俗名、商品名和代号等; • 寻找同一事物的简称、全称、音译和意译等; • 寻找同一事物名称的近义词、反义词、相关词; • 如果是英语,寻找同一事物名词的单复数、不同
词性、英美语的不同形式。
(2)基于内容分析的概念扩展法 • 上位概念扩展法,分析检索对象的学科归属; • 下位概念扩展法,又称概念分析的树形展开法; • 隐含概念扩展法。
了提高检索的准确率。
字段分为主题字段和非主题字段。
字段类型
由于各检索系统提供的字段检索符号及字段 代码可能各不相同,在具体检索时,如果使用检 索命令方式,应认真阅读系统的说明文件,以便 选择合乎系统语法要求的符号或代码。
用户也可以通过菜单选择方式进行字段检索, 这样,只需要从检索界面上设置的字段列表中选 择相应字段位置就可以了,从而不必对系统的检 索语法进行大量记忆。
前截词和后截词一样,也存在隐含的“逻辑或” 运算。在有些情况下,前、后截词检索还可以结 合起来使用。
目前,检索系统中的前截词检索还是比较少 见的。
(3)中截词检索
中截词检索又称“通用字符法”或“内嵌字 符截断”,也有称为“屏蔽”的。这种截词是把 截词符号置放在一个检索词的中间,而不是左右 两侧。一般来说,中截词只允许检索词的有限截
B——计算机模拟
万方数据库
A——晶体生长
B——计算机模拟
超星数字图书馆
A——网络
B——发展
逻辑非(NOT)
用逻辑“非”运算符将同一字段内两个被检索 词(A非B)进行组配并检索的检索方式称逻辑 “非”检索,其检索结果将包括所有带A检索词而 不带B检索词的记录。
维普期刊资源
源自文库
A——晶体生长
B——计算机模拟
(2)年代; (3)作者; (4)同根词。 需要注意的是,使用后截词有可能检出无关 词汇。尤其是在使用无限后截词时,如果所选字 符串(或词干)太短,会造成大量误检,或是发 生溢出,导致检索失败。
(2)前截词检索 与后截词检索相对,前截词检索是将截词符 号置放在一个字符串左方,以表示其左的有限或 无限个字符不影响字符串的检索。
重庆中考数学试卷 filetype:doc
文献检索课件 filetype:ppt
在进行限制检索时,还需要考虑到以下几点:
(1)尽量使用“高级搜索”选项;
(2)细化查询; (3)网页快照; (4)搜索引擎的工具条;
高级搜索
细化查询
网页快照
搜索引擎的工具条
2.4 引文、跨库检索
(2)力求简练
目前的搜索引擎在处理自然语言方面的能力 不是很强,因此在提交搜索请求时,用户最好把 自己的想法提炼成简单的,而且与希望找到的信 息内容主题关联的查询词。
关键词一般不能选没有检索意义的助词、介
词、连词、形容词或副词等,而多选用名词、短 语。
(3)具有代表性
也就是说,关键词要能成为被查询事物的典 型标志,时间、人物、地点一般可以成为增加关 键词代表性的有效限制因素。 另外,多用专业术语和专业名词,专业术语 和专业名词作为关键词所检索出来的结果一般与 搜索的主题相关性很大。
• 2.4.1 引文检索 • 2.4.2 跨库检索
2.4.1 引文检索 引文检索,就是指对文章的参考文献进行的 检索,是从学术论文中引证关系入手进行检索的 一种方法,是利用被引文献来查找原文献的检索 途径。
来
源 文
献 施引著者 或来源作者
被连接的检索词必须同时出现在记录的同一句子
中(同一字段),不限制它们在此字段中的相对
词序,中间插入词的数量也不限。
2.3 计算机检索的技术
2.3.1 布尔逻辑检索 2.3.2 截词检索 2.3.3 字段检索 2.3.4 位置检索 2.3.5 限制检索
2.3.5 限制检索
为了提高查准率,将检索限制在网页(记录)的一个 特定部分或几个部分进行的检索,称之为范畴检索,也就 是限制检索。 (1)site:按网域搜索
(1)准确
关键词表述准确是获得良好检索结果的必要前提。提
高关键词的准确性,需要注意两个方面:一是避免错别字;
二是避免有歧义的字、词。
• 作为关键词同时应避免最常用的词;
• 即使需要使用这些常用词,需加以限定; • 对于简单、通俗,容易产生歧义的关键词,也应该加一些 限制性的修饰词; • 采用搜索语法组合关键词,也可有效地提高搜索质量。
逻辑与(and)
是将同一字段两个被检索词(A与B)进行组 配并检索的检索方式称逻辑“与”检索,其检索 结果将包括所有同时带有A和B两个检索词的记录。
同时包含检索词A和B
维普期刊数据库
A——晶体生长
B——计算机模拟
中国知网
A——晶体生长
B——计算机模拟
万方数据库
A——晶体生长
B——计算机模拟
(4)“(nN)”算符
“(nN)”算符表示允许两词插入最多为n个其他词, 包括实词和系统禁用词。允许词序发生颠倒。
(5)“(F)”算符
“F”算符是“field”的缩写。这个算符表示其两侧 的检索词必须在同一字段(例如同在题目字段或文摘字段) 中出现,词序不限,中间可插入任意检索词项。
(6)“(S)”算符 “(S)”算符是“sub-field/sentence”的 缩写。这个算符表示运算符的两侧的检索词只要 出现在记录的同一字段内(例如,在文摘中的一 个句子就是一个字段),此信息即被命中。要求
(1)准确
关键词表述准确是获得良好检索结果的必要前提。提
高关键词的准确性,需要注意两个方面:一是避免错别字;
二是避免有歧义的字、词。
• 作为关键词同时应避免最常用的词;
• 即使需要使用这些常用词,需加以限定; • 对于简单、通俗,容易产生歧义的关键词,也应该加一些 限制性的修饰词; • 采用搜索语法组合关键词,也可有效地提高搜索质量。
(2)inurl:按URL搜索
(3)intitle:按网页标题搜索 (4)link:按链接搜索 (5)filetype:按文件格式查找文件
关键字 site:网站域名
inurl:关键词1 关键词2
intitle:三峡文化
link:nuc.edu.cn
link:weixin.com
link:qq.com
备。
• 例子二,查找诗人李白的个人资料。
经常总结搜索实践中各类网页的特征现象,并应用到
查询词的选择中,就会使得搜索变得准确而高效。
2.2.2 关键词选择的技巧
(1)高频词法; (2)善用“搜索提示”; (3)巧用“相关搜索”; (4)搜索语法的灵活运用。
• • • • • •
科学膳食 营养科学 科学饮食 幼儿饮食营养 健康营养饮食 饮食卫生和营养
(1)准确
关键词表述准确是获得良好检索结果的必要前提。提
高关键词的准确性,需要注意两个方面:一是避免错别字;
二是避免有歧义的字、词。
• 作为关键词同时应避免最常用的词;
• 即使需要使用这些常用词,需加以限定; • 对于简单、通俗,容易产生歧义的关键词,也应该加一些 限制性的修饰词; • 采用搜索语法组合关键词,也可有效地提高搜索质量。