第二讲 信息检索策略(2)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
11
12
13
三种逻辑关系图
14
注意
布尔逻辑的运算可以进行同类项的合并, 如:A*B+A*C=A*(B+C) 例如:毒品*法律+毒品*法规=毒品*(法律+ 法规) 在使用布尔逻辑时,必须注意以下几条交 换规则: A*B=B*A:毒品*法律=法律*毒品 A+B=B+A:法律+法规=法规+法律 A-B≠B-A:云南民族-旅游≠旅游-云南民 族
52
例:论童年经验对川端康成文学创作的影响
举例:检索结果珠形增长检索策略
积木型→一篇重要切题文献:论川端康成的童年经验对其小说创 作的影响 检索评价:文献太少,需扩检 • 改善检索策略——减少不必要的词汇:①童年 川端→增加 文献:川端康成的少女情结 • 改善检索策略——增加检索词:所谓童年经验,“是指一个 人在童年(包括从幼年到少年) 的生活中所获得的心理体验 的总和,包括儿童时的各种感受、印象、记忆、情感、知识、 意志等。” (【1】 童庆炳,程正民. 文艺心理学教程 [M] . 北京:高等教育出版社, 2001.)这里的童年经验绝 不等同于单纯的童年经历,而是指经历后有所收获和让人回 味的那部分内容,更确切的叫法应该是“童年体验”:幼年 少年 童年 儿童 川端→增加文献:川端作品的儿童形象 • 改善检索策略——改变检索字段(题名-摘要) →增加文 献:余华与川端康成比较研究
47
检索式举例 课题:“唐诗宋词研究”(维普)
((任意字段=唐*诗)+(任意字段=宋*词))*核心 期刊*Year=2008-2008
课题:“电子商务中的税法研究”(Ebsco)
KY((electronic w commerce OR e-commerce) AND tax w law)
“information share”
=information w share
information share
32
33
34
课题:《论语》动词配价研究
35
比较:
36
比较:
37
5、优先算符:( ) 对于一个复杂的逻辑检索式,检索系统的 处理是从左向右进行的(或按照NOT、AND、 OR的顺序进行运算)。在有括号的情况下, 先执行括号内的运算;有多层括号时,先 执行最内层括号中的运算,逐层向外进行 (一般只允许嵌套2-3层) 注意:英文数据库要求用英文状态,维普 要求中文半角输入状态,不认可全角黑体 的括号
(w)/(wn)/(nw);(n)/(nN); pre;ADJ
16
邻近位臵检索:w/with X w Y (X后面紧接着Y,中间只能出现一个 空格或标点符号) X wN Y (X后面紧接着Y,而且X和Y之间最 多只能有N个词)
例:tax w8 reform(Ebsco) tax pre/8 reform(proquest)
3
1、布尔逻辑检索(Boolean Logical) 就是用布尔逻辑算符将检索词、短语或代 码进行逻辑组配,指定文献的命中条件和 组配次序,凡符合逻辑组配所规定条件的 为命中文献,否则为非命中文献 逻辑算符主要有:逻辑与(And/*)、逻辑 或(Or/+)、逻辑非(And Not/Not/-)
4
逻辑与:并且/And/*/和
常用检索式为: A 并且 B A and B A * B A B(网络搜索引擎) 含义:检索词A和检索词B用“与”组配,表示检 出同时含有A、B两个检索词的记录 作用:此算符适于连接有限定关系或交叉关系的 词,能增强检索的专指性,使检索范围缩小,提 高检准率
5
6
38
39
40
比较:
41
42
6、字段揭示算符及限制算符 常用字段揭示算符:
KY(关键词) DE(规范的主题词) AB(文摘 字段) TI(题名) JN /SO (刊名) LA(语 言) PY(出版年) AU(作者) ID(自然词 汇)
限制算符
= (连接语种、出版时间、文摘号等) > (连接出版时间、文摘号等) < (连接出版时间、文摘号等)
17
18
19
20
(n)算符near X n Y (X靠着Y,可前可后) X nN Y (X和Y之间最多只能有N个词,X和Y 可前可后)。 例:comput* n2 techno*
21
22
将课题名称改写为检索式
检索关键词“中医药”-Chinese Traditional Medicine
25
26
27
模糊查询:
28
(2)中截断:
29
(3)左截断/前截断/后方一致
如:computer or macrocomputer or minicomputer = *computer
30
31
4、短语检索 使用引号组合关键词,可以将关键词或关 键词的组合作为一个字符串进行检索 如下列检索式检索到的结果大相径庭
• 论创伤性体验对川端康成创作的影响 • 试论川端康成传统美学思想之形成原因 • 何乃英(重要研究者):川端康成美学观的特点及其根源[J]. 外国 文学研究, 1989,(01))(具体论述了其孤儿遭遇、没落家世等对其 美学观的影响) • 蒋茂柏. 论川端康成的“悲美”[D]. 华中师范大学, 2006 . (其论文的第三部分为:悲美之心理根源,具体论述了他的“悲美” 之来源:孤儿情结、女性情结、死亡情绪等) • 解读宗教的终极关怀
traditional(n)Medicine (n)chinese
检索关键词 “Biblioteka 色污染”white pollution, white-pollution
white(W)pollution 或 white()pollution
Trends in alternative medicine use in the United States
7
逻辑或:或者/Or/+/,
常用检索式: A 或者 B A or B A+B A,B(搜索引擎) 含义:检索词A和检索词B用“或”组配,它表示 检出所有含有A词或者B词的记录 作用:此算符适于连接有同义关系或相关关系的 词,如同义词、近义词、相关词、上位词、下位 词等,扩大了检索范围,增加检索结果,提高查 全率(暗含去重的功能)
48
第二讲 信息检索策略(2)
信息及其类型 信息检索策略 -检索工具/检索系统 -检索方法 -检索途径 -检索技术 -检索策略*
49
信息检索策略
为了满足自己的信息需求,学术研究人员试图充 分而准确地表达认识到的信息需求,于是,产生 了检索提问(Request) 所谓检索策略,就是在分析检索提问的基础上, 确定检索的用词,并明确检索词之间的逻辑关系、 需检索的工具和系统,通过某些检索途径试检, 并根据得到的反馈进行调整,使检索结果体现用 户目标的整个计划过程 检索提问表达式(Query,即检索式),其实质是检 索策略的一种直观表达形式 信息检索的过程是信息需求集合中的构成元素之 一——检索提问表达式与信息集合的匹配过程
每一个数据库提供的限制检索功能不同
维普:同义词、期刊范围、年限 …… 43
44
45
46
检索式
检索式就是对检索的基本要求的表达式, 是通过逻辑算符、位臵算符、截词算符、 优先算符等把表达主题概念的各检索单元 组配连接起来成为既能表达主题内容,又 能为机器识别和执行的命令形式 最简单的检索式可以是一个词、一个字母、 一个数字或符号
24
(1)右截断/前方一致 截去某个词的尾部,使词的前方一致,也 称前方一致检索 截词符:
*——无限截词符,代表零个或多个字符 $——代表零个或一个字符 ?——只代表一个字符 #,+, %
注意:至少键入一个词的前3个字符(英 文),例:geolog*=geological or geologic or geologist or geologize or geology
信息检索与利用
主讲人 潘定红
20111011
第二讲 信息检索策略(2)
信息及其类型 信息检索策略 -检索工具/检索系统 -检索方法 -检索途径 -检索技术 -检索策略*
2
计算机信息检索技术
计算机检索过程中,为保证检索结果准确全面、 经济高效,各计算机检索系统均为用户提供了多 种不同的检索技术,其中使用最普遍的就是布尔 逻辑检索、截词检索和位臵检索 这几种检索技术是在各类机检系统中常用的,但 由于不同的机检系统使用不同的检索软件,所支 持的检索技术不同、采用的检索算符也不同,因 此实际检索时,应注意查看所用检索系统的说明
50
人们也许能描述自己就某一问题知道 些什么,却难以描述还应知道什么。 描述知识状态固有的困难,使提交给 信息检索系统的检索式相对于知识异 常状态或信息需求只是近似和不完美 的。
——英国情报学家N.J.Belkin
51
联机检索策略的三种类型
积木型:把用户的检索请求或检索课题剖析成若干个不同的概念面, 先分别对这几个概念面进行检索,并在每个概念面中尽可能和多地的 列举相关词、同义词、近义词,并用布尔算符连接成一个总检索公式, 类似把各个积木块拼成图案 能提供比较明确的检索逻辑过程,容易理解和执行,还可部分或 全部地用作保留检索 检索结果珠形增长:从已知的关于检索课题的少数几个专指词开始检 索,以便至少检出一篇命中文献或一条相关信息,然后审阅这批文献 或信息条目,从中选出一些新的相关检索词,补充到检索式中。这些 词加入到检索式之后,就能查出其他新的命中结果,不断重复上述过 程,直到找不到其他适合包含于检索式的附加词为止,或者已经得到 了数量适宜的命中结果 具有很强的人机交互性,可以使检索式以比较生动的方式生成并 得到不断丰富 逐次分馏型:先确定一个相当大的、范围较广的检索初始对象集合, 然后提高检索的专指度,得到一个较小的命中结果集合;继续提高检 索式的专指度,一步一步缩小命中结果集合,直到得到数量适宜、用 户满意的结果 逐次分馏策略的特点使检索操作比较主动,漏检较少
例:论童年经验对川端康成文学创作的影响
检索结果珠形增长→从相关文献《论川端康成的童年经验 对其小说创作的影响》开始,不断扩大检索结果,人工 选取相关文献: 文艺心理学教程(来自参考文献) 论川端康成的物哀与幽玄——以《 伊豆的舞女》 为例(来自作者 检索) 以下来自关键词检索:川端康成 童年经验 孤儿根性 缺失性经验
15
2、位臵检索
是在检索词之间使用位臵算符(也称邻近算符 Adjacent Operators),用来规定算符两边的检索 词出现在记录中的位臵,从而获得不仅包含有指 定检索词而且这些词在记录中的位臵也符合特定 要求的记录 这种方法能够提高检索的准确性,当检索的概念 要用词组表达,或者要求两个词在记录中位臵相 邻/相连时,可使用位臵算符 常用位臵算符:
8
9
10
逻辑非:不包含/Not/常用检索式: A 不包含 B A not B A – B(搜索引擎) 含义:检索词A和检索词B用“非”组配,它表示 检出含有A词,但同时不含B词的记录 作用:此运算适于排除那些含有某个指定检索词 的记录。和逻辑“与”运算的作用类似,可以缩 小检索范围,增强检索的准确性。但如果使用不 当,将会排除有用文献,从而导致漏检 运用:通过检索结果分析,找出不相干信息的共 同特征,使用“逻辑非”语法排除
trends(1w)alternative()medicine ()use(2w)United()States nanotube、nano tube、nano-tube Nanotube or nano()tube
23
3、截词检索(Truncation)
是指用给定的词干做检索词,查找含有该词干的 全部检索词的记录,也称词干检索或字符屏蔽检 索 名词的单复数形式,词的不同拼写法,词的前缀 或后缀变化,模糊查询时,均可采用此方法 可以起到扩大检索范围,提高查全率,减少检索 词的输入量,节省检索时间,简化检索过程,降 低检索费用等作用 截词的方式:按截断部位可分为右截断、左截断、 中间截断、复合截断等;按截断长度可以分为有 限截断(一个截词符只代表一个字符)和无限截 断(一个截词符可代表多个字符)