信息检索的基本技巧与方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
检索式: A OR B 或 A+B
含 义: 数据库记录中任何一条记录,只要含有“A” 或“B”中任何一个检索词即为命中的文献。
提高检全率,扩大检索范围
如:“微机+电脑+计算机”
“微机 or 电脑 or 计算机”
AB
走近检索
走近检索
逻辑“非”
运算符:NOT 或 - 检索式: A NOT B或A -B 在含检索词A的记录中,去掉含检索词B的记录 例如:“经济危机” –亚洲
“新的力量源泉不是少数人手中的金钱,而是多数人
手中的信息。”
-----约翰. 奈斯比特
信息检索的基本技巧与方法
主 讲: 何艳平 Email: hyp@
走近检索
信息检索在科研中的作用
避免重复研究,促进科技创新(查全) 节省科研时间,提高工作效率(查准) 提高自身的信息素养
走近检索
信息检索在科研中的作用
据美国科学基金会统计,一个科研人员花费在查找和消化科 技资料上的时间需占全部科研时间的51%,计划思考占8% ,实验研究占32%,书面总结占9%。由上述统计数字可以 看出,科研人员花费在科技出版物上的时间为全部科研时间 的60%。 ——美国科学基金会NSF(National Science Foundation):
例如: 检索式:educat?? 表示截断处有0-2个字母变化,可检出educate、
educated、educator
走37近检索
无限截词
例如: 检索式:comput*
放在词的末尾,不限制被截断的 字符数量,一个符号表示任意多 个字符。
走近检索
检索字段符(字段代 码)是对检索词出现 的字段范围(检索点 )进行限定,执行时 ,机器只对指定的字 段进行检索,经常应 用于检索结果的调整 。
唱片、录音(像) 带、幻灯片、电 影片等
机读型
(电子型)
光电磁 介质
存储密度高;存取速度快;查 找方便;信息共享性好、易复 制
设备投入较大,短期 内难以更新电子图书 电子期刊 联机、网络 Nhomakorabea光盘数据库
走近检索
按加工深度划分
零次文献
是指未以公开形式进入社会流通使用的实验记录、会议 记录、内部档案、论文草稿、设计草稿等。具有信息内容新颖、 不公开交流、难以获得、不成熟、不定型的特点。
期刊、图书
美缩国微斯型坦福感料大光学材胡存便成佛本储于研低密保廉究度存高和中;传心体递积;珍小生藏产、的速重度量蒋快轻介;、
需要借助阅读机才能 阅读,设备投资较大
石日记的缩微胶卷样品
缩微胶卷 缩微胶片
声像型
(视听型资料)
光学磁 性材料
存储信息密度高,内容直观, 表达力强,易被接受和理解
需要专门设备进行制 作和阅读
三
逻辑与, AND
种 类
逻辑或, OR
型
逻辑非, NOT
走近检索
逻辑“与”
运算符:AND 或 * 检索式: A AND B 或 A*B 含 义:检出的信息中必须同时含有“A”和“B”两 个检索词。 提高检准率,增强检索专指性。
如:检索“汇率风险管理”方 面的文献
AB
走近检索
走近检索
逻辑“或”
运算符:OR 或 +
篇名=电阻焊 *汽车*生产
电阻焊 F 点焊
缝焊 凸焊 对焊
篇名=(电阻焊+点焊+缝焊+凸焊+对焊) *(汽车+机动车+客车+轿车)*生产
走近检索
3.注意外来词的译写变化
波尔兹曼 54
欧几里德 290
玻耳兹曼 109
欧几里得 197
玻尔兹曼 214
欧基里德
5
波耳兹曼 12
欧几理德
3
波尔茨曼
2
欧氏几何 135
一般在使用网上搜索引擎进行检索时,可以用双 引号“”,把输入的检索词括起来,就可以达到 “完全一致”的检索效果。
走近检索
其它检索技术
嵌套检索技术 大小写敏感 禁用词 扩检 缩检
优先级运算: ( )>NOT>AND>OR
包括介词、冠词、代词、 连接词、某些形容词或副 词等,如a、and、for、 in 、 she 、 should 、 the 、 well、only
走近检索
按截词的位置划分
前截断 中截断 后截断
按截词的数量划分:
有限截断 无限截断
注:不同的数据库所用的截词符不一样,使用应先查一下各数 据库的帮助加以确认。
走近检索
•前截段
表示其左边不管截去有限或无限个字符, 只要数据库中具有与截词符号后面部分字 符串相同的检索词的信息,即为命中信息。
如: 检索式:?computer
IV、限制检索
常见的检索字段:
题名(Title,TI) 著者(Author,AU) 文摘(Abstract,AB) 关键词(Keyword,KW) 文 献 类 型 (Document Type,DT) 主题词(DE) 刊名(Journal,JN) 语种(Language,LA) 全文(Full-text)等
走近检索
5.少用或不用对课题意义不大的词
不用词义泛指过大的词,如展望、趋势、现状、近况、动态, 应用、作用、利用、用途、用法,开发、研究、影响、效率。 少用词义延伸过大的词,若一定要用,必须将它们尽可能全地 用“或”组合起来,以免漏检,如:
“制造”——制备(preparation)、生产 (manufacture)、合成(synthesis)、加工、工艺;
一次文献 (原始文献):
是科研人员根据科研成果撰写的文献,具有创造性,新颖性, 先进性,是文献检索的主要对象。
走近检索
二次文献: (参考性文献) 对一次文献进行加工,归纳,简化,将其组织成为 系统的、便于查找的资料,也就是目录,题录,文 摘,索引等检索工具,以提供一次文献的线索。
走近检索
三次文献(工具书): 是根据一定的需要与目的对一次文献、二
走近检索
前缀式
前缀式是将前缀代码放在检索词之 前,用=号连接,常见的前缀代码 “:”、“=”等
如:查找李光耀发表在湖南大学学报上的文献
AU=李光耀 * JN=湖南大学学报
走近检索
举例
检索式:
(minicomputer/kw OR personal computer/ TI) AND PY=2008 AND LA=English
这个检索式所表达的检索要求是:查找2008年出版的关于微电脑或者 个人电脑的英文文献,并要求“微电脑”一词在命中文献的关键词字 段,“个人电脑”一词在命中文献的题名字段出现。
在互联网搜索引擎中,限定字段也是常用的语法。例如, “filetype:”表示在某种文件类型(如doc、pdf)中查找资料。 详细的介绍请参见搜索引擎部分。
Boltzmann 659
Euclid
351
注意:上例中用英文名检索出的中文文献最多!
走近检索
4.注意检索词的词义变化
汉词与英语等西方语言的词汇相比较: ◆ 汉词的字与词界线比较模糊,一个字也许就是一 个词,英语基本上没有这种现象。 ◆ 汉词无固定的词头、词尾和性、数的变化。而英 语构词时这种情况很多。 ◆ 汉语的构词一般与语义有关,一个词后加上一个 字就派生出另一个新的词,而英语的情况与此有很大 的不同
参考工具书:百 科全书、手册、
年鉴、指南等
走近检索
特种文献
• 科技报告 • 会议文献 • 专利文献 • 学位论文 • 标准文献 • 政府出版物 • 产品样本 • 技术档案等
特种文献 通常指那些出版 发行方式或获取 途径比较特殊的 文献。
走近检索
检索词的选择
检索词的定义与类型
定义:表达信息需求和检索课题内容的基本单元,也是与系统中有 关数据库进行匹配运算的基本单元,检索词选择洽当与否,直接 影响检索效果。 类型:常用的检索词包括表示主题的检索词(主题词\关键词\标题 词\叙词) ,表示作者的检索词,表示分类的检索词和表示特殊意义的 检索词(ISBN、ISSN、引文标引词等).
走近检索
文献信息检索的基本步骤
[学习目标] 掌握文献信息检索的基本步骤,并能运用
于实践。
信息检索步骤
确定检索方法:手工检索?计算机检
索?文选择献信信息源息(检检索索系统的)基本步骤
AB
走近检索
提高查全率 防止漏检的 有力手段
由于西文的构词特性:单复数形式 不一致、英美拼写不一致 、词干+ 前缀、词干+后缀。
II.通配符与截词符
截词检索是在词干的不同位 置添加截词符“?”、“*” 或 “ $” , 以 此 代 表 词 的 可 变部位,以检索一组概念相 关或同一词根的词,从而减 少相同词干的检索词的输入 数量,提高检全率的一种常 用检索方法。
走近检索
基本内容
文献的类型
信息检索步骤
检索词的选择
信息检索案例分析
信息检索基本技术
走近检索
文献的类型
文献的基本类型
✓ 按文献的载体形式 ✓ 按文献信息内容加工的深浅 ✓ 按文献的出版类型
走5近检索
根据载体材料、存储技术和传递方式的不同
类型
载体
特点
缺点
类型
印刷型
纸张
(纸型)
方便实用,直观性强
信息密度低,较笨重, 不便于加工、管理和 保存
走近检索
•中间截段
中间截词是在一词中间出现若干 个截词符号,表示可插入若干个 字符,只允许有限截词。
如: 检索式:analy?er
走近检索
走近检索
•后截段
是前方一致检索,又称右截断,截词符放 在被截词的右边,是最常用的截词检索技 术。 例如: 检索式: comput?
走36近检索
有限截段
放在词中间或末尾,限制被截断的 字符数量,一个符号表示一个字符。
走近检索
走近检索
字段代码符号:前缀式与后缀式
后缀式
后缀式是将字段代码放在检索词 之后,并用“/”号或“in”、 或“within”连接
如:
“ /TI”表示Title(篇名) “/AB”表示Abstract(文摘) “/KY”表示keyword(关键词) “ electron/ti” “ electron/ti,ab”
走近检索
检索词选择技巧
走近检索
1. 不忘全称与简称
项目名称:乙型病毒性肝炎的中医药研究
篇名=乙型病毒性肝炎*(中医药+中药) 乙型病毒性肝炎的同义词:
乙型肝炎 乙肝 HB
篇名=(乙型病毒性肝炎+乙型肝炎+乙肝+HB) *(中医药+中药)
走近检索
2.注意检索词的上下位类扩展 项目名称:电阻焊在汽车生产中的应用
次文献进行深度加工、综合浓缩,提炼出来的 成果,如百科全书、词典、年鉴、手册等工具 书。
走近检索
收集、整理
二次文献 检索工具
零次文献 一次文献
最基本的信息源 高度浓缩
三次文献
综合分析
检索利用对象 检索工具
书目、题录 索引、文摘
综述性学科总结:综 述、评论、述评、进
展、动态、教材等
图2:文献结构示意图
“提炼”——精炼、提取、回收、利用、萃取; “性能”——Property(ies),Performance,Behavior。
走近检索
6.多主题概念的课题应以“简”为主 如:课题“利用基因工程的手段提高植物中淀粉含量”
基因工程*淀粉 基因*淀粉 利用“最专指面优先”(Most Specific Face First) 方法
走近检索
7.少用无法定性定量的词
如:课题 “冷、温复合挤压连续成形技术” (冷挤压 or 温挤压) and 连续 and 成型 (冷or 温) and挤压and 连续 and 成型 冷= 常温以下 温=45°C ~ 600°C or 800°C
处理结果: 取消:冷、温二词
深化处理: 增加:挤压对象的词。如塑料、金属等词或其他如有助于限
制范围的有效实词如:挤压时用的润滑材料:石墨。。。。
小结:
应以课题提供的关键词为参考,根据检索要求复核 、筛选、补充、精炼检索用词。选定的检索词应符 合检索主题;确认检索词是否为规范词;并应列出 常用中外文同义词、缩写词,以及核心词的上下位 类词。应充分利用词表、辞海、术语标准、词典等 工具书,以及从已检出的文献中,扩展检索用词。
信息检索的基本技术
查全率 查准率
查全率与查准率
指检出的相关文献量与检索 系统中的相关文献总量之比
指检出的相关文献量和 检出的文献总量之比
走近检索
常用信息检索技术 布尔逻辑检索 通配符与截词符 位置算符 字段限制检索
走近检索
I. 布尔逻辑检索(逻辑组配检索Boolean logical )
指采用布尔逻辑表达式来表达用户的检索 要求,并通过一定的算法和实现手段进行 检索的过程。
走近检索
走近检索
V.词组检索(精确匹配和模糊检索)
不同的数据库,检索途径设定的检索规则有所不同. 中文数据库中 “任意一致”、“模糊检索”、 “前方一致”类似 外文数据库中的截词检索; ”完全一致”、“精确匹配”类似于词组检索。
走近检索
“完全一致”即精确匹配,要求输入的检索词, 与数据库中的文献标识完全匹配,才能命中。