计算机检索概论
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四步:上机检索操作和反馈调节 第五步; NOT > AND > OR 例:检索有关“胃疾病与饮酒关系”方面的文献 (胃炎 OR 胃扩张 OR 胃肿瘤 OR 消化性溃疡) AND 饮酒
截词检索
用符号取代检索中部分字母,保留检索词中的相同部分。 常用的截词符号有“*”、“?”、“$”。 不同的检索系统中采用不同的符号。 按照截词的位置,可分为前(左)截断、中间截断、后截断。 按照截断的字符数量,可分为无限截断和有限截断两种。
布尔逻辑检索
逻辑或
反映概念之间并列关系的一种组配,常用“OR”或“+”表示。
表示一篇文献中A、B两者中有一即可,也包括两者同时存在。
布尔逻辑检索
例如: 查找“肾功能衰竭”方面的文献
肾功能衰竭+肾衰+肾功能不全+肾机能不全
查找“维生素C”方面的文献 Vitamin C OR Ascorbic Acid
对于研究生做学位论文来说,做课题前应充分了解一下本课题国内外 的研究现状(即论文的综述部分),这时应对该课题进行较全面的检 索,包括综述性的文章,要求全面;对于该课题的核心部分,即该课 题所要解决的具体问题,创新的地方,则需要准,技术细节越细越好。 检索误区1——从师兄师姐那得到相似研究课题的学位论文作为参考, 不失为一条捷径,但不能完全依赖它,不能仅以学位论文提供的参考 文献为线索去检索,应该自已提炼关键词,利用现有的资源去发现更 多更好的文章,从而开拓自已的视野。
字段
一条完整的 记录
常用的记录字段
字段名 AB AD AU 文摘 地址 著者 中文名称 字段名 PO PP PY 中文名称 页码 出版社 出版年
CN
CL IF
中国代码
分类号 期
PT
RF SO
文献类型
参考文献数 出处
IS
LA MH MMH
国际标准连续出版物号
语种 主题词 主要概念主题词
TA
TI TT TW
期刊名称
中文题目 英文题目 关键词
常用计算机的检索途径
自由词检索
主题检索 分类检索 著者检索 机构检索 刊名检索 限定检索
常用计算机的检索途径
分类浏览 简单检索 高级检索 专家检索
计算机的检索技术
布尔逻辑检索
截词检索 限定检索 位置算符
布尔逻辑检索
逻辑与
反映概念之间交叉和限定关系的一种组配,常用“AND” 或“*”表示。 表示检索结果中的每一条记录必须同时包含有检索词A和B。
检索误区2——internet网上虽然有一些较好的资源,但是与专业的网
络数据库来比,无论是质量还是数量上都有很大的差距,检索文献目
前来说最主要的来源还应是专业数据库,即正规的出版物上发表的文 献。仅用搜索引擎来查找文章是非常不可取的。
检索误区3——不要忽略摘要数据库,虽然检索摘要数据库不能马上 得到全文,但是摘要数据库的数据量大,范围广,是查找文章线极好
常见的生物医学数据库
中文 中国生物医学文献数据库(CBMdisc) 中文科技期刊数据库(重庆维普) 中国期刊全文数据库(清华同方) 万方数据库资源系统 外文 Medline OVID EM(荷兰的《医学文摘》) BA on CD(美国的《生物学文摘》光盘版) CA on CD(美国的《化学文摘》光盘版)
截词检索
前截断 是将截词符放在单词的左方,保持单词的后方一致。 如:“*leukemia”可检索出含有leukemia或preleukemia的记录。
中截断 将截词符放在单词的中间。 如:“tum*r”可检索出含有tumor、tumour等的记录。 后截断 将截词符放在单词的右方。 如:“pain*”可检索出含有pain、painful、painless、painkiller 等所有以pain开头的单词。
速度快,耗时少 途径多
种类齐全
数据更新快 组配灵活 结果输出多样
计算机检索的原理
计算机信息检索就是利用计算机进行信息的存储和检索的过程,存储 和检索对应于数据库的建立和利用。
将大量的文献信息加工处理,以一定的结构有序地存储在计算机的存 储介质上,建成数据库,这是计算机的存储过程。
将检索需求以一定的方式输入计算机中,由计算机对其进行处理,与 已存储在数据库中的信息进行查询和匹配,并按要求的格式输出检索 结果的过程,就是计算机的检索过程。
布尔逻辑检索
例如:
查找“纤维瘤诊断”方面的文献
Fibroma AND diagnose
查找“吸烟与肺癌关系”的文献
吸烟 * 肺癌
练习: 1.高血压的治疗进展
高血压 AND 治疗
2.活血化瘀法治疗糖尿病慢性并发症的研究
活血化瘀法 * 糖尿病 * 慢性并发症
3.茶色素对脂肪肝的影响 茶色素 and 脂肪肝
限定检索
将检索范围限定在某个特定字段或某一时间范围进行检索。
常用的限制符有:“in”、“ .”、“=”。
English in LA,表示限制检索结果的语种为英 语。 English. LA . 注意:限制符要置于字段名的两 侧。
PY=1998,表示把结果限定在1998年。
位置算符
的检索工具。就目前的情况而言,不可能全部都得到电子版的全文,
先找到文章线索再根据线索查找印刷版的全文是一项不错的组合。
选择数据库和检索途径
选择合适检索工具的前提是对网络资源有一个较全面的、清晰的了解,
具体地说要对检索工具的类型、内容特点、时间范围、学科范围、甚
至出版商的大体情况都要有一个了解。
方法:
1、注重平时的积累 2、不要盲目检索,应养成检索前了解一下数据库的习惯
3、注重与他人的交流
4、重视图书馆主页的资源
确定检索词,构建检索式
检索词尽可能使用词或词组,然后用布尔逻辑运算将检索词连接起来, 切忌将整个题名输入到检索框中 如:针灸治疗偏头痛 要提炼关键的、核心的词作为检索词 1)去掉意义太泛或“无所谓有”的词; 2)有时不需要死抠文字,意思匹配即可 3)避免使用“的、地、得、着、了、过”等无意义的虚词或禁用词, 注:如一些固定表达的检索词中包括了禁用词,这时可用“”将其引 起来 漏检:如忽略了同义词,或同一个词的多种表达,有可能造成漏检 避免漏检的方法: 1)将同义词等列出来,然后用布尔逻辑运算符or将其连接起来 2)使用规范词
计算机检索的发展
光盘检索(1980’s-1990’s)
能存贮数据、文字、图象、声音、动画等各种信息。优点是存贮 量大、稳定性好、使用方便、成本低廉等。
网络检索(1990’s-)
光盘检索从单驱检索发展到塔网检索,局域网内的多台计算机工作 站可同时检索塔式驱动器中的多张光盘。
计算机检索与手工检索的区别
smoke(r)
smoking cigar、cigarette
子检索式1:S1=(cancer OR carcinoma) AND (lung OR lungs) 子检索式2: S2=smoker OR smokers OR smoking OR cigar OR cigarette OR … 总检索式:S=S1 AND S2
计算机检索概论
P74
计算机检索的发展
脱机检索(1950’s-1960’s)
没有通讯线路支撑的单机检索,由用户通过信函提交检索提问单,检索 系统的专职检索员将积累到一定数量的检索提问输入计算机,由计算机批
量处理,然后将打印结果寄给用户。
联机检索(1960’s-1970’s)
用户借助于数字通讯网络,在本地终端上,对远在异地的联机检索中 心的数据库进行直接的人机对话式检索。
计算机信息检索系统的构成
计算机硬件
计算机软件
数据库
数据库的结构
字段 组成记录的数据项,如篇名、著者、来源、主题词等。
记录
构成数据库的信息单元,每条记录都描述了原始信息的外表特征和 内容特征。 文档 是数据库中一部分记录的集合。
数据库的类型
书目数据库 全文数据库 数值数据库 事实数据库 图像数据库
误检:如一词多义或虚假匹配时,有可能造成误检 避免误检的方法:将这些词和其他检索词用布尔逻辑运算符“and”进 行组配 在检索过程中需不断地调整检索策略 1)根据实际扩大、缩小检索范围 2)从已找到的文章中查找新的检索线索 3)考虑多种检索途径,不要一条道跑到黑
Tips: 几种常用的检索策略:
截词检索
有限截断 一般用“?”表示有限截断,一个“?”表示一个字符或零个字符。 如:输入“computer???”来检索,可以查到含computer、computers、 computering的记录,但computerization的记录检索无效。
无限截断 一般用“*”表示无限截断,一个“*”表示0~N个字符。 如:输入“immun*”来检索,可以查到含有immune、immunology、 immunodeficiency等所有以“immun”开头的单词。
反映两个检索词在文献中的邻近关系。
不同的检索系统的位置算符是不一样的。常见的有near、with两个。 with表示检索词在同一个字段中。 near表示检索词在同一个句子中,词序可以颠倒,可在near后面加
上数字来限定两个词语之间可以插入的词的数目。
计算机的检索策略
分析课题,明确检索要求
特点:思路清晰,检索全面
适用:每个检索词的专指度都不太高,都可检索出较多的 文献
(2)先从最专指的概念面或较为生僻、使用较少的词入手,如果文献量 较多,再与其他概念面用and组配,如果文献量很少或没有,则可以 终止检索
例:异搏定钾停跳液保护心肌缺血后室颤
Sorry, no answer
特点:目标明确,节省时间 适用:某一个检索词专指度高,或较为生僻或目前研究得 较少,相关文献也较少
选择数据库和检索途径 确定检索词,构建检索式 上机检索操作和反馈调节 整理检索结果,获取原始文献
分析课题,明确检索要求
基本要求: 检索的时间范围、文献类型、检索为题录、文摘还是全文等等
结果要求: 1)了解某一理论、方法、设备、过程等的具体的片断信息,以解决研 究中的具体问题,要求“准”。 2)申请发明,申报成果奖励、鉴定科研成果以及立项查新,往往需要全 面地收集某一主题范围的文献信息,这类课题具有普查追溯的特点, 应着眼于“全”。
布尔逻辑检索
逻辑非
是从原检索中排除一部分,常用“NOT”或“–”表示。
表示检索结果中每一条记录必须包含检索词A,但不能
包含检索词B。
布尔逻辑检索
例如:
查找“非儿童哮喘”方面的文献
asthma — child
查找“肝炎非流行病学”方面的文献
肝炎 NOT 流行病学
布尔逻辑检索
可以在一个检索式中同时使用多个逻辑运算符,还可以用括号
(3)分馏式:先确定一个相当大的范围较广的文献初始集,然后提高检 索的专指度,得到一个较小的命中文献集,直到数量适宜,用户满意 为止。
特点:检索时间较长,但检索全面 适用:某一个检索词专指度较高,而其他检索词则专指度较低,研究 比较广泛。
检索式、检索策略的制定依据个人的检索目的、检索经验及检索习 惯等来最终决定,没有固定的模式,大家应灵活掌握,”不论黑猫白 猫抓住老鼠就是好猫”。
(1)把检索课题剖析成若干个概念面,在每个概念面中尽可能全和多地列举相关 词、同义词、近义词,并用OR连接成子检索式,然后再用布尔算符AND把所有 子检索式连接起来 例:“肺癌与吸烟”可以分成两个概念面:肺癌、吸烟。这两个概念面的各种形 式 的检索词
cancer
carcinoma lung(s) cancer …… ……