文献检索课 二 计算机检索的基础知识
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
– 限制检索技术
限制检索是通过限制检索范围,缩小检索结果,达 到精确检索的方法。 • 检索方式主要有:限定字段检索和限定范围检索 • 限定字段检索:将检索词限定在特定的字段中。 如:题名(TI,title)、关键词 (KW,keyword)、主题词(DE, descriptor)、 文摘(AB,abstract)、全文(FT, Full text)、 作者(AU,author)、期刊名称Journal(JN)、 出版国Country(CO)、出版年份Publication Year(PY)、语种 Language(LA)等等。
– 选择检索Βιβλιοθήκη 统• 主要是根据课题的检索要求选择合适的检索工具或数 据库,如: 查找图书可用OPAC书目数据库;查学科术语或数 据等可用事实型数据库、参考工具书或网络搜索引擎; 撰写学位论文、申请研究课题,需要了解研究对象的 历史、现状和发展,要求检索文献全面、彻底,检索 覆盖的年份也较长,尽可能选用一些收录年份较长的 综合型和专业数据库。 • 考虑权威性数据库; • 数据库的学科专业范围是否与课题的学科相吻合; • 需要的是题录、文摘信息还是全文信息,还是事实、 图形、数据等; • 数据库收录的文献类型、年限、更新周期,所需文献 信息在国别和语种是否符合检索需求等。
• 限定范围检索:
是通过使用限定符来限制信息的检索范围,以达到优化检索的方 法。 • 不同的检索系统略有不同,常通过使用的有:“=、<= 、>=、 <、>、:” 等。 例如: PY>=1995 即限定出版年份为1995及以后的文献; 出版年=1996:2005即1996年至2005年的文章
• 二次检索: 指在前一次检索的结果中进行另一概念的检索。
• ―*‖、“?”的比较
– “*”,无限截词,代表多个字符如regard*, 代表 regard, regarding, regardless, 等 absorb* – ―?‖有限截词,代表0个或1个字符,如“wom?n‖,则包 含“woman,women‖; 可以用“n?”来代表多个字符
• 前截词、后截词、中间截词的比较
• A(W)B
AB两词靠近,次序为A先B后。
例如:communication(w)satellite或者communication() satellite,只检索出communication satellite, communication-satellite的记录
• (nW) 算符:表示两个检索词之间插有n个词,但顺序不能颠 倒。
– 课题分析
• 主要指明确检索目的与要求 • 分析课题的主要内容及所涉及学科范围,以便确定有关 检索标识(分类)、检索途径和选择合适的检索工具。 • 分析课题所需信息的类型、文献量、年代范围、涉及 语种、有关著者、机构等。 • 确定课题对查新、查准和查全的指标要求,例如: 若要了解某学科、理论、课题等最新进展和动态, 则要检索最近的文献信息,强调“新”字; 若要解决研究中某具体问题,找出技术方案,则要 求检索有针对性、能解决实际问题的文献信息,强调 “准”字; 若要撰写综述、述评或专著等,要了解课题、事件 的前因后果、历史和发展,则要检索详尽、全面、系 统的文献信息,强调“全”字。
– 词组检索:
• 通常在所检索词上加“”对所检索词视为词组处理 • 例如:―动物保护”,表示动物保护是个词组,检索结果动物和保 护不能分开。若不加“”,检索结果可以是动物保护、动物多样 性保护、动物栖息地保护、动物资源保护等形式。
– 截词检索
• 又称部分一致检索,是在检索词的适当位置进行截断,然后使用 截词符代替,利用截断的词的一部分进行检索,检索词与文献部 分一致性。 • 截词检索是预防漏检,提高查全率 • 尤其适用于英语,常用于处理词语的单复数,不同拼写方式,相 同词根的相近意义词,以及动词的不同形式等。 • 截词的类型:按照截词的位置,分为后截词 (前方一致),前 截词(后方一致),中截词(中间一致和中间不一)。 • 截词符:不同的检索系统所使用的截词符不同,常用的有“*”、 “?”
2.非文献型数据库 指一种能够直接提供具体的术语、事实和数值等信息的 数据库。包括术语型数据库、事实型数据库和数值型数 据库。 (1)术语型数据库 指专门存储并揭示各类名语、术语、词语的检索工具。 大多是辞书、词典、百科全书等数字化版本。 (2)事实型数据库 指存储简单而独立存在的非文献信息,如机构、人物、 产品、地理位置、事件等实体信息。 如:各种人物数据库、机构名录数据库、产品或商品数 据库等。 (3)数值型数据库 一种以自然数值形式表示、计算机可读的数据集合。
表示关系 概念交叉和限定
作用及表达 缩小检索范围,提高 查准率 A and B或A*B 组配相同概念的检 索词,如同义词、 近义词等。扩大检 索范围,提高查全率 A or B或A+B 缩小检索范围,提 高检索的专指度 A not B或A–B
―或”(OR或+)
并列关系
―非”(NOT或-)
概念删除关系
运算优先级顺序为NOT、AND、OR,可以用括号“( 如A and (B or C),检索顺序为先B或C,然后再与A
(2)题录、文摘型数据库 题录型:是将单篇文献的“篇”、“章”等为 著录单元,如一篇论文、一份报告、一件专利等。 如《全国报刊索引》。 文摘型:在题录的基础上每个著录单元再加上文 摘。如美国《工程索引》、《科学文摘》等。 (3)全文数据库 指存储文献全文或其中主要部分内容的源数据库。 存储内容主要有各种图书、期刊论文、法律条文 及案例、新闻报道等。它将二次文献的检索同原 文献的获取融为一体。
–位置检索技术
利用位置逻辑算符来限定检索词与检索词之间的位置关系,从而使检 索出的文献更确切地符合用户要求,提高查准率。 • 在不同的检索系统中,所采用的位置算符是不同的,功能也有差异。
• (W) (WITH)算符:表示两个检索词紧挨着,词序不能颠倒,中间不
能有其他词,但可以有空格和标点符号。也可以用()
• A(nW)B AB两词靠近,次序为A先B后,中间最多可加n个词。 例 如 : communication(2w)satellite , 只 检 索 出 communication satellite 、 communicationsatellite,communication through satellite 、 communication on the satellite词组的记录。
• 分析给出下列课题的检索式
– 现代家具设计的研究 – 化学信息学与生物信息学开放性比较 – 社会保障基金投资问题研究 – 刺槐组织培养研究
• 计算机检索的步骤
– 课题分析 – 选择检索系统 – 确定检索途径和检索方法 – 确定检索词 – 制定检索策略,编制检索式 – 实施检索、分析检索结果、索取原文 – 调整检索式,优化策略
• 字段检索表达方式一般有两种: (1)后缀方式 ,将检索词放在字段代码之前,之后用字段限定符 号:in 或/;如:zhe jiang forest* college in AD 即在 地址字段中出现浙江林学院的即被检中。Furniture/TI即家具 一词出现在题目中。 (2)前缀方式, 将检索词放在所限定的字段代码之后,如用在著 者(AU)、刊名(JN)、出版年(PY)、语种(LA)等字段 后,例如:AU=Evans,A., LA=Chinese
• (nN)算符:表示两个检索词之间可以插入 n 个词 并且词序可以颠倒
• A(nN)B:AB两词靠近,次序可变,中间最多可加n个词。 例如:information(1N)retrieval可检索出 information retrieval , information and retrieval, retrieval of information的记录。
• 电子信息资源的特点:
1、组织形式发生变化:由传统的文本、线性,发展成超文 本、超媒体等多种形式,并组成相互联系、非线性的网 状结构。 2、数字化:存储密度高,容量大。 3、内容丰富多样:从文字、图表到多媒体信息,文献类型 多样,涉及领域宽广。
4、数据具有通用性、开放性、动态性
5、信息资源体积小、数量大 6、传播方式的无限性,不受时间、空间限制 7、检索功能强大,使用方便、快捷。
• (N)(Near)算符:表示两个检索词为相邻关系,两 个词之间不能插入任何词,但词序可以颠倒。
• A(N)B :AB两词靠近,次序可变。 如 building (N) construction可检索出building– construction, construction building, construction-building的记录
– 前截词 将截词符放在词根的前边,后方一致,表示在词根 前方有无限个或有限个字符变化。如:*computer 将检索 出 computer、 minicomputer 、microcomputer 等单词的文献。 – 后截词 将截词符放在词根的后面,前方一致。如: grow* ,系统将检索出含有grow、growth、growing 等词的所有记录 – 中间截词 是将截词符号置于检索词的中间,而词的前后方 一致。通常用于英、美不同拼写形式的词(英语单词)进行 检索。如:colo?r 可检出的词为colour(英音)、 color(美音)。
–计算机检索系统的类型
1.文献型数据库 文献型数据库是指能直接提供文献线索和文献原文的数 据库,即数据库记录的对象为文献信息时。包括目录型 数据库、题录型、文摘型和全文型数据库。 (1)目录型数据库 是对信息外表特征予以揭示和报道,以整个出版单位或 收藏单位为基本著录单元,如“本”、“种”、“件” 等。著录内容包括书(刊)名、作者、出版年月、出版 地及收藏情况等。可分馆藏目录(如各图书馆的馆藏机 读目录数据库OPAC)、联合目录、出版发行目录等。
文献检索课 二 计算机检索的基础知识
林 英 图书馆信息咨询部 xxzx@
课程安排
电子信息资源检索
• 电子信息资源的概念:
– 以数字化的形式,把文字、图形、图像、声音、 动画等多种形式的信息存放在光、电、磁等非 印刷型介质上,以电信号、光信息号的形式传 输,并通过网络通信、计算机或终端等方式再 现出来的一种信息资源。
• 信息检索技术
– 布尔逻辑检索 利用布尔逻辑算符将一些具有简单的、表达某 一主题概念的检索单元(或检索标识)组配成 一个具有复杂概念的检索式,以满足课题检索 的要求。主要通过“和(and,*)‖、“或 (or,+)‖、“非(not,-)‖等将检索词联络起来 。
逻辑算符 ―与”(AND 或*)
含义 检索出的记录必须 同时含有所有的检 索词 检出的结果中只需 满足检索项中的任 何一个或同时满足 即可 检出的记录中只能 含有NOT算符前的 检索词,不能同时 含有其后的检索词
• 信息检索系统
– 概念:按某种方式建立起来的供读者查找信息的一种有层 次的体系,是表征有序信息特征的集合体。分为两大类 型:印刷型检索系统和计算机检索系统。 – 印刷型检索系统
1、文献型检索工具 (1)目录 以报道文献出版或收藏信息为主要功能的工具。如《全国总书 目》。 (2)题录 是将图书、报刊等文献中论文的篇目按照一定的排检方法编排 而成,供人们查找篇目出版的工具。如《全国报刊索引》 (3)文摘 以精练的语言把文献信息的重要内容、观点、数据等摘录下来, 并按一定的著录规则与排列方式编排起来,供读者检索使用的一 种检索工具。 2、非文献型检索工具 主要指参考工具书。如词典、百科全书、年鉴、年表、名录等。
)”改变它们的运算顺序。
• 逻辑算符举例
– 查找关于“动物保护”的文献: “动物”和“保护” 可以用“逻辑与”组配,表示为 “动物 AND 保护”,检出记录中既涉及动物又涉及保 护的相关文献。 – 查找有关冬虫夏草的文献: 冬虫夏草又称冬虫草、虫草 ,“冬虫夏草”、“冬虫 草”、“虫草 ”三者要用逻辑或组配,表示为“冬虫夏 草 or 冬虫草 or 虫草”,检索出文献中包含三者任意一 种即被检出。 – 查找关于国外建筑特色的文章: 国外即不包括中国 ,建筑和中国之间为逻辑非的关系, 表示为“建筑 not 中国”,检索结果排除了中国建筑的 相关文献。 – 检索西红柿种植技术的相关文章: 西红柿” 又称“番茄”,表示为“西红柿+番茄”; “种植”的同义词有“栽培”、“培育”,表示为“种 植+栽培+培育”;检索表达式为:(西红柿+番茄)*(种植