第三章 信息检索基本方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• •
•
引文途径
两种操作方法: 一是利用检索工具如SCI,通过被引用 文献入手,查找引用文献; 二是通过引用文献(来源文献)入手, 直接利用文献结尾所附的参考文献, 查找被引用文献。
3.2 信息检索技术
3.2.1 布尔检索 1.布尔逻辑算符 逻辑“与”——AND或* 逻辑“或”——OR或+ 逻辑“非”——NOT或2.布尔逻辑算符使用注意事项和特 点见教材P72.
பைடு நூலகம்
3.1.2 检索途径及其选择
1. 内容特征检索途径 分类途径。一般是按学科体系为中 心排检文献的。如《中图分类法》。 主题途径。如利用主题词索引、关 键词索引、叙词索引等。 分类主题途径。是上述两个途径结 合。
3.1.2检索途径及其选择
2.外部特征检索途径 责任者途径。包括个人作者、团体作 者、编者、专利权人等。 题名途径 题名指文献题名,如书名、篇名、刊 名等。 序号途径 如专利号索引、报告号索引、标准号 索引等。
以中国期刊查阅举例说明之。
练习
1、PATENT */+/- CHINA
2、在秦岭隧道中发表的有关掘进机或TBM的文章 3、除发表的有关秦岭隧道中掘进机和TBM的文章 KEYS: 2、(掘进机+TBM)*秦岭隧道
3、(掘进机+TBM)-秦岭隧道
思考:还可以有那种形式
(w)算符With:
3.2.2 位置运算符
5、同时使用计算机系统和手工检索工具。
(3) 主题语言之三:关键词语言
概念: 关键词语言与其它主题语言的区别在于它 没有经过规范化处理,属于非受控语言。 而主题词语言属于受控语言。 关键词语言的基本原理是直接以自然语言 的词语作为表达文献和提问的标识。故不 必编制专门的词表。 又分为单纯关键词索引(EI常用)、题内 关键词索引(美国的《化学题录》采用)、 题外关键词索引、词对式关键词索引(SCI 中的轮排主题索引属于此类)等。
第三章 信息检索基本方法
3.1 信息检索语言与检索途径 3.1.1信息检索语言的类型及特点
信息检索语言是用来描述文献特征,表达 主题提问的一种专门的人工语言,是由给 定领域中一切可用来描述信息内容和信息 需求的词汇或符号,及其使用规则构成的 供标引和检索的工具。 如各种分类法、主题词表、叙词表都属于 信息检索语言。
3.2.4限制检索
字段检索 是限定检索词在数据库记录中出现的字段范 围内的一种检索方法。例如在Dialog联机检 索系统中,数据库通常提供的可供检索的字 段有: 基本索引字段: TI(篇名、题目) AB(摘要) DE(主题词、叙词) ID(自由标词) 附加索引字段:AU(作者) CS(作者单位) JN(刊名) PY(出版年份)LA(语言)
B、限定组配 例如,“电子计算机”和“存储速度”的 组配表达了“电子计算机的存储速度”这 一主题。 C、组合组配,又叫并列组配。 例如,”计算机“,”应用“和”图书馆 “表达了”计算机在图书馆中的应用“这 一主题。 叙词表通常由字顺表、范畴表、词族表或 其它附表构成。我国图书情报机构广泛使 用的《汉语主题词表》是世界上最大型的 综合性叙词表之一。
叙词语言的特点
1、规范性强:叙词语言事先经过规范化处理,列于 叙词表中,标引和检索都从叙词表中选词,保证 了标引和检索的一致性。 2、利用叙词的组配,可用有限的叙词表达各种复杂 的主题。 3、叙词语言从单元概念出发提示文献内容,可准确、 全面揭示文献的主题,提高标引深度和专指度。 4、检索入口多,大大提高检全率。
后组式语言 用户根据需要将不同的检索词组配在一起, 来表达复杂的主题概念。例如检索“湖泊 水污染”这一主题,检索系统中只有“湖 泊”、“水污染”等单独的标引词。叙词 语言属于此类。
3.根据规范化程度划分
规范化语言 又称受控语言。是一种有主题词或分 类表控制的语言。包括主题语言中的叙 词、后期的元词、标题词和分类语言。 自然语言 指直接从文献或用户检索需求中抽取 出来的未经规范化处理,用来揭示信息 主题概念的自由词或语句。如关键词语 言、用户提问的语句等。 两者结合的发展趋势
(4)主题语言之四:元词语言
为了克服标题语言的不足而发展起来的一 种主题法类型。 • 元词: 从文献中抽选出来的,从字面上不可再分 割的表达最基本的概念单元的词汇。
元词语言
元词语言是以元词作为主题标识,通过字 面组配来表达主题概念的语言。
• 例如,“物理”和“贸易”就属于元词, 而“知识经济”和“主题标引”不属于元 词。 • 例如,“经济文献检索”这一主题,就必 须通过“经济”、“文献”和“检索”3个 单元词进行标引和组配检索。 《美国化学专利单元词表索引》采用的就是 单元词索引形式。 • 早期的元词系统属于自然语言系统,一般 不建立词表,后期的元词系统有相应的词 表。
在检索提问式中,可利用后缀符“/”对基本索引字 段进行限制,利用前缀符“=”对辅助索引字段 加以限制。当前流行的联机情报检索系统,均支 持字段检索。 /AB ABSTRACT 文摘 /DE DESCRIPTOR 叙词 /ID IDENTIFIER 自由标引词 /TI TITLE 篇名
• 后截断 将截词符号放置在一个字符串右方,以表 示其右边的有限或无限个字符不影响该字 符串的检索。 • 前截断 将截词符号放置在一个字符串左方,以表 示其左边的有限或无限个字符不影响该字 符串的检索。
• 中间截词 中间截词(embedded truncation), 是在 一词中间出现若干个?号,表示可插入若 干个字符。 如:ioni?ation 它将对ionisation和ionization进行检索。 如:cent??line 它将对centerline和centreline进行检索。
Example
1、 building (w) construction 2、 building (1w) construction 3、 building (n) construction Keys: 1、 building construction; building- construction 2、 building and construction; building under construction 3、 construction building; Construction- building
代码语言 常用的有分子式索引、专利号、标 准号、报告号、化合物登记号等。
引文语言
引文语言就是利用文献之间引用与被引用 的关系作为文献内容主题标识,并以此标 引和检索文献的语言。 例如文献作者在文献最后列出参考文献, 这就是引文。该作者所创作的文献完成后 也将汇入知识集合中,再后来的人又可将 其作为引文加以利用和记录。文献间的这 种引证关系,不仅反映了科学技术的交流 和反馈,也启发人们通过追溯这种引证关 系,找到一系列内容相关的文献。
B、倒叙式标题 例如,Bridge, Wood (木桥)。 C、并列式标题 例如,Roads and Streets
(2)主题语言之二:叙词语言
概念: 以表达文献主题内容的概念单元为基 础,经过规范化处理,可以进行逻辑 组配的一种主题语言。专门有叙词表。 (有3种) A、交叉组配 例如,“人工林”和“防护林”表达 为人工防护林。
1.根据结构原理划分
分类语言
指用分类号和类名来表达信息的内容 主题概念,并按知识门类的逻辑次序 将信息资源系统地加以划分和组织的 语言。 分类语言主要分为等级体系型和分面 组配型。 例如下面的中图分类法就是等级体系 型分类语言。
中图分类法
主题语言:
以主题词来表达信息主题概念的语言。 是计算机信息检索语言的主流。通常又分 为以下几种: (1)标题语言 (2)叙词语言 (3)关键词语言 (4)元词语言
引文检索语言就是根据上述原理, 以引文为标识标引或检索文献,而 引文标识的全体就构成了引文检索 语言。 例如著名的《科学引文索引》 (SCI)、《社会科学引文索引》 (SSCI)、《艺术与人文科学引文索 引》(A&HCI)就是使用的这种引文 检索语言。
2.根据组配方式划分
先组式语言 事先用固定关系组配好,并编制在词表中, 标引人员和用户使用时必须根据词表选用 组配好的主题标识进行操作。例如体系分 类法和标题词法都属于此类。
假设有文献A和B,B文献在完成过程 中引用了A文献,并把它列在参考文献 中,此时就称A是B的“引文” (Citation),而B因为提供了包括文献A在 内的若干个引文,故又称为“来源文 献”(Source Item 或 Source Document)。 如果把文献A作为检索入口,就可以 检索到在它之后发表的引用了它的所 有来源文献。由于来源文献和引文之 间在内容上是相关的,所以引文就完 成了文献集中的功能。
(1)主题语言之一:标题语言
概念: 采用经过词汇控制的自然语言,以经过规 范化的名次术语为标识,直接表达文献和 提问的主题。 标题语言是最早出现的并得到广泛使用的 一种语言。标题语言的规范工具为标题表。 如《美国国会标题表》就是国内外广泛使 用的标题表。标题有单级标题和多级标题 两种。
A、单级标题。如计算机 computer 英国的《科学文摘》(SA)的主题索引采用 的是单级标题形式。 B、多级标题。主标题和副标题组成。 如,machine tools 木工机床 control 设计 美国的《EI》、《CA》的主题索引均使用 了多级标题形式。 主标题的构成有3种: A、正叙式标题 如空气污染 (Air Pollution)
分类主题一体化语言
是指在一个检索系统中,对它的分类 表部分和叙词表部分,就术语、参照、 标识、索引等实行统一的控制,即一 个分类系统与一个主题系统互相兼容。 简单而言,分类主题一体化语言是分 类语言与主题语言的有机结合。
分类主题一体化语言
例如《中国分类主题词表》就是在 《中图法》类目与《汉表》主题词对 应的基础上,将分类法与主题法、先 组与后组融为一体的文献标引和检索 工具。其中的《分类号——主题词对 应表》和《主题词——分类号对应表》 是分别从分类角度和主题角度进行分 类主题一体化标引的工具。
3.2.3 截词检索
通常用“ *”表示无限阶段,用“?”表示有限阶 段。 无限截词符“*”,代表零至无数多个字母; computer* computer;computered ;computering; 有限截词符“?”,只能代表一个字母; teen? teens 例如: *chemi* chemical、chemist、chemistry、 electrochemistry、electrochemical、 physicochemical、thermochemistry
• 如:smok? • 它将对若干词进行检索,包括:smoke, smoky, smoked, smoker, smokes, smokers, smoking, smokeless等等。 练习: 1、ne?t 2、查找检索结果为”Zhejiang Univ Technol”的 文献 Keys: 1、neat;nest;next 2、Zhejiang and Univ* and Tech*
(n)算符near:
(n)要求被连接的检索词必须紧密相连,词之间除 允许有空格、标点、连字符外,不得夹单词或字 母,词序不限; (Nn)表示两个检索词之间最多可以夹N个词(N为 自然数1、2、3…),且词序任意。 例如:information(n)retrieval
information retrieval 、 retrieval- information, economic(2n) recovery economic recovery 、 recovery from economic troubles
(w)要求检索词必须按指定顺序紧密相连,词序 不可变,词之间除允许有空格、标点、连字符外, 不得夹单词或字母; (Nw)表示连接的两个词之间最多可夹入N个词(N 为自然数),词序不得颠倒。 例如: input(w)output input output ;input,output ;input-output wear(1w)materials wear materials、wear of materials