第三章 信息检索基本方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息检索基本方法 第三章 3.1.2 检索途径及其选择:内部特征 分类途径
一般是按学科体系为中心排检文献的。如《中图分类法》。
主题途径
如利用主题词索引、关键词索引、叙词索引等。
分类主题途径 上述两个途径结合。
信息检索基本方法 第三章 3.1.2 检索途径及其选择:外部特征
• 责任者途径。包括个人作者、团体作者、编者、专利权人等。 • 题名途径
如果把文献A作为检索入口,就可以检索到在它之后发 表的引用了它的所有来源文献。由于来源文献和引文之间在 内容上是相关的,所以引文就完成了文献集中的功能。 引文检索语言就是根据上述原理,以引文为标识标引或 检索文献,而引文标识的全体就构成了引文检索语言。
信息检索基本方法 第三章 分类语言 ——引文语言 例如著名的《科学引文索引》(SCI)、《社会科学引文索
• 例如,“物理”和“贸易”就属于元词,而“知识经济”
和“主题标引”不属于元词。 • 例如,“经济文献检索”这一主题,就必须通过“经济”、 “文献”和“检索”3个单元词进行标引和组配检索。 《美国化学专利单元词表索引》采用的就是单元词索引形
式。
• 早期的元词系统属于自然语言系统,一般不建立词表,后 期的元词系统有相应的词表。
逻辑“或”——OR或+
逻辑“非”——NOT或2.布尔逻辑算符使用注意事项和特点见教材P72. 以中国期刊查阅举例说明之。
信息检索基本方法 第三章 3.2 信息检索技术 ——布尔检索 课堂练习: 1、PATENT */+/- CHINA 2、在秦岭隧道中发表的有关掘进机或TBM的文章 3、除发表的有关秦岭隧道中掘进机或TBM的文章
control 设计
美国的《EI》、《CA》的主题索引均使用了多级标题形式。
主标题的构成有3种:
A、正叙式标题 如空气污染 (Air Pollution) B、倒叙式标题 例如,Bridge, Wood (木桥)。 C、并列式标题 例如,Roads and Streets
信息检索基本方法 第三章 主题语言 ——叙词语言
第三章 分类语言-信息检索基本方法 中图分类法
简表
以T工业技术类来说明简表。 工业技术(T类)划分为: TB 一般工业技术 TE 石油、天然气工业 TG 金属学、金属工艺 TJ 武器工业 TL 原子能技术 TD 矿业工程 TF 冶金工业 TH 机械、仪表工业 TK 动力工程 TM 电工技术
TN 无线电电子学、电讯技术
题名指文献题名,如书名、篇名、刊名等。
•序号途径
如专利号索引、报告号索引、标准号索引等。
•引文途径
两种操作方法:
一是利用检索工具如SCI,通过被引用文献入手,查找引用文献;
二是通过引用文献(来源文献)入手,直接利用文献结尾所附的参考 文献,查找被引用文献。
信息检索基本方法 第三章 3.2 信息检索技术 ——布尔检索 1.布尔逻辑算符 逻辑“与”——AND或*
规范性强:叙词语言事先经过规范化处理,列于叙词表中,
标引和检索都从叙词表中选词,保证了标引和检索的一致 性。
利用叙词的组配,可用有限的叙词表达各种复杂的主题。 叙词语言从单元概念出发提示文献内容,可准确、全面揭
示文献的主题,提高标引深度和专指度。
检索入口多,大大提高检全率。 同时使用计算机系统和手工检索工具。
信息检索基本方法 第三章 分类语言 ——分类主题一体化语言 分类主题一体化语言 是指在一个检索系统中,对它的分类表部分和叙词表部分,
就术语、参照、标识、索引等实行统一的控制,即一个分
类系统与一个主题系统互相兼容。 简单而言,分类主题一体化语言是分类语言与主题语言的
有机结合。
信息检索基本方法 第三章 分类语言 ——分类主题一体化语言 例如《中国分类主题词表》就是在《中图法》类目与 《汉表》主题词对应的基础上,将分类法与主题法、先组 与后组融为一体的文献标引和检索工具。
信息检索基本方法 第三章 主题语言 ——元词语言 (4)主题语言之四:元词语言
为了克服标题语言的不足而发展起来的一种主题法类型。
元词: 从文献中抽选出来的,从字面上不可再分割的表达最基 本的概念单元的词汇。 元词语言:
以元词作为主题标识,通过字面组配来表达主题概念的语
ຫໍສະໝຸດ Baidu言。
信息检索基本方法 第三章 分类语言 ——主题语言——元词语言
题语言的规范工具为标题表。如《美国国会标题表》就是
国内外广泛使用的标题表。标题有单级标题和多级标题两 种。
信息检索基本方法 第三章 主题语言 ——标题语言
A、单级标题。如计算机 computer
英国的《科学文摘》(SA)的主题索引采用的是单级标题形式。 B、多级标题。主标题和副标题组成。
如,machine tools 木工机床
TQ 化学工业 TU 建筑科学
TP 自动化技术、计算技术
TS 轻工业 TV 水利工程
第三章 分类语言-信息检索基本方法 中图分类法
详表
以TG金属学、金属工艺类来说明详表。 金属学、金属工艺类(TG)又划分为:
TG1 金属管、热处理
TG2 铸造 TG3 金属压力加工
TG4 焊接、金属切割几粘接
TG5 金属切削加工及机床 TG7 刀具、磨料、磨具、夹具、手工具 TG8 公差与技术测量及机械量仪 TG9 钳工、装配工艺
第三章 分类语言-信息检索基本方法 中图分类法
TG7又划分为:
TG71刀具 TG75夹具 TG73磨料 TG76模具 TG74磨具、研具 TG78手工具 TG753 成组夹具 TG754 组合夹具 TG756 气动夹具 TG757 液压夹具
TG75又分为:
TG751 一般夹具 TG755 塑料夹具
TG758 电磁夹具
TG751又分为: TG751.1 车床夹具
TG759 其它
TG751.2 钻床夹具
TG751.3 铣床夹具
TG751.5 磨床夹具
TG751.4 刨床夹具
TG751.9 其它
第三章 分类语言-信息检索基本方法 中图分类法
(2)主题语言之二:叙词语言 概念:以表达文献主题内容的概念单元为基础,经过规范化处理,可以进行逻 辑组配的一种主题语言。专门有叙词表。 (有3种) A、交叉组配 例如,“人工林”和“防护林”表达为人工防护林。 B、限定组配 例如,“电子计算机”和“存储速度”的组配表达了“电子计算机的存储速度” 这一主题。
其中的《分类号——主题词对应表》和《主题词——分
类号对应表》是分别从分类角度和主题角度进行分类主题 一体化标引的工具。
信息检索基本方法 第三章 分类语言 ——代码语言
代码语言 常用的有分子式索引、专利号、标准号、报告号、 化合物登记号等。
信息检索基本方法 第三章 分类语言 ——引文语言
引文语言
信息检索语言的类型及特点:
信息检索语言是用来描述文献特征,表达主题提
问的一种专门的人工语言,是由给定领域中一切可
用来描述信息内容和信息需求的词汇或符号,及其
使用规则构成的供标引和检索的工具。
如各种分类法、主题词表、叙词表都属于信息检
索语言。
第三章 信息检索基本方法 3.1 信息检索语言与检索途径
信息检索基本方法 第三章 分类语言 ——引文语言 假设有文献A和B,B文献在完成过程中引用了A文献,并把 它列在参考文献中,此时就称A是B的“引文”(Citation), 而B因为提供了包括文献A在内的若干个引文,故又称为 “来源文献”(Source Item 或 Source Document)。
C、组合组配,又叫并列组配。
例如,”计算机“,”应用“和”图书馆“表达了”计算机在图书馆中的应用 “这一主题。 叙词表通常由字顺表、范畴表、词族表或其它附表构成。我国图书情报机构广 泛使用的《汉语主题词表》是世界上最大型的综合性叙词表之一。
信息检索基本方法 第三章 主题语言 ——叙词语言 叙词语言的特点:
信息检索基本方法 第三章 主题语言 ——关键词语言 (3) 主题语言之三:关键词语言 概念:关键词语言与其它主题语言的区别在于它没有经过 规范化处理,属于非受控语言。而主题词语言属于受控语 言。 关键词语言的基本原理是直接以自然语言的词语作为 表达文献和提问的标识。故不必编制专门的词表。 分为单纯关键词索引(EI常用)、题内关键词索引(美 国的《化学题录》采用)、题外关键词索引、词对式关键 词索引(SCI中的轮排主题索引属于此类)等。
信息检索基本方法 第三章 检索语言 ——主题语言 主题语言: 以主题词来表达信息主题概念的语言。
是计算机信息检索语言的主流。通常又分为以下几种:
(1)标题语言 (2)叙词语言 (3)关键词语言 (4)元词语言
第三章 信息检索基本方法
(1)主题语言之一:标题语言
概念: 采用经过词汇控制的自然语言,以经过规范化的名次术语 为标识,直接表达文献和提问的主题。 标题语言是最早出现的并得到广泛使用的一种语言。标
D 政治、法律 H 语言、文字
B 哲学
C 社会科学总论
G 文化科学教育体育 K 历史、地理
E 军事 I 文学
F 经济 J 艺术
N自然科学总论
Q 生物科学 T 工业技术
O 数理科学和化学 P 天文学、地球科学
R 医药、卫生 U 交通运输 S 农业科学 V 航空、航天
X 环境科学、安全科学 Z 综合性图书
信息检索基本方法 第三章 3.根据规范化程度划分 规范化语言 又称受控语言。是一种有主题词或分类表控制的语言。包 括主题语言中的叙词、后期的元词、标题词和分类语言。 自然语言 指直接从文献或用户检索需求中抽取出来的未经规范化处 理,用来揭示信息主题概念的自由词或语句。如关键词语 言、用户提问的语句等。 两者结合的发展趋势
KEYS:
2、(掘进机+TBM)*秦岭隧道 3、(掘进机+TBM)-秦岭隧道 思考:还可以有那种形式
信息检索基本方法 第三章 3.2 信息检索技术 ——位置运算符
利用文献之间引用与被引用的关系作为文献内容主题标 识,并以此标引和检索文献的语言。 例如文献作者在文献最后列出参考文献,这就是引文。 该作者所创作的文献完成后也将汇入知识集合中,再后来 的人又可将其作为引文加以利用和记录。文献间的这种引 证关系,不仅反映了科学技术的交流和反馈,也启发人们 通过追溯这种引证关系,找到一系列内容相关的文献。
第三章 信息检索基本方法
第三章 信息检索基本方法 信息检索语言分类
描述文献外表特征的语言 检索语言 描述文献内容特征的语言
书名、刊名、篇名等 著者 号码(如报告号、专利号、序号等) 文献类型 文献出版事项 分类语言 关键词语言 主题语言 标题词语言 叙词语言
第三章 信息检索基本方法 3.1 信息检索语言与检索途径
信息检索基本方法 第三章 分类语言 -中图分类法 基本部类 《中图法》分为5大基本部类
马、列、毛泽东思想
哲学 社会科学 自然科学 综合性图书
信息检索基本方法 第三章 分类语言 -中图分类法
基本大类 《中图法》共分为22个基本大类,每一个大类用一个大写的英文字母来 表示。
A 马列、毛泽东思想
引》(SSCI)、《艺术与人文科学引文索引》(A&HCI)就是
使用的这种引文检索语言。
信息检索基本方法 第三章 2.根据组配方式划分
先组式语言
事先用固定关系组配好,并编制在词表中,标引人员和用 户使用时必须根据词表选用组配好的主题标识进行操作。 例如体系分类法和标题词法都属于此类。 后组式语言 用户根据需要将不同的检索词组配在一起,来表达复杂的 主题概念。例如检索“湖泊水污染”这一主题,检索系统 中只有“湖泊”、“水污染”等单独的标引词。叙词语言 属于此类。
1.根据结构原理划分 分类语言
指用分类号和类名来表达信息的内容主题概念, 并按知识门类的逻辑次序将信息资源系统地加以划 分和组织的语言。
分类语言主要分为等级体系型和分面组配型。 例如:下面的中图分类法就是等级体系型分类语 言。
第三章 信息检索基本方法 分类语言 -中图分类法 《中国图书馆图书分类法》(简称为《中图法》,它包括5 个部分: 基本部类 基本大类:在基本部类的基础上, 第一次划分得到的类目, 称为一级类目。 简表:从基本大类起,再连续划分3次,得到二级、三级、 四级,组成四级类目。 详表:由全部类目组成。 辅助表