检索语言的表示形式及发展方向
检索语言的表示形式及发展方向
检索语言的表示形式及发展方向
孙赟星
【期刊名称】《中国新技术新产品》
【年(卷),期】2010(000)018
【摘要】作为情报语言学研究对象之一的检索语言,在情报检索中的应用正日趋广泛.本文分析了检索语言不同的表现形式及未来发展方向.
【总页数】1页(P34-34)
【作者】孙赟星
【作者单位】哈尔滨市科学技术情报研究所,黑龙江,哈尔滨,150000
【正文语种】中文
【中图分类】H0
【相关文献】
1.全国第五次情报检索语言发展方向研讨会在上海召开
2."全国第五次情报检索语
言发展方向研讨会"在上海成功举行3.“全国第五次情报检索语言发展方向研讨会”论文集近日出版4.全国第五次情报检索语言发展方向研讨会征文通知5.面向用户
面向新的知识载体面向新的技术环境发展我国21世纪的情报检索语言——第三
次全国情报检索语言发展方向研讨会报道
因版权原因,仅展示原文概要,查看原文内容请购买。
简述分类检索语言的结构
简述分类检索语言的结构.说明类目之间的关系及表现
形式
分类检索语言,通常由一系列定义明确的类目,用来分类资源或项目,将类目之间的语义关系表示出来,即检索语言的结构。
以下是分
类检索语言的结构:
一、类目
类目是分类项目,明确描述要检索的情况,例如特定类别的书籍、新闻、网站等。
每个类目可能有多个细分类目,以此来更准确地检索。
二、语义关系
类目之间有不同的关系,例如母类和子类、同类概念之间的关系,这
些关系主要由上下位关系和部分整体关系来表达,它们可以用树状结
构表示:母类是父节点,子类是子节点;同类之间相当于兄弟节点。
三、表示形式
分类检索语言主要有两种表示形式:图式表示和文字表示。
图式表示
是用树状图来表达类目的关系,树状图的每个节点是一个分类项目,
从而表示检索类目之间的关系。
文字表示是用字符来描述类目的意义,来说明类目的上下位关系及同类之间的差别。
文献信息检索语言
(二)概念体系
(一)发展沿革及应用 国际系统医学术语集 (Systematized
Nomenclature of Medicine-Clinical Terms, 简称SNOMED CT, /snomed-ct/) 是一个 能提供医学信息存储、提取与交换的医学标准术语 系统。1965年首版推出。
NLMC采用字母数字混合码标记类目。
三、国际疾病分类法
(一)国际疾病分类法概述 (二)国际疾病分类法的意义 (三)ICD的主体结构来自(一)国际疾病分类法概述
国际疾病分类法 International Classification of Diseases,简称ICD,是按照既定疾病分类标准,将各种 疾病名称归入相应类目的一种系统。
SNOMED CT可应用于电子病历、ICU 监测、临床决策支持、医疗研究、临床实验、 用计算机处理的医嘱、疾病监测、图像指数、 药物管理和公众健康信息服务等以提高处理 各项临床医学事务的能力。
(二)概念体系
2008年版SNOMED CT包括311000余个概念, 这些概念按照从一般到具体的等级结构组织起来。
language),是用于描述信息系统中文献信息的内容特 征或外部特征及表达用户信息检索提问的一种专用语言。 分为规范化语言和非规范化语言。规范化语言是对文献检 索用语的概念加以人工控制和规范,对同义词、多义词、 近义词等进行规范化处理用同一个词来表达一个概念。非 规范化语言也叫自然语言,如关键词、自由词等。
N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学R 医药、卫生 S 农业科学 T 工业技术 U 交通运输 V 航空、航天 X 环境科学、安全科学 Z 综合性图书
(三)国外著名文献分类法 1.《杜威十进制分类法》简称DDC,是由美国图书馆学
检索语言
一部分类法实质上就是一套概念标识系统。
体系分类法采取对文献论述的事物概念进行层层 划分、层层隶属的办法来形成一系列专指的分类 标识,按照科学体系将分类标识组织成具有隶属、 并列关系的概念等级标识系统。分类法虽然比较 具有学科的系统性,但它所能反映的这种科学系 统性,只是在一定的限度之内。现代科学由于边 缘学科、交叉学科的出现,各门学科互相渗透, 互相结合,日益使直线序列的分类法难以反映多 元性的知识空间,因而不能确切地代表科学体系。
为了使检索的过程,即文献标识和信息提问的对 比进行得顺利,二者都需要用一定的语言来加以表达。 只有借助于这种语言,文献的标引人员与检索人员才 能有一个共同的约定,彼此才能沟通思想。也就是说, 文献存储时,文献的内外特征按照一定的语言来加以 描述,而检索时信息提问也按照一定的语言来加以表 达。这种把文献的存储与检索联系起来、把标引人员 与检索人员联系起来以便取得共同理解、实现交流的 语言,就叫做检索语言。检索语言是用来描述文献特 征和表达检索提问的一种专门语言。检索效率的高低, 在很大程度上取决于所采用的检索语言的质量以及对 它的使用是否正确。下图展示了检索语言在信息存储 和检索过程中的作用。
《中国图书馆分类法》
(五)评价
不足: (1)部分类目体系仍存在进一步完善的 问题。 (2)通用复分表需要完善改进。 (3)分类法系列中不同类表之间的协调 。
例:层层展开
T 工业技术
TP 自动化技术、计算机技术
TP3
计算技术、计算机技术
TP31
计算机软件
TP311
程序设计、软件工程
《美国国会图书馆图书分类法》
(三)标记符号
类号采用字母和数字混合标记, 大类用一个字母,小类用二至三个 字母,然后加序数1—9999,以区 分各级子目。
信息检索语言与技术
国际专利分类法(IPC)举例
部
B
作业、运输
分部:交通运输
B64 B64C 飞行器、航空、宇宙飞船 飞行、直升飞机
大类 小类 主组 一点分组 二点分组
B64C25/00
25/02 25/08 25/10 25/18 25/26 25/30
起落装置
· 起落架 · · 非固定的,如:可抛弃的 · · · 可快放的,可折叠的或其他的 · · · · 操作机构 · · · · · 操纵或锁定系统 如果检索的主题涉及飞机的可
人大法简表
1.马克思主义、列宁主义、 毛泽东思想 2.哲学 3.社会科学、政治 4.经济 5.军事 6.法律 7.文化、教育、科学、体 育 8.艺术
9
9.语言、文字 10.文学 11.历史 12.地理 13.自然科学 14.医药卫生 15.工程技术 16.农业科学技术 17.综合参考
000 100 200 300 400 600 700 800 900
26
二.公众分类法的产生与发展
Folksonomy应用:
窄公众分类法(Narrow Folksonomy) 特点:用户特质 因为用户在知识结构和兴 趣领域上具有很大的同质 性。所以窄公众分类的可 以用于为某一领域或专业 的信息或知识提供共享平 台。
-8
27
二.公众分类法的产生与发展
Folksonomy发展趋势:
10
医学 家政 农业 工程 矿冶 化学工业 制造 商业 商学
441 442 443 444 445 446 447 448 449
土木工程 道路工程 水利工程 船舶工程 市政工程 机械工程 陆空交通 电气工程 核子工程
《杜威十进分类法》(DDC)
3检索语言
A C B
矛盾关系
两个概念的外延互相 排斥,而它们的外延 之和等于其共同上位 概念的外延总和。如: 英语教材——非英语 教材,它们的外延之 合为教材。
A B
对立关系
两个概念的外延互相 排斥,而它们的外延 之和不等于其共同上 位概念的外延总和。
A C B
2 检索语言的类型
检索语言的种类很多,由于它们表达主题 概念以及提供给用户检索的方式不同,因而 的概念完全相 同。如:马铃薯与 土豆;澳大利亚与 澳洲。
A B
从属关系
又称上下位关系。其中 一个概念完全被包括在 另一个概念的外延里。 外延较大的称为上位概 念,外延较小的称为下 位概念。如:信息与知 识传播——新闻学—— 新闻工作者——电视工 作者。
A B
交叉关系
概念间有部分外 延重合。如:A= 生物,B=化学, C=生物化学
关键词语言
所谓关键词,是从文献的题名、摘要和内 容中直接抽取出来的,未经规范化处理的自 由词汇。关键词不受词表控。
单元词语言
所谓单元词,是从文献正文、摘要或题目 中抽取出来的、最基本的、不可再分的词。 它一般未经规范,也无词表,检索时根据检 索课题的内容特征,选取恰当的单元词进行 组配检索。
3 网络环境下检索语言的发展趋势
1. 分析所需查找文献的内容主题; 2. 判断该主题在分类法中属于哪一大类,然 后再从大类一级一级往下寻找,只到查到 具体类目为止,记下分类号 3. 根据检索到的分类号在检索工具中检索, 便可查得所需文献。
主题语言
主题语言是使用词语标识的一类检索语言。 它用自然语言中的名词、名词性词组描述事 务概念的中心语义。主题语言不管各概念间 的相互关系,全部按照字顺来排列。 主题词语言包括标题词语言、叙词语言、 关键词语言和单元词语言。
检索语言的表示形式及发展方向
检索语言的表示形式及发展方向作者:孙赟星来源:《中国新技术新产品》2010年第18期摘要:作为情报语言学研究对象之一的检索语言,在情报检索中的应用正日趋广泛。
本文分析了检索语言不同的表现形式及未来发展方向。
关键词:检索语言;检索系统;整体检索语言1检索语言的定义检索语言是信息检索系统存贮与检索所使用的共同语言。
它是专门用来描述文献的内容特征、外表特征和表达情报提问的一种人工语言。
由于自然语言不可避免地存在词汇上的歧义性,语义上的歧解性,不便用于标引和检索工作,因此情报检索领域出现了各种检索语言。
检索语言由具体的检索标识构成。
包括分类语言、主题语言和代码语言。
分类语言是以数字和字母相结合作为基本字符,以基本专业类目为基本词汇,以类目的从属关系来表达复杂概念的一类检索语言。
用分类语言来描述和表达文献内容的加工方法称为分类法。
2检索语言的表示形式2.1以词表的方式建立的综合词表和各类专业词表受控检索语言是通过词表对检索语言中的同义词、同音词、多义词、同形异义词、近义词等进行规范化处理,建立各词之间的相互关系和位置。
具体地说就是通过“用、代、属、分、参”来限定各词的语义和关系,通过词族可了解一词的上下位关系,通过用/代项可知道某词的同义词和近义词,对于采用主题法对文献进行主题标引并使文献按一定规律排列的加工过程来说,叙词表起到了规范用词的标准作用。
世界各大型情报机构都有自己的主题词表。
例如: 英国剑桥科学文摘CSA(Cambridge Scientific Abstracts)有主题词表(Thesaurus),作为标引和检索的查询工具。
在我国,比较权威的是应用分类法组织文献信息的《中图分类法》和应用主题法组织文献信息的《汉语主题词表》,以及代表文献处理发展方向——分类主题一体化的《中国分类主题词表》。
各个专业情报机构依据专业资料的特殊性又相继编制了各类专业词表。
据不完全统计,国内已实际应用的词表有60多部,词表容量超过1万的有10部左右。
中文信息检索的前沿技术是什么
中文信息检索的前沿技术是什么在当今信息爆炸的时代,如何快速、准确地从海量的中文数据中获取所需的信息,成为了一个至关重要的问题。
中文信息检索技术应运而生,并且不断发展和创新。
那么,中文信息检索的前沿技术究竟是什么呢?要理解中文信息检索的前沿技术,首先得明白传统的信息检索方法存在的局限性。
过去,我们主要依靠关键词匹配来进行信息检索,但这种方式往往无法理解文本的语义和上下文,导致检索结果不够准确和全面。
如今,前沿的中文信息检索技术在多个方面取得了突破。
其中,自然语言处理技术的应用是一个重要的方向。
自然语言处理能够让计算机理解和处理人类的自然语言,从而更好地理解用户的检索需求。
例如,通过对用户输入的问题进行语义分析,计算机能够提取出关键的概念和意图,而不仅仅是简单的关键词。
深度学习技术在中文信息检索中也发挥着关键作用。
深度学习模型,如卷积神经网络(CNN)和循环神经网络(RNN),可以自动从大量的文本数据中学习特征和模式。
通过这些模型,计算机能够对中文文本进行更深入的理解和表示,从而提高检索的准确性。
知识图谱技术是另一个备受关注的前沿领域。
知识图谱将各种实体、概念和它们之间的关系以图的形式组织起来。
在中文信息检索中,利用知识图谱可以提供更丰富和准确的语义关联,帮助用户更全面地获取相关信息。
例如,当用户检索某个历史人物时,知识图谱可以同时提供该人物的生平事迹、相关事件以及与之有联系的其他人物等信息。
多模态信息融合也是中文信息检索的一个新趋势。
除了文本信息,图像、音频、视频等多模态数据也蕴含着丰富的信息。
通过将这些不同模态的数据进行融合和协同处理,可以为用户提供更全面、更直观的检索结果。
比如,在检索某个旅游景点时,不仅能获取相关的文字介绍,还能看到景点的图片和视频。
个性化检索技术也是前沿研究的重点之一。
每个人的信息需求和偏好都有所不同,个性化检索技术能够根据用户的历史行为、兴趣爱好和上下文信息,为用户提供定制化的检索结果。
知识查询语言的标准
知识查询语言的标准一、引言在当今信息爆炸的时代,我们每天都需要从互联网上获取各种各样的知识。
然而,由于知识的多样性和分散性,我们往往需要花费大量的时间和精力来查找和整理这些知识。
为了解决这个问题,知识查询语言的标准应运而生。
本文将全面、详细、完整地探讨知识查询语言的标准,包括其定义、特点、应用以及未来的发展方向。
二、知识查询语言的定义知识查询语言是一种用于查询和获取知识的语言。
它通过特定的语法和语义规则,使用户能够准确、高效地表达自己的查询需求,并从知识库中获取所需的信息。
知识查询语言可以是自然语言,也可以是专门设计的形式化语言。
三、知识查询语言的特点1.灵活性:知识查询语言应该具有足够的灵活性,以适应不同领域、不同类型的知识查询需求。
它应该能够支持各种查询操作,如条件查询、范围查询、模糊查询等。
2.表达能力:知识查询语言应该具有强大的表达能力,能够精确地表达用户的查询需求。
它应该能够处理复杂的查询条件和逻辑关系,并能够支持各种查询操作符和函数。
3.可扩展性:知识查询语言应该具有良好的可扩展性,能够方便地添加新的查询操作和函数。
它应该能够支持自定义的查询操作和函数,以满足不同用户的特定需求。
4.标准化:知识查询语言应该具有统一的标准,以便不同系统之间能够互操作。
它应该具有清晰的语法和语义规范,以便用户能够准确地理解和使用。
四、知识查询语言的应用知识查询语言在各个领域都有广泛的应用。
以下是一些常见的应用场景:1. 数据库查询知识查询语言可以用于查询和管理数据库中的数据。
例如,SQL(Structured Query Language)是一种常用的知识查询语言,用于查询关系型数据库中的数据。
2. 搜索引擎知识查询语言可以用于搜索引擎中的信息检索。
用户可以使用特定的语法和关键词来表达自己的查询需求,搜索引擎将根据这些查询条件来返回相关的搜索结果。
3. 专家系统知识查询语言可以用于专家系统中的知识表示和推理。
3信息检索语言
• 自然语言处理的基本原理
自然语言理解 自然语 言接口
• 自然语言理解的三个主要问题是:
与思维过程有关——句法知识 与语言输入的表征和意义有关——语义知识 与世界知识有关——语用知识
ห้องสมุดไป่ตู้
3.4 中文分词技术研究
• 中文搜索引擎与西文搜索引擎在实现的机制和原理上大致 雷同,但由于汉语本身的特点,必须引入对于中文语言的 处理技术,而汉语自动分词技术就是其中很关键的部分 • 分词的准确性和速度是衡量分词技术的两个指标
• 情报学的认知观对信息检索语言研究的影响
• 信息检索过程是个非常复杂的认知过程,是一种由已知通 向未知过程。
原始 信息
概念 结构
可传递 的形式
知识的 不足
不足知识 的可交流 结构
两者 比较
3.1 受控检索语言的分析比较
• 受控语言是用于对自然语言进行事先规范的人工 语言 • 优势:
• 文献描述与概念表达的惟一性、专指性,便于提高检准率 • 通过揭示同义词、近义词和相关词等词间关系可以提高检全率
• 二次扫描法
二次扫描法基本思路是:取待处理材料中两个切分标志之间的部 分作为样本串,检查分词词典是否有一个词,它的前两个汉字和该样 本串相同,若有的话,则去样本串的前三个汉字作为匹配串,重新在 分词词典中查找以匹配串位子串的词,若有则重复下去,直到进行到 一个汉字为止,则切分出一个一字词;若没有,则完成一次扫描;把 匹配串的最后一个汉字去掉,作为新的匹配串,进行第二次扫描,第 二次扫描用RMM或MM法进行。
• 主要的自动分词算法
• 基于字符串匹配的分词方法
又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充 分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成 功。 按照扫描方向的不同, 串匹配分词方法可以分为正向匹配和逆向匹配; 按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短) 匹配; 按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注 相结合的一体化方法。 还可以将上述各种方法相互组合 一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。 统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大 匹配的错误率为1/245 由于分词是一个智能决策过程,机械分词方法无法解决分词阶段的两大基 本问题:歧义切分问题和未登录词识别问题。 因此,机械分词一般作为一种初分手段
3-3主题检索语言
4
2、2 Uniterm indexing
元词法的概念:以单元词作为检索标识的文献标引和检索方法。 它是对标题法先组式标识进行改革而形成的一种后组式语言。元 词是指能够表达文献主题,经过规范化处理的最小、最基本的词 汇单元,具有概念上的独立性、单元性和规范性的特点。
叙词语言具有严密的语义关系。根据词义的需要,叙词相互之 间有3种语义关系:⑴ 等同关系(用-代),指叙词与非叙词之 间的关系。⑵ 等级关系(分-属-族),指专指度深浅不同的 两个叙词之间的隶属关系。⑶ 相关关系(参-参),指叙词之 间存在一定的关联、交错、对立和矛盾的关系(或称类缘关 系),两者互为参照。
键词法的主要特点: ⑴ 采用语词作为概念标识,直接从文献中抽取关键词。相对于叙词
法、标题法和元词法来说,要求标引水平低,尤其适用于计算机 处理和自动标引。 ⑵ 具有丰富的轮排方式并建立字顺排列体系,检索非常方便。采用 键词法的检索系统是时差最短和最经济的检索系统。 ⑶ 由于键词的非规范性,词汇质量较粗略,影响到文献检索的查全 率和查准率等。 键词法的表现形式——Keyword Index。
3-3 Subject Retrieval Language
一、主题检索语言的概念与特点 二、主题检索语言的基本类型 三、《汉语主题词表》与文献标引
思考题
1
一、主题检索语言的概念与特点
1、1主题检索语言是指采用描述文献主题的语词标识并按字顺排检的 信息检索语言。一般由主题词表及其编制和使用规则组成。
3
2、1 System of subject heading
2023年-2024年图书分类理论考试题库及答案
2023年-2024年图书分类理论考试题库及答案单选题L诸主题是()的图书,按著者所要阐明的主题归类。
A、比较关系B、并列关系C、应用关系参考答案:A2.主题法用()表达各种概念,并按字顺进行排列。
A、语词B、分类号C、索书号参考答案:A3.目前,分类主题一体化检索语言有四种模式:分面叙词表、叙词表式索引、()及集成叙词表。
《中国分类主题词表》属分类表一一叙词表对照索引。
A、分类表B、叙词表对照索引C、分类表一一叙词表对照索引参考答案:C4.《仿杜威书目十类法》,是一部用标记符号代表类目的新型分类法,摆脱了四分法的束缚,分类体系(),是一部适合一般图书馆类分图书的综合性分类法。
A、以一馆藏书为限B、不再以一馆藏书为限C、分学部和政部两类参考答案:B5.将图书中重要的章节分析出来单独归入有关门类,称为()。
A、分析分类B、附加分类C、完全分类参考答案:A6.西汉末年刘向、刘歆编制的()是我国第一部综合性的系统反映国家藏书的分类目录。
它所反映的分类体系,是我国最早的一部图书分类法。
A、七志B、七略C、晋中经部参考答案:B7.分类主题一体化,即分类法向着和主题法一体化的方向发展。
也就是说,分类语言和叙词语言在概念(术语)系统、参照系统、标识系统、索引系统等方面实现了(),两种或两种以上的词表融合为一个统一体。
A、兼容B、统一C、一致参考答案:A8.凡经过改编、改写的图书,应按改写后的内容重新审定归类。
文艺作品从一种体裁改写成另一种体裁的,按()归类。
A、改写前后的体裁均可B、原体裁C、改写后的体裁参考答案:C9.《美国国会图书馆分类法》(LCC),是美国国会图书馆于1901年推出的一种()分类法。
国会图书馆出版发行的卡片式款目和机读目录均用该法标引。
A、字母式B、数字式C、字母数字混合式参考答案:C10.在编制技术上,()运用了按图书内容分类和按形式分类的标准,将两者有机地结合起来;创造性地运用了互著别裁的方法。
国内外知识检索研究的进展与趋势
国内外知识检索研究的进展与趋势自20世纪50年代信息检索领域诞生以来,知识检索经历了漫长的发展过程。
随着技术的不断进步,知识检索在应用领域和研究意义方面也发生了显著变化。
起初,知识检索主要应用于学术论文检索和图书情报领域,后来逐渐扩展到商业、政府、教育等领域。
知识检索的研究意义也从简单地信息组织与查询,发展到对知识的理解、推理与生成。
近年来,随着人工智能技术的飞速发展,知识检索在研究方向和成果上呈现出一系列新的特点。
在机器学习领域,一些研究致力于开发更为高效的知识表示学习和推理算法,以提高知识检索的准确性和效率。
在深度学习领域,研究者们利用深度神经网络模型对海量数据进行学习,提取更为丰富的特征表示,为知识检索提供更为精准的支持。
随着图像处理技术的进步,越来越多的研究开始图像中蕴含的知识检索,以及如何利用图像进行有效的知识表达。
然而,尽管知识检索研究已经取得了一定的成果,但仍存在一些问题亟待解决。
例如,在信息缺失方面,由于互联网上的信息繁杂且更新迅速,知识检索系统往往难以获取到所有的相关知识。
为了解决这一问题,研究者们需要探索更为有效的知识获取和更新机制。
另外,过度数据收集也是一个亟待解决的问题。
在实际应用中,知识检索系统可能会返回大量不相关的结果,给用户带来困扰。
针对这一问题,研究者们需要深入研究用户需求,提高知识检索的精准度和效率。
展望未来,知识检索研究的发展趋势将与新兴技术紧密结合。
随着自然语言处理技术的不断发展,知识检索将越来越侧重于对自然语言文本的理解。
这不仅可以提高知识检索的精度,还可以更好地满足用户的自然语言查询需求。
随着大数据技术的广泛应用,知识检索将更加注重对大规模数据的处理和分析。
通过对海量数据的深度挖掘和分析,可以发现更多潜在的知识和模式,为知识检索提供更为丰富的资源。
随着技术的不断进步,尤其是生成式对抗网络(GAN)和变分自编码器(VAE)等技术的快速发展,知识检索将更加注重对知识的生成和推理。
第二章信息检索语言
• 标题词语言的优点: 标题词语言的优点:
– 采用列举式词表,形式直观 采用列举式词表, – 定组式标题结构固定,含义明确 定组式标题结构固定, – 按照词表列举的标题和副标题进行标引,操作简便 按照词表列举的标题和副标题进行标引,
• 标题词语言的缺点: 标题词语言的缺点:
• 单纯关键词索引: 单纯关键词索引:
索引款目纯粹由多个关键词组成, 索引款目纯粹由多个关键词组成,不包括非关 键词, 键词,由关键词轮排及文献地址组成
• 词对式关键词索引: 词对式关键词索引:
每次只取文献多个关键词中的两个配对构成索 引款目并轮排 的关键词索引
• 简单关键词索引: 简单关键词索引:
• 按照描述信息特征划分
– 内容特征语言
• 分类语言 主题语言 分类语言/主题语言
– 外部特征语言
• 名称语言 著者语言/序号语言 名称语言/著者语言 序号语言 著者语言
二、主题语言 1.相关概念: 相关概念
主题:指文献论述的对象,包括事物、问题、现象等。 主题:指文献论述的对象,包括事物、问题、现象等。 主题词:用来表达文献主题的词语。 主题词:用来表达文献主题的词语。 主题语言:是以自然语言中语词文字为基础, 主题语言:是以自然语言中语词文字为基础,以反映特定事 物为中心,以主题词字顺为基本结构的一种检索语言。 物为中心,以主题词字顺为基本结构的一种检索语言。 2. 主题语言原理: 主题语言原理:
分类法的类型
• 按照编制方法分: 按照编制方法分: – 等级列举式分类法 – 分面组配分类法 – 列举 组配分类法 列举-组配分类法
等级列举式分类法
U448.1 各种桥梁 U448.1 桥梁、按用途分 桥梁、 U448.11 人行桥 U448.12 两用桥 U448.13 铁路桥 …… U448.2 桥梁、按结构分 桥梁、
信息检索语言
信息检索语言
The Language information retrieval
1.检索语言的概念 1.检索语言的概念 2.检索语言的功能 2.检索语言的功能 3.检索语言的分类 3.检索语言的分类
第一节 信息检索语言 信息检索语言
1.检索语言的概念 检索语言的概念
信息检索语言就是信息组织和信息检索时所使用的语言( 包括自然语言)。信息检索语言是文献信息标引的规则和标准 ,标引人员可用它来标引文献以便将文献整理、加工、存储于 检索系统中,同时,检索人员可用它来表达检索课题信息的内 容,以便把特定文献从检索系统中检索出来。 因此,检索语言就是一种把文献的存储与检索联系起来, 把标引人员和检索人员沟通起来的约定人工语言。
检索语言在检索中的作用
例如:有三篇文献篇名如下: 例如:有三篇文献篇名如下:
文献1:A Model of multimedia information retrieval 文献2:The Information retrieval in chemistry WWW server 文献3:ERIC resources 在对信息存储的过程中,对这三篇文献内容分别进行了分析,并使用检索语 言对其进行标引,标引结果为: 文献1:篇名 篇名(title): A Model of multimedia information retrieval 篇名 : 主题(subject): information retrieval, multimedia computer applications 主题 文献2:篇名 篇名(title): The Information retrieval in chemistry WWW server 篇名 : 主题(subject): chemistry, educational materials 主题 : 文献3:篇名 篇名(title): ERIC resources 篇名 : 主题(subject): educational materials 主题 :
信息检索技术
课程主讲内容:
检索语言
检索技术
图书馆OPAC
中图法介绍
信息检索基本原理
2.1 检索语言
检索语言:是描述文献特征、用于标引和检索的人工语言。 创建检索语言的目的,是建立沟通标引与检索的桥梁,也是 连接信息存储和检索两个过程中标引人员与检索人员双方思 路的渠道。 在存储的过程中用于标引信息称为标引语言;
反映文献信息内容特征:分类检索和主题检索;
反映文献外部特征:作者、名称和号码检索等。
检索语言与检索途径的关系
2.3 常用检索技术
检索技术 利用光盘数据库、联机数据库、网络数据库、搜索引擎等 进行信息检索时采用的相关技术。
布尔逻辑检索 截词检索
常 用
字段检索 词位置检索 短语检索 特殊检索 大小写检索
关键词
2.1.2 主题语言
标题词语言
最早使用的主题语言之一,以规范化的自然语义作为标识 来表示文献涉及的主题概念。其中表达主题的词语称为标题词
单元词语言
从文献内容中抽选出来的最基本的词汇,将代表最一般、 最基本的、不可再分割的概念的词作为单独标引文献的单位 单元词是构成标题词的组件,绝大部分单元词都不是具体的标题。
关键词语言
2.1.3 代码语言、自然语言
代码语言
是指对事物的某方面特征,用某种代码系统来表示和排列事物 概念,从而提供检索的检索语言。 通常用数字、字母或用它们结合的形式或以分段的方式来表示 其各部分的含义。 适用:科技报告、专利文献
自然语言
直接从原始信息中抽取出来的未经规范化处理,用以揭示信息 主题概念的检索语言。 抽取出来的词包括自由词、关键词、事物名称、科学术语、俗名、 商品型号和缩写等, 具有不用编制词表,及时跟上事物发展,准确表达事物新概念, 选词灵活方便,专指性强,标引和检索速度快等优点。
文献检索与利用(2000)讲义(4)
马 列 马 列 主 义 毛 泽 东 思 想 、 学 学
哲 综 合 政 治 科 学 总 论 、 体 育 论 律 学 理 总 法 、 事 军 济 、 科 地 学 、 科 经 教 言 文 语 学 文 术 史 然 化 科 学 学 、 科 学 生 卫 艺 历 自 理 球 文 物 、 学 术 数 地 天 生 药 业 科 技 输 天 业 运 航 学 医 农 工 通 、 科 交 空 境 航 环
水 利 工 程
检索语言-分类法- 检索语言-分类法-中图法
O 数理化 …………………………… 一级类目 O1 数学 ……………………………二级类目 二级类目 …… O3 力学 ……………………………二级类目 二级类目 O31 理论力学 ……………………三级类目 三级类目 O311 运动学 ……………………四级类目 四级类目 .1 质点运动 ……………… 五级类目 …… O4 物理学 …………………………二级类目 二级类目
同义词标引--引起漏检 同义词标引 引起漏检
– 主题 检索体系是按主题 词 字顺排列的,而用于 标引的关键词呈现出多种字面形式-同义词时, 将使同一主题的文献分散到不同的字顺位置, 使查全率受到影响。
例:飞机
Airplane Aircraft Planes
主题词种类- 主题词种类-关键词
多义词标引--引起误检 多义词标引--引起误检 -- 多义词 cell 电池 两个完全不同的概念 细胞 检索词 cell 查找细胞方面的文献 结果: 电池、 结果: 电池、细胞两方面的文献同时 被检出
中图法- 中图法-图书的排架顺序
按索书号排架 先顺序分类号, 先顺序分类号,对位排列 再顺序书次号 –种次号:由数字构成,按数字大小顺序 –著者号:由字母和数字构成,对位排列
第二章信息检索基础知识
属后组式语言。
主题词
概念:通过文献所属学科的主题对文献进行检索, 是以主题词为检索标识,它是一种特性检索。 主题词是用来表达文献的主题概念的,经过规范化 主题词 处理的名词或词组。 如:出生缺陷-畸形 杵状指-骨关节病,继发肥大性
主题词表- 主题词表-单元词表
《WPI--规范化主题词表》
(WPI--LIST OF STANDARD THESAURUS TERMS)
是检索英国德温特公司专利文献的工具。按规范 词字顺排列。其著录格式见图
WPI-List of Standard Thesaurus Terms 1987 COBALT(3772)(1) COBALT@(3) CODON【87】(4) ELECTRIC(33892)(1) Electrical(2)
关键词 自然语言 单元词 标题词 叙词 语 言 言 语
分类语言
分类语言是运用概念划分的方 法,按文献内容所属学科、专 业性质的逻辑次序,以数字、 字母或数字与字母结合为基本 字符,以分类号为标识,用来 存储和检索文献的文献标识系 统。
分类语言的特点
主要特点就是按学科专业性质集中图书 区分不同性质的图书 集中性质相同的图书 相近的放在相近的位置 按照远近亲疏的关系把图书组成为一个 有条理的体系 提供从学科分类查找图书的途径
机械制造工艺系统学 / 张恩生,申铁固编著-上海交通 大学出版社 TH16/ Z31 机械设计学习指南 / 陶民华等编机械工业出版社 TH122-44/ T43 机械优化设计基础 / 张九明编著煤炭工业出版社 TH122/ Z32A 分类号+著者号TP393-62/J25
主题语言
主题语言是指以自然语言的字符为字符, 以名词性术语为基本词汇,用名词性术 语作为标识的一种信息标识系统。是主 题概念检索文献信息的检索语言。
13检索语言与检索技术131检索语言
1.3 检索语言与检索技术1.3.1 检索语言计算机检索的基本原理是将用户的检索提问词与数据库文献记录中的标引词进行对比,当提问词与标引词匹配一致时,即为命中,检索成功。
由此可见,能否准确地检索出用户所需的信息,关键在于能否准确地选择检索词。
这里所谓的“准确”,是指用户所选用的检索词必须与数据库中标引文献记录所用的标引词相一致。
检索语言就是为沟通文献标引与文献检索而编制的人工语言,也是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道,是用于文献标引和检索提问的约定语言。
如果没有检索语言作为标引人员和检索人员的共同语言,就很难使得标引人员对文献信息内容的表达和检索人员对相同文献信息内容需求时的表达取得一致,信息检索也就不可能顺利实现。
因此,编制检索语言的目的就是不但能够保证不同的标引人员描述文献特征的一致性,而且能够保证检索提问词与文献标引词的一致性。
要把存储和检索联系一致,检索语言所表达的概念应该是唯一的。
这就是说,表达的概念同所要表达的事物一一对应,尽量减少一词多义或多词一义的现象,要使其在该检索系统中具有单义性。
检索语言的类型主要分为分类语言和主题语言,如图1-3所示。
图1-3 检索语言类型示意图1. 分类语言分类语言是以学科体系为基础,用号码作为概念标识,按分类编排的检索语言。
国内外比较重要的分类语言表有《国际专利分类表》、《杜威十进分类法》、《中国图书馆图书分类法》、《中国科学院图书分类法》等。
2. 主题语言主题语言是以语词作为概念标识,按字顺编排的检索语言。
主题语言包括标题词语言、单元词语言、叙词语言和关键词语言。
(1)标题词语言——最早使用的一种主题语言。
它以规范化的自然语义作为标识,来表达文献涉及的主题概念,并将全部标识按字母顺序排列。
表达主题的词语称为标题词。
(2)单元词语言——是从文献内容中抽选出来的最基本的词汇,将代表最一般、最基本的、不可再分割的概念单元的词作为单独标引文献的单位。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
能够 以任何方式支持主题标引和检索作业 , 包 括 机 辅标 引 ( 自动 标 引 ) 或 和全 文检 索 、 自 由词检 索 , 不开各 类词 表的支 持 。 面提 都离 上 到的单 汉 字检索 系统尽 管没有 以叙 词表 为基 础 的 人 工标 引 ,但 还 需要 “ 用 词表 ”S p 停 (t o L t支 持其 自动抽 取关 键词 。 i) s 33检索 语 言 由前 控 向后 控 的发展 - 为 了弥补 无控 制词 表 的不足 ,单汉 字检 索系统 还需 要 建立 后控 词表 ,一种 不供标 引 只供检 索用 的词 表 。 当检索者 为 了查全某 一 主题 的资料 ,而 不 了解 相应 的同义 词和相 关 词时 , 输人 一个 自己以知 的检索 词 , 只需 系统 就能通 过后 控词 表 自动 将有关 同义 词与相 关 词 纳人 检 索式 , 并用 “ ” 或 逻辑 连接在 一起 。 从 而提 高查全 率 。配 备后 控制词 表是 提高 自然 语 言检 索效 率 的有效 措施 。 3 受控 语 言与 自然语 言相结合 的标 引 . 4 传 统 的 受控 语 言 与 自然 语 言共 同使用 , 可起 到优势 互 补 的作用 。这 在国 内外 已形 成 共 识 。 电子科 技文摘 》 《 的文献加 工 、 排序 组织 即采 用此种 方式 : 同时用 分 类号 ( 范畴号 )叙 、 词( 主题词 ) 自由词 ( 键词 ) 引一篇 文献 , 、 关 标 检索 时 分类 号 、叙 词 、 自由词 皆为可检 索字 段 。有人将 分 类 号、 叙词 、 自由词 合为一 体的 检索 方式 称 为整体 化 检索语 言 , 实践表 明 , 整 体化 检 索语 言足联 机检 索系统 理想 的语 言 。
发展 方 向。
关 键词 : 索语 言 ; 索 系统 ; 检 检 整体检 索语 言
1检 索语 言的定 义 电 子 版 《 防 科 学技 术 叙 词 表 》 拥 有 叙 词 国 检索语 言是信 息检 索系统 存 贮与 检索 所 900条 , 00 自由词 2 0 条 , 词表 维护界 面上 00 在 使用 的共 同语言 。它是 专 门用来 描述 文献 的 可完 全实 现对词 表 的增 、 、 删 改以及 对某 词条 内容 特征 、外 表特 征 和表达 情报 提 问的一 种 的范 畴号 、 用代 词的界 定 。 此大 容量 的词表 如 人 工语 言 。由于 自然语 言不 可避 免地 存在 词 若印 刷成 书 , 其厚 度将难 以想 象 。 算机 的应 计 汇上 的歧义 性 , 义上 的歧解 性 , 语 不便 用于 标 用 以其 高 速度 、大存储 容 量为 检索语 言 的联 引和检 索工 作 ,因此情 报检 索领 域 出现 了各 机显示 铺 平 了道 路 。 种检 索 语 言 。 检索 语 言 由具体 的检 索 标 识 《 计算 机世界 》 在线标 引界 面 的叙 词与 的 构成 。包括分 类语 言 、 主题语 言和 代码 语 言 。 自由词 同 时显 示 为 标 引 人 员 提 供 了另 一 便 分类语 言是 以数字 和字母 相结 合 作为 基本 字 利 : 自由词 库 也 同叙 词库 一 样变 得 “ 明 ” 透 起 符, 以基本专 业类 目为基 本词 汇 , 以类 目的从 来 :标 引员 甲标 引过 的 自由词被 存储 在 词库 属关 系来表 达复杂 概念 的一类 检 索语 言 。用 中可供 标 引员 乙 、 参考使 用 ; 过一 定周 期 丙 经 分类语 言来 描述和 表达 文献 内容 的加 工方 法 的积 累利 用词频 统计 ,可将 高频 自南词转 为 称为分 类法 。 叙词 。在这 里计 算机 内的 自由词 库为 词 表的 2 检索语 言的表 示形式 扩充起 到 了统计 依据 。 21 以词 表 的方 式建 立 的综 合词 表 和 各 . 3检索语 言 的发展 方向 类 专业 词表 31基 于词表 的机辅 标引 与检索 系统 . 9 0年 代 初 开 始 的 自然 语 言 处 理 以及 检 受 控检索 语言是 通过 词表 对 检索语 言 中 的同义 词 、 同音词 、 多义词 、 同形异 义词 、 义 索语 言的机 读化 和联机 化开 始 了检索 语 言应 近 词 等进 行规 范化处 理 ,建 立各 词 之间 的相 互 用的 新纪 元 。 19 年 l 月 ,美 国情报 学 会 91 O 关 系和 位置 。具体 地说 就是通 过 “ 、 、 、 ( SS 在华 盛顿举 行第 5 届 年会 , 用 代 属 A I) 4 会上 讨 论 分 、 ” 限定 各词 的语 义 和关 系 , 过 词 族 了文献 处理 技术 的重点 ~ 检索语 言技 术 。在 参 来 通 可 了解 一 词的 上下位 关 系 , 过 用, 通 代项 可 知 检索语 言机 读化 方面走 到前 列 的美 国医学 图 道 某词 的 同义词和 近义 词 ,对 于采 用 主题 法 书馆 和 N S 的宇航情 报 中心介 绍 了他们 的 AA 对 文献 进行 主题标 引并使 文献 按 一定 规律 排 研究 成果 。以美 国医学 图 书馆 主题 表 M S eH 列 的加 工过 程来说 ,叙词 表起 到 了规 范用 词 和宇航 情 报 中心 的 N S A A叙 词表 及其 支持 的 的标准 作用 。 数据 库为代 表 的专业情 报界 的检 索系 统历 经 世 界各 大型情 报机构 都有 自己的 主题 词 1 多 年 的应用 与 不断 改进 , 0 发展成 为今 天 占 表 。例 如 :英 国 剑 桥 科 学 文 摘 C A C m 主流 的基 于控制 语言 ( S (a — 无论 是主 题词 表 、 词 叙 b de S i t c A s at)有 主题 词表 ( h — 表 、 r g c n f bt c i ei i r s T e 关键 词表 、 自由词 表 、 中介 词 表 、 用词 表 停 suu) 为标引 和检 索 的查 询 工具 。在 我 还是特 例词 表 ) ars ,作 的机辅标 引和联 机检 索系统 。 国 。比较权威 的是 应用 分类法 组 织文 献信 息 在 国 内 ,多 年来情 报界 与计 算机 界 的专 的《 中图分类法》 和应用主题法组织文献信息 家一 直在探 讨利 用计算 机 软件技 术实 现文 献 的《 汉语 主 题词 表 》 以及代 表 文献 处 理 发 展 标引 、 、 , 分类 编写 文摘 的 自动化 。近年 来我 国 方 向— — 分类主题 一体 化 的 《 中国分 类主 题 情报界 已研 制成 多个 自动标 引系统 ,例如 北 词表 》 各个 专业情 报机构 依据专 业资 料 的特 京大学 的 “ 。 汉语 科技 文献 自动标 引 系统 ”上 、 殊 性 又相继 编制 了各类 专业 词表 。据 不完 全 海交 通大学 和上 海科技 情报 研究 所合 作研 制 统计 ,国内 已实 际应 用的词 表有 6 多 部 , 0 词 的“ 中文科技 文献 的 自动标 引系 统” 堪称 为 等 表容量 超 过 1 万的有 l 部左 右 。我所 《 0 电子 国 内水 平 的代表 作。 3 . 于 自然语 言 的检索 系统 2基 科技文摘》 的编辑与组织就是依照《 电子技术 叙 词 表 》 行 主题标 引的 , 时建 立 的 “ 子 进 同 电 众 所 皆知 , 为主 题法 ( 词 法 ) 理 文 作 叙 处 科技 文摘数 据库 ” 以该 表作 为检 索语 言 。 也 献依 据 的 叙词 表 为标 引 提供 了理论 依 据 ; 若 2 - 2词表 的联机 显示 将叙 词表 显示在 检索 界面 上将会 为检 索 用户 将 叙 词表输 入到 计算机 中 ,应用 菜单 技 提供 查词依 据 :根据 检索 到文 章 的多少 按照 术 制成 电子 版 的多 窗 口联 动 的显 示 界 面 , 可 词族 表进 行上位 词扩 检或 下位 词缩 减 。这将 同时 显示 一词条 的相关 关 系( 中英 文对 照 、 要 求 用 户 熟悉 叙词 表 的编 制 框 架 和 编 制 原 如 分 类号 、 词 代词 等 )有 利 于机 辅标 引时 词 则 。是否 能让用 户完 全使 用 自然语 言提 问检 用 , 表 的使 用 和词表 维护 修订 。 中国国 防科技 信 索 呢?基 于 自然 语 言处理 的检 索 系统足 国 内 息 中心研 制 的图书 馆业务 子 系统 ( i S巾 同行 的另 一个 研 究 方 向 。“ Lb ) MI 演绎 情 报 检 索系 的“ 文献著 录和标 引模 块”采 用 了 以《 , 国防科 统 ” 是 其 中的一例 。 则 学技术叙词表》为主体的计算机辅助联机标 传统 的情 报检索 过程 中用 户所 能操 纵与 引, 依次通 过 “ 词导 航” 供查 询词 库 功能 , 检索 的数 据仅 是实 际存 在于 检索 系统 中的数 叙 提 这些 数据 称为实 数据 。 由实数 据和 逻辑推 通 过“ 叙词 定位 ” 反映 叙词 词族 关系 ,叙词 调 据 , “ 整 ” 叙 词进 入 到标 引记 录 , 过 “ 加 自d 理 功能 相结合 可得 到一种 新型检 索系 统一 演 使 通 增 { 词 ” 现 自由词标 引 。该中 心 2 0 实 0 0年 出版 的 绎 情报 检索 系统 。新 系统所 占实 际物 理空 间
与传 统情 报 检索 系统 相差 无几 ,只是 多 了若 干规 则 。正 是 由于这 些 规则 ,使 系统 实现推 理 , 用 户能 检 索到 没有 明显 存放着 的虚数 使 据 。演绎 情报 检 索系统 的特 点是 以 自 语 言 然 为检 索语 言 , 自然 语言 为输 出检索结 果 。 以 而 通常 用叙 词表 表示 的上 下位 关 系和用代 关系 等都 利 用 程 序设 计 语 言将 规 则理 解 和表 示 。 与一 般 的情报 检 索系 统相 比,它 除 了有信息 数据 库 以外 , 有 一个检 索 数据库 , 据库 还 此数 是 由将情报 检 索专 家 的知识 和经 验及应 用领 域 的 知识 归 纳 抽 象 成 一 系 列 程 序 子句 构 成 的 , 而 真正实 现 了智能 化检索 。 于 自然语 从 基 言处 理 的 检 索 系统 除 了演 绎情 报 检索 系 统 , 还有单 汉 字检索 系 统 、 本检 索系统 。 全文 综 上 所 述 , 于 控制 语 言 ( 表 ) 基 词 的检 索 系统 和基 于 自然 语 言 的检 索 系统 都 在这 1 0 年中得 到 了蓬勃 发展 。 人预 言 , 有 以控制 词汇 ( 表 ) 基 础 的模 式 向 以 自然 语 言 的字 ( 词 为 关 键字 ) 为基 础 的模式 转变 , 当今检 索系统 的 是 发展趋 向之 一 。 但还 有人 声明 , 控语言 的主 受 导地位 不会 被 取代 ,一 种结 构 良好 的叙词 表