信息检索语言
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二节信息检索语言
计算机检索的基本原理是将用户的检索提问词与数据库文献记录中的标引词进行对比,当提问词与标引词匹配一致时,即为命中,检索成功。
由此可见,能否准确地检索出用户所需信息,关键在于能否准确地选择检索词。
这里所说的“准确”,是指用户所选的检索词必须与数据库中标引文献记录所用的标引词一致。
然而实际工作中,从事信息存储的人员与从事信息检索的人员绝大多数情况下不可能进行直接的思想交流,因而会造成存储信息与检索信息所依据的规则不一致,导致存入的文献检不出。
为了避免这种情况发生,在信息标引人员与信息检索人员之间必须制定一种共同遵守的规则,即一种约定的相同标识和线路,这就是检索语言。
一检索语言的含义及作用
1 检索语言的概念
检索语言(information retrieval language),是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种专门语言。
所谓检索的运算匹配就是通过检索语言的匹配来实现的。
检索语言是人与检索系统对话的基础。
有了这种规则,信息标引人员在进行信息存储的过程中,就会对原始信息进行分析,找出其能代表信息的特征与检索语言(检索标识系统)进行对照标引,然后纳入检索系统;而信息检索人员在进行信息检索的过程中,则先对待查课题进行分析,归纳出各种信息特征,使之形成能代表需要的检索提问,然后把这些提问与检索语言(检索标识系统)进行核对,标引成检索提问标识。
如果没有检索语言作为标引人员和检索人员的共同语言,就很难使得标引人员对文献信息内容的表达和检索人员对相同文献信息内容需求时的表达取得一致,信息检索也就不可能顺利实现。
2 检索语言的工作原理
(1)存储:检索系统对文献内容进行分析,概括分析出若干能代表文献内容的语词,并赋予一定的标识,如题名、作者、主题词等,作为存储与检索的依据,然后纳入到数据库中。
(2)检索:检索人员首先要对检索课题进行分析,同样形成若干能代表信息需求的语词,然后通过检索系统在数据库中匹配具有同样语词和标识的文献,找到自己所需的信息。
3 检索语言的作用
(1)保证不同标引人员表征文献信息的一致性。
(2)使内容相同及相关的文献集中化。
(3)保证检索提问与文献信息标引的一致性。
(4)保证检索者按不同需求检索文献信息时都能获得较高的查全率和查准率。
二检索语言的类型
1 自然语言(natural language)检索用词是从信息内容本身抽取的,主要依赖于计算机自动抽词技术完成,辅以人工自由标引(非依据词表的标引方法),是非规范词(uncontrolled term)。
(1)关键词(keyword):直接从信息资源名称、正文或文摘中抽出的代表信息主要内容的重要语词。
(2)题名:信息资源的名称,如论文篇名、图书书名、网站名称等。
(3)全文:从资源的内部内容中自动抽取、查找,是目前网上各类搜索引擎使用的最多的方法。
(4)引文(quotation):将文献所引用的参考文献的作者、篇名、来源出版物抽取出来进行标引。
自然语言的优点:
(1)新颖性强:一旦文献中出现某个新词语,即可直接使用这一词语作为检索入口,根本无需像受控语言那样冥思苦想地将其转换成另一规范词用于检索。
(2)检索方便:它解除了人工语言的种种限制,不需要复杂的检索规则,使用者能较快适应,易用性强。
(3)标引准确度高:自然语言采用从文献中抽词标引的方式,不容易发生误标引,适用于计算机检索。
只要数据库的文献标题中含有该检索词,即视为命中,健全率较高。
自然语言的缺点:
(1)词汇量太大,给词汇的存储、加工和检索带来许多操作性方面的困难。
(2)当文献的主题很明白清楚地在标题或主题词中表达出来时,检索才会较成功,反之则失效。
(3)词汇具有模糊性,另外多义、近义、同义现象较多,给标引和检索带来困难。
2 人工语言
由人工创制的,采用规范词,用来专指某个概念或与之相应的概念。
可以将同义词、近义词、相关词、多义词及缩略词规范在一起,由人工控制。
包括分类检索语言、主题检索语言、代码检索语言。
(1)分类检索语言
按学科范畴及知识之间的关系列出类目,并用数字、字母符号对类目进行标识的一种语言体系,也称分类法。
中国图书馆图书分类法
美国国会图书馆分类法
杜威十进位分类法
IPC国际专利分类表
下面以《中图法》为例说明体系分类法的结构与功能。
《中图法》是体系分类法的典型代表,是现今国内图书情报部门普遍使用的一部分类法。
《中图法》的类目表由基本大类、简表、详表和复分表组成。
基本大类是分类法中的第一级类目,是对学科领域的基本划分。
《中图法》共有二十二个基本大类,每个大类都用一个英文字母表示。
如下所示:
A 马克思主义、列宁主义、毛泽东思想、邓小平理论
B 哲学宗教
C 社会科学总论
D 政治法律
E 军事
F 经济
G 文化科学教育体育
H 语言文字
I 文学
J 艺术
K 历史地理
N 自然科学总论
O 数理科学化学
P 天文学地球科学
Q 生物科学
R 医药卫生
S 农业科学
T 工业技术
U 交通运输
V 航空航天
X 环境科学劳动保护科学
Z 综合性图书
简表又称为基本类目表,是分别对每个基本大类,依据它的某些属性,作进一步划分后而形成的二、三级类目表。
如:Q 生物科学
Q1 普通生物学
Q2 细胞学
Q3 遗传学
Q4 生理学
Q5 生物化学
┇
详表又称主表或正表,由简表进一步细分而成的最小概念性分类表。
如:
I 文学
I0 文学理论
I1 世界文学
I2 中国文学
I20
I21 作品集
I22 诗歌、韵文
I23 戏剧文学
I24 小说
I242 古代至近代作品
I246 现代作品
I247 当代作品
I247.4 章回小说
I247.5新体长篇、中篇小说
I247.7新体短篇小说
I247.8故事、微型小说
I25报告文学
I26散文
┇
I3/7 各国文学
复分表是供主表中某些类目共同细分而从主表中抽出的一部分类目表。
使用体系分类检索语言编制的分类表按学科或专业集中文献信息,以学科概念的上下左右关系反映事物的派生、隶属、平行的关系,较好地体现了学科的系统性,能较好地满足族性检索的要求。
其次,体系分类法用字母和数字表示类目,便于组织文献排架及目录系统,又适于文献信息的收集和编制手工检索工具。
但由于体系分类法使用的是号码式语言作检索标识,一方面不直观,另一方面在检索文献信息时,必须将文字主题转换成分类标识,在转换过程中,容易产生差错,造成误检或漏检,影响检索效率。
此外,体系分类法采用的是先组式检索语言,因此,增补新概念困难,修改不及时,不适应新兴学科和边缘学科的检索。
(2)主题检索语言:主题检索语言是以词语作为表达主题概念的标识,按字顺编排的检索语言。
标题词语言是最早使用的一种主题语言。
它以规范化的自然语义作为标识来表达文献涉及的主题概念,表达主题的词语称为标题。
单元词语言是从文献内容中抽选出来的最基本的词汇、将代表最一般、最基本的、不可再分割的概念的词作为单独标引文献的单位。
叙词语言是从自然语言中优选出来并经过规范化处理的名词术语。
采用表示单元概念的规范化语词的组配对文献内容主题进行描述,也是目前使用最广泛的主题语言。
主题语言举例:下例为EBSCO出版公司Business Source Premier数据库中选定“建议主题语” (据2008年数据)
(3)代码检索语言
就事物的某一方面特征,用某种代码系统来加以标引和排列,目前主要应用于化学领域。
例如。
化合物的分子式索引系统、环状化合物的环系索引系统等。
3 人工语言与自然语言的关系
与自然语言相比较,人工语言的检索效率要高于自然语言,查全率和差准率都比较高,但人工语言是基于印刷性资源产生的,对标引和检索来说,标引工作量大,需要不断维护,管理成本高,用户也不易掌握。
因此,在数字资源飞速发展的今天,仅使用人工语言是远远不够的。
自然语言由于主要由系统自动标引完成,灵活、新颖、检索入口多、专指性好,管理和维护的成本较低,用户也不需要特别的学习和培训;但由于目前计算机的抽词技术还无法做到从自然语言文本中自动抽取最准确、充分表达信息资源内容的词,也无法自动规范自然语言和表现概念之间的关联,检索效率很低,具体表现在搜索引擎的使用上,利用搜索引擎检索出来的内容大部分是无用信息。
因此人工语言和自然语言并不是互相对立的,比较成熟的检索系统,通常是两种检索语言并用,互为补充,以保证较高的检索效率。