1.信息检索语言的原理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、信息检索语言的概念逻辑
3.相关关系
(2)并列关系
相容的并列关系是指同一个属概念包含着几个同层次的种概念, 其外延是相互交叉的,如“社会科学家”这一属概念下的“经济学家” 、“哲学家”。
其逻辑关系如图所示:
A
B
并列关系:相容
二、信息检索语言的概念逻辑
3.相关关系
(2)并列关系
不相容的并列关系是指属于同一属性概念的几个同层次的种概念 ,其外延彼此排斥,没有重合,如“高等教育”下的“高等职业教育” 、“本科教育”、“研究生教育”等。
词类控制
自然语言有多种类型,如名词、动词、形容词、副词、介 词等。
按照对信息内容揭示的要求,检索语言一般只选择名词或 名词性词组(普通名词、专有名词),必要时收入少量形 容词。
一、信息检索语言的控制
1.检索语言的词汇控制
(3) 词形控制
词形控制
主要指对异形同义词进行处理,限定每个概念只用一个语 词形式表达,一个概念只有一个唯一的称谓,一种书面表 达形式。
对立关系:是指两个概念的外延互相排斥,其外延之和等于不 等于其上位概念的外延。如:“电影” 这一上位概念下的“黑板电 影”和“彩色电影” ,除了“:黑板电影”和“彩色电影”之外,还有“ 电视电影”等。
其逻辑关系如图所示:
A
B
对立关系
二、信息检索语言的概念逻辑
总之,上述等同关系、等级关系和相关关系是概念逻辑的基本 原理,也是信息内容反映的概念的主要逻辑关系。 信息检索语言在表达各种词汇和词汇间的关系是以概念逻辑原 理为基础的,通过概念逻辑原理的应用,检索语言将反映信息 内容主题的各种词汇(标识)组织成有序的结构体系。
一、信息检索语言的控制
1.检索语言的词汇控制
(1) 词量控制
词量控制
即根据标引与检索的需要,对自然语言进行精选和处理。
• 主要选择各学科与经常出现的,在信息检索中具有一定使用频 率,并能汇集一定信息量的术语,使检索语言词汇其保持在一 定的规模内。
一、信息检索语言的控制
1.检索语言的词汇控制
(2) 词类控制
其逻辑关系如图所示:
A
B
C
并列关系:不相容
二、信息检索语言的概念逻辑
3.相关关系
(3)矛盾关系
矛盾关系:是指两个概念的外延互相排斥,其外延之和等于其 上位概念的外延。如“教师”这一上位概念下的“男教师”和“女教 师”,其逻辑关系如图所示:
A
B
矛盾关系
二、信息检索语言的概念逻辑
3.相关关系
(4)对立关系
• 包括对词的不同形体(简繁体)、词的顺序、词的长 度、不同拼写、数字用法、各种符号的用法等规定。
一、信息检索语言的控制
1.检索语言的词汇控制
(4) 词义控制
词义控制
对多义词、同形异义词以及词义含糊不清的一些词进行规范 处理,使其具有明确性和单义性。
• 一般通过在词汇后加限义词或加注的方法予以解决。
二、信息检索语言的概念逻辑
3.相关关系
相关关系也称类缘关系,是指除等同关系和等级关系之外的具 有语义关联的一类概念关系 相关关系是揭示检索语言词汇间各种主要联系的重要手段,通 过相关关系的显示,可以扩大检索范围,查到与该词汇相关的 所有信息 相关关系涉及范围广,种类多,一般包括:
交叉关系、并列关系、矛盾关系、对立关系等
一、信息检索语言的控制
1.检索语言的词汇控制
词汇控制 是指对自然语言中的词汇进行选择、规范并揭示其相关 性的过程。
分类语言和主题语言对词汇控制的要求有所不同,控制程 序也不相同,但两者的词汇处理内容与范围是一致的。
一、信息检索语言的控制
1.检索语言的词汇控制
词汇控制主要包括:
词量控制 词类控制 词形控制 词义控制 词间关系控制
一、信息检索语言的控制
2.检索语言的句法控制
检索语言的句法控制是在一定组配方式的基础上,采用相 应的句法措施实现的,主要包括:
组配次序 控制符号 句式变换
句式变换
即指语词位置的变动方式。 由多个主题词汇因素组成的符合主题只能有一个检索入口,即句首词 采用句式变换,就可以在一定的原则下,调整语词位置,使复合主题中 具有检索意义的语词都有机会成为检索点,以便检索出语句所表示的全 部信息。
(5) 词间关系控制
词汇之间的联系主要包括:等同关系、等级关系、相关关系 三种类型。
在分类语言中,词间关系的揭示主要通过等级结构或层次结 构方式实现的。
主题语言的词间关系是通过设置参照的方式实现的。
一、信息检索语言的控制
2.检索语言的句法控制
句法控制 即根据信息标引和检索的需要,通过一定组词造句规则 ,对检索词语的组合方式作出规定。 也就是说,检索语言仅有词汇是不够的,必须配有相应 的词汇组合方法。
组配次序 控制符号 句式变换
一、信息检索语言的控制
2.检索语言的句法控制
检索语言的句法控制是在一定组配方式的基础上,采用相 应的句法措施实现的,主要包括:
组配次序 控制符号 句式变换
组配次序
也称为引用次序。 指对复合主题进行标引和检索时,各个主题因素的组合次序 在分类语言中,主要指类目划分标准被组配的先后次序。 在主题语言中,主要指字顺标题中各个主题的排列次序。
在信息检索语言中,需要将反映同一关系的词加以合并, 选择一个概念作为正式标引用词。
二、信息检索语言的概念逻辑
2.等级关系
等级关系也称属分关系,主要表示概念之间的包含关系,也就 是上位概念和下位概念之间的关系。 上位概念称属概念,外延较大,下位概念称种概念,外延较小 ,下位类必须具有上位类的属性。 其逻辑关系如图所示:
A
B
等级关系
图中A 表示上位概念,B表示下位概念 揭示概念的等级关系有助于扩大或缩小检索范围
二、信息检索语言的概念逻辑
2.等级关系
等级关系的形式也有多种,主要有属种关系和整部关系两 种类型。
二、信息检索语言的概念逻辑
2.等级关系
(1)属种关系
属种关系:指一个概念包含于另一个概念的外延之中,是 其外延的组成部分。
一、信息检索语言的控制
1.检索语言的词汇控制
(5) 词间关系控制
词间关系控制
揭示词汇之间的各种关系,使检索语言成为一个完整的术语 语义体系。
检索语言中的词汇都是与其他词汇相关联的,词间关系的揭 示有益于提高标引的准确度,同时便于扩大、缩小和改变检 索范围。
一、信息检索语言的控制
1.检索语言的词汇控制
一、信息检索语言的控制
2.检索语言的句法控制
检索语句中语词之间形成的关系,称句法关系。 句法关系是检索语言组词造句的规则。
句法关系规定词汇的使用方法,是正确揭示检索语句涵义、提高 检索效率的基本手段。
一、信息检索语言的控制
2.检索语言的句法控制
检索语言的句法控制是在一定组配方式的基础上,采用相 应的句法措施实现的,主要包括:
二、信息检索语言的概念逻辑
1.等同关系
(2)准同义关系
准同义关系:指所表达的概念含义基本相同或相近。 其逻辑关系如图所示:
A B
准同义关系
准同义关系的形式主要有:
近似词(如供求关系与供求率) 泛指词与专指词(如劳动过程与劳动) 部分反词义(如稳定性与不稳定性)等
二、信息检索语言的概念逻辑
1.等同关系
二、信息检索语言的概念逻辑
任何概念都不是孤立的,都处在和周围概念的一定逻辑关系中 。通过逻辑关系联系起来的概念的集合,就形成概念系统。 概念是信息内容的基本单元,在检索语言系统中,反映信息内 容的概念是用各种词汇(标识)来表达的。 为了达到检全与检准的要求,信息检索语言不仅要准确表达信 息内容的概念,还要显示各种概念之间的逻辑关系。
二、信息检索语言的概念逻辑
信息检索语言表示的概念间的逻辑关系主要有: 等同关系 等级关系 相关关系
二、信息检索语言的概念逻辑
1.等同关系
等同关系也称同一关系,重合关系。 是指两个或两个以上的词所表达的涵义完全相同或近似而 词形不同。 等同关系包括:同义关系和准同义关系。
二、信息检索语言的概念逻辑
二、信息检索语言的概念逻辑
3.相关关系
(1)交叉关系
交叉关系:又称部分重合关系。是指两个概念外延部分互相重合的 关系。如“火箭发动机”与“推进系统”的关系就是交叉关系
其逻辑关系如图所示:
A
B
交叉关系
二、信息检索语言的概念逻辑
3.相关关系
(2)并列关系
并列关系:又称同位关系。是指属于同一属性概念的各个层次的种 概念之间的关系。 并列关系有相容和不相容两种。
二、信息检索语言的概念逻辑
简单说,信息检索语言实质上是一套表达信息特征的概念及 关系的概念标识系统。因此,检索语言是建立在概念逻辑基 础上的。 概念是反映客观对象本质属性的基本思维方式,是对事物本 质属性的抽象概括,任何领域的认识成果,都要以概念的形 式固定下来,表达或限定概念的约定性符号即是术语。
一、信息检索语言的控制
2.检索语言的句法控制
检索语言的语句是对信息内容主题的完整表述。
它可以由一个表示基本概念的词汇构成,例如:
“财政”、“水土保持”
也可以由两个或多个词汇组合而成,例如:
“农业物理学”这一主题,须使用“农业科学”和“物理学”两个主题词组配 表达。 “家畜行为学”这一主题,须使用“家畜”、“动物行为”、“行为科学”三个 主题词的组合表达。 “测风汽球探测” 这一主题,须使用“汽球”、“测风仪”、“高空”、“气象 观测”四个主题词的组配表达。
信息检索语言的原理
提纲
一、信息检索语言的控制 二、信息检索语言的概念逻辑
一、信息检索语言的控制
信息检索语言是经过规范化处理的受控语言。 特别是标引信息内容特征的信息检索语言是经过规 范化处理的受控语言。
一、信息检索语言的控制
受控
即对自然语言进行规范处理。 信息检索语言的控制内容包括两个方面:
词汇控制 句法控制
一、信息检索语言的控制
2.检索语言的句法控制
检索语言的句法控制是在一定组配方式的基础上,采用相 应的句法措施实现的,主要包括:
组配次序 控制符号 句式变换
控制符号
根据句法控制的需要设计的一套辅助符号,用以揭示词汇之间的关系意义。如: 联系符号:多主题文献中同一主题不同成分之间的联系符号,一般为数字或字母 职能符号:用以明确该主题标识的关系意义,以便正确进行组配。 关系符号:用于揭示语词组配中形成两两关系的符号,以确切表示两个主题概念 之间的组合关系。
例如:“金融危机”与“货币危机、信用危机、银行危机” 就是属种关系。
二、信息检索语言的概念逻辑
2.等级关系
(2)整部关系
整部关系:整部关系不是严格的概念包含关系,但其涉及面较广 ,所以检索语言(主题语言)也将其作为属分关系处理。
整部关系的揭示一般用于以下方面:
地理区划中的整体与部分关系,如“非洲”包括“北非、东非、南非和西非”。 组织机构及其分支中的整体与部分关系,如“欧洲经济共同体”下属欧洲共同农 业基金组织、欧洲货币合作基金组织、欧洲经济货币同盟、欧洲开发基金。 人体系统与器官中的整体与部分关系,如“血管”有动脉、静脉和视网膜血管。 某些事物如物质、产品、建筑物等中的整体与部分关系。
1.等同关系
(1)同义关系
同义关系:指所表达的概念涵义完全相同。 其逻辑关系如图所示:
AB 同义关系
图中的A、B分别表示两个同义词,A、B两圆完全重合, 表示这两个同义词的外延一致,具有同义关系。
同义关系的形式主要有:
规范词和俗称(如毕业实践与毕业设计) 全称与简称(亚洲集体安全体系与亚安体系) 正式译名与其他译名(如经济危机与经济恐慌) 中文全译名与外文缩写词(如世界贸易Fra Baidu bibliotek织与WTO)等