信息检索原理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 是以文献为检索对象的信息检索。也就是说文 献检索是以图书、期刊、资料、数据库中的篇章或 全书刊为检索对象的一种检索。 如:检索有关“花卉组织培养技术”的文献。 文献检索是一种相关性检索,检索结果不直接 回答用户提出的技术问题,只是提供与之相关的文 献信息供用户参考。
7
(2) 事实检索(Fact Retrieval) 是以事实为检索对象的一种检索,查找某一事物发生的时间、地点及过程。 如检索“日本松下电器公司近年来进行了那些新产品的开发研究”“IBM公司所在地、总裁是
2
1.信息检索的定义 狭义:是指根据特定课题的需要,运用科学的方法,在大量信息(文献)集合中查获所需信息( 文献)的过程。 是指从任何信息集合中查找所需信息的活动、过程与方法。 广义:是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程, 其全称是信息存储与检索。 广义的信息检索包括信息存贮和信息检索两个部分,两者又往往合并称为“信息存贮与检索 ”。
息 处
原 始
贮理 信
过人 息
程员
检用








信息分析、著录
和标引
存入

检索语言

(主题词/分类号)
工 具

检索 检出 索
课题分析


6
3.信息检索的类型
以检索内容区分:
根据检索对象不同,信息检索可分为文献检索、事实检索和数据检索三种类型。 (1) 文献检索(Document Retrieval)
3
第2章 信息检索原理
2. 信息检索的一般原理
信息检索包括存储和检索两个过程。
信息检索过程的实质是将检索提问标 识与存储在检索系统(检索工具)中的检索
标识(标引标识)进行比较,含有两者一 致或信息存储的标识包含着检索提问标
识的信息就是检索命中的信息。这就是信
5
息检索原理。
信息检索原理示意图:


出来的经过规范化的名词术语。
26
所谓规范化,是指对自然语言中的同义词进行优选,对词的不同形式进行归一。 对同义词进行合并,即一个概念只用一个标题词来表达,排除多词一义的现象。例如:“
玉米”又叫“苞米”、“苞谷”“玉蜀黍”、“玉茭”、“棒子”等, 对多义词进行注释,即一个标题词只表达一个概念。排除一词多义的现象。例如“茶”既
可以表示一种树木(植物),又可表示一种饮料.
27
叙词语言其原理是:按主题集中文献;用经过规范 化的语词来组配描述文献主题;用参照系统间接显示主 题之间的相互关系;用字顺序列直接提供主题检索途径.
叙词和分类语言的异同点。
同:都对基本的事物有正式的、规范的表达形式; 异:主题词可以自由组配,用以表达复杂的概念。
采用等级列举表达从属关系
• 上位类目与下位类目的关系: 上位类目一定包含各个下位类目, 下位类目一定带有上位类目的属性。
• 分类号越长,表示的学科范围越窄。
. 为了清楚醒目, 通常分类号的第三位数字后,隔以“ ” ,如F279.712,TQ032.4
16
马哲 列学
社会科学
自然科学


AB C D E F G H IJ K NO P QR S TUV X Z
国外通用的分类法有: 《杜威十进分类法》(DDC)、 《国际十进分类法》(简称UDC)、 《美国国会图书馆图书分类法》(简称LCC)
常见的专业分类法:法》将人类知识分为马列、哲学、社会科学、自然科学、综 合五大基本部类,22个大类。 大类类目设置情况如图: 具体类号、类目展开情况如图所示: 检索标识即分类号,由拼音字母和数字组成
10
2.1.2 检索语言 1 检索语言及其定义 检索语言是用来描述文献的内容特征、外表特征和表达情报提问的一种人工语言。 检索语言主要有以代码语言为特征的分类语言和以事物名称术语为特征的主题语言两大类 。其中主题语言分为叙词语言和关键词语言。 文献的内容特征:是与文献信息主题内容密切相关的信息。 文献的外部特征:是与文献信息主题内容没有关系或关系不大的信息。
分析待查课题的主题内容,根据主题内容在类目索引中找到相应的类目,在分类表中提取 分类号。在相应的检索工具中用该类号检索所需的文献,再根据所需要的文摘提供的出处查 找原文。
从分类途径的检索步骤可见,确定课题的分类号是从分类途径检索文献的关键。
22
第2章 信息检索原理
(3) 确定课题分类号的方法 1).单概念课题确定课题分类的一般方法 所谓单概念课题是指课题涉及主题概念只有一个。例如:“函数”、“齿轮”等都属于单 概念。 方法是: a.了解分类表的体系结构,重点掌握大类的分布,b.在相关的大类中,由大而小,逐步查 找最接近于课题要求的分类号。C.注意表中用于帮助确定分类号的类目注释和类目指引。
.1
代数方程式论
.2
线性代数 参见O241. 6
.21 矩阵论

.26 线性代数的应用
• 152 群论

19
O3 力学
O31
理论力学
第2章 信息检索原理
分类法途径的特点: 它体现了学科的系统性,便于
从学科或专业的角度出发进行族性检索 ,但缺乏进行多概念灵活组配的能力。
20
• 索书号又称为排架号
• 反映了某种图书在整个图书组织 中的排列次序和在书库中的具体位置 (架位)
谁、下设哪些分公司、从事哪些业务”等等。 (3) 数据检索(Date Retrieval)
是以数据为检索对象的一种检索,包括数值、图表等。 查找科学技术参数、统计数字、财政信息数据、市场行情数据等都属于数据检索。
8
事实检索和数据检索都是确定性的检索。检索结果要直接回答用户提出的技术 问题,即直接提供用户有关某一问题的确切的事实情况或具体的数据,检索结果一般是 确定性的。
13
2.分类语言 (1).分类语言的定义和特点
分类语言,也称分类法或分类表。所谓分类法(具有族性检索的特点)就是按照文献信息 的内容、形式、体裁和读者用途等, 根据科学学科之间的逻辑归属关系, 采用层次型或树杈 型结构, 列举人类所有的知识类别, 并对每一种知识门类分别标以相对固定的分类号,从而 形成的分类表。
• 组成:分类号+书次号
O651.21-44/L631 分类号:按学科分类图书
O651.21-44 L631
书次号:同类书的排列 条码号 21
SDT01420521
(3) 确定课题分类号的方法 分类途径是按文献信息所属的学科类型来查找文献的一种方法。 从分类途径检索(同时它也是一种族性检索)文献的检索步骤一般为:
23
2).多概念课题的一般分类方法 涉及两个或两个以上概念的课题即为多概念课题。如:“计算机在机械工程方面的应用” 含
“计算机”、“机械工程”两个概念。
应注意以下几点: a.并列概念课题。对于涉及同一研究对象的几个方 面或者涉及几个并列研究对象的课题,凡是有主次者, 应取其重点或主要研究对象归类。如果涉及同一研究对 象的几个方面都需检索时,应在涉及的几个类中同时查 找。 b.应用性课题。研究一种理论、方法、工艺、材 料、设备、产品等在某方面应用或对某方面影响的课题 , 应在所应用或受影响的类目中查找。在多方面应用, 则在该理论、方法、工艺等本身所属的类目中查找。
• 参照项—(参项) C 多发性神经炎
相关叙词
30
第2章 信息检索原理
等同关系参照项: “用(Y)”就是从非正式主题词指引到正式主题词。“代(D)”则是从正式主题词
指引到非正式主题词,也就是指明叙词所代替的非叙词。如 马铃薯(叙词) D 土豆 土豆(非叙词) Y 马铃薯
31
第2章 信息检索原理
等级关系参照项: “属(S)”项是指明该词的上位概念是什么;“分(F)”项则是指明下位概念有哪
2.1.1 信息检索的定义 “检索”(Retrieval)一词是一个外来词,来源于英语“I
nformation Retrieval”(信息检索) “检索就是查找”,这仅仅是一种狭义的解释。从广义的角度讲
,检索包括“存贮”和“查找”两个过程。没有存贮就没有查 找,存贮是为了查找,但查找必须有存贮,两者缺一不可。
(2)叙词表和《汉语主题词表》 叙词语言的体现形式是叙词表。国内常用的叙词表主要有我国许多检索刊物使用的《汉语主题
词表》。
叙词表是叙词的汇编,它是进行文献主题标引和主题 检索的依据,一般由一个主表和若干个索引组成。
28
《汉语主题词表》的主表称字顺表,所有主题词都按汉语拼音字顺排列,每一个主题词的著录 都构成一条款目。
• 汉语拼音
Wei sheng su B que fa bing
• 款目主题词
维生素B缺乏病
• 英文译名
Vitamin B deficiency
• 参照项—(代项) D 糙皮病
非叙词
• 参照项—(分项) F 维生素B1缺乏病 下位叙词
• 参照项—(属项) S 维生素缺乏病
上位叙词
• 参照项—(族首词) Z 营养缺乏病
马 哲社 政军 经文 语文艺 历
列 学会 治事 济教 言学术 史
主 科、
、、

义 学法
科文

、 总律
学字

毛论



自 数 地天 生 医 农 工 交 航 环 综
然 理 球文 物 药 业 业 通 空 境 合
科 化 科学 科 、 科 技 运 、 科 性
学 学、 学 卫 学 术 输 航 学 图


天书


.1 质点运动……… … …

级类目 18 ……
O4 物理学 ………………… … 二级类目
• 中国图书馆图书分类法类号和类目示例
O1 数学
O11 古典数学
O12 初等数学
O13 高等数学

总论性著作入此;专论入以下有关类,例:微积分入O172
O15 代数、数论、组合理论
151 代数方程式论、线性代数
第2章 信息检索原理
本章要点: ◆ 信息检索的五个步骤 ◆ 归纳课题主题,提取检索概念的一般方法 ◆ 课题的分类号和主题词的确定方法 ◆ 汉语词语的切分方法 ◆ 课题概念的扩展方法 ◆ 文献信息数据库文档、记录、字段的概念 ◆ 逻辑、截词、优先、位置算符和字段限制
1
第2章 信息检索原理
2.1 信息检索的定义和原理
11
第2章 信息检索原理
特性检索: 从具体事物或主题出发所进行的文献检索。广义地说,凡是狭窄范围内的检索皆可视为
特性检索。 (指某人、某事物所特有的性质:如我们讲一个民族的特性。) 族性检索:
从学科、专业出发所进行的文献检索,是与特性检索相对的、范围较广泛的检索。 属于体系分类法的各种检索语言的功能,主要都是满足族性检索的要求。
因此,分类法通常是指一种从总到分、从一般到具体、层层划分、逐级展开并具有某种符 号代码体系的知识体系表。 如:中图法的符号代码体系是拼音字母加数字。
14
第2章 信息检索原理
国内通用分类法有: 《中国图书馆图书分类法》(简称中图法) 《中国图书资料分类法》(简称资料法) 《中国科学院图书分类法》(简称科图法)


想 TB TD TE TF TG TH TJ TK TL TM TN TP TQ TS TU TV
一 矿 石 冶 金 机 武 动 原 电 电无 自 化 轻 建 水
般 业 油 金 属 械 器 力 子 工 讯线 动 学 工 筑 利
工 工 工 学 、 工 工 能 技 技电 化 工 业 科 工
业 程 业 仪 业 程 技 术 术电 技 业 、 学 程
24
第2章 信息检索原理
3).上位类分类方法 这种归类法也是一种常用的分类方法。它适应于欲查课题无现成类目或无符合要求的专指类
目时,可以归入它从中分化出来的上位类。这种分类方法的关键是确定合适的上位类号。
3 叙词语言
(1)叙词语言的定义和特点 叙词语言是以规范化科学名词为基础的一种主题法检索语言。所谓叙词是从自然语言中优选



子术 手
术 2020/9/26 图3 -1 中 图 法 展 开 图
学 、
工 17 业
检索语言-分类法-中图法
O 数理化 ……………………… … 一级类目
O1 数学 ……………………… … 二级类目
……
O3 力学 ……………………… … 二级类目
O31 理论力学 ……………… … 三级类目
O311 运动学 ……………… … 四级类 目
信息检索三种类型的区别: 1.检索对象不同 2.检索结果不同 3.性质不同 4.借助工具不同
9
第2章 信息检索原理
以检索方式区分,信息检索又可分为: (1) 手工检索
手工检索即是用人工来处理和查找所需信息的检索方式。 (例如:利用各种文摘、索引、题录等刊物)
(2) 计算机检索
计算机检索是利用计算机和一定的通信设备查找所需信息的检索方式。 (例如:利用各种文献信息数据库)
相关文档
最新文档