第二章
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一节 信息组织的基本程序与方法
第二节 信息检索的类型、程序与方法
第三节 信息检索效果的评价
第二章 信息检索基础知识
第一节 信息组织的基本程序与方法
一、信息的筛选和判别
二、信息的描述
三、信息资源存储
一、信息的筛选和判别
信息的筛选和判别是指对原始信息有无作用的挑选和鉴别。
信息筛选和判别包括:直观判断、分析、集体讨论、专家裁决、数学核算、现场核实等方法。
二、信息的描述
信息描述又称为信息的著录与标引,是根据一定规则和技术标准,对信息的外表特征和内容特征进行全面描述并给予记录的过程。一条信息之所以有别于其他信息,主要是它与其他信息在外表和内容两方面的特征都有所不同。
二、信息的描述
信息的描述
外部特
征描述
信息名称
信息来源
信息加工者
类型及表现形式
内容特
征描述
地区标引
时间标引
分类标引
主题标引
信息外部特征的描述
期刊论文:
文献题目、著者、著者工作单位、文献的出处(刊名、刊号、卷期、起止页码)、语种、参考文献及图表的数量等。
图书:
书名、著者(或编者、译者)、出版项(出版社、地点、时间)稽核项(价格、页数、参考文献)、书号等。
信息内容特征的描述
信息内容特征描述:也称为对信息内容的著录与标引。是指在对信息内容进行分析的基础上,根据一定的规则对信息的内容予以揭示,并赋予标识的过程。
具体描述项目:分类号、主题词、文摘
1.分类描述及分类
分类描述是依据事物的属性或特征加以区分和类聚,并将区分的结果按照一定的次序进行组织的过程。
分类语言表现形式:分类号(代码)、类名
(1)按知识门类的学科体系的逻辑次序分类
如:中国图书馆分类法
美国国会图书馆分类法
杜威十进位分类法
中国图书馆分类法的体系结构:
部类(5个):
马克思主义、列宁主义、毛泽东思想
哲学
社会科学
自然科学
综合性图书
中国图书馆分类法的体系结构:
大类(一级类目) 22 个
中国图书馆分类法的体系结构:
S农业科学类目简表
(2)按事物的性质分类
按事物的性质分类 --- 热门主题 : 各种搜索引擎和网站
按事物的性质分类 --- 功能(使用方向)主题: 国际专利分类法(IPC)
2.主题描述及信息检索语言
主题描述是指通过对信息内容的分析,以能够表达信息主题的词语作为主题标识来组织及检索信息的一种方法。
信息检索语言:
◆ 标题词语言(Heading) 受《词表》控制
◆ 元词(单元词)语言 (Uniterm) 受《词表》控制
◆
叙词语言( Descriptor ) 受《词表》控制
◆ 关键词语言(Keyword) 不受《词表》控制
三、信息资源存储
信息资源存储是指将经过加工处理的信息资源(包括文件、图像、数据等),按照一定的方式记录在相应的信息载体上,组织成系统化的检索系统。
1. 数据库及其构成
数据库(database):至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。 通俗地说,数据库就是在计算机存储设备上,按一定方式存储的相互关联的数据集合,是信息检索的基础。
一条信息记录(record)是由若干个字段(Field)所组成,字段是构成记录的基础;信息记录的集合就形成文档,一个数据库可以包含有一个文档,也可以含有若干个文档。
1. 数据库及其构成
2.记录的结构与组成
“记录”是文献信息数据库的基本组成单位。
每一条记录是由三种类型的字段组成:检索系统存取号、基本索引字段和辅助索引字段。
2.记录的结构与组成
第二节 信息检索的类型、程序与方法
一、信息检索的原理和类型
二、信息检索方法
三、信息检索的基本程序
一、信息检索的原理和类型
信息检索:是指将信息
(主要指文献信息)按一定
的方式组织和存储起来,并
根据用户的需要找出相关信
息的过程。
信息检索
存储
检索
存储:是对信息进行著录、
标引、整序,编制检索工
具和建立检索系统的过程。
检索:是指面向信息需求
而进行高度选择性的查找
过程。
信息检索原理
检索提问标识与存储标引标识进行比较,两者一致或信息标引的标识包含着检索提问标识,则具有该标识的信息就从检索系统输出,输出的信息就是检索命中的信息。
1. 按检索对象内容划分
文献检索
数据检索
事实检索
全文检索
图像检索
超文本检索
按检索对象内容划分
文献检索
使用以二次文献为存储对象的信息系统,如目录型、题录型、文摘型数据库,是一种相关性检索。特点:检索结果不直接解答课题用户提出的技术问题,只提供与之相关的线索。
例如:查找有关“食品安全与人类健康 ”方面的国内外信息有哪些?
数据检索
以数值信息为检索对象,通过检索,用户可以获得所需要的确切数据,是一种确定性检索。它一般以数据大全、手册、年鉴等为检索工具。
例如:2005年申请中国发明专利和获得授权发明专利最多的国家有哪些?
检索工具:中国统计年鉴
事实检索
检索系统中存储的是从原始文献中抽取的各种事实,用户通过检索可获得有关事物、事件的发生与发展
情况及相关资料,它也是一种确定性检索。一般利用字词典、年鉴、百科全书、手册等为检索工具。
例如:禽流感最早出现于哪个国家
检索工具:兽医手册
全文检索
从存储有大量原始文献全文的数据库中检索全文或某一章节,属相关性检索的范畴。特点:是在书目信息检索基础上更深层次的内容检索。
例如:检索由陈代文等撰写,发表在《中国禽业导刊》2005年第11期“动物营养与免疫研究进展 ”一文的全文
检索工具:中文科技期刊数据库等
图像检索
以图像或图文信息为检索对象的检索方式。
超文本检索
利用非线性信息组织方法建立的数据库检索相关信息的方式。
2. 按信息检索手段划分
手工信息检索
计算机检索
二、信息检索的方法
1.引文追溯法:利用文献所附的参考文献进行追溯查找。
2.工具法:是指利用各种检索工具或数据库查找文献信息的方法。
(1)顺查法:
(2)倒查法:
3.循环法:是工具法与引文追溯法相结合的一种检索方法
三、信息检索的基本程序
信息检索的程序是指根据课题要求,选择相应的信息检索工具及系统,采用适当的途径及技术,查找所需文献信息的过程。信息检索的程序一般可以分为:
分析研究课题
选择检索工具或数据库
确定检索途径
编制检索提问式
实施检索
原始文献的获取
(一)分析与研究课题
目的:科研立题、科研阶段性研究、科研成果鉴定、申请专利、撰写论文、综述、述评…
检索课题的主题内容和研究要点
文献类型、时间范围、语种、机构、作者
(一)分析研究课题
1. 机读数据库
数据完备,一般为某种同类知识的集合,标引质量高;检索手段先进,可提供多种检索方式,可以达到较好的检索效果。
(二)选择检索工具或数据库
2. Internet 信息资源
信息量大,无所不有,无奇不有;存储分散,难于查全;信息质量悬殊极大。
检索质量是一个无法说清楚的问题,与用户需求的知识点有极大关系。在因特网上查寻资料是一个充满刺激而又痛苦的过程。
(三)确定检索途径
1、文献的外部特征为检索途径
(1)题名途径
(2)责任者(著者)途径
(3)号码途径
(4)机构途径
2.以文献信息的内容特征为检索途径
(1)分类检索途径
(2)主题检索途径
3.以文献的相互引证关系为检索途径
(四)编制检索提问式
1.单元词检索(概念检索)
检索标识是具体的检索词或词组,每个检索词表达一个概念。
2.布尔逻辑算符组配检索
是将多个检索词进行逻辑组配形成的一种复合性检索
要求。
逻辑“或”(和)
———————————————
用符号“or”或“+”表示,其逻辑表达式为:
A or B 或 A+B
其意义为检索记录中凡含有检索词A或检索词B,
或同时含有检索词A和B的,均为命中文献。
逻辑“与”
————————————————
用符号“and”或“*”表示,其逻辑表达式为:
A * B 或 A and B
其意义为检索记录中必须同时含有检索词A和B的文献,才算命中文献。
逻辑“非”
————————————————
用符号“not”或“-”,其逻辑表达式为:
A not B 或 A-B
其意义为:检索记录中含有检索词A,但不能
含有检索词B的文献,才算命中文献。
With:设定需检索的两个词或词组在同一字段中,但不限制位置的先后。
Near:设定需检索的两个词或词组在同一语句中,相对于“with”更接近。此外,在使用“near”运算符时,还可以在该运算符后添加一个数字以便进一步限定两个词之间的邻近程度,如“near3” 设定需检索的两个词或词组在同一句子中且相隔不超过3个单词。
3.位置逻辑算符
4.截词和屏蔽(模糊检索)
截词检索主要是利用检索词的词干或不完整的词形进行检索。
截词符一般用“?”、“ :”、“#”表示
(1)后方截词:用于前方一致的派生词检索。
如:信息?
则表示在数据库中含有信息、信息技术、信息检索等方面的文献记录均为命中文献。
(2)前方截词:用于后方一致的派生词检索。
如:?经济
则数据库中含有经济、工业经济、农业经济等方面的文献均为命中文献。
(3)有限截词
在检索词后面加上一个或一个以上(最多4个)的“?”,空一格,再加一个“?”。如:
Comput??? ? 可检索出:
Computer,Computers,Computing
截词检索在不同的计算机检索系统中规定不同,请使用时注意。
4.字段限制检索
为了缩小检索范围,可利用字段代码来限制检索词出现的字段,以提高检索速度和命中率。
如:rice in ti(表示只在题目字段中查找文献)
rice in de(只在主题词中查找)
rice in ab(只在文摘中查找)
au = Smith,J.C (查作者为Smith,J.C 的
文章)
py = 1998(只查1998年的文章)
la =Chinese (只查语种为中文的文献)
(五)实施检索
1. 扩大检索范围
* 概念的扩大。
* 范围的扩大。
* 增加同义词、近义词、相关词和缩略词。
* 用“or”、”?”、叙词表
* 年代的扩大。
* 去掉连字符可扩大检索范
围。
* 换另外的数据库或是另外的光盘继续进行检索。
2. 缩小检索范围的方法
* 核心概念的限定。
* 核心期刊的限定。
* 语种的限定。
* 用布尔逻辑算符“and”或者“not”组配检索词。
* 使用位置算符“near”和字段算符“in”提高查准率。
* 使用“Index”和叙词表,选择确切的检索词缩小检索
范围。
(六)原始文献的获取
1.二次文献数据库(题录、文摘型)
2.全文数据库
第三节 信息检索效果的评价
信息检索效果是指用户利用信息检索系统进行检索所产生的有效结果。
一、信息检索的效果评价指标
二、影响检索效率的主要因素
一、信息检索的效果评价指标
以一个检索提问去检索任何一个数据库都会出现 4 个相关量:检出的相关信息量、未被检出的相关信息量、检出的非相关信息量、未检出的非相关信息量。
一、信息检索的效果评价指标
1. 查全率
查全率(R )= —— ×100%
查全率是对所需信息被检出程度的信息量指标。
2. 查准率
查准率(P )= ——×100%
查准率是衡量拒绝非相关信息的指标。
a
a+c
a
a+b
一、信息检索的效果评价指标
3. 漏检率
漏检率(O )= ——×100%
漏检率是衡量漏检所需信息的程度指标。
4. 误检率
(误检率)N = ——×100%
误检率是衡量误检出非相关信息的程度指标。
c
a+c
b
a+b
二、影响检索效果的主要因素
1. 数据库的质量(客观因素)
(1)数据库搜集信息的数量与质量
(2)对每条信息揭示的深度与广度,著录标引的质量(字段的数量,主题词的信息标引网罗度)
(3)检索途径及检索字段的数量
二、影响检索效果的主要因素
2. 检索策略的制定(主观因素)
(1)分析与研究课题的准确程度
(2)检索工具与数据库的选择是否恰当
(3)正确分析课题的主题内容,选择最佳检索词
注意对同义词、近义词、上位概念、下位概念的选取;
选用核心主题词及隐含的主题词,排出检索意义不大的概念词,如:研究、进展、发展、现状、方法 ;
生物体的名称(学名、俗名、拉丁学名) ;
化学物质的名称(常用与代码);
检索词的专指度:专指度是指检索词揭示信息主题的准确度。使用专指度高的检索词,查准率高,但查全率会相对降低;使用专指度低的词,有利于提高查全率,但会降低查准率。
(4)明确检索词之间的逻辑关系,制定合理检索策略
(5)在初次检索的基础上进一步修正与完善检索
二、影响检索效果的主要因素
2. 检索策略的制定(主观因素)