新第二章 信息检索基础知识

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2.5 计算机检索技术
一、布尔逻辑检索 二、位置检索 三、截词检索 四、词组检索 五、字段检索 六、限制检索 七、优先算符
2.5 计算机检索技术
文献检索策略:确定工具书或文献数据库后,选择检索途径与 检索用词,并明确各词之间的逻辑关系与查找步骤的科学安排。
用计算机能理解和运算的形式加以表达
检索表达式,即检索式
1.查全率 2.查准率 3.误检率 4.漏检率
2.2 信息检索语言
一、信息检索语言的定义、作用及种类
二、分类语言 三、主题语言
2.2 信息检索语言
一、信息检索语言的定义、作用和种类
1.定义:是用来描述文献内部特征和外表特征、表达信息提问 的一种人工语言,又称标引语言、索引语言、概念标识系统等, 是信息检索系统存储和检索信息时共同使用的一种约定性语言。
2.2 信息检索语言
三、主题语言
3.叙词语言
以规范化科学名词为基础的一种主题法检索语言,既适用于手 工检索,又适用于计算机检索。叙词就是指从自然语言中优选出来 的、经过规范化的名词术语。CA、EI等著名检索工具都采用了叙词 法进行编排。 如《汉语主题词表》、《农业主题词表》、《国家航空航天局 叙词表》等。
练习:若查找“生物起源物质”?
2.描述信息外表特征的检索标识: 题名、著者、专利号、登记号、出版机构等。
练习:若查找“我”?
2.4 信息检索标识 三、信息检索标识的确定原则
1.检索标识必须要反映检索课题内容和用户的信息需求; 2.选用的检索标识应与检索工具或数据库中的标引标识相一致; 3.根据情况,优先选择分类或是主题编排; 4.从词表规定的专业范围出发,选用各学科内具有检索价值的基本 名词或术语; 5.可以选用同义词、近义词或其他相关主题词进行检索。
1.分类途径
按照信息所属学科。 输入限定词为“分类号”途径。
2.主题途径
按照代表文献主题内容的实质性词汇。 输入限定词为“关键词”途径。
2.3 信息检索的途径
二、外表特征途径
指表征文献外部特征的,如文献的题目、责任者、出版者、期刊号等。
1.题名途径
如图书书名、期刊刊名、论文篇名或学术会议名称、 专利名称等。 搜索引擎:在搜索词前加title; 期刊网:检索词限定为“题名”途径。
2.5 计算机检索技术 三、截词检索(外文检索系统)
在检索词的适当位置截断,保留相同部分,用截词符代替可变化部分。
(1)左截断(前截断) 如:?computer表示minicomputer,microcomputers等。 (2)中间截断 如:?comput?表示minicomputer,microcomputers等。 (3)右截断(后截断) 如:comput?表示computer,computers,computing等。
2.著者途径 3.号码检索 4.引文检索
可以集中查找某人的研究领域或一组论文等。 检索词限定为“作者”途径。 利用表征文献形式特征的标识号码。如图书的ISBN、 期刊ISSN、标准号、专利号等。 利用参考文献,引用或被引用。
2.4 信息检索标识
一、检索标识的定义
二、信息检索标识的类型 三、信息检索标识的确定原则
第二章 信息检索基础知识
章节目录
2.1 信息检索与效果评价 2.2 信息检索语言 2.3 信息检索的途径 2.4 信息检索标识 2.5 计算机检索技术 2.6 信息检索的步骤
2.1 信息检索与效果评价
一、信息检索的定义
二、信息检索的发展历程 三、信息检索的类型
四、信息检索效果评价
2.1 信息检索与效果评价
2.1 信息检索与效果评价
三、信息检索的类型
1.根据检索对象区分 (1)数据检索 (3)文献检索 (2)事实检索 2.按检索方式区分 (1)手工信息检索 (2)机器信息检索(可多字段) 3.按检索的信息类型区分 (1)文本检索 (2)多媒体检索
2.1 信息检索与效果评价
四、信息检索效果评价
常用的检索效果评价指标包括:
2.2 信息检索语言
三、主题语言
4.关键词语言
是指从文献标题、文摘、正文中抽离出来的,对表征文献主题 内容具有实质意义的语词,以关键词作为信息标识和检索依据的主 题语言。关键词没有固定的词表,因为对于同一个事物的概念,不 同作者甚至是同一个作者在不同的著作中用词都会不同,它是没有 经过规范化的自然语言词汇。 在检索中文医学文献中使用频率较高的《CMCC》数据库就是 采用关键词索引方法建立的。
2.2 信息检索语言
三、主题语言
1.标题词语言
以标题词作为信息标识和检索依据的主题语言。标题词是来 自于自然语言中比较定型事物的名称,经过规范化的处理,能够 表达主题内容的词、词组或短语。
2.2 信息检索语言
三、主题语言
2.单元词语言
又称元词,是指能够用以描述信息所论及主题的最小、最基本 的词汇单位。经过规范化的能表达信息主题的元词集合构成元词语 言。元词法是通过若干单元词的组配来表达复杂的主题概念的方法。 元词语言多用于机械检索,适于用简单的标识和检索手段(如穿孔 卡片等)来标识信息。
2.2 信息检索语言
2.《中国图书馆图书分类法》
2.2 信息检索语言
3.优缺点:
(1)优点 具有按学科或专业集中、系统揭示文献信息;将概念逐级 划分,具有等级结构;既可用于组织检索工具和检索系统, 又可用来组织图书资料分类和排架;用分类号,不受语种限制。 (2)缺点 不能直接表达概念;不能经常修订;不能详尽的列举一 切事物概念。
2.5 计算机检索技术 六、限制检索
通过限制检索范围,达到优化检索结果的方法。限制检索 的方式有多种,例如文献出版年限、文献类型、语种等。
2.5 计算机检索技术 七、优先算符
将检索式的某一部分用()括起来,优先计算。
{ [( ) ] }
思考题
“文献检索策略”在baidu、google等搜索引擎上 是否适用? 是否还有其他高效或简便的检索方法?
2.5 计算机检索技术 四、词组检索
将固定词组或短语 看成单个词进行处理。
常用“ ”作为词组检索的运算符。
2.5 计算机检索技术 五、字段检索
对指定的一个或多个字段进行检索,从而提高查准率或查全率。
标题、作者、摘要、关键词、作者单位、文献来源、学位授予单位、 学位级别、会议信息、会址、会期、书名、出版地、出版年、专利号、报 告号、ISBN、ISSN等。
wenku.baidu.com
2.4 信息检索标识 一、检索标识的定义
检索标识即检索词,是指能表达检索课题主题概念和信息需 求的名词术语、分类号、名称、代码等的总称,包括主题词、 关键词、名称、分类号、分子式、专利号及各种号码。
2.4 信息检索标识 二、信息检索标识的类型
1.描述信息内容特征的检索标识: 分类、主题、代码(符号)。
2.2 信息检索语言
一、信息检索语言的定义、作用和种类
4.分类:
篇名(题目) 著者名称 描述文献外表特征 文献序号 引用文献 等级体系分类语言 分类语言 组配分类语言 主题语言
检索语言
描述文献内容特征
代码语言
标题词语言 关键词语言 单元词语言 叙词语言 分子式索引 结构式索引 专利号索引等
2.2 信息检索语言
2.6 信息检索的步骤
一、分析检索课题 二、选择检索工具或数据库 三、确定检索标识 四、构造检索表达式 五、确定检索途径 六、执行检索并评价检索结果 七、检索策略的调整
2.特点: (1)规则性(必要的语法语义) (2)唯一性(一个概念一种表达) (3)方便性(检索标志和提问特征比较) (4)适用性(手工、计算机检索)
2.2 信息检索语言
一、信息检索语言的定义、作用和种类
3.作用: (1)用以标引信息的主题 (2)沟通标引人员和检索人员的思想 (3)便于将标引语词和检索语词进行相符性比较 (4)保证了信息存储的集中化、系统化和组织化
2.5 计算机检索技术 三、截词检索(外文检索系统)
后截词
(1)有限后截词 主要用于词的单、复数,动词的词尾变化等。如books可用book?代 表,其中截词符?(也称为通配符)可以用来代替0个或1个字符,因此, book?可检索出包含有book或books词的记录。 (2)无限后截词 主要用于同根词。如solubilit用solub?处理,可检索出含有 solubilize,solubilization,soluble等同根词的记录。由此可知,在词 根后加一个"?",表示无限截词符号。
1.脱机检索阶段 50年代中期到60年代中期。1946年2月世界上第一台电子计算机问世。 在计算机应用领域“穿孔卡片”和“穿孔纸带”数据录入技术及设备相继 出现,以它们作为存贮文摘、检索词和查询提问式的媒介,使得计算机开 始在文献检索领域中得到了应用。 2.联机检索阶段 60年代中期到70年代初。由于计算机分时技术的发展,通信技术的改 进,以及计算机网络的初步形成和检索软件包的建立,用户可以通过检索 终端设备与检索系统中心计算机进行人机对话,从而实现对远距离之外的 数据库进行检索的目的,即实现了联机信息检索。 3.网络化联机检索阶段 70年代初到现在。由于电话网、电传网、公共数据通信网都可为情报 检索传输数据。使人们可以在很短的时间内查遍世界各国的信息资料,使 信息资源共享成为可能。
2.2 信息检索语言
三、主题语言
主题语言是一种选自自然(规范化)的直接性的检索语言, 包括两个内容:一是指表达文献内容特征的、经过规范化了的 名词术语(包括词组和短语);二是指把这些名词术语按字顺 排列成主体记号表或标题词表,以此作为规范化词标引和检索 文献的工具。 根据选词原则、组配方式、规范方法等,主题语言可分 为标题词语言、关键词语言、单元词语言和叙词语言。
二、分类语言
1.分类语言概述 (1)含义:就是将文献主题概念按知识学科性质进行分类和 系统排列,并用号码表达各种概念的检索语言。 (2)分类:体系分类法、组配分类法
是以科学分类为基础,依据概念的划分与概括原理,把概括文献内容与 例如“图书馆学”就可用图书馆类型、资料、 操作、学科、 事物的各种类目组成一个层层隶属、详细列举的等级结构体系的一种文 地区、时代等特征进行划分,从而产生6组类目,即6个组面。 献分类法,也叫列举式分类法、枚举式分类法。《中图法》、 每一组面还可用同一系列的更细的标准进行划分,分为两个 DDC、LCC 等都是体系分类法。 或多个亚面。
2.5 计算机检索技术 一、布尔逻辑检索
逻辑组配
(1)逻辑“与”(常用“AND”或“ * ”表示)
(2)逻辑“或”(常用“OR”或“ + ”表示)
(3)逻辑“非”(常用“NOT”或“ -”表示)
2.5 计算机检索技术 二、位置检索(邻近检索)
美国DIALOG为例:
(1)W算符(常用“(W)”或“()”表示) 除空格和标点符号外,不插入其他词或字母,且前后检索词词序不能颠倒; (2)nW算符 算符两侧的检索词之间可以插入不超过数字n个单词; (3)N算符(Near) 两侧检索词必须紧密相连,不插入其他词或字母,且前后检索词词序可以颠倒; (4)nN算符 允许两词间插入最多为n个其他词,两词的词序可以颠倒; (5)F算符 “F”的含义为“field”。这个算符表示其两侧的检索词必须在同一字段(例如同 在题目字段或文摘字段)中出现,词序不限; (6)S算符 “S”算符是“Sub-field/sentence”的缩写,要求被连接的检索词必须同时出现在记 录的同一句子(同一子字段)中,不限制它们在此子字段中的相对次序,中间插入 词的数量也不限。
《信息技术如何在语文教学中有效地使用 》
2.3 信息检索的途径
一、内容特征途径
二、外表特征途径
2.3 信息检索的途径 信息检索途径:是指信息检索的渠道或角度,也称检 索点、检索项、检索字段。 常用的检索途径包括:内容特征途径、外表特征途径。
2.3 信息检索的途径
一、内容特征途径
指能描述文献内容的,如文献所论述的主题、观点、见解和结论等信息。
一、信息检索的定义
广义定义:是指将分散、无序的信息按照一定的方式组织和 存储起来,并根据用户的信息需求,依据相应的规则从信息 集合中找出有关信息的过程,因此又称为信息的存储与检索。
Information search Information seek
狭义定义
2.1 信息检索与效果评价
二、信息检索的发展历程
相关文档
最新文档