第三章 信息检索的基本知识
第三章 信息检索基本知识
信息论的奠基人 申农在《通信的数学 理论》中把信息定义 为:“信息是用来消 除不确定的东西。”
控制论创始人
维纳在《信息控制论》 一书中指出:“信息是 人与外界相互作用过程 中相互交换的内容和名 称。”
―信息”的定义之所以呈现多样化,主要有三方 面的原因 : 第一,信息本身的复杂性。它是一个多元化、 多层次、多功能的综合物; 第二,信息科学是一门新兴学科,是一门“大” 学科,它有许多分支学科,它的内涵与外延 不很确切,而且随着社会、经济和科学技术 的发展处于不断发展之中; 第三,人们出于不同的研究目的或使用目的, 从不同的角度或层次出发,对“信息”必然 作出不同的理解与解释。
4.从信息观的角度理解,知识是人类通过信息 对自然界、生物界、人类社会运动规律的认识 和概括,是一种特定的人类信息,它是对信息 进行提炼、深化、抽象化、系统化的结果,是 信息中最有价值的部分。知识是信息的一部分。 知识必须要有充分、可靠的经验性证据, 并且要经过理性的合理加工。
(二)知识的特性 1.实践性 社会实践是一切知识产生的基础和检验知 识的标准,科学知识对实践有重大指导作用。 2.规律性 人们对事物的认识是一个无限的过程,人 们获得的知识在一定层面上揭示了事物及运动 过程的规律性。 3.渗透性 随着知识门类增多,各种知识可以相互渗透, 形成许多新的知识门类,形成科学知识的网状 结构体系。
四、文献 (一)文献的定义 1.国际标准化组织《文献情报术语国际标准》: 文献是存储、检索、利用或传递记录信息的过 程中,可作为一个单元处理的、在载体内、载 体上或依附载体而存储有信息或数据的载体。 2.国家标准《文献著录总则》:文献是记录有知 识的一切载体。 北大教授王子舟《图书馆学是什么》:是指专门 记录、传播有知识的一切载体。 南大教授沈固朝《信息检索(多媒体)教程》: 记录有人类精神信息的、且便于存贮或传递的 人工固态附载物
第三章 计算机检索基础知识
算机的输入输出装置进行检索,用磁带作存储介质,一般为 连续的顺序检索方式。检索部门把许多用户的检索提问汇总
到一起,进行批量检索,然后把检索结果通知各个用户,用
户不直接接触计算机。
联机检索(on-line retrieval)
60年代末,由于计算机软硬件技术的不断提高,出现了一台主机带 多个终端的联机信息检索系统。联机检索是用户利用终端设备,通 过通信网络或通信线路与检索系统联机,进行“人机对话”,从检 索中心的数据库及时查找所需要的文献信息过程。 80年代,发达国家的一些计算机信息联机检索系统,通过卫星通信
注意:这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。不同的检 索系统其位置算符的表示方法不尽相同。
截词检索
截词检索就是把检索词截断,取其中的一部分,在加
上截词符号一起进行检索。
• 主要用于检索词的单复数、词性的词尾变化、词根相同的一类词, 以及同一词的拼法变异等。 • 从本质上说,截词算符是一种逻辑“或”的关系。
对信息内容特征进行标引和对信息外部特征进行著录,形成 一条信息题录,并根据信息内容作出摘要,然后将上述检索标识 与著录项目一并填入工作单,就完成了数据库建设的“数据前处 理”工作。
数据库及其编排结构
• 数据库的类型
• 数据库的构成 • 数据库的记录格式 • 数据库的编排结构
数据库的类型
按照信息处理层次划分:
A AND B:检索词A和检索词B同时出现在一条记录中。 • 其作用是缩小检索范围,提高查准率。
例如:查有关“人口控制”的文献,检索式可写成: 人口 AND 控制
逻辑或(OR)
A OR B:记录中出现检索词A或检索词B或两词同时出现 在一条记录中。 • 其作用是扩大检索范围,提高查全率。
信息检索基础知识汇总
分类语言 (classification) 主题词(subject) 关键词(keyword)等
表述文献外表 特征的语言 检 索 语 言 表述文献内容 特征的语言
分类语言(classification)
将各种概念按学科性质进行分类和系统排列 的语言,具体体现为用分类号和类名来表达信息 的主题概念。 中国图书馆图书分类法 美国国会图书馆分类法 杜威十进位分类法
IPC国际专利分类法
中图分类法
《中图法》分 5个基本部类,将知识门类分为 “哲学”、“社会科学”、“自然科学”三大部 类。马克思主义、列宁主义、毛泽东思想是指导 我们思想的理论基础,作为一个基本部类,列于 首位。此外,考虑到图书本身的特点,对于一些 内容庞杂,类无专属,无法按某一学科内容性质 分类的图书,概括为“综合性图书”,作为一个 基本部类,置于最后。在此基础上扩展为 22个大 类。 标记符号采用拉丁字母与阿拉伯数字相结合的混 合号码制。
8 其它途径
检索途径的选择取决于两个方面:
一是课题的已知条件和课题的范围及检 索效率要求;
二是所选择的检索工具所能提供的检索 途径。
构造检索式
检索式是检索策略的逻辑表达式,是用来表达 用户检索提问的,由基于检索概念产生的检索词和 各种组配算符构成。
组配算符通常有布尔逻辑算符、截词符(通配 符)、位置算符、嵌套算符(优先算符)四种。
第三章
信息检索基础知识
知识要点
★ 信息检索概念及其分类 ★ 信息检索基本原理及检索语言 ★ 信息检索的基本步骤 ★ 检索效果及其评价
信息检索(information retrieval)概念
第三章 文献信息检索基本原理及方法
标题词语言关键词语言单词语言叙词语言检索语言
主题语言 由于不同概念相交就会 形成一个新概念, 形成一个新概念,这个 新概念是组配前各概念的 下位概念。 电子” 下位概念。如:“电子”和 信息”组配产生电子信息。 “信息”组配产生电子信息。 同级词间不同概念并 组配结果,可提高查准率。 组配结果,可提高查准率。 列也会形成一个新概 念,这个新概念是组配 前各概念的上位概念。 前各概念的上位概念。 数字计算机” 如“数字计算机”和“模 拟计算机” 拟计算机”组培后得 到“计算机”这一新的 计算机” 是不同级词间的组配, 是不同级词间的组配,是用 上位概念。组配结果, 上位概念。组配结果, 时间、 时间、空间和学科范围某一 提高查全率。 提高查全率。 方面的属性进行限定的一种 概念关系。 建筑物” 概念关系。如:“建筑物”为 主体事物, 设计” 主体事物,“设计”为某个方 组配结果被限定为“ 面,组配结果被限定为“建 筑物设计”这个新概念, 筑物设计”这个新概念,组配 结果可使检索到的文献专指度 和查全率提高。 和查全率提高。
3.1.1 文献信息检索的基本含义 一、文献信息检索的基本含义
“检索”即“查找”之意。信息检索,是将信息按照一定的方式 检索”即“查找”之意。信息检索 信息检索,是将信息按照一定的方式 组织、存储起来,并针对用户的需要查找所需信息的过程。因此信 息检索包含了信息的存储和检索两个不可分的部分。我们通常所说 的信息检索是指狭义的信息检索,即从检索工具和检索系统中查找 所需信息的过程及其所采取的一系列方法和策略。
手工检索和计算机检索的关系:手检是基础,机检是发展方向。 手工检索和计算机检索的关系:手检是基础,机检是发展方向。
3.1.2 文献信息检索的类型 按检索要求划分: 按检索要求划分: 相关性检索——是系统不直接回答用户所提出的 相关性检索 技术问题本身,而是只提供与之相关的文献供用 户参考。 确定性检索——是以数据或事实为检索对象,系 确定性检索 统要直接问答用户提出的技术问题,即直接提供 用户需要的确切的数据或事实。
信息检索的基本知识.
3
—信息检索的基本知识
检索的一般程序→选择检索工具 I 书目、馆藏目录 提供线索的指示型 检索工具(二次文献) 索引 文摘 工具书指南 检索工具 词典 引语工具书 百科全书、类书、政书 传记资料 手册 机构名录 地理资料 统计资料 年鉴、表谱图册 政府文献
4
提供具体信息的参考 型检索工具(三次文献)
题名
即根据已知的书名、刊名、篇名按字顺排列规则在工具书中查找所需文献的途径, 一般情况下,大多索引类工具均提供按题名排列索引机制。题名是检索工具书的 主要途径,在西文索引工具中,一般使用著者和题名混合排列的形式,甚至不提 供篇名索引。
11
—信息检索的基本知识
检索的一般程序→确定检索入口 II
著者
即以著者姓名为检索点查找文献的途径。我国索引类工具书著者途径常常是辅助 检索途径,甚至有些索引工具书不提供著者索引。西文工具书中著者索引较为完 备。
信息检索可分为: 文献检索(Documents Retrieval)和信息检索(Information Retrieval); 手工检索和计算机检索。
2
—信息检索的基本知识
检索的一般程序→分析问题
问题的分类:问题的分类有助于确定相应的检索工具。一类是查找某一特定的文 献、或与某一主题、学科内容相关的文献,一般需要考虑使用检索类工具书(二 次文献);另一类是查找具体的事实,如统计数据、人名、地址、术语等。 分析:分析已知和预知的信息。进一步确定检索工具。 分析需求的主题内容:分析所需信息的学科性质、特点和水平层次,明确检索的 学科范围,学科范围越具体、越明确、就越利于检索。 广泛利用文献类型:因为目标文献涉及的类型很多,如报纸、图书、期刊、会议 论文、专利报告等,应确定需要哪一类文献。 选择合适的文献检索时间范围:确定所需文献信息的时间范围可以使得检索过程 更对快捷、准确。因为检索过程中所使用的工具的材料收集具有一定的时间性, 如书目、年鉴、索引等。
计算机检索基本知识
3、私营公司 例如:英国Derwent Derwent公司 例如:英国Derwent公司 美国Knight Ridder公司 Knight美国Knight-Ridder公司 Mead Data Contral OVID公司 OVID公司 Information, Silver Platter Information,Inc. 传统新闻/ 4、传统新闻/出版机构 例如: 德国Springer Springer出版社 例如: 德国Springer出版社 美国Join Wiley电子出版公司 美国Join Wiley电子出版公司 荷兰Elsevier Elsevier科学出版社 荷兰Elsevier科学出版社
数据库类型: 数据库类型:
按存储数据的类型分:数值型、事实型、词典型、书目型、 按存储数据的类型分:数值型、事实型、词典型、书目型、 全文型 按存储的介质分: 按存储的介质分: 光盘数据库:数据存储在计算机的光盘或光盘塔上, 光盘数据库:数据存储在计算机的光盘或光盘塔上,因而存 储量有限, 储量有限,更新速度慢 网络数据库:数据存储在服务器的硬盘上,存储量大, 网络数据库:数据存储在服务器的硬盘上,存储量大,更新 速度快
文章号 001 002 ……
篇名 asd bys vcx
文章号 001 002 ……
作者 Li Wang deng
文章号唯一, 文章号唯一,且 索引文档与主文 档的文章号一一 对应
索引文档1 索引文档1: 篇名索引 篇名索引
索引文档2 索引文档2: 作者索引 作者索引
文章号
篇名 asd bys vca
输出端),网络(或通信电缆),数据库存储服务器 输出端),网络(或通信电缆),数据库存储服务器 ),网络 ),
服务器(数据库终端) 服务器(数据库终端)
信息检索课件 第3讲 信息检索的基本知识
教学目标
本章将介绍手工和计算机检索的基 本知识,让读者了解检索的一般程序, 本知识,让读者了解检索的一般程序, 包括如何分析问题、如何获取原文、 包括如何分析问题、如何获取原文、何 谓检索语言、 谓检索语言、常用的检索技术和检索方 法有哪些、如何对信息检索评价。 法有哪些、如何对信息检、引文法(跟踪法) 、引文法(跟踪法) 文献之间的引证和被引证关系揭示了文 献之间存在的某种内在联系, 献之间存在的某种内在联系 , 引文法就 是利用文献后所附的参考文献、 是利用文献后所附的参考文献 、 相关书 目 、 推荐文章和引文注释查找相关文献 的方法。 的方法 。 这些材料指明了与用户需求最 密切的文献线索, 密切的文献线索 , 往往包含了相似的观 思路、 方法, 具有启发意义。 点 、 思路 、 方法 , 具有启发意义 。 循着 这些线索去查找, 这些线索去查找 , 不仅利用了前人的劳 动成果, 省却了很多时间和精力, 动成果 , 省却了很多时间和精力 , 而且 可能在原来的基础上有新的发现。 可能在原来的基础上有新的发现。
一、一般检索方法 1.“拉网法”(广度优先法) 拉网法” 广度优先法) 拉网法 在不了解查询某一专题信息的URL地 在不了解查询某一专题信息的 地 址时,可从提供信息总目的Web 页面开 址时,可从提供信息总目的 始浏览, 沿着专题链接层层查找, 始浏览 , 沿着专题链接层层查找 , 直至 找到有关的内容为止。 找到有关的内容为止 。 然后保存这个页 面的URL, 转向另一个分支 。 这种方法 面的 , 转向另一个分支。 可以迅速获得较多的相关地址, 可以迅速获得较多的相关地址 , 然后进 行筛选。 就使用引擎而言, 行筛选 。 就使用引擎而言 , 国外专家也 建议先用链接页面多、 建议先用链接页面多 、 响应时间快的引 擎。
文献检索(信息检索)的概念.ppt
谢谢观赏
25
(8)表谱
用编年、表格等形式来揭示时间概念或谱列历 史事实的工具书。特点是眉目清晰,简要易 查。
纪年表:不同的纪年系列进行对照。如《中国 历史纪年表》
历表:将不同历法的年月日进行对照。
大事年表:按年月编录大事,又称大事记。
专门性表谱:为某学科、某专题、某人物编撰 的表谱。如查官制《历代职官表》,查地理 沿革《历代地理沿革表》,查人物《历代人 20物19-8-19年里碑传综表》,谢个谢观赏人年谱、年表等。 26
检索过程是在人与机器的合作、协同下完成 的,它们经常用实时的、交互的方式从计算机存 贮的大量数据中自动分拣出用户所需要的信息。 计算、比较、选择的匹配任务是由机器来执行的, 而人则是整个检索方案的设计者和操纵者。
检索用户由专业检索人员向个人终端用户转移。
2019-8-19
谢谢观赏
6
三、信息检索工具
(1)字、词典:字典解释字形、读音、含义和用法;
词典解释词语的概念、意义及用法,可分语文
词典、专科词典和综合词典三大类。语文词典
有《现代汉语词典》、《汉语大字典》、《汉
语大词典》;专科词典有《经济大词典》、
《数学词典》;综合性词典有《辞源》(1884
年以前)和《辞海》(兼顾古今)
2019-8-19
谢谢观赏
谢谢观赏
15
3.索引
将收录范围内的文献中的题名、主题、 人名、地名等名词术语以及其他有关款目抽 出,注明出处,并按一定的排检方式组织而 成的一种检索系统。是以文献中的“知识单 元”为单位,揭示各种文献外部特征或内容 特征的系统化记载工具。
索引揭示文献内容比目录更为深入和细 致,比目录应用更广泛。
2019-8-19
信息检索基础必备知识点
1、信息检索的定义:是指将信息按一定的方式组织和存储起来,并根据信息用户的需求找出相关的信息的过程和技术。
信息检索的作用:a:节省查找文献的时间。
b:有利于文献专题查找。
c:克服语言障碍。
2、信息:所有事物的存在方式和运动状态以及关于所有事物的存在方式和运动状态的陈述。
信息的特征:普遍性、客观性、抽象性、依附性、可加工性、传递性、共享性。
信息的作用:(1)信息是人类社会生存的条件,信息是人类社会发展的资源(2)信息是主客体的中介,信息是思维的材料(3)信息是组织的保证,信息的管理的基础(4)信息是决策的依据,信息是控制灵魂文献的特点:(1)数量急剧增长(2)内容交叉重复(3)专业文献出版分散(4)文献老化加快(5)文献语种繁多(6)文献载体形态增加文献类型:(一)按照载体的形式不同,文献可分为:1、印刷型2、缩微型3、声像型4、电子型(二)按照内容、性质和加工深度的不同,文献可分为:1、一次文献2、二次文献3、三次文献4、零次文献(三)根据性质、特点和出版形式的不同,文献可分为:1、科技图书2、科技期刊3、科技报告4、政府出版物5、会议文献6、专利文献7、学位论文8、标准文献9、科技档案10、产品样本a、主题语言主题检索语言是用语词来表达文献主题概念,它不管各语词之间相互关系如何,一律按字顺排列成主题词表,故称主题检索语言。
分为标题词语言、关键词语言和叙词型语言三种。
○2关键词语言:由于关键词语言能适应使用计算机的需要,因而大大加速了文献标引过程,缩短了检索工具出版的时间,便于用来检索最新文献,大大增加了检索点,使用灵活方便。
查准率和查全率较低。
○3叙词型语言:用途较广,既适合于手工检索,又适合计算机检索语言。
6、信息检索的途径:书名途径,著者途径,序号途径,分类途径,主题途径。
7、信息检索方法:(一)常用法所谓常用法,顾名思义是检索中最为常用的方法,指利用成套的检索工具检索文献信息的方法,也称之为工具法。
信息检索知识点
信息检索知识点 Revised by Liu Jing on January 12, 2021信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找。
2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。
3.为什么说信息存储和检索是两个不可分割的有机体?检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。
存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。
检索过程是存储过程的逆过程。
因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。
4.信息检索的方法(1)顺查法(2)倒查法(3)抽查法(4)追溯法(5)循环法5.信息检索的途径(1)内部特征途径a)分类途径b)主题途径(2)外部特征途径a)题名途径b)着者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:(1)简单,形式简洁,易于理解;(2)可操作性强,应用广泛;(3)构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;(4)能处理结构化提问。
缺点:(1)表达用户复杂需求效果欠佳(2)准确匹配无法提供定量比较(3)匹配标准不尽合理(4)检索结果不易控制7.概率排序原则:如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的。
第三章信息检索的基本理论
第三章信息检索的基本理论目的要求了解信息检索系统的概念;了解手工信息检索系统的类型;熟悉手工信息检索系统的结构;掌握手工信息检索系统的著录格式和常用的手工信息检索系统的信息检索方法。
掌握计算机信息检索系统的构成和类型;掌握信息检索语言的基本类型;掌握信息检索原理。
第一节信息检索系统一、信息检索系统的概述信息检索系统是指由一定的设备和信息集合构成,具有一定存储、检索与传送技术设备,提供一定的存贮与检索方法及检索服务功能的工作系统。
简单地说,信息检索系统即信息的存贮和检索的系统。
广义:信息检索系统是包括了从信息采集到检索全过程的服务体系。
狭义:信息技术系统就是用户检索信息时所使用的检索工具。
信息检索系统具有输入功能、存贮功能、处理功能、输出功能及控制功能。
根据信息存贮和检索所设备和手段的不同,信息检索系统可分为两大类型,即:手工信息检索系统和计算机信息检索系统。
目前,信息检索系统已从传统的手工检索系统发展到计算机网络信息检索系统。
二、手工信息检索系统1、手工信息检索系统的类型书本式检索工具(期刊式检索工具、单卷式检索工具、附录式检索工具)和卡片式检索工具。
期刊式检索工具:指在一个题名之下,定期连续发行的一种检索工具。
它具有及时性、连续性和稳定性的特点。
例如各种文摘杂志、索引刊物、连续的馆藏目录等。
这种形式的检索工具,及时反映新出版、新发表、新入藏的文献信息,它随着新文献的不断出现而不断连续出版,保持与文献的平行发展关系。
因此科研工作者为了掌握和了解本学科的科研动态,定期查阅期刊式检索工具是一种非常有效的方法。
同时由于期刊式检索工具的连续性的特点,不少期刊式检索工具,每到一定时间累积后,对于回溯检索极为方便。
单卷式检索工具:这种检索工具多数是以一定的专题内容而编印的,选题一般具有独立的意义。
它专业性强,收集的文献比较集中,往往积累反映一个相当长时间的文献,并以特定范围的读者作为对象。
单卷式检索工具收录文献一般比较全面系统,排列组织比较切合专业研究的需要,因此,对于专题文献检索比较方便,使用价值较高。
信息检索的基本知识
信息检索的基本知识:
“检索(Retrieval)”即“查找”之意。
1950年莫尔斯(Calvin N.Mooers)在《把信息检索看做是时间性的通讯》中,首次提出“信息检索”(Information Retrieval)一词。
信息检索亦称情报检索、文献检索。
通俗地说,信息检索就是信息用户为处理解决各种问题而查找、识别、获取相关的事实、数据、知识的活动及过程。
我们可以这样定义“信息检索”:从信息集合中迅速、准确地查找出所需信息的程序和方法。
这里所说的信息集合指的是有组织的信息整体。
它可以是数据库的全部记录,也可以是某种检索工具,还可以是某个图书馆的全部馆藏。
信息检索也就是从数据库、检索工具以及馆藏中查找所需信息的活动。
第三章文献信息检索的基本知识
第三章文献信息检索基本知识随着信息技术的发展,互联网的应用得到广泛普及,信息环境发生了相当大的变化,应用现代化技术手段获取各种信息、知识成为高等院校师生与广大科技工作者的一种必备知识和技能。
为此,首先就必须了解文献信息检索的基本知识。
第一节信息检索的基本原理一、信息检索的概念信息检索(Information Retrieval)全称为“信息存储与检索”(Information Storage and Retrieval),其概念有广义和狭义之分。
广义上认为,信息检索包括文献信息的存储和检索两个方面,即一个完整的信息检索系统由信息存储子系统和信息检索子系统两部分组成。
信息存储子系统:首先对一定数量的信息进行筛选,把能够描述文献信息的外部特征和内部特征进行加工、整理,使之有序化,形成信息特征标识集合,然后将之存储在某种载体上,编制成为检索工具或建立一个数据库。
信息检索子系统:根据信息用户的特定需求,对用户需求进行主题分析,利用一定的检索方法和检索技术,对存储子系统中的特征标识进行比对,把需要的文献线索或知识信息从系统中查找出来的过程,即信息检索。
这就是通常人们所说的信息检索过程,也就是狭义上的信息检索。
信息存储与信息检索是意义不同却又相互联系、相互依存、不可分割的两个过程。
信息存储是为了检索,信息检索又必须先有信息存储。
如果没有存储,检索就无法实现;没有检索,信息存储也就变得没有意义。
所以说存储是检索的前提和基础,检索是存储的目的。
信息检索系统的工作原理如图3-1所示。
图3-1 信息检索系统的工作原理二、 信息检索的类型信息检索可以按不同的划分标准划分为不同的类型。
(一)、 根据检索内容划分根据检索信息内容不同可划分为文献信息检索、事实信息检索和数据信息检索。
1、文献信息检索(document retrieval ):是以文献(包括目录、索引、文摘等二次文献或全文)为检索对象,查找有关文献的出处和收藏处等信息,都属于文献信息检索范畴。
第三章 信息检索基本方法概论
第主题三语章言信—息—叙检词索语基言本方法
叙词语言的特点:
➢规范性强:叙词语言事先经过规范化处理,列于叙词表中,
标引和检索都从叙词表中选词,保证了标引和检索的一致 性。
➢利用叙词的组配,可用有限的叙词表达各种复杂的主题。 ➢叙词语言从单元概念出发提示文献内容,可准确、全面揭
示文献的主题,提高标引深度和专指度。
TG759 其它
TG751又分为:
TG751.1 车床夹具
TG751.2 钻床夹具
TG751.3 铣床夹具
TG751.4 刨床夹具
TG751.5 磨床夹具
TG751.9 其它
第分类三语章言-信中图息分检类索法 基本方法
第检索三语章言信—息—主检题索语基言本方法 主题语言: 以主题词来表达信息主题概念的语言。 是计算机信息检索语言的主流。通常又分为以下几种: (1)标题语言 (2)叙词语言 (3)关键词语言 (4)元词语言
Q 生物科学
R 医药、卫生 S 农业科学
T 工业技术
U 交通运输
V 航空、航天
X 环境科学、安全科学 Z 综合性图书
第分类三语章言-信中图息分检类索法 基本方法
简表
以T工业技术类来说明简表。 工业技术(T类)划分为: TB 一般工业技术 TE 石油、天然气工业 TG 金属学、金属工艺 TJ 武器工业 TL 原子能技术 TN 无线电电子学、电讯技术 TQ 化学工业 TU 建筑科学
1.根据结构原理划分 分类语言 指用分类号和类名来表达信息的内容主题概念, 并按知识门类的逻辑次序将信息资源系统地加以划 分和组织的语言。 分类语言主要分为等级体系型和分面组配型。 例如:下面的中图分类法就是等级体系型分类语 言。
第分三类章语言信-息中图检分索类基法本方法
信息检索的基本知识
信息检索的基本知识
信息检索是一种重要的技术,它用于从大量的数据中提取所需信息。
以下是一些信息检索的基本知识:
•索引:信息检索的首要步骤是构建索引。
索引是一个按关键字组织的数据结构,用于快速定位和访问文档。
•关键字:关键字是进行信息检索的基本单位。
它们可以是单个词或短语,根据检索目的和搜索引擎的功能来确定。
•搜索引擎:搜索引擎是信息检索的核心工具。
它利用索引和算法来找到与用户查询相关的文档,并按相关性排序。
•查询:用户通过查询向搜索引擎提供信息需求。
查询可以是简单的关键字、短语,也可以是复杂的语句。
•相关性:搜索引擎根据文档与查询的匹配程度计算相关性。
相关性分数用于确定排名,从而决定返回给用户的搜索结果顺序。
除了以上基本知识,信息检索还涉及更多高级技术:
•倒排索引:倒排索引是一种常用的索引结构,它将关键字映射到包含这些关键字的文档列表中,以支持快速的搜索。
•词频和权重:搜索引擎通常根据关键字在文档中出现的频率和位置,以及其他因素来计算关键字的权重。
•自然语言处理:信息检索利用自然语言处理技术来理解用户查询和文档内容,以提高搜索效果。
•评估和优化:为了提供更好的搜索结果,搜索引擎需要不断评估和优化算法,以适应不断变化的用户需求和文档集合。
总结起来,信息检索是一门复杂而关键的技术,它在数字化时代具有重要意义。
了解信息检索的基本知识对于学习和使用搜索引擎、开发相关应用都非常有帮助。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、逻辑“或”(和) 、逻辑“
————————————————— A
B
用符号“ 或 表示, 用符号“or”或“+”表示,其逻辑表达式为: 表示 其逻辑表达式为: A or B 或 A+B 其意义为检索记录中凡含有检索词A或检索词 , 其意义为检索记录中凡含有检索词 或检索词B, 或检索词 或同时含有检索词A和 的 均为命中文献。 或同时含有检索词 和B的,均为命中文献。
分 析 课 题
检索词: 检索词: : :
富营养化(水华), ),处理 富营养化(水华),处理 治理,修复), ),湖泊 (治理,修复),湖泊
ቤተ መጻሕፍቲ ባይዱ
, ,
,
检索工具: 检索工具:
1. 2. 3. 4. 5. 6. 7. 8. 中文科技期刊全文数据库(维普) 1989中文科技期刊全文数据库(维普) 1989-现在 中国科技成果数据库(万方) 1986中国科技成果数据库(万方) 1986-现在 中国期刊全文数据库(同方) 1979中国期刊全文数据库(同方) 1979-现在 中国优秀博硕士学位论文全文数据库(同方)1999中国优秀博硕士学位论文全文数据库(同方)1999-现在 中国学位论文文摘数据库(万方) 1989中国学位论文文摘数据库(万方) 1989-现在 中国学术会议论文全文数据库(万方) 1995中国学术会议论文全文数据库(万方) 1995-现在 中国重要会议论文全文数据库(同方) 2000中国重要会议论文全文数据库(同方) 2000-现在 中国重大科技成果数据库(万方) 1990中国重大科技成果数据库(万方) 1990-现在
中图分类法
中图法》 个基本部类, 《中图法》分 5个基本部类,将知识门类分为 哲学” 社会科学” 自然科学” “哲学”、“社会科学”、“自然科学”三大部 马克思主义、列宁主义、 类。马克思主义、列宁主义、毛泽东思想是指导 我们思想的理论基础,作为一个基本部类, 我们思想的理论基础,作为一个基本部类,列于 首位。此外,考虑到图书本身的特点, 首位。此外,考虑到图书本身的特点,对于一些 内容庞杂,类无专属, 内容庞杂,类无专属,无法按某一学科内容性质 分类的图书,概括为“综合性图书” 分类的图书,概括为“综合性图书”,作为一个 基本部类,置于最后。 22个大 基本部类,置于最后。在此基础上扩展为 22个大 类。 标记符号采用拉丁字母与阿拉伯数字相结合的混 合号码制。 合号码制。
信息检索语言的类型
(title) (author) (code) (reference)
检 索 语 言
的语言 愌
的语言
类语言 (classification) (subject) (keyword)
分类语言(classification) 分类语言(classification)
将各种概念按学科性质进行分类和系统排列 的语言, 的语言,具体体现为用分类号和类名来表达信息 的主题概念。 的主题概念。 中国图书馆图书分类法 美国国会图书馆分类法 杜威十进位分类法 IPC国际专利分类法 IPC国际专利分类法
信息检索的途径(access point)
1 题名途径(Title) 2 责任者途径(Author) 3 机构途径(institution) 4 序号途径(Code) 5 分类途径(Classification) 6 主题途径(Subject) 7 关键词途径(Keyword) 8 其它途径
检索途径的选择取决于两个方面: 检索途径的选择取决于两个方面:
检索途径:篇名 关键词 摘要…… 关键词/摘要 检索途径:篇名/关键词 摘要 检索表达式: 富营养化*(治理 处理+修复 治理+处理 修复)*湖泊 检索表达式:1 富营养化 治理 处理 修复 湖泊 检索表达式: 水华*(治理 处理+修复 治理+处理 修复) 检索表达式:2 水华 治理 处理 修复
(2) 明确检索要求和检索范围 确定检索词 a 明确课题的主题或主要内容 选择检索工具或数据库 b 课题涉及的学科范围 所需信息的数量、语种、年代范围、 c 所需信息的数量、语种、年代范围、文 献类型等具体指标
第二步 制定检索策略
(1)选择检索方式 (1)选择检索方式 (2)选择检索工具或检索系统及数据库 (2)选择检索工具或检索系统及数据库 (3)选择检索方法 (3)选择检索方法 (4)选择检索途径 (4)选择检索途径 (5)构造检索式 (5)构造检索式
第三章 信息检索基础知识
知识要点
★ 信息检索概念及其分类 ★ 信息检索基本原理及检索语言 ★ 信息检索的基本步骤 ★ 检索效果及其评价
信息检索(information retrieval)概念
信息检索广义上是指将杂乱无序的信息 按一定的方式组织和存储起来, 按一定的方式组织和存储起来,并根据信息 用户的需求找出相关信息的过程和技术, 用户的需求找出相关信息的过程和技术,全 称是”信息存储与检索”(Information 称是”信息存储与检索” Storage and Retrieval). 狭义的信息检索指的是后一过程. 狭义的信息检索指的是后一过程.
事实检索(fact) 事实检索(fact),是以具体事项为检索内容 的信息检索, 的信息检索,要求从检索系统存储的各种原始信 息资源中查出专门的事实材料。 息资源中查出专门的事实材料。
书目检索(directory) 书目检索(directory),是以文献线索为检索 内容的文献检索。即检索系统中存贮的是书目、 内容的文献检索。即检索系统中存贮的是书目、索 文摘等二次文献, 引、文摘等二次文献,检索结果获得的是与检索课 题有关的一系列文献线索。 题有关的一系列文献线索。
2、逻辑“与” 、逻辑“
————————————————
A B
用符号“ 用符号“and”或“*”表示,其逻辑表达式为: 或 ”表示,其逻辑表达式为: A * B 或 A and B 其意义为检索记录中必须同时含有检索 的文献, 词A和B的文献,才算命中文献。 和 的文献 才算命中文献。
3、逻辑“非” 、逻辑“
信息检索的分类
(一)按检索内容划分 数据检索 事实检索 书目检索 全文检索
数据检索(data) 又称数值检索, 数据检索(data),又称数值检索,是以具有 数量性质, 数量性质,并以数值形式表示的数据为检索内容 的信息检索。即检索系统中存储的是大量的数据, 的信息检索。即检索系统中存储的是大量的数据, 包括物质的参数、电话号码、观测数据、统计数 包括物质的参数、电话号码、观测数据、 据等,也包括图表、化学分子式、 据等,也包括图表、化学分子式、物质的各种特 性等非数字数据。 性等非数字数据。
一是课题的已知条件和课题的范围及检 索效率要求; 索效率要求;
二是所选择的检索工具所能提供的检索 途径。 途径。
构造检索式
检索式是检索策略的逻辑表达式, 检索式是检索策略的逻辑表达式,是用来表达 用户检索提问的, 用户检索提问的,由基于检索概念产生的检索词和 各种组配算符构成。 各种组配算符构成。
总信息
信息检索语言概念
定义:是根据检索需要而创造的一种人工语言。 定义:是根据检索需要而创造的一种人工语言。
作用: 作用: 保证不同标引人员表征文献信息的一致性, 1、保证不同标引人员表征文献信息的一致性, 使内容相同及相关的文献集中化。 使内容相同及相关的文献集中化。 保证检索提问与文献信息标引的一致性。 2、保证检索提问与文献信息标引的一致性。提 高信息的查全率和查准率。 高信息的查全率和查准率。
分析课题: 分析课题:
水体富营养化是指湖泊、河流、 水体富营养化是指湖泊、河流、水库等水体中氮磷等植物 是指湖泊 营养物质含量过多所引起的水质污染现象。 营养物质含量过多所引起的水质污染现象。由于水体中氮 磷营养物质的富集,引起藻类及其他浮游生物的迅速繁殖, 磷营养物质的富集,引起藻类及其他浮游生物的迅速繁殖, 使水体溶解氧含量下降,造成藻类、浮游生物、植物、 使水体溶解氧含量下降,造成藻类、浮游生物、植物、水 生物和鱼类衰亡甚至绝迹的污染现象。水体出现富营养化 生物和鱼类衰亡甚至绝迹的污染现象。 时主要表现为浮游生物的大量繁殖, 时主要表现为浮游生物的大量繁殖,因占优势的浮游生物 的不同而水面往往呈现出蓝色、红色、棕色和乳白色等。 的不同而水面往往呈现出蓝色、红色、棕色和乳白色等。 在江河、湖泊和水库中称为“水华” 在海洋中称为“ 在江河、湖泊和水库中称为“水华”,在海洋中称为“赤 潮”。 blooms)是淡水中的一种自然生态现象, “水华”(water blooms)是淡水中的一种自然生态现象, 水华” 只是仅由藻类引起的,如蓝藻( 只是仅由藻类引起的,如蓝藻(严格意义上应称为蓝细 菌)、绿藻、硅藻等。“水华”发生时,水一股呈蓝色或 )、绿藻、硅藻等。 水华”发生时, 绿藻 绿色。 绿色。
检索方法
1 直接检索法 顺查法, 间接检索法,又称常用法。包括顺查法 2 间接检索法,又称常用法。包括顺查法,倒 查法(逆查法) 抽查法。 查法(逆查法)和抽查法。 追溯检索法, 3 追溯检索法,又称扩展法或追踪法 循环检索法,又称分段法或综合法, 4 循环检索法,又称分段法或综合法,是常用 法和追溯法两种方法的综合。 法和追溯法两种方法的综合。
信息检索的基本步骤
不满意 索
③
检 索 需 求
①
分 析 检 索 课 题
②
制 定 检 索 策 略
试 检 索
④
检 索
⑤
图2-2
检索的基本过程
第一步 分析课题
要求: 要求: 明确检索目的: (1)明确检索目的:
a 关于某一个课题的系统详尽的信息,包括掌握 关于某一个课题的系统详尽的信息, 其历史、现状和发展。 全 其历史、现状和发展。(全) (新 b 关于某个课题的最新信息 。新) 了解一些片断信息。 c 了解一些片断信息。准) (准
————————————————
A