信息检索课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
逻辑与(逻辑乘)。用关系词 AND或“*”表示,表示它所连 接的两个检索词必须同时出现在 结果中就满足检索条件。例如检 索式computer AND software 就要求检得结果中必须同时包含 computer和 software 。逻辑 与缩小文献检索范围,提高查准 率,是具有概念交叉和限定关系 的一种组配。
② 检索策略模块:将用户输入的检索要求编制成 计算机可执行的规范化检索式。
③ 检索执行模块:利用检索式检索索引数据库, 并保证检索的速度和准确性。 ④ 检索结果组织模块:对检中记录的整理组织。
1、数据库的类型
计算机检索系统有5种数据库:
目录型数据库 题录型数据库 文摘型数据库 全文型数据库 指南、数值型数据库
手工检索系统所使用的检索工具包括书 本式目录、题录、文摘、索引
计算机检索
计算机检索(computer-based retrievaFra Baidu bibliotek)简称 机检,使用的是计算机检索系统,检索是针对
书目数据库进行的。检索过程是在人和机器的
协同作用下完成的。匹配是由机器执行的,而
人则是整个检索方案的设计者和操纵者。这里,
刊或一件专利)为报道单位。它对文献的描述比较简单, 每条款目的著录项目有:著者/编者、书名/文献名和出 版事项等。
著录:就是对某一文献的描述。既按照一定的格式,用文字把文献的外表 特征和内容特征(文献题名、著者、出版者、出版时间及文献来源、内容 提要等)表示出来。
题录
题录是单篇文献外表特征的揭示和报道。 题录通常是以一个内容上独立的文献单元 (如一篇文章或书中的某一部分,甚至整 本出版物)为著录的基本单位。每条款目 的著录项目通常包括:篇名、著者和来源 出处。
检索标识是索引款目所指示的文献某方面的特征, 其属性值有著者姓名、主题词等。
存储地址是指文献属性值所对应的特定信息内容在 信息集合中的地址,多数是流水号(如文摘号)。不 同的标识系统构成不同的索引,有主题索引、分类索 引、著者索引、关键词索引、图书索引等等。比如主 题索引就是以主题词作标识(目)。
电子文献是指经过数字化技术处理后存储在一定 的特殊介质上并被计算机阅读和检索的文献资料。
其基本特征是:文献的文本是以计算机可读数据 的形式加以表示的;电子文献经过格式化处理因 而具有数据库结构;电子文献的使用要有相应的 检索软件和其它编辑软件的支持并借助于计算机 进行。 其优点是存储密度高,存储速度快,可对所记录 的信息进行各种处理,如转存、检索、传送、提 取、检测和输出等;其缺点是使用费用较高。
文献检索
事实检索
课题
相关性检索 题录、文摘及 文献线索
事实、数 确定性检索 词典、年鉴等 事实、数据 据 (相应数据库
目录
目录(catalog)是图书、期刊等单位出版物外表特
征的揭示和报道,是按某种顺序编列的文献清单。 目录通常是以一个完整的出版单位或收藏单位为著录的
基本单位,即以文献的“本”“种”或“件”(如一种期
(2)记录(record)
记录(record) 在数据库中的 一篇文献称为一条记录,它是由若干 个不同的著录单元(即字段)组成的。 在数据库中每一条记录都有一个记录 号,唯一地标识这条记录。
(3)文档(file)
文档(file)由某一类型的若 干条记录组成的信息集合称之为文
档。它是数据库的基本形式,包括
电子文献
电子文献种类很多,按出版类型划分有电子教科书、
电子专著、电子工具书、电子杂志、电子报纸、电
子版书目数据、计算机软件等。
按电子文献载体形式划分其类型有磁性型文献、光
盘型文献和网络型文献。
Floppy Disk
Hard Disk
CD
Net
磁盘型电子文献
光盘型电子文献
网络型电子文献
1.2
课程基本信息
课程编号: T20020001
课程名称: 文献检索与利用
(Literature Retrieval and Utilization )
课程类型: 通识课(公共必修课)
先修课程: 大学英语
计算机应用基础
专业基础课
课程基本信息
学时学分:20学时、1学分
成绩构成: 平时实习占40%;
(2)
命令检索
命令检索(command search)使用一些特定的
操作命令(包括指令和检索式)来实施检索。命
令检索可以精确地表达检索提问,灵活地进行各
种方案的检索比较,简捷、快速得到比较理想的 检索结果。一些大型的检索系统都有命令检索方 式。不同的系统一般有不同的检索命令方式。
(3)
超文本检索
超文本检索(hypertext search)向用户提
供更加友好的人机交互界面。超文本的内容排
列是非线性的,它按知识(信息)单元及其关 系建立起知识结构网络,操作时用鼠标点击相 关的知识单元,检索便可追踪下去。Internet 上的WWW检索便是典型例子。超文本检索方
式一般有初级(字段)检索和高级检索。
2、数据库的构成
数据库是由字段、记录、文
档组成。
(1)字段(field)
字段(field): 书目数据库中基本 的信息单位著录项目在数据库中称作字 段。它是文献著录加工的最基本单元, 描述的是文献外部特征和内容特征。字 段包括:文摘字段、题名字段、著者字 段等等。每一字段均有其标识符(字段 名)。
其二,根据信息用户的需要找出有关信息。
狭义的信息检索则仅指后者。
信息检索的基本原理,我们可以用一句话把它最本
即从用户需求出发,对一定的信息集合采用一定的技术 手段,根据一定的线索与准则找出相关的信息。
质的部分概括为:对信息集合与需求集合的匹配与选择。
信息 需求
个人问题与知识
特征化 表示
匹配与选择
A OR B
A or B
逻辑非(逻辑减),用关系 词not或“—”表示,表示它 所连接的两个检索词中应从 第一个概念中排除第二个概
1.3.2计算机检索的常用算符
计算机检索系统的核心是检索功能。现有的计 算机检索系统均具备了诸如布尔逻辑检索、截词
检索、位置范围检索等检索功能。
算符(operator)即组配符,用于连接检索词构成 检索式,常用的有布尔逻辑算符、位置算符、截 词符和检索字段符。
(1) 逻辑算符 逻辑算符也称布尔(Boolean)算符, 用来表示两个检索词之间的逻辑关系。 常用的有3种 逻辑与(AND) 逻辑或(OR) 逻辑非( NOT)
文摘
文摘是带有内容简介的、扩展了的题录。
其著录项目比题录至少多一个文摘项。文摘
也是以一个内容上独立的文献单元为著录的
基本单位,它不仅描述文献外表特征,而且 还包括文献的内容特征。文摘按揭示文献内 容的详细程度可分为报道性文摘、指示性文 摘和评论性文摘。
索引
索引是对一组信息集合的有系统的指引,一般只起 指引特定信息内容及其存储地址的作用。 索引款目一般有2个著录项目:检索标识(标目) 和存储地址。
1.3
检索技术
1.3.1 计算机检索的方式
(1) 菜单检索
菜单检索(menu search),又叫字段检索。是一 种方便、易掌握的检索方式。用户只要根据菜单的 指引,通过确定适当的选项和功能键便能一步步地 完成检索。光盘检索多采用菜单检索方式,其缺点
是操作步骤多,检索时间较长,检索功能、精度不
如命令方式。
索引不能作为一个单独的检索系统存在, 它是目录、题录、文摘检索系统中的一个 重要组成部分,在检索系统中占有重要位 置,它提供了从不同角度(检索点)对特 定信息集合检索的途经。
手工检索
手工检索(Manual Retrieval),简称手检。 即通过检索者对印刷型的检索工具进行手翻、 眼看、脑子作出判断而进行的。检索过程是 由人脑和手工操作的配合来完成的,匹配是 人脑的思考、比较和选择。
信息检索
1.2.1 信息检索
信息检索(Information Retrieval)是指将信息按 一定的方式组织和存储起来,并根据信息用户的需要 找出有关的信息的过程和技术。它的全称又叫“信息 存储与检索” 。通俗地说人们通过一种科学的方法从 信息资源中获取自己所需要的信息,就是信息检索。 广义的“信息检索”概念包括两个方面: 其一,将信息按一定的方式组织存储起来;
1.1.2文献
文献是记录有知识和信息的一切载体。由 4个要素组成: ①所记录的知识和信息,即文献的内容。
②记录知识和信息的符号,文献中的知识和信息是借助于文 字、图表、声音、图像等记录下来并为人们所感知的。
③记录的方式或手段,如铸刻、书写、印刷、复制、录音、 录像等,它们是知识、信息与载体的联系方式。 ④用于记录知识和信息的物质载体,如竹简、纸张、胶卷、 胶片等,它是文献的外在形式。
A AND B
A and B
逻辑或(逻辑加),用关系词 OR或“+”表示,表示它所连 接的两个检索词中任意一个出 现在结果中就满足检索条件。 例 如 检 索 式 car OR automobile就要求检得结果 中 可 以 只 有 car 、 或 只 有 automobile、或同时包含car 和automobile 。逻辑或扩大 文献检索范围,提高查全率, 是具有概念并列关系的一种组 配。
顺排文档和倒排文档。
顺排文档指文档中的记录按序存放,记录的 存取按物理顺序进行。书目数据库中的主文档通 常是顺排文档,主文档与手工检索工具中的正文 部分相对应,是数据库的主体。主文档像手工检 索工具一样,需要辅助索引的配合即倒排文档的 配合。 倒排文档是将每篇文献记录中的检索标识 (如文献的主题词、题名、著者等)抽取出来, 同时记录下该检索标识出现过的文献记录号,然 后再按序组织起来成为可以用作索引的文档,这 种倒排文档亦称索引文档。
特征化 表示
信息
集合
外部知识
1.2.2 信息检索的类型
n
n n n n
信息检索按其功能可分为
目录检索 文献检索 事实检索 信息检索按所使用的技术手段可分为
手工检索(检索工具)
计算机检索(检索系统)
已知条件 检索性质
目录检索
检索工具
检索结果
收藏单位 (收藏地)
期刊刊名 确定性检索 馆藏目录 或图书名 (OPAC) 相应的数据库
文献记录 存储 计算机 检索 检索提问 (信息标识) (数据库) (提问标识)
查获命中文献
存储
存储是指收集信息,然后进行筛 选、分析、著录、标引,从各个方面 描述信息的内容特征和外表特征,以 形成可供检索的标识,再按照一定的 方式输入到计算机中,建立相应的信 息数据库。
检索
检索是指将用户需要的信息变成检
1.1.3 文献类型
按载体形式可分为 印刷型 缩微型 电子型 声像型
另外,在古代还有甲骨文献、石刻文献、简牍文献等。
按文献内容加工与传递层次可分为 一次文献 二次文献
三次文献
按出版形式可分为图书、期刊(连续出版物)、会议文献、 科技报告、标准文献、产品样本、专利文献、学位论文、 档案等。
电子文献
索提问标识,按照系统提供的检索途径,
将检索提问标识与系统存储的信息标识进
行比较,将满足检索提问条件的信息按用 户要求编辑输出。
计算机信息检索系统 计算机检索系统由硬件、软件和数据 库组成。就检索而言,检索系统是指 数据库。
应用软件
系统软件
硬件部分 软件部分 数据库
检索是针对数据库进行的,数据库是计算机 可读数据的集合。数据库主要包括四个部分: ① 检索界面模块:接受用户检索要求,有一般 检索界面和高级检索界面。
综合实习占60%
授课方式: 课堂讲授(多媒体教学)
检索实习(计算机检索)
第一章 信息检索概论
1.1 信息与文献
1.1.1信息
信息一词的拉丁词源是 information, 意思是通知、 报道或消息。在中国历史资料中,信息一词最早出自 唐诗,是音信、消息的意思。一直沿用到20世纪中叶, 其科学含义才被逐渐揭示出来。事实上,任何一种通知、 报道或消息,都不外是关于某种事物的运动状态和运 动方式的某种形式的反映,所以信息是事物的存在方 式和运动状态的表征。
检索的本质没有变,变化的只是信息的载体形 式存储方式和匹配方法。
计算机检索系统与手工检索 系统比较,有以下优点:
①检索速度快;
②检索点多,检出率高,且能满
足多元检索的要求;
③信息量大,信息内容更新快;
④能充分达到资源共享的目的;
⑤服务方式灵活多样。
1.2.3 计算机信息检索的基本原理 计算机信息检索并不神秘,它模拟人的 手工检索。它的基本原理如图: