计算机信息检索概述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
混合数据库
这类数据库兼有源数据库和参考数据库的特点, 按载体形式它又可分为以下四种类型: 磁媒体数据库 光盘数据库 多媒体数据库:是一种能够对文字、数值、声音 和图像等不同性质的媒体进行一体化处理和管理的 新型数据库 超媒体数据库。通过外部树形的链接将多种类型 的媒体连成一个集合,该集合称为超媒体数据库。
2 计算机信息检索的发展历史
脱机批处理检索 联机情报检索 国际联机检索 光盘检索 网络信息检索
脱机批处理检索
1954一64。定期由专职检索人员把许多用 户课题汇总,批量处理提问要求,并把结 果提供给用户。直接在计算机旁检索,不 需要远程终端设备及通信网络。用户在计 算机处理成批检索课题之后才知道检索结 果,不能直接、及时修改检索策略,查全 率和查准率受到一定限制。
联机情报检索
20世纪70年代投入商业运营。用户在计算 机检索系统的终端上,通过通信网络,使 用特定的指令和算符,以人机对话方式, 查询远程计算机检索系统核心的数据库, 从中获取所需信息的计算机检索系统。
联机系统的诞生,使许多相互独立的终端 实现了“对话”方式的信息检索。所谓对 话方式,就是用户利用系统提供的、为数 不多且简单易记的检索命令,每次输入一 条命令或由命令组成的表达式查看结果。 系统方面则每次显示出可能的信息,帮助 用户选择下次该用的命令或表达式,用户 通过与系统双向对话,可不断改变或完善 检索策略,直至获得满意的检索结果为止。
终端系统
终端系统是人与系统的接口设备。它能 将字符、声音以及人类的信息表现形式转换 成系统的机器代码。反之,将系统的结果还 原成字符、声音等形式,传送给终端用户。
国际联机检索
70年代中后期。(联机检索基础上的扩充到 国际)
优点:这种方式可以边检索边修改检索策 略,而且检索速度快,多用户可同时检索, 检索不受地理位置限制,检索功能多样化, 打印输出灵活,检索结果可进行多种分析 处理,大大方便检索用户和提高检索质量。
源数据库
又称为数据银行。它是能够直接为用户提 供原始资料或具体数据的一类数据库。 源数 据库又分为: 数值型数据库 文本—数值型数据库 术语数据库 图像数据库 全文数据库 超文本数据库
数值型数据库
是指专门提供以数值方式表示的调查数据 和统计数据的一类数据库。
文本文本-数值型数据库
3 计算机检索技术与实现
布尔逻辑检索 位置算符 截词检索 词组检索 括号检索 字段限制检索
布尔逻辑检索
即运用布尔逻辑算符(Boolean operators)对 检索词尽心逻辑组配,表达两个概念之间的 逻辑关系。 布尔逻辑算符主要有:AND OR NOT 在中文数据库里,布尔逻辑运算符又是用 AND、OR、NOT表示,有时用 “*“、 ” +“ 及 ”-“ 。
1 计算机信息检索理论基础
计算机信息检索的定义 计算机检索系统的构成 数据库的概念
计算机信息检索的定义
所谓计算机信息检索,就是在计算机和人 的共同作用下,按照一定的方法组织和存 储信息,并通过人机对话从计算机存储的 大量数据中自动输出用户所需的那部分信 息的过程。
计算机检索系统的构成
ห้องสมุดไป่ตู้ 硬件 软件 数据库
网络信息检索服务的特点:
信息检索服务的开放性 超文本的多链接性 用户界面友好且操作方便 具备良好的导航和编辑功能
信息检索服务的开放性
网络信息系统中包含信息资源、信息设备、 信息通道、信息检索软件及信息终端等子 系统,各个子系统都是开放的,其信息资 源面向所有用户。
超文本的多链接性
以超文本技术为基础链结构将不同地方的 相关信息有机联系起来,使用户可通过点 击文本或图表中的超文本链接点访问另一 个相关的文档。
硬件
系统中采用的各种硬件设备的总称,包括 具有一定性能的计算机主机、外围设备以 及怀数据处理或数据传输有关的其他设备。 主机,是计算机检索系统的中枢。外围设 备包括外部存储器,输入输出设备如键盘、 光笔、鼠标、光学字符识别装置,显示终 端、打印机等。
软件
系统中有关的程序和各种文件资料的总称, 包括系统软件(如操作系统,输入输出控 制程序)和应用软件。
缺点: 注重系统自身工作效率的提高,如改进算 法、改进存储结构与存取技术等;让用户去 适应、配合系统,很少分析、考虑用户对使 用系统的要求。 面向检索专家或中介机构。要求检索者熟 悉系统的一整套检索指令和检索技术,用户 的提问必须采用规范化的检索语言,从而依 赖于专业检索人员,用户自己完成检索必须 受过系统培训。 人机交互界面不友好,且费用较高。
逻辑与(逻辑乘)
用运算符号:AND 或 * 连接检索词 例 查 “有关计算机在图书馆中的应用”的文 献, 检索式=计算机 * 图书馆
A B A AND B
逻辑或
用运算符号 “OR” 或 “+”连接两检索词 例1 查“苹果或梨”方面的文献 检索式=苹果 + 梨 它在同义词检索中使用,能提高查全率。 例2 查“计算机或机器人”方面的文献 检索式=计算机 + 机器人
nN
功能:两词相邻,顺序可以颠倒,两词中间 可以插入0~n个词 表达式:Education(1N)school 检索结果:Education school school of education Education and sic school school of music and education
光盘检索
80年代初期,其全称为高密度光盘 (Compact Disk),主要是利用激光、计算机 及光电集成等技术实现信息存储的数字化。 以光盘为介质的光盘数据库检索系统由于 信息存储量大,简单易用而取胜。
优点:一次购买,无限制使用,不必考虑 检索时间,远程通信费用等因素;存贮容 量大;检索途径多;适用于通信不发达, 联网较困难的地区,是联机检索、网络检 索的有效补充。
联机检索系统由三个部分组成: 主机系统 通讯系统 终端设备
主机系统
主机系统是联机检索系统的核心,它具备处 理速度快、多道程序和分时功能,内存容量 大,多样化的输入输出设备。
通讯系统
通讯系统是指终端设备与主机系统进行 通信的设备。通信线路分为两种:专用的直 达线路;通过拨号选择对方的交换线路。前 者是特定通信线路,后者使用电话网和用户 电报网,联机系统使用的通信线路就属于后 一种。
是指能够同时提供文本信息和数值数据的 一类数据库。
术语数据库
是指专门存储和检索名词术语、词语信息 等的一种源数据库。
图像数据库
是指用来存储和检索各种图像或图形信息 及有关文字说明资料的一种源数据库。
全文数据库
是指存储和检索文献全文或其中主要部分 的一种源数据库。
超文本数据库
这种数据库存储时将存储内容分割为若干 独立利用的结点,使用链路连接结点等方 式进行存取,从而构成一个不拘泥于形式 逻辑推理,不遵循某种正规模式的一种网 络框架结构,因而具备了类似于数据库又 优于一般数据库的特点。
网络信息检索
是通过标准通信方式将世界各地的计算机 网络连接起来,形成一个基于客户机-服务 器模式的网络分布数据库结构。它在全球 范围内把科技信息、商贸信息、经济信息、 时事新闻以及日常生活信息通过互联网络 合在一起,向亿万联网用户提供广泛的信 息检索与服务。它是信息化社会应用最广 泛、最活跃的领域。
局限:数据更新有一定的周期,时效性、 灵活性比不上联机检索;目前光盘数据库 容量有限,一般是按专业和领域建库,收 录范围不够广泛;适用对象的局限性,因 为一次性购买费用高,对使用频率不高的 单位或个人来说成本较高;设备和软件的 兼容性较差,各种光盘数据库检索系统目 前还难以实现标准化和统一化。
光盘检索系统的构成:计算机、CD-ROM 驱动器、检索软件、CD-ROM数据盘。
数据库
“一组文件的集合”,就是以一定的组织方 式存贮在一起的相关数据的集合。
数据库的概念
数据库的定义 数据库的类型
数据库的定义
数据库是至少由一种文档组成,并能满足 某一特定目的或某一特定数据处理系统需 要的一种数据集合。通俗地说,数据库是 在计算机存储设备上按一定方式存储,并 提供给确定范围内的各类用户共享的相互 关联的数据集合。数据库是计算机技术与 信息检索技术相结合的产物。它既是现代 人们从事信息资源管理的工具,同时也是 计算机信息检索的基础。
PRE
功能:两词相邻,按输入顺序排列 表达式:Education PRE school 检索结果:Education school Education schools
N、NEAR、ADJ NEAR、
功能:两词相邻,顺序可以颠倒 表达式:Education(N)school Education NEAR school 检索结果:Education school Education schools School of Education
位置算符检索就是利用一些特定的位置 算符来表达检索词之间的位置关系,并且可 以不用叙词表而直接使用自由词进行检索的 方法。有的书上还把这种检索称为原文检索。 这种检索在利用TI和AB途径检索时,对检索 质量影响很大。 常用的位置算符有:W、W/N、WITH、 WITHIN、nW、PRE、N、NEAR、ADJ、nN、 F、SAME
数据库的类型
参考数据库 源数据库 混合数据库
参考数据库
指用户从中获取信息线索后,还需进一步查找 原文或其他资料的一类数据库。它包括书目数据库 和指南数据库。 (1)书目数据库。它是存储某个学科领域的二次 文献的数据库,有时又称作为二次文献库。它依照 二次文献的不同类型又可分为题录文摘数据库、索 引数据库和图书馆书目数据库。 (2)指南数据库。它是存储有关某些机构、人物、 出版物、项目、程序、活动等简要描述性信息的一 类数据库,亦称指示性数据库。例如,机构名称数 据库、人物传记数据库、产品数据库等都属于这一 类数据库。
A B A OR B
逻辑非
用运算符号“NOT”或“—”连接两检索词 A NOT B 例1 查“玉米但不是甜玉米”方面的文献。 检索式=玉米—甜玉米 例2 查“不是铬合金”方面的文献。 检索式=合金—铬
A B A NOT B
位置算符检索
文献记录中词语的相对次序不同,所表达的 意思就可能不同。同样在检索式中,检索词 的相对次序不同,表达的检索意图也不一样, 布尔逻辑运算符有时难以表达某些检索课题 的确切提问要求,用词间位置算符来限定和 组配检索词,可弥补布尔逻辑算符只是定性 规定检索词的范围,而没有限定检索词位置 关系,易造成误检的不足。
W、W/N、WITH、WITHIN W/N、WITH、
功能:两词相邻,按输入时顺序排列(也有 数据库允许顺序颠倒) 表达式:Education(W)school 或 Education WITH school 检索结果:Education school;education schools
nW
功能:两词相邻,按输入时顺序排列(也有 数据库允许顺序颠倒),两词之间允许插入 0~n个词。 表达式:Education(1W)school 检索结果:Education school;education schools;Education and music school;
计算机信息检索概述
1 计算机信息检索理论基础 2 计算机信息检索的发展历史 3 计算机检索技术与实现 4 计算机检索策略与实施技巧
1 计算机信息检索理论基础
使用计算机检索信息,是专业人员在开 展科学研究中不可或缺的一项基本技能。一 个具有这方面能力并善于从电子信息源中获 取所需信息者,将在今后的信息社会中获取 更多的成功机会 。
用户界面友好且操作方便
采用客户机/服务器结构,通过交互式的图 形界面,为用户提供友好的信息查询要求, 检索途径多,可保留检索历史。正是这一 特点,使Internet能广泛深入学校、家庭、 办公室乃至每一个人。
具备良好的导航和编辑功能
网络信息检索一般都可以引导读者在复杂 的网络信息资源中漫游而不致迷失方向, 用户可以利用导航机制,了解其所在网络 图中的位置。网络信息检索具有良好的编 辑功能,包括修改、增加、删除节点和链 的能力,此外对节点内的信息也具有良好 的编辑能力,可进行多窗口编辑。