计算机信息检索基础知识.
计算机基础信息检索
多媒体信息检索技术应用
图像检索:通过图像内容进行 检索如图像识别、图像分类等
音频检索:通过音频内容进行 检索如语音识别、音乐识别等
视频检索:通过视频内容进行 检索如人脸识别、场景识别等
文本检索:通过文本内容进行 检索如关键词搜索、文本分类
等
多媒体融合检索:结合多种媒 体进行检索如跨媒体检索、多
媒体内容分析等
和准确性
移动化:适应 移动设备的发 展趋势提供更 便捷的检索服
务
社交化:结合 社交网络提高 信息传播和检
索的互动性
专业化:针对 特定领域提供 更专业的检索 服务满足不同
用户的需求
数据库信息检索 技术
数据库信息检索原理
检索方法:包括全文检索、 关键词检索、布尔检索等
数据库检索:通过数据库管理 系统(DBMS)进行数据查询 和检索
多媒体信息检索原理
多媒体信息检索技术分类
基于内容的检索:通过分析多媒体内容的特征进行检索 基于文本的检索:通过分析多媒体内容的文本信息进行检索 基于视觉的检索:通过分析多媒体内容的视觉特征进行检索 基于音频的检索:通过分析多媒体内容的音频特征进行检索 基于视频的检索:通过分析多媒体内容的视频特征进行检索 基于多模态的检索:综合利用多种特征进行检索
数据库信息检索技术发展趋势
智能化:利用人工智能技 术提高检索效率和准确性
集成化:将多种数据库技 术集成实现跨平台检索
安全性:加强数据加密和 访问控制保障数据安全
实时性:提高数据更新速 度实现实时检索
移动化:适应移动设备的 需求提供移动检索服务
云化:利用云计算技术实 现数据库资源的共享和优 化
多媒体信息检索 技术
信息检索技术:包 括文本检索、图像 检索、音频检索等
信息检索计算机检索基础
〔2〕同字段检索
(F)算符:“ Field〞的缩写
A (F) B表示A和B两个检索词必须在文献 记录同一字段内,如篇名字段、文摘字段、 叙词字段、自由词字段等
词序及两词间插入的词数不限
例 digital (F) computer / AB,
要求digital 和 computer 这两个词必 须同时出现在文摘字段〔AB〕中
参考数据库主要是二次文献数据库,它包括各种机读版 的文摘、索引、目录等,它的价值在于向情报用户指引一 次文献。
②源数据库:是指能够为用户提供所需的原始资料 或数据的数据库。
a.数值数据库; b.文本-数值数据库; c.全文数据库; d.术语数据; e.图像数据库
源数据库是能直接提供原始资料或具体数据的自 足性数据库,用户不必再查阅其他信息源。它的特点 在于它本身含有一次情报,即用户作为检索目的而要 求获取的数值、事实或文本。
按数据库包括的信息内容可分为参考数据库、元数据 库和混合数据库。
①参考数据库:包括书目数据库和指南数据库两类。
书目数据库是指村粗二次文献信息的数据库,如题录 数据库、文摘数据库、目录数据库等属于参考数据库。
指南数据库为事实数据库,是指存储机构、人物、地 名、产品、物质和材料的特性、时间等信息的数据库。
1词间位置检索b表示a和b两个检索词顺序不许颠倒两词之间不许插词只许空格或连字符号b表示a和b检索词之间允许插入0n个词b表示a和b两个检索词必须在文献记录同一字段内如篇名字段文摘字段叙词字段自由词字段等b表示a和b两个检索词必须在同一自然句中词序及两词间插入的词数不限表示和只要同时出现在文摘中的某一个句子中就算命中截词检索是计算机检索系统中应用非常普遍的一种技术
第六章 计算机信息检索基础知识
25
�
2
二,计算机信息检索的基本概念
利用计算机,根据用户的提问, 利用计算机,根据用户的提问,在一 定时间内, 定时间内,从经过加工处理并已存储在计 算机存储介质内的信息集合中查出所需信 息的一种方式. 息的一种方式.
3
三,计算机信息检索系统构成
1,硬件 , 2,软件 , 系统软件和应用软件. 系统软件和应用软件. 3,数据库 , 数据库是至少由一种文档组成, 数据库是至少由一种文档组成, 能满足特定目的或特定数据处理系统 需要的数据集合. 需要的数据集合.
19
第二节 DIALOG联机检索命令 联机检索命令
一,BEGIN(或B)选库命令 ( )
?BEGIN 文挡名 ?B 文挡名 ?BEGIN 文挡号 ?B 文挡号
20
二,sf调文档命令 sf调文档命令
只在打开411 库时有效 只在打开 ? 8,12,63,72…… , , ,
21
三,SELECT(或S)选词命令 ( )
23
六,DISPLAY SETS (或DS)联 或 联 机显示命令
用于显示相应的检索结果, 用于显示相应的检索结果,具体指令格 式与TYPE相同 式与 相同
七,LOGOFF结束检索过程命令 结束检索过程命令
24
第三节 联机检索的一般步骤
1,分析信息需求; 2,选择系统及数据库; 3,确定检索途径; 4,选择检索项; 5,编制检索式; 6,上机检索; 7,输出检索结果; 8,退出联机检索系统
22
STEPS( SS) 四, SELECT STEPS(或SS)命令
SS computer? and image? S1 597 computer? S2 176 image? S3 105 computer? and image?
计算机信息检索基础知识
• 支气管扩张剂对肺的作用
– 分类标引:R974 呼吸系统药物 – 主题标引:肺/药物作用 支气管扩张剂/药理学
计算机信息检索系统组成
• 硬件:运算器、控制器、存储器、输入输出装置等 • 软件:系统操作程序、数据库管理程序、联机控制
程序、应用程序等。 • 通讯线路:电话通讯网、数据通讯网、卫星通讯网 等。 • 检索终端:信息用户与检索系统主机进行人机对话, 实现联机检索的设备。包括上网设备、调制解调器 等。 • 数据库:是计算机检索的对象。是由一个或数个文 档构成,并能够满足某一特定目的或某一特定数据 处理系统需要的一种数据集合。
光盘数据库检索
• 光盘 是80年代发展起来的激光存储载体,继 纸张感光材料、磁性载体之后问世的又一种 新型的信息存储介质。能存储数据、文字、 图形、图像、声音、动画等各种信息。一张 普通的光盘、信息存储量约为550兆。 • 光盘的分类:按存储方式分为
(1)只读型光盘:CD-ROM (2)写读光盘:WORM (3)可擦写型光盘:ERM
光盘检索的定义和特点
• 定义:
是一种用激光技术在特制圆盘上记录信息 的检索方式。 • 特点: (1)投资成本低; (2)价格低; (3)运行速度快; (4)检索效果好; (5)下载方便; (6)安全性能高。
光盘检索的系统组成
• 单机光盘检索系统组成: (1)数据库:光盘 (2)软件:系统软件和检索软件 (3)硬件:计算机、光盘驱动器、显示屏、打印 机等 • 网络光盘检索系统组成: (1)光盘塔 (2)光盘组网软件 (3)光盘塔服务器
NOT > AND > OR ( )号里的部分运算优先
截词检索
截词检索就是把检索词截断,取其中的一 部分,在加上截词符号一起进行检索。主要 用于检索词的单复数、词性的词尾变化、词 根相同的一类词,以及同一词的拼法变异等。 通用的截词符有:?和* ?代表一个字母;*代表两个或两个以上字母
计算机检索基础知识
(N)算符是“near”的缩写,表示此算符两边 的检索词必须紧密相连,此间不允许插入其他 单词或字母,但词序可以颠倒;
(nN)算符则表示在两个检索词之间最多可以 插入n个单词,且词序可以颠倒。如,?S econom?? ?(2N)recovery , 可 以 检 出 : economic recovery, recovery of the economy, recovery from economic troubles。 词位臵检索是很有用的检索技术,它可以规 定词组中各词的前后次序,防止错误的搭配和 输出。
第二节 计算机检索技术
一、基本检索技术 1 布尔检索 几乎所有的网络信息检索系统都支持布 尔逻辑检索,但不同的检索工具又有差别. 2 截词检索
3 短语检索
在网络检索工具中,
若在检索框内输入两个或两个以上的检 索词,且两个检索词之间没有任何其它符号, 该检索系统会将这两个检索词之间的关系设 为默认值(AND或OR);
目前加权检索在网络检索工具中的运用 还很不完善,尚不能根据用户的需求来确定 某一个具体语词的权值大小从而确定它对检 索结果的影响程度。
现在很多网络检索工具采用“+”、“-” 来表示检索词在检索提问中的分量。在某个 检索词前面带上“+”表示该检索词必须在检 索结果中出现,反之,若某个检索词前面带 上“-”,则表示该检索词一定不能出现在检 索结果中。 AltaVista、HotBot、Infoseek等都 支持这种形式的加权检索。
作者
文献类型 刊名 语种 出版年
4 位臵逻辑检索符
又称全文查找逻辑算符,相邻度检索算符, 原文检索符。由于布尔检索的“AND”运算要求 AND两边的检索词在同一记录中同时存在才能 命中文献,这就可能会引起误组配而造成大量 误检,而位臵逻辑检索是以原始记录中检索词 与检索词特定的位臵关系为逻辑运算的对象, 检索词用位臵算符相连,就可以弥补布尔检索 的缺陷。 位臵逻辑检索可分为词位臵检索、同句检 索、字段检索和记录检索。
计算机信息检索
二、数据库
1 数据库的定义及类型 (1)定义:
数据库是满足一定需求而收集的有序的数 据集合。
(2)数据库的类型
书目型数据库 字典型数据库 事实型数据库 全文型数据库 媒体数据库
书目型数据库
数据库中的记录主要是原始文献的书目信息。 例 如,原始文献的篇名、作者、文献出处、文摘、叙词 或关键词等等。
B
逻辑“或” :运算符“OR”或“+”
逻辑“或”组配是具有概念并列关系的一种组配。 例如 A or B,在文献检索中表示 A 一篇文献记录只要以两个检索项中的 任何一项标引或同时用两者标引, 这样的 “或”组配可以扩大检索范围,提高检全率。
B
文献
记录就被命中,组配的结果是同位概念,因而用逻辑
石油和天然气 petroleum OR natural gas
见下表
篇名
著者
. 文献学 王柏松 1 记录号 2 Inform John. S UCLC Liver Cancer 3 Wang H. Cancer Res.
字段 来源 语种 文摘 一条记录 SUMS ……… 中文
English ……… English ………
表中: 每一行是一条由若干信息组成的数据, 我们称之为一个——记录; 每一列就是一个记录的某一项信息, 我们称之为——字段。
逻辑“与” :运算符为“AND”或“*”
逻辑“与”组配是具有概念交叉关 A 系和限定关系的一种组配。 例如 A and B,在文献检索中表示一篇文 献记录既以检索项 A 标引又以检索项 B 标引, 这样 的文献记录才能被命中,因而用逻辑“与”组配可 以缩小检索范围,得到更确切的文献记录(提高检 准率) 。 太阳能 solar and energy
计算机检索基础
的分析研究之后综合概括而成的产物,具体包括 各种述评、综述、或进展性出版物,各种字典、 词典、手册(教科书)、百科全书、年鉴以及文 献指南(或书目指南)等。
1.3 文献的主要类型
印刷型、缩微型、声像型和电子型 文献是以载体的物理形态区分的四种文献类型。
1. 印刷型
2.7 政府出版物
政府出版物是各国政府部门及其所属机构所发表的
文件。可分为行政性文件和科技文件两大类。
政府出版物对了解一个国家的科学技术和经济政策
及其演变情况。有一定的参考价值。
2.8 学位论文
是高等学校学生为获得某种学位而撰写的科学论文。
一般有学士论文、硕士论文和博士论文之分。 学位论文的特点是:理论性、系统性较强,内容专 一,阐述详细,具有一定的独创性,是一种重要的 文献信息源。
零次文献一般是通过口头交谈、参观展览、参加报
告会等途径获取,不仅在内容上有一定的价值,而 且能弥补一般公开文献从信息的客观形成到公开传 播之间费时甚多的弊病。
一次文献(primary document)
是指作者以本人的研究成果为基本素材而创作(或 撰写)的文献,不管创作时是否参考或引用了他人 的著作,也不管该文献是以何种物质形式出现,均 属一次文献。一次文献中所记录的情报,一般比较 具体、详尽和系统化。 习惯上也称一次文献为原始文献。图书、期刊论文、 科技报告、会议论文、专利说明书、技术标准以及 部分学位论文等公开发表的文献都属一次文献。另 外,还包括一些不公开发表的文献。如:日记、内 部报告、技术档案等等。
式的长处。 科技会议是公布新的研究成果的重要场所。又是获 得难得文献的重要途径。另外也是及时全面地了解 有关领域发展情况的重要渠道。
计算机检索基本知识
超文本式:多用于网络信息检索,基于Web技术,可检 索多媒体信息
多为表单形式,有的直接输入检索词即可,如大部 分数据库的高级检索;有的既可输入检索词也可输入检 索式;如维普数据库的标准检索,有的必须输入检索式, 如EI数据库的高级检索。
计算机检索过程
词表
检索课题
主题分析
选择数据库 确定检索词 制定检索式 计算机处理
检索误区2——internet网上虽然有一些较好的资源,但是 与专业的网络数据库来比,无论是质量还是数量上都有 很大的差距,检索文献目前来说最主要的来源还应是专 业数据库,即正规的出版物上发表的文献。仅用搜索引 擎来查找文章 是非常不可取的。 检索误区3——不要忽略摘要数据库, 虽然检索摘要数据库不能马上得到全文, 但是摘要数据库的数据量大,范围广,是查找文章线索 极好的检索工具。就目前的情况而言,不可能全部都能 得到电子版的全文,先找到文章线索再根据线索查找印 刷版的全文是一项不错的组合。
限制检索
泛指检索系统中提供的缩小或约束检索结果的检索 方法。主要有以下方式: 字段检索——利用字段进行限制,如题名、摘要、全文等 通常的字段限制范围的大小顺序是: 题名<关键词<摘要<全文 二次检索——在前一次检索的结果中进行另一概念的检索
所有文章 经过一次检索后 在上一次检索结果 的范围内进行再次 检索
同句检索: 要求参加检索运算的两个检索词必须在同一 自然句中出现。 位置运算符: (S)--sentence 同字段检索:对同句检索条件进一步放宽,可以使用同字 段段检索。 位置运算符为: (F)——field (L)——link
词组的检索:通常用“”或()来表示两词是作为一个词 组来检索的 如:“hypermedia database” ;“profit and loss”将查 找profit and loss 禁用词:通常一些虚词(如冠词和连词不包含在检索范围 之内) 如:a about also and any as at be between by both for some so not this with 等将被自动忽略
计算机信息检索基础知识
信息检索的步骤
研究课题 用户
主题分析
选择检索系统或 数据库
选择检索途径:主题 词、作者、机构等
检索操作
制定检索策略和 检索方式
初始检索 结果输出 不满意
用户结果评价
满意
检索结果
索取原文
三、网络信息资源及其特点
网络信息资源又称为虚拟资源、数字资源、 电子信息资源、联机信息资源、万维网资源 等,是互联网上电子信息资源的统称,是以 数字化形式记录的,利用计算机技术、通信 技术及多媒体技术在网络上发布、查询与存 取利用的信息资源的总和。
追溯法:这是利用已有的文献后面的参考文 献进行追溯查找的方法,是在没有检索工具 或检索工具不全的情况下使用的一种方法。 但用这种方法查找的文献不全,有片面性, 文章漏检率高,知识陈旧的占多数,目前已 很少有人使用。
分段法(循环法):这是将常用法与追溯法 交替使用的一种方法,即利用工具书检索文 献,又利用文献后面的参考文献进行追溯, 两种方法交替使用,直到满足读者需要为止。 这种方法可根据文献和本单位工具书收藏的 情况分期分段交叉运用不同的查找方法,既 能获得一定时期内的文献,还可节约查找时 间。
(3)专门从事数据库制作和销售的数据库商 如EBSCO公司、ProQuest公司等;自己没有出 版物,但他们买出版公司的产品,然后建立检索 平台供读者检索,例如iGroup公司建立了 Scitation平台,在上面可以看到AIP(美国物理 学会)、ASME(美国机械工程师协会)等几十 个专业学协会的电子期刊。
2信息检索技术
布尔逻辑检索 截词检索 位置检索 字段限定检索
布尔逻辑检索
逻辑与AND(*)。 逻辑或OR(+)。 逻辑非NOT(-)。
计算机检索基础
计算机信息检索基础知识一、布尔逻辑与检索功能当人们使用计算机在数据库检索系统或互联网中进行检索时,常常需要用多个概念所对应的多个关键词的组合进行检索,仅用一个概念对应的关键词很难完成复杂内容关系的检索要求。
通常,一个检索要求中涉及到的多个概念之间与布尔逻辑的“与”、“或”、“非”都可以通过分析找到明确的对应关系。
即使用关键词和反应关键词之间关系的布尔逻辑运算符、通配符等相关组配符号(含逻辑算符、优先符即括号、位置算符以及英文检索时常用的截词符或通配符),我们就可以将现实中需要检索的内容或翻译成计算机、网络能够认识的形式或语言,输入到计算机中进行检索,得到我们所要的信息资料,完成检索。
下面简单介绍布尔逻辑中的三个基本运算“与”、“或”、“非”。
1、逻辑“与”计算机检索中“与”逻辑关系的常见表示有:“与”、“AND”、“and”、“*”等。
逻辑“与”关系的含义:表示概念A和概念B之间的相交关系,经过“与”运算处理后的表达式:“概念A”AND“概念B”表示一种同时含有概念A和概念B成份的内容,它已经既不是概念A,也不是单纯的概念B了,该操作使关注的范围缩小了。
如下图所示公共的阴影部分。
例如:概念A=艺术,概念B=舞蹈,则概念A、概念B的“AND”逻辑表达式:“概念A”AND“概念B”也即“艺术”AND “舞蹈”则表示要检索那些既讲艺术同时又提到舞蹈的信息资源,或者主要讲舞蹈同时又提到艺术的文献信息资源。
2、逻辑“或”计算机检索中“或”逻辑关系的常见表示有:“或”、“OR”、“or”、“+”等。
逻辑“或”关系的含义:表示概念A或概念B本身或者两者之间的叠加关系。
经过“或”运算处理后的表达式:“概念A”OR“概念B”表示含有“概念A”或含有“概念B”或两个概念都包含,该操作使关注的范围扩大了。
如下图所示所有的阴影部分。
例如:概念A=艺术,概念B=舞蹈,则概念A、概念B的“OR”逻辑表达式:“概念A”OR“概念B”也即“艺术”OR “舞蹈”则表示要检索那些含有艺术,或者含有舞蹈,或者两者都涉及的文献信息资源。
(大学计算机基础)第八章信息检索基础
信息检索的重要性
信息检索是获取知识和信 息的有效途径
通过信息检索,人们可以快速地获取到大量有 用的信息和知识,从而更好地满足自己的需求。
信息检索是科学研究的重要 手段
在科学研究中,研究者需要查找大量的文献资料和数 据,信息检索技术的运用能够大大提高研究效率和质 量。
TITLE
大学计算机基础第八 章信息检索基础
演讲人姓名
目 录
Ⅰ
点
信
息
击
检
添
索
概
加
述
正
文
Ⅱ
点
信
息
击
检
添
索
技
加
术
正
文
Ⅲ
点
信
息
击
检
添
索
系
加
统
正
文
Ⅳ
点
展信
息
击
检
索
添
的
未
加
来 发
正
文
Ⅴ
点
信
息
击
检
添
索
实
加
践
正
文
信息检索概述
单击此处添加文本具体内容,简明扼要地 阐述你的观点
信息检索的定义
信息检索涉及信息存储、组织和检索三个环节,其中信息存 储是将信息按照一定的规则和标准进行整理和归类,信息组 织是对信息进行有序化处理,而信息检索则是利用一定的技 术和方法从信息集合中查找特定信息的过程。
信息检索实践
单击此处添加文本具体内容,简明扼要地 阐述你的观点
信息检索策略与技巧
第四章 计算机信息检索
三.数据库
1.数据库的概念 数据库是按一定要求存贮在计算机中的相互关 联的数据集合。 数据库的发展是随着文献信息自动化管理的发 展而发展的。当今社会,随着信息量的剧增和计 算机的广泛应用以及人们对文献信息的迫切需求, 电子文献资源的产生与发展就成为必然。而数据 库建设是文献信息自动化管理的基础和核心,是 建立信息网络不可缺少的信息资源,是资源共享 的物质基础,是方便有效地为社会提供信息的重 要渠道。 因此,数据库的飞速发展是信息社会发展的 必然结果。
计算机信息检索
刘 锋
本课内容 一、计算机信息检索的基本知识 二、计算机信息检索系统的构成 三、计算机信息检索原理与技术 四、计算机信息检索策略 五、我校图书馆电子资源概况
一、计算机信息检索的基本知识
1.计算机检索的概念 计算机检索是指工作人员在电子计算 机或计算机检索网络的终端机上,使用特 定的检索指令或检索逻辑关系,由计算机 从数据库中检索出数据或文献的过程。 优势: 提高查全率、查准率,数据资源较全 面丰富,检索功能强,检索质量高,资源共 享 ,内容更新快,服务方式灵活方便。
一、布尔逻辑检索 二、截词检索 三、原文检索 四、加权检索和聚类检索 五、限制检索
六、区分大小写检索 七、短语检索(精确检索) 九、模糊检索 十、概念检索 十、相关检索
1、布尔逻辑检索
布尔逻辑是表达不同概念之间关系的符号逻辑 系统。 利用布尔逻辑运算符进行检索词或代码的逻辑 组配,是现代信息检索系统中最常用的一种方 法。 常用的布尔逻辑算符有三种,分别是逻辑或 “OR‖、逻辑与“AND‖、逻辑非“NOT‖。 用这些逻辑算符将检索词组配构成检索提问式, 计算机将根据提问式与系统中的记录进行匹配, 当两者相符时则命中,并自动输出该文献记录。
计算机检索基础知识
①布尔逻辑检索(Boolean searching):是利用布尔逻辑符进行检索的方法,布尔逻辑符有三种,即逻辑"与"(AND)、逻辑"或"(OR)和逻辑"非"(NOT)。在一个检索式中如果含有两个以上的布尔逻辑符就要注意运算次序:()>NOT>AND>OR,即先算括号内的逻辑关系,再依次算"非"、"与"、"或"关系。
中国生物医学文献数据库
中国生物医学文献数据库 (CBMdisc) 收录了1978年至2002年1000多种中国生物医学期刊,以及汇编、会议论文的文献题录。
2002年中国生物医学文献数据库分为以下文档:
CBMdisc02 收录 2001-2002 年的文献题录。
检索途径多:除手工检索工具提供的分类、主题、著者等检索途径外,还能提供更多的检索途径,如题名途径等。
更新快:尤其是国外的计算机检索工具,光盘多为月更新、周更新,网络信息甚至为日更新。
资源共享:通过网络,用户可以不受时空限制,共享服务器上的检索数据库。
检索更方便灵活:可以用逻辑组配符将多个检索词组配起来进行检索,也可以用通配符、截词符等进行模糊检索。
检索结果可以直接输出:可以选择性打印、存盘或E-Mail甚至可以直接检索出全文。
在了解计算机信息检索服务的知识前,首先应了解计算机信息检索的相关知识。
1. 计算机信息检索系统的构成
计算机信息检索系统从物理构成上说,包括计算机硬件、软件和数据库、通讯线路和检索终端五个部分。一般而言,软件由计算机信息检索系统的开发商制作,通讯线路、硬件和检索终端只要满足计算机检索系统的要求都不需要检索者多加考虑。对检索者来说,他们必须了解的是数据库的结构和类型,以便根据不同的检索要求选择合适的数据库和检索途径。
2第二章 计算机检索基础知识
据
库
按文献类型划分:
数
文献类数据库
书目数据库(二次文献) 全文数据库(一次文献)
据
库 数值数据库 非文献类数据库 图像数据库 术语数据库
按载体形式分为 :
单机版光盘数据库 数 据 联机数据库 光盘数据库 络版光盘数据库
库
网络数据库
镜像站数据库
三、数据库的文档结构
1. 顺排文档(linear file):是按记录的编号
顺序排列的文档。为主文档。顺排文档结构简 单,管理方便,节省储存空间,但检索速度较 慢。
2. 倒排文档(inverted file):是将数
据库中具有某些特征的字段值和具有该 字段值的记录号按顺序排列构成的文档, 也称为索引文档。
4.数据结构具有通用性、开放性、动态性 5.信息资源体积小,数量巨大
一座拥有百万册图书的图书馆,经过数字化处理后,只需 3400张光盘就可以全部存储下来。
6.传播方式的无限性
电子信息资源不受时间、空间的限制,实现跨时空、跨行业 的传播。
7.交互性
电子信息资源不是传统信息资源的复制,而是对传统信息 资源和信息交流渠道的补充。
2.2
数据库
一、 定义
数据库是可以共享的某些具有共同存取方 式的相关数据,以一定的组织方式的集合。 数据库本质的三个要素:相关数据、共同 存取方式和一定的组织方式、共享。 通俗地说,数据库是以某一特定方式组织 和存放的数据的仓库。
数据库与其他数据集合的主 要区别在于数据库中的各项 数据可以通过同一种方式进 行储存与查找,因此同一个 数据库中的记录格式都是一 样的。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计算机检索特点
(4)检索范围广: 计算机检索能提供远 程检索,所以检索数据库的范围不仅仅局 限在本馆所拥有的数据库。 另外,联机联网系统中含有大量的数据库, 其主题涉及各个学科和生活的各个领域。
例如:dialog联机检索系统中有数百个数据库, 一个数据库收有数百万,甚至上千万条纪录。 OCLC联机检索系统中拥有多种类型的数据库,收 有数万种期刊、图书、会议记录等文献记录。
(5)执行检索指令: 对数据库进行查找, 并输出检索结果。 (6)分析检索结果,完善检索表达式: • 重新确定检索词; • 选用“上位词”或 “下位词”: • 选用其他相关检索词; • 更换检索途径等, 然后再执行检索,直到获得满意的检索结 果为止。
(7)如果检索结果是没有全文的二次文献,而且本 院图书馆也没有收藏原文,还要根据文献线索用 一定方法获得一次文献,也就是”全文”,其方法 有: • 检索全文数据库 • 检索联合目录或专门进行原文提供服务的机构 (如:国家科技图书文献中心 ) 的目录,找到收藏原文的地点(其他图书馆等) 联系得到全文 • 检索其他图书馆目录,确认收藏后联系获得。
位置算符检索与位置算符
位置算符:是在检索式中用于表示检索词
之间位置关系的符号。包括在记录中的顺 序和相对位置。 它能避免布尔逻辑算符不考虑检索词位置 关系而引起的检索误差。 布尔逻辑检索考虑的是:检索词在命中记 录中是否出现,而不考虑其位置关系。
位置算符
例如:要查找“食品添加剂的制备”的相关文 献 用逻辑算符与列出检索式为: “食品 AND 添加剂 AND 制备” 命中记录中既有“食品添加剂制备”的文献, 也有“含有添加剂食品的制备”的文献,结果2 与检索要求不附。 如果通过与位置算符配合使用,可以减少检索 误差。 请注意:不同的联机检索系统所使用的位置算 符的种类和功能有时不完全相同。
符 减少逻辑“或”运算符; 多用限制符或限制字段, 用文献的外部特征限制等多种方法。
计算机信息检索 基础知识
计算机检索
是指检索者在计算机终端上,将检索提 问式按特定的检索指令输入计算机,计 算机检索系统将检索提问式与数据库中 的文献特征项进行匹配比较,并将符合 检索提问式的文献记录输出,由计算机 显示或打印的过程。
计算机技术用于信息检索的历程:
单机批处理检索阶段 :
1946年,世界上第一台数字式电子计算机诞生,1951年,美国 麻省理工学院开始对利用计算机代码化文摘进行可行性研究。 这一阶段也称为脱机检索时期,一是单机由专人操作,用户不能 人机见面;二是只能进行批处理不能即问即答。 1960年,美国国家医学图书馆开始建立“医学文献分析与检 索系统”。 20世纪80年代中期,美国国家科学基金会计算机网络 (NSFnet)将各地的一些大学、科研机构及政府机构的局域网络 联结成一个全国性的计算机信息网络 。 进入90年代,世界各国在仿效NSFnet建立全国性文献信息计 算机网络基础上,设法与美国联网,因而产生了国际计算机互联 网络——Internet。
NSTL—逻辑“或”检索演示
NSTL—逻辑“或”检索演示
布尔逻辑运算 “非”
差集 A-B
A
B
A-B
A NOT B
非 NOT 属于集合A而不 属于集合B的元 素组成的集合。
举例
查找“除蛋白酶外的各类酶制剂”的
资料。 检索的文献记录中必须含有 A(酶),而不含有B(蛋白酶)才算 命中 其检索式为 A-B (A NOT B)。
检出的相关文献量 R=---------------------×100%= 检索系统中相关文献总量 a ——×100% a+c
查准率:
检出的相关文献量 P=---------------------×100%= 检出的文献总量 a ———×100% a+b
a:检出的相关文献量 b:检出的非相关文献 c:未检出的相关文献量
例如
Computer(W)aided(W)design可检索出含 有Computer aided design的文献记录 Laser(1W)printer可检索出含有 Laser printer和laser color printer的文献记 录 Computer(N)network可检索出含有 Computer network、network computer形 式的文献记录
计算机检索信息时,检索提问与文献
标识之间的对比匹配工作是机器进行 的,必须拟定周密的检索策略,用计 算机能够理解和运算的形式加以表达, 然后交计算机执行。 因此机检时检索策略的正确与否就显 得尤为重要。 (例如)吸铁石—磁石---磁铁
磁铁
实施计算机检索过程:
(1)认真分析课题,明确课题含义 (2)选择数据库 (3)确定检索途径和检索词 (4)组配各检索词
检索效果的评价
在实际检索时,我们总是希望将检索系统中 与所需信息相关的全部记录都检出来,同时 这些记录均是我们所需要的,这就涉及到检 索效果的问题。 所谓检索效果:是指检索系统检索的有效程 度,它反映检索系统的能力,包括技术效果、 经济效果。 技术效果:指检索系统在检索时满足检索要 求的有效程度。 经济效果:主要指检索系统完成检索服务的 成本及时间。
无限截词
②无限截词: 在检索词干后加一个 “*”(也有的数据库用“?”), 表示该词词尾允许变化的字符数不 受任何限制。 例如:
“comput*”,则可检出有computer、 computing、computers、 computeriation等词的记录。
液化: Liquefaction Liquefy Liquescence 液体: Liquit
NSTL—逻辑“非”检索演示
NSTL—逻辑“非”检索演示
逻辑算符优先次序
注意:利用布尔逻辑三种算符检索时,有时
会同时用上,计算机会按优先顺序自动完成 算符运算。 其中NOT优先级最高,AND次之,OR的最低 改变优先级可在检索式中添加括号。 例:(计算机 OR 电脑) AND 控制 AND 啤酒
CNKI高级检索—逻辑“与”演示
CNKI高级检索—逻辑“与”演示
布尔逻辑运算“或”
并集
A∪B
ABA∪B或 OR + 属于集合A或者属 于集合B的元素组 成的集合。
A
B
A+B
A OR B
举例
查找国外有关电视机的资料 则检索式为: television
+ TV (television OR TV) 文献记录中只要有television 或TV、 或者二者兼有,均符合检索条件。
认真分析课题,明确课题含义:
•
•
明确课题含义 例如:“计算机声音身份识别 技术”是指利用说话者的声音的声纹、频率等特 征确定其身份,该技术用于案件侦破等,不是根 据记录的声音由电脑识别理解其含义;“电子垃 圾的处理回收”指的是废弃电脑、手机的处理, 不是“垃圾电子邮件的处理”。 明确自己的情报需求和检索目的 即明确自己研 究的课题是攻关型的还是探索型的,对信息查找 的指标要求是查准、查全还是查新。同时还要弄 清所需文献信息的类型、文种、时间范围等。
联机检索阶段
网络化检索阶段
计算机检索工具
检索工具:指的就是二次文献或二次文献 数据库。是用以报道、存储和查找文献信 息的一切工具与设备。 文献数据库:以各种类型的原始文献为素材, 在广泛收集、筛选、分析的基础上,用选 定的检索语言进行描述和标引,并按特定 规则组织编排而成。
计算机检索特点
计算机检索特点
(5)检索内容新、时效性强 : 联机检 索系统的数据库定期更新数据,且更新的 周期也逐步加快。有每月更新,每周更新, 有的数据库甚至每天更新。
计算机检索技术
布尔逻辑算符:与、或、非 位置算符:W 、N 截词符:无限截词符、有限截词符 • 制定计算机信息检索策略 检索效果的评价:评价指标
截词符检索与截词算符
截词符检索:计算机检索外文数据库时, 运用检索词的词干或不完整词形进行 查找的过程称为截词检索。
•
•
在英文词汇中,只要在词干上加上不同的前缀或后缀, 就可以派生出许多相近或不同的词汇。检索者将词干 相同、意思相近的词全部输入计算机,既麻烦又容易 出错。 计算机检索系统采用了截词检索功能,即在检索词的 词干上加一个截词符号,以表示对该词干的各种词性 的一系列词进行检索。
检索效果的技术评价指标
常用技术指标:查全率和查准率 查全率:反映所需文献被检出的
程度; 查准率:则反映系统拒绝非相关 文献的能力。两者结合起来反映 检索系统的检索效果。 查全率与查准率之间存在互逆关 系,即提高系统的查全率,会使 查准率下降,反之亦然。
如何计算?
查全率:
截词方式
按截断字符数量分:
•
•
有限截词 无限截词
按截断部位分:
•
• • •
前方一致 后方一致 中间一致 中间不一致
有限截词符
①有限截词 用“?”作截词符,将n
个截词符“?”放在检索词的词干中 或词尾可能变化的位置上。n个“?” 表示截词的位数为0~n个字符。 例如: stud?--则检出有study等的记录。 stud??--则检出有studio等的记录。 stud???--则检出有student studied 等的记录。