信息检索计算机检索基础知识

合集下载

计算机基础信息检索

计算机基础信息检索

多媒体信息检索技术应用
图像检索:通过图像内容进行 检索如图像识别、图像分类等
音频检索:通过音频内容进行 检索如语音识别、音乐识别等
视频检索:通过视频内容进行 检索如人脸识别、场景识别等
文本检索:通过文本内容进行 检索如关键词搜索、文本分类

多媒体融合检索:结合多种媒 体进行检索如跨媒体检索、多
媒体内容分析等
和准确性
移动化:适应 移动设备的发 展趋势提供更 便捷的检索服

社交化:结合 社交网络提高 信息传播和检
索的互动性
专业化:针对 特定领域提供 更专业的检索 服务满足不同
用户的需求
数据库信息检索 技术
数据库信息检索原理
检索方法:包括全文检索、 关键词检索、布尔检索等
数据库检索:通过数据库管理 系统(DBMS)进行数据查询 和检索
多媒体信息检索原理
多媒体信息检索技术分类
基于内容的检索:通过分析多媒体内容的特征进行检索 基于文本的检索:通过分析多媒体内容的文本信息进行检索 基于视觉的检索:通过分析多媒体内容的视觉特征进行检索 基于音频的检索:通过分析多媒体内容的音频特征进行检索 基于视频的检索:通过分析多媒体内容的视频特征进行检索 基于多模态的检索:综合利用多种特征进行检索
数据库信息检索技术发展趋势
智能化:利用人工智能技 术提高检索效率和准确性
集成化:将多种数据库技 术集成实现跨平台检索
安全性:加强数据加密和 访问控制保障数据安全
实时性:提高数据更新速 度实现实时检索
移动化:适应移动设备的 需求提供移动检索服务
云化:利用云计算技术实 现数据库资源的共享和优 化
多媒体信息检索 技术
信息检索技术:包 括文本检索、图像 检索、音频检索等

信息检索计算机检索基础

信息检索计算机检索基础
插入0-n个词 词序可以颠倒
〔2〕同字段检索
(F)算符:“ Field〞的缩写
A (F) B表示A和B两个检索词必须在文献 记录同一字段内,如篇名字段、文摘字段、 叙词字段、自由词字段等
词序及两词间插入的词数不限
例 digital (F) computer / AB,
要求digital 和 computer 这两个词必 须同时出现在文摘字段〔AB〕中
参考数据库主要是二次文献数据库,它包括各种机读版 的文摘、索引、目录等,它的价值在于向情报用户指引一 次文献。
②源数据库:是指能够为用户提供所需的原始资料 或数据的数据库。
a.数值数据库; b.文本-数值数据库; c.全文数据库; d.术语数据; e.图像数据库
源数据库是能直接提供原始资料或具体数据的自 足性数据库,用户不必再查阅其他信息源。它的特点 在于它本身含有一次情报,即用户作为检索目的而要 求获取的数值、事实或文本。
按数据库包括的信息内容可分为参考数据库、元数据 库和混合数据库。
①参考数据库:包括书目数据库和指南数据库两类。
书目数据库是指村粗二次文献信息的数据库,如题录 数据库、文摘数据库、目录数据库等属于参考数据库。
指南数据库为事实数据库,是指存储机构、人物、地 名、产品、物质和材料的特性、时间等信息的数据库。
1词间位置检索b表示a和b两个检索词顺序不许颠倒两词之间不许插词只许空格或连字符号b表示a和b检索词之间允许插入0n个词b表示a和b两个检索词必须在文献记录同一字段内如篇名字段文摘字段叙词字段自由词字段等b表示a和b两个检索词必须在同一自然句中词序及两词间插入的词数不限表示和只要同时出现在文摘中的某一个句子中就算命中截词检索是计算机检索系统中应用非常普遍的一种技术

第六章 计算机信息检索基础知识

第六章 计算机信息检索基础知识

25

2
二,计算机信息检索的基本概念
利用计算机,根据用户的提问, 利用计算机,根据用户的提问,在一 定时间内, 定时间内,从经过加工处理并已存储在计 算机存储介质内的信息集合中查出所需信 息的一种方式. 息的一种方式.
3
三,计算机信息检索系统构成
1,硬件 , 2,软件 , 系统软件和应用软件. 系统软件和应用软件. 3,数据库 , 数据库是至少由一种文档组成, 数据库是至少由一种文档组成, 能满足特定目的或特定数据处理系统 需要的数据集合. 需要的数据集合.
19
第二节 DIALOG联机检索命令 联机检索命令
一,BEGIN(或B)选库命令 ( )
?BEGIN 文挡名 ?B 文挡名 ?BEGIN 文挡号 ?B 文挡号
20
二,sf调文档命令 sf调文档命令
只在打开411 库时有效 只在打开 ? 8,12,63,72…… , , ,
21
三,SELECT(或S)选词命令 ( )
23
六,DISPLAY SETS (或DS)联 或 联 机显示命令
用于显示相应的检索结果, 用于显示相应的检索结果,具体指令格 式与TYPE相同 式与 相同
七,LOGOFF结束检索过程命令 结束检索过程命令
24
第三节 联机检索的一般步骤
1,分析信息需求; 2,选择系统及数据库; 3,确定检索途径; 4,选择检索项; 5,编制检索式; 6,上机检索; 7,输出检索结果; 8,退出联机检索系统
22
STEPS( SS) 四, SELECT STEPS(或SS)命令
SS computer? and image? S1 597 computer? S2 176 image? S3 105 computer? and image?

信息检索基本知识

信息检索基本知识

T
TB TG TH TE …… TU TV
TB1
TB2
TB3
TB4
…… TB48 …… TB488
……
TB482
TB489
T—工业技术类中图法举例
以T-工业技术大类下的TP类展开下位类如下: T 工业技术 TP 自动化技术、计算机技术 TP3 计算技术、计算机技术 TP39 计算机应用 TP393 计算机网络 TP393.0 一般性问题 TP393.01 计算机网络理论 TP393.02 计算机网络结构与设计
二、文献信息源类型
文献可按不同的方法分类描述,比较常见 的分类方法有如下三种: 按信息的载体形式划分(印刷、胶片、 电子文献等); 按信息加工的级别划分(四次文献); 按信息的发布形式划分(十大文献信 息源等)
1、按文献的载体形式划分
• 印刷型(Printed form):以纸张为载体 • 缩微型(Microform):以感光材料为载体:胶片 • 声像型(Audio-Visual form):以声像记录材料为 载体:磁带 • 电子型(Machine Readable form):以计算机信息 存储设备为载体 :软磁盘、光盘、硬盘等
叙词
•叙词是主题语言的高级形式。是以较正规和正式的 科学名称为基础组织而成一种主题法检索标识系统。 •由在概念上不可再分的基本概念单元词汇组成,检 索时可以利用这些单元词进行组配,以表达一个复杂 的概念。
•如课题: 太阳能热水器研究 汉语主题词表中正式主题词是太阳能利用、太阳 能加热等代替。
标题词
• 国际十进分类法(UDC: UDC(Universal Decimal Classification)
又称为通用十进制分类法。是世界上规模最大、用户 最多、影响最广泛的一部文献资料分类法。原由比利 时人P.-M.-G.奥特莱和H.-M.拉封丹在《杜威十进分类 法》第6版的基础上编成。近百年来,UDC已被世界 上几十个国家的10多万个图书馆和情报机构采用。 UDC目前已成为名符其实的国际通用文献分类法。

计算机信息检索基础知识

计算机信息检索基础知识

• 支气管扩张剂对肺的作用
– 分类标引:R974 呼吸系统药物 – 主题标引:肺/药物作用 支气管扩张剂/药理学
计算机信息检索系统组成
• 硬件:运算器、控制器、存储器、输入输出装置等 • 软件:系统操作程序、数据库管理程序、联机控制
程序、应用程序等。 • 通讯线路:电话通讯网、数据通讯网、卫星通讯网 等。 • 检索终端:信息用户与检索系统主机进行人机对话, 实现联机检索的设备。包括上网设备、调制解调器 等。 • 数据库:是计算机检索的对象。是由一个或数个文 档构成,并能够满足某一特定目的或某一特定数据 处理系统需要的一种数据集合。
光盘数据库检索
• 光盘 是80年代发展起来的激光存储载体,继 纸张感光材料、磁性载体之后问世的又一种 新型的信息存储介质。能存储数据、文字、 图形、图像、声音、动画等各种信息。一张 普通的光盘、信息存储量约为550兆。 • 光盘的分类:按存储方式分为
(1)只读型光盘:CD-ROM (2)写读光盘:WORM (3)可擦写型光盘:ERM
光盘检索的定义和特点
• 定义:
是一种用激光技术在特制圆盘上记录信息 的检索方式。 • 特点: (1)投资成本低; (2)价格低; (3)运行速度快; (4)检索效果好; (5)下载方便; (6)安全性能高。
光盘检索的系统组成
• 单机光盘检索系统组成: (1)数据库:光盘 (2)软件:系统软件和检索软件 (3)硬件:计算机、光盘驱动器、显示屏、打印 机等 • 网络光盘检索系统组成: (1)光盘塔 (2)光盘组网软件 (3)光盘塔服务器
NOT > AND > OR ( )号里的部分运算优先
截词检索
截词检索就是把检索词截断,取其中的一 部分,在加上截词符号一起进行检索。主要 用于检索词的单复数、词性的词尾变化、词 根相同的一类词,以及同一词的拼法变异等。 通用的截词符有:?和* ?代表一个字母;*代表两个或两个以上字母

计算机信息检索

计算机信息检索

二、数据库
1 数据库的定义及类型 (1)定义:
数据库是满足一定需求而收集的有序的数 据集合。
(2)数据库的类型
书目型数据库 字典型数据库 事实型数据库 全文型数据库 媒体数据库
书目型数据库
数据库中的记录主要是原始文献的书目信息。 例 如,原始文献的篇名、作者、文献出处、文摘、叙词 或关键词等等。
B
逻辑“或” :运算符“OR”或“+”
逻辑“或”组配是具有概念并列关系的一种组配。 例如 A or B,在文献检索中表示 A 一篇文献记录只要以两个检索项中的 任何一项标引或同时用两者标引, 这样的 “或”组配可以扩大检索范围,提高检全率。
B
文献
记录就被命中,组配的结果是同位概念,因而用逻辑
石油和天然气 petroleum OR natural gas
见下表
篇名
著者
. 文献学 王柏松 1 记录号 2 Inform John. S UCLC Liver Cancer 3 Wang H. Cancer Res.
字段 来源 语种 文摘 一条记录 SUMS ……… 中文
English ……… English ………
表中: 每一行是一条由若干信息组成的数据, 我们称之为一个——记录; 每一列就是一个记录的某一项信息, 我们称之为——字段。
逻辑“与” :运算符为“AND”或“*”
逻辑“与”组配是具有概念交叉关 A 系和限定关系的一种组配。 例如 A and B,在文献检索中表示一篇文 献记录既以检索项 A 标引又以检索项 B 标引, 这样 的文献记录才能被命中,因而用逻辑“与”组配可 以缩小检索范围,得到更确切的文献记录(提高检 准率) 。 太阳能 solar and energy

计算机检索基础

计算机检索基础
是指对有关的一次文献和二次文献进行广泛深入
的分析研究之后综合概括而成的产物,具体包括 各种述评、综述、或进展性出版物,各种字典、 词典、手册(教科书)、百科全书、年鉴以及文 献指南(或书目指南)等。
1.3 文献的主要类型
印刷型、缩微型、声像型和电子型 文献是以载体的物理形态区分的四种文献类型。
1. 印刷型
2.7 政府出版物
政府出版物是各国政府部门及其所属机构所发表的
文件。可分为行政性文件和科技文件两大类。
政府出版物对了解一个国家的科学技术和经济政策
及其演变情况。有一定的参考价值。
2.8 学位论文
是高等学校学生为获得某种学位而撰写的科学论文。
一般有学士论文、硕士论文和博士论文之分。 学位论文的特点是:理论性、系统性较强,内容专 一,阐述详细,具有一定的独创性,是一种重要的 文献信息源。
零次文献一般是通过口头交谈、参观展览、参加报
告会等途径获取,不仅在内容上有一定的价值,而 且能弥补一般公开文献从信息的客观形成到公开传 播之间费时甚多的弊病。
一次文献(primary document)
是指作者以本人的研究成果为基本素材而创作(或 撰写)的文献,不管创作时是否参考或引用了他人 的著作,也不管该文献是以何种物质形式出现,均 属一次文献。一次文献中所记录的情报,一般比较 具体、详尽和系统化。 习惯上也称一次文献为原始文献。图书、期刊论文、 科技报告、会议论文、专利说明书、技术标准以及 部分学位论文等公开发表的文献都属一次文献。另 外,还包括一些不公开发表的文献。如:日记、内 部报告、技术档案等等。
式的长处。 科技会议是公布新的研究成果的重要场所。又是获 得难得文献的重要途径。另外也是及时全面地了解 有关领域发展情况的重要渠道。

计算机检索基本知识

计算机检索基本知识

超文本式:多用于网络信息检索,基于Web技术,可检 索多媒体信息
多为表单形式,有的直接输入检索词即可,如大部 分数据库的高级检索;有的既可输入检索词也可输入检 索式;如维普数据库的标准检索,有的必须输入检索式, 如EI数据库的高级检索。
计算机检索过程
词表
检索课题
主题分析
选择数据库 确定检索词 制定检索式 计算机处理
检索误区2——internet网上虽然有一些较好的资源,但是 与专业的网络数据库来比,无论是质量还是数量上都有 很大的差距,检索文献目前来说最主要的来源还应是专 业数据库,即正规的出版物上发表的文献。仅用搜索引 擎来查找文章 是非常不可取的。 检索误区3——不要忽略摘要数据库, 虽然检索摘要数据库不能马上得到全文, 但是摘要数据库的数据量大,范围广,是查找文章线索 极好的检索工具。就目前的情况而言,不可能全部都能 得到电子版的全文,先找到文章线索再根据线索查找印 刷版的全文是一项不错的组合。
限制检索
泛指检索系统中提供的缩小或约束检索结果的检索 方法。主要有以下方式: 字段检索——利用字段进行限制,如题名、摘要、全文等 通常的字段限制范围的大小顺序是: 题名<关键词<摘要<全文 二次检索——在前一次检索的结果中进行另一概念的检索
所有文章 经过一次检索后 在上一次检索结果 的范围内进行再次 检索
同句检索: 要求参加检索运算的两个检索词必须在同一 自然句中出现。 位置运算符: (S)--sentence 同字段检索:对同句检索条件进一步放宽,可以使用同字 段段检索。 位置运算符为: (F)——field (L)——link
词组的检索:通常用“”或()来表示两词是作为一个词 组来检索的 如:“hypermedia database” ;“profit and loss”将查 找profit and loss 禁用词:通常一些虚词(如冠词和连词不包含在检索范围 之内) 如:a about also and any as at be between by both for some so not this with 等将被自动忽略

计算机信息检索基础知识

计算机信息检索基础知识

信息检索的步骤
研究课题 用户
主题分析
选择检索系统或 数据库
选择检索途径:主题 词、作者、机构等
检索操作
制定检索策略和 检索方式
初始检索 结果输出 不满意
用户结果评价
满意
检索结果
索取原文
三、网络信息资源及其特点
网络信息资源又称为虚拟资源、数字资源、 电子信息资源、联机信息资源、万维网资源 等,是互联网上电子信息资源的统称,是以 数字化形式记录的,利用计算机技术、通信 技术及多媒体技术在网络上发布、查询与存 取利用的信息资源的总和。
追溯法:这是利用已有的文献后面的参考文 献进行追溯查找的方法,是在没有检索工具 或检索工具不全的情况下使用的一种方法。 但用这种方法查找的文献不全,有片面性, 文章漏检率高,知识陈旧的占多数,目前已 很少有人使用。
分段法(循环法):这是将常用法与追溯法 交替使用的一种方法,即利用工具书检索文 献,又利用文献后面的参考文献进行追溯, 两种方法交替使用,直到满足读者需要为止。 这种方法可根据文献和本单位工具书收藏的 情况分期分段交叉运用不同的查找方法,既 能获得一定时期内的文献,还可节约查找时 间。
(3)专门从事数据库制作和销售的数据库商 如EBSCO公司、ProQuest公司等;自己没有出 版物,但他们买出版公司的产品,然后建立检索 平台供读者检索,例如iGroup公司建立了 Scitation平台,在上面可以看到AIP(美国物理 学会)、ASME(美国机械工程师协会)等几十 个专业学协会的电子期刊。
2信息检索技术
布尔逻辑检索 截词检索 位置检索 字段限定检索
布尔逻辑检索
逻辑与AND(*)。 逻辑或OR(+)。 逻辑非NOT(-)。

计算机检索基础

计算机检索基础

计算机信息检索基础知识一、布尔逻辑与检索功能当人们使用计算机在数据库检索系统或互联网中进行检索时,常常需要用多个概念所对应的多个关键词的组合进行检索,仅用一个概念对应的关键词很难完成复杂内容关系的检索要求。

通常,一个检索要求中涉及到的多个概念之间与布尔逻辑的“与”、“或”、“非”都可以通过分析找到明确的对应关系。

即使用关键词和反应关键词之间关系的布尔逻辑运算符、通配符等相关组配符号(含逻辑算符、优先符即括号、位置算符以及英文检索时常用的截词符或通配符),我们就可以将现实中需要检索的内容或翻译成计算机、网络能够认识的形式或语言,输入到计算机中进行检索,得到我们所要的信息资料,完成检索。

下面简单介绍布尔逻辑中的三个基本运算“与”、“或”、“非”。

1、逻辑“与”计算机检索中“与”逻辑关系的常见表示有:“与”、“AND”、“and”、“*”等。

逻辑“与”关系的含义:表示概念A和概念B之间的相交关系,经过“与”运算处理后的表达式:“概念A”AND“概念B”表示一种同时含有概念A和概念B成份的内容,它已经既不是概念A,也不是单纯的概念B了,该操作使关注的范围缩小了。

如下图所示公共的阴影部分。

例如:概念A=艺术,概念B=舞蹈,则概念A、概念B的“AND”逻辑表达式:“概念A”AND“概念B”也即“艺术”AND “舞蹈”则表示要检索那些既讲艺术同时又提到舞蹈的信息资源,或者主要讲舞蹈同时又提到艺术的文献信息资源。

2、逻辑“或”计算机检索中“或”逻辑关系的常见表示有:“或”、“OR”、“or”、“+”等。

逻辑“或”关系的含义:表示概念A或概念B本身或者两者之间的叠加关系。

经过“或”运算处理后的表达式:“概念A”OR“概念B”表示含有“概念A”或含有“概念B”或两个概念都包含,该操作使关注的范围扩大了。

如下图所示所有的阴影部分。

例如:概念A=艺术,概念B=舞蹈,则概念A、概念B的“OR”逻辑表达式:“概念A”OR“概念B”也即“艺术”OR “舞蹈”则表示要检索那些含有艺术,或者含有舞蹈,或者两者都涉及的文献信息资源。

(大学计算机基础)第八章信息检索基础

(大学计算机基础)第八章信息检索基础
信息检索是指根据特定的需求,利用信息检索技术从大量的 信息资源中查找、筛选、获取所需信息的过程。
信息检索的重要性
信息检索是获取知识和信 息的有效途径
通过信息检索,人们可以快速地获取到大量有 用的信息和知识,从而更好地满足自己的需求。
信息检索是科学研究的重要 手段
在科学研究中,研究者需要查找大量的文献资料和数 据,信息检索技术的运用能够大大提高研究效率和质 量。
TITLE
大学计算机基础第八 章信息检索基础
演讲人姓名
目 录









































展信








来 发















信息检索概述
单击此处添加文本具体内容,简明扼要地 阐述你的观点
信息检索的定义
信息检索涉及信息存储、组织和检索三个环节,其中信息存 储是将信息按照一定的规则和标准进行整理和归类,信息组 织是对信息进行有序化处理,而信息检索则是利用一定的技 术和方法从信息集合中查找特定信息的过程。
信息检索实践
单击此处添加文本具体内容,简明扼要地 阐述你的观点
信息检索策略与技巧

第四章 计算机信息检索

第四章 计算机信息检索

三.数据库
1.数据库的概念 数据库是按一定要求存贮在计算机中的相互关 联的数据集合。 数据库的发展是随着文献信息自动化管理的发 展而发展的。当今社会,随着信息量的剧增和计 算机的广泛应用以及人们对文献信息的迫切需求, 电子文献资源的产生与发展就成为必然。而数据 库建设是文献信息自动化管理的基础和核心,是 建立信息网络不可缺少的信息资源,是资源共享 的物质基础,是方便有效地为社会提供信息的重 要渠道。 因此,数据库的飞速发展是信息社会发展的 必然结果。
计算机信息检索
刘 锋
本课内容 一、计算机信息检索的基本知识 二、计算机信息检索系统的构成 三、计算机信息检索原理与技术 四、计算机信息检索策略 五、我校图书馆电子资源概况
一、计算机信息检索的基本知识
1.计算机检索的概念 计算机检索是指工作人员在电子计算 机或计算机检索网络的终端机上,使用特 定的检索指令或检索逻辑关系,由计算机 从数据库中检索出数据或文献的过程。 优势: 提高查全率、查准率,数据资源较全 面丰富,检索功能强,检索质量高,资源共 享 ,内容更新快,服务方式灵活方便。
一、布尔逻辑检索 二、截词检索 三、原文检索 四、加权检索和聚类检索 五、限制检索

六、区分大小写检索 七、短语检索(精确检索) 九、模糊检索 十、概念检索 十、相关检索
1、布尔逻辑检索
布尔逻辑是表达不同概念之间关系的符号逻辑 系统。 利用布尔逻辑运算符进行检索词或代码的逻辑 组配,是现代信息检索系统中最常用的一种方 法。 常用的布尔逻辑算符有三种,分别是逻辑或 “OR‖、逻辑与“AND‖、逻辑非“NOT‖。 用这些逻辑算符将检索词组配构成检索提问式, 计算机将根据提问式与系统中的记录进行匹配, 当两者相符时则命中,并自动输出该文献记录。

信息检索第06章 计算机检索基础

信息检索第06章 计算机检索基础

检域限制可针对特定年代、特定类别、 特定检索点等作限制,包括前缀限制符和后缀 限制符,对DIALOG系统而言,前缀限制符例如: AU= 限查特定作者 JN= 限查特定刊名 LA= 限查特定语种 PN= 限查特定专利号 PY= 限查特定年代 后缀限制符例如: /TI 限在题目中查 /AB 限在文摘中查 /DE 限在叙词标引中查
“图象理解专家系统” IMAGE()UNDERSTAND???*( EXPERT()SYSTEM? ?+ARTIFICIAL()INTELLIG EN??)
(三)、描述检索效果的参数
主要有:查全率(recall factor)、查准 率(也称适中率,Pertinency factor??) 、 漏检率(omission factor) 、 误检率( 也叫 检索噪音, noise factor)以及新颖率、检 索速度等。 设n为检索系统中文献总量,m为检索输 出的文献量,a为n中与检索课题有关的文献 量,b为m中与检索课题有关的文献量(检准文 献量),则n、m、a、b之间的关系如图1.1所 示。
对于检索来说,漏检是影响检索质量的 最主要因素,故必须将M 降低到最低限度; 误检会降低检索的效率,也会影响检索质量。 因此,任何检索工具和检索系统必须力争克 服漏检(必要条件),同时尽量避免误检(充分 条件)。 至于新颖率和检索速度,则可定义如下 :新颖率=能检出的最近单位时间内发表的 文献量/最近单位时间内发表的文献总量 ×100% 检索速度=检索输出的文献量(m)/检索所用 时间(t)
词位限制可以是相邻若干词、在同一 句中等,DIALOG系统所用位置算符例如: A(nW)B A、B两词相隔n词且前后次 序不变符合检出要求;n=1时即A()B A(nN)B A、B两词相隔n词且前后次 序不限符合检出要求;n=1时即A(N)B A(s)B A、B两词只要在同一子字段 中就符合检出要求

计算机检索基础知识

计算机检索基础知识
2. 计算机信息检索的基本技术
①布尔逻辑检索(Boolean searching):是利用布尔逻辑符进行检索的方法,布尔逻辑符有三种,即逻辑"与"(AND)、逻辑"或"(OR)和逻辑"非"(NOT)。在一个检索式中如果含有两个以上的布尔逻辑符就要注意运算次序:()>NOT>AND>OR,即先算括号内的逻辑关系,再依次算"非"、"与"、"或"关系。
中国生物医学文献数据库
中国生物医学文献数据库 (CBMdisc) 收录了1978年至2002年1000多种中国生物医学期刊,以及汇编、会议论文的文献题录。
2002年中国生物医学文献数据库分为以下文档:
CBMdisc02 收录 2001-2002 年的文献题录。
检索途径多:除手工检索工具提供的分类、主题、著者等检索途径外,还能提供更多的检索途径,如题名途径等。
更新快:尤其是国外的计算机检索工具,光盘多为月更新、周更新,网络信息甚至为日更新。
资源共享:通过网络,用户可以不受时空限制,共享服务器上的检索数据库。
检索更方便灵活:可以用逻辑组配符将多个检索词组配起来进行检索,也可以用通配符、截词符等进行模糊检索。
检索结果可以直接输出:可以选择性打印、存盘或E-Mail甚至可以直接检索出全文。
在了解计算机信息检索服务的知识前,首先应了解计算机信息检索的相关知识。
1. 计算机信息检索系统的构成
计算机信息检索系统从物理构成上说,包括计算机硬件、软件和数据库、通讯线路和检索终端五个部分。一般而言,软件由计算机信息检索系统的开发商制作,通讯线路、硬件和检索终端只要满足计算机检索系统的要求都不需要检索者多加考虑。对检索者来说,他们必须了解的是数据库的结构和类型,以便根据不同的检索要求选择合适的数据库和检索途径。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三讲 计算机检索基本知识
计算机检索
数据库检索 Internet检索
☆ 计算机检索相关概念 ☆ 数据库相关概念 ☆ 检索点 ☆ 检索表达式 ☆ 检索途径的组配
脱机检索阶段Off-line Retrieval(1954-1964)
联机检索阶段Online-Retrieval(1965-1972) 国际联机检索 (1973- ) 光盘检索系统 CD-ROM SEARCHING(1985- ) Internet检索Internet Searching(1985- )
F功能:同字段检索,词序与词量不限
表达式: Education (F) school/DE 检索结果:Education 和 school必须同时出 现在叙词字段内即可
S功能:同句检索,其词序与词量不受限制
表达式:Education (S) school 检索结果: Education 和school两词出现在同一句子 中即可。
near Finds records that contain both of two
terms in the same sentence.
with Finds records that contain both of two
terms in the same field.
注意: near和with是两个比较特殊的位置算符,
与and、or 、 not比较,后三者的检索结果是限制在同一条 记录中,范围较near和with更大。
不同的数据库所提供的位置算符不完全相同,在实际检索 时应注意阅读使用帮助文件。
截词符(Truncation):有问号?、星号*等。
有限截词:即在检索词后后截几个有限的字母,如名词 的单复数,动词的词尾变化等。 如输入computer ??表示有0-2个字母变化,可检出 computer和computers. 输入stud???表示截断处有0-3个字母变化,可检出 study, studies,studied,studing.
文档(File)
文档是数据库中一部分记录的集合。许多大型数据库 往往包含有数个以万计的记录,为便利用户检索,常划分 为若干文档。
另一方面,从数据库内部结构来看,文档是指数据库 内容的组成的基本形式,是由若干个逻辑记录构成的信息 集合。
记录(Record)
记录是构成数据库的信息单元,每条记录都描述了一个 原始信息的外表和内容特征。文献型数据库中的一条记录通 常是一篇文献的描述,包括题录、文摘、主题词等。
★二次检索(新的检索词,属限制检索)
※在简单检索或高级检索基础上
※缩小检索范围
※多次使用
所有文章
经过一次检索后
在上一次检索结果 的范围内进行再次 检索
清华大学 孙家广
扩大检索范围,提高查全率的方法:
1、考虑同义词或近义词(使用布尔逻辑符or连接) 2、选择较大检索范围的字段如摘要 3、使用截词符 4、使用上位词(如飞行器航天飞机载人航天飞 机)
★逻辑“或”(OR或+)运算符
※使用于相同或近似概念的同义词、同族词之间 ※检索词(并列关系) ※作用:扩大检索范围,提高查全率。
如: 微机 or 电脑 or PC机
或 微机 + 电脑 + Pபைடு நூலகம்机
company enterprise
company OR enterprise
★逻辑非(NOT或—)运算符
缩小检索范围,提高查准率的方法:
1、使用and 、not等限制检索范围 2、使用位置算符 3、选择检索范围较小的字段 4、使用二次检索 5、使用下位词 6、使用精确检索,如对于固定短语来说可用“”引起来
精确匹配和模糊检索
“任意一致” “完全一致” “前方一致”
※分类号,作者,第一作者,刊名,关键词
代码、字段数目可能不完全相同。
补充说明
词组的检索:通常用“”或()来表示两词是作为一个词 组来检索的 如:“hypermedia database” ;“profit and loss”将 查找profit and loss
※各数据库的相关规定有所差异,在使用的时候要做相应的
调整!
检索途径组配
★高级检索:缩小或扩大检索范围
检索点access point ,即检索途径approach 。
☆分类——确定分类号 ☆主题——主题词或关键词 ☆题名——书名、刊名、篇名(允许中英文混合或是题名
的一部分) ☆号码——ISBN、ISSN、专利号、标准号 ☆作者——个人,团体 ☆单位名称 ☆基金——基金名称(受该基金支持所获得成果的文献)
基本字段
rice in ab(只在文摘中查找)
au = Smith,J.C (作者为Smith,J.C )
py = 1998(只查1998年的文章)
辅助字段
la =Chinese (只查语种为中文的文献)
☆TI:篇名字段(Title)。 ☆ AU:作者字段(Author)。 ☆ CS:作者所在单位字段(Corporate Source)。 ☆ SO:文献来源字段(Source Publication)。包括期刊名称、
布尔逻辑符 位置算符 截词符 字段限制符
布尔逻辑算符
★逻辑“与”(AND或 *)运算符
※使用于需要组配不同概念的检索词之间 ※检索词(概念交叉和限定关系) ※作用:缩小检索范围,提高查准率。
WTO
例:计算机在图书馆中的应用 提问式:
计算机 and 图书馆 或 计算机*图书馆
China
WTO AND China
年,卷、 期、页等,或包括会议事项。
☆ PY:出版年份(Publication Year)。 ☆ LA:语种字段(Language),表示原文的语种。 ☆ DT::文献类型字段(Document Type)。 ☆ AB:文摘字段(Abstract)。 ※对于不同检索系统、不同数据库来说,其记录格式、字段
常用的位置算符有: (W), (nW), (N), (nN) W表示两个词不可以互换顺序
表达式1:Education(W)school 或 Education WITH school
检索结果:Education school;education schools
表达式2:Education(2W)school 检索结果:Education school;education schools;Education and music school;
截词方式 前截断:*magnetic magnetic, electromagnetic, electromagnetic, thermomagnetic, … 后截断:librar* library, libraries, librarian,… 中截断:organi?ation organization, organisation
检索表达式是检索策略的具体体现 检索表达式=检索词+ 各种符号
(document W retrieval or document W delivery or document W delivery W system*) and (digital W librar* or electronic W librar* or virtual W librar*)
截词符(Truncation):有问号?、星号*等。
无限截断:在检索词后加一个“*”,表示该词后可 加任意个字符。使用无限截词,所截词根不能太 短,否则会输出许多无关文献,造成误检。
如:computer *可检出computers, computering, computered, computerization.
因此,在实际检索中应慎重使用。
优先级运算
()>NOT>AND>OR ※英文数据库通常用字母,中文数据库要用符号
布尔逻辑提问式确定了表达概念的检 索词间的逻辑关系,但它不能确定检索词 与检索词相互之间的位置关系。
使用位置算符
邻接检索(Proximity Searching) :表明两或多个检索词 之间关系的符号
N表示两个词可以互换顺序
表达式1: Education(N)school Education NEAR school 检索结果: Education school Education schools
表达式2: Education(3N)school 检索结果: Education school school of education Education and school school of music and education
数据库的相关概念:
数据库是在计算机存储设备上按一定方式存储的 相互关联的数据集合。它将各种数据中的信息单元 经过有序处理、组织 ,可以按通常的方法进行维护 和检索,并且具有共享性。
数据库的相关概念:
数据库本质的三个要素 相关数据 共同存取方式和一定组织方式 共享
※通俗地说,数据库就是由多张表构成的
基本索引字段:描术文献内容特征的字 段如篇名(/TI)、文摘(/AB) 辅助索引字段:描述文献外部特征的字 段如著者(AU=)、著者单位(AA=)、 语种(LA=)、出版年(PY=)等
字段(field)
记录 (record)
文档n
文档1(file):一张表就是一个文档
文档2
数据库结构图
数据库(database)
※使用于需要从某个概念中剔除另一个概念的场合 ※检索词(排除关系) ※作用:排除不需要和影响检索结果的概念,提高查 准率。
例: “计算机 NOT 微机”
或 “计算机 — 微机”
patent German
PATENT NOT GERMAN
使用优先处理算符“( )”
※ “NOT”算符有排除掉相关文献的可能,
相关文档
最新文档