计算机检索基础(3)
第三章 计算机检索基础知识
![第三章 计算机检索基础知识](https://img.taocdn.com/s3/m/272da106763231126edb11f4.png)
算机的输入输出装置进行检索,用磁带作存储介质,一般为 连续的顺序检索方式。检索部门把许多用户的检索提问汇总
到一起,进行批量检索,然后把检索结果通知各个用户,用
户不直接接触计算机。
联机检索(on-line retrieval)
60年代末,由于计算机软硬件技术的不断提高,出现了一台主机带 多个终端的联机信息检索系统。联机检索是用户利用终端设备,通 过通信网络或通信线路与检索系统联机,进行“人机对话”,从检 索中心的数据库及时查找所需要的文献信息过程。 80年代,发达国家的一些计算机信息联机检索系统,通过卫星通信
注意:这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。不同的检 索系统其位置算符的表示方法不尽相同。
截词检索
截词检索就是把检索词截断,取其中的一部分,在加
上截词符号一起进行检索。
• 主要用于检索词的单复数、词性的词尾变化、词根相同的一类词, 以及同一词的拼法变异等。 • 从本质上说,截词算符是一种逻辑“或”的关系。
对信息内容特征进行标引和对信息外部特征进行著录,形成 一条信息题录,并根据信息内容作出摘要,然后将上述检索标识 与著录项目一并填入工作单,就完成了数据库建设的“数据前处 理”工作。
数据库及其编排结构
• 数据库的类型
• 数据库的构成 • 数据库的记录格式 • 数据库的编排结构
数据库的类型
按照信息处理层次划分:
A AND B:检索词A和检索词B同时出现在一条记录中。 • 其作用是缩小检索范围,提高查准率。
例如:查有关“人口控制”的文献,检索式可写成: 人口 AND 控制
逻辑或(OR)
A OR B:记录中出现检索词A或检索词B或两词同时出现 在一条记录中。 • 其作用是扩大检索范围,提高查全率。
第三章 计算机检索基础知识
![第三章 计算机检索基础知识](https://img.taocdn.com/s3/m/0c4a09c75fbfc77da269b1a0.png)
1. 2. 3. 4.
5.
在实践中,需要根据课题的具体要求,合理 调节查全率和查准率,保证检索效果相对较优。 通常采用以下方法进行调节: 若要提高查全率,进行扩检,可按如下方法 调整检索: 选全同义词并以“OR”方式与原词连接后加入到 检索式中; 降低检索词的专指度,找出一些检索词的上位词 或相关词; 采用分类号进行检索; 删除某个不甚重要的概念组面,减少“AND”运 算; 取消某些过严的限制符,如字段限制符等。
(4)同一事物名词的单复数、不同词性、英美语的不 同形式 单数 复数 名词 动词 computer computers composition composite 英拼 colour fibre 美拼 color fiber (5)隐含概念扩展 隐含概念是显见主题的更确切的表达。 “一个取代高残杀菌剂的理想品种” 隐含了“高效低毒杀菌剂”或“高效低毒农药”
下位词: 下位概念扩展法:概念分析的树形展开法 如:汽车 卡车 轿车 货车等
所有图书馆用户能够在校外使用天津高校文献信息 中心的电子资源,比如超星电子图书、维普期刊全文数据 库、EBSCO电子期刊等。 IP通远程访问系统已开通 IP通用户登录方法: 首先要确保您使用的网络是非教育网。 WEB方式用户请登录 / 客户端软件用户请登录
1. 2. 3. 4. 5.
提高检索词的专指度,找出一些检索词的下位词或 专指性较强的相关词; 增加概念组面,用“AND”连接一些进一步限定主 题概念的相关检索项; 限制检索词出现的可检字段; 利用文献外表特征限制,如:文献类型、出版年代、 语种、作者等; 用逻辑非“NOT”来排除一些无关的检索项。
截词检索
邻近检索 限制检索 加权检索 检索词的确定
计算机检索基础知识
![计算机检索基础知识](https://img.taocdn.com/s3/m/174ad13043323968011c92b8.png)
14
这个阶段文献信息数据库不论从种类还
是规模上都远远超过了以往各个阶段, 全文数据库、多媒体数据库更是其中的 佼佼者;文献信息检索不再是单位内部 联机检索,价格昂贵的国际联机检索, 而是通过各个接入网、交换网检索互联 网各结点上的服务器的各类信息。
15
三、计算机信息检索的服务方式
计算机检索系统按其服务功能可分为回溯检索、定题
16
2、定题检索(Selective Dissemination of Information,SDI) 定题检索服务是根据用户检索课题的内容,一次性输 入事先确定好的检索提问式保存在检索系统中,检索 系统根据数据库更新周期,定期地对保存的检索提问 式进行检索,将检索出的最新文献信息提供给用户。 定题检索服务对于长期追踪某一领域的新颖信息很适 合。 3、人机对话检索 这是用户以交互方式直接访问系统及数据库、在线实 时进行的检索。用户一旦输入检索提问,计算机检索 系统就可立即执行,并在用户终端显示屏上输出检索 结果。
33
4、限制检索
限制检索是通过限制检索范围,达到优化检索结果的
方法。限制检索的方式有多种,例如:进行字段检索、 使用限制符、采用限制检索命令等。 1)字段检索 它是把检索词限定在某个/些字段中,如果记录的相应 字段中含有输入的检索词则为命中记录,否则不中。 例如:查找微型机和个人计算机方面的文章。要求 “微型机”一词出现在叙词字段、标题字段或文摘字 段中,“个人计算机”一词出现在标题字段或文摘字 段中,检索式可写为:microcomputer?/de,ti,ab OR personal computer/ti,ab
31
(2)按截断的字符位置划分: 前方一致:允许词尾有变化。如“Textile?”可 同时检出含有Textile和Textiles的文献。 后方一致:允许词头有变化。如“*polymer”可 同时检出含有有Homopolymer,Copolymer等词的 文献。 中间一致:词头、词尾都可变化。如: “*Wave*”可检出含有 wave,waves,wavelet,microwave,wavelength等词 的文献。 中间屏蔽:允许中间的某些字母有变化。如: “Fib??s”相当于查出含有Fibers和Fibres的文献
信息检索计算机检索基础
![信息检索计算机检索基础](https://img.taocdn.com/s3/m/389600b1a8956bec0875e367.png)
〔2〕同字段检索
(F)算符:“ Field〞的缩写
A (F) B表示A和B两个检索词必须在文献 记录同一字段内,如篇名字段、文摘字段、 叙词字段、自由词字段等
词序及两词间插入的词数不限
例 digital (F) computer / AB,
要求digital 和 computer 这两个词必 须同时出现在文摘字段〔AB〕中
参考数据库主要是二次文献数据库,它包括各种机读版 的文摘、索引、目录等,它的价值在于向情报用户指引一 次文献。
②源数据库:是指能够为用户提供所需的原始资料 或数据的数据库。
a.数值数据库; b.文本-数值数据库; c.全文数据库; d.术语数据; e.图像数据库
源数据库是能直接提供原始资料或具体数据的自 足性数据库,用户不必再查阅其他信息源。它的特点 在于它本身含有一次情报,即用户作为检索目的而要 求获取的数值、事实或文本。
按数据库包括的信息内容可分为参考数据库、元数据 库和混合数据库。
①参考数据库:包括书目数据库和指南数据库两类。
书目数据库是指村粗二次文献信息的数据库,如题录 数据库、文摘数据库、目录数据库等属于参考数据库。
指南数据库为事实数据库,是指存储机构、人物、地 名、产品、物质和材料的特性、时间等信息的数据库。
1词间位置检索b表示a和b两个检索词顺序不许颠倒两词之间不许插词只许空格或连字符号b表示a和b检索词之间允许插入0n个词b表示a和b两个检索词必须在文献记录同一字段内如篇名字段文摘字段叙词字段自由词字段等b表示a和b两个检索词必须在同一自然句中词序及两词间插入的词数不限表示和只要同时出现在文摘中的某一个句子中就算命中截词检索是计算机检索系统中应用非常普遍的一种技术
信息检索基础3
![信息检索基础3](https://img.taocdn.com/s3/m/54b59440a8956bec0975e34a.png)
一、单项选择题∙1、手稿、私人笔记等属于()文献,辞典、手册等属于()文献。
∙ A 一次,三次 B 零次,二次 C 零次,三次 D 一次,二次∙2、按照出版时间的先后,应将各个级别的文献排列成( )∙ A 三次文献、二次文献、一次文献 B 一次文献、三次文献、二次文献C 一次文献、二次文献、三次文献D 二次文献、三次文献、一次文献∙3、图书分类法中,类名之间有同位类关系一般反映了学科概念之间的( )关系。
∙ A 包含 B 排斥 C 延伸 D 相容∙4、具有概念交叉限定关系的两个检索词之间应该使用( ) 算符。
∙ A 逻辑“或” B 逻辑“非” C 逻辑“与” D 优先∙5、逻辑“或”算符是用来组配( )。
∙ A 不同检索概念,用于扩大检索范围 B 相近检索概念,扩大检索范围C 不同检索概念,用于缩小检索范围D 相近检索概念,缩小检索范围∙6、文献按载体形式可划分为书写型文献、()、缩微型文献、声像型文献和机读型文献。
∙ A 零次文献 B 印刷型文献 C 标准文献 D 手写型文献∙7、如果检索结果过少,查全率很低,需要扩大检索结果,此时,调整检索策略的有效方法有( )等。
∙ A 用逻辑“与”或者逻辑“非”增加限制概念 B 用逻辑“或”或截词符增加同族概念 C 用字段算符或年份增加辅助限制 D 用“在结果中检索”增加限制条件∙8、以文献线索为检索对象的书目检索,是属于()。
∙ A 文献信息检索 B 事实信息检索 C 数据信息检索 D 全文信息检索∙9、根据我国的相关国家标准,文献的定义是指“记录有()的一切载体。
”∙ A 信息 B 资讯 C 知识 D 数据∙10、使用搜索引擎查找某一课题,希望在网页中出现两个检索词中的前一个,而不希望出现其中的后一个,应该使用下列哪个检索算符( )∙ A 空格 B * C - D +∙11、下列哪个不是超星数字图书馆的检索方式∙ A 一般检索 B 高级检索 C 快速检索 D 分类导航∙12、在下列哪种检索工具中可以得到历年的统计数据?∙ A 字典 B 百科全书 C 年鉴 D 手册∙13、在CALIS的书目查询系统中,要查询易中天写的图书,应该首选择的检索途径是:( )∙ A 题名 B 作者/出版社 C 主题 D ISBN/ISSN∙14、在广西工学院图书馆中,新书库的图书可以外借的期限是:( )∙ A 10天 B 60天 C 30天 D 20天二、多项项选择题∙1、针对不同时间要求的文献应使用不同的文献类型,就最新的文献信息而言,例如近一两个月的文献信息而言,应该使用( )。
计算机检索基本知识
![计算机检索基本知识](https://img.taocdn.com/s3/m/5fdf22d2b14e852458fb5716.png)
3、私营公司 例如:英国Derwent Derwent公司 例如:英国Derwent公司 美国Knight Ridder公司 Knight美国Knight-Ridder公司 Mead Data Contral OVID公司 OVID公司 Information, Silver Platter Information,Inc. 传统新闻/ 4、传统新闻/出版机构 例如: 德国Springer Springer出版社 例如: 德国Springer出版社 美国Join Wiley电子出版公司 美国Join Wiley电子出版公司 荷兰Elsevier Elsevier科学出版社 荷兰Elsevier科学出版社
数据库类型: 数据库类型:
按存储数据的类型分:数值型、事实型、词典型、书目型、 按存储数据的类型分:数值型、事实型、词典型、书目型、 全文型 按存储的介质分: 按存储的介质分: 光盘数据库:数据存储在计算机的光盘或光盘塔上, 光盘数据库:数据存储在计算机的光盘或光盘塔上,因而存 储量有限, 储量有限,更新速度慢 网络数据库:数据存储在服务器的硬盘上,存储量大, 网络数据库:数据存储在服务器的硬盘上,存储量大,更新 速度快
文章号 001 002 ……
篇名 asd bys vcx
文章号 001 002 ……
作者 Li Wang deng
文章号唯一, 文章号唯一,且 索引文档与主文 档的文章号一一 对应
索引文档1 索引文档1: 篇名索引 篇名索引
索引文档2 索引文档2: 作者索引 作者索引
文章号
篇名 asd bys vca
输出端),网络(或通信电缆),数据库存储服务器 输出端),网络(或通信电缆),数据库存储服务器 ),网络 ),
服务器(数据库终端) 服务器(数据库终端)
计算机检索基础
![计算机检索基础](https://img.taocdn.com/s3/m/66dc76cea1c7aa00b52acba1.png)
3、事实型数据库: 事实型数据库是以事物发展过程中产 生的事实性信息为存贮内容的数据库。如 自然资源数据库、人口数据库、名人数据 库和机构名录数据库等。
这类数据库除存贮基本事实数据外, 也存贮数学运算和逻辑运算规则,能同时 提供文本信息和数值数据。用户只要通过 人物、机构或事物名称及有关事项进行检 索,就可获得特定的事实或数值信息。
(心脏瓣膜疾病OR心力衰竭)AND手术并发症
(2)位置算符检索
位置算符 是指表示词与词之间位置关系的算 符,又称邻近度算符。常用位置算符有 near、 with、(nW)、(W)等 。 作用:是限制词与词之间的位置关系,弥补 布尔逻辑算符只是定性规定检索词的范围,更加 明确检索词之间的逻辑关系,缩小检索范围,提 高检索的查准率。
(二)计算机信息检索系统的构成
计算机信息检索系统通常由计算 机硬件、检索软件、数据库和通信网 络等组成。其中数据库是计算机信息 检索系统的核心。数据库的质量直接 影响计算机信息检索系统的功能和效 率。对数据库的了解是掌握计算机信 息检索技术的前提。
(三)数据库的概念与结构
数据库是指在计算机存贮设备上 按一定方式存贮的相互关联的文献 信息集合,它可以由一个或多个文 档(File)组成。 文献信息数据库主要由文档、记 录、字段三个层次构成。
三、检索策略的编制与调整
检索策略 是指为实现检索目标而制定的全 盘计划和方案,是对整个检索过程的谋划和指导。 由于计算机信息检索是由计算机程序来控制和执 行检索匹配操作,检索者与具体的检索过程是分 离的,因此,事前制定适宜的检索策略,是成功 检索的关键。 广义的检索策略包括信息需求分析、选择数 据库、确定检索途径和标识、编制检索表达式并 准备多种检索方案和步骤等。 狭义的检索策略包括确定检索词和根据需要 运用各种运算符编制检索表达式的构思过程。
计算机信息检索基础知识
![计算机信息检索基础知识](https://img.taocdn.com/s3/m/67313deb551810a6f5248645.png)
• 支气管扩张剂对肺的作用
– 分类标引:R974 呼吸系统药物 – 主题标引:肺/药物作用 支气管扩张剂/药理学
计算机信息检索系统组成
• 硬件:运算器、控制器、存储器、输入输出装置等 • 软件:系统操作程序、数据库管理程序、联机控制
程序、应用程序等。 • 通讯线路:电话通讯网、数据通讯网、卫星通讯网 等。 • 检索终端:信息用户与检索系统主机进行人机对话, 实现联机检索的设备。包括上网设备、调制解调器 等。 • 数据库:是计算机检索的对象。是由一个或数个文 档构成,并能够满足某一特定目的或某一特定数据 处理系统需要的一种数据集合。
光盘数据库检索
• 光盘 是80年代发展起来的激光存储载体,继 纸张感光材料、磁性载体之后问世的又一种 新型的信息存储介质。能存储数据、文字、 图形、图像、声音、动画等各种信息。一张 普通的光盘、信息存储量约为550兆。 • 光盘的分类:按存储方式分为
(1)只读型光盘:CD-ROM (2)写读光盘:WORM (3)可擦写型光盘:ERM
光盘检索的定义和特点
• 定义:
是一种用激光技术在特制圆盘上记录信息 的检索方式。 • 特点: (1)投资成本低; (2)价格低; (3)运行速度快; (4)检索效果好; (5)下载方便; (6)安全性能高。
光盘检索的系统组成
• 单机光盘检索系统组成: (1)数据库:光盘 (2)软件:系统软件和检索软件 (3)硬件:计算机、光盘驱动器、显示屏、打印 机等 • 网络光盘检索系统组成: (1)光盘塔 (2)光盘组网软件 (3)光盘塔服务器
NOT > AND > OR ( )号里的部分运算优先
截词检索
截词检索就是把检索词截断,取其中的一 部分,在加上截词符号一起进行检索。主要 用于检索词的单复数、词性的词尾变化、词 根相同的一类词,以及同一词的拼法变异等。 通用的截词符有:?和* ?代表一个字母;*代表两个或两个以上字母
计算机检索基础知识
![计算机检索基础知识](https://img.taocdn.com/s3/m/80628006e87101f69e31952d.png)
(N)算符是“near”的缩写,表示此算符两边 的检索词必须紧密相连,此间不允许插入其他 单词或字母,但词序可以颠倒;
(nN)算符则表示在两个检索词之间最多可以 插入n个单词,且词序可以颠倒。如,?S econom?? ?(2N)recovery , 可 以 检 出 : economic recovery, recovery of the economy, recovery from economic troubles。 词位臵检索是很有用的检索技术,它可以规 定词组中各词的前后次序,防止错误的搭配和 输出。
第二节 计算机检索技术
一、基本检索技术 1 布尔检索 几乎所有的网络信息检索系统都支持布 尔逻辑检索,但不同的检索工具又有差别. 2 截词检索
3 短语检索
在网络检索工具中,
若在检索框内输入两个或两个以上的检 索词,且两个检索词之间没有任何其它符号, 该检索系统会将这两个检索词之间的关系设 为默认值(AND或OR);
目前加权检索在网络检索工具中的运用 还很不完善,尚不能根据用户的需求来确定 某一个具体语词的权值大小从而确定它对检 索结果的影响程度。
现在很多网络检索工具采用“+”、“-” 来表示检索词在检索提问中的分量。在某个 检索词前面带上“+”表示该检索词必须在检 索结果中出现,反之,若某个检索词前面带 上“-”,则表示该检索词一定不能出现在检 索结果中。 AltaVista、HotBot、Infoseek等都 支持这种形式的加权检索。
作者
文献类型 刊名 语种 出版年
4 位臵逻辑检索符
又称全文查找逻辑算符,相邻度检索算符, 原文检索符。由于布尔检索的“AND”运算要求 AND两边的检索词在同一记录中同时存在才能 命中文献,这就可能会引起误组配而造成大量 误检,而位臵逻辑检索是以原始记录中检索词 与检索词特定的位臵关系为逻辑运算的对象, 检索词用位臵算符相连,就可以弥补布尔检索 的缺陷。 位臵逻辑检索可分为词位臵检索、同句检 索、字段检索和记录检索。
计算机检索基础知识(3)
![计算机检索基础知识(3)](https://img.taocdn.com/s3/m/73ed0baf284ac850ad02423d.png)
(1)分析检索课题,明确检索需求。 (2)选择信息源(图书馆订购的资 源、网上免费资源)。 (3)确定检索标识,选择检索项。 (4)编写检索提问式。 (5)实施检索并调整检索策略。 (6)输出检索结果。
计算机检索基础知识
1.了解数据库的类型; 2.选择合适的数据库; 3.选择恰当的检索词(检索项); 4.计算机检索中常用的运算符; 5.计算机信息检索策略的制定与调整。
用户行为分析在搜索引擎中的应用
主题字段:用户行为分析 并含 搜索引擎
根据查得的中文文献扩展英文关键词
检索式及检索结果
379 records in Compendex for 19692012 (((Search Engine ) WN All fields) AND ((User Behavior Analysis ) WN All fields))
数据量(记录数) 文种 更新频率 访问模式(口令,IP控制) 其它信息:帮助信息、出版者、发行者、在同行中的地位。
如何了解一个数据库样例:超星数字图书
国内重要的数字图书之一 服务形式:WEB/镜像 涵盖学科或主题范围:所有学科 文献类型(出版形式、内容层次等): 电子图书,全文(一次文献)
1.数据库的类型
记录的收录格式
记录的内容类型
记录的出版类型
书目(Catalogue) 摘要(abstracts) 全文(full text) 文献(Document) 数据(Data) 事实(Fact) 图书、期刊论文、会议论 文、学位论文、标准文献、 专利文献等。
计算机检索基础知识
1.了解数据库的类型; 2.选择合适的数据库; 3.选择恰当的检索词(检索项); 4.计算机检索中常用的运算符; 5.计算机信息检索策略的制定与调整。
计算机检索基础
![计算机检索基础](https://img.taocdn.com/s3/m/8c31593e580216fc700afdb0.png)
的分析研究之后综合概括而成的产物,具体包括 各种述评、综述、或进展性出版物,各种字典、 词典、手册(教科书)、百科全书、年鉴以及文 献指南(或书目指南)等。
1.3 文献的主要类型
印刷型、缩微型、声像型和电子型 文献是以载体的物理形态区分的四种文献类型。
1. 印刷型
2.7 政府出版物
政府出版物是各国政府部门及其所属机构所发表的
文件。可分为行政性文件和科技文件两大类。
政府出版物对了解一个国家的科学技术和经济政策
及其演变情况。有一定的参考价值。
2.8 学位论文
是高等学校学生为获得某种学位而撰写的科学论文。
一般有学士论文、硕士论文和博士论文之分。 学位论文的特点是:理论性、系统性较强,内容专 一,阐述详细,具有一定的独创性,是一种重要的 文献信息源。
零次文献一般是通过口头交谈、参观展览、参加报
告会等途径获取,不仅在内容上有一定的价值,而 且能弥补一般公开文献从信息的客观形成到公开传 播之间费时甚多的弊病。
一次文献(primary document)
是指作者以本人的研究成果为基本素材而创作(或 撰写)的文献,不管创作时是否参考或引用了他人 的著作,也不管该文献是以何种物质形式出现,均 属一次文献。一次文献中所记录的情报,一般比较 具体、详尽和系统化。 习惯上也称一次文献为原始文献。图书、期刊论文、 科技报告、会议论文、专利说明书、技术标准以及 部分学位论文等公开发表的文献都属一次文献。另 外,还包括一些不公开发表的文献。如:日记、内 部报告、技术档案等等。
式的长处。 科技会议是公布新的研究成果的重要场所。又是获 得难得文献的重要途径。另外也是及时全面地了解 有关领域发展情况的重要渠道。
计算机信息检索基础知识
![计算机信息检索基础知识](https://img.taocdn.com/s3/m/af56afd784254b35eefd345a.png)
信息检索的步骤
研究课题 用户
主题分析
选择检索系统或 数据库
选择检索途径:主题 词、作者、机构等
检索操作
制定检索策略和 检索方式
初始检索 结果输出 不满意
用户结果评价
满意
检索结果
索取原文
三、网络信息资源及其特点
网络信息资源又称为虚拟资源、数字资源、 电子信息资源、联机信息资源、万维网资源 等,是互联网上电子信息资源的统称,是以 数字化形式记录的,利用计算机技术、通信 技术及多媒体技术在网络上发布、查询与存 取利用的信息资源的总和。
追溯法:这是利用已有的文献后面的参考文 献进行追溯查找的方法,是在没有检索工具 或检索工具不全的情况下使用的一种方法。 但用这种方法查找的文献不全,有片面性, 文章漏检率高,知识陈旧的占多数,目前已 很少有人使用。
分段法(循环法):这是将常用法与追溯法 交替使用的一种方法,即利用工具书检索文 献,又利用文献后面的参考文献进行追溯, 两种方法交替使用,直到满足读者需要为止。 这种方法可根据文献和本单位工具书收藏的 情况分期分段交叉运用不同的查找方法,既 能获得一定时期内的文献,还可节约查找时 间。
(3)专门从事数据库制作和销售的数据库商 如EBSCO公司、ProQuest公司等;自己没有出 版物,但他们买出版公司的产品,然后建立检索 平台供读者检索,例如iGroup公司建立了 Scitation平台,在上面可以看到AIP(美国物理 学会)、ASME(美国机械工程师协会)等几十 个专业学协会的电子期刊。
2信息检索技术
布尔逻辑检索 截词检索 位置检索 字段限定检索
布尔逻辑检索
逻辑与AND(*)。 逻辑或OR(+)。 逻辑非NOT(-)。
计算机检索基础
![计算机检索基础](https://img.taocdn.com/s3/m/da60cb9f83c4bb4cf6ecd17f.png)
计算机信息检索基础知识一、布尔逻辑与检索功能当人们使用计算机在数据库检索系统或互联网中进行检索时,常常需要用多个概念所对应的多个关键词的组合进行检索,仅用一个概念对应的关键词很难完成复杂内容关系的检索要求。
通常,一个检索要求中涉及到的多个概念之间与布尔逻辑的“与”、“或”、“非”都可以通过分析找到明确的对应关系。
即使用关键词和反应关键词之间关系的布尔逻辑运算符、通配符等相关组配符号(含逻辑算符、优先符即括号、位置算符以及英文检索时常用的截词符或通配符),我们就可以将现实中需要检索的内容或翻译成计算机、网络能够认识的形式或语言,输入到计算机中进行检索,得到我们所要的信息资料,完成检索。
下面简单介绍布尔逻辑中的三个基本运算“与”、“或”、“非”。
1、逻辑“与”计算机检索中“与”逻辑关系的常见表示有:“与”、“AND”、“and”、“*”等。
逻辑“与”关系的含义:表示概念A和概念B之间的相交关系,经过“与”运算处理后的表达式:“概念A”AND“概念B”表示一种同时含有概念A和概念B成份的内容,它已经既不是概念A,也不是单纯的概念B了,该操作使关注的范围缩小了。
如下图所示公共的阴影部分。
例如:概念A=艺术,概念B=舞蹈,则概念A、概念B的“AND”逻辑表达式:“概念A”AND“概念B”也即“艺术”AND “舞蹈”则表示要检索那些既讲艺术同时又提到舞蹈的信息资源,或者主要讲舞蹈同时又提到艺术的文献信息资源。
2、逻辑“或”计算机检索中“或”逻辑关系的常见表示有:“或”、“OR”、“or”、“+”等。
逻辑“或”关系的含义:表示概念A或概念B本身或者两者之间的叠加关系。
经过“或”运算处理后的表达式:“概念A”OR“概念B”表示含有“概念A”或含有“概念B”或两个概念都包含,该操作使关注的范围扩大了。
如下图所示所有的阴影部分。
例如:概念A=艺术,概念B=舞蹈,则概念A、概念B的“OR”逻辑表达式:“概念A”OR“概念B”也即“艺术”OR “舞蹈”则表示要检索那些含有艺术,或者含有舞蹈,或者两者都涉及的文献信息资源。
文献检索课二计算机检索的基础知识
![文献检索课二计算机检索的基础知识](https://img.taocdn.com/s3/m/89eda431c5da50e2524d7fee.png)
–计算机检索系统的类型
1.文献型数据库 文献型数据库是指能直接提供文献线索和文献原文的数 据库,即数据库记录的对象为文献信息时。包括目录型 数据库、题录型、文摘型和全文型数据库。 (1)目录型数据库 是对信息外表特征予以揭示和报道,以整个出版单位或 收藏单位为基本著录单元,如“本”、“种”、“件” 等。著录内容包括书(刊)名、作者、出版年月、出版 地及收藏情况等。可分馆藏目录(如各图书馆的馆藏机 读目录数据库OPAC)、联合目录、出版发行目录等。
1、文献型检索工具 (1)目录 以报道文献出版或收藏信息为主要功能的工具。如《全国总书 目》。 (2)题录 是将图书、报刊等文献中论文的篇目按照一定的排检方法编排 而成,供人们查找篇目出版的工具。如《全国报刊索引》 (3)文摘 以精练的语言把文献信息的重要内容、观点、数据等摘录下来, 并按一定的著录规则与排列方式编排起来,供读者检索使用的一 种检索工具。 2、非文献型检索工具 主要指参考工具书。如词典、百科全书、年鉴、年表、名录等。
• A(nW)B AB两词靠近,次序为A先B后,中间最多可加n个词。 例 如 : communication(2w)satellite , 只 检 索 出 communication satellite 、 communicationsatellite,communication through satellite 、 communication on the satellite词组的记录。
– 选择检索系统
• 主要是根据课题的检索要求选择合适的检索工具或数 据库,如: 查找图书可用OPAC书目数据库;查学科术语或数 据等可用事实型数据库、参考工具书或网络搜索引擎; 撰写学位论文、申请研究课题,需要了解研究对象的 历史、现状和发展,要求检索文献全面、彻底,检索 覆盖的年份也较长,尽可能选用一些收录年份较长的 综合型和专业数据库。 • 考虑权威性数据库; • 数据库的学科专业范围是否与课题的学科相吻合; • 需要的是题录、文摘信息还是全文信息,还是事实、 图形、数据等; • 数据库收录的文献类型、年限、更新周期,所需文献 信息在国别和语种是否符合检索需求等。
2第二章 计算机检索基础知识
![2第二章 计算机检索基础知识](https://img.taocdn.com/s3/m/3c1bd82a31126edb6f1a102e.png)
据
库
按文献类型划分:
数
文献类数据库
书目数据库(二次文献) 全文数据库(一次文献)
据
库 数值数据库 非文献类数据库 图像数据库 术语数据库
按载体形式分为 :
单机版光盘数据库 数 据 联机数据库 光盘数据库 络版光盘数据库
库
网络数据库
镜像站数据库
三、数据库的文档结构
1. 顺排文档(linear file):是按记录的编号
顺序排列的文档。为主文档。顺排文档结构简 单,管理方便,节省储存空间,但检索速度较 慢。
2. 倒排文档(inverted file):是将数
据库中具有某些特征的字段值和具有该 字段值的记录号按顺序排列构成的文档, 也称为索引文档。
4.数据结构具有通用性、开放性、动态性 5.信息资源体积小,数量巨大
一座拥有百万册图书的图书馆,经过数字化处理后,只需 3400张光盘就可以全部存储下来。
6.传播方式的无限性
电子信息资源不受时间、空间的限制,实现跨时空、跨行业 的传播。
7.交互性
电子信息资源不是传统信息资源的复制,而是对传统信息 资源和信息交流渠道的补充。
2.2
数据库
一、 定义
数据库是可以共享的某些具有共同存取方 式的相关数据,以一定的组织方式的集合。 数据库本质的三个要素:相关数据、共同 存取方式和一定的组织方式、共享。 通俗地说,数据库是以某一特定方式组织 和存放的数据的仓库。
数据库与其他数据集合的主 要区别在于数据库中的各项 数据可以通过同一种方式进 行储存与查找,因此同一个 数据库中的记录格式都是一 样的。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据库结构
数据库 文档 记录
题名字段
作者字段 地址字段 刊名字段 关键词字段 主题词字段
文档 记录 记录
题名字段
作者字段 地址字段 刊名字段 关键词字段 主题词字段
记录
文档(File)
数据库中一部分记录
的集合
综合性数据库 多按学科划分文档
记录(Record)
数据库的基本信息单元,每条记录都描述了原
联机检索
用户在计算机检索系统的终端上, 通过通信网络,使用特定的指令和算符, 以人机对话方式,查询远程计算机检索 系统核心的数据库,从中获取所需信息 的计算机检索系统。
光盘检索
以光盘为介质的光盘数据库检索系统 优点:一次购买,无限制使用,不必考虑检索 时间,适用于通信不发达,联网较困难的地区, 是联机检索、网络检索的有效补充。 局限:数据更新有一定的周期,时效性、灵活 性比不上联机检索;目前光盘数据库容量有限, 一般是按专业和领域建库,收录范围不够广泛; 适用对象的局限性,因为一次性购买费用高, 对使用频率不高的单位或个人来说成本较高; 设备和软件的兼容性较差,各种光盘数据库检 索系统目前还难以实现标准化和统一化。
3、(n N)或Nn-算符 n Near,表示算符两侧的检索词彼此邻近, 且词序可变,n是两个检索词之间允许插入的 最大词量.如cotton (2N) processing,凡含 cotton processing, processing of cotton 和 processing of Egyptian cotton的文献记录 都算命中.
★全文文本、多媒体、多载体、跨平台等新型
信息检索发展;
★在深度上提高管理和组织信息的能力,如探
索自动抽词、自动索引、自动检索、自动文
摘、自动分类、Web检索智能代理、数据挖
掘、自动翻译等;
★信息资源的网络化存储和分布式存储.
计算机检索特点
检索内容新 数量大
手段灵活 途径多样
检索速度快 效率高
检索方便 实现资源共享
数据库类型
文 献 数 据 库
数 值 数 据 库
事 实 数 据 库
多 媒 体 数 据 库
文献数据库
书 目 数 据 库
全 文 数 据 库
书目数据库
存储描述如目录、题录、文摘等书目线索的数 据库,又称二次文献信息数据库。如各种图书馆目 录数据库、题录数据库和文摘数据库等属于此类, 它的作用是为用户指出了获取原始信息的线索。 如:馆藏书目,SCI,EI,CPCI等
始信息的各项外表特征和内容特征。
字段(Field)
组成记录的数据项(检索项),一个字段代表一
项特征。
文档
记录
字段
字段名称及代码
基本字段:
文摘(Abstracts) 题目(Title ) 主题词(Descriptor)
辅助字段:
作者 (Authors) 作者单位(Corporate Source) 刊名(Journal Name) 年代( Publication Year )
逻辑“与”(AND或*)
是一种概念相交和限定关系的组配。例如:“A AND B” “A*B”,其含义:是检出的记录中必须同时含有“A”和“B” 两个检索项。 “AND”算符的作用是对检索词加以限定,逐步缩小检索范围, 提高检索结果的查准率。例如检索“计算机在图书馆中的应用” 方面的文献,其检索式可写成: “计算机 * 图书馆”或 A C B “计算机 AND 图书馆”
同一概念的几种表达方式;
同一名词的单、复数、动词、动名词、过去分词 形式等,如生产有product, production, producing, produce, productive等,词根相同时,可用截词符解 决; 化学物质既用名称也用元素符号,如氮, Nitrogen和N; 植物和动物名,其英文和拉丁名均要选用。
扩大检索范围,提高查全率
逻辑“或”运算
示例
政治、经济、宗教与伦理学的关系
政治 经济 宗教
A B
伦理学
C D
(A OR B OR C) AND D (政治+经济+宗教)*伦理学
逻辑“非”(NOT或—)
“NOT”算符是排除含有某些词的记录,其逻辑提 问表达式为“A NOT B”或“A-B”,即检出的记录 中只能含有“NOT”算符前的检索词 A,而不能同时 含有“NOT”后的检索词 B。 “NOT”的作用是缩小检索范围,提高检准率。 在联机检索中可降低检索费用。 例如:“皮鞋 NOT 高跟鞋” A B 由于“NOT”算符有排除掉相 关文献的可能,在实际检索 A not B 中应慎重使用。
计算机信息检索
“信息爆炸” 文献巨增 手检 机检
利用计算机对信息和数据的高速处
理能力来实现信息的存储与检索。
计算机信息检索
用户利用数据库获取所需信息的过程。 即:计算机将输入机检系统的用户提问 标识(检索词)与已存贮在系统中数据库 内的文献特征标识(标引词)进行匹配比 较,凡符合给定的比较原则和逻辑运算条 件者即为命中文献。
网络检索
是通过标准通信方式将世界各地的 计算机网络连接起来,形成一个基于客 户机-服务器模式的网络分布数据库结构。 它在全球范围内把科技信息、商贸信息、 经济信息、时事新闻以及日常生活信息 通过互联网络合在一起,向亿万联网用 户提供广泛的信息检索与服务。它是信 息化社会应用最广泛、最活跃的领域。
计算机检索的最新发展
2.选择著者作为检索途径进行检索时
精确检索和模糊检索,以“高洁”为 例 精确检索:高洁
模糊检索:高洁如 高洁琳等
检索词选择技巧
(2)注意检索词的全称、简称、俗称和 英文缩写
检索条件限定
如年份、语种、文献类型等。
检索字段
如著者 、文摘、篇名、主题词、机构名称、 分类号、刊名等。
检索字段的确定 考虑检索词在哪个字段中出现。比如,查找赖世雄关于 怎么学英语发表的论文时,则“赖世雄”应在“作者” 字段中出现,“英语”应在“主题词”或“文摘”或 “篇名”中出现。然后再确定各个检索词之间的逻辑关 系。如本例中,赖世雄与英语的关系为逻辑与。 则该例的检索式为:
主要的截词算符
后截断(?或*) ?表示无限截断,如 combusti? 可检索到含有Combustible , combustion combustibility这些词的文献 每个同学根据自己专业举一例子?检索什 么样的文献可用(?或*)这样的截词算符 ?
不同的数据库采用的符号也不同,大部分 采用*表示前方一致,后面无限截断
举例:
课题一:采光原理在建筑设计中的应用
检索式:采光 AND 建筑 /题名、关键词、文摘
年鉴检索
检索2006年高等学校博士生硕士生授予学位 的人数
事实数据库
存储事实性信息。
中国大百科全书网络版
多媒体数据库
同时存储声音、图像、文字等的超文本信息。
检索式及其检索式制定
在检索过程中用于表达词于词之间的逻 辑关系的算符就称为布尔逻辑运算符。 分为三种逻辑关系: 逻辑与、逻辑或、逻辑非; “AND”、 “ OR”、 “ NOT”
英语/ab,ti,su and 赖世雄/au
输入检索式,限定检索条件,执行检索,分析检索结果。
精确检索或短语检索
检索符 “
”或{ }
用于检索固定短语或专有名词 在短语或专有名词前后加双引号,系统将其按
词组对待,不再将其分割按单词检索。
检索天津工业大学的所有老师、学生在2010年 被EI(工程索引)收录的文献,如何构造检索 式?
全文数据库
存储原始信息全文或主要部分的一种源数据库。
如期刊全文数据库、专利全文数据库、百科全书全
文数据库,用户使用某一词汇或短语,便可直接检 索出含有该词汇或短语的原始信息为主的一种数据 库。如各种统计数据库、科学技术数据库等。 数值数据库除了一般的检索功能外,还具有 准确数据运算功能、数据分析功能、图形处 理功能及对检索输出的数据进行排序和重新 组织等方面的功能。
“+”最低。
()>NOT>AND>OR
如: 信息OR情报 NOT 经济 (信息OR情报)NOT 经济 检索结果不同。
布尔逻辑的运算可以进行同类项的合并。 如:A*B+A*C=A*(B+C) 然而,在使用布尔逻辑时,必须注意 以下几条交换规则: A*B=B*A A+B=B+A A-B≠B-A
主要的位置算符 1、(W)n算符 (W)或W0------With,表示所要连接的 两词之间只能为一空格或算点符号, 且算符两侧的词序不得颠倒。 什么情况下用这个算符?
快速 准确地 获得结果
检索软件类型
指令型 通过直接输 入指令进行
菜单型
通过屏幕菜 单引导完成
检索
检索。
指令检索示例
“Solar energy” wn TI AND
english wn LA
工程索引EI专家检索
菜单检索示例
数据库
数据库定义
数据库结构
数据库类型
数据库定义
相互关联的数据在计算机外存储器上有 序的集合义人生观 B821.2(人生观、人生 哲学中除共产主义人生观外的那一部份)
A:人生观、人生哲学 B:共产主义人生观
A not B A-B
“优先级”问题
当布尔运算符在一个检索式中连续出现时,
它们的“级别”是不同的。一般的次序是:
“()”最高“-”优先级第二,“*”第三,
计算机检索的历史
1.脱机检索阶段(1954-1964)
2.联机检索阶段(1965-) 3.网络检索(1972-)
4.光盘检索(1985-)
5.最新发展
脱机检索:定期由专职检索人员把许多用