第三章 计算机检索基础知识
合集下载
第三章 计算机检索基础知识
1同一事物的学名俗名商品名学名俗名商品名乙醇酒精nacl计算机电脑聚二甲基硅氧烷硅油2同一事物的简称全称音译和意译简称全称音译意译wwwworldwidewebcadcomputeraideddesigninternet因特网互联网motor马达电动机laser镭射激光器3同一事物名称的反义词污水处理与水净化光洁度与粗糙度4同一事物名词的单复数不同词性英美语的不同形式单数复数名词动词computercomputerscompositioncompositecolourfibrecolorfiber5隐含概念扩展输出检索结果根据检索系统提供的检索结果输出格式选择需要的记录以及相应的字段全部字段或部分字段将结果显示在显示器屏幕上存储到磁盘或直接打印输出网络数据库检索系统还提供电子邮件发送至此完成整个检索过程
在利用计算机进行信息检索的早期,人们只是用单台计
算机的输入输出装置进行检索,用磁带作存储介质,一般为 连续的顺序检索方式。检索部门把许多用户的检索提问汇总
到一起,进行批量检索,然后把检索结果通知各个用户,用
户不直接接触计算机。
联机检索(on-line retrieval)
60年代末,由于计算机软硬件技术的不断提高,出现了一台主机带 多个终端的联机信息检索系统。联机检索是用户利用终端设备,通 过通信网络或通信线路与检索系统联机,进行“人机对话”,从检 索中心的数据库及时查找所需要的文献信息过程。 80年代,发达国家的一些计算机信息联机检索系统,通过卫星通信
在利用计算机进行信息检索的早期,人们只是用单台计
算机的输入输出装置进行检索,用磁带作存储介质,一般为 连续的顺序检索方式。检索部门把许多用户的检索提问汇总
到一起,进行批量检索,然后把检索结果通知各个用户,用
户不直接接触计算机。
联机检索(on-line retrieval)
60年代末,由于计算机软硬件技术的不断提高,出现了一台主机带 多个终端的联机信息检索系统。联机检索是用户利用终端设备,通 过通信网络或通信线路与检索系统联机,进行“人机对话”,从检 索中心的数据库及时查找所需要的文献信息过程。 80年代,发达国家的一些计算机信息联机检索系统,通过卫星通信
第三章计算机检索原理自动化
第一检索式结果为0
去掉热流固还是0
再去掉(变温+非等温)条件:47条。 可以在这里选择
再检索(变温+非等温)*(煤层+煤岩体)* (瓦斯+煤层气+煤气):18条
再去掉煤层:(等温+非等温) *(瓦斯
or 煤层气 or 煤气):63条,也可以
在老师的委托单中提到:煤基质收缩效 应(4条)、滑脱效应,分别检索一下
3.文献数据库简介
3.1 数据库的定义和类型
3.1.1 定义:按一定方式存储的相互关联的 数据集合。 它是检索工具的一种。 根据ISO/DIS5217号标准,数据库 至少要由一种文档组成。
3.1.2 数据库类型:
文献目录型数据库(bibliographic database). 也称为书目数据库或者目录 数据库,是二次文献数据库,包含文摘 数据库、题录数据库、索引数据库、各 国的MARC格式的图书目录。如 EI,SCIE等。
Patent
Japan
4.2 优先算符
优先算符用()表示,在含有多个 运算的检索式中,可以用()将需要优 先运算的部分括上,系统会优先运算() 中的部分,然后在按照not, and, or的顺 序进行运算。 如:S (fiber or fibre) and optical
4.3 截词符和屏蔽符
4.3.1. 截词符:用“?”或者“*”,不同 数据库有不同的规定 4.3.2 屏蔽符:“?”作为屏蔽符,加在单 词中间,可以代表1个字符的变化。如: wom?n, 表示women和woman。词中使 用几个屏蔽符,则代表有几个字符的变 化。有的数据库使用“#”
第三章计算机检索原理
Patent
Japan
4.2 优先算符
优先算符用()表示,在含有多个 运算的检索式中,可以用()将需要优 先运算的部分括上,系统会优先运算() 中的部分,然后在按照not, and, or的顺 序进行运算。 如:S (fiber or fibre) and optical
4.3 截词符和屏蔽符
4.3.1. 截词符:用“?”或者“*”,不同 数据库有不同的规定 4.3.2 屏蔽符:“?”作为屏蔽符,加在单 词中间,可以代表1个字符的变化。如: wom?n, 表示women和woman。词中使 用几个屏蔽符,则代表有几个字符的变 化。有的数据库使用“#”
以上是计算机中常用的位置算符,但并非 所有的系统都可用,不同的检索系统有其自己 的规定。
5.计算机检索策略的制定及调整
1. 概念的选取 (1)核心概念的选取: 变温条件下煤层损伤与瓦斯运移的热流固耦合模型 a.选取语言最小单位;b. 切分词(拆词);C.同义词、近义词 (2)发掘隐含概念: 石质文物的保护—石雕、石刻、石碑… (3)考虑同义词包括术语和俗称:
保护 conservation, preservation,protection
(铝矿 or 铝土矿 or 铝矿石 or 铝土矿石 or一水铝石型 铝土矿 or 一水硬铝石) (4)排除不必要的概念:使用专业数据库或通用词 (5)使用准确的代码:标准号、专利号、产品代码
计算机检索基础知识
了美国国防部的计算机实验网ARPANET而成为internet 的主干网,标志互联网时代的真正到来。进入互联网 时代,不但计算机及软件技术、数字化技术、信息存 贮技术、卫星通信和网络通信技术有了惊人的发展, 而且超文本技术、WWW技术、网络浏览等技术为信 息的存贮、传播、检索提供了极大的便利。各类文献 信息数据库纷纷进入通信网络,众多的局域网、城域 网、广域网通过万维网互联,网络上的任何一个终端 都可联机检索所有数据库的数据,使信息资源共享得 以实现。
12
.OCLC:联机计算机图书馆中心,是世界上最大 的为读者提供文献信息机构。有60个数据库, 提供会议录、工业通告、图书评论等信息。
DIALOG有900多个数据库,其中广泛使用的 有600多个,内容涉及多个学科领域,文献存 储量超过3亿篇。
13
4、网络检索
NFSnet(美国国家科学基金会网)于1990年彻底取代
A not (B OR C) A not B OR C
B A C
24
2、位置算符
位置逻辑符的作用是对复合检索词进行加工修饰,限定 词与词之间位置关系,可弥补布尔逻辑算符只是规定 检索词的范围,使检索结果的查准率提高。位置算符 常用的有6种。 (1)(W)算符——含义为“with”
表示两个检索词紧挨着,词序不能颠倒,中间不得插入其他词、 字母或代码,但允许有空格或标点符号,也可用()表示
文献信息检索 第三章
一、分析检索课题 1.了解用户情报需求的目的和意图 2.分析检索课题 了解用户情报需求的目的和意图。 1.了解用户情报需求的目的和意图。2.分析检索课题 的主题要求。3.时间要求 4.检索效果要求 5.检索 时间要求。 检索效果要求。 的主题要求。3.时间要求。4.检索效果要求。5.检索 费用及其它要求 二、选择检索系统和数据库 明确数据库收录的数量.类型. ① 明确数据库收录的数量.类型.存储年限和更新周 明确数据库所具有的独特性和交叉性。 ② 明确数据库所具有的独特性和交叉性。 明确数据库所提供的检索途径、 ③ 明确数据库所提供的检索途径、功能和服务方式 选择检索词,构造检索提问式, 三、选择检索词,构造检索提问式,确定检索策略 1.检索词的选择 2.检索提问式的构造 检索词的选择。 1.检索词的选择。2.检索提问式的构造
二、计算机信息检索技术-2
② 逻辑“或” 逻辑“或”用“or”或“+”表示,两个检索词用“or” 或“+”相连,表示被检中的文献有二者之一或包 含两词。A+B, A or B 例如:文献or信息
A
B
二、计算机信息检索技术-3
③ 逻辑“非” 逻辑“非”用“not”或“-”表示,两个检索词用 “not”或“-”相连,表示被检中的文献有包含有 前者但不能有后者。A NOT B, A-B motercar NOT tractor 例如:电视台-中央电视台
二、计算机信息检索技术-2
② 逻辑“或” 逻辑“或”用“or”或“+”表示,两个检索词用“or” 或“+”相连,表示被检中的文献有二者之一或包 含两词。A+B, A or B 例如:文献or信息
A
B
二、计算机信息检索技术-3
③ 逻辑“非” 逻辑“非”用“not”或“-”表示,两个检索词用 “not”或“-”相连,表示被检中的文献有包含有 前者但不能有后者。A NOT B, A-B motercar NOT tractor 例如:电视台-中央电视台
第三章 计算机检索基础知识
第三章 计算机检索基础知识
中国民航大学图书馆
狭义
以计算机为检索手段,从计算机信 息系统中查检所需信息的过程。 广义 计算机检索应该包括信息的存储和 检索两个方面 。
(1)构成 从整体上将,计算机检索系统由硬件、 软件和数据库三部分构成。 硬件设备 :服务器、检索终端、网络通信 设备、辅助设备等 软件设备 :系统软件、应用软件 数据库 :由一系列信息记录组成
练习:玻璃纤维增强石膏制品的力学性能研究 主要概念: 概念组面1:玻璃纤维 polycarbafil, fiberglass, glass-fiber, glass-fibre 概念组面2:石膏 oulopholite, maria glass, gyp, gypsum 概念组面3:力学 mechanism, mechanical
举例:
课题名称一:集散控制在监控系统中的应用
检索式:集散控制*监控系统*应用/题目、关键词、文摘 或 集散控制*监控系统/题目,关键词,文摘
课题名称二:信息编码与压缩技术
检索式:信息编码 and 压缩技术/ 题目,关键词,文摘
课题名称三: 查找作者是蒋立辉关于激光的文献 检索式: 蒋立辉/作者 and 激光/ 题目
1同一事物的学名俗名商品名学名?nacl?nacl盐?计算机?聚二甲基硅氧烷乙醇俗名盐电脑商品名硅油酒精?2同一事物的简称全称音译和意译简称全称wwwworldwidewebcadcomputeraideddesigninternet因特网motor马达laser镭射3同一事物名称的反义词污水处理与水净化音译意译???互联网电动机激光激光器?镭射??光洁度与粗糙度4同一事物名词的单复数不同词性英美语的不同形式单数复数computercomputerscompositioncomposite英拼colourfibre美拼lfib?美拼colorfiber5隐含概念扩展隐含概念是显见主题的更确切的表达
中国民航大学图书馆
狭义
以计算机为检索手段,从计算机信 息系统中查检所需信息的过程。 广义 计算机检索应该包括信息的存储和 检索两个方面 。
(1)构成 从整体上将,计算机检索系统由硬件、 软件和数据库三部分构成。 硬件设备 :服务器、检索终端、网络通信 设备、辅助设备等 软件设备 :系统软件、应用软件 数据库 :由一系列信息记录组成
练习:玻璃纤维增强石膏制品的力学性能研究 主要概念: 概念组面1:玻璃纤维 polycarbafil, fiberglass, glass-fiber, glass-fibre 概念组面2:石膏 oulopholite, maria glass, gyp, gypsum 概念组面3:力学 mechanism, mechanical
举例:
课题名称一:集散控制在监控系统中的应用
检索式:集散控制*监控系统*应用/题目、关键词、文摘 或 集散控制*监控系统/题目,关键词,文摘
课题名称二:信息编码与压缩技术
检索式:信息编码 and 压缩技术/ 题目,关键词,文摘
课题名称三: 查找作者是蒋立辉关于激光的文献 检索式: 蒋立辉/作者 and 激光/ 题目
1同一事物的学名俗名商品名学名?nacl?nacl盐?计算机?聚二甲基硅氧烷乙醇俗名盐电脑商品名硅油酒精?2同一事物的简称全称音译和意译简称全称wwwworldwidewebcadcomputeraideddesigninternet因特网motor马达laser镭射3同一事物名称的反义词污水处理与水净化音译意译???互联网电动机激光激光器?镭射??光洁度与粗糙度4同一事物名词的单复数不同词性英美语的不同形式单数复数computercomputerscompositioncomposite英拼colourfibre美拼lfib?美拼colorfiber5隐含概念扩展隐含概念是显见主题的更确切的表达
第三章 计算机检索
1、数据库分类
根据数据库中存储的内容,分为5 根据数据库中存储的内容,分为5种:
书目型---文献线索 书目型---文献线索 --事实型---科学事实 事实型---科学事实 --数值型---各种数据 数值型---各种数据 --全文型---原始文献的全文 全文型---原始文献的全文 --图像型---图像、 图像型---图像、图片 ---图像
文章号唯一, 文章号唯一,且 索引文档与主文 档的文章号一一 对应
索引文档1 索引文档1: 篇名索引 篇名索引
索引文档2 索引文档2: 作者索引 作者索引
文章号
篇名 asd bys vca
作者 Li Wang deng
文摘 Xxx Yyy zzz
全文 …….. …….. ……..
当你要在篇名中查找时, 当你要在篇名中查找时, 搜索指令将在篇名索引 中进行搜索, 中进行搜索,然后将主 文档中对应的记录调出 来
光盘信息检索系统:数据存储在光盘( 光盘信息检索系统:数据存储在光盘(一种用激光记录 和读取信息的盘片),通过检索软件, 和读取信息的盘片),通过检索软件,利用计算机和光 ),通过检索软件 盘驱动器进行检索。可形成光盘检索网络。 盘驱动器进行检索。可形成光盘检索网络。
网络化(internet)信息检索系统: 网络化(internet)信息检索系统:同联机检索系统的主 信息检索系统 机和用户终端的主从关系不同,客户机和服务器是对等 机和用户终端的主从关系不同, 的关系
03 计算机信息检索基础知识
3. 检索技术
(1)布尔检索
用布尔逻辑算符来表达检索词间的逻辑组配关系
与
或
非
“与”—逐步减少检出文献的数量,提高检出文献与检索要求 的相关性,提高查准率。(A and B) (A * B) “或”—扩大检索的范围,提高文献的检出数量,防止漏检, 提高查全率。(A or B) (A + B) “非”—使用较少,减少文献输出量,提高检索 词的准确性。 (A not B) (A - B)
后方一致:
即将检索词的词头部分截断,*词根,左截断,是较 常用的截词方式。
如:*computer = minicomputer, microcomputer
中间一致:
将字根左右词头、词尾部分同时截断,*词根*
如:*computer* = minicomputer, microcomputer, computers, mincomputers
思考题
1. 布尔逻辑算符的功能及使用。
2. 截词符号的使用。
前方一致:
ቤተ መጻሕፍቲ ባይዱ
将截词符放在词根后面,词根*,右截断。是最常用的截
词方式。
Smith, A* = Smith, A. OR Smith, A. J. OR Smith, Alan J. Social* = social, socialist, socialistic, sociality Computer* = computer, computers
第三章 信息检索原理与技术
T
TB一般工业技术 一般工业技术 TD矿业工程 矿业工程 TE石油 石油 TF冶金工业 冶金工业 TG金属学、金属工艺 金属学、 金属学 TH机械、仪表工艺 机械、 机械 TJ武器工业 武器工业 TK动力工程 动力工程 TL原子能技术 TP1自动化基础理论 TP31程序设计 原子能技术 自动化基础理论 程序设计 TM电工技术 电工技术 TP2自动化技术及设备 TP32一般计算机和计算器 自动化技术及设备 一般计算机和计算器 TN无线电电子学 无线电电子学 TP3计算机 TP33电子数字计算机 计算机 电子数字计算机 电讯技术 TP34电子模拟计算机 射流技术 电子模拟计算机 TP自动化技术 TP6射流技术 自动化技术 TP7遥感技术 TP35混合电子计算机 遥感技术 混合电子计算机 计算技术 TQ化学工业 化学工业 TP8运动技术 TP36小型、微型、台式计算机 小型、 运动技术 小型 微型、 TS轻工业、手工业 轻工业、 轻工业 TP38其他计算机 其他计算机 TU建筑科学 建筑科学 TP39计算机应用 计算机应用 TV水利工程 水利工程
A B C D E F G H I
马克思主义、列宁主义、毛泽东思想、 马克思主义、列宁主义、毛泽东思想、邓小平理论 哲学、宗教 哲学、 社会科学总论 政治、 政治、法律 军事 经济 社会科学 文化、科学、教育、体育 文化、科学、教育、 语言、 语言、文字 文学、 文学、艺术
计算机检索基础知识(3)
不同检索式结果比较
All fields字段输入:
Search Engine and User Behavior Analysis 命中:379
Search Engine* and Use* Behavior Analysis* 命中:1049
Search Engine and User Behavior 命中:1140
5.计算机信息检索策略的制定与调整
(1)分析检索课题,明确检索需求。 (2)选择数据库。 (3)确定检索标识,选择检索项。 (4)编写检索提问式。 (5)实施检索并调整检索策略。 (6)输出检索结果。
分析课题——确定检索词和检索词之间的关系
1 课题涉及的概念分析 2 关键词的提取与扩展
例: 神经网络在旋转机械故障诊断中的应用研究 1.本课题包含“神经网络” “旋转机械” “故障诊断”三个概 念,“应用”和“研究”属于意义过于宽泛的词,不应该作为检索词。 2.扩展 神经网络:相关的上位词有人工智能 旋转机械 故障诊断:相关词有故障定位、故障检测,上位词有容错技术 3.检索式: (神经网络OR人工智能)AND(旋转机械)AND (故障诊断OR故障定位OR 故障检测OR容错技术)
判断题——提问1
逻辑“与”算符是用来组配( )。 A.不同检索概念,用于扩大检索范围 B.相近检索概念,扩大检索范围 C.不同检索概念,用于缩小检索范围 D.相近检索概念,缩小检索范围
信息检索与实践第3章 计算机检索基础
4.网络信息检索
20世纪90年代初至今为网络化检索阶 段。 网络信息检索是指以网络为媒介,利 用网上已提供的一些信息检索工具,实现 对信息提问的检索查询,最终在Internet上 查找到所需的信息资源。
3.2 计算机信息检索的基本方法与策略
3.2.1 计算机检索的基本方法
1.布尔逻辑检索
逻辑检索是一种开发比较早、比较成 熟、在计算机信息检索系统中广泛应用的 技术,它是采用布尔关系运算符来表达检 索词与检索词之间逻辑关系的检索方法, 即用布尔运算符(and / AND、or / OR、 not / NOT)或直接用符号如“&”(and ),“|”(or),“!”(not)进行逻 辑运算。
(2)在确定检索用词时,检索词的数量和专 指度要合适,主次分明。一般优先选取规范 词,如主题词、分类代码、国家或地区代码 等,其次再选用关键词和适当使用一些自然 语言词语。目前联机系统和光盘检索系统一 般都要求使用系统特定的词表,而绝大多数 网络信息检索工具都支持自然语言词表。
(3)可以随时根据检索需要,调整检索词,灵 活使用多义词、同义词、近义词等。扩大检索 范围时,尽量选择概念或者词组;如果想缩小 检索范围,则选择专指性强、特定的概念或专 业术语,避免使用普通词或多义词。
3.光盘信息检索
这一阶段发生的重大事件如下。 1985年,美国数字设备公司(Digital Equipment Corporation ,DEC)将CDROM作为微型计算机的系统组件投放市场, 把光盘与计算机结合起来,为光盘检索的发 展提供了基础。
计算机检索基本知识(一)
点击单库名称,就会进入到该库的检索结果
【技术】二次检索
二次检索,又称为在结果内检索,可以充分弥补 简单检索返回结果过多的弊病 是缩检的有利手段 适合整理我们的检索思路 是否拥有有效的二次检索,是判断一个数据库质 量的标准之一
二次检索技术可以使我们在简单检 索中实现多个检索词进行检索。
2、 高级检索 高级检索,提供多个检索入口,支持逻辑 组配
(1)逻辑与:一般用and或 *表示
是一种用于交叉概念和限定关系的组配 它可以缩小减缩范围,有利于提高查准率 凡是用AND的检索式,AND两侧的检索词 必须同时出现在同一条记录中,该记录才 算命中
A
B
A与B
(2)逻辑或:一般用or或 +表示,少数数据库用 | 表示
是一种用于并列关系的组配 它可以扩大检索范围,防止漏检,有利于 提高查全率 凡是用OR的检索式,OR两侧的检索词只 要有一个在一条记录中出现,该记录就算 命中
我馆数据库按文献类型划分:
期刊论文数据库
中国期刊全文 人大复印资料 大成老旧刊全文数据库 ScienceDirect EBSCO教育心理数据库 Wiley Online Library SAGE Journals Online SpringerLink AIP & APS期刊全文数据库 数学评论期刊全文库 IOP期刊全文、 国道特色数据库 中国优秀博士学位论文 河北师范大学学位论文 中国优秀硕士学位论文
第三章计算机检索原理
数据库的字段可分为基本字段和辅助字段: 基本字段主要是描述文献内容特征的字段,如篇名 、文 摘、叙词、自由标引词等字段; 辅助字段主要是描述文献外表特征的字段,如著者 、机 构名称、语种、文献来源等字段。
ERIC Database 记录格式
文献数据库常见字段和段码表
基本字段
段码名称
题名 文摘 叙词 标示词
标引与著录 所谓“标引”,就是指对信息内容特征进行分析, 赋予信息以检索标识的过程。标引一般包括主题标引 和分类标引。 所谓“著录”,就是对信息外部特征(如文献的篇名 、著者、出处、出版时间等)进行分析、选择与记录 的过程。 对信息内容特征进行标引和对信息外部特征进 行著录,形成一条信息题录,并根据信息内容作出摘 要,然后将上述检索标识与著录项目一并填入工作单 ,就完成了数据库建设的“数据前处理”工作。
英文段码简称
DN AU CS JN PY CO TR LA SO DT CC
数字对象唯一标识符(DOI)
DOI- Digital Object Unique Identifier
国外的数字文献生产商较早采用唯一标识符来标识其出版的电 子文献,并形成了很多应用在不同环境下的标识符方案。 相对于这些唯一标识符,美国出版协会(The Association of America Publishers, 简称AAP)建立的DOI在技术上比较成 熟。它主要是针对因特网环境下如何对知识产权进行有效的保 护和管理而产生的。 目前国外Elsevier、Blackwell、John Wiley、Springer等大 型出版商大多使用DOI对数字资源进行标识,形成了比较完整 的命名、申请、注册、变更等管理机制,DOI的解析系统发展 也比较成熟。在此基础上,一些生产商相继推出各种与DOI相 关的增值服务。例如CrossRef Search结合Google检索技术与 DOI系统的定位服务,实现了CrossRef Search检索结果到生 产商全文之间持久、有效的链接。
信息检索 第三章 计算机检索基础知识
信息源
筛选信息
概念分析
检索的原理
概念转换成系统语言
信息数据库
存储 检索
检索系统 概念转换成系统语言 检 索 策 略
信息用户
需求分析
概念分析
二、计算机检索系统构成
利用计算机的有效存贮和快速查找能力 来进行信息的分析、组织、存贮和查找 的系统。
包括硬件部分、软件部分、数据库和通 信网络。
1、硬件部分:
以特定的组织方式将计算机中的相互关联的 数据集合存储的总汇,将各种数据中的信息单元 经过有序处理、组织,可以按通常的方法进行检 索。
包括:参考数据库、源数据库、混合 型数据库
ห้องสมุดไป่ตู้
4、通信网络
计算机信息传输网络,各网络 节点之间通过电信线路、通信卫星 或光缆电视技术等进行连接,构成 庞大的信息检索网络,保证信息之 间的畅通传输。
3、优点:
速度快,效率高(CA、BA等尚在印刷中就已输入数 据库了);
检索途径多(除了主题、著者、分类外,还有出 版年、著者单位、文献类型、特征词等);
用户界面友好,使用方便(可对任意个检索词进 行逻辑组配,并且进行自动扩检); 资源更新快(网上资源可以每日更新);
直接输出检索结果(打印或拷贝);
各类计算机检索的比较 以上综合讨论三种检索类型的特点和功能,现对它们在 服务的主要方面进行比较,Web版联机检索从信息量的存储和 数据更新及通讯方式等方面具有更强的优势,传统的联机数 据库将更多的以Web版方式放到Internet网上。
计算机检索基础(3).
是用来组配具有同义或同族概念的词。如:检索提问式: “A OR B”或“A + B”其含义:是数据库记录中任何一条 记录,只要含有“A”或“B”中任何一个检索词即为命中的 文献。 “OR”的作用是扩大检索范围, 增加命中文献量,提高文献的 A B 查全率。 C 如: “微机 + 电脑 + PC机+计算机”、 “微机 or 电脑 or PC机 or 计算机” A or B
快速 准确地 获得结果
检索软件类型
指令型 通过直接输 入指令进行
菜单型
通过屏幕菜 单引导完成
检索
检索。
指令检索示例
“Solar energy” wn TI AND
english wn LA
工程索引EI专家检索
菜单检索示例
数据库
数据库定义
数据库结构
数据库类型
数据库定义
相互关联的数据在计算机外存储器上有 序的集合.
数据库类型
文 献 数 据 库
数 值 数 据 库
事 实 数 据 库
多 媒 体 数 据 库
文献数据库
书 目 数 据 库
全 文 数 据 库
书目数据库
存储描述如目录、题录、文摘等书目线索的数 据库,又称二次文献信息数据库。如各种图书馆目 录数据库、题录数据库和文摘数据库等属于此类, 它的作用是为用户指出了获取原始信息的线索。 如:馆藏书目,SCI,EI,CPCI等
快速 准确地 获得结果
检索软件类型
指令型 通过直接输 入指令进行
菜单型
通过屏幕菜 单引导完成
检索
检索。
指令检索示例
“Solar energy” wn TI AND
english wn LA
工程索引EI专家检索
菜单检索示例
数据库
数据库定义
数据库结构
数据库类型
数据库定义
相互关联的数据在计算机外存储器上有 序的集合.
数据库类型
文 献 数 据 库
数 值 数 据 库
事 实 数 据 库
多 媒 体 数 据 库
文献数据库
书 目 数 据 库
全 文 数 据 库
书目数据库
存储描述如目录、题录、文摘等书目线索的数 据库,又称二次文献信息数据库。如各种图书馆目 录数据库、题录数据库和文摘数据库等属于此类, 它的作用是为用户指出了获取原始信息的线索。 如:馆藏书目,SCI,EI,CPCI等
计算机检索基础3
• 运算顺序
1.布尔逻辑检索技术
1.1逻辑“与” • 运算符:AND 或 * 用于交叉概念或限定关系的组配,实现检 索词概念范围的交集。 检出同时含有检
表达式: A and B 或 A*B
And两侧的检索 词必须同时出现 在检索结果中
索词A和检索词B 的记录
A
B
1.布尔逻辑检索技术
1.1逻辑“与” •作用 缩小检索范围,提高查准率。 •举例 检索“人口控制”或者“控制人口”方面 的文献信息。 人口 and 控制 家用电器 AND 国产
计算机信息检索技术
三、数据库的构成
1 数据库的定义
数据库就是在计算机存储设备上按一定方 式存储的相互关联的数据集合。(顺排文档, 倒排文档)
计算机信息检索技术
顺排文档
图书馆馆藏书目示例
序号 书名 著者 索书号 出版社
1 2 3 4
计算机信息检索技术
计算机信息检索技术
六、信息检索技术
wk.baidu.com
信息检索技术是指计算机检索系统,检 索有关信息而采用的相关技术。
• 实质 截词检索就是用截词符号将检索词截断,用 检索词的片段进行匹配运算。
• 注意 在截断时,截断的词干不能太短,词干一般 应在3个字符以上,以免增加检索时间,产 生误检。
3.截词检索技术
– 按截词的位置 右(后)截断、左截断、中间截断
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(nW)算符: “n words”的缩写,表示在此运算符两侧的检索词 之间允许插入不多于n个的单词(或汉字),两个 检索词的次序不允许改变。 例:anticorrosion (1W) paint 可检出
anticorrosion paint 和 anticorrosion of paint
例:communication (2W) satellite 可检出
③希望查找两个或两个以上带有专业术语或者名词 性质、词序位置固定词组的场合可以使用(W)、双 引号“ ”、{ } 等。 例如:glass(W)fiber 表示glassfiber “William, B”(人名) “optical telecommunication”(术语) “Institute of Theoretical Physics”(机构名) {shanghai university}表示上海大学
1. 2. 3. 4. 5.
提高检索词的专指度,找出一些检索词的下位词或 专指性较强的相关词; 增加概念组面,用“AND”连接一些进一步限定主 题概念的相关检索项; 限制检索词出现的可检字段; 利用文献外表特征限制,如:文献类型、出版年代、 语种、作者等; 用逻辑非“NOT”来排除一些无关的检索项。
②(N)算符:是near 的缩写,表示在此运算符(N)两 侧的检索词彼此相邻,两个检索词之间允许有一 个空格、一个标点符号或一个连接号,两检索词 次序可以颠倒。
例: cross (N) section 检出 cross section 和 section cross
(nN)算符:是从(N)算符引伸出来,表示在此运算 符两侧的检索词之间允许插n个单词(或汉字), 两个检索词的次序可以改变。 例:computer (2N) system 检出 computer system, computer code system, computer aided design system, system using modern computer
(Child or children) and lung cancer
(2)截词检索
用给定的词干做检索词,查找含有该词干的全部 检索词的记录,也称词干检索或字符屏蔽检索。 在不同的检索系统中,对截词符号有不同的表示, 有的使用“?”,有的使用“*”,还有使用“$”、 “!”、“#”等。
从本质上说,截词算符是一种逻辑“或”的关系。
举例:
课题名称一:集散控制在监控系统中的应用
检索式:集散控制*监控系统*应用/题目、关键词、文摘 或 集散控制*监控系统/题目,关键词,文摘
课题名称二:信息编码与压缩技术
检索式:信息编码 and 压缩技术/ 题目,关键词,文摘
课题名称三: 查找作者是蒋立辉关于激光的文献 检索式: 蒋立辉/作者 and 激光/ 题目
1. 2. 3. 4.
5.
在实践中,需要根据课题的具体要求,合理 调节查全率和查准率,保证检索效果相对较优。 通常采用以下方法进行调节: 若要提高查全率,进行扩检,可按如下方法 调整检索: 选全同义词并以“OR”方式与原词连接后加入到 检索式中; 降低检索词的专指度,找出一些检索词的上位词 或相关词; 采用分类号进行检索; 删除某个不甚重要的概念组面,减少“AND”运 算; 取消某些过严的限制符,如字段限制符等。
下位词: 下位概念扩展法:概念分析的树形展开法 如:汽车 卡车 轿车 货车等
所有图书馆用户能够在校外使用天津高校文献信息 中心的电子资源,比如超星电子图书、维普期刊全文数据 库、EBSCO电子期刊等。 IP通远程访问系统已开通 IP通用户登录方法: 首先要确保您使用的网络是非教育网。 WEB方式用户请登录 http://iptong.tjdl.cn/ 客户端软件用户请登录 iptong.tjdl.cn
communication satellite, communication though satellite, communication on the satellite
例:检索“材料磨损”(WEAR OF MATERIALS)方 面的文献 检索式表达为: WEAR (1W) MATERIALS
截词检索
邻近检索 限制检索 加权检索 检索词的确定
检索式的制定
(Boolean searching)
AND:A AND B 检出记录中同时含有检索词A和检索词B
OR:A OR B 检出记录中含有检索词A或检索词B的文献
NOT:A NOT B 在含检索词A的记录中, 去掉含检索词B的记录
优先级运算 ()>NOT>AND>OR
(Polycarbafil OR fiberglass OR glass(W)fib*) AND (oulopholite OR maria(W)glass OR gyp*) AND mechani*
S1 Polycarbafil OR fiberglass OR glass(W)fib* S2 oulopholite OR maria(W)glass OR gyp* S3 mechani* S4 S1 AND S2 S5 S4 AND S3 当检索结果为0时,可发现每步检索策略所得 记录数,以便进一步调整检索策略。
①后截词检索:也叫前方一致检索、后截断检索。 即把截词符号置于截词的右方,表示其右边截 去有限或无限个词,数据中只要有与截词符前 边部分一致的文献,即为命中文献。 例如:comput?
例如:comput???
例如:防火纤维 防火(fireproof或fireproofing) 纤维(fiber或fibers或fibre或fibres)
第三章 计算机检索基础知识
中国民航大学图书馆
Leabharlann Baidu 狭义
以计算机为检索手段,从计算机信 息系统中查检所需信息的过程。 广义 计算机检索应该包括信息的存储和 检索两个方面 。
(1)构成 从整体上将,计算机检索系统由硬件、 软件和数据库三部分构成。 硬件设备 :服务器、检索终端、网络通信 设备、辅助设备等 软件设备 :系统软件、应用软件 数据库 :由一系列信息记录组成
4.检索策略及构造 检索时所用到的词称为检索词。选择检 索词时应注意以下问题:
1、选择能代表本课题技术特征的、具有实 质意义的词。这些词应为专业通用词、惯用 词和术语。
2、注意同义词(包括缩写)、词的英美式 不同拼写及不同词性的词。这些词之间的关 系均为“或”。如上部分所举的例子。
3、限定检索条件,如年份、语种、文献类 型等。 4、限定检索字段,如著者 、文摘、篇名、 主题词、机构名称、分类号、刊名等。
练习:玻璃纤维增强石膏制品的力学性能研究 主要概念: 概念组面1:玻璃纤维 polycarbafil, fiberglass, glass-fiber, glass-fibre 概念组面2:石膏 oulopholite, maria glass, gyp, gypsum 概念组面3:力学 mechanism, mechanical
检索式的制定
数据库由大量的纪录组成。每一条纪录 由若干个字段组成。字段有篇名(ti)、作 者(au)、文献来源(so)、文摘(ab)、主题 词(su)、文种(la)、专利号(pn)、分类号 (cl)等。
在用数据库检索时,检索式的制定是一个 关键。应考虑检索词在哪个字段中出现。比如, 查找D. Dutta关于膜技术发表的论文时,则 “D.Dutta ”应在“作者”字段中出现,“膜 (membrane)”应在“主题词”或“文摘”或 “篇名”中出现。然后再确定各个检索词之间 的逻辑关系。如本例中, D. Dutta与膜的关 系为逻辑与。则该例的检索策略为: Membrane/ab,ti,su and Dutta,D/au
②前截词检索:也叫后方一致检索,前截断检索。 前截词与后截词相反,即把借词符号置于需截词的 左方,表示其左边截去有限或无限个词,数据库中 只要有与截词符后面部分一致的文献,即为命中文 献。 例如:?physics ③中截词检索:又称“内嵌字符检索”、中截断。 即把截词符号置于检索词的中间,检索到的是词首 和词尾部分与检索词一致的文献。中截词检索一般 只允许有限截断。。 例如: analy?er
(4)同一事物名词的单复数、不同词性、英美语的不 同形式 单数 复数 名词 动词 computer computers composition composite 英拼 colour fibre 美拼 color fiber (5)隐含概念扩展 隐含概念是显见主题的更确切的表达。 “一个取代高残杀菌剂的理想品种” 隐含了“高效低毒杀菌剂”或“高效低毒农药”
是运用位置运算符进行检索的一种方法。 位置运算符是用于指名检索词在记录中的位 置关系的符号,使用位置运算符可用于规定 检索词在检索结果中的相对位置,以提高查 全率和查准率。 不同的数据库使用的位置算符有所不同, 主要是(W)与(nW)、(N)与(nN)。
①(W)算符: “With”的缩写表示在此运算符两侧的检索词 按前后衔接的顺序排列,次序不许颠倒,而且 两词之间不许有其他的词或者字母出现,但允 许有一个空格、一个标点符号或一个连接号。 例: CD(W)ROM 检出 CD ROM 或 CD-ROM 例:solar ( ) energy 检出 solar energy 例:communication (W) satellite 检出 communication satellite
上位词: 白炽灯 谷氨酸
上位概念:电灯 上位概念:氨基酸
相关词: (1)同一事物的学名、俗名、商品名 学名 俗名 商品名 NaCl 盐 计算机 电脑 聚二甲基硅氧烷 硅油 乙醇 酒精
(2)同一事物的简称、全称、音译和意译 简称 全称 音译 意译 www world wide web CAD computer aided design internet 因特网 互联网 motor 马达 电动机 laser 镭射 激光器 (3)同一事物名称的反义词 污水处理与水净化 光洁度与粗糙度
(2)类型 ①按系统存储的信息内容划分 1. 文献检索系统 2. 事实型检索系统 3. 数值型检索系统 4. 图像检索系统 5. 多媒体检索系统
(2)类型 ②按照检索系统的工作方式划分 1. 脱机检索系统 2. 联机检索系统 3. 光盘检索系统 4. 网络检索系统
布尔逻辑检索