03第三章 检索技术
第三章 计算机检索基础知识

算机的输入输出装置进行检索,用磁带作存储介质,一般为 连续的顺序检索方式。检索部门把许多用户的检索提问汇总
到一起,进行批量检索,然后把检索结果通知各个用户,用
户不直接接触计算机。
联机检索(on-line retrieval)
60年代末,由于计算机软硬件技术的不断提高,出现了一台主机带 多个终端的联机信息检索系统。联机检索是用户利用终端设备,通 过通信网络或通信线路与检索系统联机,进行“人机对话”,从检 索中心的数据库及时查找所需要的文献信息过程。 80年代,发达国家的一些计算机信息联机检索系统,通过卫星通信
注意:这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。不同的检 索系统其位置算符的表示方法不尽相同。
截词检索
截词检索就是把检索词截断,取其中的一部分,在加
上截词符号一起进行检索。
• 主要用于检索词的单复数、词性的词尾变化、词根相同的一类词, 以及同一词的拼法变异等。 • 从本质上说,截词算符是一种逻辑“或”的关系。
对信息内容特征进行标引和对信息外部特征进行著录,形成 一条信息题录,并根据信息内容作出摘要,然后将上述检索标识 与著录项目一并填入工作单,就完成了数据库建设的“数据前处 理”工作。
数据库及其编排结构
• 数据库的类型
• 数据库的构成 • 数据库的记录格式 • 数据库的编排结构
数据库的类型
按照信息处理层次划分:
A AND B:检索词A和检索词B同时出现在一条记录中。 • 其作用是缩小检索范围,提高查准率。
例如:查有关“人口控制”的文献,检索式可写成: 人口 AND 控制
逻辑或(OR)
A OR B:记录中出现检索词A或检索词B或两词同时出现 在一条记录中。 • 其作用是扩大检索范围,提高查全率。
第三章 信息检索的基本知识

1、逻辑“或”(和) 、逻辑“
————————————————— A
B
用符号“ 或 表示, 用符号“or”或“+”表示,其逻辑表达式为: 表示 其逻辑表达式为: A or B 或 A+B 其意义为检索记录中凡含有检索词A或检索词 , 其意义为检索记录中凡含有检索词 或检索词B, 或检索词 或同时含有检索词A和 的 均为命中文献。 或同时含有检索词 和B的,均为命中文献。
分 析 课 题
检索词: 检索词: : :
富营养化(水华), ),处理 富营养化(水华),处理 治理,修复), ),湖泊 (治理,修复),湖泊
ቤተ መጻሕፍቲ ባይዱ
, ,
,
检索工具: 检索工具:
1. 2. 3. 4. 5. 6. 7. 8. 中文科技期刊全文数据库(维普) 1989中文科技期刊全文数据库(维普) 1989-现在 中国科技成果数据库(万方) 1986中国科技成果数据库(万方) 1986-现在 中国期刊全文数据库(同方) 1979中国期刊全文数据库(同方) 1979-现在 中国优秀博硕士学位论文全文数据库(同方)1999中国优秀博硕士学位论文全文数据库(同方)1999-现在 中国学位论文文摘数据库(万方) 1989中国学位论文文摘数据库(万方) 1989-现在 中国学术会议论文全文数据库(万方) 1995中国学术会议论文全文数据库(万方) 1995-现在 中国重要会议论文全文数据库(同方) 2000中国重要会议论文全文数据库(同方) 2000-现在 中国重大科技成果数据库(万方) 1990中国重大科技成果数据库(万方) 1990-现在
中图分类法
中图法》 个基本部类, 《中图法》分 5个基本部类,将知识门类分为 哲学” 社会科学” 自然科学” “哲学”、“社会科学”、“自然科学”三大部 马克思主义、列宁主义、 类。马克思主义、列宁主义、毛泽东思想是指导 我们思想的理论基础,作为一个基本部类, 我们思想的理论基础,作为一个基本部类,列于 首位。此外,考虑到图书本身的特点, 首位。此外,考虑到图书本身的特点,对于一些 内容庞杂,类无专属, 内容庞杂,类无专属,无法按某一学科内容性质 分类的图书,概括为“综合性图书” 分类的图书,概括为“综合性图书”,作为一个 基本部类,置于最后。 22个大 基本部类,置于最后。在此基础上扩展为 22个大 类。 标记符号采用拉丁字母与阿拉伯数字相结合的混 合号码制。 合号码制。
第三章 文献检索技术

倒查法:近→远
特点:节省时间,检索效率较高;查全率较顺查法低 适用条件:新兴研究课题或了解学科发展动向等的查检
抽查法:针对学科特点,抓住该学科发展迅速、文献 发表较多的一段时间逐年检索的方法。
特点:检索效率高;查全率低 适用条件:在熟悉学科发展特点的前提下使用
2014-5-26
2
1.2 追溯法:以参考文献为线索
2014-5-26 6
参见(see also)项参照:是指示内容相关的标 目或款目的一种,可以将读者指向哪些按理不能 集中在一个标目下的相关材料,主要用于以下几 种情况:
具有属种关系的词之间:玉米参见马齿玉米、硬玉米、 甜玉米 具有整体与部分关系的词之间:白血球参见血液 具有语义交叉关系或相关关系的词之间:病毒参见疾病
2014-5-26 11
注意: a1 国外发表的原始文献的著者姓名,习惯是名在前,姓在
后;绝大多数的检索工具的题录和著者索引中,著者姓 名的著录是姓在前,名在后。故在利用检索工具进行检 索时,需要将名与姓倒置后才能检索。
a2
姓名中包含有前缀Mc或M者,作为Mac来排列;前缀 为De、Des、Du、La、Le、Van、Von、Vanden等 的姓名,将它和姓当作一个整体来排列,词中的空格 (前缀和姓之间有空格)和字母大小均不受影响其在索 引中的位置。
特点:检索效率低,查全率低,且查到的文献较旧 适用条件:检索工具不足时
1.3 综合法(分段法、循环法、交替法): 是检索工具法和追溯法交替使用的一种方 法。5年/循环
特点:检索效率较高;查全率不高
1.4 浏览法(直接检索法)
特点:盲目性较强 适用条件:用于查找新近发表的文献
2014-5-26 3
2文献检索途径
第三章 信息检索教程

举例:期刊2
23
期刊著录格式
24
期刊的著录
写出下面期刊文献著录:
25
小节练习1
1. 什么是文献著录? 2.文献著录的结果是—— 3. 既著录主要项目,还著录全部选择项目的著录级次称为—— 4. 既著录主要项目,还著录部分选择项目的著录级次称为——
26
3.2 机读目录与元数据
3.2.1 机读目录
43
3.2.3 都柏林核心元数据和机读目录的比较
1. 著录的对象不同
DC与 MARC的 3. 著录的主体不同 比较 4. 著录的详简程度不同
5. 标识的方法不同
2. 数据的形式不同
44
小节练习2
1、什么是机读目录,一条CNMARC机读目 录的组成? 2、头标区数据元素: 00123cbm1#2200277###52## 其中c、b、m、1分别表示什么? 3、什么是元数据?
12
图书的著录(参考文献著录规则)
13
14
图书著录中的文献类型标志
常用文献类型用单字母标识,具体如下: (1)期刊[J](journal) (2)专著[M](monograph) (3)论文集[C](collected papers) (4)学位论文[D](dissertation) (5)专利[P](patent) (6)技术标准[S](standardization) (7)报纸[N](newspaper article) (8)科技报告[R](report)
CNMARC记录
记录头标区
地址目次区
数据字段区
记录分隔符
注:各字段数据元素及其标准详细情况参见教材P83-87
33
ISO-2709的机读目录标准
-第三章-OPAC检索与利用

信息部:为读者提供文献检索、古籍阅览、电子文献阅览 及文献传递、代查代检、定题服务等形式的服务。
综合部:承担图书馆计算机管理系统、网站建设和局域网 的维护,负责读者的视听文献使用等服务工作。
此外吉安市医药卫生课题查新中心亦附设于图书馆。
流通部分四个书库
综合书库 位于主楼北边一至三楼楼。主要收藏、E、F、 J、N、O、P、Q、R、S、T、U、V、X、Z的图书文献,提 供外借服务。
古籍阅览室《四库全书》(影印)、《四库全 书存目丛书》、《续修四库全书》、《四库 备要》、《丛书集成》、《吉安府志》、 《庐陵县志》等。不提供外借。
视听室 位于主楼五楼,提供各种视听服务, 免费。
书刊利用指南
什么是索书号?
索书号又称为排架号, 表明馆藏中的某一文 献的排架位置以便提 取和归架的一套编号。
查找(Search), 检索(Retrieval)等。
Z39.50能够表述抽象复杂的搜索,使客户机(Zclient)提交复杂的数据、记录和语法来实现其他 信息检索功能,例如扩展服务和权限控制,而且可 行。它可以实现文件排序,更新数据库,查询的定 义、控制和存储等功能。Z39.50的基本技术构架简 单,但是分枝复杂,涉及面广。 Z-client能同时 发送给几个图书馆相同的或不同的查询。并可以合 并相似结果,当使用者查找偏僻的主题,或者查到 大量记录结果的时候,这种特点可以极大的节省时 间。 可以通过Z39.50规定的基本的查询和检索功 能,实现图书馆之间通过各种方式交换数据记录。 通过使用Z39.50作为基础,许多图书馆的业务可以 公开化、标准化。
图书馆概况
井冈山大学是由原井冈山学院、井冈山医专、井冈山职大 合并而成,馆藏纸质图书128万余册,网络版电子图书 库3种;(《超星数字图书馆》、《方正电子图书库》、 《中国数字图书馆》)合计28.45万余册。网络资源: 各类数据库25种,中文数据库10种:《中国知网》、 《中国生物医学文献数据库(CBM)》、《银符数据 库》、《北大法意网》、《维普数据库》、《国务院发 展研究中心信息网》、《人大报刊复印资料数据库》、 《中国经济统计信息网》、《中国科学文献服务系统》、 《中文社会科学引文索引》。
第三章 文献信息检索基本原理及方法

标题词语言关键词语言单词语言叙词语言检索语言
主题语言 由于不同概念相交就会 形成一个新概念, 形成一个新概念,这个 新概念是组配前各概念的 下位概念。 电子” 下位概念。如:“电子”和 信息”组配产生电子信息。 “信息”组配产生电子信息。 同级词间不同概念并 组配结果,可提高查准率。 组配结果,可提高查准率。 列也会形成一个新概 念,这个新概念是组配 前各概念的上位概念。 前各概念的上位概念。 数字计算机” 如“数字计算机”和“模 拟计算机” 拟计算机”组培后得 到“计算机”这一新的 计算机” 是不同级词间的组配, 是不同级词间的组配,是用 上位概念。组配结果, 上位概念。组配结果, 时间、 时间、空间和学科范围某一 提高查全率。 提高查全率。 方面的属性进行限定的一种 概念关系。 建筑物” 概念关系。如:“建筑物”为 主体事物, 设计” 主体事物,“设计”为某个方 组配结果被限定为“ 面,组配结果被限定为“建 筑物设计”这个新概念, 筑物设计”这个新概念,组配 结果可使检索到的文献专指度 和查全率提高。 和查全率提高。
3.1.1 文献信息检索的基本含义 一、文献信息检索的基本含义
“检索”即“查找”之意。信息检索,是将信息按照一定的方式 检索”即“查找”之意。信息检索 信息检索,是将信息按照一定的方式 组织、存储起来,并针对用户的需要查找所需信息的过程。因此信 息检索包含了信息的存储和检索两个不可分的部分。我们通常所说 的信息检索是指狭义的信息检索,即从检索工具和检索系统中查找 所需信息的过程及其所采取的一系列方法和策略。
手工检索和计算机检索的关系:手检是基础,机检是发展方向。 手工检索和计算机检索的关系:手检是基础,机检是发展方向。
3.1.2 文献信息检索的类型 按检索要求划分: 按检索要求划分: 相关性检索——是系统不直接回答用户所提出的 相关性检索 技术问题本身,而是只提供与之相关的文献供用 户参考。 确定性检索——是以数据或事实为检索对象,系 确定性检索 统要直接问答用户提出的技术问题,即直接提供 用户需要的确切的数据或事实。
文献检索(第三章)

社 会 科 学
自 然 科 学
(2)主题途径 主题途径
这是通过文献资料的内容主题进行检索的途径,主 题途径依据的是各种主题索引或关键词索引,主题索引 或关键词索引按检索词的字顺排列,检索者只要根据课 题确定了检索词(主题词或关键词),便可以像查字典那 样,按照字顺去逐一查找,从检索词下的索引款目,找到 所需文献的线索。 主题途径检索文献关键在于分析课题,提炼主题 概念,运用词语来表达主题概念。对于主题索引,需 要把自拟的语词同相应的词表核对。主题途径是一种 主要的检索途径。
五 文献信息检索的方法
1.常用法
常用法又称直接法,是指直接利用检索工具(系 统)检索文献信息的方法,这是文献检索中最常用的 一种方法。它又分为顺查法,倒查法和抽查法。
1.1 顺查法
顺查法指按照时间的顺序,由远及近地利用检索 系统进行文献信息检索的方法。这种方法能收集到某 一课题的系统文献,它使用于较大课题的文献检索。 例如,已知某课题的起始年代,现在需要了解其发展 的全过程,就可以用顺查法从最初的年代开始,逐渐 向近期查找。优点是漏检,误检率低,但劳动量较 大。
(1)基本部类:如中图法分五大类部:马列毛邓;哲学; 社会科学;自然科学;综合性图书。 (2)基本大类:构成分类表的第一级类目。中图法为22个 基本大类。 (3)简表:由基本大类与由其直接展开的一、二类目所形 成的类目表。 (4)详表:由简表展开的各种不同登记的类目所组成的类 目表,是文献分类的真正依据。
OPAC :是指以计算机编码形式存贮在计算机 系统内,供读者通过终端设备进行联机检索的 图书馆目录,即书目数据库的一种形式。
2.题录(bibliography 、bibliographic、citation)
题录是单篇文献外表特征的揭示和报导,即对某一文献外部特 征的描述,由一组著录项目构成一条文献记录。 题录的著录项目一般有著者,篇名及出处等,常以一个内容上 独立的文献单元(如一篇文章,图书中的一部分,有时也可以是整 本出版物)为基本著录单位。题录在揭示文献内容的深度方面,比 目录深入,但又比文摘简单。 示例1:
第三章计算机信息检索技术

*:无限截断。如: “patent*”, 可以检索到 patent、patents、 patented 等; ?:有限截断。如: "wom?n",可以检索到woman 和 women。“fib??”,可检索到 fiber 和 fibre。
同PQDD
检索示例:有关“企业知识产权研究”
检索式 检索结果
• 布尔逻辑检索 • 截词检索 • 位置检索 • 词组检索 • 字段限定检索
8/19/2019
计算机信息检索技术
1.布尔逻辑检索
• 运用布尔逻辑算符(Boolean operators)对检索词进行逻辑组 配,表达两个概念之间的逻辑关系。
• 布尔逻辑算符主要有: AND OR NOT 在中文数据库里,布尔逻辑运算符有时用AND、OR、NOT表示, 有时用“*”、“+”及”-“ 。
(*表示AND,+表示OR,限定篇名字段) 1 企业知识产权 2 企业*知识产权 3 (企业+集团+公司)* 知识产权 4 (企业+集团+公司)* (知识产权+专利权 +商标权+著作权+名称权) 5 (企业+集团+公司)* (知识产权+专利权 +商标权+著作权+名称权)* 保护
(2004-2006) 191篇(准确度最高漏检大) 404 (漏检率较高 ) 466 (适合综述性文献) 520 (查全率查准率较高)
计算机信息检索技术
数据库
位置算符
截词算符
ISI Proceedings
(ISI 会
议录索引)
SAME:同句算符,Channel same
*:无限截断。如“patent*”,可
计算机检索基本知识

3、私营公司 例如:英国Derwent Derwent公司 例如:英国Derwent公司 美国Knight Ridder公司 Knight美国Knight-Ridder公司 Mead Data Contral OVID公司 OVID公司 Information, Silver Platter Information,Inc. 传统新闻/ 4、传统新闻/出版机构 例如: 德国Springer Springer出版社 例如: 德国Springer出版社 美国Join Wiley电子出版公司 美国Join Wiley电子出版公司 荷兰Elsevier Elsevier科学出版社 荷兰Elsevier科学出版社
数据库类型: 数据库类型:
按存储数据的类型分:数值型、事实型、词典型、书目型、 按存储数据的类型分:数值型、事实型、词典型、书目型、 全文型 按存储的介质分: 按存储的介质分: 光盘数据库:数据存储在计算机的光盘或光盘塔上, 光盘数据库:数据存储在计算机的光盘或光盘塔上,因而存 储量有限, 储量有限,更新速度慢 网络数据库:数据存储在服务器的硬盘上,存储量大, 网络数据库:数据存储在服务器的硬盘上,存储量大,更新 速度快
文章号 001 002 ……
篇名 asd bys vcx
文章号 001 002 ……
作者 Li Wang deng
文章号唯一, 文章号唯一,且 索引文档与主文 档的文章号一一 对应
索引文档1 索引文档1: 篇名索引 篇名索引
索引文档2 索引文档2: 作者索引 作者索引
文章号
篇名 asd bys vca
输出端),网络(或通信电缆),数据库存储服务器 输出端),网络(或通信电缆),数据库存储服务器 ),网络 ),
服务器(数据库终端) 服务器(数据库终端)
第三章 网络信息检索

第三章网络信息检索第一节网络信息检索的基本方法1、布尔逻辑检索逻辑检索是一种比较成熟、较为流行的检索技术。
逻辑检索的基础是逻辑运算,逻辑运算中最常用的是布尔逻辑运算符,主要的运算符有:(1)逻辑―与‖逻辑―与‖用AND(或﹡)表示。
检索词A、B若用逻辑―与‖相连,即A AND B(A*B),则表示同时含有这两个检索词才能被命中。
例如,要检索儿童教育的文献,检索逻辑式可表示为:child AND education(2)逻辑―或‖逻辑―或‖用OR(或+)表示。
检索词A、B若用逻辑―或‖相连,即A OR B(A+B),则表示只要含有其中一个检索词或同时含有这两个检索词的文献都将被命中。
例如,要检索―计算机‖或―机器人‖方面的文献,检索逻辑式可表示为:computer OR robot. (3)逻辑―非‖逻辑―非‖用NOT(AND NOT,BUT NOT)(或-)表示。
检索词A、B若用―非‖相连,即A NOT B(A-B),则表示被检索文献在含有检索词A而不含有检索词B时才能被命中。
例如,要检索有关―能源‖方面的文献,但涉及―核能‖方面的文献不要,检索逻辑式可表示为:energy NOT nuclear(energy –nuclear)。
1、搜索引擎的定义搜索引擎是提供给用户进行关键词、词组或自然语言检索的工具,简言之,搜索引擎就是一种在因特网上查找信息的工具。
用户提出检索要求,搜索引擎代替用户在数据库中进行检索,并将检索结果反馈给用户。
搜索引擎一般都有固定的显示格式,内容详简程度不一,常常带有URL、题名、标题、关键词、摘要(文本描述摘录)、超链接文件大小、检索结果总数、相关度估计、评论等。
搜索引擎的检索结果一般按查询的相关程度进行排列,最相关的通常排在最前面。
2、搜索引擎的常用检索方法(1)简单搜索(simple search)指输入一个单词(关键词),提交搜索引擎检索后反馈结果。
它也叫单词搜索。
第三章 PUBMED检索

OldMedline:含1950~1965年期间发表的生物医学文献,
记录中没有MeSH字段和摘要字段,记录标识[PubMedOLDMEDLINE for Pre1966]。
YOUR SITE HERE
1.PubMed的数据来源
LOGO PreMedline(In-process citations):未经主题词标引,
PubMed数据库文献记录数已经超过了1900万条。其中部分 文献提供免费的全文链接服务。
YOUR SITE HERE
二、PubMed概况
LOGO
特点:
主题加工规范 检索方式灵活多样
免费提供题录和文摘
提供与原文的网址链接(部分免费获取) 提供检索词自动转换匹配 操作简便、快捷
YOUR SITE HERE
第三节 PubMed的使用
LOGO
一、检索机制和规则
1.单词、词组检索 2.短语检索
3.截词检索
4.布尔逻辑运算 5.MeSH检索(主题词检索) 6.限定检索 7.序号检索
YOUR SITE HERE
1.单词、词组检索
直接输入检索词,不 加任何限定
没有录入Medline中的数据,每天更新。标识为[PubMed- in
process]。 Publisher-Supplied Citation:出版商直接提供的电子文
献,标识为[PubMed-as supplied by publisher]。
此外,PubMed还提供NCBI开发的其他综合性分子生物学数据 库链接服务,包括:DNA与蛋白质序列,基因图数据、人类 孟德尔遗传在线等。
内容涉及基础医学、临床医学、护理学、口腔医学、兽医
第三章 检索工具 PPT课件

《科学引文索引》(Science Citation
Index, SCI)
SCI以《期刊目次》(Current Content)作为数据源,目前自然 科学数据库有五千多种期刊,其中 生命科学辑收录1350种;工程与 计算机技术辑收录 1030种;临床 医学辑收990种;农业、生物环境 科学辑收录950种;物理、化学和 地球科学辑收录900种期刊。
个人著述书目:专门收录某一作者的 全部著述,兼收别人研究该作者的生 平和著述的图书资料的目录。如“鲁 迅研究资料汇编”
联合目录:反映图书在全国或某地区 若干个图书馆的收藏情况的目录。如 “中国丛书综录”
索引
也叫题录,是以单篇或单份文献为著 录的基本单位的检索工具,题录主 要揭示、报道文献的外表特征,但 其著录格式于目录有所不同。索引 在我国历史上又叫“通检” 、“备 检” 、“玉键” 、“韵编” 、 “针线” 、“引得”等。
索引的参照系统(syndetic system): 包括各种参照、标目注释、索引使用说明 与凡例等内容。
索引的类型
主题词索引(Subject Index):主题词是从文 献中抽出的代表该文献的词或词组,并且经过了 规范化处理。
关键词索引(Keyword Index):从文献中抽 出的词未经规范化。
书目
书目是图书或报刊目录的简称,目录 是指以一件或一种完整的出版物,如 一本书、一份科技报告、一种期刊等 作为著录基本单位的检索工具。一般 目录主要揭示、报道这些单位出版物 的外表特征。书目在中国历史上又叫 “录” 、“书录” 、 “志” 、 “略” 、“簿” 、“考” 、“提要” 等。
书目的类型
书目之书目:将书目 、 索引 、 文 摘汇集在一起而编成的一种特殊的 书目类型。如“中国历代书目丛刊”
第三章文献信息检索的基本知识

第三章文献信息检索基本知识随着信息技术的发展,互联网的应用得到广泛普及,信息环境发生了相当大的变化,应用现代化技术手段获取各种信息、知识成为高等院校师生与广大科技工作者的一种必备知识和技能。
为此,首先就必须了解文献信息检索的基本知识。
第一节信息检索的基本原理一、信息检索的概念信息检索(Information Retrieval)全称为“信息存储与检索”(Information Storage and Retrieval),其概念有广义和狭义之分。
广义上认为,信息检索包括文献信息的存储和检索两个方面,即一个完整的信息检索系统由信息存储子系统和信息检索子系统两部分组成。
信息存储子系统:首先对一定数量的信息进行筛选,把能够描述文献信息的外部特征和内部特征进行加工、整理,使之有序化,形成信息特征标识集合,然后将之存储在某种载体上,编制成为检索工具或建立一个数据库。
信息检索子系统:根据信息用户的特定需求,对用户需求进行主题分析,利用一定的检索方法和检索技术,对存储子系统中的特征标识进行比对,把需要的文献线索或知识信息从系统中查找出来的过程,即信息检索。
这就是通常人们所说的信息检索过程,也就是狭义上的信息检索。
信息存储与信息检索是意义不同却又相互联系、相互依存、不可分割的两个过程。
信息存储是为了检索,信息检索又必须先有信息存储。
如果没有存储,检索就无法实现;没有检索,信息存储也就变得没有意义。
所以说存储是检索的前提和基础,检索是存储的目的。
信息检索系统的工作原理如图3-1所示。
图3-1 信息检索系统的工作原理二、 信息检索的类型信息检索可以按不同的划分标准划分为不同的类型。
(一)、 根据检索内容划分根据检索信息内容不同可划分为文献信息检索、事实信息检索和数据信息检索。
1、文献信息检索(document retrieval ):是以文献(包括目录、索引、文摘等二次文献或全文)为检索对象,查找有关文献的出处和收藏处等信息,都属于文献信息检索范畴。
第3章检索原理及技术 信息检索

88
75
检索技术应用示例
检索课题:农民工生存状况调查 检索词: 农民工 生 存 打工妹 生 活 打工仔 待 遇
检索式:(农民工+农民+打工妹+打工仔) *(生活+生存+待遇)
膜技术用于造纸废水处理的研究进展
检索词:
膜技术: Membrane Technology 造纸厂:Paper Mill„s 造纸: Paper-making 废 水: wastewater; 排出水:Effluent ; 污 水: sewage 处理:Treatment
响查全率。 4、举例: “制药废水 NOT 放射废水”
布尔逻辑组配图
(a)逻辑与
A
A=619 B=23290 A AND B=54 A=341 B=76 A OR B=364 A=25283 B=4945 A NOT B=2431
(b)逻辑或
(c)逻辑非
工程索引—EI
返回
中国知识产权局网站——中国专利检索
逻辑或
1、概念:逻辑或是一种具有概念相同,概念 相关的组配。 2、算符: “ + ” 、 “ OR ”、“或者” 3、特点:扩大检索范围,提高了查全率。 4、举例:“ 废水 ” OR “ 污水
逻辑非
1、逻辑非是一种具有概念排除关系的组配。
2、算符: “ - ” 、 “ NOT ”、不包含
3、特点:排除不需要的概念,提高查准率,但影
2)无限右截词:主要用于同根词。在词根后加一 个“ ?” 或 “ * ” ,可检出含有该词根的所有 记录。
Computer? Computer Computers Computering Computered Computerization
3.第三章 教育文献检索

手工检索的五条途径可用文献标识分类图 表示:
著者名(作者名或作者单位)
外表特征
文献名(书名) 代码(报告号、专利号) 分类体系(科学范围)
文献标识
内容特征
主题词(研究内容)
三、教育文献检索的途径
(二)计算机检索 主要有 光盘检索法 联机检索法 计算机网络检索
资料:我国中小学常用计算机 网络数据库简介
二、撰写文献综述
(一)文献综述的概念 文献综述是研究者对某个时期或某个专题 的若干文献进行比较系统、全面的综合概 括和评论。 文献综述有两个目的: 一是为自己的课题研究作铺垫,是研究准 备阶段的重要一环。 二是为他人提供有关信息,使别人能从中 获得最新动态和进展的信息。
二、撰写文献综述
(一)文献 文献是指记录有知识的一切载体,即把 人类知识用文字、图形、符号、声频和 视频等技术手段记录在一定物质载体上 的结合体,或理解为固化在一定物质载 体上的知识。
一、教育文献的概念
(二)教育文献 是指一切用各种符号形式保存下来的,对教 育研究具有一定历史价值、理论价值和资料 价值的文献材料,即记载有关教育科学的情 报信息和知识的载体。 (三)文献检索 就是通过一定的方法和程序在众多的文献中 迅速、准确地获取所需文献的过程。
二、撰写文献综述
(五)文献综述应注意的问题 1. 搜集文献应尽量全面。 2. 注意文献的代表性、可靠性和科学性 3. 文献综述要忠实原文,避免引用他人 对原始文献的解释或转述。 4. 参考文献不能省略。
思考题
1、名词解释:文献;教育文献;文献检 索;外审法;内审法;文献综述 2、教育文献主要分布在哪些地方?在教 育研究中有什么重要作用? 3、文献研究有什么特点和局限性? 4、如何确认文献的真实性? 5、文献检索的基本步骤有哪些?
第三章 文献检索技巧

(四)其他检索技术:
字段限定:指将检索词限定在某个或某些字段中。可通过下拉菜
单选择检索字段,也可输入检索字段符来限定检索字段。
例如:AU=Smith,表示要查找著者Smith发表的文献。
词组检索:使用
“ ” 双引号将检索词组锁定,进行精确查找。
匹配度选择:“精确匹配”与“模糊匹配”。
第三节 文献检索流程
其扩展为(nN),表示其两侧的检索词之间最多可插入n个词,
位置可颠倒。
例如:“computer (N) network”,其检中记录可包含 “computer network”或“network computer”。
3.字段级位置算符
表示两侧的检索词必须出现在同一字段中,词序不限。
Field:“air(F)pollution”表示air与pollution必须在同一个段落中出现 Same:“Ad=(CAS same Shenzhen ) ”表示CAS 与 Shenzhen 必须同时 出现在地址字段中
摘数据库,掌握国外研究进展。同时,利用Web of science和Ei的分
析功能把握该领域的专家、核心研究机构、重要期刊等信息;并利用 数据库的个性化功能,对信息进行定期跟踪检索,随时了解课题的最
新研究进展,以便在论文写作Link、EBSCO等全文期刊数据 库,一方面补充文摘库的检索,一方面获得全文。
优先算符:用()表示。
在含有多个运算的检索式中,可以用()将需要优
先运算的部分括上,系统会优先运算()中的部分, 然后再按照not, and, or的顺序进行运算。
如: (behaviour or behavior) and human
※逻辑算符的优先级为()>NOT>AND>OR
第三章 信息检索的基本原理与方法

信息系统中所收录的信息源需要通过加工后用检索 语言加以表达和组织。标引,就是根据系统的规则
本模块的功能是建立和维护可直接用于检索的数据 库,包括系统所用的各索引文档。其工作流程主要 包括数据录入、错误检查与处理、数据格式转换、
和程序,对文献内容进行分析,然后赋予每篇文献 生成并定期更新各种文档。建库和索引文档由系统
其他描述事项(如著者、著者单位、文献出处等)填入
存检索策略、批量下载文献等)。 信息显示是指系统
工作单,由录入员输入到计算机中。 安徽工业大学图书馆信息检索教研室对用户反馈的信息所做出的反应或操作。
提问处理子系统
提问处理子系统专门负责处理用户输入的提问式, 将提问式中的检索元和算符区分,并转换成系统内 部的可接受的命令方式。在对提问进行转换后,与 数据库中存储的数据进行比较运算,然后把运算结 果输出给用户。
安徽工业大学图书馆信息检索教研室
3.1.1 信息检索的概念
• 信息检索有广义和狭义的之分。
•
广义的信息检索全称为“信息存储与检索”
(information storage and retrieval ),是指
将信息按一定的方式组织和存储起来,并根据用
信息检索技术(3)

要明确以下问题:
◎分析课题的主要内容及其所涉及的学科范围。 ◎所需文献的类型、语种、年代及文献量的范围。 ◎对查新、查准、查全的指标要求,及其侧重。
2.2 选择相关信息资源
系,前者为主,后者为副,可用来连接主、副标题词。它们出现在记录 的规范词字段。
如:television(L)high definition 命中记录的规范词字段(de)中出现的匹配词是:TELEVISION-High definition。 (4)(S)算符 (S):S是Subfield的缩写。(S)表示其连接的两个检索词必须出现在同一 子字段中。子字段是指字段中的一部分,如一个句子、一个词组、短语 。字段不限,词序不限。
例如 Internet OR Web 使用上面这个检索式,使用了网络的同义词。会找到有关Internet 或
Web的文献或Internet 与Web 同时出现的文献。也可以在一次搜索中多 次使用OR: 如:Internet OR Web OR online OR digital OR wired 有的中文数据库在使用OR时需用“+”来代替: 互联网 + 网络 + 在线 OR用于组配具有并列关系、概念相同或相近的检索词,如同义词、相 关词等。用OR算符的基本作用是扩大检索范围,增加命中的文献量,提 高检索的查全率。 如:查找“肿瘤”的检索式为: cancer(癌)or tumor(瘤)or carcinoma(癌)
如:silicon(2W)sensor;命中的记录中出现的匹配词除上例的外
,还可能会有:silicon angular rate sensor , silicon-based chemical sensor等等。
第三章计算机信息检索技术

1/30/2019
计算机信息检索技术
逻辑或(OR 或+ )
• 乙肝病毒的研究 • 检索词: 乙肝 乙型肝炎 HBV Hepatitis B virus
• 检索式: 乙肝OR 乙型肝炎OR HBV Hepatitis B virus OR HBV
1/30/2019
计算机信息检索技术
1/30/2019
1/30/2019
计算机信息检索技术
中间截断
• 又称作“通用字符法”或“内嵌字符截断”。在检索词中间 加一个或几个?号,主要解决一些英美拼写不同,单复数形 式的不同的词的输入,可简化输入。 如:输入wom?n可检出woman,women 输入defen?e可检出defence、defense
1/30/2019
计算机信息检索技术
逻辑非
• 去掉一个主题中某一部分的主题,用于缩小检索范围,提高 查准率; • 用运算符号“NOT”或“-”连接两检索词 例1 查“玉米但不是甜玉米”方面的文献。 检索式=玉米-甜玉米 例2 查“国外有关数字图书馆方面”的文献 检索式=数字图书馆-国内
1/30/2019
计算机信息检索技术
计算机信息检索技术
• 人类活动对群落多样性的影响 • 检索概念: 人类活动群落多样性影响 • 检索式 人类活动AND 群落多样性 人类活动AND 群落多样性AND 影响
1/30/2019
计算机信息检索技术
人类活动 and 群落多样性
1/30/2019
计算机信息检索技术
逻辑或(逻辑乘)
• 表示概念的平行、并列,用于扩大检索范围,提高查全率 • 用运算符“OR” 或“+”连接两检索词 • A B A OR B
西文数据库常用字段 中文数据库常用字段 字段名称 字段代码
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2、(N)与(nN)
————————————————
(N)算符 (N)算符中的 N 含义为“near”。 运算含义:在检索提问式中,它所连接的两个 检索词必须在文本信息中紧密相连着出现,两 个检索词之间除可以有一个空格、一个标点符 号或一个连接号外,不得夹有任何其他单词、 字母或汉字。
2、(N)与(nN)
2、检索技巧和方法
A、扩大检索范围 B、缩小检索范围的方法 * * * * * * *
* 核心概念的限定。 概念的扩大。 * 核心期刊的限定。 范围的扩大。 * 语种的限定。 增加同义词、近义词、相关词和缩略词。 * 用布尔逻辑算符“and”或者“not”组配 用“ 检 or”、”?”、叙词表 年代的扩大。 索词。 * 使用位置算符“near”和字段算符“in” 去掉连字符可扩大检索范围。 提 换另外的数据库或是另外的光盘继续进行检索。 高查准率。 * 使用“Index”和叙词表,选择确切的检 索
除字段检索外,限制检索的另一种常见形式是
“二次检索”,即提供用户在检索结果中进行再次
检索(Refine Search)。很多情况下,用户的初步
检索结果可能包含有大量命中信息,为了缩小检索
结果,用户可以选择把新一轮检索操作限制在已检
得的结果之内进行,如此,检索结果将更加准确,
专指性更强。
第四节 位置检索
位置检索
————————————
1、邻接检索 2、同句检索 3、同字段检索 4、同记录检索
一、 邻接检索
————————————
1、(W)与 (nW) 2、(N)与(nN)
1、(W)与 (nW)
————————————————
(W)算符 (W)算符中的 W 含义为“with”。 运算含义:在检索提问式中,它所连接的两 个检索词必须在文本信息中按照前后顺序紧 挨着出现,两个检索词之间除可以有一个空 格、一个标点符号或一个连接号外,不得夹 有任何其他单词、字母或汉字。
第六节 检索步骤及实例
• 1检索步骤 (1)分析课题 弄清课题学科属性、专业范围及其相关内 容 弄清检索课题的信息类型和时间要求 考虑课题的特殊要求 明确用户自身的信息需求
【例题】中文研究课题为“法国文艺复兴时
期文学作品浅析”。要求查询国内中文检 索工具。如何具体分析课题?
分析课题
3、中截断 (通用字符法或屏蔽)
是把截断符号置于一个检索词的中间,对词中 间出现变化的字符数加以限定。一般中截断仅允许 有限截断。
截词检索的功能
1、扩大检索范围,提高查全率; 2、减少检索词的输入量; 3、简化检索步骤(不需要用“OR”进行同义词 的组配) 4、节省联机时间,降低检索费用。
第三节
2、前截断 是将截词符号放在一个字符串的左方,以表示其 左的有限或无限个字符不影响该字符串的检索。 从检索性质上讲,前截断是“后方一致”检索。 检索式“*magnetic” 它能够检索出含有 magnetic electromagnetic paramagnetic thermomagnetic 等词汇的结果。
限制检索
在信息检索系统中,通常提供一些缩小或约
束检索结果的检索技术,称之为限制检索。 最主要的限制检索技术是通过限制检索词在 命中结果记录中的出现位置(主要指记录的不同 字段位置)来实现的,这种限制检索也因此被称
为“字段限制检索”。
字段限制检索
主题字段 (基本字段)
标题、叙词、关键词、文摘、 分类号等
1. 后截断 将截词符号放在一个字符串的右方,满足截词符左方所有字 符的记录都为命中记录。表示字符串右方的有限或无限个字符不影 响该字符串的检索匹配。从检索性质上讲,后截断是前方一致检索。 无限截断:是在检索词词干后面加一个截词符,表示不限制词尾可变化
的字符位数,即查找词干相同的所有词。 例: comput* 表示允许其后可带有任何字符且数量不限,相当于查 找compute、 computed、 computes、 computing、 computer、 computers、 computerize、computerized、computation、 computations、 computational、 computationally 等词。
字段 非主题字段 (辅助字段)
作者、作者工作单位、连续 出版物编号、使用语言、出版 者等
字段及相应的字段缩写代码
字段名称 Title Author Author affiliation Publisher Document type 字段代码 TI AU AF PN DT 字段名称 Language Abstract CODEN ISSN ISBN 字段代码 LA AB CN SN BN
布尔逻辑运算符
————————————
1、逻辑“与” 2、逻辑“或” 3、逻辑“非”
1、逻辑“与”
————————————————
A B
逻辑运算符: 逻辑表达式为:
“and”或“*” A * B 或 A and B
其意义为检索记录中必须同时含有检索词 A和B的文献,才算命中文献。
2、逻辑“或”(和)
————————————————— A
B
逻辑运算符: 逻辑表达式为:
“or”或“+” A or B 或 A+B
其含义为检索记录中凡含有检索词A或检索词B,
或同时含有检索词A和B的,均为命中文献。
3、逻辑“非”
————————————————
A
逻辑运算符: 逻辑表达式为: B
“not”或“-” A not B 或 A-B
构造逻辑提问式的原则和方法。其核心内容在于检索
策略的构造与检索的步骤。
制定检索策略的步骤:
A、弄清用户的提问要求,并确定要查找的文献 学科范围、类型、文种、时间等。 B、选择相关的数据库并确定在待检数据库中的 检 索途径,以便制定适合所选择数据库的检索策略。 C、对情报提问进行概念分析 D、拟定检索逻辑式 E、对数据库文档进行查找,检出相关文献并分析检 索结果。 F、如有必要,对提问式进行反馈、修改,重复第五 步,直到用户满意为止。
大多数网络搜索引擎都支持布尔逻辑运算,但表 现形式不尽相同,有的用AND,OR,NOT(有的工具要
求用大写,有的要求用小写,有的则大、小写均可),
有的以符号(+、-、*)代替,还有的直接把布尔逻辑 运算符隐含在菜单中,高级检索,结果页面。第二节
截词检索 (truncation)
•截词:是指检索者将检索词在他认为比较合适的地方截 断。 •截词检索:是指使用被截断的词汇进行检索匹配,并认 为凡满足这个词局部中的所有字符(串)要求的记录,都 为命中结果。如EI的截词检索 • 按 截 断 位 置 分: 前截断、后截断、中截断; • 按截断的字符数量分: 有限截断、无限截断。 ** 表示截词的截断符号,各检索系统有不同的规定, 没有统一标准。
【题解】
(1)学科属性、专业范围属于社会科学,具体属于 外国文学,还涉及外语等多学科。 (2)文献类型 文献类检索结合事实数据类检索: 事实数据类检索包括①查询“文艺复兴”这个概 念②文艺复兴时期有多长?③在该期间法国诞生 了哪些重要的有影响的作品?可以从百科全书、 文学辞典等参考工具书中查到。
(2)选择工具
————————————————
(nN)算符 (nN)算符中的 N 含义为“near”。 运算含义:它所连接的两个检索词在检索结果 中出现时,相互距离不超过n个单词(或汉字), 且两个词出现的先后顺序也可以变换。 如EI检索页面
二、 同句检索
————————————
同句检索:要求参加检索运算的两个检索词 必须在同一自然句中出现,其先后顺序可以 不受限制。
其含义为:检索记录中含有检索词A,但不能
含有检索词B的文献,才算命中文献。
布尔逻辑运算符的使用说明:
① 同级运算自左向右进行; ② 布尔运算优先级顺序为:NOT、AND、OR ③ 当检索式含有截词符、位置算符、限制符 时,布尔运算最后执行; ④ 先括号内,后括号外,具有多层括号时, 按层次从内到外逐层进行。
第三章 检索技术
如何进行检索? EI数据库实例
第三章
第一节 第二节 第三节 第四节 第五节
检索技术
布尔检索 截词检索 限制检索 位置运算 检索技巧和方法
检索标识是具体的检索词或词组,每 个检索词表达一个概念,具体检索时,将 检索词与数据库中的文献特征标识进行类
比,两者相同,则该记录为命中文献。
第一节 布尔检索
***不宜将词截得过短,否则容易造成误检。
有限截断 :是在检索词词干后面加若干个截词符,表示限制可变化的
例:fib? ? educat? ? 相当于查找 fiber 或 fibre ……(Ei Compendex Plus) 相当于educator,educated……
字符数。
有限截断 在检索词后面加上一个或一个以上(最多4 个)的“?”,空一格,再加一个“?”。如: Comput??? ? 可检索出: Computer,Computers,Computing 截词检索在不同的计算机检索系统中规 定不同,请使用时注意。
指定检索字段的方式:
1.检索命令方式,这需要使用系统规定的字 段检索符号及字段代码;
①前缀限制符(用于限定非主题字段) AU= 限定作者 JN= 限定刊物 LA= 限定文献语种 PY= 限定年代
②后缀限制符(用于限定主题字段) /TI 限在文献标题中查 /AB 限在文摘中查 /DE 限在叙词中查 例 :(minicomputer/DE OR personal computer/TI) AND PY=1990 2.菜单选择方式,这需要从检索界面上设置的 字段列表下拉菜单中进行选择。如下页维普页 面
1、(W)与 (nW)