信息检索与利用第3讲计算机检索技术
第三章 计算机检索基础知识
算机的输入输出装置进行检索,用磁带作存储介质,一般为 连续的顺序检索方式。检索部门把许多用户的检索提问汇总
到一起,进行批量检索,然后把检索结果通知各个用户,用
户不直接接触计算机。
联机检索(on-line retrieval)
60年代末,由于计算机软硬件技术的不断提高,出现了一台主机带 多个终端的联机信息检索系统。联机检索是用户利用终端设备,通 过通信网络或通信线路与检索系统联机,进行“人机对话”,从检 索中心的数据库及时查找所需要的文献信息过程。 80年代,发达国家的一些计算机信息联机检索系统,通过卫星通信
注意:这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。不同的检 索系统其位置算符的表示方法不尽相同。
截词检索
截词检索就是把检索词截断,取其中的一部分,在加
上截词符号一起进行检索。
• 主要用于检索词的单复数、词性的词尾变化、词根相同的一类词, 以及同一词的拼法变异等。 • 从本质上说,截词算符是一种逻辑“或”的关系。
对信息内容特征进行标引和对信息外部特征进行著录,形成 一条信息题录,并根据信息内容作出摘要,然后将上述检索标识 与著录项目一并填入工作单,就完成了数据库建设的“数据前处 理”工作。
数据库及其编排结构
• 数据库的类型
• 数据库的构成 • 数据库的记录格式 • 数据库的编排结构
数据库的类型
按照信息处理层次划分:
A AND B:检索词A和检索词B同时出现在一条记录中。 • 其作用是缩小检索范围,提高查准率。
例如:查有关“人口控制”的文献,检索式可写成: 人口 AND 控制
逻辑或(OR)
A OR B:记录中出现检索词A或检索词B或两词同时出现 在一条记录中。 • 其作用是扩大检索范围,提高查全率。
第二章 信息检索基本知识
(二)按出版形式划分:
原始文献
图书
特种文献
期刊
会 议 文 献
科 技 报 告
专 利 文 献
学 位 论 文
政 府 出 版 物
其 标 准
食品标准网
它
7-111-17892-0
《发票报文》GB/T 17303.2-1998 第二部分:国际贸易商业发票报 文
……
(三)按信息的加工程度来分: 1、一次文献信息 (原始文献):
一、检索工具的作用 1、报道作用 2、存储作用 3、检索作用
二、检索工具的特点
1、详细而又完整地记录了文献的外部特征和内部特征。
2、对所著录的文献,标引了可供检索的检索标识。 3、提供必要的检索手段,配备各种体系的索引。
三、检索工具的类型
按著录信息的特征划分:
1、目录 2、题录 3、文摘 4、索引
检索途径-分类途径 分类途径的缺点是新兴学科、边缘学科在 分类时往往难于处理,查找不便。另外, 从分类途径检索必须了解学科体系,否 则在将概念变换为分类号的过程中常易 发生错误,造成漏检或误检。
检索途径-主题途径
• 主题途径是一种按照文献的主题内容查找文献 的途径。使用的语言是主题语言。使用的检索 工具有“主题索引”、“关键词索引”、“叙 词索引”等。 • 主题法打破了传统的学科分类的框框,把分散 于各个学科的有关文献集中于同一主题词之下, 以文字作检索标识,索引按照资料内容的主题 词或关键词的字顺排列,检索时就象查字典一 样,不必考虑学科体系。
更多……
• 按检索方式,可分为印刷型检索工具和机器检 索工具; • 按出版形式,可分为期刊式检索工具、书本式 检索工具、卡片式检索工具、缩微式检索工具、 机读式检索工具等; • 按收录范围,可分为综合性检索工具、专题性 检索工具; • 按语种,可分为中文检索工具和外文检索工具;
信息检索第三讲
3.选择检索词 3.选择检索词 选择
一个检索课题往往涉及多个概念,选择检索词时首 先要将检索课题涉及的所有概念分离出来,并针 对每一个概念选择尽可能多的检索词。 选择检索词是一种经验积累,检索词一般为名词。 在一定程度上也有章可循: ①词义概念最小化(单元词比多元词检索效果好) 词义概念最小化(单元词比多元词检索效果好) 词义概念最小化 经济* 如:经济发展 经济*发展 ②隐含概念的分析 垃圾的处理(处理——回收与再生) ——回收与再生 如:垃圾的处理围, 检索范围, 提高检全率
A or B
逻辑“ 逻辑“非”
表示, 用”not” 或”-”表示,用于描述概念间的排斥关 not 表示 系和特殊限定关系。
含义:检出文献中必须包含这个算符前的词,必须不含 这个算符后的词。 • 作用:缩小检索范围,提高查准率。
【实例】在搜索引擎中输入“电视台-中央电视台”,查 实例】在搜索引擎中输入“电视台-中央电视台” 询结果不包含“中央电视台” 询结果不包含“中央电视台”。
《EBSCO》数据库使用邻近位置检索算符 EBSCO》 Wn)。 (Wn)。 【实例】用《EBSCO》数据库检索税收改革 实例】 EBSCO》 文献,检索式“ reform”表示tax一 表示tax 文献,检索式“tax W8 reform 表示tax一 定在前,距离reform最多是8个词汇, reform最多是 定在前,距离reform最多是8个词汇,因此 可以检索出 “tax reform”,不能检索出 reform , tax”。 “reform of income tax 。
与运算示意图
A
computer
B
virus
作用: 缩小 作用: 检索范围, 检索范围, 提高检准率
信息检索与利用练习题与答案
信息检索与利用练习题与答案第一章概说综合练习一、填空题1、文献信息资源,在载体形式上,包括纸质文献和电子资源。
2、一次文献是依据作者本人的研究或研制成果创作的文献,即通常所说的“原始文献” 、“第一手资源” 。
一次文献在形态上具有多样性,在内容上具有原创性,在出处上具有分散性。
3、二次文献是按一定的方法对一次文献进行整理加工,以使之有序化而形成的文献,主要包括目录、索引、文摘等。
二次文献通常又被称为“检索性文献”、“线索性文献”。
4、三次文献是对大量相关文献进行综合分析而形成的评述研究性文献,如综述、述评等。
三次文献在内容上具有综合性,在功效上具有参考性。
5、传统的文献检索工具体系由印刷版工具书构成。
6、电子化的检索工具是以数据库的形式出现的,数据库类型有数值型数据库、事实型数据库、文献型数据库。
7、部首法首创于东汉时期著名学者许慎的《说文解字》。
8、在现有的电子版检索工具中,检索词主要有两大类:字段词和任意词以数值型数据库、事实型数据库和书目数据库出现的电子版检索工具,检索词是字段词。
以全文数据库出现的电子版检索工具,检索词可以是“任意词”。
9、“循环衍生法”包括定义衍生法、语素衍生法、语境衍生法。
10、现有的中文电子版检索工具一般都设有高级检索功能,较多地使用的检索技术是布尔逻辑检索、截词检索和位置检索,体现出的检索特点是组配检索、模糊检索和限定检索。
11、逻辑“与”(and)符号表示为“ * ”。
表示“同时包含”关系。
逻辑“或”( or)符号表示为“+”。
表示“分别包含”关系。
逻辑“非”(not)符号表示为“- ”。
表示“排除其他”关系。
12、中文检索引擎的检索方式主要有两种:一是分类方式,二是关键词方式。
13、文献信息资源的引证标注有3 种情况:注释、引文出处、参考文献。
14、文后参考文献著录的国家标准是1987年5 月《文后参考文献著录规则》15、文后参考文献列表可以采用“顺序编码制”,也可以采用“著者——出版年制”。
信息检索与利用--第三讲
历史
地理 自然科学 医药卫生 工业技术 农业科学技术 综合性图书
杜威十进分类法
杜威十进分类法(Dewey Decimal Classification,DC/DDC), 美国M.杜威编制的综合性等级列举式分类法。 杜威十进分类法大类表: 000 总论 100 哲学 200 宗教 300 社会科学 400 语言 500 自然科学和数学 600 技术(应用科学) 700 艺术、美术和装饰艺术 800 文学 900 地理、历史及辅助学科
2、国内常用图书分类法简介
任何一个图书馆,不论其藏书有多少,都必须对藏书进 行科学的分类和排架,以便读者有效利用文献资源。 所谓图书分类,就是根据图书的学科内容或读者对象、 文种、编辑形式、体裁等特征来分门别类地组织图书。 •《中国图书馆分类法》 (Chinese Library Classification - CLC) 简称《中图法》,它是当今国内图书馆使用最广泛的分 类法体系,国内主要大型书目、检索刊物、机读数据库, 以及《中国国家标准书号》等都著录《中图法》进行分 类。
1.分类排架法
(1)先按《中图法》分类体系排架; 以文献分类体系为主体的排架方法,多用于排列图书。 分类排架号(索书号)=分类号 + 辅助号
分类号:代表图书内容所属的学科类目, 辅助号:为同类图书的区分号。 一般先按分类号顺序排列,分类号相同,再按辅助号顺序排列, 一直区分到各类图书的不同品种。 (2)同类图书排列法通常有4种: 1)按著者名称字顺排列 即相同类号的图书再依据著者号码的次序排列。用这种排列法可 集中同类中同一著者的不同著作,附加区分号后,还可集中同一 著作的不同版本、不同译本、不同注释本、同一传记主编的各种 传记等。是各国图书馆普遍采用的排列方法。 2)按书名字顺排列, 3)按出版时间排列 4)按图书编目种次排列,
文献信息检索 第三章
The end
A
B
运算顺序:先算“ 然后是“ 运算顺序:先算“与”和“非”、然后是“或” 混合运算, 电脑) 混合运算, (计算机 OR 电脑) AND 软件 NOT 硬件
二、计算机信息检索技术-6
2.截词检索
前截词(后方一致)。 :?computer )。例 computer, ① 前截词(后方一致)。例:?computer, 可检索出computer mirocomputer, computer, 可检索出computer,mirocomputer, 后截词(前方一致)。 )。例 instruction? ② 后截词(前方一致)。例:instruction? 可检索出instruction instructions, instruction, 可检索出instruction,instructions, instructional 中间截词。 wom? 可检索出woman woman, ③ 中间截词。 例:wom?n,可检索出woman, women。 women。 colo???? ????r 可检索出colour colour, colour, colo????r,可检索出colour,colour, colonizer。 colonizer。 前后截词。 :?Plane Plane? ④前后截词。 例:?Plane? 可检索出 airoplane,planes, “airoplane,planes,plane
4.限制检索 为提高查全率和查准率, 为提高查全率和查准率,需要一些缩小或 约束检索结果的方法, 约束检索结果的方法,称之为限制检索 用这种方法可将检索过程限定在特定的范 或字段)中进行。 围(或字段)中进行。 前缀写法: JN=,LA= TI= =,LA (1)前缀写法:例:JN=,LA= TI= 后缀写法: /DE,/DF—叙词 叙词; (2)后缀写法:例:/DE,/DF 叙词;/ID, /IF—标引词;/TI――题目;/AB――文 标引词;/TI――题目;/AB―― /IF 标引词;/TI――题目;/AB――文 摘。
计算机检索技术
02
信息检索基础
信息检索原理
信息检索是利用计算机技术实现信息 查询和获取的过程,通过输入关键词 、主题等检索条件,从大量数据中快 速、准确地获取所需信息。
信息检索的基本原理包括信息标引、 索引和匹配等环节,通过建立索引数 据库,对信息进行分类、标引和索引 ,实现信息的快速检索和获取。
信息检索语言
发展阶段
20世纪80年代以后,随着计算机技术的飞速发展,计算机检索技术也取得了突破性进展。数据库技术、网络技术、 人工智能等领域的成果被广泛应用于信息检索领域,使得信息检索更加高效、准确。
成熟阶段
进入21世纪,计算机检索技术已经逐渐成熟,并渗透到各个领域。云计算、大数据、物联网等新技术的 应用,为计算机检索技术的发展带来了新的机遇和挑战。
大数据环境下的信息检索
01
02
03
数据挖掘技术
通过数据挖掘算法,从海 量数据中提取有价值的信 息,为信息检索提供更多 数据支持。
分布式存储与检索
利用分布式存储技术,将 大规模数据分散存储在多 个节点上,提高数据存储 和检索效率。
实时分析处理
对大数据进行实时分析处 理,快速响应检索请求, 提供实时的信息检索服务。
学术论文检索的优缺点
03
学术论文检索的优点在于能够快速、准确地找到相关论文,缺
点在于需要使用专业数据库,且可能存在版权问题。
案例三:数字图书馆的计算机检索技术
数字图书馆的特点
数字图书馆具有资源丰富、易于检索和共享 的特点,能够满足用户对知识的需求。
数字图书馆检索的关键技术
数字图书馆检索的关键技术包括元数据、数据挖掘 和语义网等,这些技术能够提高检索的准确性和效 率。
03
计算机等级考试中的高效信息检索与利用
计算机等级考试中的高效信息检索与利用在计算机等级考试中,高效的信息检索与利用是取得优异成绩的重要因素之一。
随着互联网的发展和数据量的爆炸式增长,学会如何迅速、准确地获取所需信息,并运用到实际问题中,已成为我们的必备技能。
本文将探讨如何在计算机等级考试中,进行高效的信息检索与利用。
一、选择合适的检索工具在信息检索之前,我们需要选择合适的检索工具。
通常情况下,我们可以利用搜索引擎进行信息检索。
谷歌、百度等搜索引擎提供了强大的搜索功能,能够迅速检索到相关的资料。
此外,还有一些专业的学术搜索引擎,如Google Scholar和百度学术,针对学术领域的文献检索提供了更准确的结果。
二、明确需求,减少冗余信息在进行信息检索时,我们要明确自己的需求,并用准确的关键词进行检索。
在搜索引擎中,我们可以使用引号来表示一个短语的搜索,这有助于减少冗余信息的出现。
此外,还可以通过在搜索框中添加其他限定词,如“site:edu”表示只搜索教育机构的网站,或者“filetype:pdf”表示只搜索PDF格式的文件,来进一步缩小搜索范围,提高检索效率。
三、善用高级搜索功能为了更精确地获取所需信息,我们还可以善用搜索引擎的高级搜索功能。
例如,在Google中,我们可以使用“site:”来限定搜索范围,使用“intitle:”来限定标题中包含关键词,使用“inurl:”来限定URL中包含关键词等。
这些高级搜索语法可以帮助我们更快地找到相关信息,提高信息利用效率。
四、选择权威的信息来源计算机等级考试要求我们使用可靠、权威的信息来源。
因此,在进行信息检索时,我们应选择来自权威机构、学术期刊或专业网站等的信息。
这些信息来源通常经过专业机构的审核和筛选,具有较高的可信度和学术价值。
五、合理整理、归纳信息在完成信息检索后,我们应合理整理、归纳所得到的信息。
可以将相关资料分类存储,使用文件夹或标签进行分类。
此外,我们还可以利用笔记软件或在线笔记工具,将重要的内容进行记录和整理,以备后续复习和查阅。
计算机信息检索
2022/9/5
第4章 计算机信息检索
15
常见辅 助 字 段
段码名称 英文段码全称
作者
Author
作者单位 Author Affiliation
期刊名称 Serials Title
语种
Language
英文段码简称
AU AF ST LA
2022/9/5
第4章 计算机信息检索
16
3.2.4 文献信息数据库-检索原理
2022/9/5
第4章 计算机信息检索
4
机检与手检的比较
计算机情报检索的优点在于速度快,耗时少,查 阅范围广,查到的信息新, 专指性强。计算机检索 适用于最近20年内文献以及动态性信息的检索。
计算机情报检索的缺点是追溯时间有一定限制, 检索费用比较昂贵。
手工检索的优点是检索时间和检索范围都不受限 制,且费用低廉。手工检索尤其适用于学术性和 文科文献的检索。
文献.
概念分析:硬件 软件 逻辑关系:相互排斥关系
检索策略:硬件不包含 软件
hardware NOT software
2022/9/5
第4章 计算机信息检索
26
3.3.1 检 索 技 术
2 、优先算符:括号()
计算机优先执行括号内的检索式; A OR B (检索结果即集合号为S1) C OR D (检索结果即集合号为S2) S1 AND S2
2
计算机信息检索的定义
计算机信息检索,简称机检,是
指利用计算机查找文献信息的 过程。
2022/9/5
第4章 计算机信息检索
3
计算机信息检索的发展历史
四个主要的发展阶段 第一阶段:50年~ 电子管 第二阶段:65年~ IC,联机检索 第三阶段:85年~ DOS,光盘网络 第四阶段:93年~ WINDOW,互联网
信息检索技术第3章搜索引擎应用简明教程PPT课件
第3章 搜索引擎应用
3. 多元集成型 多元集成型又称为元搜索引擎。Internet上信息非常丰富,任何一 个搜索引擎都无法将其完全覆盖。建立在多个搜索引擎基础之上的多元 集成型搜索引擎,在一定程度上满足了用户更多、更快地获得网络信息 的要求。 多元集成型搜索引擎有串行处理和并行处理两种方式。串行处理是 将检索要求先发送给某一个搜索引擎,然后将检索结果处理后,传递给 下一个搜索引擎,依次进行下去,最终将结果反馈给用户。串行处理方 式准确性高,但速度慢。并行处理则是将检索请求同时发给所有要调用 的搜索引擎。并行处理方式速度快,但重复内容较多。
第3章 搜索引擎应用
3.1.2 搜索引擎概念及工作原理 早期的搜索引擎只是把Internet中的资源服务器的地址收集 起来,按其提供的资源类型分成不同的目录,再一层层地进行分 类。要找到自己想要的信息可按他们的分类一层层进入,最后到 达目的地。 1994年初,第一代真正基于WWW的搜索引擎Lycos诞生。 到1995年,商业化的搜索引擎开始大规模开发,第一代产品的代 表厂商包括Yahoo、Excite、Infoseek、AltaVista 等,其从典 型的目录式分类结构发展到全文搜索引擎。目前,搜索引擎的使 用已经成为收发电子邮件之后的第二大互联网应用技术。 对于搜索引擎的概念,在教材里指的是一种在Internet上的 应用软件系统,它以一定的策略在网络中搜集、发现信息,对信 息进行理解、提取、组织和处理,并为用户提供检索服务。
第3章 搜索引擎应用
3.3 移动搜索 移动搜索是指以移动设备为终端,对普遍互联网进行的搜索。其能够 帮助用户高速、准确地获取信息资源。手机已经成了信息传递的主要设备 之一。尤其是近年来手机技术的不断完善和功能的增加,利用手机上网也 已成为一种获取信息资源的主流方式。 3.3.1 移动搜索技术 移动搜索是指用户在移动通信网络中,通过移动终端,利用 SMS、 WAP等多种特定搜索方式获取所需信息的搜索行为。移动搜索服务的核 心是将搜索引擎与移动设备有机结合,生成符合移动产品和用户特点的搜 索结果,从而脱离对固定设备和固定通信网的依赖,实现随时随地的信息 获取。
江南大学阶段性机考信息检索与利用第3阶段测试题
考试科目:《信息检索与利用》第7章至第10章(总分100分)一、单项选择题(每题2分,共20分)1、Springer Link是()Springer出版社整合电子和印刷出版物的信息服务平台。
A、德国B、美国C、荷兰D、英国2、我国现行专利法规定( )的保护期限自申请日起为20年。
A、发明专利B、C、实用新型专利D、外观设计专利3、1424年,( )制定了世界上第一部专利法。
A、英国B、美国C、威尼斯D、法国4、“提出一个问题往往比解决一个问题更重要”是科学家()之言。
A、伽利略B、爱因斯坦C、法拉第D、爱迪生5、参考文献的著录,[D]表示()文献类型。
A、期刊论文B、专利C、会议文献D、学位论文6、Textile Technology Complete(TTC)收录大量关于()相关信息。
A、电气和电子技术B、生物工程技术C、人文社会科学D、纺织科学与技术7、ISO是()名称的缩写,它是1946年成立的多国联合组成的非政府性国际化机构。
A、国际专利组织B、国际标准化组织C、国际会议机构D、保护工业产权巴黎公约8、查新是围绕项目科学技术要点,针对(),查证其新颖性的信息咨询服务工作。
A、选题B、检索结果C、查新点D、成果9、()是运用数学方法对研究对象的本质特征进行量化描述与分析的方法。
A、定量分析方法B、定性分析方法C、定性与定量结合分析方法D、归纳法10.下列()数据库中可检索美国四大科技报告。
A、SCIB、NTISC、EID、OCLC二、多项选择题(每题2分,共20分)1、EBSCO数据库提供的检索方式有()。
A、专家检索B、基本检索C、浏览D、高级检索2、Wiley数据库检索结果可按()排序。
A、被引频次B、题名字顺C、相关性D、出版日期3、检索国内学位论文的数据库有()。
A、万方数据中国学位论文数据库B、维普资讯数据库C、CNKI中国博硕学位论文数据库D、国家科技图书文献中心中文学位论文库4、我国的学位论文分为()。
信息检索与利用第3讲-
外文期刊数据库3-- Taylor & Francis
检索框 浏览
外文期刊数据库4
IEL(IEEE/IET Electronic Library )
IEL数据库提供IEEE(美国电气电子工程师学会) 和IET(英国国际工程和技术学会)出版219种期刊; 每年1200多种IEEE会议录和20多种IET会议录, 总量超过12000卷; 超过2000种IEEE标准,全文文献数量超过200多万 篇; 内容覆盖了电气电子、航空航天、计算机、通信 工程、生物医学工程、机器人自动化、半导体、纳 米技术、电力等各种技术领域。
外文期刊数据库2--AIAA
检索框
浏览
外文期刊数据库3
Taylor & Francis ST
Taylor
& Francis出版集团于1798年创建于英国伦敦, 拥有长达两个世纪的丰富出版经验,是世界领先 国际学术出版集团之一,每年出版超过1500种期刊, 享有高质量美誉。出版的电子图书近20,000册。 T&F ST期刊数据库目前提供超过386种经专家评 审的高质量科学与技术类期刊,其中超过78%被 SCI收录,内容最早至1997年。 该科技期刊数据库包含5个学科:化学、工程、 计算及技术、物理学和数学、环境与农业科学。
外文期刊数据库4--IEL
检索框
外文期刊数据库5
John Wiley & Sons Inc.
约翰威立国际出版公司1807年创建于美国,是全
球知名的出版机构。威立(Wiley)是全球唯一一 家在全球学术出版、高等教育出版和专业及大众图 书出版领域处于领先地位的独立出版商。 Wiley Online Library收录有1500余种同行评审的学 术期刊和书籍,涵盖科学、技术、医学、社会科学 及人文科学等各领域。 我馆订购数据: 材料学科组26种期刊、工程组47种期刊、化学组 84种期刊和Business,Computer Science等学科组若 干种期刊的全文。
“信息检索与利用”检索报告(搜索引擎检索)
[3]网络信息检索的未来[M]傅蓉图书馆学研究2002-07-30/kns/brief/default_result.aspx
[4]论网络环境下情报检索语言的发展趋势[C],易红,徐军华,武汉大学/view/feae8bd99ec3d5bbfd0a74cf.html
[5]现代信息检索在网络环境下的发展趋势江苏教育学院王小婷(中图分类号)G250.73〔文献标识码〕F〔文章编号〕1008-0821(2006)10-0067-02
/view/be1c8e3f87c24028915fc39a.html
检索实习总结(检索方法、检索系统的比较,检索过程、检索结果的分析等).
“信息组织与利用”检索报告
(注:利用搜索引擎查找相关信息)
班级:计算机15-1学号:5011110121姓名:艾丽木姑丽。塔依尔分数
课题名称
网络信索引擎)
课题分析:以计算机技术、通信技术和网络技术为代表的现代信息技术的飞速发展,改善了信息检索技术的软硬件环境,促进了信息检索理论与实践的发展,同时也给信息检索带来了新的挑战。网络信息资源纷繁复杂、类型多样,如何从海量的网络信息资源中快速、准确、高效的检索到所需信息,是现阶段值得关注的问题。用户对信息的需求、利用与信息量的急剧增长之间的矛盾,尚未得到很好的解决。而知识检索能适应用户的现实信息需求及其发展变化。
计算机检索的方法
息”。
太复杂了!
第一节
5. 优先算符()
运算符
将表达式的某一部分用括号括起来,表示命令计算机首先运
算()中的提问式,而不按计算机系统默认的运算符优先级 别运行。
6. “”
搜索完整的短语或者句
第一节
运算符
子
可以用于搜索完整的短语和句子,这里的“”是半角符号,
(nW)算符:
运算符
(nW)是n words的缩写,表示此算符两侧的检索词之间允 许插入最多n个词,且词序不可变。 如wear (1W) material相当于检索 wear materials、wear of materials等词。
第一节
2. 位置算符
(N)算符:
运算符
(N)是near的缩写,表示此算符两侧的检索词必须紧密相 连,词序可变,词间不允许插入其他词或字母,但允许有一空 格或标点符号。
如.xls、.ppt、.doc、.rtf,WordPerfect文档,Adobe 的.pdf文档,Flash动画文档的.swf文档,电子书文档.chm 等等。
第一节
运算符
9. inurl 在特定的URL链接中搜索
inurl:限定词,用于在特定的URL链接(也就是网址,网页
地址)中搜索你需要的结果。 很多网站把某一类具有相同属性的资源名称显示在URL链接 中,常见的有“mp3”、“midi”、“pdf”、“doc”等。用 这个语法的好处是,你是在已经被分类的专题资料中搜索, 所以检索结果的相关性非常高。 例如,要搜索二泉映月的mp3:二泉映月 inurl:mp3,就是 在URL链接中含有“mp3”的页面中搜索,所以得到的搜索 结果自然是相关度非常高的。
第3讲 文献检索技术
2)“(nw)” “(nW)”中的“W”的含义为“Word”,它允许两词间 插入最多为n个其他词,包括实词和系统禁用词, 词序不变。 例如: communication (2W) satellite 则会检出 communication satellite communication though satellite communication on the satellite
第3讲 文献检索技术
2005.7
一、布尔逻辑检索技术 在检索实际中,检索提问涉及的概念往往不 止一个,而同一个概念又往往涉及多个同义 词或相关词。 为了正确地表达检索提问,系统中采用布尔 逻辑运算符将不同的检索词组配起来,使一 些具有简单概念的检索单元通过组配成为一 个具有复杂概念的检索式,用以表达用户的 信息检索要求。
5 注意事项 1)有的检索工具以符号形象地表达布尔检索的功能, 如“+”表示逻辑与,“-”表示逻辑非。有的检索 工具直接把布尔逻辑隐含在菜单中,例如,Lycos以 “match all terms”表示逻辑与,以“match anபைடு நூலகம் term”表示逻辑或。绝大多数检索工具的高级检索 完全用表格和文字来表达布尔关系,如,Excite以 “必须包括(MUST contain)”表示逻辑与,用 “一定不含”(MUST NOT contain)表示逻辑非。 有的检索工具部分支持布尔关系,如Yahoo!尚不支 持逻辑非。
1 逻辑“与” 逻辑“ 含义: 含义:检出的记录必须同时含有所有的检索词。 基本作用: 基本作用:一种用于交叉概念或限定关系的组配, 可以缩小检索范围,有利于提高检索的专指性。 用and 或*表示 例如:查找同时含有概念A 和概念B 的文献,可表 示为:“A and B”或“A*B”
利用计算机技术提高信息检索效率的方法
利用计算机技术提高信息检索效率的方法随着信息技术的发展,我们生活在一个信息爆炸的时代。
面对海量的信息,我们往往需要花费大量时间和精力来寻找我们需要的信息。
然而,利用计算机技术可以帮助我们提高信息检索的效率,让我们更加高效地获取所需信息。
本文将探讨一些利用计算机技术提高信息检索效率的方法。
首先,利用搜索引擎是提高信息检索效率的一种重要方法。
搜索引擎通过自动化的方式对互联网上的信息进行收集、整理和索引,用户只需输入关键词即可得到相关的信息。
搜索引擎通常会根据用户的搜索历史和兴趣进行个性化推荐,从而提供更加准确和有用的搜索结果。
此外,搜索引擎还提供了各种搜索策略和高级搜索选项,用户可以根据自己的需求进行筛选和精确搜索,从而缩小搜索范围,提高检索效率。
其次,利用数据挖掘技术可以帮助我们发现隐藏在大数据中的有用信息。
数据挖掘是一种从大规模数据中提取模式、关联和知识的技术。
通过对大数据进行分析和挖掘,我们可以发现数据中的潜在规律和趋势,从而更加准确地获取我们需要的信息。
例如,利用数据挖掘技术,我们可以分析用户的搜索历史和行为模式,从而提供个性化的搜索结果和推荐服务。
此外,数据挖掘还可以帮助我们进行文本分类、信息聚类和关系抽取等任务,从而更加高效地组织和管理信息。
另外,利用自然语言处理技术可以帮助我们更加准确地理解和处理文本信息。
自然语言处理是一种研究如何让计算机理解和处理人类语言的技术。
通过对文本进行分词、词性标注、句法分析和语义理解等处理,我们可以将文本转化为计算机可以理解和处理的形式,从而实现更加精确和智能的信息检索。
例如,利用自然语言处理技术,我们可以实现基于语义的搜索和问答系统,用户可以通过自然语言的方式进行查询和交互,从而更加方便和高效地获取所需信息。
此外,利用机器学习技术可以帮助我们建立更加准确和智能的信息检索模型。
机器学习是一种通过训练数据来构建模型和算法,从而实现自动化学习和推理的技术。
通过对大量的训练数据进行学习和训练,我们可以建立起适应不同用户需求和信息特点的检索模型,从而提供更加准确和个性化的搜索结果和推荐服务。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
前截词
• 前截词:将截词符号放在一个字符串的左方, 代替该位置上的有限或无限个字符,也称为左 截词、后方一致。 例如: *physics,可检 physics、astrophysics 、 biophysics等;
*computer,表示computer, microcomputer, minicomputer等;
• 较少使用
19
2.1.3 检域限制
• 检域限制,限定检索词出现在数据库记录中某一字段范 围的一种检索技术。 • 检索时,系统只对指定字段进行匹配运算,提高检索效 率和查准率。 • 检域限制方式有后缀方式和前缀方式。 后缀方式是在检索词之后加上指定检索字段的字段代码。 书写格式为:检索词/字段代码 例如:aircraft/TI 前缀方式是在检索词之前加上指定检索字段的字段代码。 书写格式为:字段代码=检索词 例如:AU=HU,Haiyan • 检域限制符则有后缀限制符和前缀限制符。后缀限制符 对应基本索引字段,反映文献的内容特征;前缀限制符 对应辅助索引字段,反映文献的外部特征。
21
常用字段名及代码
22
注意
目前各个检索系统所选取的字段各不相同,即使字段相同, 检域限制也可能采用不同的书写格式。
如对于题名字段,Ei中,用 highway transport* within TI 表示; OCLC Firstsearch 中,用 TI: highway transport* 表示。 在进行字段检索时,应先看一下该数据库的使用指南。 例: Ei CPX Web 网络版数据库主要字段的字段代码如下: CV Ei叙词表受控语 TI 题名 AB 文摘 AU 著者姓 AF 著者机构名称 ST 连续出版物名称
32
(3) (N)—Near
• (N)表示该算符两侧的检索词紧邻,中间不允 许插入其他词(空格、连字符和标点除外), 但两者的相对位置可以颠倒。 • 例如:computer(N)network 可检出含有 computer network 、network computer 形式的 文献记录。 • ( Dialog 为例)
33
(4) (nN)—n Near
• (nN)表示此算符两侧的检索词之间允许 间隔最多n 个词或代码,且两者的顺序 可以颠倒。 • 例如 computer(2N)system 可检出含有 computer system ,computer code system ,computer aided design system , system using modern computer 等形式的 文献记录。 (N),(1N),(nN)
30
(2 )(nW)—n Words
• (nW)表示在此算符两侧的检索词之间最多允许 间隔n 个词(实词或虚词)或代码,且两词在记 录中的先后顺序不能颠倒。
• 例如:laser(1w)printer 可检出含有laser printer 和laser color printer 的文献; • Computer(1w)animation可检出含有Computer animation、Computer assisted animation的文 献。
(c) 检索式中有not时前后检索词不能交换。
• 备注: ( )必须在半角和英文状态下输入
9
布尔逻辑检索表达式的优缺点
• 优点:表达直观清晰,方便扩检和缩检。 易于计算机实现。
• 缺点:没有反映文献内容(或信息需求) 所涉及的多个概念的相对重要性。没有 反应概念之间的内在语义关系。
10
写出下图阴影部分的布尔逻辑检索表达式
2.1.2 截词
• 截词(truncation):针对同义不同形词、同一词根的不同词形、 词性、单复数等原因造成检索词列举不全形成漏检而提出的 特殊检索技术,将检索词在被认为合适的地方截断,用截词 符进行处理的一种方法。
• 截词符号:一般为“?”或 “*” 或其它。各检索系统规定不同, 目前无统一标准。 • 截词符具有“OR ”运算符的功能,提高查全率,减少输入检 索词的时间,提高检索效率。
20
2.1.3 检域限制
• 基本索引字段 中文:标题、文摘、叙词、自由标引词 英文:Title 、abstract 、 descriptor、 identifier 代码: TI、 AB、 DE、 ID •hor、 journal Name、language 、 publication year 代码:AU、JN、LA、PY
信息检索与利用
第三讲 信息检索技术基础
1
主要内容
2.1 信息检索技术 2.2 检索词的确定 2.3 信息检索策略及策略式 2.4 信息检索步骤 2.5 检索效果评价
2
2.1 信息检索技术
2.1.1 布尔逻辑
2.1.2 截词 2.1.3 检域限制 2.1.4 位置逻辑
3
2.1.1 布尔逻辑
布尔逻辑,利用布尔逻辑算符对多个检索词进 行逻辑组配,以利于对复杂课题进行充分而高 效检索的方法。
• 例: computer and control (SCI) computer*control (Dialog) computer control (Google) computer AND control (Google)
5
逻辑或
• • • • 逻辑“或”用于并列或平行概念的组配。 扩大检索范围,提高查全率。 A 表达符号:“OR”、“+” 表达形式:A OR B 或 A + B (Google) (SCI) (EI)
• 例:Energy NOT nuclear (SCI) Energy –nuclear (Google) Energy AND NOT nuclear (ProQuest)
7
2.1.1布尔逻辑
• 逻辑或(OR): 扩大检索范围,有利于提高查全率。
• 逻辑与(AND):缩小检索范围,有利于提高查准率。
B
• 例:airplane OR aircraft airplane or aircraft airplane or aircraft
6
逻辑非
• 逻辑“非”用于从原检索范围中排除不需要的 或影响检索结果的概念。 A B • 缩小命中范围,提高查准率。 • 表达符号:“NOT”、“-” • 表达形式:A not B、A-B
“? ?” ,常用来表示检索词的单复数变化。
例如用system? ? 可以查出sytem 和systems 的文献。System 后最多可以加1个变化的字母。
相同字符串后可能变化两个以上字符时,则在其后连续使用若 干个“?”代替可能变化的字符。例如,??表示两个字符,???表 示三个字符,以此类推。 如表示九十年代;199? ? 表示20世纪:19??
• 位置算符,表示检索词之间的位置关系,实现 精确检索。 • 特征 • 这是一种可以不依赖主题词表而直接使用自 由词进行检索的技术方法。 • 可表达复合内容 • 属于提高专指度的方法 • 目的,表达复杂专深的概念,提高检索专指度, 弥补布尔逻辑算符难以表达某些提问的不足。
28
2.1.4 位置逻辑
分类: • 记录级检索:要求检索词在同一记录中有 L • 字段级检索:要求检索词在同一字段中,有 F • 子字段或自然句级检索:要求检索词出现在 同一子字段或同一自然句中,有 S, • 词位置检索:要求词之间相互位置满足某些 条件,有 W, nW, N. nN 等
布尔逻辑是构造检索表达式的最基本、最简单 匹配的模式。 布尔逻辑算符有三种:逻辑与AND(*) 逻辑或OR(+) 逻辑非NOT(-)
4
逻辑“与”
• • • • 逻辑“与”用于交叉概念或限定关系的组配。 缩小检索范围,提高查准率。 A B 表达符号:and、﹡、空格等 表达形式:A and B、 A * B 、或 A B
26
Search within a specific field using "wn" {test bed} wn ALL AND {atm networks} wn TI (window wn TI AND sapphire wn TI) OR Sakamoto, K* wn AU
27
2.1.4 位置逻辑
12
截词符
*——Ei Village,Web of Science, Elsevier,EBSCO Jane‘s 航空数据库 ?——PQDD ,Dialog
13
截词的分类
• 按截断的位置分: 前截词 中间截词 后截词 前后截词 • 按截断的数量分: 有限截词 无限截词
14
后截词
• 后截词,也称前方一致。将截词符放在一串字符的后面,表示 相同字符串开头,而结尾不同的所有词。 • 一、词尾的有限截断 相同字符串后可能变化一个字符时,则在其后使用一个
• ( 以Dialog为例)
29
(1 )(W)—With
(W)表示该算符两侧的检索词紧邻,在记录中的 先后顺序不能颠倒,且两者之间只允许有一 个空格、标点符号或连字符,不允许有任何 字母或词。(W)可以简写为( )。 • 例如: Aircraft( )design 可检索出含有Aircraft design 的文献记录。 • Computer( )aided( )design 可检索出含有 Computer-aided-design或Computer aided design 的文献记录 • 检索专有名词和词组时,必须使用该算符。
(W),(1W),(nW)
31
常见的另外的表达形式
• Wn 如:W8——EBSCO 例:tax W8 reform • ADJ——Elsevier两词按指定顺序排列, 相当于短语 例:remote ADJ education • PRE/n ——PQDD 例:military PRE/1 weapons