第3讲计算机检索技术概述1
《计算机检索概论》课件
计算机检索系统组成
硬件
包括服务器、存储设备 、网络设备等,用于支 持系统的运行和数据存
储。
软件
包括检索软件、数据库 管理系统等,用于实现 信息检索和数据管理功
能。
数据库
存储各种信息资源的数 据库,是计算机检索系
统的重要组成部分。
人员
包括系统管理员、信息 检索员等,负责系统的
维护、管理和使用。
计算机检索系统分类
系统响应时间
衡量系统性能的重要指标,反 映系统处理速度和网络传输速 度。
用户友好性
包括界面设计、操作便捷性、 个性化服务等,影响用户的使 用体验和满意度。
数据质量与更新频率
反映数据资源的可靠性和时效 性,对检索结果的质量有重要
影响。
03 计算机检索技术
CHAPTER
布尔逻辑检索
布尔逻辑检索是计算机检索中最基本的技术之一,它利用布尔运算符( AND、OR、NOT)对检索词进行逻辑组配,以缩小检索范围,提高检 索的准确性和查全率。
学术研究领域应用
1 2
学术论文检索
计算机检索系统能够快速、准确地检索学术论文 ,为学者和研究人员提供丰富的学术资源。
学科发展趋势分析
通过计算机检索和分析学术论文,可以了解学科 发展趋势和热点,为研究提供方向和思路。
3
学术评价体系构建
基于计算机检索的学术评价体系能够客观地评价 学术成果的质量和影响力,促进学术健康发展。
云存储
利用云计算存储技术实现海量数据的分布式存储和管理,提高数据 的安全性和可靠性。
云安全
通过云计算技术提供安全可靠的数据保护和隐私保护,保障用户的信 息安全和隐私权益。
谢谢
THANKS
计算机检索基础知识
14
这个阶段文献信息数据库不论从种类还
是规模上都远远超过了以往各个阶段, 全文数据库、多媒体数据库更是其中的 佼佼者;文献信息检索不再是单位内部 联机检索,价格昂贵的国际联机检索, 而是通过各个接入网、交换网检索互联 网各结点上的服务器的各类信息。
15
三、计算机信息检索的服务方式
计算机检索系统按其服务功能可分为回溯检索、定题
16
2、定题检索(Selective Dissemination of Information,SDI) 定题检索服务是根据用户检索课题的内容,一次性输 入事先确定好的检索提问式保存在检索系统中,检索 系统根据数据库更新周期,定期地对保存的检索提问 式进行检索,将检索出的最新文献信息提供给用户。 定题检索服务对于长期追踪某一领域的新颖信息很适 合。 3、人机对话检索 这是用户以交互方式直接访问系统及数据库、在线实 时进行的检索。用户一旦输入检索提问,计算机检索 系统就可立即执行,并在用户终端显示屏上输出检索 结果。
33
4、限制检索
限制检索是通过限制检索范围,达到优化检索结果的
方法。限制检索的方式有多种,例如:进行字段检索、 使用限制符、采用限制检索命令等。 1)字段检索 它是把检索词限定在某个/些字段中,如果记录的相应 字段中含有输入的检索词则为命中记录,否则不中。 例如:查找微型机和个人计算机方面的文章。要求 “微型机”一词出现在叙词字段、标题字段或文摘字 段中,“个人计算机”一词出现在标题字段或文摘字 段中,检索式可写为:microcomputer?/de,ti,ab OR personal computer/ti,ab
31
(2)按截断的字符位置划分: 前方一致:允许词尾有变化。如“Textile?”可 同时检出含有Textile和Textiles的文献。 后方一致:允许词头有变化。如“*polymer”可 同时检出含有有Homopolymer,Copolymer等词的 文献。 中间一致:词头、词尾都可变化。如: “*Wave*”可检出含有 wave,waves,wavelet,microwave,wavelength等词 的文献。 中间屏蔽:允许中间的某些字母有变化。如: “Fib??s”相当于查出含有Fibers和Fibres的文献
计算机检索理论基础
3
进入21世纪,随着大数据、人工智能等技术的不 断发展,计算机检索在数据挖掘、个性化推荐等 方面取得了重要突破。
计算机检索的应用领域
学术研究
信息服务
在学术领域,计算机检索被广泛应用于科 研选题、文献调研、学术评价等方面,为 科研人员提供全面的学术信息。
在信息服务领域,计算机检索被用于图书 馆、档案馆、博物馆等机构的信息查询和 检索服务。
计算机检索理论基础
• 计算机检索概述 • 信息检索基础 • 计算机检索技术 • 计算机检索评价 • 未来计算机检索的发展趋势
01
计算机检索概述
计算机检索的定义
计算机检索是指利用计算机技术对信息进行收集、处理、组织和存储,并通过特 定的检索算法和工具,从海量数据中快速、准确地获取所需信息的过程。
信息检索原理
信息检索基于一定的规则和技术,通 过分析信息的内容和特征,以及用户 的需求和查询条件,来匹配和提供相 关的信息。
信息检索语言
分类语言
01
分类语言是一种层次结构的信息组织方式,通过将信息按照主
题进行分类,形成树状的层次结构。
关键词语言
02
关键词语言是一种基于词汇的信息组织方式,通过将信息的关
语义网与智能检索的结合将使计算机能够更好地理解自然语言,提高信息检索的准 确性和效率,为用户提供更加智能化的信息检索服务。
大数据与云计算在信息检索中的应用
大数据是指海量、复杂的数据集,大数据技术的应用将为信息检索带来巨大的变革。云计算则为大数 据处理提供了强大的计算能力和存储空间。
大数据技术可以通过分析大量数据,挖掘出有价值的信息和知识,为信息检索提供更加丰富的内容和更 准确的推荐。
自然语言处理
分词技术
信息检索第三讲
3.选择检索词 3.选择检索词 选择
一个检索课题往往涉及多个概念,选择检索词时首 先要将检索课题涉及的所有概念分离出来,并针 对每一个概念选择尽可能多的检索词。 选择检索词是一种经验积累,检索词一般为名词。 在一定程度上也有章可循: ①词义概念最小化(单元词比多元词检索效果好) 词义概念最小化(单元词比多元词检索效果好) 词义概念最小化 经济* 如:经济发展 经济*发展 ②隐含概念的分析 垃圾的处理(处理——回收与再生) ——回收与再生 如:垃圾的处理围, 检索范围, 提高检全率
A or B
逻辑“ 逻辑“非”
表示, 用”not” 或”-”表示,用于描述概念间的排斥关 not 表示 系和特殊限定关系。
含义:检出文献中必须包含这个算符前的词,必须不含 这个算符后的词。 • 作用:缩小检索范围,提高查准率。
【实例】在搜索引擎中输入“电视台-中央电视台”,查 实例】在搜索引擎中输入“电视台-中央电视台” 询结果不包含“中央电视台” 询结果不包含“中央电视台”。
《EBSCO》数据库使用邻近位置检索算符 EBSCO》 Wn)。 (Wn)。 【实例】用《EBSCO》数据库检索税收改革 实例】 EBSCO》 文献,检索式“ reform”表示tax一 表示tax 文献,检索式“tax W8 reform 表示tax一 定在前,距离reform最多是8个词汇, reform最多是 定在前,距离reform最多是8个词汇,因此 可以检索出 “tax reform”,不能检索出 reform , tax”。 “reform of income tax 。
与运算示意图
A
computer
B
virus
作用: 缩小 作用: 检索范围, 检索范围, 提高检准率
信息检索与利用--第三讲
历史
地理 自然科学 医药卫生 工业技术 农业科学技术 综合性图书
杜威十进分类法
杜威十进分类法(Dewey Decimal Classification,DC/DDC), 美国M.杜威编制的综合性等级列举式分类法。 杜威十进分类法大类表: 000 总论 100 哲学 200 宗教 300 社会科学 400 语言 500 自然科学和数学 600 技术(应用科学) 700 艺术、美术和装饰艺术 800 文学 900 地理、历史及辅助学科
2、国内常用图书分类法简介
任何一个图书馆,不论其藏书有多少,都必须对藏书进 行科学的分类和排架,以便读者有效利用文献资源。 所谓图书分类,就是根据图书的学科内容或读者对象、 文种、编辑形式、体裁等特征来分门别类地组织图书。 •《中国图书馆分类法》 (Chinese Library Classification - CLC) 简称《中图法》,它是当今国内图书馆使用最广泛的分 类法体系,国内主要大型书目、检索刊物、机读数据库, 以及《中国国家标准书号》等都著录《中图法》进行分 类。
1.分类排架法
(1)先按《中图法》分类体系排架; 以文献分类体系为主体的排架方法,多用于排列图书。 分类排架号(索书号)=分类号 + 辅助号
分类号:代表图书内容所属的学科类目, 辅助号:为同类图书的区分号。 一般先按分类号顺序排列,分类号相同,再按辅助号顺序排列, 一直区分到各类图书的不同品种。 (2)同类图书排列法通常有4种: 1)按著者名称字顺排列 即相同类号的图书再依据著者号码的次序排列。用这种排列法可 集中同类中同一著者的不同著作,附加区分号后,还可集中同一 著作的不同版本、不同译本、不同注释本、同一传记主编的各种 传记等。是各国图书馆普遍采用的排列方法。 2)按书名字顺排列, 3)按出版时间排列 4)按图书编目种次排列,
计算机检索基本原理
网络资源与信息检索本章具体内容安排:2.1 计算机检索基本原理概述2.2 计算机检索基本原理2.3 文献信息数据库的基本概念2.4 计算机检索策略的构建与调整要求:初步掌握计算机检索的基本原理、基本类型及其检索策略的构建与调整。
第二讲计算机检索基本原理2.1 计算机检索基本原理概述2.1.1计算机检索概念通过计算机进行的文献信息检索称为计算机检索。
随着计算机技术、远程通讯技术和信息存储技术的飞速发展,信息检索由手工检索过渡到了计算机信息检索。
计算机检索的成功应用,为我们更为及时、准确、全面地继承、利用和发展人类的科研成果提供了先进的手段。
2.1 计算机检索基本原理概述2.1.2计算机检索发展第一个阶段:脱机检索阶段(50年代至60年代)脱机检索(Offline Retrieval):即批处理检索检索要求检索系统检索结果检索人员→检索策略→成批检索→用户缺点:1. 地理上的障碍(远、不便于检索结果的获取)2. 时间上的迟滞(定期检索,不能及时获取)3. 封闭式的检索(指检索策略一经输入系统就不能更改,更不能依据机检应答来修改检索式)2.1 计算机检索基本原理概述第二个阶段:联机检索阶段(Online Retrieval)(60-80年代)终端设备通讯网络检索系统用户—> 检索策略—>人机对话———> 获取信息三个时期:60年代开发试验;70年代末应用阶段;80年代以后进入信息—计算机—卫星通信三维一体的新阶段,即以信息文献不受地区、国家限制而真正实现全世界资源共享为目的的国际联机信息检索阶段。
2.1.1联机检索阶段优缺点优点:1.速度快效率高2.检索范围广泛全面3.检索图径多方便灵活4.检索内容新实时性强5.检索辅助功能完善缺点:1.检索的费用高2.检索系统及其文档如数据库收录、标引、特点较难了解熟悉3.检索技术和技巧不宜掌握2.1.2 国际著名的联机检索系统著名的国际联机检索系统有美国的DIALOG系统、ORBIT系统、BRS系统以及MEDLARS 系统,还有欧洲的ESA/IRS系统、英国的BLAESE系统等。
信息检索与分析第3-5章
4.查找数值、公式、规格、条例、专业知识
• 查考数值、公式、规格、条例、专业知识的数据库主要有: • 1)中国科学数据库(http:// /) 由中国科学院创建。内容涵盖了多种学科,提供了大量具有重要 科学价值和实用意义的科学数据和资料。 • 2)贝尔斯坦/盖墨林化学数据库Beilstein/Gemlin Cross Fire • 3)物质的物理化学参数数据库 (/CUU/Constants/index. html)。 • 4)化学元素周期表(/chemistry/webelements/) 查找此类信息的印刷本参考工具书宜采用手册、表册。手册也有叫 “指南”、“便览”、“须知”、“大全”;包括综合性《读者百科 词典》、《世界知识手册》等和专科性《农业技术实用手册》、《世 界经济手册》等。此外,还有表册,如《常用数学公式大全》、《电 子学数据表与公式手册》。
• • • • • • 1.分类查询 2.关键词查询 3.多次查找 4.按照地域查询 5.查询最新信息 6.其它搜索技巧
1.Google高级检索技巧
• 1)短语检索 • 2)字段限定检索 (1) 限定网站 【实例】输入“金庸 site:”搜索中文教育科研网站() 上所有包含“金庸”的页面。 (2) 限定网页 【实例】输入“inurl:midi 沧海一声笑”查找MIDI曲“沧海一声 笑”。
(3)使用字段限定
• ① intitle title是网页的标题, intitle: A指所有搜索结果的title中都要包含“关键词A”。 • ② site site是限定在某类站点或某个网站内搜索。 例如“论坛搜索引擎 site: ”,是在sowang这个网站内搜索 “论坛搜索引擎”的网页。 • ③ filetype filetype是限定文件类型。 用法是“关键词A filetype:文件格式后缀名”。 如“个人年终总结 filetype:doc”,搜索结果全都是word文件的个人年 终总结。 • ④ inurl url就是地址栏里的域名等。 inurl常见的使用方式是“关键词A inurl:英文字符B”。 例如“搜索引擎 inurl:ssyq ”,是检索在url中含有ssyq的网页中关于 “搜索引擎”的信息。
计算机检索技术与方法(研究生)
将词干中间的部分输入,以检索出所有包含该词 干的词。
后截断
将词干的后部分输入,以检索出所有以该词干结 尾的词。
位置运算符应用
W/n
表示两个词之间的位置关系,n为两个词之间的最大词数。
PRE/n
表示一个词在另一个词的前面,n为两个词之间的最大词数。
POST/n
表示一个词在另一个词的后面,n为两个词之间的最大词数。
使用高级检索功能
运用布尔逻辑运算符(AND、OR、NOT) 组合检索词,提高检索精度。
浏览与筛选结果
根据相关性、发表时间等标准对检索结果进 行排序和筛选。
专利数据库检索技巧与实例分析
明确专利检索目标
确定所需专利的类型(发明、实用新型、外观设计)、申请或授权时间等。
选择专利数据库
使用如国家知识产权局专利数据库、德温特世界专利索引等数据库。
优化策略探讨
模型优化
针对现有检索模型的不足,提出改进方案,如引入新的特征、改 进模型结构等。
参数调整
通过调整模型参数,优化检索性能,如学习率、正则化系数等。
融合多种方法
探讨将不同检索方法或策略进行融合的可能性,以期获得更好的检 索效果。
THANKS
感谢观看
编制专利检索式
结合IPC分类号、关键词、申请人等信息编制检索式。
专利信息分析
对检索到的专利进行技术分析、法律状态分析、引证分析等。
互联网信息检索技巧与实例分析
确定信息需求
明确所需信息的类型、来源和时效性。
选择搜索引擎
根据需求选择合短语搜索、限制搜索范围(如特定网站 或文件类型)等方法提高检索效率。
关键词法
关键词选择
选择与主题相关的、具有代表性的关键词进行 检索。
计算机检索技术
02
信息检索基础
信息检索原理
信息检索是利用计算机技术实现信息 查询和获取的过程,通过输入关键词 、主题等检索条件,从大量数据中快 速、准确地获取所需信息。
信息检索的基本原理包括信息标引、 索引和匹配等环节,通过建立索引数 据库,对信息进行分类、标引和索引 ,实现信息的快速检索和获取。
信息检索语言
发展阶段
20世纪80年代以后,随着计算机技术的飞速发展,计算机检索技术也取得了突破性进展。数据库技术、网络技术、 人工智能等领域的成果被广泛应用于信息检索领域,使得信息检索更加高效、准确。
成熟阶段
进入21世纪,计算机检索技术已经逐渐成熟,并渗透到各个领域。云计算、大数据、物联网等新技术的 应用,为计算机检索技术的发展带来了新的机遇和挑战。
大数据环境下的信息检索
01
02
03
数据挖掘技术
通过数据挖掘算法,从海 量数据中提取有价值的信 息,为信息检索提供更多 数据支持。
分布式存储与检索
利用分布式存储技术,将 大规模数据分散存储在多 个节点上,提高数据存储 和检索效率。
实时分析处理
对大数据进行实时分析处 理,快速响应检索请求, 提供实时的信息检索服务。
学术论文检索的优缺点
03
学术论文检索的优点在于能够快速、准确地找到相关论文,缺
点在于需要使用专业数据库,且可能存在版权问题。
案例三:数字图书馆的计算机检索技术
数字图书馆的特点
数字图书馆具有资源丰富、易于检索和共享 的特点,能够满足用户对知识的需求。
数字图书馆检索的关键技术
数字图书馆检索的关键技术包括元数据、数据挖掘 和语义网等,这些技术能够提高检索的准确性和效 率。
03
计算机检索的技术概述
新型信息检索的发展.
二是在广度上提高管理和组织信息的能力 文献资源的网络化和分布化,面向Internet中浩瀚无垠 的资源。
3.2 计算机检索的相关概念
1.检索系统 信息检索系统包括两个子系统:存储子系统和检 索子系统。 2.联机检索 利用与检索系统或信息中心的主机连接,在中央 处理机控制下查询系统内的数据库,并能够与系统 实时对话,随时调整检索策略。 3.数据库 是在计算机存储设备上按一定方式存储的相互关 联的数据集合。
在某些搜索引擎中输入“+电脑+电话+传真”就表示要查找的内容必 须要同时包含“电脑、电话、传真”这三个关键词。
个别数据库例如“国研网”、山东标准网使用“&”代替“and”;欧 洲专利局光盘数据库的“without”、美国专利商标局数据库的“andnot”
4.英语或汉语中都有许多虚词,不能作为检索词。 如:汉语中“的、地、得、了”等助词;
逻辑“或”
用“or”、“+”或逗号表示。在网络搜索引擎 中习惯用逗号代替“OR”。表示检出的记录中至少含有 多个检索词中的任何一个,可以扩大检索范围,增加 命中文献量,防止漏检。常用于连接同义词,相关词 等。
光盘
A
B
磁盘
A or B 例:检索“光盘和磁盘”文献
【实例】在搜索引擎中输入“计算机OR多 媒体OR Windows98”则查询至少包含 “计算机”、“多媒体”、“Windows 98”三者之一的信息。
网络数据库 声音数据库 单机数据库 数值数据库 图像数据库 多媒体数据库 视频数据库 联机数据库
按服务模式划分
3.3 检索式的拟订
3.3.1布尔逻辑检索算符
3.3.2位置检索算符
3.3.3截词检索算符 3.3.4字段揭示及限制算符 3.3.5其它符号 3.3.6注意事项
计算机检索的基原本理及过程
信息选择与确定
确定信息源
根据信息需求,选择合适的信息源,如数据库、网站、图书馆等。
确定检索方式
根据信息源和信息需求,选择合适的检索方式,如关键词检索、布尔逻辑检索等 。
信息检索策略制定
制定检索策略
根据信息需求和信息源,制定合适的 检索策略,如确定关键词、选择检索 字段等。
调整检索策略
根据实际检索结果,对检索策略进行 调整,以提高检索效率。
舆情监测
政府利用计算机检索监测网 络舆情,及时掌握社会动态 。
个人信息获取
信息检索技能
个人通过计算机检索获 取所需信息,提高信息 获取效率。
兴趣爱好
个人利用计算机检索了 解感兴趣的主题和领域。
生活服务
个人通过计算机检索获 取生活服务信息,如餐 饮、旅游等。
06
计算机检索的挑战与未来发展
信息过载问题
感谢观看
将文档表示为向量,通过计算向量间的相似度 进行检索。
概率模型
基于概率论的检索模型,通过计算文档与查询的相关概率进行排序。
信息检索算法
1 2
匹ቤተ መጻሕፍቲ ባይዱ算法
将查询与文档进行逐一匹配,找出符合条件的文 档。
索引算法
建立索引以加快检索速度,常见的索引算法有B 树、哈希等。
3
排序算法
根据相关度对检索结果进行排序,常见的排序算 法有TF-IDF、PageRank等。
信息编码与存储
信息编码
将信息转换为计算机可识别的格式,便于存储和检索。常见的编码方式有二进 制编码、十进制编码等。
信息存储
将编码后的信息保存在计算机的存储介质中,如硬盘、闪存等。存储方式可分 为直接存储和间接存储。
信息检索模型
计算机检索基础知识
1. 计算机检索的概述 2. 计算机检索基础知识 3. 计算机检索的特点
4. 数据库结构
5. 数据库类型 6. 计算机检索服务的类型
计算机检索的产生
计算机技术
外部条件
通信技术 数据传输ຫໍສະໝຸດ 术 文献数量庞大 用户检索需求内部需求
计算机检索含义
所谓计算机文献检索,简单来说就是利用电子计算机对信息 和数据的高速处理能力来存贮数据并从中查找、取出数据这样一 个过程。 检索系统的构成 硬 件 系 统 软 件 软 件 应 用 系 统 软 件 数 据 库
第四代计算机的出现,卫星通讯技术和光纤通讯技术 的实用化,使得计算机情报检索冲破时间和空间的限 制,为快速全面地获取全球性科技情报资料和经济信 息提供了非常方便的条件,从而极大地提高了情报资 料的可获得性和利用价值,充分实现了人类情报资源
的共享。
联机检索阶段(1965-1972)
国际联机检索 (1973-
计算机检索基础知识
逻辑算符
截断算符
检索词的确定 检索式的制定
布尔逻辑运算符
(Boolean
searching)
逻辑与 计算机运算符为:A and B 或A*B 检出记录中同时含有检索词A和检索词B
逻辑或 计算机运算符为:A or B 或A+B 检出记录中含有检索词A或检索词B的文献
截词的形式可以有前截断、中间截断和后截断。
中间截断:“?”出现在词中,“?”或“??”分别表示 该处可填入1个或2个任意字符,以此类推。例如: analy?er 可表示“analyzer”和“analyser”等词汇。
后截断:检索词后加上“?”或“*”时,表示该词后 可添加一个或任意个字符,即为前方一致。比如:防火纤 维
计算机检索概论
云计算与计算机检索的融合
云计算为计算机检索提供了强大 的计算和存储能力,使得大规模
数据处理和分析成为可能。
云计算的弹性可扩展性使得计算 机检索系统能够根据需求动态调 整资源,提高资源利用率和系统
灵活性。
云计算的分布式特性有助于实现 多节点协同检索,提高检索效率
和可靠性。
05 计算机检索的伦理与法律 问题
计算机检索概论
目 录
• 计算机检索概述 • 计算机检索技术 • 计算机检索系统 • 计算机检索的未来发展 • 计算机检索的伦理与法律问题
01 计算机检索概述
定义与特点
定义
计算机检索是指利用计算机技术对信 息进行存储、检索和管理的过程。
特点
高效性、自动化、跨时空、个性化。
计算机检索的历史与发展
萌芽阶段
01
20世纪50年代,计算机开始应用于文献存储和检索。
发展阶段
02
20世纪60至80年代,数据库技术、网络技术的发展,使计算机
检索得到广泛应用。
成熟阶段
03
20世纪90年代至今,互联网的普及,搜索引擎的出现,使计算
机检索更加便捷。
计算机检索的应用领域
信息检索
通过关键词、主题等对网页、 数据库等信息进行检索。
排序算法
根据相关性和重要性对检索结果进行排序,常用的排序算法有 PageRank、TF-IDF等。
信息抽取与知识发现
信息抽取
从大量结构化和非结构化数据中提取 有用的信息和知识,如实体识别、关 系抽取等。
知识发现
通过数据挖掘和分析技术,发现隐藏 在数据中的模式、规律和关联关系, 为决策提供支持。
信息过滤与推荐
学术研究
利用学术搜索引擎、学术数据 库等查找学术资料。
信息检索技术(讲授版)
3.常规法
所谓常规法就是利用常规检索工具查找有关文献的方法,是信 息时代应掌握的最基本的信息查找方法。现在对文献的书目控制手 段已日趋完善,各种印刷版、缩微版、光盘版和网络版的检索工具 层出不穷,有很大的挑选余地。用户应根据自己的检索知识和条件 选用一种或几种检索工具。常规法可分为顺查法、逆查法和抽查法。
分类检索的步骤:
1。分析待检课题,确定其学科,并厘清学科间的各种关系。 2。查出待检课题的分类号(工具简单时可以省略) 3。选择适当的检索工具 4。进入检索系统后选择分类号途径,并在对话框内输入分类号,开 始检索。 5。对比题目,阅览相关信息,选出所需信息,并下载相关信息
6。原文的索取
《中图法》结构
二级类目
三级类目
四级类目
五级类目
…
中图法8种复分表
4/18
《中图法》五大部类
马克思主义、列宁主义、毛泽东思想
哲学 宗教
社会科学 自然科学
综合性图书
5/18
《中图法》结构
1)类目结构
F 经济
一 级 类 目
6/18
F、经济类 F0 经济学 F1 世界各国经济概况、经济史、经济地理
4.排除、限定和合取法
这实际上是将信息加工的方法融入检索中去。思维中使用排除这一 概念,是指对查找对象的产生和存在的状态在时间和空间上加以外在 否定。把这一方法移植到检索中,就是在时间或空间上极大地收缩检
索范围。限定法是相对于排除法而言的,指对查找对象在时间和空间
上加以内在的肯定。排除的结果必然是限定,反之亦然。
16/18
图书馆图书标识:索书号
图书馆同一分类号的文献数量很多,为了区别相同类号的文献,在 分类号的基础上,又给了一个区分符号,这个符号称之为书次号。书 次号与分类号一起共同构成索书号。浙江传媒学院图书馆的文献就是 按照索书号的顺序排架管理的,书次号使用的是著者号,同样以字母+ 数字标明。。 中文书索书号如:
信息检索与利用第3讲-
外文期刊数据库3-- Taylor & Francis
检索框 浏览
外文期刊数据库4
IEL(IEEE/IET Electronic Library )
IEL数据库提供IEEE(美国电气电子工程师学会) 和IET(英国国际工程和技术学会)出版219种期刊; 每年1200多种IEEE会议录和20多种IET会议录, 总量超过12000卷; 超过2000种IEEE标准,全文文献数量超过200多万 篇; 内容覆盖了电气电子、航空航天、计算机、通信 工程、生物医学工程、机器人自动化、半导体、纳 米技术、电力等各种技术领域。
外文期刊数据库2--AIAA
检索框
浏览
外文期刊数据库3
Taylor & Francis ST
Taylor
& Francis出版集团于1798年创建于英国伦敦, 拥有长达两个世纪的丰富出版经验,是世界领先 国际学术出版集团之一,每年出版超过1500种期刊, 享有高质量美誉。出版的电子图书近20,000册。 T&F ST期刊数据库目前提供超过386种经专家评 审的高质量科学与技术类期刊,其中超过78%被 SCI收录,内容最早至1997年。 该科技期刊数据库包含5个学科:化学、工程、 计算及技术、物理学和数学、环境与农业科学。
外文期刊数据库4--IEL
检索框
外文期刊数据库5
John Wiley & Sons Inc.
约翰威立国际出版公司1807年创建于美国,是全
球知名的出版机构。威立(Wiley)是全球唯一一 家在全球学术出版、高等教育出版和专业及大众图 书出版领域处于领先地位的独立出版商。 Wiley Online Library收录有1500余种同行评审的学 术期刊和书籍,涵盖科学、技术、医学、社会科学 及人文科学等各领域。 我馆订购数据: 材料学科组26种期刊、工程组47种期刊、化学组 84种期刊和Business,Computer Science等学科组若 干种期刊的全文。
信息检索技术(1)
第十三页,共61页。
截词符用来对检索词(干)进行扩展。在不同的检索系统中,截词符有不同的表示方 法,通常用(chánɡ yònɡ) “?”或者“*”来表示。 截词方式: 按截断的位置来分共有三种:后截断、中间截断、前截断; 按截断的字符数量来分:有限截词(limited truncation)、无限截词(unlimited truncation)。 平时用得较多的是后截断(无限截词和有限截词)和中间截断(仅允许有限截词)。 (1)后截断 后截断即前方一致检索,是最常用(chánɡ yònɡ)的检索技术。将截词符放在一个词干 的后边,以表示其后可有无限或有限个字符。
第七页,共61页。
(2)逻辑(luó jí)“或”:用“OR”或“+”表示
在检索中,你也可以用逻辑“或”(OR)连接关键词。检索 式(A OR B )可以检索到包含A或者B或者A和B同时出现的文 献。OR最好用于针对一个(yī ɡè)概念的同义词检索。很显然, 使用OR可以扩大检索范围。
第八页,共61页。
第二十三页,共61页。
信息检索的基本(jīběn)流程
分析(fēnxī)检索要求 选择(xuǎnzé)数据库
确定检索词
修改检索式Biblioteka 不满意第二十四页,共61页。
构成检索式
第十一页,共61页。
图(a)
图(b)
图(c)
第十二页,共61页。
1.2 截词算符( truncation )
Comput*er
截词符就是用一个符号来代替单词的一部分或某个字母。截词符只用于英文检 索(jiǎn suǒ)。 截词检索(jiǎn suǒ)的作用是减少检索(jiǎn suǒ)词的输入而保 证相关检索(jiǎn suǒ)概念的涵盖,同时也方便解决语言文字拼写方面的差异 (如美式英语和英式英语),避免漏检。这样可以扩大检索(jiǎn suǒ)范围, 提高查全率,节省检索(jiǎn suǒ)时间。 看看下面这些例子:
计算机检索PPT课件
优化检索策略的方法
• 如果检索结果太多,可缩小检索范围,提高查准率。
• ①使用规范词、下位类主题词,提高检索词专指度; • ②限定检索字段;(明确不同字段的检索范围) • ③限定文献外部特征,如语种、时间等;
第27页/共29页
优化检索策略的方法
• 如果检索结果太少或为0,可扩大检索范围,提高查全率。
第20页/共29页
截词检索与通配符
• 用符号取代检索中部分字母,保留检索词中的相 同部分,可提高查全率
• 按照位置分为:前截词、中截词、后截词 • 按照截词符代表的字符数量:有限截词、无限截
词 • 截词符号:*、?、$、#等 • 各种检索系统采用不同的符号
• 如child*,可以检索出child,children,childhood…… • wom?n ,可以检索出wo ma n,第w2o1m页e/共n 29页
计算机检索途径和技术
• 据用户的需求,提供难易程度不同的检索方式: • 分类浏览/导航、基本检索/简单检索、高级检索、专业检索等。
第12页/共29页
计算机检索途径和技术
• 数据库检索中提供的其他检索技术:
• 默认检索:又称“缺省检索”,指按照数据库预先设定的范围 进行检索。
• 二次检索:在前一次检索的结果上,再次进行检索,缩小检 索范围。
• 运算优先级:NOT>AND>OR • 可以用括号改变运算顺序:(),括号里的检索式优先运算。 • 例:(消渴 OR 糖尿病) AND 药物治疗
第16页/共29页
逻辑与
• A AND B • 检出记录中同时含有检索词A和。
•
胃癌 AND 十二指肠溃疡
第17页/共29页
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.弄清检索课题的信息类型和时间要求
时间要求上,研究层次低、学科发展快的,则检索的时 段可以适当缩短。 例如:查“超声波技术在兽医上的应用”和查国内外研究社 会保障制度的文章。
3.考虑课题的特殊要求
4.明确用户自身的信息需求
分析课题时须注意的问题
1.要从概念入手,而不是从字面意思入手; 2.概念扩展时要考虑同义词、相关词、上位词/下位词等 (既词表中提到的用、代、分、属、参、族),还要注意中英文 混用的现象 ; 3.当课题比较生疏时,应当首先利用百科全书、图书等弄清 楚概念,了解课题的有关专业知识,弄清楚课 题的内容和要解决 的问题以及解决该问题的初步设想等,进而确定检索的主题范围。 4.人文社会科学的检索,如果是回溯检索,应该熟悉不同年 代所使用的概念和术语 5.忽略那些意义过于宽泛、通用的词,比如:“研究” 、 “应用” “探讨”等。
3.3.2 位臵检索算符
也叫“邻接检索”, 表示两个或多个检索词之间的 关系检索方式,常用的位臵算符有: 1. w (with) 表示两个检索词前后次序固定,二者之间只能间隔连 字符、空格或者是逗号。 【实例】在OCLC中输入communication W satellite; 2 . wN (with N)
数据库的类型
按收录的文献类型划分
按信息处理层次划分
书 目 及 图 书 全 文 数 据 库
学 位 论 文 数 据 库
期 刊 论 文 数 据 库
专 利 数 据 库
产 品 数 据 库
按收录文献信 息的范围划分
综合性数据库
专业性数据库
文本数据库 全 文 数 据 库
书 目 数 据 库
文 摘 数 据 库
按 媒 体 信 息 划 分
6、检索有关“一种新的天线阵方向图综合 方法”的相关文献。 7、检索“试论政府在信用制度建立中的作 用”的相关文献。
3.4检索步骤
1.检索准备 2.选择合适的检索工具 3.选择检索途径 4.拟订检索式 5.实施检索 6.筛选文献 7.索取原文
3.4.1检索准备
1.弄清课题学科属性、专业范围及其 相关内容 首先明白是单一学科还是涉及多 学科或跨学科。 当课题涉及多学科时,以主要学 科为检索重点,次要学科为补充。 例:超声波技术在兽医上的应用。
检索式示例
1.检索关于研究鲁迅的论文,应选择什么检索字段。 【题解】必须选择标题或者关键词,不能选择为作者途径。 2. “知识产权”一词还可析出哪些隐含概念。 【题解】“专利权”、“版权”、“著作权”等概念。 3.用《中文科技期刊数据库》检索著名经济学家胡鞍钢在 《公共管理学报 》上面发表的论文。 【题解】“A=胡鞍钢*J=公共管理学报 ” 。 4.写出“研究法律与经济和政治的关系“的课题的检索式。 【题解】“法律*(经济+政治)” 5.检索有关“中国国内商业银行的信贷管理或信贷风险的 研究”方面的相关文献。 【题解】(商业银行-外资银行)*(信贷管理+信贷风险)
逻辑“非”(NOT)
表示检索结果中排除含有某些词的记录,可 以缩小检索范围,减少文献输出量,但并不一定 能提高查准率。
能源
A
B
核能
A not B 例:检索“除核能以外有关能源”文献
【实例】输入“automobile not car”, 就要求查询的结果中包含automobile (汽车),但同时不能包含car(小汽 车)。 【实例】在搜索引擎中输入“电视台-中 央电视台”,查询结果不包含“中央电 视台”。
AU——Author 作者
AF——Affiliation 作者单位 SO——Source 文章来源(刊名信息等) ISSN(ISBN)—— International standard Serial (book) Number PY——Publication year 出版年 LA——Language 语种
字段(Field)
记录(Record)
文档(File)
数据库
字段(field):如在数据库中题名、作者、作者单位、 期刊名、摘要、全文等等均是字段;一条记录由多个 字段值组成;对计算机检索来说字段相当于检索入口。
常用字段缩写: TI——Title 文章题目 AB——Abstract 文章摘要 KW——Key Word 关键词
1.
确定检索词
切分:是对课题的语句以词为单位进行切 分,转换为检索的最小单元。
例:检索“吸烟与肺癌的关系研究”相关文献。 例:检索“肺气肿病人的血氧测定法”方面的 相关文献。
注意:应保持词意义的完整。
删除:对不具有检索意思的虚词或过分宽 泛的限定词应予以删除。
替换:是对表达不清晰或容易造成检索误 差的词用更明确、更具体的词予以替换。 如公交—>公共交通,绿色包装->环保包装 等
太阳
A
A and B
B
能源
例:检索“太阳能”文献
【实例】检索“中国人民政府”这个网站, 可以输入“中国*政府”、“中国 and 政府”、“中国 政府”等。 【实例】检索课题“中国外汇储备规模的 研究”不是一篇文章,需要检索有关的 期刊文章,其检索式宜表达为“中国 and 外汇 and 储备 and 规模”
逻辑“或”
用“or”、“+”或逗号表示。在网络搜索引擎 中习惯用逗号代替“OR”。表示检出的记录中至少含有 多个检索词中的任何一个,可以扩大检索范围,增加 命中文献量,防止漏检。常用于连接同义词,相关词 等。
光盘
A
B
磁盘
A or B 例:检索“光盘和磁盘”文献
【实例】在搜索引擎中输入“计算机 | 多媒体 | Windows98”则查询至少包含 “计算机”、“多媒体”、“Windows 98”三者之一的信息。
在某些搜索引擎中输入“+电脑+电话+传真”就表示要查找的内容必 须要同时包含“电脑、电话、传真”这三个关键词。
个别数据库例如“国研网”、山东标准网使用“&”代替“and”;欧 洲专利局光盘数据库的“without”、美国专利商标局数据库的“andnot”
4.英语或汉语中都有许多虚词,不能作为检索词。 如:汉语中“的、地、得、了”等助词;
第三讲
计算机检索技术概述
3.1 计算机检索简况 3.2 计算机检索的相关概念
3.3 检索式的拟订
3.4 检索步骤
3.1 计算机检索简况
计算机检索指利用计算机及相关设备进行的文献信息检 索。 信息检索技术正向两个方向迅速发展: 一是在深度上提高管理和组织信息的能力 传统信息检索向全文文本、多媒体、多载体、多原理等
网络数据库 声音数据库 单机数据库 数值数据库 图像数据库 多媒体数据库 视频数据库 联机数据库
按服务模式划分
3.3 检索式的拟订
3.3.1布尔逻辑检索算符
3.3.2位臵检索算符
3.3.3截词检索算符 3.3.4字段揭示及限制算符 3.3.5其它符号 3.3.6注意事项
词间位置检索
基本技术
3.3.1 布尔逻辑检索算符
英语中的a about also and any as at be between by both for some so not this with等 介词或冠词等
3.3.5检索策略
检索策略是对检索的全面策划,在操作上 主要指检索式的编制和数据库的选择。 检索策略在计算机检索中直接决定检索结 果的准与全。
截词检索与截词检索算符
无限截断
后截断
如:physic*
Physic physics
physicst physicalism
中文数据库里面 习惯称为“前方 一致”
有限截断
如:physic??
Physic physics
physicst
前截断
computer
如:*computer
中文数据库里面 习惯称为“后方 一致”
无限截词——一个符号表示任意多个字符,标准符号 是“*”,代表0-n个字符,也称为通配符。 比如:comput* 可检出:compute, Computer, computers, computing, C不一样,使用应先查 一下各数据库的帮助加以确认
增加:针对一词多义或者在检索结果中有 很多干扰信息时,可采用增加检索词达到 “限义”的手段。
例:神经网络在旋转机械故障诊断中的应用研究
1.本课题包含“神经网络” “旋转机械” “故障诊断” 三个概念,“应用”和“研究”属于意义过于宽泛的词,不应 该作为检索词。 2.扩展 神经网络:相关的上位词有人工智能 旋转机械 故障诊断:相关词有故障定位、故障检测,上位词有 容错技术 3.检索式: (神经网络 OR 人工智能)AND(旋转机械)AND (故障诊断 OR 故障定位 OR 故障检测 OR 容错技术)
表示两个检索词前后次序固定,二者之间最多间隔N个 字符。
【实例】在OCLC中输入communication W3 satellite;
3. n( Near)表示两个检索词可以互换顺, 二者之间只能间隔连字符、空格或者是逗 号。 【实例】在OCLC中输入communication n satellite; 4. nN( Near N)表示两个检索词可以互换 顺,二者之间最多间隔N个字符。 【实例】在OCLC中输入communication n3 satellite; 在EBSCO中输入Capitalism n3 freedom
相同的检索词在不同的字段中检索到的结果不同。
【实例】用《中文科技期刊数据库》检索机械产品采用计算机 辅助设计的论文。 用不同字段作为途径,如下所示: 选择”u=任意字段” 输入“计算机辅助*产品”,查出2816篇; 选择”m=题名或关键词” 输入“计算机辅助*产品”,查出625 篇; 选择“t=题名”输入“计算机辅助*产品”,查出145篇; 选择“k=关键词”输入“计算机辅助*产品”,查出539篇; 检索入口 选择“c=分类号”输入“机械产品”的分类号 “TH122”年限设定,查到10675条。