第二讲 计算机检索基础

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

网络数据库:数据存储在服务器的硬盘上,存储量大,更新速度快
2.1计算机信息检索概论
2.1.4计算机检索的类型
按服务方式可以划分为: 1.定题信息检索:是把用户提问预先存储在计算机的存储器中,按照提 问要求定期地检索存储在计算机中的最新文献信息,并把检索结果分发
给用户的一种方法。
2.回溯性信息检索:是根据用户提供某一段时间范围内的文献信息的检 索方法。通常在着手课题鉴定和专利查新时使用该方法。
如:SOLAR OR SUN凡含有检索
词SOLAR和SUN中任何一个或二 个同时存在的文献均可检出,扩大
了检索范围。
2.2计算机信息检索技术
③逻辑“非”:A NOT B或A-B
用于排除含有某些词的记录。 基本作用是缩小检索范围。 如: Energy-Nuclear 除核能以外的有关能源方面的文献才被命中。
2.1计算机信息检索概论
(2)基本字段(与内容有关)
2.1计算机信息检索概论
(3)辅助字段
( 与 文 献 的 外 部 特 征 有 关 )
2.1计算机信息检索概论
数据库类型:
按存储数据的类型分:书目型、全文型、数值型、事实型、词典型
按存储的介质分:
光盘数据库:数据存储在计算机的光盘或光盘塔上,因而存储量 有限,更新速度慢
②(N)与(nN)算符
N是near的缩写,(N)表示其两侧的检索词位置可以倒置,在两词之间不能插词; (nN)中的n表示允许插词的词量最多n个,且两词的顺序可以颠倒。 (XN)表示两词之间可插入任意多个词,且词序可变。
如:information (1N)retrieval 命中:information retrieval ; retrieval of information
International )国际科学技术情报网络系统
2.1计算机信息检索概论
(3)光盘检索阶段:20世纪70年代中期—80年代末发展起来,是一种 用激光记录和读取信息的盘片,具有信息存储密度高、容量大、读取速 度快、信息类型多、保存时间长、成本低等优点。 (4)网络检索阶段:进入20世纪90年代,互联网迅速发展,网络检索 即通过计算机上网来检索所需文献,随着网络的飞速发展,上网检索成 为最简便最高效的检索方式,研究者可以坐在家里直接打开计算机共享
3.专家检索
也作命令检索,利用检索语法输入检索式进行检索。
2.2计算机信息检索技术
1.布尔逻辑检索
2.位置逻辑检索
3.截词检索 4.F运算符的检索 5.L运算符的检索 6.S运算符的检索
7.禁用词
2.2计算机信息检索技术
1.布尔逻辑算符:
限定检索词之间逻辑关系的算符: 逻辑“与”:AND *
逻辑“或”:OR +
的信 息需求是委托式的,交专业人员统一安排, 必须等待成批或定期处理。
(2)联机检索阶段:20世纪60年代中期到70年代初。由于计算机分时 技术的发展,通信技术的改进,以及计算机网络的初步形成和检索软件包的
建立,用户可以通过直接同检索的数据库进行会话式交流。
2.1计算机信息检索概论
该时期主要的国际联机检索系统有: MEDLARS系统:由美国国立医学图书馆研制与开发的当今世界上 最有权威的医学文献数据库检索系统。拥有30个数据库,收录了自1965
2.位置算符(Proximate Operator) 指定两个检索词出现的先后顺序和间隔.
适用于:
• • 以词组形式表达的概念; 彼此相邻的两个或两个以上的词;

被禁用词或特殊符号分隔的词;
2.2计算机信息检索技术
①(W)与(nW)算符:
(W),也可写作(),两侧的检索词必须按先后顺序出现在记录中,在 两词之间不允许插入其他词,只能有一个空格或一个标点符号。
2.2计算机信息检索技术
③中截断,将截词符号放在一个字符串的中间,满足截词符前、右方所
有字符的记录为命中记录,或者说是一种“前后方一致”的检索。
如:输入“wom?n”,它将对woman、women等。 ④前后截断,将截词符号放在一个字符串的左右两边,满足截词符中间 所有字符的记录为命中记录,或者说是一种“中间一致”的检索。 如:输入“?Comput?”,可检索出minicomputer、 microcomputers等。
b.数据库规模(Coverage); c.更新频率和周期(Currency);
学科范围、文献类 型、数据来源等
d.数据库费用(Cost)
时间、地理范 围、机构来源
2.3计算机检索策略与步骤
逻辑“非”:NOT -
①逻辑“与” :A AND B或A*B
检索出记录中须同时含有所有检索词。 基本 作用是缩小检索范围,提高检索结果的查准
率。
如SOLAR AND ENERGY,只有既含检索词 SOLAR又含检索词ENERGY的文献才能检出
2.2计算机信息检索技术
②逻辑“或”:A OR B或A+B 用于组配具有同义或同族概念的词,如同义词、相关词等。 基本作用是扩大检索范围,防止漏检,提高检索结果的查全率。
(1) 检索课题分析 即分析课题所包含的概念成份及其相互关系。 要明确以下问题: a. 分析课题的主要内容其所涉及的学科范围。 b. 所需文献的类型、语种、年代及文献量的范围。 C. 对查新、查准、查全的指标要求,及其侧重。
2.3计算机检索策略与步骤
(2)数据库的选择
a.数据库内容(Content);
2.2计算机信息检索技术
7.禁用词 通常一些虚词(如冠词和连词)不包含在检索范围之内如:a about also and any as at be between by both for some so not
this with等将被自动忽略
2.3计算机检索策略与步骤
2.3计算机检索策略与步骤
中的记录
(3)数据更新快,可以及时获得最新信息。 (4)检索不受时空的限制,只要拥有相应的软件和硬件设备就可以查询
(5)检索辅助功能完善,使用方便灵活
(6)检索结果可以直接输出
2.1计算机信息检索概论
2.1.2计算机检索的发展历史 国外计算机信息检索的发展概况 (1)脱机检索阶段:20世纪50~60年代 又称脱机批处理检索,用户提出
年以来世界范围内发表的生物医学文献1300多万篇。
DIALOG系统:DIALOG于1972年正式开始提供商用联机服务,是 世界上最大、历史最悠久的联机检索系统,已有40多年的全球联机检索 服务历史。数据库收录全,内容涉及科学技术ห้องสมุดไป่ตู้专利与商标、法律法规、 社会科学、新闻与传媒、商业与金融、参考信息等各个领域,是一综合 性的信息检索系统。
第二讲 计算机检索基础
2.1计算机信息检索概论
2.1.1计算机检索
计算机检索是指人们在计算机或计算机检索网络的终端机上,使用特定 的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出 需要的信息的过程。
2.1计算机信息检索概论
• 计算机检索特点
(1)检索速度快、效率高 (2)检索范围广,可以迅速而方便地浏览相关学科或主题的所有数据库
2.2计算机信息检索技术
布尔逻辑的运算次序:
–逻辑“非”→逻辑“与”→逻辑“或” –若有括号则括号优先,这同算术中的四则运算相似。
布尔逻辑运算可以进行合并同类项
–如:A*B+A*C=A*(B+C) –交换规则:A*B=B*A A+B=B+A A-B≠B-A
2.2计算机信息检索技术
2.2计算机信息检索技术
(nW)中的n表示两侧的检索词中间允许插入的词最多为n个,且词序不变。
(XW)两词之间可插入任意多个词,且词序不变。 如:building(W)construction 命中: building construction ; building-construction building(1W)construction building(2W)construction 还命中: building design and construction ; building code and construction ;
命中:building and construction ; building in composite construction building under construction ; building construction ; building-construction
2.2计算机信息检索技术
1. 文档(通常指顺排文档) 由该数据库所报道的所有文献顺序排列组成; 2. 记录 数据库报道的每篇文献用一条记录描述; 3.字段 文献的各著录项目用字段表示,一条记录由多个字段值组成. 如: 作者字段( Author);文摘字段(Abstract)等;
2.1计算机信息检索概论
(1)主文档如下(文献及其部分属性举例):
2.1计算机信息检索概论
ORBIT系统(Online Retrieval of BibliographicInformation Timeshared ),美国系统发展公司研究发展的世界第二大联机检索系 统。 ESA/IRS系统 (European Space Agency-informationRetrieval Service )欧洲空间局情报检索系统 STN系统( The Scientific and Technical Information-Network
检索以及整个系统的运行和管理。
(3)数据库是在计算机存储设备上按一定方式存储的相互关联的数据集 合,是检索系统的信息源,也是用户检索的对象。
(4)通信网络是信息传递的设施,起着远距离、高速度、无差错传递信
息的作用。
2.1计算机信息检索概论
2.1计算机信息检索概论
数据库
数据库是存储在计算机存储设备,结构化的相关数据的集合。通俗地说, 数据库就是由多张表(文档)构成的,文档包括主文档和索引文档。
2.2计算机信息检索技术
3.截词(truncation) 可看作是将某一部分相同的检索词用“或”算符连接后进行检索。 (不同数据库有不同的截词符,常用的截词符有:*, #,?,!,$)。 作用:减少输入步骤,简化检索程序,扩大检索范围,提高查全率。
①后截断,将截词符号放在一个字符串的右方,满足截词符左方所有字符 的记录为命中记录,或者说是一种“前方一致”的检索。 如:输入“comput?”可检索出computer、computers、computing ②前截断,将截词符号放在一个字符串的左方,满足截词符右方所有字符 的记录为命中记录,或者说是一种“后方一致”的检索。 如:输入“?computer”,可检索出minicomputer、microcomputer
3.日常检索:指用户在日常生活、学习、科研、教学和医疗工作中,遇
到具体问题需要进行的文献检索和信息咨询。
2.1计算机信息检索概论
按检索方式可分为:
1.基本检索
简单检索、快速检索。检索的可选项少或者没有,输入查询词,就能快速得到结果。 但检索的准确性差、精度低。
2.高级检索
高级检索功能包括字段检索,布尔逻辑检索等,实现精确查找数据的功能。
2.2计算机信息检索技术
4.(F)算符 (字段内词间与运算) (Field),要求在F算符两侧的检索词出现在同一字段中,词序可变,字段类
型用字段标识作后缀。 如:online (F) retrieval/ DE,TI
5.(L)算符 L是link的缩写,表示其两侧的检索词之间有主从关系,前者为主,后者为副。 L可用来连接主、副标题词,它们被列在记录的规范词字段( SU或DE)。 如:air pollution(L)control 命中:air pollution-control 6.(S)运算符 (S)为subfield或sentence,表示两词必须在记录中的同一个句子或同一个 子字段中出现,词序可变。
各处文献资源。
2.1计算机信息检索概论
国内计算机信息检索的发展概况 我国计算机信息检索的研究从1974年开始由中国科技情报所和北京图书 馆联合发起编制了《汉语主题词表》。
2.1计算机信息检索概论
2.1.3计算机检索系统的构成 由计算机硬件、检索软件、数据库、通信网络等组成。 (1)计算机硬件主要包括服务器、交换机、存储设备、检索终端、数据 输出设备等。 (2)检索软件是检索系统的管理系统,功能是进行信息的存储、处理、
相关文档
最新文档