计算机检索基本知识
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
脱机信息检索系统 ----单台计算机;定期(一个或半个月)检索一次;专职 检索人员统一处理,用户接触不到计算机;用作大批量 的定题信息检索 联机信息检索系统 ----一台主机带多个终端,相互独立的终端可同时进行检 索;对用户的提问能及时处理,用户可随时修改提问; 通过专用信息网,可跨国家进行检索
光盘信息检索系统:数据存储在光盘(一种用激光记录 和读取信息的盘片),通过检索软件,利用计算机和光 盘驱动器进行检索。可形成光盘检索网络。
注:英文数据库通常用字母,中文数据库要用符号
使用截词符(通配符)——提高查全率,防止漏检的有力手段
包括有限截词和无限截词,常用的截词符有:*, #,?,!,$
有限截词——放在词中间或末尾,一个符号表示一个词 如:SDOS:wom*n 可检索出:woman,women(中间截断) :chip? 可检索出:chips(右截断) 无限截词——放在司的末尾,一个符号表示任意多个词 如:SDOS:comput! 可检出:Computer,computers,computering 注:不同的数据库所用的截词符不一样,使用应先查一下各数据库 的帮助加以确认
相同点:均需经过标 引,提炼出文献标识 不同点:前者按主题 词、分类、著者等进 行编排;后者按文档 号编排(检索时自动 生成索引文档)
计算机检索: 人
检 索 指 令
计 算 机
查 找
数据库(文献条目)
手工检索的特点(和计算机检索相比较):
优点:1.发展早,可检索的时间范围广 2.所有内容都呈现在读者面前,容易对比并发现新 的线索
扩大检索范围,提高查全率的方法:
1、考虑同义词或近义词(使用布尔逻辑符or连接)
2、选择较大检索范围的字段如摘要
3、使用截词符 4、使用上位词(如飞行器航天飞机载人航天飞机)
缩小检索范围,提高查准率的方法:
1、使用and 、not等限制检索范围 2、使用位置算符 3、选择检索范围较小的字段 4、使用二次检索
二、数据库
在前面的课中讲过电子型信息资源,包括机读数据 库(网络数据库、光盘数据库)和网络信息资源等。它 们是计算机化信息检索系统的主要处理和查询对象。 数据库是发展最早、影响最广的一种电子信息源, 并且至今仍是一种主要的信息查询对象。
数据库的相关概念:
通俗地说,数据库就是由多张表构成的
字段(field)
超文本式:多用于网络信息检索,基于Web技术,可检 索多媒体信息
多为表单形式,有的直接输入检索词即可,如大部 分数据库的高级检索;有的既可输入检索词也可输入检 索式;如维普数据库的标准检索,有的必须输入检索式, 如EI数据库的高级检索。
计算机检索过程
词表
检索课题
主题分析
选择数据库 确定检索词 制定检索式 计算机处理
第三章
计算机检索基本知识
第一节 计算机检索概论
一、计算机信息检索的含义:
计算机检索是指人们在计算机或计算机检索网络的终 端机上,使用特定的检索指令、检索词和检索策略,从计 算机检索系统的数据库中检索出需要的信息,继而再由终 端设备显示或打印的过程
文档数 据库
手工检索: 人
查找
书本式检索工具 (文献条目)
第二步:选择数据库或网络检索工具
选择合适检索工具的前提是对网络资源有一个较全面 的、清晰的了解,具体地说要对检索工具的类型、内容特 点、时间范围、学科范围、甚至出版商的大体情况都要有 一个了解。 方法:1、注重平时的积累 2、不要盲目检索,应养成检索前了解一下数据库 的习惯 3、注重与他人的交流 4、重视图书馆主页的资源
第三步:提炼检索词,制定检索式
注意事项:
1、检索词尽可能使用词或词组,然后用布尔逻辑运算符 将检索词连接起来,切忌将整个题名输入到检索框中。
如:如网络数据库的安全性研究
检索式:网络*数据库*安全 √ 网络数据库*安全 √ 网络数据库安全 × 网络数据库的安全性研究 ××
2、要提炼关键的、核心的词作为检索词
使用位置算符
邻接检索:表明两个或多个检索词之间关系的符号
常用的位置算符有:W/n(adj/n),N/n(near/n),
W/n表示两个词不可以互换顺序,二者之间可插入0-n个词 如智能机器人(w/3)控制,可检出“智能机器人控制”,“智 能机器人行为控制”等 N/n表示两个词可以互换顺序,二者之间可插入n个词 如智能机器人(n/3)控制,可检出“智能机器人控制”,“..控 制算法对智能机器人的影响”等
限制检索
泛指检索系统中提供的缩小或约束检索结果的检索 方法。主要有以下方式: 字段检索——利用字段进行限制,如题名、摘要、全文等 通常的字段限制范围的大小顺序是: 题名<关键词<摘要<全文 二次检索——在前一次检索的结果中进行另一概念的检索
所有文章 经过一次检索后 在上一次检索结果 的范围内进行再次 检索
第二节 检索技术
使用布尔逻辑运算符
Intelligent robot and control(intelligent robot*control) 表明查询结果中必须同时包含intelligent robot和control Intelligent robot or control(intelligent robot+control) 表明查询结果中至少包含两个检索词中的任意一个,intelligent robot或 control Intelligent robot not control(intelligent robot-control) 表明检索结果包含intelligent robot,但同时必须去掉和control相关的内容
同句检索: 要求参加检索运算的两个检索词必须在同一 自然句中出现。 位置运算符: (S)--sentence 同字段检索:对同句检索条件进一步放宽,可以使用同字 段段检索。 位置运算符为: (F)——field (L)——link
词组的检索:通常用“”或()来表示两词是作为一个词 组来检索的 如:“hypermedia database” ;“profit and loss”将查 找profit and loss 禁用词:通常一些虚词(如冠词和连词不包含在检索范围 之内) 如:a about also and any as at be between by both for some so not this with 等将被自动忽略
字段可分: 基本索引字段:描术文献内容特征的字段如篇名(/TI)、文摘 (/AB)
辅助索引字段:描述文献外部特征的字段如著者(AU=)、著者单 位(AA=)、语种(LA=)、出版年(PY=)等
数据库类型:
按存储数据的类型分:数值型、事实型、词典型、书目型、
全文型 按存储的介质分: 光盘数据库:数据存储在计算机的光盘或光盘塔上,因而存 储量有限,更新速度慢 网络数据库:数据存储在服务器的硬盘上,存储量大,更新 速度快
主要包括以下4类成员: 1。传统从事文献及其报道工作的学术团体与学术机构 例如:美国化学文摘社CAS 国际电子电气工程师协会IEEE 美国生物科学情报社BIOSIS 美国科学情报社ISI 2。政府机构 例如:美国技术情报服务处NTIS 美国国家航空航天局NASA 美国专利商标局USPTO
3、私营公司 例如:英国Derwent公司 美国Knight-Ridder公司 Mead Data Contral OVID公司 Silver Platter Information,Inc. 4、传统新闻/出版机构 例如: 德国Springer出版社 美国Join Wiley电子出版公司 荷兰Elsevier科学出版社
索引文档1: 篇名索引
索引文档2: 作者索引
文章号
篇名 asd bys vca
作者 Li Wang deng
文摘 Xxx Yyy zzz
全文 …….. …….. ……..
当你要在篇名中查找时, 搜索指令将在篇名索引 中进行搜索,然后将主 文档中对应的记录调出 来
001 002 ……
主文档
字段:如在数据库中题名、作者、作者单位、期刊名、摘要、 全文等等均是字段;一条记录由多个字段值组成;对计算机检 索来说字段相当于检索入口。如:
用户
构造检索 策略 wk.baidu.com文 标引
N
结 果 返 回
结果评价
Y
数据库
计算机检索的步骤: 第一步:分析检索课题:明确检索目的, 从而确定检索需求
基本要求:检索的时间范围、文献类型、检索深 度为题录、文摘还是全文等等 结果要求:了解某一理论、方法、设备、过程等的具体 的片断的信息,以解决研究中的具体问题,要求“准”。 申请发明,申报成果奖励、鉴定科研成果以及立项 查新,往往需要全面地收集某一主题范围的文献信息, 这类课题具有普查追溯的特点,应着眼于“全”。
网络化(internet)信息检索系统:同联机检索系统的主 机和用户终端的主从关系不同,客户机和服务器是对等 的关系
计算机检索的发展
脱机批处理检索时期 Off-lineBatchProcessing (1954---1964) 联机实时检索时期 On-line Real Time (1965--- 1975) 联机网络化与多元化检索时期 (1976---1990) Internet网络化检索时期 (1990---至今)
去掉意义太泛或“无所谓有”的词
例1 网络数据库的安全性研究 关键词1:网络数据库—— 研究对象 关键词2:安全——研究目的 而意义太泛的词“研究”不应作为检索词
例2 基于代理技术的网络入侵检测 关键词1:(网络)入侵检测,但入侵检测一般即指网 络中的入侵检测,意义重复,网络可不要 关键词2:代理(技术),在入侵检测中使用“代理”, “代理”本身就是指的一项技术,因而也可不 要
记录 (record) 文档2 文档1(file):一张表就是一个文档 文档n
数据库结构图
数据库(database)
检索篇名 文章号 001 002 …… 篇名 asd bys vcx 文章号 001 002 ……
检索作者 作者 Li Wang deng
文章号唯一,且 索引文档与主文 档的文章号一一 对应
对于研究生做学位论文来说,做课题前应充分了解 一下本课题国内外的研究现状(即论文的综述部分),这 时应对该课题进行较全面的检索,包括综述性的文章,要 求全面;对于该课题的核心部分,即该课题所要解决的具 体问题,创新的地方,则需要准,技术细节越细越好。 检索误区1——从师兄师姐那得到相似研究课题的学位论文 作为参考,不失为一条捷径,但不能完全依赖它,不能仅 以学位论文提供的参考文献为线索去检索,应该自已提炼 关键词,利用现有的资源去发现更多更好的文章,从而开 拓自已的视野。
缺点:1.查找繁琐,效率低下 2.只能查找原文的线索,无法直接获取全文 3.检索途径相对较少,且无法灵活地编制检索策略
计算机检索系统:检索者,检索终端(PC机,同时也是
输出端),网络(或通信电缆),数据库存储服务器
服务器(数据库终端)
检索终端
通信网
INTERNET
结果输出
结果返回
计算机检索系统的类型
检索误区2——internet网上虽然有一些较好的资源,但是 与专业的网络数据库来比,无论是质量还是数量上都有 很大的差距,检索文献目前来说最主要的来源还应是专 业数据库,即正规的出版物上发表的文献。仅用搜索引 擎来查找文章 是非常不可取的。 检索误区3——不要忽略摘要数据库, 虽然检索摘要数据库不能马上得到全文, 但是摘要数据库的数据量大,范围广,是查找文章线索 极好的检索工具。就目前的情况而言,不可能全部都能 得到电子版的全文,先找到文章线索再根据线索查找印 刷版的全文是一项不错的组合。
按照国际上通用的分类方法:
参考数据库(reference database):如书目数据库、文摘数 据库,获得的数据为reference 源数据库(source database):如全文数据库,数值型数据 库,可直接获得原如资料或数据 混合数据库(mixed database):兼有以上二者
数据库生产商:
5、使用下位词
6、使用精确检索,如对于固定短语来说可用“”引起来
检索界面
命令方式:多用于大型联机检索系统,需输入各类复杂 的操作命令和检索表达式,多由专职人员上机。如大型 联机检索系统的Dialog、STN等界面 简易菜单式:多用于光盘检索系统,操作简单易学,有 丰富的提示和帮助功能,用户可自行上机。如光盘数据 库CA等。
光盘信息检索系统:数据存储在光盘(一种用激光记录 和读取信息的盘片),通过检索软件,利用计算机和光 盘驱动器进行检索。可形成光盘检索网络。
注:英文数据库通常用字母,中文数据库要用符号
使用截词符(通配符)——提高查全率,防止漏检的有力手段
包括有限截词和无限截词,常用的截词符有:*, #,?,!,$
有限截词——放在词中间或末尾,一个符号表示一个词 如:SDOS:wom*n 可检索出:woman,women(中间截断) :chip? 可检索出:chips(右截断) 无限截词——放在司的末尾,一个符号表示任意多个词 如:SDOS:comput! 可检出:Computer,computers,computering 注:不同的数据库所用的截词符不一样,使用应先查一下各数据库 的帮助加以确认
相同点:均需经过标 引,提炼出文献标识 不同点:前者按主题 词、分类、著者等进 行编排;后者按文档 号编排(检索时自动 生成索引文档)
计算机检索: 人
检 索 指 令
计 算 机
查 找
数据库(文献条目)
手工检索的特点(和计算机检索相比较):
优点:1.发展早,可检索的时间范围广 2.所有内容都呈现在读者面前,容易对比并发现新 的线索
扩大检索范围,提高查全率的方法:
1、考虑同义词或近义词(使用布尔逻辑符or连接)
2、选择较大检索范围的字段如摘要
3、使用截词符 4、使用上位词(如飞行器航天飞机载人航天飞机)
缩小检索范围,提高查准率的方法:
1、使用and 、not等限制检索范围 2、使用位置算符 3、选择检索范围较小的字段 4、使用二次检索
二、数据库
在前面的课中讲过电子型信息资源,包括机读数据 库(网络数据库、光盘数据库)和网络信息资源等。它 们是计算机化信息检索系统的主要处理和查询对象。 数据库是发展最早、影响最广的一种电子信息源, 并且至今仍是一种主要的信息查询对象。
数据库的相关概念:
通俗地说,数据库就是由多张表构成的
字段(field)
超文本式:多用于网络信息检索,基于Web技术,可检 索多媒体信息
多为表单形式,有的直接输入检索词即可,如大部 分数据库的高级检索;有的既可输入检索词也可输入检 索式;如维普数据库的标准检索,有的必须输入检索式, 如EI数据库的高级检索。
计算机检索过程
词表
检索课题
主题分析
选择数据库 确定检索词 制定检索式 计算机处理
第三章
计算机检索基本知识
第一节 计算机检索概论
一、计算机信息检索的含义:
计算机检索是指人们在计算机或计算机检索网络的终 端机上,使用特定的检索指令、检索词和检索策略,从计 算机检索系统的数据库中检索出需要的信息,继而再由终 端设备显示或打印的过程
文档数 据库
手工检索: 人
查找
书本式检索工具 (文献条目)
第二步:选择数据库或网络检索工具
选择合适检索工具的前提是对网络资源有一个较全面 的、清晰的了解,具体地说要对检索工具的类型、内容特 点、时间范围、学科范围、甚至出版商的大体情况都要有 一个了解。 方法:1、注重平时的积累 2、不要盲目检索,应养成检索前了解一下数据库 的习惯 3、注重与他人的交流 4、重视图书馆主页的资源
第三步:提炼检索词,制定检索式
注意事项:
1、检索词尽可能使用词或词组,然后用布尔逻辑运算符 将检索词连接起来,切忌将整个题名输入到检索框中。
如:如网络数据库的安全性研究
检索式:网络*数据库*安全 √ 网络数据库*安全 √ 网络数据库安全 × 网络数据库的安全性研究 ××
2、要提炼关键的、核心的词作为检索词
使用位置算符
邻接检索:表明两个或多个检索词之间关系的符号
常用的位置算符有:W/n(adj/n),N/n(near/n),
W/n表示两个词不可以互换顺序,二者之间可插入0-n个词 如智能机器人(w/3)控制,可检出“智能机器人控制”,“智 能机器人行为控制”等 N/n表示两个词可以互换顺序,二者之间可插入n个词 如智能机器人(n/3)控制,可检出“智能机器人控制”,“..控 制算法对智能机器人的影响”等
限制检索
泛指检索系统中提供的缩小或约束检索结果的检索 方法。主要有以下方式: 字段检索——利用字段进行限制,如题名、摘要、全文等 通常的字段限制范围的大小顺序是: 题名<关键词<摘要<全文 二次检索——在前一次检索的结果中进行另一概念的检索
所有文章 经过一次检索后 在上一次检索结果 的范围内进行再次 检索
第二节 检索技术
使用布尔逻辑运算符
Intelligent robot and control(intelligent robot*control) 表明查询结果中必须同时包含intelligent robot和control Intelligent robot or control(intelligent robot+control) 表明查询结果中至少包含两个检索词中的任意一个,intelligent robot或 control Intelligent robot not control(intelligent robot-control) 表明检索结果包含intelligent robot,但同时必须去掉和control相关的内容
同句检索: 要求参加检索运算的两个检索词必须在同一 自然句中出现。 位置运算符: (S)--sentence 同字段检索:对同句检索条件进一步放宽,可以使用同字 段段检索。 位置运算符为: (F)——field (L)——link
词组的检索:通常用“”或()来表示两词是作为一个词 组来检索的 如:“hypermedia database” ;“profit and loss”将查 找profit and loss 禁用词:通常一些虚词(如冠词和连词不包含在检索范围 之内) 如:a about also and any as at be between by both for some so not this with 等将被自动忽略
字段可分: 基本索引字段:描术文献内容特征的字段如篇名(/TI)、文摘 (/AB)
辅助索引字段:描述文献外部特征的字段如著者(AU=)、著者单 位(AA=)、语种(LA=)、出版年(PY=)等
数据库类型:
按存储数据的类型分:数值型、事实型、词典型、书目型、
全文型 按存储的介质分: 光盘数据库:数据存储在计算机的光盘或光盘塔上,因而存 储量有限,更新速度慢 网络数据库:数据存储在服务器的硬盘上,存储量大,更新 速度快
主要包括以下4类成员: 1。传统从事文献及其报道工作的学术团体与学术机构 例如:美国化学文摘社CAS 国际电子电气工程师协会IEEE 美国生物科学情报社BIOSIS 美国科学情报社ISI 2。政府机构 例如:美国技术情报服务处NTIS 美国国家航空航天局NASA 美国专利商标局USPTO
3、私营公司 例如:英国Derwent公司 美国Knight-Ridder公司 Mead Data Contral OVID公司 Silver Platter Information,Inc. 4、传统新闻/出版机构 例如: 德国Springer出版社 美国Join Wiley电子出版公司 荷兰Elsevier科学出版社
索引文档1: 篇名索引
索引文档2: 作者索引
文章号
篇名 asd bys vca
作者 Li Wang deng
文摘 Xxx Yyy zzz
全文 …….. …….. ……..
当你要在篇名中查找时, 搜索指令将在篇名索引 中进行搜索,然后将主 文档中对应的记录调出 来
001 002 ……
主文档
字段:如在数据库中题名、作者、作者单位、期刊名、摘要、 全文等等均是字段;一条记录由多个字段值组成;对计算机检 索来说字段相当于检索入口。如:
用户
构造检索 策略 wk.baidu.com文 标引
N
结 果 返 回
结果评价
Y
数据库
计算机检索的步骤: 第一步:分析检索课题:明确检索目的, 从而确定检索需求
基本要求:检索的时间范围、文献类型、检索深 度为题录、文摘还是全文等等 结果要求:了解某一理论、方法、设备、过程等的具体 的片断的信息,以解决研究中的具体问题,要求“准”。 申请发明,申报成果奖励、鉴定科研成果以及立项 查新,往往需要全面地收集某一主题范围的文献信息, 这类课题具有普查追溯的特点,应着眼于“全”。
网络化(internet)信息检索系统:同联机检索系统的主 机和用户终端的主从关系不同,客户机和服务器是对等 的关系
计算机检索的发展
脱机批处理检索时期 Off-lineBatchProcessing (1954---1964) 联机实时检索时期 On-line Real Time (1965--- 1975) 联机网络化与多元化检索时期 (1976---1990) Internet网络化检索时期 (1990---至今)
去掉意义太泛或“无所谓有”的词
例1 网络数据库的安全性研究 关键词1:网络数据库—— 研究对象 关键词2:安全——研究目的 而意义太泛的词“研究”不应作为检索词
例2 基于代理技术的网络入侵检测 关键词1:(网络)入侵检测,但入侵检测一般即指网 络中的入侵检测,意义重复,网络可不要 关键词2:代理(技术),在入侵检测中使用“代理”, “代理”本身就是指的一项技术,因而也可不 要
记录 (record) 文档2 文档1(file):一张表就是一个文档 文档n
数据库结构图
数据库(database)
检索篇名 文章号 001 002 …… 篇名 asd bys vcx 文章号 001 002 ……
检索作者 作者 Li Wang deng
文章号唯一,且 索引文档与主文 档的文章号一一 对应
对于研究生做学位论文来说,做课题前应充分了解 一下本课题国内外的研究现状(即论文的综述部分),这 时应对该课题进行较全面的检索,包括综述性的文章,要 求全面;对于该课题的核心部分,即该课题所要解决的具 体问题,创新的地方,则需要准,技术细节越细越好。 检索误区1——从师兄师姐那得到相似研究课题的学位论文 作为参考,不失为一条捷径,但不能完全依赖它,不能仅 以学位论文提供的参考文献为线索去检索,应该自已提炼 关键词,利用现有的资源去发现更多更好的文章,从而开 拓自已的视野。
缺点:1.查找繁琐,效率低下 2.只能查找原文的线索,无法直接获取全文 3.检索途径相对较少,且无法灵活地编制检索策略
计算机检索系统:检索者,检索终端(PC机,同时也是
输出端),网络(或通信电缆),数据库存储服务器
服务器(数据库终端)
检索终端
通信网
INTERNET
结果输出
结果返回
计算机检索系统的类型
检索误区2——internet网上虽然有一些较好的资源,但是 与专业的网络数据库来比,无论是质量还是数量上都有 很大的差距,检索文献目前来说最主要的来源还应是专 业数据库,即正规的出版物上发表的文献。仅用搜索引 擎来查找文章 是非常不可取的。 检索误区3——不要忽略摘要数据库, 虽然检索摘要数据库不能马上得到全文, 但是摘要数据库的数据量大,范围广,是查找文章线索 极好的检索工具。就目前的情况而言,不可能全部都能 得到电子版的全文,先找到文章线索再根据线索查找印 刷版的全文是一项不错的组合。
按照国际上通用的分类方法:
参考数据库(reference database):如书目数据库、文摘数 据库,获得的数据为reference 源数据库(source database):如全文数据库,数值型数据 库,可直接获得原如资料或数据 混合数据库(mixed database):兼有以上二者
数据库生产商:
5、使用下位词
6、使用精确检索,如对于固定短语来说可用“”引起来
检索界面
命令方式:多用于大型联机检索系统,需输入各类复杂 的操作命令和检索表达式,多由专职人员上机。如大型 联机检索系统的Dialog、STN等界面 简易菜单式:多用于光盘检索系统,操作简单易学,有 丰富的提示和帮助功能,用户可自行上机。如光盘数据 库CA等。