C计算机检索基础知识
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
集合
记录
是数据库的基本单元,是对某一实体属性 进行描述的结果。一个数据库由若干条记录 构成。每条记录相当于文摘型或题录型检索 刊物的一条著录款目。
字段
是文献记录的基本单元。一条记录有若干 个字段,一个字段有时还可分为几个子字段 (Subfield)。在书目数据库中,一条记录应 包含原始文献的篇名、作者、刊名、出版时 间、分类号、文摘、主题词等字段。
► 作用:减少检索词的输入量,扩大检索范围
,
提高检索效率。
► 注意:使用截词检索必须慎重,词干不要太
短,以免检出许多与原来检索词不相关的文 献记录
截词的形式可以有前截断、中间截断和后截断。 前截断:将截词符放在词根前边,后方一致,表 示在词根前方有有限个或无限个字符。 如*magnetic 能够检出含有magnetic、 ctromagnetic、paramagnetic等词的记录。 后截断:将截词符放在词根后边,前方一致,表 示在词根后方有有限个或无限个字符。 如metal*,能够检出含有metal、metals、 metaled、metalist等词的记录。 中间截断:将截词符放在词的中间,词的前后方 一致。 如colo*r,能够检出含有colour、color的记录。
受控词——事先规范化的检索词,取自叙词表、 分类表等。 非受控词——非规范化的自然语言词汇,又称 自由词。 优先考虑使用受控词。
► 选择检索词时应注意以下问题: ► 1、选择能代表本课题技术特征的、具有实质
意义的词。这些词应为专业通用词、惯用词 和术语。 ► 2、注意同义词(包括缩写)、词的英美式不 同拼写及不同词性的词。这些词之间的关系 均为“或”。如上部分所举的例子。
• 逻辑“非”:NOT;not; 定义:A NOT B 在含检索词A的记录中,去掉含检索 词B的记录 作用:用于排斥关系的组配,即从原来的检索范围排 除不需要的概念或影响检索结果的概念,提高查准率。 注意:往往会把切题的文献给丢掉,运用时要非常慎 重。
A not B;A-B;
A B
windows not microsoft
恰当选择检索词
► 1、要尽量使用单元词 ► 2、概念不能过大或过小 ► 3、多主题概念的选词以“简”为主
► 4、词语要规范化
检索式的制定
数据库由大量的纪录组成。每一条纪 录由若干个字段组成。字段有篇名(ti)、 作者(au)、文献来源(so)、文摘(ab)、主 题词(su)、文种(la)、专利号(pn)、分类号 (cl)等。
计算机
通信网络 检索终端设备
数据库结构 数据库类型
数据库
计算机检索基础知识
►逻辑算符 ►截断算符 ►位置算符 ►检索词的确定 ►检索式的制定
逻辑“与”:AND ;and;*
►
定义:用于交叉概念或限定关系的组配,即被命中的 文献必须同时含有检索项A和B。 作用:可缩小检索范围,提高查准率。 要求:运用时,把出现频率低的检索词置于“与”的 左端,可使答案尽早出现,节省机时。
光盘检索的特点
►与印刷本相比,存储容量大,占据
物理空间小 ►读取速度快 ►费用低 ►对硬件有一定要求
网络数据库检索
► Web-database ► 用户在自己的客户端上,通过互联网和浏览
器界面对数据库进行检索
网络检索特点
►免费检索
►收费检索
通过IP地址控制 通过用户认证控制 IP+用户认证
检索式: 赵永孟/作者 and 数控加工/ 题目
计算机检索的特点
►检索速度快
►检索途径多 ►更新快 ►资源共享 ►检索方便灵活 ►直接输出检索结果
数据库结构
► 记录
record:描述一个原始信息的外部 field:组成记录的数据项目 file:数据库中一部分记录的有序
特征和内部特征
► 字段 ► 文档
数据库类型
数据库是在计算机存储设备上按一定 方式,合理组织并存储的相互有关联的数 据的集合,是计算机技术和信息检索技术 相结合的产物,是电子信息资源的主体, 是信息检索系统的核心部分之一。按所提 供的信息内容,数据库主要可分为参考 数据库和源数据库。
►1.参考数据库
主要存储一系列描述性信息内容,指引用户 到另一信息源以获得完整的原始信息的一类数 据库,主要包括书目数据库和指南数据库。
(1)书目数据库 存储描述如目录、题录、 文摘等书目线索的数据库,又称二次文献信息 数据库。 如各种图书馆目录数据库、题录数据库和 文摘数据库等属于此类,它的作用是为用户指 出了获取原始信息的线索。
(2)指南数据库 存储描述关于机构、 人物、产品、活动等对象的数据库。 与其它数据库相比,指南数据库为用户 提供的不仅仅是有关信息,还包括各种类型 的实体,多采用名称进行检索。如存储生产 与经营活动信息的机构名录数据库、存储人 物信息的人物传记数据库、存储产品或商品 信息的产品指南数据库、存储基金信息的基 金数据库等属于此类,它的作用指引用户从 其它有关信息源获取更详细的信息。
数据库的字段可分为基本字段和辅助字段:
基本字段主要是描述文献内容特征的字 段,如篇名、文摘、叙词、自由标引词 等字段;
辅助字段主要是描述文献外表特征的字 段,如著者、机构名称、语种、文献来 源等字段。
文档
若干条逻辑记录构成的信息集合。文档是 书目数据库和文献检索系统中数据组织的基 本形式。
根据数据库的内部结构,一个数据库至少 包含一个顺排文档和一个倒排文档。
1. 计算机检索基本原理
2. 计算机检索的特点
3. 计算机检索系统的组成 4. 计算机检索基础知识
5. 计算机检索服务的类型
计算机检索原理
计算机信息检索是指利用计算机存储和检 索信息。
具体地说,就是指人们在计算机或计算机 检索网络的终端机上,使用特定的检索指令、 检索词和检索策略,从计算机检索系统的数据 库中检索出所需的信息,继而再由终端设备显 示或打印的过程。
顺排文档
是按文献记录的输入顺序(即文献序号)排列的文 档。相当于印刷型检索工具的正文部分。 在顺排文档中,记录按顺序一个接一个地存放, 一个存取号对应一条记录,存取号愈大,对应的记录 就愈新。由于它存贮有记录的最完整的信息,所以, 通常又把它称之为主文档(Master File)。 这种存贮方式决定了对记录的存取只能按顺序进 行。如果在顺排文档中检索,对每个检索式都得按顺 序从头到尾进行扫描,存贮的记录愈多,扫描的时间 愈长,从而严重影响了检索的速度。 主要供用户输出和打印文献记录用。
►(2)数值数据库
存储以数值表示信息为主 的一种源数据库,和它类似的有文本-数值数 据库。与书目数据库比较,数值数据库是对信 息进行深加工的产物,可以直接提供所需的数 据信息。如各种统计数据库、科学技术数据库 等。
数值数据库除了一般的检索功能外,还具 有准确数据运算功能、数据分析功能、图形处 理功能及对检索输出的数据进行排序和重新组 织等方面的功能。
3、限定检索字段,如著者 、文摘、篇名、 主题词、机构名称、分类号、刊名等。
4、限定检索条件,如年份、语种、文献类 型等。
相同概念检索词扩展
► 1、同义词扩展法
同一概念,尽量选择不同名称(学名、俗 名、简称、全称)、不同拼写、单复数形式 等。 ► 2、截词法 词干相同,词义相近,但词尾或词中有变 化时,可采用截词算符扩展检索词。 ► 3、主题词表法 尽量选用词表中的规范词。利用词表的上 位概念、下位概念扩大或缩小主题范围。
►2.源数据库
主要存储全文、数值、结构式等信息,能 直接提供原始信息或具体数据,用户不必再转 查其它信息源的数据库。它主要包括全文数据 库和数值数据库。
(1)全文数据库 存储原始信息全文或主 要部分的一种源数据库。如期刊全文数据库、 专利全文数据库、百科全书全文数据库,用户 使用某一词汇或短语,便可直接检索出含有该 词汇或短语的原始信息的全文。
Membrane/ab,ti,su and Dutta,D/au
举例:
课题名称一:集散控制在监控系统中的应用
检索式:集散控制*监控系统*应用/题目、关键词、文摘 或 集散控制*监控系统/题目,关键词,文摘
课题名称二:信息编码与压缩技术
检索式:信息编码 and 压缩技术/ 题目,关键词,文摘
课题名称三:查找作者是 赵永孟 关 于 数控加工 的 文献
优先级运算
()>NOT>AND>OR
(Child or children) and lung cancer
截断算符
截词算符常用“?”或“*”表示,允许检 索词有一定范围的变化。检索时将截词符置 于检索词允许变化的部位,只要检索词和标 引词的词干相同即为命中文献。
从本质上说,截断算符也是一种逻辑“或” 的关系。
倒排文档
把顺排文档中的标引词抽出,按标引词的字母顺 序依次排列而成的文档。倒排文档实际上相当于印 刷型检索工具中的辅助索引。
索引文档
倒排文档 存取号文档 基本索引文档:后缀倒排索引文档 辅助索引文档: 前缀倒排索引文档
倒排文档与顺排文档的区别: 顺排文档以完整记录作为处理和检索的单元, 倒排文档以记录中的字段作为处理和检索的单元。
(N)与(nN)算符——
(N)表示其两侧的检索词位置可以颠倒, 但两词之间不允许插入其他字符和单词。 (nN)中的n表示两检索词中间允许插入的 单词数目少于或等于n个。
(nN)算符也是用来代替检索式中出现的 the,of等禁用词,不过两检索词的词序可以颠 倒。
检索词的确定
检索时所用到的词称为检索词。 检索词分为——受控词和非受控词
► ►
A
B
A and B;A*B
•逻辑“或”:OR; or;+
►
定义:表示两个概念的并列,即被命中的文献含有两 词之一或同时包含两词。 作用:可扩大检索范围,提高查全率。 要求:组构检索式时,可将估计出现频率高的词置于 “或”的左面,可使选中的答案尽早出现。
► ►
Aபைடு நூலகம்
B
A or B;A+B; computer or robot
在用数据库检索时,检索式的制定是一个 关键。首先应考虑检索词在哪个字段中出现。
比如,查找D. Dutta关于膜技术发表的论 文时,则“D.Dutta ”应在“作者”字段中出 现,“膜(membrane)”应在“主题词”或 “文摘”或“篇名”中出现。 然后再确定各个检索词之间的逻辑关系。 如本例中, D. Dutta与膜的关系为逻辑与。 则该例的检索策略为:
位置算符
(W)与(nW)算符——
(W)表示其两侧的检索词必须按照前后顺序 出现在记录中,而且两词之间不允许插入其他 字符和单词,只允许有空格或一个标点符号。
(nW)中的n表示两检索词中间允许插入的单 词数目少于或等于n个,算符两侧检索词的词 序不能颠倒。(nW)算符主要用来代替检索式中 出现的the,of等禁用词。
(四)计算机检索服务的类型
►联机检索 ►光盘检索
►网络检索
联机数据库检索
► Online
retrieval ► 用户通过计算机终端设备,通过通讯线路或 网络,在联机检索中心的数据库中进行检索 并获得信息的过程 ► 最大的缺点是检索费用高 ► 现在用户量少
光盘数据库检索
•CD-ROM数据库 •最初是单机检索,后来逐渐发展出了 联机光盘检索 •联机光盘检索指把单用户系统发展成 多用户的 局域网系统,通过网络(如 校园网)连接多个用户终端,用服务器 管理多组光盘数据库及其检索系统