信息检索计算机检索基础知识
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据库的类型
按
书目数据库
信 参考数据库
息
内
指南数据库
容
分 源数据库
全文数据库
数值数据库
数据库的类型
按
载百度文库体
光盘数据库
形
式
分 网络数据库
单机版 网络版 联机数据库 镜像站数据库
数据库的结构
数据库是由一个或多个文档(File)构成 的集合, 每个文档由若干记录(Record)组成,每条记录由若 干字段(Field)构成。
第三讲 计算机检索基本知识
计算机检索
数据库检索 Internet检索
☆ 计算机检索相关概念 ☆ 数据库相关概念 ☆ 检索点 ☆ 检索表达式 ☆ 检索途径的组配
脱机检索阶段Off-line Retrieval(1954-1964)
联机检索阶段Online-Retrieval(1965-1972) 国际联机检索 (1973- ) 光盘检索系统 CD-ROM SEARCHING(1985- ) Internet检索Internet Searching(1985- )
F功能:同字段检索,词序与词量不限
表达式: Education (F) school/DE 检索结果:Education 和 school必须同时出 现在叙词字段内即可
S功能:同句检索,其词序与词量不受限制
表达式:Education (S) school 检索结果: Education 和school两词出现在同一句子 中即可。
与and、or 、 not比较,后三者的检索结果是限制在同一条 记录中,范围较near和with更大。
不同的数据库所提供的位置算符不完全相同,在实际检索 时应注意阅读使用帮助文件。
截词符(Truncation):有问号?、星号*等。
有限截词:即在检索词后后截几个有限的字母,如名词 的单复数,动词的词尾变化等。 如输入computer ??表示有0-2个字母变化,可检出 computer和computers. 输入stud???表示截断处有0-3个字母变化,可检出 study, studies,studied,studing.
★逻辑“或”(OR或+)运算符
※使用于相同或近似概念的同义词、同族词之间 ※检索词(并列关系) ※作用:扩大检索范围,提高查全率。
如: 微机 or 电脑 or PC机
或 微机 + 电脑 + PC机
company enterprise
company OR enterprise
★逻辑非(NOT或—)运算符
数据库的相关概念:
数据库是在计算机存储设备上按一定方式存储的 相互关联的数据集合。它将各种数据中的信息单元 经过有序处理、组织 ,可以按通常的方法进行维护 和检索,并且具有共享性。
数据库的相关概念:
数据库本质的三个要素 相关数据 共同存取方式和一定组织方式 共享
※通俗地说,数据库就是由多张表构成的
截词符(Truncation):有问号?、星号*等。
无限截断:在检索词后加一个“*”,表示该词后可 加任意个字符。使用无限截词,所截词根不能太 短,否则会输出许多无关文献,造成误检。
如:computer *可检出computers, computering, computered, computerization.
布尔逻辑符 位置算符 截词符 字段限制符
布尔逻辑算符
★逻辑“与”(AND或 *)运算符
※使用于需要组配不同概念的检索词之间 ※检索词(概念交叉和限定关系) ※作用:缩小检索范围,提高查准率。
WTO
例:计算机在图书馆中的应用 提问式:
计算机 and 图书馆 或 计算机*图书馆
China
WTO AND China
检索表达式是检索策略的具体体现 检索表达式=检索词+ 各种符号
(document W retrieval or document W delivery or document W delivery W system*) and (digital W librar* or electronic W librar* or virtual W librar*)
near Finds records that contain both of two
terms in the same sentence.
with Finds records that contain both of two
terms in the same field.
注意: near和with是两个比较特殊的位置算符,
※使用于需要从某个概念中剔除另一个概念的场合 ※检索词(排除关系) ※作用:排除不需要和影响检索结果的概念,提高查 准率。
例: “计算机 NOT 微机”
或 “计算机 — 微机”
patent German
PATENT NOT GERMAN
使用优先处理算符“( )”
※ “NOT”算符有排除掉相关文献的可能,
★二次检索(新的检索词,属限制检索)
※在简单检索或高级检索基础上
※缩小检索范围
※多次使用
所有文章
经过一次检索后
在上一次检索结果 的范围内进行再次 检索
清华大学 孙家广
扩大检索范围,提高查全率的方法:
1、考虑同义词或近义词(使用布尔逻辑符or连接) 2、选择较大检索范围的字段如摘要 3、使用截词符 4、使用上位词(如飞行器航天飞机载人航天飞 机)
因此,在实际检索中应慎重使用。
优先级运算
()>NOT>AND>OR ※英文数据库通常用字母,中文数据库要用符号
布尔逻辑提问式确定了表达概念的检 索词间的逻辑关系,但它不能确定检索词 与检索词相互之间的位置关系。
使用位置算符
邻接检索(Proximity Searching) :表明两或多个检索词 之间关系的符号
基本字段
rice in ab(只在文摘中查找)
au = Smith,J.C (作者为Smith,J.C )
py = 1998(只查1998年的文章)
辅助字段
la =Chinese (只查语种为中文的文献)
☆TI:篇名字段(Title)。 ☆ AU:作者字段(Author)。 ☆ CS:作者所在单位字段(Corporate Source)。 ☆ SO:文献来源字段(Source Publication)。包括期刊名称、
➢字段限制检索
指定检索提问在特定字段中出现,只有在指 定的字段中出现与检索提问相同的记录才被检索 出来。如要求检索的内容在题目中出现。 通常 的字段限制范围的大小顺序是:
题名<关键词<摘要<全文 常用的检索符号有:
in、=、<、>、≤、≥
➢字段限制检索
rice in ti(只在题目字段中查找)
rice in de(只在主题词中查找)
检索点access point ,即检索途径approach 。
☆分类——确定分类号 ☆主题——主题词或关键词 ☆题名——书名、刊名、篇名(允许中英文混合或是题名
的一部分) ☆号码——ISBN、ISSN、专利号、标准号 ☆作者——个人,团体 ☆单位名称 ☆基金——基金名称(受该基金支持所获得成果的文献)
基本索引字段:描术文献内容特征的字 段如篇名(/TI)、文摘(/AB) 辅助索引字段:描述文献外部特征的字 段如著者(AU=)、著者单位(AA=)、 语种(LA=)、出版年(PY=)等
字段(field)
记录 (record)
文档n
文档1(file):一张表就是一个文档
文档2
数据库结构图
数据库(database)
截词方式 前截断:*magnetic magnetic, electromagnetic, electromagnetic, thermomagnetic, … 后截断:librar* library, libraries, librarian,… 中截断:organi?ation organization, organisation
常用的位置算符有: (W), (nW), (N), (nN) W表示两个词不可以互换顺序
表达式1:Education(W)school 或 Education WITH school
检索结果:Education school;education schools
表达式2:Education(2W)school 检索结果:Education school;education schools;Education and music school;
N表示两个词可以互换顺序
表达式1: Education(N)school Education NEAR school 检索结果: Education school Education schools
表达式2: Education(3N)school 检索结果: Education school school of education Education and school school of music and education
代码、字段数目可能不完全相同。
补充说明
词组的检索:通常用“”或()来表示两词是作为一个词 组来检索的 如:“hypermedia database” ;“profit and loss”将 查找profit and loss
※各数据库的相关规定有所差异,在使用的时候要做相应的
调整!
检索途径组配
★高级检索:缩小或扩大检索范围
文档(File)
文档是数据库中一部分记录的集合。许多大型数据库 往往包含有数个以万计的记录,为便利用户检索,常划分 为若干文档。
另一方面,从数据库内部结构来看,文档是指数据库 内容的组成的基本形式,是由若干个逻辑记录构成的信息 集合。
记录(Record)
记录是构成数据库的信息单元,每条记录都描述了一个 原始信息的外表和内容特征。文献型数据库中的一条记录通 常是一篇文献的描述,包括题录、文摘、主题词等。
缩小检索范围,提高查准率的方法:
1、使用and 、not等限制检索范围 2、使用位置算符 3、选择检索范围较小的字段 4、使用二次检索 5、使用下位词 6、使用精确检索,如对于固定短语来说可用“”引起来
精确匹配和模糊检索
“任意一致” “完全一致” “前方一致”
※分类号,作者,第一作者,刊名,关键词
年,卷、 期、页等,或包括会议事项。
☆ PY:出版年份(Publication Year)。 ☆ LA:语种字段(Language),表示原文的语种。 ☆ DT::文献类型字段(Document Type)。 ☆ AB:文摘字段(Abstract)。 ※对于不同检索系统、不同数据库来说,其记录格式、字段
字段(Field)
一条记录通常由一些数据项组成, 这些组成记录的数据项就是字段。例如 一篇期刊论文的书目记录主要包括篇名、 作者、作者单位、来源、文摘、主题词 等字段。每一个字段通常由两个字母所 组成的代码表示,如TI(Title), AU(Author)等。
字段(Field)
对计算机检索来说字段相当于检索入口。