数据库检索基本原理和方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(3)逻辑“非”NOT(-),
表示概念的排除,即检出的记录中只 能含有NOT 算符前的检索词,但不能同时含有其后的检索词。
A*B
A+B
A-B
例 Solar*Energy 例 www + internet + network 例 Energy-Nuclear
◦ 除核能以外的有关能源方面的文献才被命中。
中文社会科学引文索引英文全称为
“Chinese Social Sciences Citation Index”,缩写为CSSCI
。是由南京大学中国社会科学研究评价中心开发研制的数据库,用来检
索中文社会科学领域的论文收录和文献被引用情况。
中国科学引文数据库英文全称
Chinese Science Citation Database,简称CSCD。1996
数字图书馆的概念不仅仅是数字化馆藏及其信息管 理工具的等价词,而是一种环境。它将馆藏、服务 和人整合成一个环境,以支持数据、信息乃至知识 的创造、传播、使用和保存。
数字图书馆的本质
数字图书馆既是一种环境 数字图书馆又是一种服务 数字图书馆也是一个过程
数字图书馆是要使任何人,在任何时间,从任何地点,获取其 所需的任何知识(5A:All the citizens anywhere anytime can use any Internet-connected digital device to
数字图书馆的概念
数字图书馆
Digital Library Electronic Library(电子图书馆) CD Library(光盘图书馆) Virtual Library (虚拟图书馆)
Nowall Library (全球图书馆)
数字图书馆:
是一个收集、组织、管理,并提供数字化信息服务的大系统。
成的,它是数据库的主体内容,类似印刷型的正文部分。 倒排文档是将记录中一切可检索字段(如著者、主题词、
叙词等)抽取出来,按其在文档中的位置和所在文档的序 号重新加以组织,这样可以按不同字段组成不同的倒排文 档(如著者倒排文档、主题词倒排文档等),也可以组成 一个不同字段的混合倒排文档,加快检索速度。相当于印 刷型检索工具的索引部分。
年由中国科学院文献情报中心首次在国内推出基于引文索引 理论和方法建立的引文数据库。它收录了国内出版的中英文 科技核心期刊582种,1997年采用来源文献近6.6万篇。 CSCD的研制成功,为我国的科学研究工作增添了一个极为重 要的工具。
全文数据库是一种源数据库(source database),通 常存储有文献的全文或其中的主要部分。 全文数据库最早出现于法律领域。 自1970s末期以来,尤其1980s中期CD-ROM商用化以后, 全文数据库大量涌现。继法律领域之后,经济、新闻、文 学、医学、化学及专利等领域先后推出了各种全文数据库。
按提供信息的详略划分
1、书目数据库 2、文摘数据库 Baidu Nhomakorabea、全文数据库 4、数值数据库
书目数据库(bibliographic database)是指存储某个领 域的二次文献(如文摘、题录、目录等)书目数据的一类 数据库,属于参考数据库中的一种。其数据主要来源于期 刊论文、会议论文、研究报告、学位论文、专利文献、报 纸等各种不同的一次文献信息源。
后方截词、前方截词和中间截词三大类。 按截词字符数又可分为有限截词和无限截词。
前方截词: 将截词符放在词根的前边,后方一致,表示在词根
前方有无限个或有限个字符变化。例如: Software(软件)Hardware(硬件),可用 “?ware” 代替。 ?Computer 那么microcomputer及minicomputer就不会
数字图书馆的特点:
数字化资源、网络空间、多媒体、多语言、智能检索、 全文检索。
The concept of a "digital library" is not merely equivalent to a digitized collection with information management tools. It is rather an environment to bring together collections, services, and people in support of the full life cycle of creation, dissemination, use, and preservation of data, information, and knowledge. (http://www.si.umich.edu/SantaFe/Introduction.html)
与文献数据库相比,数值数据库是人们 对信息进行深度加工的产物,它可以直接提 供解决问题时所需要的数据,是进行各种统 计分析、定量研究、管理决策等的重要工具。
①指南型数据库(Directory Database),存 储能够提供用户参考、给予用户指南的 各类信息,如商业、企业等机构的名称、 联系地址、项目内容、人物等简要描述 的一类数据库,也称指示性数据库。例 如:公司名录数据库、人物传记数据库、 技术标准数据库、产品目录数据库等都 属于这一类数据库。
308号(1967–1971)、 309号(1972–1976) 310号(1977–1981)、 311号(1982–1986) 312号(1987–1991)、 313号(1992–1996) 314号(1997-)等7个文档。 用户可以根据自己的需要,选择一个或多个文档(或数据库)进行检索。
一个数据库至少包含一个顺排文档和多个倒排文档。 顺排文档是将数据库的全部记录按照记录号的大小排列而
其逻辑算符有 OR(或+)、 AND (与*)、 NOT (非-)三种。
1)逻辑“与”AND(*), 表示两个概念的交叉,用来组配不同的检索概念,
其含义是检出的记录必须同时含有所有的检索词。
(2)逻辑“或”OR(+),
表示几个概念相加,用来组配具有同义词、相关词 等,在实际检索中,同一组面中含义相同的词,相互之间 都使用OR运算符,用于扩大检索范围,提高查全率。
②统计数据库、市场行情、调查分析数据库等,这类数据 库的出现,已成为科学研究、工程设计、管理决策、定 量分析等的重要工具。
③术语数据库(Terminological Database)指专门存 储名词术语、词语信息的一种源数据库,如各类电子字 词典。
④图像数据库(Graphics Database)指用来存储各种 图像或图形信息及有关文字说明资料的一种源数据库, 例如:主要用于建筑、广告设计、装潢、产品目录等方 面的图像数据库。
可以 先用自由词检索,必要时用上位主题词和相关词 检索。
C: 提问式尽量简化,如(1)*(2)+(1)*(3)应为 (1)*[(2)+(3)]
2)截词检索功能:
截词是检索相同词干的所有单词的一种联机检索方法。 使用截词算符,可减少检索词的输入,扩大检索范围,提高 检索效率。
一般检索系统用“?”和“*”表示截词符。 分类: 根据截词位置可以分为
将截词符号置于检索词的中间,而词的前、后方一致。 例如:colo?r 包含colour(英)和color(美)两种拼 写方法。
非限制性截词: “?”加在词干或不完整的词上, 对词的完整意义进行检索。例: computer? 代表 Computer, computers, computerized等
I. 逻辑提问式: 用逻辑符号将提问特征(主题词、分类号、作者等等) 连接起 来的式子叫逻辑提问式。 例: A and B(A*B):表示同时包含A和B A or B(A+B):表示包含A、B中的任何一个即可 A not B(A-B):表示包含A但不包含B。
II. 编写逻辑提问式应注意: a: 全面准确选词以反映提问的实际内容 b: 当用户提问中的主题找不到准确的主题词时,
辅助字段用来表达文献外表特征的字段,如作者 字段、出版年份字段等。
基本字段
字段名称 英文全称
题目
Title
文摘
Abstract
叙词
Descriptor
标题词
Identifier
缩写 TI AB DE ID
辅助字段
字段名称 英文全称
记录号
Document Number
作者
Author
作者单位 Corporate Source
⑤数值型数据库(Numerical Database) 其存储的信息为 数据,专门提供数值方式表示的一类数据库。如各种
计算机检索系统中数据库主要有文档、记录、字段三个层次构成。 (1)文档(File)
若干个逻辑记录构成的信息集合称为文档(或称文献数据库),它是组 成文献检索系统的基本单元。
有些文档因规模庞大,被分成若干个文档。如在DIALOG系统中,CA SEARCH数据库被分为:
撰写论文称为“来源文献”,或“引证文献”,其文后的“参 考文献”则为“引文”或“被引文献”(Citation)。
文献的引证关系,比较深刻地反映了科学文献之间的内在联 系。
可以找到一系列内容相关的文献以及某一学术观点的发 展脉络。这样不但可以看出某一学科的研究动态、研究情况, 而且可以看出这一学科的核心作者群,还可以根据某一名词、 某一方法、某一概念、某一理论的出现时间、出现频次、衰 减情况等,分析出学科研究的走向和规律。
search all of human knowledge[PITAC, 2001].)。
既然数字图书馆是一种服务,所以在进行数字图书馆建设时, 一定要以用户服务为导向,以用户需求为驱动,以用户满意度 为指标。
一、信息资源——数据库
按收录文献的类型划分 图书文献数据库 期刊文献数据库 专利文献数据库 会议文献数据库
● 图书馆馆藏目录的OPAC系统 ● CALIS的系列书目数据库系统 ●ZADL联合目录 ● 中文社会科学引文索引(CSSCI) ● 中国科学引文数据库(CSCD)
引文索引思想最早在1955年由美国学者加菲尔德提出。
引文索引是从文献之间的引证关系着手,去揭示科学文
献之间(包括学科之间)的内在联系。
记录是文档的基本单元,一个记录相当于 一篇文献,在全文数据库中,是一篇完整 的文章,而在文献型数据库中,则是一条 文摘或题录。
字段是记录的基本单元,每条记录由若干字段组 成,字段一般对应信息的著录项,可分为基本字 段和辅助字段两种。
基本字段是用来表达文献内容特征的字段,如题 名字段、文摘字段、叙词字段等;
漏掉了。 后方截词:
将截词符放在词根后面,前方一致。例如: comput ? 可 检 索 出 compute 、 computer 、 computerized 、 computerization等。 data? 则database, data system, data handling都会检出。 中间截词:
● 万方数据公司的全文数据库产品 —— 数字化期刊群
● 清华同方公司的全文数据库产品 ——博硕论文 —— 中国期刊网(CNKI)
● 重庆维普公司的全文数据库产品 —— 中文科技期刊全文数据库
● 超 星电子图书 ● 书生之家数字图书馆
专门提供以数值方式表示的数据(或包括 其统计处理表示法)的一种源数据库。例如, 各种统计数据库,财务数据库,科学技术数 据库等。
限制性截词: analy?er 命中记录中将出现 analyzer 和analyser;work??? 命中记录中将出现, work, works, worker, workers, working
布尔算符中的逻辑“与”只要求两个
检索词必须同时出现在同一篇文献中,而 没有限定算符两侧检索词之间的位置关系, 有时难免造成误检。
期刊名称 Journal
出版年份 Publishing Year
出版国
Country
文献类型 Document Type
文献性质 Treatment Code
语种
Language
缩写 DN AU CS JN PY CO DT TR LA
三、数据库系统的主要功能:
1)布尔逻辑检索功能
单独的检索词不能满足课题的语法要求,因此 需用逻辑算符加以组配。布尔逻辑是由19世纪英国 数学家乔治布尔提出来的,
相关文档
最新文档