信息检索第2章

合集下载

信息检索的基本知识

信息检索的基本知识

⑵信息检索系统的类型 〔续〕
④索引型检索系统: 索引是根据一定的需要,把特定范围内的
某些重要文献中的有关款目或知识单元,书 名、刊名、人名、地名、语词等,按照一 定的方法编排,并指明出处,为读者提供 文献线索的一种检索系统。
索引不仅广泛存在于各种书刊等文献 中,而且更多见于作为辅助检索系统而附 在不同类型的检索工具之后,为检索工具 提供了更多的检索途径。
信息的存储过程就是按照主题词表或 分类表及使用原那么对原始信息资源
一、信息检索原理〔续〕
2、信息检索系统〔续〕
一、信息检索原理〔续〕
⑵信息检索系统的类型
按信息处理手段划分有 ①手工检索系统。又称传统检索系统 是使用人工来查找信息的检索系统。 其主要类型有各种书本式的目录、题 录、文摘和各种参考工具书等。优点: 方便、灵活、 断准确。缺点:检索速 度太慢
2、信息检索系统〔续〕
按著录和标引方式划分 ④文摘型检索系统是以简练的文字将文献
资料的主要内容准确、扼要地摘录下来, 并按照一定的著录规那么和编排方式系统 地组织起来的检索 工具。 主要包括:报道性文摘
指示性文摘 如:美国的?化学文摘?英国的?科学文摘〉
中国的〈中国数学文摘〉〈海洋文摘〉
2、信息检索系统〔续〕
按著录和标引方式划分
⑤全文型检索系统 全文检索是指在文献资料的标题、目录、作
者、内容中检索 指定的字符串。 全文检索系统是指将文章 中所有的文字处理序列 都作为检索对象进行索引,并根据需要找出包含 有欲检索词的文献的系统。
作用:它能提供快捷的数据管理工具和数据 查询手段,帮助人们进行了大量文献数据的整理 和管理工作,使人们能够快速、方便地查到想要 的任何信息。
第二章 信息检索的根本知识

第2章--信息检索PPT课件

第2章--信息检索PPT课件

经济
文化、科学、教育、体育 语言、文字 文学 艺术 历史、地理
S
T U V X Z
农业科学
工业技术 交通运输 航空、航天 环境科学、安全科学 综合性图书
《中国图书馆分类法》
中国图书馆分类法分类表共分22个大类,再分17个 二级目录,医药卫生属于R大类。 《中图法》采用汉语拼音字母和阿拉伯数字组成的 混合制号码作类目标识,用一个字母标记一个基本
的问题;
另一方面是特定原始文献的查找,即在查找特定
的文献线索后,找出原始文献的过程。
第一节 信息检索基础
一、信息检索概念
(二)信息检索的意义和作用 信息检索 有助于知识更新 ,有助于同学们扩大视野 ,了解和把握有关学科中出现的新思想、新观点与 新知识。掌握信息检索技术是快速、准确地获取和 利用最新信息的有效途径。 信息检索有助于科学研究,了解和把握有关学科的 起源和发展过程。 有助于独立自主地解决自己在学习、生活和工作中 所遇到的疑难问题。 是接受终身教育的必要手段。 节省时间,提高效率。
第二节 信息检索语言
二、检索语言的种类
(一)分类检索语言 分类检索语言又称分类法,是用分类号(字母、数 字或它们的组合)来表达各种概念的,并将各种概 念按学科性质进行分类和系统排列的信息检索语言。 它以树状结构的形式,按知识门类的逻辑次序反映事物 的从属、派生关系,构成具有上位类和下位类隶属、同 位类并列的概念等级体系。 能较好体现概念的族性关系,从学科专业的角度检索资 料,比较方便,扩大、缩小检索范围方便。
(一)按信息检索的对象划分
数据信息检索 利用数据库、工具书等以数值或数据为对象的检 索,也称为数值检索。检索包含分子式、分子量 、公式 、图表等特定数据的信息。

第二章 文献信息检索基本知识(2).概要

第二章 文献信息检索基本知识(2).概要
(大学生or本科生or研究生)-(大专生or高职生) and 就业
(2)截词检索表达式
用截词符号“*”、“?”或“$”加在检索词 的前后或中间,以检索一组概念相关或同一词根 的词。 按截断的位置可分为:
前截断、中间截断、后截断 按截断的字符数量可分为: 有限截断(?)、无限截断(*)
如:输入检索式“Comput*”,将检出包含 Computer、Computing、Computed、 Computerization 等词汇的结果。
第二章 信息检索基础知识
2.3 文献信息检索的工具
1、文献信息检索工具概述 检索工具是将大量分散无序的文献资料经过加 工整理,按照一定的规则和方法编制起来,用来 报道、存储和查找文献的工具,是附有检索标识
的某一范围文献条目的集合。
传统的检索工具是人们利用手工方法编制的
工具书,有字典、词典、目录、百科全书、名录、 类书、政书、表谱、图录等。这些工具书是人们
题录示例
(3)索引(引得) 索引是将书刊内容中所论及的篇名、语词、主 题等项目,按照一定的排检方法加以编制,注明出 处,供读者查检使用的检索工具。 索引与目录的根本区别就在于著录的对象不同, 目录所著录的是一个完整的出版单位,索引所著录 的则是完整的出版物的某一部分、某一观点、某一 知识单元,提高文献检索的深度和检索效率。
完全一致(精确匹配)、任意一致(模糊匹配)
等。
讨论1: 我馆书目查询系统共有多少种检索方式?其基 本检索有多少个检索字段?
讨论2: “中国学术期刊网络出版总库”有哪些检索方式?

? ? 中国科技期刊数据库初级检索界面
2、 信息检索方法
(1)常用法 ①顺查法 ②倒查法 ③抽查法 (2)回溯法 (3)循环法

第二章 信息检索

第二章 信息检索

2.检索技巧和提示
(1) 广泛浏览数据库 进入数据库前,需阅读数据库的说明,包括:出版、结构(权威性),出版类 型(期刊、会议、报告、专利…),文献类型(全文、文摘、题录…),收集年限,使 用权限,文献版本,服务方式(光盘、联机、专线、镜象、出国),连接方式,帐 号、密码,咨询联系等。现在许多数据库被组织到信息服务中心的web网页 上,并提供了有关介绍,应当充分地利用它们。
(1)积木型 积木型检索策略的含义是:把检索课题剖析成若干个概念面,先分别 对这几个概念面进行检索;在每个概念面中尽可能全和多地列举相关词 、同义词、近义词,并用布尔算符OR连接成子检索式,然后再用布尔算 符AND把所有概念面的子检索式连接起来,构成一个总检索式。 优点是:能够提供较明确的检索逻辑过程,以后容易检索和理解,还可 部分或全部地用作保留检索。一般地,“积木型”策略用于较复杂的检 索课题。 • 如“肺癌”与“吸烟”可以分成两个概念面,这两个概念面的各种形式 的检索词有: cancer smoker(s) • • carcinoma lung(s) cancer smoking cigar
(二)截词检索
截词检索:是指在检索时使用词的一个局部(某些 位置上的字符被截去)进行检索匹配,并认为凡满足这 个词局部中的所有字符要求的记录,都为命中结果。 截词检索需要使用专门符号(截词符),以指定截词 的具体位置与截断字符的数量。 • 按照截词位置的不同,截词检索分为: 右截词、左截词和中间截词三种。 例如:检索式 “wom?n”可检索到含有woman、women的结果。 截词检索实际上是一种隐含“逻辑或”的运算,能提 高查全率,扩大检索结果,是防止漏检的有力手段。
第二部分事实与数据检索工具
讨论事实、数据资源检索,其检索的对象是大量的、 常用的那些具体的科学技术数据和事实,如物理量、 物质特性、参数、规格等技术数据以及价格、产量、 公司名录、人名录等商业、经济等各种实用信息。 它们的检索工具包括:百科全书、年鉴、手册、词 典、机构指南和人名录、书目及书目指南等参考工 具。

第2章-信息检索模型

第2章-信息检索模型
▪ N: 文档集中文档总数
▪ 反文档频率用词项区别文档
例如:文档总数为1000,出现关键词k1文档为100
篇,出现关键词k2文档为500篇,出现关键词k3
文档为800篇
N=1000, n1=100, n2=500, n3=800
根据公式: idfi = log(N/ni) ,可计算出
idf1= 3 - 2 = 1
这里q dnf是提问式q旳主析取范式。可进一步简化表
达 为: q dnf =(1,1,1) or (1,1,0) or (1,0,0)
其中: (1,1,1) or (1,1,0) or (1,0,0)是q dnf旳三个合取
子项qcc,他们是一组向量,由相应旳三元组(k1 , k2 , k3)
旳每一种分量取0或1得到。
▪ 根据关键词旳出现频率计算相同度
• 例如:文档旳统计特征
▪ 顾客要求一种词项(term)集合,能够给每个词项附加权重
• 未加权旳词项: Q = database; text; information
• 加权旳词项: Q = database 0.5; text 0.8; information 0.2
由索引项构成向量空间
▪ 2个索引项构成一种二维空间,一种文档可能包括0,
1 或2个索引项
• di = 0, 0
(一种索引项也不包括)
• dj = 0, 0.7 (包括其中一种索引项)
• dk = 1, 2
(包括两个索引项)
▪ 类似旳,3个索引项构成一种三维空间,n个索引项
构成n维空间
么一种文档D就能够表达为D(t1,t2,…,tn),其中n就代表了检
索字旳数量。
▪ 特征项权重Wk(Term Weight):指特征项tn能够代表文档

第二章 信息检索基本知识

第二章 信息检索基本知识

(二)按出版形式划分:
原始文献
图书
特种文献
期刊
会 议 文 献
科 技 报 告
专 利 文 献
学 位 论 文
政 府 出 版 物
其 标 准
食品标准网

7-111-17892-0
《发票报文》GB/T 17303.2-1998 第二部分:国际贸易商业发票报 文
……
(三)按信息的加工程度来分: 1、一次文献信息 (原始文献):
一、检索工具的作用 1、报道作用 2、存储作用 3、检索作用
二、检索工具的特点
1、详细而又完整地记录了文献的外部特征和内部特征。
2、对所著录的文献,标引了可供检索的检索标识。 3、提供必要的检索手段,配备各种体系的索引。
三、检索工具的类型
按著录信息的特征划分:
1、目录 2、题录 3、文摘 4、索引
检索途径-分类途径 分类途径的缺点是新兴学科、边缘学科在 分类时往往难于处理,查找不便。另外, 从分类途径检索必须了解学科体系,否 则在将概念变换为分类号的过程中常易 发生错误,造成漏检或误检。
检索途径-主题途径
• 主题途径是一种按照文献的主题内容查找文献 的途径。使用的语言是主题语言。使用的检索 工具有“主题索引”、“关键词索引”、“叙 词索引”等。 • 主题法打破了传统的学科分类的框框,把分散 于各个学科的有关文献集中于同一主题词之下, 以文字作检索标识,索引按照资料内容的主题 词或关键词的字顺排列,检索时就象查字典一 样,不必考虑学科体系。
更多……
• 按检索方式,可分为印刷型检索工具和机器检 索工具; • 按出版形式,可分为期刊式检索工具、书本式 检索工具、卡片式检索工具、缩微式检索工具、 机读式检索工具等; • 按收录范围,可分为综合性检索工具、专题性 检索工具; • 按语种,可分为中文检索工具和外文检索工具;

清华大学-信息检索-第2章

清华大学-信息检索-第2章

28
2.3 检索系统与检索方法
2.3.2 检索方法 1. 常用法
常用法是利用检索工具查找信息的一种方法, 因为这种方法是目前查找信息中最常使用的,故亦 称常用法。 (1) 顺查法 (2) 倒查法 (3) 抽查法
29
2.3 检索系统与检索方法
(1) 顺查法
是指按年代由远及近的顺序进行查找的方法, 如检索“电视文化”这一课题,首先要弄清起始时 间,即“电视文化”产生的时间是哪一年,然后从 这一年开始查起,一直查到当前“电视文化”方面 的相关信息为止和查准率都较高,但是检 索整个课题较费时费力。
1) 手工检索 手工检索简称“手检”,是指人们通过手工 的方式检索信息,其使用的检索工具主要是书本 型、卡片式的信息系统,即目录、索引、文摘和 各类工具书。检索过程是由人工以手工的方式完 成的。 2) 计算机检索 计算机检索简称“机捡”,是指人们利用数 据库、计算机软件技术、计算机网络及通信系统 进行的信息检索,其检索过程是在人机的协同作 用下完成的。
11
2.1 信息检索概念及类型
3) 数据型信息检索
数据型信息检索是一种确定性检索,是以 数值或图表形式表示的数据为检索对象的信息检 索,又称“数值检索”。检索系统中存储的是大 量的数据,这些数据既包括物质的各种参数、电 话号码、银行账号、观测数据、统计数据等数字 数据,也包括图表、图谱、市场行情、化学分子 式、物质的各种特性等非数字数据。
22
2.2 检索途径与检索语言
(2)主题语言 主题“是一组具有共性事物的总称,用以表达 文献所论述和研究的具体对象和问题”,即文献的 “中心内容”。每种文献都包含着若干主题,研究 或阐述一个或多个问题。主题词就是表达主题概念 的词汇。
23

文献检索,信息检索(2)第二章 信息检索原理

文献检索,信息检索(2)第二章  信息检索原理
优点:可以检索到某学科或专业的所有文献,有较高 的查全率。
缺点:常常落后于当前研究现状,分类表相对呆板的 学科关系,使得确定前沿概念、跨学科概念或非常具 体概念的分类,较困难。用户差异性。
分类语言
中国图书馆图书分类法 美国国会图书馆分类法 杜威十进位分类法 IPC国际专利分类法
基本部类 马列毛邓 哲学
(2)多概念课题
并列概念课题,如“新闻宣传研究”
“计算机在人文社会科学方面的应用” 上位类分类方法,如“灰色系统理论”
应用性课题,如“计算机在人口预测方面的应用”、
2.主题语言
是直接以代表信息内容特征和科学概念的概 念词作为检索标识,并按字顺组织的一种检索语 言。 是以表达文献主 是从文献的内容 是从文献的题目
一、检索算符 逻辑与
(一)布尔逻辑算符
布尔逻辑组配运算是采用布尔代数中的 逻辑“与”逻辑“或”、逻辑“非”等算符,
将检索提问式转换成逻辑表达式,限定检索
词在记录中必须存在的条件或不能出现的条 件。凡符合布尔逻辑所规定的条件的文献, 既为命中文献。
布尔逻辑运算符
————————————
1、逻辑“或” 2、逻辑“与” 3、逻辑“非”
2、逻辑“与”
————————————————
Chinese AND litera0,000 网络100,000,000) 用符号“and”或“*”表示,其逻辑表达式为: A * B 或 A and B 其意义为检索记录中必须同时含有检索词A和B 的文献,才算命中文献。
4、记录级
检索词在数据库的同一记录中。
(C)—citation
表示两侧的检索词(或检索项)必须出现在同一记录中,词
序不限,中间词数量不限,其作用与布尔逻辑算符AND相同。

第二章 信息检索原理

第二章 信息检索原理
22
2013-11-4
2、主题语言 主题语言是直接以代表信息内容特征和科 学概念的概念词作为检索标识,并按字顺 组织起来的一种检索语言。 分为:规范主题语言和非规范主题语言
2013-11-4
23
1)、规范主题语言 • 以自然语言为基础,经过标准化、规范化处理 的词语,具有概念性、规范性、组配性、语义 性和动态性。
信息源 用户
信息分析、 著录、标引
检索语言 数据库
用户需求分析
信息的表示
存储
检索
检索提问式
匹配过程
输出检索结果
2013-11-4 4

信息检索的实质是一个匹配(match)的过程:
也就是信息用户的需求和信息集合的比较与选择,用户 根据检索需求,对一定的信息集合采用一定的技术手段, 根据一定的线索与准则找出相关的信息。
2013-11-4 27
第三节 检索途径
• 一、信息检索方法
• 二、信息检索途径
2013-11-4
28
1.信息检索的方法
顺查法:从过去某一时间起往现在检索
倒查法:从现在往过去逐年逐月地检索 用户注重新信息,如:写论文
常规法:
信 息 检 索 的 方 法
抽查法就是抽查某一时段的信息.在事 物发展的关键、鼎盛时期,用户注意的 是某些重要的、关键性信息资源
计算机检索简称“机检”,是利用计算机和一定的通信 设备查找所需信息的检索方式.
特点:速度快、效率高、查全较高,成本高,费用大,
查准率通常不尽人意, 现代信息检索即计算机信息检索,是指利用计算机和网 络来处理和查找文献信息的检索方式。目前广泛使用的 计算机检索系统包括光盘系统、联机检索系统和网络检 索系统。
2013-11-4 9

第二章 信息检索基本方法与基本技术

第二章  信息检索基本方法与基本技术

2. 主题检索语言
• 标题词:经规范化处理的词或词组,先组式
语言
• 叙 词(单元词):经规范化处理的词或词
组,后组式语言,可自由灵活组配
• 关键词:未经规范化处理,直接从文献题名、
原文或文摘中选取的能反映原文主题内容的自 由词汇
二、检索工具
定义:检索工具是人们用来存储、报道和查找 文献的工具,它具有存储和检索的功能。
点击预约书刊可预约该书 预约图书:选定所需图书,输入证号、密码,执行预约 点击机读格式可查看该书的MARC信息
高级查询
• 在题名、著者、丛书名、主题词、出版社、 ISBN(书)、ISSN(刊)、索取号、起始年 代中填入自己确定的内容,其余的可以不填 写;选定语种(17种)和文献类型,然后进 行检索。 • 结果可检索到所需文献的题名、著者、出版 信息、索取号 • 查看选中图书的相关信息
图书馆信息查询系统
•书目查询 •读信者息 •新书通报:一个月内到馆的新书、馆藏 地,并可查看新书 •订购征询 •信息发布:预约到书列表、超期罚款、 超期催还、委托借阅到书列表
如何利用计算机进行检索
书刊查询
读者信息查询
图书馆主页的功能
信息发布功能:
图书馆最新服务动态、电子 资源试用等均及时在主页上发布。
一、信息检索原理
信息检索的原理(示意图)
存 储
特征化
表示
查 询
特征化
表示
信息 集合
选择与匹配
需求 集合
二、信息检索类型
手工检索 计算机检索 文献信息检索
• 信息检索(内容)
• 信息检索(工具手段)
数据信息检索
事实信息检索
第二节 信息检索语言与工具
一、信息检索语言

信息检索教程 第2章 信息检索系统

信息检索教程 第2章  信息检索系统

连续 出版物
学位论文
传统文献信息媒体——按文献信息媒体的内容形式划分
类型 释 义 标准文献 是指对工农业产品、卫生教育、行政机关和工程建设的质量、规格、检验方法及 管理等所做的技术规定,是人们从事管理、设计、生产和检验的一个共同技术依 据。标准作为一种规章性的技术文献,具有一定的法律约束力。 会议文献 一般是指国内外各个科学技术学会、协会及有关主管部门召开的学术会议或专业 会议上提交、宣读或交流的论文或报告。因此会议文献代表着一门学科或专业的 最新研究成果,反映着当时的发展水平或动态。会议文献通常有会前预印本,会 后会议录、论文集、期刊等出版形式。 专利文献 主要指专利说明书,也包括各种专利检索工具、专利公报及专利法律文件等。专 利文献具有新颖性、创造性和实用性的特点,并具有垄断性、地域性、时间性、 公开性和法定性的特征,因此专利文献是一种集技术与法律于一体的实用性很强 的文献信息媒体,但重复出版率很高。
2.1 信息源与信息媒体
2.1.2 信息媒体
2. 电子文献信息媒体 电子文献信息媒体是指以数字编码的形式,把文字、 图像、动画、声音、视频等信息存储在磁光等介质 上,通过计算机和其他辅助设备阅读使用的一种新
型文献信息媒体,实质是一种机读型信息媒体。电
子文献信息媒体是信息技术发展的产物,它的产生、 发展和应用给人们展示了一个全新的虚拟世界。电 子文献信息媒体种类繁多、划分多样。
二次文献
三次文献
传统文献信息媒体——按文献信息媒体的内容形式划分
类型 图书 释 义 是用于全面而系统地阐述某一方面或学科的科学理论或发展,传授科学技术以及 查阅某些知识的文献形式。一般来说,图书的内容比较系统、全面、成熟、可靠, 缺点是出版周期长、新颖性欠佳。图书按使用功能可分为以下两类。 阅读型图书:教科书、专著、科普读物 查阅型图书:参考工具书、检索工具书 采用统一名称定期或不定期连续性发行的出版物,主要指报纸、期刊和年度出 版物。连续出版物一般有连续的卷期或年月日顺序号,出版周期短、报道文献 快、内容新颖、信息量大,特别是报纸、期刊现已成为广大民众和科研人员阅 读量最大的信息媒体。 这是高等学校或研究机构的毕业生作为评定各级学位而撰写的论文。目前多数国 家的学位分为学士、硕士和博士三级。学位论文质量参差不齐,但带有一定的独 创性和新颖性,特别是博士论文具有较高的专业水准、参考价值较大。

信息检索原理

信息检索原理
2.1.1 信息检索旳定义 “检索”(Retrieval)一词是一种外来词,起源于英语 “Information Retrieval”(信息检索)
“检索就是查找”,这仅仅是一种狭义旳解释。从广义旳角度讲, 检索涉及“存贮”和“查找”两个过程。没有存贮就没有查找, 存贮是为了查找,但查找必须有存贮,两者缺一不可。
是以文件为检索对象旳信息检索。也就是说文
件检索是以图书、期刊、资料、数据库中旳篇章或
全书刊为检索对象旳一种检索。
如:检索有关“花卉组织培养技术”旳文件。
文件检索是一种有关性检索,检索成果不直接
回答顾客提出旳技术问题,只是提供与之有关旳文
件信息供顾客参照。
7
(2) 事实检索(Fact Retrieval)
5
信息检索原理示意图:
原始信息
信息处理人员
存贮过程
检索成果 检索 工具
信息分析、著录
和标引
存入
检索语言
(主题词/分类号)
检索
课题分析
检出
6
检索课题 用户
检索过程
3.信息检索旳类型
以检索内容区别:
根据检索对象不同,信息检索可分为文 件检索、事实检索和数据检索三种类型。
(1) 文件检索(Document Retrieval)

O3 力学
O31
理论力学
19
第2章 信息检索原理
分类法途径旳特点: 它体现了学科旳系统性,便于从学
科或专业旳角度出发进行族性检索,但 缺乏进行多概念灵活组配旳能力。
20
索书号又称为排架号
反应了某种图书在整个图书组织 中旳排列顺序和在书库中旳详细位置 (架位)
构成:分类号+书次号

第2章信息检索的基本知识

第2章信息检索的基本知识
2.1.1 信息的存储与检索 6、间接检索 通过检索工具指引来获取所需信息。
10
2.1 信息存储与检索原理
2.1.1 信息的存储与检索
7、信息检索通常包括4种类型 一是关于文献的检索; 二是关于某事实或事项的知识检索; 三是关于数值或数据的情报检索; 四是关于图象信息的信息检索。
11
2.1 信息存储与检索原理
第2章 信息存储与检索基础
2.1 2.2 2.3
信息储存与检索原理 信息检索与检索类型 索引款目的结构与类型
1
2.1 信息存储与检索原理
2.1.1 信息存储与检索概念 1、广义信息检索: 指将信息按有序的方式组织和贮存,并根 据用户的需求查找出有关信息的过程。包括存 入和输出两个方面。
2
2.1 信息存储与检索原理
1 信息检索模型
(1)基于文档内容的检索模型 布尔逻辑模型:采用布尔代数中的逻辑“与”“ 或”“非”等算符,来制定检索词中必需存在的 条件或不能出现的条件
缺点:精确匹配导致的结果文档过多或丢失
22
2.1.3 信息存取模型
1 信息检索模型
(1)基于文档内容的检索模型 概率统计模型:利用概率论的原理,通过赋予标 引词概率值来表示该词在相关文档集合或无关文 档集合中出现的概率。
1 脱机存取 早期计算机检索没有终端设备,利用磁带检索,利 用穿孔卡片或纸袋输入数据或命令。Biblioteka 492.2 信息存储与检索类型
2.2.3 按检索系统的工作方式划分
2 联机存取 用户可以使用终端设备直接与计算机进行“人机对 话”,计算机能对用户的提问及时处理并显示结果 的查询。
50
2.2 信息存储与检索类型
27
2.2 信息存储与检索类型

新第二章 信息检索基础知识

新第二章 信息检索基础知识

2.2 信息检索语言
三、主题语言
4.关键词语言
是指从文献标题、文摘、正文中抽离出来的,对表征文献主题 内容具有实质意义的语词,以关键词作为信息标识和检索依据的主 题语言。关键词没有固定的词表,因为对于同一个事物的概念,不 同作者甚至是同一个作者在不同的著作中用词都会不同,它是没有 经过规范化的自然语言词汇。 在检索中文医学文献中使用频率较高的《CMCC》数据库就是 采用关键词索引方法建立的。
2.5 计算机检索技术 四、词组检索
将固定词组或短语 看成单个词进行处理。
常用“ ”作为词组检索的运算符。
2.5 计算机检索技术 五、字段检索
对指定的一个或多个字段进行检索,从而提高查准率或查全率。
标题、作者、摘要、关键词、作者单位、文献来源、学位授予单位、 学位级别、会议信息、会址、会期、书名、出版地、出版年、专利号、报 告号、ISBN、ISSN等。
2.2 信息检索语言
一、信息检索语言的定义、作用和种类
4.分类:
篇名(题目) 著者名称 描述文献外表特征 文献序号 引用文献 等级体系分类语言 分类语言 组配分类语言 主题语言
检索语言
描述文献内容特征
代码语言
标题词语言 关键词语言 单元词语言 叙词语言 分子式索引 结构式索引 专利号索引等
2.2 信息检索语言
2.4 信息检索标识 一、检索标识的定义
检索标识即检索词,是指能表达检索课题主题概念和信息需 求的名词术语、分类号、名称、代码等的总称,包括主题词、 关键词、名称、分类号、分子式、专利号及各种号码。
2.4 信息检索标识 二、信息检索标识的类型
1.描述信息内容特征的检索标识: 分类、主题、代码(符号)。
2.5 计算机检索技术 一、布尔逻辑检索

第2章信息检索原理与技术

第2章信息检索原理与技术

2.4.4
限制检索
为了确定检索词在数据库记录中 出现的字段位置,可采用字段限制 查找的范围。常用的字段代码有标 题(TI)、文摘(AB)、作者 (AU)、 语种(LA)、刊名(JN) 等。 限制检索在光盘数据库中一般用 前、后缀表示,在网络数据库中一 般使用下拉菜单进行选择限制。
2.4.5信息检索方法及技术应用实例 检索课题:相变储能纤维的制备
数据信息检索
以具有数量性质并以数值形式表示的 数据为检索对象,是一种确定性检索。 检索的结果是经过测试和评价过的各种 数据,可用于比较分析和定量分析。它 一般以数据大全、手册、年鉴等为检索 工具。
示例
2008年申请中国发明专利和 获得授权发明专利的国家有哪些? 检索工具 中国统计年鉴
事实信息检索
信息检索语言
检索语言又称标引语言, 是系统存储和检索时共同 使用的一种约定语言,以 达到信息存储和检索的一 致性,提高检索效率。
检索语言的类型
分类语言
主题语言
体系分类语言 组配分类语言 混合分类语言 标题词语言 关键词语言 叙词语言 单元词语言
体系分类语言
体系分类语言是按学科逻辑分类的
原理,运用概念划分的方法,按知 识门类从总到分,从上到下,层层 划分,逐级展开组成分类表,并以 分类表来标引、存储信息和检索信 息。特点是体现学科的系统性,反 映事物的平行、隶属和派生关系, 有利于从学科的角度进行族性检索, 达到较高的查全率。
信息检索效率是评价一个检 索系统性能优劣的质量标准,它 贯穿于信息的存储和检索的全过 程。其评价指标主要是:
查全率 查准率
2.2.2 信息检索系统
信息检索系统是拥有一定 的存储、检索技术装备、存 储有各种信息,并能为用户 检索所需信息的服务工作系 统。目前常用的是手工检索 系统和计算机检索系统。

第2章网络信息检索

第2章网络信息检索

3.按组配方式划分 (1)先组式语言(Pre-coordination) (2)后组式语言(Post-coordination)
2.5.3分类语言
1.分类语言的概念 分类语言(Classification language)是 用分类号和类目来表达各种主题概念的检索语言。 它以学科体系为基础,将各种概念按学科性质和 逻辑层次结构进行分类和系统排列。分类语言的 具体表现形式主要是分类表。常见的分类法有 《中国图书馆分类法》、《中国科学院图书馆分 类法》(科图法)、《杜威十进分类法》(DDC)、 《美国国会图书馆分类法》(LC)。
基本部类
马克思主义、列宁主义、毛泽东思想、邓小平理论 哲学 社会科学
基本大类
A马克思主义、列宁主义、毛泽东思想、邓小平理论 B哲学、宗教 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学 J 艺术 K 历史、地理
自然科学
N 自然科学总论 O 数理科学和化学 P 天文学、地球科学 Q 生物科学 R 医药、卫生 S 农业科学 T 工业技术 U 交通运输 V 航空、航天 X 环境科学、安全科学 Z 综合性图书
2.3.1数据库的含义
简单地说,数据库是依照某种数据模型组 织起来并存放于计算机存储设备中要的信息资源,也是信息检索的重要 资料来源。
2.3.2数据库的类型
1.按照数据库的内容与功能划分 (1)参考数据库(Reference Database) 指为用户提供信息线索的数据库,它可以指引用户获 取原始信息,有时又称为二次文献数据库,包括书目数据 库、文摘数据库和索引数据库。 (2)源数据库(Source Database) 指能直接提供原始资料或具体数据的数据库,包括数 值数据库、文本一数值数据库、全文数据库、术语数据库、 图像数据库和多媒体数据库等。 (3)混合数据库 指同时存储参考数据库和源数据库的数据库。

信息检索教程 第二章 检索语言

信息检索教程 第二章 检索语言

17
【例题】检索英语会话类辞典,例如《美国语会话百科》、 《英语会话大全》、《现代英汉生活用语图解词典》,请 选择,哪种检索途径才能够同时查出这3本书? 【选项】 A.用关键词“会话”和“词典” B.用中国图书分类号H319.9-61
C.用书名“英语会话”和“大全”
D.用书名“英语会话”和“词典” 【答案】B
2.1.3.3 按信息标识的组合使用方法,可分 为先组式语言、后组式语言和散组 式语言
2.1.3.4 按语言的规范程度,可分为人工语 言和自然语言
3
第2章 检索语言
2.2.1 概念逻辑
2.2 检索语言 的理论基础
2.2.1.1 概念间的关系 不相容 关系
相容关系
同一 属种
整体与 全面与 不相排斥 交叉 部分 某一方面 的并列
10
第2章 检索语言
2.3.2.3 主要体系分类法介绍 国内常见的体系分类法有:
《中国人民大学图书馆图书分类法》,简称《人大法》 《中国图书馆分类法》,简称《中图法》 《中国科学院图书馆图书分类法》,简称《科图法》 《中国档案分类法》
国外常见的体系分类法有:
《杜威十进分类法》(Dewey Decimal Classification)简称DC或DDC 《美国国会图书馆分类法》(Library of Congress Classification)简称LC 《国际十进制分类法》(Universal Decimal Classification)简称UDC
11
《中国图书馆分类法》 第2 章 检索语言
我国目前广泛使用的分类法是《中国图书馆分类法》。它是由国 家图书馆等单位组织全国力量,以学科分类为基础,并结合图书的特 性所编制的分类法。它将学科分五大部类,基本序列是:马克思主义 列宁主义毛泽东思想、哲学、社会科学、自然科学、综合性图书,由 5大部类、22个大类、6个总论复分表、30多个专类复分表、4万余条 类目组成了一个完善的分类体系。 标记制度采用拉丁字母与阿拉伯数字相结合的混合号码制,用一 个字母代表一个大类,以字母的顺序反映大类的序列,在字母后用数 字表示大类下类目的划分,数字的设置尽可能代表类的级位,并基本 上遵从层累制的原则。

第二章信息检索基础知识

第二章信息检索基础知识

属后组式语言。
主题词
概念:通过文献所属学科的主题对文献进行检索, 是以主题词为检索标识,它是一种特性检索。 主题词是用来表达文献的主题概念的,经过规范化 主题词 处理的名词或词组。 如:出生缺陷-畸形 杵状指-骨关节病,继发肥大性
主题词表- 主题词表-单元词表
《WPI--规范化主题词表》
(WPI--LIST OF STANDARD THESAURUS TERMS)
是检索英国德温特公司专利文献的工具。按规范 词字顺排列。其著录格式见图
WPI-List of Standard Thesaurus Terms 1987 COBALT(3772)(1) COBALT@(3) CODON【87】(4) ELECTRIC(33892)(1) Electrical(2)
关键词 自然语言 单元词 标题词 叙词 语 言 言 语
分类语言
分类语言是运用概念划分的方 法,按文献内容所属学科、专 业性质的逻辑次序,以数字、 字母或数字与字母结合为基本 字符,以分类号为标识,用来 存储和检索文献的文献标识系 统。
分类语言的特点
主要特点就是按学科专业性质集中图书 区分不同性质的图书 集中性质相同的图书 相近的放在相近的位置 按照远近亲疏的关系把图书组成为一个 有条理的体系 提供从学科分类查找图书的途径
机械制造工艺系统学 / 张恩生,申铁固编著-上海交通 大学出版社 TH16/ Z31 机械设计学习指南 / 陶民华等编机械工业出版社 TH122-44/ T43 机械优化设计基础 / 张九明编著煤炭工业出版社 TH122/ Z32A 分类号+著者号TP393-62/J25
主题语言
主题语言是指以自然语言的字符为字符, 以名词性术语为基本词汇,用名词性术 语作为标识的一种信息标识系统。是主 题概念检索文献信息的检索语言。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

字段检索等检索技术。
图书馆及其文献系统
3个图书馆楼
95职工 7个借书点 19个阅览室 173万册图书 运转状况(2003) 读者群:约14000 借还书110万册次 外文数据库全文文章下载量 108万篇 网站信息流量 100M-200M/S 电子图书 阅读:30-50万页/天 图书馆主页
机信息检索系统商业化服务,使计算机信息检 索进入了新的历史发展阶段。 用户—> 检索策略—>“人机对话”—> 获取所 需信息 著名的国际联机检索系统有美国的DIALOG系 统、ORBIT系统、BRS系统以及MEDLARS系 统,还有欧洲的ESA/IRS系统、英国的 BLAESE系统等。
联机检索(Online Retrieval )
位置算符
A(N)B
AB相连,可颠倒顺序 EG:education(N)school education school, education schools school of education A(nN)B AB两词最多相隔n词且顺序不限 EG: education(1N)school education school, education schools school of education, education and music school school of music and education FirstSearch数据库
联机检索的优缺点
优点
检索速度快,效率高; 检索范围广泛、全面; 检索途径多,方便、灵活; 检索内容新,实时性强; 检索辅助功能完善(人机对话、检索结果输出 方式灵活,输出格式多样等)。 缺点 检索费用高; 对检索系统及其文档(数据库)的收录、标引、 特点等问题较难了解、熟悉; 检索技术和技巧不易掌握。
光盘检索阶段
时间:20世纪80年代以来 1985年,美国研制出第一个推向市场的光盘产品
BiblioFile (LC-MARC)数据库及其编目软件系统,它收 藏了美国国会图书馆自1965年以来的全部英语文献书 目,以及1900~1964年的部分书目记录。 1986年,我 国国家海洋局海洋科技情报研究所首次引进光盘数据 库ASFA(水科学与渔业文摘) 。 储量极大而体积微小,要求设备简单,可随地安装, 使用方便、易于操作,检索费用低(不需要昂贵的联 机检索通讯费用),可随时修改检索策略而具有很高 的查全率和查准率等优点。 CA、BA、SCI、CAJ
缺点: 检索费用较高; 缺乏思维能力和灵活性; 文献回溯检索能力不强; 网上检索,线路紧张时速度慢。
一、计算机信息检索的发展历程
脱机检索阶段
联机检索阶段 光盘检索阶段
网络化检索阶段
脱机检索阶段(Offline Retrieval)
时间:20世纪50年代-60年代
字段检索
字段检索即指定检索词出现的字段,包
括前缀限制符和后缀限制符。 常用前缀限制符:AB、AU、 CS 、DT、 FT、ISSN、JN、KW、LA 、PY、TI; 后缀限制符将字段代码放在检索词后。 EG:JN=Wall Street education(W)school/AB FirstSearch数据库
2)检索结果信息量过少 造成检索结果信息量少的原因有以下几点:首先,选



用了不规范的主题词或某些产品的俗称,商品名称作 为检索词;其二,同义词、相关词、近义词没有运用 全;其三,上位概念或下位概念没有完整运用。针对 这种情况,就要考虑扩大检索范围,提高检索结果的 查全率。调整检索策略的方法如下: (1)选全同义词与相关词并用逻辑”或”将它们连接起 来,增加网罗度; (2)减少逻辑“与”的运算,丢掉一些次要的或者太专 指的概念; (3)去除某些字段限制; (4)调整位置算符,由严变松,(W) (F)。
3.列出检索词
(1) 先选用主题词。当所选的数据库具有规范化词表时,
应优先选用该数据库词表中与检索课题相关的规范化 主题词,从而可获得最佳的检索效果。
注意上位、下位,关键词:注意同义词、近义词、英美不同拼法
和禁用词
(2) 选用数据库规定的代码。许多数据库的文档中使用
各种代码来表示各种主题范畴,有很高的匹配性。例如, 世界专利文摘数据库中的分类代码,化学文摘数据库 中的化学物质登记号。 (3) 选用常用的专业术语。在数据库没有专用的词表或 词表中没有可选的词时,可以从一些已有的相关专业 文献中选择常用的专业术语作为检索词。 (4) 选用同义词与相关词。同义词、近义词、相关词、 缩写词、词形变化等应尽量选全,以提高查全率。
4.设计检索提问式
构建检索提问式时,应正确运用逻辑组配运算符: (1)使用逻辑“与”算符可以缩小命中范围,起到缩检
的作用,得到的检索结果专指性强,查准率也就高。 (2)使用逻辑“或”算符可以扩大命中范围,得到更多 的检索结果,起到扩检的作用,查全率也就高。 (3)使用“非”算符可以缩小命中范围,得到更切题的 检索效果,也可以提高查准率,但是使用时要慎重, 以免把一些相关信息漏掉。 另外,在构建检索提问式时,还要注意位置算符、截 词符等的使用方法,及各个检索项的限定要求及输入 次序等。
截词(truncation)
前截断
EG:*magnetic,可检electro-magnetic、 electromagnetic、thermo-magnetic、 thermomagnetic等,使用很少。 中截断 EG:organi?ation,可检organization、 organisation,查找英美不同拼法最有效。 EBSCO数据库
三、计算机检索基本程序
其一般流程是:
分析课题 选择数据库↓ 列出检索词→设计检索提问式→上机检索 ↓ ↓ 不满意 ↓ ↓ ↓ 设计可能需要的修整方案
1.分析课题
(1)弄清用户信息需求的目的和意图。 (2)分析课题涉及的学科范围、主题要求。 分析课题的内容实质 ; 析出误假主题概念 ; 析出被隐匿的主题概念 ; (3)课题所需信息的内容及其特征。 (4)课题所需信息的类型,包括文献类型、出版
在 Dialog 系统中,用 ? 作为截词符,主要
有: ? wom?n ?? comput??
women woman Computer
位置算符
A(W)B AB两词相连且按照输入顺序排列。
EG:education(W)school education school, education schools A(nW)B AB中间最多允许插入n个词顺序不变 EG: education(1W)school education school, education schools education and music school A(S)B AB两词在同一子字段中。 EG:education SAME school
类型、年代范围、语种、著者、机构等。 (5)课题对查新、查准、查全的指标要求。
2.选择数据库
(1) 数据库收录的信息内容所涉及的学科 范围 ;收录文献的来源、学科特点
(2) 数据库收录的文献类型、数量、时间
范围以及更新周期; (3) 数据库所提供的检索途径、检索功能 和服务方式。收费标准及能否索取到原文
优点:
速度快,效率高(CA、BA等尚在印刷中就已
输入数据库了); 检索途径多(除了主题、著者、分类外,还有 出版年、著者单位、文献类型、特征词等); 用户界面友好,使用方便(可对任意个检索词 进行逻辑组配,并且进行自动扩检); 资源更新快(网上资源可以每日更新); 直接输出检索结果(打印或拷贝); 信息内容的广泛、访问快速且搜索具有网络性。 中国学术期刊网
第二章 计算机检索理论基础
计算机检索
定义
简称机检,指利用计算机查找文献信息 的过程 。 原理 计算机将输入机检系统的检索提问特征 标识(检索词)或用布尔逻辑运算符 (and、or、not)联结起来的检索提问 式与已存储在系统中的文献特征标识 (标引词如:主题词、分类号和类目名 称等)进行机械性匹配比较,凡符合给 定的比较原则和逻辑运算条件者即为命 中文献。
6.输出检索结果
根据检索系统提供的检索结果输出格式,
选择需要的记录以及相应的字段(全部字 段或部分字段),将结果显示在显示器屏 幕上、存储到磁盘或直接打印输出,网 络数据库检索系统还提供电子邮件发送, 至此,完成整个检索过程。
思考题
计算机信息检索经历了哪几个发展阶段?
掌握布尔逻辑组配、截词、位置算符、
二、检索理论基础
1.检索技术及其实现 检索技术包括基本布尔逻辑组配、截词、 位置算符、字段检索等。 布尔逻辑(boolean operators)组配是 现行计算机检索的基本技术,主要通过 “和(and,*)” 、“或(or,+)”、 “非(not, -)”等将检索词联络起来, 常见运算次序是() and not or
5.上机检索,调整检索策略
1)检索结果信息量过多
产生检索结果信息量过多的原因可能有以下两点:一

是主题词本身的多义性导致误检;二是对所选的检索 词的截词截得太短。在这种情况下,就要考虑缩小检 索范围,提高检索结果的查准率。调整检索策略的方 法如下: (1)减少同义词与同族相关词; (2)增加限制概念,采用逻辑“与”连接检索词; (3)使用字段限定,将检索词限定在某个或某些字段范 围; (4)使用逻辑”非”算符,排除无关概念; (5)调整位置算符,由松变严,(F) (W)。
光盘检索阶段
– 单机光盘检索 – 联机光盘检索 – 光盘库(2-6个光驱,多达500光盘)/光盘塔 (8-64个光驱)
网络化检索阶段
时间:20世纪60年代,90年代以来 1972年,MEDLINE率先加入TYMNET通信网,
相关文档
最新文档