信息检索第二章

合集下载

第2章--信息检索PPT课件

第2章--信息检索PPT课件

经济
文化、科学、教育、体育 语言、文字 文学 艺术 历史、地理
S
T U V X Z
农业科学
工业技术 交通运输 航空、航天 环境科学、安全科学 综合性图书
《中国图书馆分类法》
中国图书馆分类法分类表共分22个大类,再分17个 二级目录,医药卫生属于R大类。 《中图法》采用汉语拼音字母和阿拉伯数字组成的 混合制号码作类目标识,用一个字母标记一个基本
的问题;
另一方面是特定原始文献的查找,即在查找特定
的文献线索后,找出原始文献的过程。
第一节 信息检索基础
一、信息检索概念
(二)信息检索的意义和作用 信息检索 有助于知识更新 ,有助于同学们扩大视野 ,了解和把握有关学科中出现的新思想、新观点与 新知识。掌握信息检索技术是快速、准确地获取和 利用最新信息的有效途径。 信息检索有助于科学研究,了解和把握有关学科的 起源和发展过程。 有助于独立自主地解决自己在学习、生活和工作中 所遇到的疑难问题。 是接受终身教育的必要手段。 节省时间,提高效率。
第二节 信息检索语言
二、检索语言的种类
(一)分类检索语言 分类检索语言又称分类法,是用分类号(字母、数 字或它们的组合)来表达各种概念的,并将各种概 念按学科性质进行分类和系统排列的信息检索语言。 它以树状结构的形式,按知识门类的逻辑次序反映事物 的从属、派生关系,构成具有上位类和下位类隶属、同 位类并列的概念等级体系。 能较好体现概念的族性关系,从学科专业的角度检索资 料,比较方便,扩大、缩小检索范围方便。
(一)按信息检索的对象划分
数据信息检索 利用数据库、工具书等以数值或数据为对象的检 索,也称为数值检索。检索包含分子式、分子量 、公式 、图表等特定数据的信息。

第二章 信息检索

第二章 信息检索

2.检索技巧和提示
(1) 广泛浏览数据库 进入数据库前,需阅读数据库的说明,包括:出版、结构(权威性),出版类 型(期刊、会议、报告、专利…),文献类型(全文、文摘、题录…),收集年限,使 用权限,文献版本,服务方式(光盘、联机、专线、镜象、出国),连接方式,帐 号、密码,咨询联系等。现在许多数据库被组织到信息服务中心的web网页 上,并提供了有关介绍,应当充分地利用它们。
(1)积木型 积木型检索策略的含义是:把检索课题剖析成若干个概念面,先分别 对这几个概念面进行检索;在每个概念面中尽可能全和多地列举相关词 、同义词、近义词,并用布尔算符OR连接成子检索式,然后再用布尔算 符AND把所有概念面的子检索式连接起来,构成一个总检索式。 优点是:能够提供较明确的检索逻辑过程,以后容易检索和理解,还可 部分或全部地用作保留检索。一般地,“积木型”策略用于较复杂的检 索课题。 • 如“肺癌”与“吸烟”可以分成两个概念面,这两个概念面的各种形式 的检索词有: cancer smoker(s) • • carcinoma lung(s) cancer smoking cigar
(二)截词检索
截词检索:是指在检索时使用词的一个局部(某些 位置上的字符被截去)进行检索匹配,并认为凡满足这 个词局部中的所有字符要求的记录,都为命中结果。 截词检索需要使用专门符号(截词符),以指定截词 的具体位置与截断字符的数量。 • 按照截词位置的不同,截词检索分为: 右截词、左截词和中间截词三种。 例如:检索式 “wom?n”可检索到含有woman、women的结果。 截词检索实际上是一种隐含“逻辑或”的运算,能提 高查全率,扩大检索结果,是防止漏检的有力手段。
第二部分事实与数据检索工具
讨论事实、数据资源检索,其检索的对象是大量的、 常用的那些具体的科学技术数据和事实,如物理量、 物质特性、参数、规格等技术数据以及价格、产量、 公司名录、人名录等商业、经济等各种实用信息。 它们的检索工具包括:百科全书、年鉴、手册、词 典、机构指南和人名录、书目及书目指南等参考工 具。

第2章-信息检索模型

第2章-信息检索模型
▪ N: 文档集中文档总数
▪ 反文档频率用词项区别文档
例如:文档总数为1000,出现关键词k1文档为100
篇,出现关键词k2文档为500篇,出现关键词k3
文档为800篇
N=1000, n1=100, n2=500, n3=800
根据公式: idfi = log(N/ni) ,可计算出
idf1= 3 - 2 = 1
这里q dnf是提问式q旳主析取范式。可进一步简化表
达 为: q dnf =(1,1,1) or (1,1,0) or (1,0,0)
其中: (1,1,1) or (1,1,0) or (1,0,0)是q dnf旳三个合取
子项qcc,他们是一组向量,由相应旳三元组(k1 , k2 , k3)
旳每一种分量取0或1得到。
▪ 根据关键词旳出现频率计算相同度
• 例如:文档旳统计特征
▪ 顾客要求一种词项(term)集合,能够给每个词项附加权重
• 未加权旳词项: Q = database; text; information
• 加权旳词项: Q = database 0.5; text 0.8; information 0.2
由索引项构成向量空间
▪ 2个索引项构成一种二维空间,一种文档可能包括0,
1 或2个索引项
• di = 0, 0
(一种索引项也不包括)
• dj = 0, 0.7 (包括其中一种索引项)
• dk = 1, 2
(包括两个索引项)
▪ 类似旳,3个索引项构成一种三维空间,n个索引项
构成n维空间
么一种文档D就能够表达为D(t1,t2,…,tn),其中n就代表了检
索字旳数量。
▪ 特征项权重Wk(Term Weight):指特征项tn能够代表文档

第二章 信息检索基本知识

第二章 信息检索基本知识

(二)按出版形式划分:
原始文献
图书
特种文献
期刊
会 议 文 献
科 技 报 告
专 利 文 献
学 位 论 文
政 府 出 版 物
其 标 准
食品标准网

7-111-17892-0
《发票报文》GB/T 17303.2-1998 第二部分:国际贸易商业发票报 文
……
(三)按信息的加工程度来分: 1、一次文献信息 (原始文献):
一、检索工具的作用 1、报道作用 2、存储作用 3、检索作用
二、检索工具的特点
1、详细而又完整地记录了文献的外部特征和内部特征。
2、对所著录的文献,标引了可供检索的检索标识。 3、提供必要的检索手段,配备各种体系的索引。
三、检索工具的类型
按著录信息的特征划分:
1、目录 2、题录 3、文摘 4、索引
检索途径-分类途径 分类途径的缺点是新兴学科、边缘学科在 分类时往往难于处理,查找不便。另外, 从分类途径检索必须了解学科体系,否 则在将概念变换为分类号的过程中常易 发生错误,造成漏检或误检。
检索途径-主题途径
• 主题途径是一种按照文献的主题内容查找文献 的途径。使用的语言是主题语言。使用的检索 工具有“主题索引”、“关键词索引”、“叙 词索引”等。 • 主题法打破了传统的学科分类的框框,把分散 于各个学科的有关文献集中于同一主题词之下, 以文字作检索标识,索引按照资料内容的主题 词或关键词的字顺排列,检索时就象查字典一 样,不必考虑学科体系。
更多……
• 按检索方式,可分为印刷型检索工具和机器检 索工具; • 按出版形式,可分为期刊式检索工具、书本式 检索工具、卡片式检索工具、缩微式检索工具、 机读式检索工具等; • 按收录范围,可分为综合性检索工具、专题性 检索工具; • 按语种,可分为中文检索工具和外文检索工具;

第二章信息检索语言

第二章信息检索语言

D3 小说
D4 散文 ……
C3现代
C4当代 ……
分类语言的标记符号
标记符号:文献分类法中用以表示类目的代号, 又称分类号。 作用:它具有固定类目的位置,明确各个类目的 先后次序,在一定程度上显示类目之间的隶 属、并列关系以及描述某个类目的含义。 标记符号的要求 :
– – – – 容纳性 表达性 简短性 助记性
4.检索语言的类型
• 按规范程度分
– 自然语言 – 规范化语言
• 按组配方式分
– 先组式语言 – 后组式语言
• 按照描述信息特征划分
– 内容特征语言
• 分类语言/主题语言
– 外部特征语言
• 名称语言/著者语言/序号语言
二、分类语言
• 亦称体系分类语言,是以学科范畴和学科体 系为基础来划分事物的一种检索语言。在信 息存储和检索中,它是一种对信息内容的概 念进行逻辑分类和有规律地系统排列而构成 的检索语言,并以分类表(分类法)的形式体现。 • 分类语言最显明的特点是系统性,具有族性 检索的功能,有利于人们从学科专业的角度 进行全面性的检索。
等级列举式分类法
U448各种桥梁 U448.1 桥梁、按用途分 U448.11 人行桥 U448.12 两用桥 U448.13 铁路桥 …… U448.2 桥梁、按结构分
分面组配分类法
地区分面 E1 中国
E2 朝鲜
体裁分面 D1 诗歌
D2 戏剧
时代分面 C1 古代
C2 近代
E3 韩国
E4 日本 ……
• 同一著者的不同作品:
鲁迅:《热风》I210.4 L824 鲁迅:《华盖集》I210.4 L824/2 鲁迅:《两心集》I210.4 L824/3
• 版本不同:

文献检索,信息检索(2)第二章 信息检索原理

文献检索,信息检索(2)第二章  信息检索原理
优点:可以检索到某学科或专业的所有文献,有较高 的查全率。
缺点:常常落后于当前研究现状,分类表相对呆板的 学科关系,使得确定前沿概念、跨学科概念或非常具 体概念的分类,较困难。用户差异性。
分类语言
中国图书馆图书分类法 美国国会图书馆分类法 杜威十进位分类法 IPC国际专利分类法
基本部类 马列毛邓 哲学
(2)多概念课题
并列概念课题,如“新闻宣传研究”
“计算机在人文社会科学方面的应用” 上位类分类方法,如“灰色系统理论”
应用性课题,如“计算机在人口预测方面的应用”、
2.主题语言
是直接以代表信息内容特征和科学概念的概 念词作为检索标识,并按字顺组织的一种检索语 言。 是以表达文献主 是从文献的内容 是从文献的题目
一、检索算符 逻辑与
(一)布尔逻辑算符
布尔逻辑组配运算是采用布尔代数中的 逻辑“与”逻辑“或”、逻辑“非”等算符,
将检索提问式转换成逻辑表达式,限定检索
词在记录中必须存在的条件或不能出现的条 件。凡符合布尔逻辑所规定的条件的文献, 既为命中文献。
布尔逻辑运算符
————————————
1、逻辑“或” 2、逻辑“与” 3、逻辑“非”
2、逻辑“与”
————————————————
Chinese AND litera0,000 网络100,000,000) 用符号“and”或“*”表示,其逻辑表达式为: A * B 或 A and B 其意义为检索记录中必须同时含有检索词A和B 的文献,才算命中文献。
4、记录级
检索词在数据库的同一记录中。
(C)—citation
表示两侧的检索词(或检索项)必须出现在同一记录中,词
序不限,中间词数量不限,其作用与布尔逻辑算符AND相同。

第二章 信息检索基本方法与基本技术

第二章  信息检索基本方法与基本技术

2. 主题检索语言
• 标题词:经规范化处理的词或词组,先组式
语言
• 叙 词(单元词):经规范化处理的词或词
组,后组式语言,可自由灵活组配
• 关键词:未经规范化处理,直接从文献题名、
原文或文摘中选取的能反映原文主题内容的自 由词汇
二、检索工具
定义:检索工具是人们用来存储、报道和查找 文献的工具,它具有存储和检索的功能。
点击预约书刊可预约该书 预约图书:选定所需图书,输入证号、密码,执行预约 点击机读格式可查看该书的MARC信息
高级查询
• 在题名、著者、丛书名、主题词、出版社、 ISBN(书)、ISSN(刊)、索取号、起始年 代中填入自己确定的内容,其余的可以不填 写;选定语种(17种)和文献类型,然后进 行检索。 • 结果可检索到所需文献的题名、著者、出版 信息、索取号 • 查看选中图书的相关信息
图书馆信息查询系统
•书目查询 •读信者息 •新书通报:一个月内到馆的新书、馆藏 地,并可查看新书 •订购征询 •信息发布:预约到书列表、超期罚款、 超期催还、委托借阅到书列表
如何利用计算机进行检索
书刊查询
读者信息查询
图书馆主页的功能
信息发布功能:
图书馆最新服务动态、电子 资源试用等均及时在主页上发布。
一、信息检索原理
信息检索的原理(示意图)
存 储
特征化
表示
查 询
特征化
表示
信息 集合
选择与匹配
需求 集合
二、信息检索类型
手工检索 计算机检索 文献信息检索
• 信息检索(内容)
• 信息检索(工具手段)
数据信息检索
事实信息检索
第二节 信息检索语言与工具
一、信息检索语言

信息检索教程(第二章)

信息检索教程(第二章)

4
(b)按收录文献出版形式分
●图书目录 ●期刊目录 ●会议论文目录 ●标准目录等。
(c)按物质形式划分
●卡片目录 ●书本目录 ●机读目录 ●联机公共检索目录等。
5
(2)图书馆目录、OPAC和联合目录概述
①图书馆目录
定义:它主要提供馆藏资源的检索,又叫馆藏目录,它反映
了一个图书馆的文献收藏情况,是一种重要的检索工具。
26
常用法示例
27
追溯法示例
28
2.3.2检索途径
29
30
1.分类途径
图书期刊分类法
世界三大图书分类法
《杜威十进分类法》(DDC)(Dewey decimal Classification ) 《国际十进分类法》(UDC)(Universal Decimal Classification) 《国会图书馆图书分类法》(LCC)(Library congress classification)
定义:所谓文献检索的方法,即查找文献的方法。有以下三种: 常用法:直接利用文献检索工具或检索系统来查找文献的方法,是 一种常规的科学检索方法。又称工具法或直接法。分为顺查法 、倒查法和抽查法。 追溯法:是一种跟踪查找法。它不利用检索工具只是利用文献(尤其 是评述性论文或专著) 后面所附的参考文献进行逐一地追踪查 找原文。又称引文法。 综合法:是常用法和追溯法的综合。利用检索工具或检索系统进行 常规检索,再利用文献后所附参考文献进行追溯检索,分期分 段交替使用这两种方法,直到满足要求为止。可以查得较全面 较准确,尤其适用于那些过去年代内文献较少的课题。称循环 法、分段法或交替法。
22
2.2.2检索工具的鉴别与评价
1.信息收录范围与信息质量

信息检索教程 第2章 信息检索系统

信息检索教程 第2章  信息检索系统

连续 出版物
学位论文
传统文献信息媒体——按文献信息媒体的内容形式划分
类型 释 义 标准文献 是指对工农业产品、卫生教育、行政机关和工程建设的质量、规格、检验方法及 管理等所做的技术规定,是人们从事管理、设计、生产和检验的一个共同技术依 据。标准作为一种规章性的技术文献,具有一定的法律约束力。 会议文献 一般是指国内外各个科学技术学会、协会及有关主管部门召开的学术会议或专业 会议上提交、宣读或交流的论文或报告。因此会议文献代表着一门学科或专业的 最新研究成果,反映着当时的发展水平或动态。会议文献通常有会前预印本,会 后会议录、论文集、期刊等出版形式。 专利文献 主要指专利说明书,也包括各种专利检索工具、专利公报及专利法律文件等。专 利文献具有新颖性、创造性和实用性的特点,并具有垄断性、地域性、时间性、 公开性和法定性的特征,因此专利文献是一种集技术与法律于一体的实用性很强 的文献信息媒体,但重复出版率很高。
2.1 信息源与信息媒体
2.1.2 信息媒体
2. 电子文献信息媒体 电子文献信息媒体是指以数字编码的形式,把文字、 图像、动画、声音、视频等信息存储在磁光等介质 上,通过计算机和其他辅助设备阅读使用的一种新
型文献信息媒体,实质是一种机读型信息媒体。电
子文献信息媒体是信息技术发展的产物,它的产生、 发展和应用给人们展示了一个全新的虚拟世界。电 子文献信息媒体种类繁多、划分多样。
二次文献
三次文献
传统文献信息媒体——按文献信息媒体的内容形式划分
类型 图书 释 义 是用于全面而系统地阐述某一方面或学科的科学理论或发展,传授科学技术以及 查阅某些知识的文献形式。一般来说,图书的内容比较系统、全面、成熟、可靠, 缺点是出版周期长、新颖性欠佳。图书按使用功能可分为以下两类。 阅读型图书:教科书、专著、科普读物 查阅型图书:参考工具书、检索工具书 采用统一名称定期或不定期连续性发行的出版物,主要指报纸、期刊和年度出 版物。连续出版物一般有连续的卷期或年月日顺序号,出版周期短、报道文献 快、内容新颖、信息量大,特别是报纸、期刊现已成为广大民众和科研人员阅 读量最大的信息媒体。 这是高等学校或研究机构的毕业生作为评定各级学位而撰写的论文。目前多数国 家的学位分为学士、硕士和博士三级。学位论文质量参差不齐,但带有一定的独 创性和新颖性,特别是博士论文具有较高的专业水准、参考价值较大。

新第二章 信息检索基础知识

新第二章 信息检索基础知识

2.2 信息检索语言
三、主题语言
4.关键词语言
是指从文献标题、文摘、正文中抽离出来的,对表征文献主题 内容具有实质意义的语词,以关键词作为信息标识和检索依据的主 题语言。关键词没有固定的词表,因为对于同一个事物的概念,不 同作者甚至是同一个作者在不同的著作中用词都会不同,它是没有 经过规范化的自然语言词汇。 在检索中文医学文献中使用频率较高的《CMCC》数据库就是 采用关键词索引方法建立的。
2.5 计算机检索技术 四、词组检索
将固定词组或短语 看成单个词进行处理。
常用“ ”作为词组检索的运算符。
2.5 计算机检索技术 五、字段检索
对指定的一个或多个字段进行检索,从而提高查准率或查全率。
标题、作者、摘要、关键词、作者单位、文献来源、学位授予单位、 学位级别、会议信息、会址、会期、书名、出版地、出版年、专利号、报 告号、ISBN、ISSN等。
2.2 信息检索语言
一、信息检索语言的定义、作用和种类
4.分类:
篇名(题目) 著者名称 描述文献外表特征 文献序号 引用文献 等级体系分类语言 分类语言 组配分类语言 主题语言
检索语言
描述文献内容特征
代码语言
标题词语言 关键词语言 单元词语言 叙词语言 分子式索引 结构式索引 专利号索引等
2.2 信息检索语言
2.4 信息检索标识 一、检索标识的定义
检索标识即检索词,是指能表达检索课题主题概念和信息需 求的名词术语、分类号、名称、代码等的总称,包括主题词、 关键词、名称、分类号、分子式、专利号及各种号码。
2.4 信息检索标识 二、信息检索标识的类型
1.描述信息内容特征的检索标识: 分类、主题、代码(符号)。
2.5 计算机检索技术 一、布尔逻辑检索

第二章 信息检索的基本知识

第二章 信息检索的基本知识

2.1.2 信息检索的类型
1.根据检索对象划分 根据检索对象的不同,早期的信息检索分为以下几种。 (1) 文献检索:以文献为检索对象。凡是查找某一课题、 某一著者、某一地域、某一机构、某一事物的有关文献的 出处和收藏单位等,均属于文献检索。这是一种相关性检 索,它提供的是与用户信息需求的相关文献的线索或原文。 (2) 事实检索:以特定的事实为检索对象如查找某一 事物发生的时间、地点与过程,某类产品哪些厂家生产、 哪个牌号最好等,均属事实检索。属确定性检索。 (3)数据检索:以数据为对象的检索。如查找某一数学公 式、数据、图表,某一种材料的成分、性能都属于数据检 索的范畴。属确定性检索
2.1 信息检索概述
2.1.1信息检索的含义
信息检索(Information Retrieval)是指 将信息按一定的方式组织和存储起来,并根据用 户的需要找出有关信息的过程,又叫信息储存与 检索(Information storage and Retrieval), 这是广义的信息检索,如图2-1所示。狭义的信息 检索则是仅指该过程的后半部分,即从信息集合 中找出所需信息的过程。
(2)关键词语言 以关键词作为文献内容标识和检索依据的一种 主题语言。关键词选自文献题目、文摘乃至正文 中具有实质意义的词语,是未经规范化处理的自 由词汇,关键词语言是不受词表控制的非规范化 语言。如美国《化学文摘》(Chemical Abstracts, CA)的关键词索引(是CA各种索引中 使用较多的一种 )。
中国图书馆分类法简介: 中国图书馆分类法(第四版)将图书资料划 分为五大部类序列,具体如下: ◎马克思主义、列宁主义、毛泽东思想 ◎哲学 ◎社会科学 ◎自然科学 ◎综合性图书 由于社会科学与自然科学这两个科学部门的 内容很多,发展很快,又各自展开为若干大类, 最后在五个基本部类的基础上,组成22个大类分 类号采用汉语拼音字母与数字混合编号制度。

第二章 信息检索语言

第二章 信息检索语言
款目主题词并按族首词的字顺和等级相结 合编排的一种索引。
二、《汉语主题词表 》

(2)范畴索引:
它又称为分类索引,是将主表的全部主题
词按照主题词的学科和词义范畴,划分若
干大类、二级类或三级类,每类之下按主
题词的汉语拼音字顺排列的一种索引。它 的分类是对主题词的分类。
二、《汉语主题词表 》

(3)英汉对照索引:
号分类法》。
二、信息检索语言的基本类型

C、混合分类语言:
它是结合体系分类语言和组配分类语言所形成的
检索语言。又因对两者的侧重点不同,混合分类
语言又可明显地分为体系—组配分类语言和组
配—体系分类语言。如《国际十进分类法》。
二、信息检索语言的基本类型


(三)检索语言按内容性质划分
2、主题语言
(1)含义:就是对表达信息主题内容特征的主 题词汇概念规范化处理所形成的检索语言。 (2)优点:由于主题词汇表达概念准确,所以 主题途径是检索信息的主要途径。


(3)类型:主题语言按照主题性质的不同,又 分为以下几种:
二、信息检索语言的基本类型

A、标题词语言:
它以标题词作为文献内容标识和检索依据。

2、《中图法》采用了许多辅助符号。
一、《中图法》


(四)特点
1、编制技术和编号方法比较先进、科学; 2、强调分类法的实用性,在层累制的基础上采 用八分法、借号法、双位法等方法,使得类号等 级分明、简短易记; 3、结构完善,使用配套,有相关索引和使用手 册,还有一系列不同类型的版本,为全国文献的 统一分编创造了条件; 4、有一个长设机构负责《中图法》的管理、修 订等工作。

信息检索教程 第二章 检索语言

信息检索教程 第二章 检索语言

17
【例题】检索英语会话类辞典,例如《美国语会话百科》、 《英语会话大全》、《现代英汉生活用语图解词典》,请 选择,哪种检索途径才能够同时查出这3本书? 【选项】 A.用关键词“会话”和“词典” B.用中国图书分类号H319.9-61
C.用书名“英语会话”和“大全”
D.用书名“英语会话”和“词典” 【答案】B
2.1.3.3 按信息标识的组合使用方法,可分 为先组式语言、后组式语言和散组 式语言
2.1.3.4 按语言的规范程度,可分为人工语 言和自然语言
3
第2章 检索语言
2.2.1 概念逻辑
2.2 检索语言 的理论基础
2.2.1.1 概念间的关系 不相容 关系
相容关系
同一 属种
整体与 全面与 不相排斥 交叉 部分 某一方面 的并列
10
第2章 检索语言
2.3.2.3 主要体系分类法介绍 国内常见的体系分类法有:
《中国人民大学图书馆图书分类法》,简称《人大法》 《中国图书馆分类法》,简称《中图法》 《中国科学院图书馆图书分类法》,简称《科图法》 《中国档案分类法》
国外常见的体系分类法有:
《杜威十进分类法》(Dewey Decimal Classification)简称DC或DDC 《美国国会图书馆分类法》(Library of Congress Classification)简称LC 《国际十进制分类法》(Universal Decimal Classification)简称UDC
11
《中国图书馆分类法》 第2 章 检索语言
我国目前广泛使用的分类法是《中国图书馆分类法》。它是由国 家图书馆等单位组织全国力量,以学科分类为基础,并结合图书的特 性所编制的分类法。它将学科分五大部类,基本序列是:马克思主义 列宁主义毛泽东思想、哲学、社会科学、自然科学、综合性图书,由 5大部类、22个大类、6个总论复分表、30多个专类复分表、4万余条 类目组成了一个完善的分类体系。 标记制度采用拉丁字母与阿拉伯数字相结合的混合号码制,用一 个字母代表一个大类,以字母的顺序反映大类的序列,在字母后用数 字表示大类下类目的划分,数字的设置尽可能代表类的级位,并基本 上遵从层累制的原则。

第二章信息检索基础知识

第二章信息检索基础知识

属后组式语言。
主题词
概念:通过文献所属学科的主题对文献进行检索, 是以主题词为检索标识,它是一种特性检索。 主题词是用来表达文献的主题概念的,经过规范化 主题词 处理的名词或词组。 如:出生缺陷-畸形 杵状指-骨关节病,继发肥大性
主题词表- 主题词表-单元词表
《WPI--规范化主题词表》
(WPI--LIST OF STANDARD THESAURUS TERMS)
是检索英国德温特公司专利文献的工具。按规范 词字顺排列。其著录格式见图
WPI-List of Standard Thesaurus Terms 1987 COBALT(3772)(1) COBALT@(3) CODON【87】(4) ELECTRIC(33892)(1) Electrical(2)
关键词 自然语言 单元词 标题词 叙词 语 言 言 语
分类语言
分类语言是运用概念划分的方 法,按文献内容所属学科、专 业性质的逻辑次序,以数字、 字母或数字与字母结合为基本 字符,以分类号为标识,用来 存储和检索文献的文献标识系 统。
分类语言的特点
主要特点就是按学科专业性质集中图书 区分不同性质的图书 集中性质相同的图书 相近的放在相近的位置 按照远近亲疏的关系把图书组成为一个 有条理的体系 提供从学科分类查找图书的途径
机械制造工艺系统学 / 张恩生,申铁固编著-上海交通 大学出版社 TH16/ Z31 机械设计学习指南 / 陶民华等编机械工业出版社 TH122-44/ T43 机械优化设计基础 / 张九明编著煤炭工业出版社 TH122/ Z32A 分类号+著者号TP393-62/J25
主题语言
主题语言是指以自然语言的字符为字符, 以名词性术语为基本词汇,用名词性术 语作为标识的一种信息标识系统。是主 题概念检索文献信息的检索语言。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息检索第二章
13
第2章 检索语言
《中国图书馆分类法》
我国目前广泛使用的分类法是《中国图书馆分类法》。它是由国家图书 馆等单位组织全国力量,以学科分类为基础,并结合图书的特性所编制的分 类法。它将学科分五大部类,基本序列是:马克思主义列宁主义毛泽东思想、 哲学、社会科学、自然科学、综合性图书,由5大部类、22个大类、6个总论 复分表、30多个专类复分表、4万余条类目组成了一个完善的分类体系。
信息检索第二章
7
第2章 检索语言
2.2.2 知识分类
知识分类是对千差万别的事物做系统研究的重要方法, 是对各种事物之间的区别和联系从本质上、原理上进行揭 示的重要手段,对信息的系统化具有重要的价值,其实质是 划分知识单元、组织知识体系,包括学科分类和事物分类。
学科分类是知识分类的主体,事物分类是知识分类的 基础。
第2章 检索语言
信息检索第二章
第2章 检索语言
情报检索语言是科学 交流中人类自然语言交流 与人机交互均能达到共同 理解的基础。近年来,信 息化浪潮席卷各行各业, 情报检索语言顺应时势, 自然地成为数字化环境里 搏风击浪的有效工具。它 们在愈来愈多的领域展现 出非常广阔的应用前景。
本章要点
●介绍检索语言的概念、功能及类型 ●总结检索语言的主要理论基础 ●阐述分类检索语言的结构与性能 ●分析主题检索语言的原理及性能 ●论述分类主题一体化检索语言的原理、
微观结构
微观结构指分类法 中类目的构成结构。
(1)类目的划分 (2)引用次序 (3)类目的排列 (4)类名的确定 (5)类目之间相互关系
的处理
宏观结构
按功能分,体系分 类法的宏观结构一般由 以下四部分组成:
(1)类目体系 (2)标记系统 (3)说明与注释 (4)类目索引
信息检索第二章
11
第2章 检索语言
信息检索第二章
2
第2章 检索语言
2.1.2 检索语言的功能
2.1.2.1 标引信息内容特征及某些外表特征,保证不同 标引人员表达信息的一致性
2.1.2.2 对内容相同及相关的文献信息加以集中或揭示 其相关性
2.1.2.3 使信息的存储集中化、系统化、组织化,便于 检索人员按照一定的排列次序进行有序化检索
2.3.2.2 体系分类法的特点 体系分类法在实际工作中,主要被用来组织分类排架
和统计藏书和建立分类检索系统。 体系分类法的主要特点是:
1. 按学科、专业属性构建类目体系,形成按学科、专业集中文 献、信息的知识概念系统,从而能够直接地满足用户从学科、专业出 发检索课题的需求,可以达到较高的查全率;
2. 采用等级列举式的概念标识系统来揭示概念之间的相互关系, 便于用户“鸟瞰全貌”、“触类旁通”、“层层深入”地查找某一专业的信息, 用户也无须事先知道事物或概念的确切名称,就可以在一定的类目下 通过浏览查到该领域的相关信息;
2.2.1.1 概念间的关系
相容关系
不相容 关系
信息检索第二章
6
第2章 检索语言
2.2.1.2 概念逻辑方法 1. 概念的划分与概括(分类) 建立概念等级体系,用以显示客观世界千差万别的事
物之间的内在联系。这种结构具有很好的系统性。例如, 体系分类法就是应用此种逻辑方法的典型。
2. 概念的分析与综合(组配) 建立概念组配体系,提供从多种途径来进行信息检索 的功能,而且可以任意选择检索标识的专指度,根据实际 需要扩大、缩小或改变检索的范围。例如,叙词语言与组 配分类法便是应用概念分析与综合的典型。
2.1.3.2 按结构或原理,可分为分类语言、 主题语言、代码语言和引文语言
2.1.3.3 按信息标识的组合使用方法,可分 为先组式语言、后组式语言和散组 式语言
2.1.3.4 按语言的规范程度,可分为人工语 言和自然语言
信息检索第二章
5
第2章 检索语言
2.2 检索语言 的理论基础
2.2.1 概念逻辑
性能及类型 ●探讨网络环境下检索语言的发展
信息检索第二章
1
第2章 检索语言
2.1 检索语言 概述
2.1.1 检索语言的概念
检索语言有广义和狭义之分。 广义的检索语言泛指信息检索过程中涉及的 人工语言和自然语言。人工语言是根据一定的 规则人为编制而成的检索语言,它有着严格的 使用规则,可用于表述文献主要内容,建立信 息检索系统。自然语言是人类交流时使用的语 言,不受任何限制,未经加工和规范。 狭义的检索语言仅指根据信息检索的需要, 按照一定的规则对自然语言进行规范,并专门 用于信息标引和用户检索的人工语言。
2.1.2.4 便于将标引用语和检索用语进行相符性比较
信息检索第二章
3
第2章 检索语言
2.1.3 检Leabharlann 语言的分类2.1.3.1 按描述文献的特征,可以分为描述文献外表特征 的检索语言和描述文献内容特征的检索语言
1. 描述文献外表特 征的检索语言
2. 描述文献内容特 征的检索语言
信息检索第二章
4
第2章 检索语言
国外常见的体系分类法有:
《杜威十进分类法》(Dewey Decimal Classification),简称DC或 DDC ;
《美国国会图书馆分类法》(Library of Congress Classification), 简称LC ;
《国际十进制分类法》(Universal Decimal Classification),简称 UDC.
信息检索第二章
8
第2章 检索语言
2.2.3 术语学
术语是在特定学科领域用来表示概念的称谓的集合, 或者说,是通过语音或文字来表达或限定科学概念的约定 性语言符号。
术语是分类表、词表的基本组成要素,检索语言其实 就是一个经过精细组织的术语集。
检索语言的创制以术语学的研究成果为基础的。
信息检索第二章
9
第2章 检索语言
2.3 分类检索语言
2.3.1 分类检索语言概述
分类检索语言也称分类法, 是将许多类目根据一定的原则组 织起来,通过标记符号(分类号 来代表各级类目和固定其先后次 序的分类体系。
分类检索语言
体系分类法 组配分类法
信息检索第二章
10
第2章 检索语言
2.3.2 体系分类法
2.3.2.1 体系分类法的结构
3. 采用分类号作为主题的标识,不受语种的限制。
信息检索第二章
12
第2章 检索语言
2.3.2.3 主要体系分类法介绍
国内常见的体系分类法有:
《中国人民大学图书馆图书分类法》,简称《人大法》 ; 《中国图书馆分类法》,简称《中图法》 ; 《中国科学院图书馆图书分类法》,简称《科图法》 ; 《中国档案分类法》
相关文档
最新文档