第二章 信息检索基础2013

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

叙词

是能表达文献主题并经过严格规范化处理 的词语,又称主题词。
特 点:具有概念性、描述性、组配性。 如我国《汉语主题词表》(1980出版)、美国《医学 主题词表》等。

美国《医学主题词表》
(MeSH,Medical Subject Headings)
特 点:
词义、词类、词形规范保证词语与概念的唯 一对应关系,具有专指性 采用参照系统显示词语之间的相关关系
数据库的组成
2.数据库类型(按内容分型)
(一)书目数据库(Bibliographic Databases) (二)事实数据库(Numeric Databases) (三)数值数据库(Fact Databases) (四)全文数据库(Full Text Databases) (五)图像数据库(Image Databases)
优点:检索的速度快,检索质量高。
缺点:检索费用高,技术复杂。
3.网络信息检索阶段
20世纪80年代末—
光盘检索 20世纪80年代中期
优点:存储量大、使用方便、费用低、 利用微机就可以进行检索,支持多用户。
二、信息检索系统的组成 包括: 计算机硬件包括计算机、存储器、检索终端、
网络、通讯设备等
体 系 结 构
社会科学
自然科学
综合性图书
Z 综合性图书
R 医药、卫生
R 1 2 3 4 5 6 预防医学、卫生学 中国医学 基础医学 临床医学 内科学 外科学 R 74 75 76 77 78 79 神经病学与精神病学 皮肤病学与性病学 耳鼻咽喉科学 眼科学 口腔科学 外国民族医学
71 妇产科学
72 73 儿科学 肿瘤学
描述信息外表 特征的语言
书/刊名 著者/团体著者 出版事项
代码/序号

检索语言
分类语言
描述信息内容 特征的语言
主题语言
1.分类语言
是按文献的学科性质给予相应的分类号,用 分类号来表达文献的主题概念,根据分类表中的 顺序编排成分类索引,提供分类途径供检索文献 使用。
分类语言
方数兵诗诸六辑 技术书赋子艺略 略略略略略略
马克思主义、列宁主义、毛 泽东思想、邓小平理论
哲学、宗教
A 马克思主义、列宁主义、 毛泽东思想、邓小平理论
B
C D E F G H I J K N O P Q R S T U V X
哲学、宗教
社会科学总论 政治、法律 军事 经济 文化、科学、教育、体育 语言、文字 文学 艺术 历史、地理 自然科学总论 数理科学和化学 天文学、地球科学 生物科学 医药、卫生 农业科学 工业技术 交通运输 航空、航天 环境科学、安全科学
国内常见的分类法有:
1.
2. 3.
《中国图书馆分类法》,简称《中图法》 《中国人民大学图书馆图书分类法》 《中国科学院图书馆图书分类法》

《中国图书馆分类法》
是我国建国后编制出版的一部具有代表性的大型综 合性分类法,简称《中图法》。英文译名为Chinese Library Classification,英文缩写为CLC。 将学科划分为5个基本部类,22个基本大类,再进 行层层划分,逐级展开,形成一个严格有序的直线性 知识门类等级体系。
分类号基本知识介绍:以 R563.1为例
分类号
R R5
名称
医药、卫生 内科学
级别
一级类目 二级类目
R56
R563 R563.1
呼吸系及胸部系统疾病
肺疾病 大叶性肺炎
三级类目
四级类目 五级类目
2、主题语言

主题语言是以高度概括的语词揭示文献的 主题,并以此为标识组织检索系统的语言。 特 点:直观性强,专指度高,适合特性 检索,查准率高。 提供主题检索途径,适用于特性检索, 查准率高,但不能集中同一学科、专业或 族性事物的文献。 根据抽词原则、编制方法及使用规则不 同,可分为标题词、元词、叙词、关键词。
计算机软件包括操作系统、数据库管理系统、 通讯管理程序、输入输出程序、应用程序等 数据库是按一定方式存储在光盘、磁盘、磁
带上的相互关联的数据集合
1.数据库的结构
数据库--文档--记录--字段 数据库的本质是可以提供共享的有一定组织方式 的相关数据。 每个数据库由若干个不同类型的文档组成,文档 是由许许多多条记录组成,而每一条记录又有许多不 同的字段构成。
R446.119其他
R446.11血液学检验 R446.12尿液检验 R446.13粪便检验 R446.14脑脊髓液检验 R446.19其他
优点: 体现了学科和专业的系统性,便于族性检索, 提高查全率。
缺点:
专指性较差,不能充分揭示信息资源中大量存在 的细小专深主题。 分类表中的类目不能随时更改,因而不能及时反 映新的科学技术。 按照直线序列设置类目,对边缘学科课题只能标 引在一门学科的类目之下,检索时可能漏检。



我国古代第一部成型的图书分类法是西汉刘向、 刘歆(xin)父子编制的《七略》。 西晋,荀勖(xu)创立了四部分类法,即甲、 乙、丙、丁四大部。 从隋唐起,图书的四部分类法已经基本定型。 皇家图书馆及秘书省、翰林院等重要典藏图书 之所,都是按照经、史、子、集分四库贮藏图 书的,名为"四库书"。

第三节 信息检索途径
一、 分类途径

是按文献内容所属的学科类别来检索文献的途径, 检索标识是分类号或分类词。 检索方法:检索时先确定所查文献的学科类别。 需掌握一定的分类法。了解分类表或分类目次, 从中确定所查文献的学科类别,找到相应类目的 分类号,即可。




分类途径有利于从学科和专业角度进行族 性检索。 但因体系是直线序列和层垒性结构,难以 反映学科之间交叉渗透而产生的多维性知 识空间,不适合跨学科主题检索。 查全率高,但查准率低。
输入
检 索 系 统 检 索 输出 结 果
检 检 索 索 分析 提 课 问 题 特 征
选用

形成
检索
2.1.3

检索语言


又称标引语言、索引语言、概念标识系统等 检索语言是为信息的加工、存储和检索 的共同需要而编制的专业语言。 是信息检索系统存储和检索信息时共同使用的 一种约定性语言,以达到信息存储和检索的一 致性,提高检索效率。 检索语言是检索系统的重要组成部分, 是沟通文献贮存和检索两个过程及标引人员与 检索人员双方思想的桥梁。
第二章 信息检索基础
本章要求
1.了解信息检索系统的发展及组成; 2.理解分类语言和主题语言; 3.掌握各种检索途径的利用及其区别;
4.掌握常用的信息检索技术;
5.掌握信息检索策略的制定;
6.掌握查全率、查准率的概念及提高检索效果的措施。
信息检索就是充分利用信息检索系统,按照一 定的检索语言和规则对文献信息进行标引,按 照检索系统提供的检索途径,采用先进的信息 检索技术,制定合理有效的检索策略,快速、 准确、全面地检索出所需的文献信息。
二、主题途径



是通过反映文献内容主题的语词来检索文献 的途径。 检索方法:利用主题索引,按语词字顺查找, 即可找到相应主题的文献。 主题途径查找文献专指性强,可直接获得分 散在各学科之间的同一主题的文献,查准率 高,能够解决多学科、交叉学科、边缘学科 之间文献交叉分散的矛盾,同时利于新课题 检索(词表每年修改)。 缺点是不能集中同一学科、专业或类族事物 的文献


分类语言是用分类号作标识,具有学科系统性 的人工语言。 提供分类检索途径,具有族性检索的特点,但 专指性较差。 分类语言的特点: 分类语言较好地体现了学科和专业的系统性, 反映了事物的隶属、平行和派生的关系,提供 的分类检索途径,具有族性检索的特点,能获 得较高的查全率,但专指性较差,不适合专深 主题和多位概念的检索。
采用主题词分类索引(范畴表或树状结构)显示词语 之间的等级(从属)关系,增强了族性检索能力。
关键词语言
是直接从文献的标题、文摘或全文中抽 选具有实质意义、能表达文献主题概念,未 经规范化处理的自然语言词汇。
优点: ① 易于实现自动抽词和编制索引; ② 表达主题直观,检索入口多,能及时反映新事物新 概念。 缺点:检索质量难以保证,容易漏检。
三、 关键词途径
Baidu Nhomakorabea
是最常用的一种检索途径。
优点:利于新课题、新事物的检索。 缺点:没有严格的语法规范,个人使用
的爱好不同自由词选择不同,要查全, 需考虑同义词等。
数据库类型(按内容分型)
(一)书目数据库(Bibliographic Databases) 是机读形式的二次文献数据库,包括:目 录、题录、文摘等书目线索。 (二)事实数据库(Numeric Databases) 也称指南数据库,存储描述人物、机构、 事物的等非文献信息源的数据库。 (三)数值数据库(Fact Databases):为用户直 接提供所需的数据信息,无需再追查原文。
R441.1疼痛 R441.2眩晕 R441.3发热 R441.4心动过速 R441.5咳嗽、咳痰 R441.6呕血、黑便 R441.7咯血 R441.8呼吸困难 R441.9休克 R442.1厌食、恶心、呕吐 R442.2便秘、腹胀、腹泻 R442.3肝脾肿大 R442.4黄疸 R442.5腹水、水肿 R442.6痉挛 R442.7出血 R442.8综合征 R442.9其他
R 4 临床医学
R44诊断学
R441症状诊断学 R443物理诊断学(体检诊断) R441症状诊断学 R444电诊断 R443物理诊断学(体检诊断) R445影像诊断学 R444电诊断 R446.1生物化学检验、临床检验 R446实验室诊断 R445影像诊断学 R446.5微生物学检验 R447鉴别诊断学 R446实验室诊断 R446.6免疫学检验 R448机能诊断学 R446.8组织学检验 R447鉴别诊断学 R449预后及劳动鉴定 R446.9其他 R448机能诊断学 R45治疗学 R446.111血液一般(常规)检 验 R47护理学 R446.112血液生物化学检验 R48临终关怀学 R446.113血液细胞学检验 R49康复医学
第一节 信息检索系统
一、信息检索系统

是根据特定的信息需求而建立起来的一种有关信 息收集、加工、存储和检索的服务工作系统。
可分为 手工检索系统 计算机检索系统

一、信息检索系统
按信息检索系统的实施手段可分为:
手工检索系统
脱机检索
计算机检索系统 联机检索
网络检索(光盘检索)
1. 脱机检索阶段
20世纪50~60年代
数据库类型(按内容分型)
(四)全文数据库(Full Text Databases) :存储文献全文或节选 其中主要部分的数据库。可以直接获 取原始资料。
(五)图像数据库(Image Databases): 以图像为信息主体,配有文字解释。
文 献 文 信 标引著录 献 分析 息 信 特 息 征
(文 检献 索信 检 索 形成 点 息 )特 征 语 标 言 识 和 名 称 规 (检 检索 索提 词问 )标 识
又称脱机批处理检索,用户提出的信 息需求是委托式的,交专业人员统一安排, 必须等待成批或定期处理。
缺点:检索结果延误。 优点:无网络通讯费,检索费用由用户平
摊,价格便宜。
2. 联机检索阶段
20世纪60~70年代
是用户利用终端设备,通过通信网络或 通信线路与检索系统联机,采用分时技术, 多个用户可以同时与主机“对话”,从检索 中心的数据库查找所需要的文献信息过程。
8
9
特种医学
药学
R 4 临床医学
R44诊断学 R441症状诊断学 R443物理诊断学(体检诊断) R441症状诊断学 R444电诊断 R443物理诊断学(体检诊断) R445影像诊断学 R444电诊断 R446实验室诊断 R445影像诊断学 R447鉴别诊断学 R446实验室诊断 R448机能诊断学 R447鉴别诊断学 R449预后及劳动鉴定 R448机能诊断学 R45治疗学 R47护理学 R48临终关怀学 R49康复医学



文档(file):文档是按一定结构组织的相关记录的 信息集合。一个数据库可按年代和学科分割成若干个 文档。 记录(record):构成文档的基本数据单元。它是对 某一实体的全部属性进行描述的结果。它描述原始信 息的外部特征和内部特征,每条记录有许多个字段组 成,一条记录代表一篇原始文献的相关信息。 字段(field):比记录更小的单元,是组成记录的基 本要素。在书目数据库中,记录中含有题名、著者、 出版年、主题词、文摘等字段。
相关文档
最新文档