第四章 分类标引方法 与分类检索工具
文献检索复习资料
![文献检索复习资料](https://img.taocdn.com/s3/m/01cdd00f844769eae009ed27.png)
1.信息的定义:信息——就是生物体以及具有一定功能的机器,通过感觉器官和相应的设备与外界进行交换的一切内容。
2.信息的功能:a.信息是人类和一切生物赖以生存的基本要素b.信息是一切知识的来源c.信息是人类思维的材料和结果d.信息是决策的依据e.信息是一切有效管理的前提f.信息是人类一切实践活动的指南3.信息社会的主要特征:a.知识和信息成为信息社会的重要资源和财富。
b.人类社会发展的三要素的物质、能源、信息的关系发生了明显的改变。
c.科学和技术的研究开发日益成为经济的重要基础。
d.信息技术在人类社会中的作用越来越明显。
e.信息产业在知识经济中扮演重要角色。
4.信息检索的概念广义的信息检索:是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程,所以它的全称又叫“信息的存储与检索。
(1)信息存储过程,即搜集、筛选、整理、积累现有信息,将信息按一定方式组织和存储起来,形成检索工具或系统。
(2)信息检索过程,即利用信息检索工具或系统查找所需要的信息。
5.狭义的信息检索则仅指该过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查询。
6.信息检索的意义与作用①是打开知识宝库的钥匙。
②是科研工作的前提和基础。
③减少投入,减少消费,提高效率。
④拓宽视野,开阔思路,提高信息素质和创新能力。
⑤减少语言障碍,最大限度地获得有用信息。
⑥促进国民信息素质,强化科技创新能力。
7.检索效果:是指在检索过程中满足检索者检索信息的全面性和准确性的程度,理想的检索结果是无遗漏、无误差地检索出检索者所需的所有文献。
评价标准判定一个检索系统的优劣,主要从质量、费用和时间三方面来衡量。
因此,对信息检索的效果评价,应该从这三个方面进行。
8. 质量标准主要通过具体的指标进行评价。
评价指标是衡量检索系统性能和检索效果的标准,一般包括查全率、查准率、漏检率、误检率等四项指标。
查全率和查准率是判定检索效果的主要标准,而后两者相对来说要次要些。
第4章国内常用信息检索工具(系统)
![第4章国内常用信息检索工具(系统)](https://img.taocdn.com/s3/m/25179805b14e852459fb5792.png)
22
4.1 文献检索-标准文献查找示例
23
4.1 文献检索-标准文献查找结果
24
4.1 文献检索-科技报告
❖ 科技报告:关于某科研项目或活动的正是报告或记 录
❖ 科技报告在内容上具有一定保密性,往往以内部资 料的形式交流,或在一定时期后公开发表
发现网络平台(简称KDN) /help/AssistDocument/KDN/ht ml/main.htm ❖ 知网概览:资源、导航、数字化学习研究以及个人 /机构图书馆
27
4.2 常用系统-中国知网期刊全文数据库简介
❖ 收录国内7000多种重要期刊,以学术、技术、 政策指导、高等科普及教育类为主,同时收 录部分基础教育、大众科普、大众文化和文 艺作品类刊物
❖ 根据授予学位级别的不同,一般分为学士论 文、硕士论文、博士论文。其中博士学位论 文有较高的学术参考价值
❖ 如何查找学位论文?学位论文的一般检索途 径?
11
4.1 文献检索-查找学位论文
❖ 综合性检索系统 ✓ 中国学位论文文摘数据库(万方) ✓ 中国优秀博/硕士论文全文数据数据库 ❖ 收录国内公开发行的414种重要报纸 ❖ 提供报纸导航
31
4.2 常用系统-中国知网专利、标准、古籍 ❖ 中国知网收录专利、标准和古籍类数据库
32
4.2 常用系统-中国知网年鉴全文数据库简介
❖ 目前年鉴总计2000种 ❖ 按行业分成二十一类行业,同时按照地方年
❖ IPC类似等级体系分类法,将专利分成部、分 部、大类、小类、主组和小组等体系结构
18
4.1 文献检索-中国专利文献样式
思 考 : 专 利 的 主 要 检 索 途 径 ?
19
文献检索课件
![文献检索课件](https://img.taocdn.com/s3/m/0c3dc93eb90d6c85ec3ac639.png)
自然语言与受控语言
自然语言:书面语言----关键词 优势:可以减少概念间转换产生的误差。检索入口词多,操作简单、 方便、灵活,适用范围广。 劣势:选词不规范,词量过大,影响主题的集中,查准率降低;不 能控制多义词,使相关主题内容的文献分散,查全率降低。不能反映概 念间的各种对应关系与隐含关系。 受控语言:对语义、句法进行控制,是一种规范化的人工语言。-----分 类号、主题词 优势:文献描述和表达概念具有唯一性、专指性,便于提高查准率; 标引时可以集中相关文献,提高查全率;能显示概念间的各种关系,有 利于及时调整检索策略。 劣势:存在标引难度大、速度慢、词汇更新滞后、对标引和检索人 员要求过高。
主题词、副主题词组配
MESH目前有82个副主题词与2万多个主题词组配。副主题词的使用有严 格的限制。 副主题词(Subheadings)又称限定词,与主题词进行组配,对某一主题 词的概念进行限定或复分,使主题词具有更高的专指性。 如:诊断(Diagnosis,DI)、药物治疗(Drug Therapy,DT)。 有关中医的副主题词有:按摩疗法, 气功疗法, 穴位疗法, 针灸疗法, 中西 医结合疗法, 中医病机, 中医药疗法, 中药疗法, 中医疗法。 在检索中,主题词与副主题词的组配(主题词/副主题词)须有逻辑关 系。 如:阿司匹林治疗感冒 阿司匹林/治疗应用;感冒/药物疗法。
主题组织语言:主题法组织语言是一种描述性语言,
用语词直接表达文献的主题。这些语词按字顺排列成 主题词表,以此作为标引检索的工具。如:《美国医 学主题词表》(Medical Subject Headings, MESH)、 中医药学主题词表
第四章 分类标引方法 和分类检索工具
![第四章 分类标引方法 和分类检索工具](https://img.taocdn.com/s3/m/82ef078f77232f60dccca160.png)
• 字顺表,一般是叙词表的主表,它是将叙词和非 叙词完全按字顺排列,并有标注事项和显示词间 关系的参照系统
• 字顺表的基本功能是为标引和检索人员提供直接 从概念名称的字面形式出发,按字顺迅速查找所 需叙词的途径;并且通过参照系统及有关标注项 帮助查词者判定叙词的含义,找到更恰当的词或 更多的词
• 轮排索引可以发挥两个功能:
–一是提供查找词组叙词的多个字顺入口; –二是集中含有相同词素的叙词。
(四)双语种对照索引
• 双语种对照索引,是将全部或大多数叙词和非 正式叙词与其外语译名相对应,按外语译名字 顺排列的索引。我国的叙词表多编制英汉对照 索引
• 双语种对照索引的功能:
–提供从对照语言的语词字顺入手查词的途径; –帮助查找对照语种文献。
余词。
• 修改款目词及其著录项目 • 微观和宏观结构的调整
– 改变款目词的排列方法; – 增加注释类型或者改变注释形式; – 合并辅助索引;
(四)计算机在叙词表编制、管理和使用中的应用
1.计算机在叙词表编制过程的应用 2.计算机在叙词表管理中的应用 3.机读叙词表在计算机、网络中的使用
1.计算机在叙词表编制过程的应用
• 在词表编制的词汇收集阶段,计算机可以:
– 提供各种数据库或计算机检索系统所记录的标引词、检索词 及其使用频率,作为词汇选择的重要依据;
– 可以依据一定的算法直接从文献题名、文摘、正文中抽词, 供词表选词参考;
– 可以记录从各种来源收集的词汇,进行多种排列、统计、分 析,为词汇优选、词间关系确定提供参考。
《汉表》自然科学(增订本)轮排索引片段
三、叙词表结构的变化
•叙词表又逐步向功能增强、结构简明的方向发展。具体 表现为:
分类标引复习重点(打印)
![分类标引复习重点(打印)](https://img.taocdn.com/s3/m/2fc218c704a1b0717fd5dd6d.png)
第一章1:什么是类、分类、图书分类、分类标准?类:具有某种共同属性的事物的集合分类:根据事物的属性进行的区分和类聚并按照相互关系进行组织的活动图书分类:依据一定的分类体系,根据图书内容的学科属性或其他特征分门别类的系统的揭示与组织图书馆馆藏的方法分类标准:一类事物彼此之间的共同点称为分类标准2.如何确定图书分类标准的使用次序?(1)要符合读者的检索习惯和检索要求(2)要适应具体国家的实际情况(3)要遵守学科专业分类的一般规则3.什么是等级列举式分类法,有哪些优缺点?含义:将所有类目组织成一个等级系统,并采用尽量列举的方式编制的分类法优点:(1)根据用户的使用需要按学科专业有层次的揭示文献,类目展开比较系统(2)采用等级列举方式将分类结构加以完整显示,类目体系概括直观,易于掌握和使用(3)标记符号简短明了,号码单纯,适合组织图书分类排架,也适合组织分类检索工具缺点:(1)不能详尽无疑的揭示各种复杂主题,无法满足确切分类的需要(2)列举式类表的等级结构,单线序列和先组式的标记,使类表具有一定的凝固性,不能根据需要随时调整,不能进行多角度检索(3)列举式类表的静态结构具有一定的拘束性,无法根据现代科学的发展自动生成新类,难以与科学的发展保持同步,必须经常修订(4)大型等级列举式的分类法,一般类目详尽,但篇幅较大4.分面组配分类法的基本思想和优缺点?基本思想:任何复合主题都可以分解为相应的单元概念,同样也可以通过相应单元概念的组合加以表达,根据这一特点,分类法编制时没有必要详尽列举所有主题只要在类表中按照范畴列出各种基本概念,并分别配于相应号码,使用时先分析文献主题,根据主题分析的结果,通过相应概念的组配,表达文献主题,以各个概念标识的组合表示该主题在分类体系中的次序优点:(1)可以通过基本概念的组配充分揭示现代文献中的复合主题,对文献内容进行专指标引(2)分面标引具有较强的表达性,可以通过表达出主题成分所属的分面,便于根据不同需要调整组配次序,进行多元检索(3)对科学的发展具有较强的适应性,可以通过组配方式表达新产生的复杂主题与科学发展保持同步(4)类表的篇幅较小,便于控制、管理、增补、修订缺点:(1)类表的类目体系是隐含的,不直观的(2)标记符号通过组配才能得到,标引难度高,要求分类人员具有较高的专业素养(3)分面标记的成分往往比较复杂,号码冗长,不适宜用于组织文献排架,主要用于组织检索工具第二章1.什么是分类表。
网络信息资源检索4
![网络信息资源检索4](https://img.taocdn.com/s3/m/329357ee4afe04a1b071dee7.png)
第四章 Internet信息检索 1 2 3 4 网络信息检索的一般方法 网络信息检索工具 相关网络信息检索技术 搜索引擎及其原理
1 网络信息检索的一般方法
1.1 浏览
1.2 通过网络资源指南来查找信息 1.3 利用搜索引擎进行信息检索
1.1 浏览
(1)偶然发现。
这是在因特网上发现、检索信息的原始方法。
等功能。
2 网络信息检索工具
网络信息检索工具是指在因特网上提 供信息检索服务的计算机系统,其检索的 对象是存在于因特网信息空间中各种类型 的网络信息资源。
近来具一般是由自动索引程序、 数据库和检索代理软件组成的。
自动索引程序
即在日常的网络阅读、漫游过程中,意外发现一些
有用信息。这种方式的目的性不是很强,其不可预 见性、偶然性使检索过程具有某种探索宝藏的意味, 也许会充满乐趣,但也可能一无所获。
(2)顺“链”而行。
指用户在阅读超文本文档时,利用文档中的链接从一网
页转向另一相关网页。有些类似于传统文献检索中的“追溯 检索”,即根据文献后所附的参考文献目录去追溯相关文献, 一轮一轮地不断扩大检索范围。这种方式可以在很短的时间 内获得大量相关信息,但也有可能在“顺链而行”中偏离了
3、提供检索服务 用户输入关键词进行检索,搜索引擎从 索引数据库中找到匹配该关键词的网页;为 了用户便于判断,除了网页标题和URL外, 还会提供一段来自网页的摘要以及其他信息。
检索工具的分类
![检索工具的分类](https://img.taocdn.com/s3/m/4bd2f37ba26925c52cc5bf76.png)
1.检索工具的分类(1)按照信息搜集方法分类按照信息搜集方法的不同,搜索引擎系统可以分为三大类:1)目录式搜索引擎(Directory Search Engine)以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。
信息大多面向网站,提供目录浏览服务和直接检索服务。
该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入(维护工作量大)、信息量少、信息更新不及时。
这类搜索引擎的代表是:Yahoo!、LookSmart、Ask Jeeves、Snap、Open Directory.2)机器人搜索引擎(Crawler-Based Search Engine)由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在Internet中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。
服务方式是面向网页的全文检索服务。
该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中筛选。
这类搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google.3)元搜索引擎(Meta Search Engine)这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。
服务方式为面向网页的全文检索。
这类搜索引擎的优点是返回结果的信息量大,缺点是不能够充分使用元搜索引擎的功能,用户需要做更多的筛选。
这类搜索引擎的代表是WebCrawler、InfoMarket.目前,商业的搜索引擎站点正在结合各种搜索引擎的优点,在类型上有逐渐融合的趋势。
例如,Yahoo!在保持人工分类的同时,使用Inktomi的机器人搜索引擎,用户查询时,如果选?quot;网站搜索"便搜索人工分类库,选择"网页搜索"便搜索机器人搜索引擎的索引库。
第四章 信息检索模型
![第四章 信息检索模型](https://img.taocdn.com/s3/m/afb9c4c3f605cc1755270722192e453610665bf5.png)
向量空间模型
➢ 向量空间模型(Vector Space Model,VSM) 是由G·Salton等人在1958年提出的
➢ 代表系统
SMART( System for the Manipulation and Retrieval of Text)
➢ 这一系统理论框架到现在仍然是信息检索 技术研究的基础
D={d1, d2 , … , dm} 为了满足检索匹配所要求的快速与便利,文档di通常由
从文档中抽取的能够表达文档内容的特征项(如索引 项/检索词/关键词)来表示 设K={k1, k2 , … , kn} 为系统索引项集合 则di ={ωi1,ωi2 , … ,ωin} (ωij≥0) ωij→索引词kj在文档di中的重要性(权值weight)
相当于识别包含了一个某个特定term的文档
➢ 经过某种训练的用户可以容易地写出布尔查询 式
➢ 布尔模型可以通过扩展来包含排序的功能,即 “扩展的布尔模型”
布尔模型存在的问题
➢ 布尔模型被认为是功能最弱的方式,其主要问题在于不支 持部分匹配,而完全匹配会导致太多或者太少的结果文档 被返回 非常刚性: “与”意味着全部; “或”意味着任何一 个
模型中的问题
➢ 怎样确定文档中哪些词是重要的词?(索 引项)
➢ 怎样确定一个词在某个文档中或在整个文 档集中的重要程度?(权重)
➢ 怎样确定一个文档和一个查询式之间的相 似度?
索引项的选择
➢ 若干独立的词项被选作索引项(index keys) or 词表 vocabulary
➢ 索引项代表了一个应用中的重要词项 计算机科学图书馆中的索引项应该是哪些呢?
例如:文档的统计特性 ➢ 用户规定一个词项(key)集合,可以给每个词项附加权重
书馆数字资源的标引与检索
![书馆数字资源的标引与检索](https://img.taocdn.com/s3/m/4cc47a4203020740be1e650e52ea551811a6c978.png)
书馆数字资源的标引与检索随着科技的发展和互联网的普及,数字资源在图书馆中的地位越来越重要。
然而,数字资源的数量庞大,如何准确标引和高效检索这些资源成为图书馆管理者面临的挑战。
本文将探讨书馆数字资源的标引与检索方法,以提高图书馆服务的质量和效率。
一、数字资源的标引方法标引是为了方便用户检索和利用图书馆资源而对资源进行主题表达的过程。
在数字资源的标引中,关键词的选择和表达非常关键。
标引词应该具有较高的覆盖率和代表性,能够准确地反映资源的内容。
以下是几种常见的数字资源标引方法:1. 主题标引法:根据资源的主题内容,选取最具代表性的关键词进行标引。
这种方法非常直观,适用于一般性的数字资源标引。
2. 关联标引法:将资源与相关的主题词或者分类号进行关联标引。
这种方法可以提高资源的关联性和相关度,帮助用户发现更多相关的资源。
3. 统计标引法:通过对资源的内容进行统计,选取出现频率较高的关键词进行标引。
这种方法适用于文本类资源,可以提高检索的准确性。
4. 分类标引法:根据资源所属的类别或者主题进行分类标引。
这种方法适用于数字资源库中资源种类繁多的情况,可以提高资源的组织和管理效率。
二、数字资源的检索方法标引是为了方便用户检索资源,因此,设计高效的检索方法对用户的检索体验至关重要。
以下是几种常见的数字资源检索方法:1. 关键词检索法:用户通过输入相关的关键词来检索所需的资源。
检索系统会根据关键词匹配资源的标引词,返回相关资源的检索结果。
2. 模糊检索法:用户可以使用通配符和逻辑符号进行模糊检索。
通配符可以帮助用户找到与关键词相关的不同形式的资源,逻辑符号可以帮助用户筛选出符合特定条件的资源。
3. 高级检索法:用户可以使用更加详细的检索条件进行高级检索。
例如,可以根据资源的作者、出版日期、语言等属性进行检索,提高检索结果的准确性。
4. 推荐检索法:根据用户的浏览和借阅历史,系统可以为用户推荐相关的资源。
这种方法可以提高用户的满意度和发现新资源的机会。
《信息组织》复习(简版)
![《信息组织》复习(简版)](https://img.taocdn.com/s3/m/1f317b3c0722192e4536f647.png)
索引是以文献或文献集合中包括的信息内容为其揭示单元的工具,包括期刊索引、书后索引等。
情报检索语言
情报检索语言:是一种由表达信息资源主题概念及其相互关系的词汇及规则组成的人工语言系统,国内亦称情报检索语言。检索语言由词汇和语法两部分组成。词汇是检索语言的主体,是各种词表,包括分类表或标题表、叙词表等;语法,则是分类标引和主题标引的规则系统,它们规定词汇集的使用方法
(重点)2.主题标引和分类标引的相同点和不同点。
主题标引和分类标引的相同点:1.揭示的对象相同。2.依据的数据来源相同。3.操作程序相同。4.基本处理方法相同。
主题标引和分类标引的不同点:1.主题分析的角度不同。2.转换途径不同。3.标识不同。4.揭示的特点不同。
3.主题标引的基本方式:整体标引、全面标引、对口标引、综合标引、分类标引。
检全率、检准率
检全率,指通过检索系统检出的与某一检索提问相关的文献数与检索系统中与该提问相关文献总数之比。
检准率,指系统实施检索时检出的与某一检索提问相关的信息资源数与检出
6、述,亦称信息资源描述,是指根据信息组织和检索的需要,对信息资源的主题内容、形式特征、物质形态等进行分析、选择、记录的活动。
7、元数据:元数据即描述数据的数据,对数据及信息资源的描述性信息
分类索书号:又称分类排架号,是表示一文献在分类收藏中位置的号码。
2.分类标引的基本要求:准确、充分、一致、适用。
4.分类标引工作的程序,以及在这些分类步骤中应注意的问题。
分类标引工作的程序:查重—主题分析—归类—给号—审核。
查重:检查是否为已标引,避免重复。依据:书名目录进行。联机情况下,使用联机目录工具。
文本检索:不标引,直接用计算机,通过自然语言,对信息资源进行检索的方式。
第4章 标引基本知识1
![第4章 标引基本知识1](https://img.taocdn.com/s3/m/97c4b4ea102de2bd960588fd.png)
•标引的概念、方式 •标引的原理 •标引深度和等级
标引的概念
国标定义:标引(Indexing)是对文
献进行主题分析,从自然语言转换成 规范化的检索语言的过程 具体而言:在主题分析的基础上,以 一定的词表或标引规则作为依据,将 信息资源中具有检索意义的特征转换 成相应的规范词,并将其组织成表达 信息资源内容特征的标识的过程。
穷举度高
一致性强
提高查全率 提高查准率
标引的方式
依文献检索方法:
主题标引
分类标引
依内容选择方式:
整体标引(概括标引、浅标引) 全面标引 重点标引(对口标引) 分析标引
标引的方式
依受控程度:
受控标引 自由标引 混合标引(半控标引)
依自动化程度:
人工标引(手工标引)
只有对自然语言进行适当的处理,才能克服
自然语言存在的缺陷,提高检索效率。
标引的原理
标引
过程
文献 主题分析 主题概念
转换 检索 标识
情报 检索 语言
检索 系统
匹配
检索 结果
检索 过程
课题 主题分析
主题概念 转换
检索提 问式
标引的原理
标引的目的是建立检索系统,检索系
统的建立必须依赖标引 词汇控制是标引的关键 词汇控制包括两方面:
标引等级
一级概念标引(主要标引):揭示文献 主要论点 主要内容、作者研究目的 2/3 创新实验研究、诊疗方法 重点讨论的专指性概念 美国《医学索引》Index Medicus IM 词
标引等级
二级概念标引(次要标引):揭示文献 次要概念 次要论点 <1/3 被讨论的试验方法、诊疗技术 主要标引词的限定词 特征词 NIM词:机检系统
分类标引一分类检索工具
![分类标引一分类检索工具](https://img.taocdn.com/s3/m/07d24ab3b9f3f90f77c61b3c.png)
a
5
(3)同位类限定法
通过同位类的限定来辨识类目的含义。如: I2 中国文学 I24 小说 I28 儿童文学
a
6
(4)相关类限定法
通过相关类来限定类目的含义。如: C8 统计学
参见O212 O212 数理统计
参见C8 C8 就不包含“数理统计”
a
7
(5)注释限定法
这是借助类目注释进一步辨明类目的含义。 如:
a
23
2 .多主题信息资源的分类标引
(2)从属关系主题的分类。一般应按其 大主题归类。但如该文献对大主题并未展 开论述,其研究重点为小主题,则仍可标 引小主题。
(3)联结关系主题的分类。指该资源涉 及两个或多个具有联结关系的主题对象, 包括应用、比较、影响、因果等关系类型, 通常应在分析其关系类型的基础上,按照 各自的特点进行标引
a
22
2 .多主题信息资源的分类标引
多主题信息资源是同时论述两个或两个以上的 事物对象的资源,应按照所论述的主题对象及 其关系,区别情况进行分类
(1)并列主体的分类 ①论及两个并列关系主体的资源,如果同属于
一个类列,具有共同的直接上位类,通常可直 接归入上位类,否则,可按重点或在前主题归 类,同时为另一个主题作附加分类 ②对同时涉及三个或三个以上并列主题的文献, 可根据其涉及的范围,将其归入共同的上位类 或概括性类目
2、应客观、正确、全面地揭示文献内容 3、进行周密的主题分析 4、符合分类法的系统性和逻辑性 5、归类满足实用性 6、归类满足专指性 7、保持分类一致性
a
20
(三)分类标引的一般分类规则
1.单主题信息资源的分类标引 2.多主题信息资源的分类标引 3.丛书、多卷书的分类标引 4.词典、百科全书、年鉴、手册韵分类标引 5.目录、索引、文摘的分类标引 6.关于对著作的研究、注释的标引 7.特种文献的分类标引 8.非书资料的分类标目 9.网络信息资源的分类标引
分类标引一分类检索工具
![分类标引一分类检索工具](https://img.taocdn.com/s3/m/1e69fdbaf80f76c66137ee06eff9aef8951e4854.png)
政府信息服务平台
政府信息服务平台是分类检索工具在 政务信息化方面的应用。通过分类标 引,政府可以将各类政务信息进行有 序化整理,方便公众快速获取所需信 息。
VS
分类检索工具在政府信息服务平台中 的应用包括政务信息公开、政策法规 查询、在线办事等。这些功能可以帮 助政府提高政务公开度和公共服务水 平,增强政府与公众之间的互动和信 任。
分类标引一分类检索工具
• 引言 • 分类标引基础知识 • 分类检索工具概述 • 分类检索工具的核心功能 • 分类检索工具的实现技术 • 分类检索工具的应用案例 • 总结与展望
01
引言
目的和背景
目的
分类标引是图书馆、档案馆和信息机构中一项重要的工作, 旨在通过对文献资源进行分类和标引,帮助用户快速、准确 地找到所需信息。
02
分类标引基础知识
分类标引的基本概念
分类标引的基本概念
分类标引是将信息按照一定的分类体系进行标识的过程,以便于 信息的管理、检索和利用。
分类标引的原理
基于信息的内容和特征,将其归类到相应的分类体系中,并赋予相 应的标识符号。
分类标引的方法
分类标引的方法包括人工标引和自动标引,其中人工标引又可以分 为专业人员标引和用户自标引。
分类定制功能可以帮助用户更好地管理和组织信息,提高信息利用的效率和便捷性。
分类定制功能的实现需要提供灵活的定制工具和界面,以方便用户进行自定义设置 和调整。
05
分类检索工具的实现技术
信息抽取技术
信息抽取技术是指从大量结构化和非结构化数 据中提取有用信息的过程。
信息抽取技术包括实体识别、关系抽取、事件 抽取等,用于从文本、图像、音频和视频等不 同类型数据中提取关键信息。
常用检索工具
![常用检索工具](https://img.taocdn.com/s3/m/db5f7273a417866fb84a8e7d.png)
常用检索工具1.检索工具的分类(1)按照信息搜集方法分类按照信息搜集方法的不同,搜索引擎系统可以分为三大类:1)目录式搜索引擎(Directory Search Engine)以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。
信息大多面向网站,提供目录浏览服务和直接检索服务。
该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入(维护工作量大)、信息量少、信息更新不及时。
这类搜索引擎的代表是:Yahoo!、LookSmart、Ask Jeeves、Snap、Open Directory。
2)机器人搜索引擎(Crawler-Based Search Engine)由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在Internet中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。
服务方式是面向网页的全文检索服务。
该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中筛选。
这类搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google。
3)元搜索引擎(Meta Search Engine)这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。
服务方式为面向网页的全文检索。
这类搜索引擎的优点是返回结果的信息量大,缺点是不能够充分使用元搜索引擎的功能,用户需要做更多的筛选。
这类搜索引擎的代表是WebCrawler、InfoMarket。
目前,商业的搜索引擎站点正在结合各种搜索引擎的优点,在类型上有逐渐融合的趋势。
例如,Yahoo!在保持人工分类的同时,使用Inktomi的机器人搜索引擎,用户查询时,如果选?quot;网站搜索"便搜索人工分类库,选择"网页搜索"便搜索机器人搜索引擎的索引库。
各类型文献的分类标引方法完整ppt
![各类型文献的分类标引方法完整ppt](https://img.taocdn.com/s3/m/bf4208332cc58bd63086bd24.png)
◆ 多卷书与丛书的分类标引方法 ◆ 工具书的分类标引方法 ◆ 中文古籍的分类标引方法 ◆ 期刊与报纸的分类标引方法 ◆ 非书资料的分类标引方法 ◆ 技术标准与专利文献的分类标引方法
back
1
◆ 多卷书的分类标引方法 ◆ 丛书的分类标引方法
2
back
● 多卷书的含义 多卷书是一种分卷、辑、册逐次或一次出版的文献,通
《现代汉语大大词典》,标引为:H164 一种语言的词典
《法英词典》
专科、专题书目、索引,也入“综合性图书”类,采
用组配编号法。如愿入有关各类,可在各学科类号后
加上总论复分表号码“-7”。例如:
9
《西方伦理学名著提要》,标引为: Z89:B82
《图书馆学情报学档案学出版发行学论文索引(1949-1985)》
标引为: Z89:G2
《化工文摘》
标引为: Z89:TQ
●专书索引,一般应随原书归入相应类目,但马列 经典作家本身的索引(如人名索引、篇目索引、主 题索引等),归入马列大类有关类目。例如:
6
back
◆ 参考工具书的分类标引方法 ◆ 检索工具书的分类标引方法 ◆ 语言工具书的分类标引方法
back
7
◆ 参考工具书主要指字典、词(辞)典、百科全书、 类书、年鉴、手册、图谱等,按学科内容有综合性和专 科性之分。
● 综合性参考工具书,归入综合性图书的有关各类
《辞源》,标引为:Z32 《简明不列颠百科全书》,标引为:Z356.1(Z33/37)
《二十四史人名索引》,标引为: K204.1-7
《马克思恩格斯全集专题分类索引》,标引为:A813
《邓小平文选索引》,标引为:A849.3
分类标引
![分类标引](https://img.taocdn.com/s3/m/3b9c7a7fa45177232f60a2c8.png)
020 Library and information science: news and discussion lists
基本分类规则
5.不能单凭题名、篇名归类。
例: 钢铁是怎样炼成的 我钻进了金字塔 星云 时间简史 悲剧的诞生 历史的终结
基本分类规则
6.应注意标引的思想性。
• 对于社会科学对象的信息资源,在必要时,应 对其内容性质进行揭示。 • 在网络信息资源的组织中,应注意检索系统的 导向性和提倡健康生活方式的职能。内容不健 康或损害国家主权的站点,不应进行标引。
学习分类标引的知识的意义
• 文献单位分类标引的需要;
• 了解分类标引规律,用于自
动分类研究。
分类标引的要求
准确—归类要正确、确切。 充分—指能充分揭示有检索价值的主题。 一致 — 指对同一主题内容资源的标引结果应一致。
适用 — 指标引应适合检索系统的特点和用户需求。
号码配置方法
一种,可以通过主表直接获得表达一信息资源 的完整分类号码; 另一种,须结合不同成分的号码进行组配标引:
论述一主题某一方面的信息资源,应根据该资源论述 方面的学科角度归类。
《茶树特性与栽培》 入农业类,标引为:S571.1; 《茶叶生产机械化》 入轻工业,标引为:TS272.3;
《名茶的保管与储藏》入经济类,商品学,标引为:F768.204;
《茶叶外销》入经济类,对外贸易,标引为:F752.6582; 《中国茶文化史》入中国文化史,标引为:K203; 《日本的茶道》应归入日本风俗习惯,标引为:K893.1325。
第四章 维普数据库检索方法
![第四章 维普数据库检索方法](https://img.taocdn.com/s3/m/83b65517650e52ea54189805.png)
66
有关电子商务的文献
67
在此基础上检索关于网络安全的 文献
68
查找关于“晶体生长”方面的文章且作者是“刘 英才”,就可以采用二次检索的方式或者逻辑表 达式的方式来实现。
69
也可直接在任意字段中输入“K=晶体生长*A=刘英 才”来得到检索结果,如图示:
70
检索实例:
检索“玻璃钢/聚丙烯(FRP-PP)复合增 强的研究”的文献
87
最多勾选数据不超 过5个。
88
89
90
二、直接输入检索式检索
可在检索框中直接输入逻辑运算符、检 索代码等,点击“扩展检索条件”并对 相关检索条件进行限制后点击“检索” 按钮即可。
91
92
在以下字段用到匹配关系 关键词、作者、第一作者、分类号、栏目信息、基金 资助 作者简介
49
模糊匹配
50
精确匹配
51
52
53
3 同名作者的使用
维普数据库提供这样一个不同于其他数据库的 功能,就是用作者字段进行检索的时候,为了防 止重名重姓的作者混淆文献结果,可以先根据作 者单位进行作者的筛选,然后再继续检索,这样 可以防止误检。
54
检索华东理工大学胡英教授发表的 文献
55
对姓名进行精确检索
56
同名作者的筛选
57
58
59
4 同义词的使用
同义词库功能的使用类似于同名作者的使用,只 有在选择了关键词、题名或关键词检索入口时才 生效。 例如:输入关键词“土豆”检索时会提示“马铃 薯、洋芋、洋蕃芋 ”等是否同时选中作为检索条 件,就可以有选择的扩大检索范围。
7
独特功能介绍
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(二)查表选词的方法
• 词表的各部分分别提供特定的查词途径,为尽 快找到表达主题概念的相应叙词,应该根据标 引者把握主题概念的角度,正确选择查词途径, 并注意多种途径的配合 • 下面就依据《汉表》予以说明
1.主表和附表的查词途径 2.范畴索引的查词途径 3.词族索引的查词途径 4.英汉对照索引的查词途径
• 第二,某文献的主题涉及的多个主题概念或概念因素集 中在某一学科范畴
– 步骤:为了提高查词速度,可首先查范畴索引,再转查主表。 – 例如,“输电线路大跨度铁塔用金具”这一主题概念,可在范畴 索引的“54G 输配电工程”下查出相应叙词“输电线路”、“大 跨越杆塔”、“输电铁塔”、“输电线路金具”等。
主题概念分解方法(一)
依据主题概念内部关系分解法 • 交叉关系概念分解法
– 这是指将复杂概念分解成两个或两个以上外延部分相交的属概念(作为 概念因素的简单概念)的方法。 – 例如,“变形固体动力学”分解为“连续介质力学”、“固体力学”和 “动力学”。
• 事物与方面关系概念分解法
– 这是指将复杂概念分解成表达事物和方面的两个或两个以上的简单概念。 当一个复杂概念的构成因素没有共同的属概念时,或一个复杂概念是由 具有连续性层次性的多个修饰成分限定一个中心成分时,往往可以采用 这种分解方法。 – 例如,“水上飞机机体结构设计”分解为“水上飞机”、“飞机机体” 和“结构设计”。
• 根据主表、附表或其他辅助索引提供的族首词,查找 更专指词或更多的词
– 例如,为表达“战地救护车”这一主题概念,从“救护车” 入手在主表中查找,发现它没有下位词,但族首词是“车 辆”,据此转查词族索引,发现只能用“军用车辆”与“救 护车”组配标引。
二、选择标引词的一般规则
(一)选用标引词的基本规则 • 必须用正式叙词标引 • 遵守选定标引词的优先顺序:
4.时间因素的标引
• 文献主题中表示时间因素的概念主要有时代、年代、通用时间、朝 代和地质年代。主题标引时:
– 前三种时间概念一般只作为时间因素标引,不作为或轮排为主标目;
《古代希腊神话》标引为:神话—文学研究—希腊—古代 轮排为:文学研究—神话—希腊—古代 《20世纪的社会理论》 标引为:社会学学派—思想评论—世界—20世纪 《冬季药膳精选》 标引为:食物疗法—食谱—冬
例如: 《法国通史》标引为:法国—通史; 轮排为:通史—法国 • 主题标引中,对叙词表中没有收录的地理名称,均可以采用自由词标引; 我国的县及县级以下地区前应冠省、市名称,外国除首都、著名城市之 外的地名ห้องสมุดไป่ตู้应冠国家名
例如:《梧塘镇志》标引为:地方志—福建省—莆田县—梧塘镇 《温哥华与不列颠哥伦比亚》(世界旅游指南 第二辑之一) 标引为:旅游指南—加拿大—温哥华 旅游指南—加拿大—不列颠哥伦比亚
2.通用因素的标引
• 表示通用因素的叙词一般是较泛指的单元词,无独立 检索意义,因此不需要作为或轮排为主标目 例如: 《汽车底盘维修》 标引为:汽车—底盘—维修 轮排为:底盘—汽车—维修 《中国经济难题》 标引为:经济—问题—研究—中国
3.空间因素的标引
• 表示空间因素的叙词一般不作为也不轮排为主标目 例如:《美国银行业务法》 标引为:商业银行—银行法—基本知识—美国 轮排为:银行法行—商业银—基本知识—美国 • 如果文献是全面论述某一国家或地区的社会、历史、地理,或者某一自 然地理区域是文献的研究对象,表达文献主题中国家、地区、自然地理 概念的名称应该作为或轮排为主标目
各种类型复合主题的标引
• 事物与事物因素交叉复合主题 例如: 《工业企业财务管理》标引为:工业企业管理:财务管理 《高层体育建筑结构设计》 标引为:高层建筑:体育建筑—建筑设计:结构设计 • 事物与方面或部分因素复合主题 例如: 《教育方法论》标引为:教育学─方法论 《汽车发动机的保养》标引为:汽车─发动机─车辆保养 • 事物与特称因素复合主题 例如:《鱼类亲本培育》标引为:亲鱼培育,人工方式 • 事物与方面、特称因素复合主题 例如:《脂肪猪药物催肥法》 标引为:猪,脂肪型─快速肥育,药物
三、各类型主题与各类型文献的 主题标引规则
(一)各种主题因素的主题标引 (二)单因素主题、复合主题、联结主题的主题 标引 (三)多主题文献的主题标引 (四)各类型文献的主题标引
(一)各种主题因素的主题标引
• 《文献叙词标引规则》将构成主题的主题因素的归纳 为: – 主体因素(研究对象、材料、方法、过程、条件 等)、通用因素、空间因素、时间因素、文献类型 因素。 1.主体因素的标引 2.通用因素的标引 3.空间因素的标引 4.时间因素的标引 5.文献类型因素的标引
– 这是从被分解的复杂概念中找出最上位的属概念,然后从这 个概念入手,利用词表中的等级关系显示,逐一找出能表达 被分解概念中最专指因素的叙词,进行概念分解。 – 例如,对“军用运输机机身结构设计”这一概念,先查“设 计”,发现它的下位概念词中最专指的只有“结构设计”, 次查“结构”,没有相应叙词;再查“机身”,没有发现合 适的下位词;然后查“飞机”,其下只有相应的“军用飞机” 和“运输机”两词,从而完成分解。
1.主体因素的标引
• 每个文献主题的主体因素,不论是一个还是多个,一 般都有独立检索意义,因此需要优先标引,并作为或 都轮排为主标目(即叙词标目中第一个引用的词,或 称主标题) 例如: 《现代动物生物化学》 标引为:动物学:生物化学 轮排为:生物化学:学动物 《汽车电器故障诊断与排除实例》 标引为:汽车—电器设备—车辆修理 轮排为:电器设备—汽车—车辆修理 车辆修理—电器设备—汽车
2.复合主题的主题标引
• 标引复合主题,应注意三点:
– 一是保证表达主题概念的完整性,防止遗漏必备的主题因素; – 二是保证叙词表达主题因素的正确性和专指性; – 三是准确把握主题因素之间的关系和组配类型,保证叙词的 引用次序和组配符号的合理性,并选择适用的轮排方案。一 般来说,应当将表达主题中事物因素的叙词首先作为主标目。
主题概念分解应注意的事项
• 把握概念分解依据
– 为提高主题概念分解效率,应该掌握和利用两个依据:
一是特定的主题结构模式; 二是特定叙词表收选叙词尤其是词组叙词的原则和类型。
• 必须进行概念分解,避免字面分拆 • 必须根据概念内涵析出最专指的分解形式
– 对特定主题概念,应该采用最专指的分解形式。在逐层分解 时,要选用最邻近的上位概念进行分解。
3.词族索引的查词途径
词族索引提供从族首词出发,查找具有等级关系 的族内叙词的途径。它主要在两种情况下采用: • 一个主题概念或几个概念因素的语词形式不明确,但 它或它们的最上位概念词比较肯定,因而首先查词族 索引
– 例如。“外国银行来华开办的分行”这一主题概念,利用词 族索引,查“银行”这一词族,发现只能用“跨国银行”来 表达。
• 主表和附表提供中间或最终查词途径
2.范畴索引的查词途径
范畴索引在下述两种情况下可以作为首选的查词途径: • 第一,对主题概念的语词形式没有确切的把握,但知其 所属的学科专业范围
– 步骤:范畴索引中找到相应范畴,浏览、分析并选择范畴内的词, 转查主表。 – 例如,为标引“智能决策系统程序的结构图设计方法”这一主题 概念,首先利用自然科学部分的范畴索引,在“58CB程序”类下 查出相应叙词“结构化程序设计”和“模块化程序”;在“58CB 计算机应用”类下查出相应叙词“决策支持系统”。
–主题概念专指词标引; –复分、仿分;组配、加子标题; –上位词标引; –靠词(类)标引; –增词标引; –自由词标引。
• 标引深度要适当
(二)叙词组配标引规则
• 组配标引是叙词标引的基本标引方式。为了保证叙词 组配标引的正确性和一致性,叙词组配标引必须遵循 如下组配规则: –必须遵循概念组配原则; –优先交叉组配; –不能越级组配; –保证组配科学、合理; –组配语义应该清晰确切; –多主题应该分组标引。 例如,某文献涉及“广东的对外贸易”和“香港 的对外贸易”两个主题,标引为:对外贸易-广东; 转口贸易-香港。
主题概念分解方法(二)
概念的概括和限定分解法 • 概念概括分解法
– 这是逐渐减少复杂概念内涵、不断扩大复杂概念外延,根据 词表收词情况进行概念分解的方法。 – 例如,“军用运输机机身结构设计”这一概念,可以从前往 后逐一分解出“军用飞机”、“运输机”、“机身”和“结 构设计”四个因素。
• 概念限定分解法
1.主表和附表的查词途径
这是查词的主要途径和最终途径。应该选择或配 合使用主表和附表查词途径的情形主要是: • 直接按字顺查款目词 • 注意利用参照系统查词 • 可以利用款目词后的范畴号扩大查词
– 例如,为标引“城市污水脱氮原理”,查“城市污水”发现 词表中有这个叙词,其范畴为“ 91D 水污染极其防治”,依 此转查范畴索引,发现该范畴下还有“生物处理”、“反硝 化作用”(“脱氮”正式叙词)可用于表达该主题。
例如:《薄层色谱及其在食品分析上的应用》 标引为:薄层色谱—应用—食品分析
(三)多主题文献的主题标引
• 一般来说,文献有两个主题时,应该分别标引每个主 题;如果文献的主题较多,也可以将它们概括成较少 的(甚至只一个)主题进行标引 1.并列的多主题文献 2.从属的多主题文献
– 后两种概念可以成为主体因素,其叙词应该作为或轮排为主标目。
《唐代的外来文明》标引为:唐代—文化交流—文化史 文化交流—文化史—唐代 文化史—文化交流—唐代 《中国环太平洋带北段晚三叠世地层古生物》 标引为:晚三叠世—古生物—中国 轮排为:古生物—晚三叠世—中国
5.文献类型因素的标引
• 表示文献类型因素的叙词一般在叙词标目的最后引用。但是,如 果文献内容是综合性的,文献类型因素的叙词应该作为主标目; 如果文献的内容以某类型文献为研究对象,则该文献类型概念实 际上是主体因素,应该首先引用 例如: 《建筑装饰设计手册》 标引为:建筑装饰—建筑设计—手册 轮排为:建筑设计—建筑装饰—手册 《辞海》 标引为:百科辞典—中国 《<现代汉语词典>评析与补白》 标引为:《现代汉语词典》—研究 标引为:词典—汉语—研究 轮排为:汉语—词典—研究