主题组织和关键词法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《信息检索、组织及其实务》课件
主题组织和关键词法
汪春晖 2009年3月
1
搜索引擎的原理
第一步:从网上采集信息
“蜘蛛”
网页1 链接1 链接2 ……
网页2 链接1 链接2 ……
网页xx 链接xx ……
网页xx 链接xx ……
网页xx 链接xx ……
网页xx 链接xx ……
2
搜索引擎的原理
第二步:分析网页信息,建立网页索引数据库
索引:
倒排索引:
标题/网址 检索词
检索词 标题/网址
网页x1 网页x2 网页x3 ……
政协 会议…… 政协 委员…… 电脑 市场…… ……
政协
会议 电脑 ……
网页x1 网页x2 …… 网页x2…… 网页x3 …… ……
3
搜索引擎的原理
4
信息检索原理
从技术上来说,信息检索是以信息的存储与检索 之间的相符性为基础的,如下图“信息检索原 理图”:
6
主题语言的基本概念
主题——主题指信息对象所表达或反映的主要
内容、问题或事物。
主题词——主题词是用于描述、存贮、检索信
息主题的受控词汇,是主题表中能表达一定 意义的最基本词汇单元。
主题词的选用主要依据三方面:出现频率 、标引频率、查找频率。具体来讲是应具有 实际检索意义。
主题词分为标题词、单元词、叙词、关键 词。
字面组配和概念组配的区别:
概念
字面组配
概念组配
联想计算机 香蕉苹果
牛蛙
联想+计算机 联想牌+计算机 香蕉+苹果 香蕉味水果+苹果
牛+蛙 (单纯词,不可分解)
11
叙词语言-叙词表的著录格式
叙词语言-叙词法的特点
叙词法的主要特点:
(1)直接以规范化了的自然语言——叙词作为标识符号,直 观性强;
(2)直接从论述和研究的具体对象和问题出发进行选词,并 采用叙词组配来描述主题,专指性强;
关键词应用实例——网页的关键词
16
关键词应用实例——论文的关键词
17
关键词应用实例——标签(tag)
18
关键词的选取方法
关键词的选取方法主要有: 直选法,即直接从文献的题名、摘要和正文 中选取作者的用语作为关键词。 提炼法,对文献中隐含的主题经分析后,赋 予某个关键词。 一篇论文应选取2-10个关键词。深度标引应
7
主题组织概述
主题组织是直接以表达主题内容的词语作检索标 识,以字顺为主要检索途径,并通过参照系统 等方法揭示词间关系,以便提供一种易用的面 向具体事实、概念的检索途径的信息组织方法 和活动。
主题组织法主要适用于各种信息检索系统的记录 单元的组织,如检索工具、数据仓库等。主题 组织法包括标题词法、单元词法、叙词法、关 键词法 。
选择何种词语作为关键词,实际上就是把文献定 位于某一特定的类别,所以,选取和标引关键词,其 实质是做文献的归类工作。如选择“市场经济”这一 词语作为关键词,就是把文章归入了“市场经济”类 ,而归类的目的就在于检索。所以关键词是检索文献 的入口之一。
总之,选取和标引关键词,目的是帮助读者理 解和掌握文献的中心和主题,有利于读者查阅 、检索和利用文献。
存储 一次 分析 信息
过程 信息
特征
检索 检索 分析 检索
过程 课题
提问
标引 信息特 输ຫໍສະໝຸດ Baidu 信

征标识





工 输出 索



(

标引
检索提
系 检索 统

问标识

5
什么是信息检索语言
含义:是根据信息检索系统存储和检索的需要而 编制的人工语言。
语言=词汇+语法 信息检索语言的词汇:分类号、检索词、代码 信息检索语言的语法:如何正确描述记录和有效 地检索记录的一整套规则。
选取5-20个关键词。
19
关键词的选取举例
《论科技期刊营销渠道的建设 》链接
汪晓 夏黎明 汪玲 杨岷 石鹤 华中科技大学附属同济医院《放射学实践》编辑部,武汉430030
[摘要] 分析目前科技期刊渠道营销中存在的问题 。认为:要想在渠道竞争中保持优势,就要在 原有渠道的基础上有所创新;现代渠道改革创 新的重心在于服务,利用并发展不同的新环境 和新技术,是科技期刊渠道创新的主题。
[关键词] 科技期刊 营销渠道 营销 渠道
关键词的选取举例
《试论党校函授哲学教学的改革》
从文献标题中直接可选取的关键词有“党校”、 “函授”、“哲学教学”、“教学改革”;
同时在文章中还讲到了为什么要开设哲学课程, 怎样讲好哲学课程,等等,这就隐含着“课程设置” 、“教学方法”这样的内容,所以,又赋予“课程设 置”、“教学方法”两个关键词。
——《科学技术报告、学位论文和学术论文的编写 格式》
单词是指能包含一个词素(语言中最小的有意义的单位) 的词或语言里最小的可以自由运用的单位,术语则是指某 个学科中的专业用语。
关键词基本上不作规范化处理。标引检索不需要词表。 关键词之间彼此独立。
14
关键词的作用
关键词的作用主要有两个方面:归类和检索。
[关键词] 党校 函授 哲学教学 教学改革 课程设置 教
单元词法的特点:
– 标题是组配构成的,而且是后组式的;
– 单元词的组配基本上是单纯的字面组配,误
检率较大。
例:香蕉苹果 → 香蕉+苹果
联想计算机 → 联想+计算机
牛蛙
→ 牛+蛙
10
叙词语言-叙词的含义
叙词:以受控的自然语言为语词基础,以字顺和 分类系统为词汇显示的基本手段,以语词的概念 组配而不是字面组配为重要特征。又称其为描述 词、叙述词,在国内也叫主题词。
(3)叙词法能随时加以增设修改,适应性强; (4)对叙词主要采用字顺排列方式,查找迅速; (5)主要采用后组式概念组配方法,灵活性强; (6)对同一主题的文献,可以作多维检索(多途径检索); (7)叙词表中编制和建立了叙词语义关系的网络结构,加强
了叙词法的学科系统性和族性检索作用。
13
关键词语言
“关键词是为了文献标引工作从报告、论文 中选取出来用以表示全文主题内容信息款目的单 词或术语”
标题词语言
标题词:从自然语言中选取并经过规范化和标 准化处理的、简略表达信息对象主题的语词, 是完全受控的一种主题标识,通常是比较定型 的事物的名称。它是先组式的 。
代表:《美国国会标题词表》 EI(美国《工程索引》)中《工程主题词表》
(简称SHE)
9
单元词语言
单元词:又称元词,它是从文献中抽取出来并 经过控制处理的,能表达文献主题最小、最基 本的,在概念上不能再分解的,并能独立地描 述文献主题的词汇单位 。它是后组式的 。
相关文档
最新文档