检索第四讲 如何提取关键词

合集下载

怎样提取关键词jiang

怎样提取关键词jiang
怎样提取关键词
• “关键词”这一概念原来较为常见的是在学术论文 的前面,指的是一篇文章或一段文字中最紧要的 词语。置于论文之首,是为了读者了解论文的基 本内容。后来的网络搜索沿用了这一概念,仍是 取的这一含义。提取关键词的实质是考查学生筛 选信息和压缩语段的能力,因此。具备这两种能 力是解答这种试题的前提,当然作为一种独立的 题型,它还有自身的特点,我们答题时还要做到 如下几点
• 并不是每一道“提取关键词”的题的要求 都是一样的,有的还根据语段的特点而有 具体要求,并且,有的要求可能还比较含 蓄。对此,我们就一定要弄明确试题要求 我们提取的是哪方面的关键词,以防泛泛 去找,劳而无功。
• 例③、根据要求提取下面一段话的主要信息,写出六 个关键词(可以是短语)。(2006年江苏南通市高三第一 次调研考试) • 由于司马迁认识到了,历史终归是“人”的历史,不 是“天”的意志史,于是以“绍圣《春秋》”为使命的 司马迁抛弃了孔子既定的历史纪年法——编年体,而 改用纪传体。这决不是—个技术问题,而是观念问题。 他对那冰冷的历史巨轮投以轻蔑的—哂,然后满怀慈 悲地去关心轮子下的那些泣血的生灵:从而,我们看 到,一代一代的人物以及他们对历史必然性的反抗, 对自身命运的体认,构成了《史记》的主色调。史学 成了人学,必然性成了戏剧性,逻辑的链条崩溃了, 生命的热血喷涌而出…… • (1)历史纪年法的史学观: • (2)人学的史学观:
小结:本节我们学习了关键词的提取方法: 研究语段话题 寻找中心语句 明确具体要求 分析构段特点 关注层次(标点)的变化 注意用词频率 当然,以上方法在具体运用时,还要综合思 考,切不可把它们孤立来看。
压缩后的语句其实是一个关键信息 的集合体
• 以上分类,只是为了分析的方便。其实, 在答题的具体实践中,往往要综合考虑上 述各种因素,有时甚至还不只这些,因为 题目总是千变万化的。但无论题目怎么变 化,我们都要牢记“压缩后的语句其实是 一个关键信息的集合体”这句话,要确保 提取的每个词语都承载着关键的信息。

关键词提取方法

关键词提取方法

关键词提取方法在信息爆炸的时代,我们经常需要从大量文本中提取出关键词来帮助我们理解和归纳文本的主题和要点。

关键词提取是一项重要的自然语言处理技术,它可以自动地从文本中抽取出最具代表性和重要性的词语。

本文将介绍一些常用的关键词提取方法。

1. 基于词频的关键词提取方法基于词频的关键词提取方法是最简单和直观的一种方法。

它根据词语在文本中的出现频率来衡量其重要性。

常见的算法包括TF(Term Frequency,词频)和TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)。

TF算法将一个词在文本中出现的次数作为该词的重要性。

但是,如果一个词在文本中多次出现,它的重要性也会被放大。

为了解决这个问题,TF-IDF算法引入了逆文档频率的概念。

逆文档频率表示一个词在整个语料库中的信息量,它的计算方式是语料库中总文档数除以包含该词的文档数的对数。

TF-IDF算法将词频和逆文档频率相乘,使得频繁出现但在整个语料库中信息量小的词的重要性降低,而那些在少数文档中出现但信息量大的词的重要性增加。

2. 基于词性的关键词提取方法除了词频,词性也可以作为关键词提取的依据。

在自然语言中,不同的词性承担着不同的语义角色。

例如,名词往往是一个句子的主语或宾语,动词表示动作或状态,形容词描述事物的属性等。

基于词性的关键词提取方法通过词性标注技术,将文本中的词与其对应的词性进行匹配,然后选择特定的词性作为关键词。

常用的基于词性的关键词提取方法有两种:基于规则的方法和基于统计的方法。

基于规则的方法依赖于人工编写的规则集,通过匹配词性模式来提取关键词。

基于统计的方法则是根据大规模语料库的统计特征来计算每个词性的重要性,然后选择具有高重要性的词性作为关键词。

3. 基于语义的关键词提取方法基于词频和词性的关键词提取方法可以帮助我们抽取出一些关键词,但是它们无法处理一些歧义词和多义词的情况。

怎样提取关键词

怎样提取关键词
怎样提取关键词
• “关键词”这一概念原来较为常见的是在学术论文 关键词” 关键词 的前面,指的是一篇文章或一段文字中最紧要的 的前面, 词语。置于论文之首, 词语。置于论文之首,是为了读者了解论文的基 本内容。后来的网络搜索沿用了这一概念, 本内容。后来的网络搜索沿用了这一概念,仍是 取的这一含义。提取关键词的实质是考查学生筛 取的这一含义。提取关键词的实质是考查学生筛 选信息和压缩语段的能力,因此。 选信息和压缩语段的能力,因此。具备这两种能 力是解答这种试题的前提,当然作为一种独立的 力是解答这种试题的前提, 题型,它还有自身的特点, 题型,它还有自身的特点,我们答题时还要做到 如下几点
快餐文化引起“精神沙化” 快餐文化引起“精神沙化”
• 从内容上看,这个语段前后两个层次是分 从内容上看, 别就“快餐文化”的优点和缺点作分析, 别就“快餐文化”的优点和缺点作分析, 但前后是一个转折关系,属偏正结构, 但前后是一个转折关系,属偏正结构,表 意自然在后半部分, 意自然在后半部分,而后半部分又以冒号 为界分为两层。冒号后是具体列举“ 为界分为两层。冒号后是具体列举“精神 沙化”的表现。再结合话题“快餐文化” 沙化”的表现。再结合话题“快餐文化” 和题目中的“比喻手法”“一句话”“ ”“一句话”“作 和题目中的“比喻手法”“一句话”“作 标题”三个具体要求, 标题”三个具体要求,就不难得出正确答 案
一 研究语段话题
• 任何语段,无论是记叙、议论或说明, 任何语段,无论是记叙、议论或说明,它总是 围绕一个话题来展开的, 围绕一个话题来展开的,体现话题的词语肯定是关 键词之一 • 例①、提取下面一段话的主要信息,在方框内写出 提取下面一段话的主要信息, 四个关键词。( 。(2005年全国卷) 年全国卷) 四个关键词。( 年全国卷 据报道,我国国家图书馆浩瀚的馆藏古籍中,仅 据报道,我国国家图书馆浩瀚的馆藏古籍中, 1.6万卷“敦煌遗书”就有 万卷“ 余米长卷需要修复, 万卷 敦煌遗书”就有5000余米长卷需要修复, 余米长卷需要修复 而国图从事古籍修复的专业人员不过10人 而国图从事古籍修复的专业人员不过 人;各地图 书馆、博物馆收藏的古籍文献共计3000万册,残 万册, 书馆、博物馆收藏的古籍文献共计 万册 损情况也相当严重,亟待抢救性修复, 损情况也相当严重,亟待抢救性修复,但全国的古 籍修复人才总共还不足百人。 籍修复人才总共还不足百人。以这样少的人数去完 成如此浩大的修复工程, 成如此浩大的修复工程,即使夜以继日地工作也需 要近千年。 要近千年。 • □□ □□ □□ □□

如何提取关键词

如何提取关键词

如何提取关键词一.提取关键词的本质1.提取关键词本质上是对语段关键、主要、核心信息的集中。

2.提取关键词本质上是压缩的压缩,精练的精练,关键的关键。

3.提取关键词本质上是要淘汰掉次要的、支撑的、解说的信息。

4.提取关键词本质上考查的语段信息筛选能力和梳理思路能力。

二.提取关键词的三大原则1.首先通览语段寻找锁定有效信息:冷静取舍。

2.其次筛选有效信息中的核心信息:再次取舍。

3.提取而不是组合语段中的关键词:文中原有。

4.主要用双音词或短语的形式表述:二字多字。

三.提取关键词的三个技法1.核心话题法:抓取语段核心话题词语。

任何文体性质的语段都得围绕某个核心话题展开,这个话题词语在语段中出现的频率一般较多,承载语段核心话题的词语肯定是关键词之一2.关键语句法:筛选语段中的关键句。

有的语段中会有针对核心话题的核心陈述句,有的语段中有或总领或总结的概括性中心句,抓住这类关键语句就易于筛选出关键词3. 结构层次法:任何语段都表现为一定的思路层次。

并列式语段关键词常散布在各层次中,递进式语段关键词常出现在最后层次中,总分式语段关键词常出现在总说句中四.提取关键词的高考真题例析1.提取下面一段话的主要信息,写出四个关键词。

(2005年高考全国卷)据报道,我国国家图书馆浩瀚的馆藏古籍中,仅1.6万卷“敦煌遗书”就有5000余米长卷需要修复,而国图从事古籍修复的专业人员不过10人;各地图书馆、博物馆收藏的古籍文献共计3000万册,残损情况也相当严重,亟待抢救性修复,但全国的古籍修复人才总共还不足百人。

以这样少的人数去完成如此浩大的修复工程,即使夜以继日地工作也需要近千年。

[答案]古籍修复人才不足[解析]这个语段谈论的核心话题是古籍修复的处境问题,“古籍”“修复”这两个词是我们在答题时首先要考虑的。

文段通过一系列的数据告诉我们古籍修复这个核心话题的处境不好,最重要的具体表现是事多人少,这样,我们就又可找出另外两个关键词——“人才”“不足”。

关键词提取方法

关键词提取方法

关键词提取方法关键词提取是信息检索、文本挖掘和自然语言处理等领域一个重要的任务。

在大量的文本数据中,提取关键词可以帮助人们快速了解文本的主题和内容,从而更高效地进行信息查找和分析。

本文将介绍几种常见的关键词提取方法,并探讨它们的优缺点。

1. TF-IDF(词频-逆文档频率)TF-IDF是一种经典的关键词提取方法,它根据词在文档中的出现频率和在整个文集中的逆文档频率来计算每个词的权重。

TF-IDF的核心思想是,一个词在当前文档中出现次数较多,并且在其他文档中出现较少,那么它很可能是关键词。

TF-IDF的计算公式如下:TF-IDF = TF * IDF其中,TF表示词频,即某个词在当前文档中出现的次数。

IDF表示逆文档频率,它衡量了一个词的普遍重要性。

IDF的计算公式如下:IDF = log(N / (n + 1))其中,N表示文档总数,n表示包含该词的文档数。

使用TF-IDF方法可以得到每个词的权重,根据权重进行排名即可得到关键词。

2. TextRank(基于图的排名算法)TextRank是一种基于图的关键词提取方法,它是PageRank算法在文本中的应用扩展。

TextRank通过构建词语之间的共现关系图,并利用图的节点之间的关系进行关键词提取。

TextRank的基本思路是,将文本分为若干个单词或短语作为节点,然后根据它们之间的关系构建图。

共现关系指的是两个单词在文本中同时出现的次数。

利用共现关系,可以计算出每个单词的重要性。

重要性的计算可以使用PageRank算法,即根据每个节点与其他节点之间的连接关系进行迭代计算。

TextRank方法的优点是可以在不依赖于外部语料库的情况下进行关键词提取,而且可以捕捉到文本中的词义和上下文信息。

然而,TextRank方法也有一些限制,例如对于长文本的处理效果不如短文本,以及对于同义词和多义词的处理较为困难。

3. LDA(潜在狄利克雷分配)LDA是一种概率图模型,常用于主题建模和文档相似度计算。

如何提取关键词范文

如何提取关键词范文

如何提取关键词范文
提取关键词的方法有多种,以下是一些常见的方法:
1.TF-IDF算法:根据词在文本中的频率和所在文本集中的重要性来
计算每个词的权重,然后选取权重最高的词作为关键词。

2. TextRank算法:将文本中的词语作为节点,基于共现关系构建图,通过迭代计算节点的权重,最后选取权重最高的词作为关键词。

3. LDA(Latent Dirichlet Allocation)主题模型:将文本中的词
分为不同的主题,每个主题由一组词语构成,通过计算词语对于主题的分
布权重,选取权重最高的词作为关键词。

4.基于机器学习的方法:通过训练一个分类器,将词语分为关键词和
非关键词,然后用分类器对新文本进行预测,选取预测为关键词的词语作
为关键词。

无论采用哪种方法,都需要进行数据预处理,包括去除停用词、词干
化(将词的不同形式转化为原始形式)等操作,以提高关键词提取的准确
性和效果。

如何提取关键词

如何提取关键词

如何提取关键词“提取关键词”是近年来高考热考的一种题型。

在考纲里并不是一个单设的考点,它其实是信息筛选和压缩语段这两个考点的一个综合。

由于“提取关键词”是“压缩语段”的变体,所以在答题思路上要借助“压缩语段”的解题思想。

“提取关键词”正确的方法是:先整体把握材料,用压缩语段的方法对材料进行压缩,提取出一句话;然后再对这句话进行压缩,提取关键词。

即:两压缩,两提取。

【例1】提取下面一段话的主要信息,在方框写出四个关键词。

据报道,我国国家图书馆浩瀚的馆藏古籍中,仅1.6万卷“敦煌遗书”就有5000余米长卷需要修复,而国图从事古籍修复的专业人员不过10人;各地图书馆、博物馆收藏的古籍文献共计3000万册,残损情况也相当严重,亟待抢救性修复,但全国的古籍修复人才总共还不足百人。

以这样少的人数去完成如此浩大的修复工程,即使夜以继日地工作也需要近千年。

(1)第一步:对材料进行压缩和提取。

这是一段记叙性的文字,全文两句话,其中第一句话由两个分句构成。

第一句话,第一层从国家图书馆的角度,以修复任务的巨大(5000余米)与修复人员稀缺(不过10人)之间的反差,表明古籍修复的专业人才极其缺乏;第二层,从全国的角度,说明古籍修复的专业人才短缺非个别现象(全国围都存在)。

第二句话,以一种假设的结果强调古籍修复人才的不足。

所以,这段文字可以压缩为一句话:我国古籍修复的专业人才极为不足。

(15字)(2)第二步:对第一步压缩后的话进行提取:有了这句话作基础,提取关键词就有了明确的围,确定的指向。

以第一次压缩的文字为蓝本,最后提取的关键词是:古籍、修复、人才、不足。

一是明确述的对象或主要事件或议论的中心观点,文段的主要表述对象(主要概念或主要事件),不可不取.二是明确与主概念相对应的谓语动词或总结性的词语。

三是选定后,可将几个词语稍稍连缀,如能大体表达出文段的主要容,即可敲定。

(一)明确说明对象“古籍”(“馆藏古籍”)、人才是主题词,不可不取。

怎样提取关键词

怎样提取关键词
信息和压缩语段能力的一种手段,其实质是从文章或语段中找出最紧要的词语。提取关键词的方法主要有两种:一是研究语段话题,因为任何语段都是围绕一个话题展开的,体现话题的词语肯定是关键词之一;二是寻找中心语句,有的语段有概括的中心句,可以顺藤摸瓜找到相关关键词。通过这两种方法,可以有效地提取出文章或语段的主要信息,帮助读者快速了解内容。文中还通过多个例子,详细解析了如何根据语境和具体要求提取关键词,为读者提供了实用的参考。

如何提取关键词PPT优秀课件

如何提取关键词PPT优秀课件
• ①整体性原则。要有整体意识,立足于 全文(或全段),运用跳读、浏览的方 法,迅速把握阅读材料的整体结构,找 出整体的重点和要点。概括出来的内容 要涵盖整体,避免过窄或过宽的错误。
• ②倾向性原则。不少阅读材料(尤其是 记叙描写类材料)体现着作者褒贬的感 情色彩,如果没有看准作者感情倾向, 就难以把握概括的角度。
关键词:
关键词:金庸小说艺术 戏剧 电影
今天中国独特而强烈的爱国主义热情,直接源于 “鸦片战争”以来的民族生存危机。在今天开放时代, 中国与世界的关系发生了巨大变化,中国不但摆脱了 民族生存危机,而且成为全球化竞争中的最大受益者 之一。中国离不开世界,世界也离不开中国。这时的 爱国主义应当注入新的因子和意识。它不再应当仅是 一种内聚型的强烈感情,不应当是封闭的、种族的、 排外的,而应当具有理性、深沉的意识,即开放的世 界观、积极的进取心、普世的价值观念。
金庸小说艺术上的成功,得力于戏剧、电影者 尤多。戏剧和电影方面的实践,对他的小说创作很 有影响。如果说其小说场面和人物调度的舞台化来 源于戏剧的话,那么笔墨描写的视觉化、场景组接 的蒙太奇化等则得力于电影。金庸在小说中运用戏 剧技巧,形态多样;至于将电影技巧引进小说,更 构成了金庸作品艺术上的一大特色。
应注意的问题:
1、关键词既可以是双音节词,也可 以是四字短语或多音节短语
2、关键词一般是名词、动词、形容 词,不会是虚词
3、书写时注意词语的顺序,因为不 少题暗含顺序的要求,最好按原文顺 序书写。
• 说明方式为主表达的语段,其主要信息是①被说明 的事物;③被说明事物的主要特征;③说明的目的 等。
【例1】提取下面一段话的主要信息,在方框内写出四个 关键词。
据报道,我国国家图书馆浩瀚的馆藏古籍中,仅1.6 万卷“敦煌遗书”就有5000余米长卷需要修复,而国图 从事古籍修复的专业人员不过10人;各地图书馆、博物馆 收藏的古籍文献共计3000万册,残损情况也相当严重, 亟待抢救性修复,但全国的古籍修复人才总共还不足百人。 以这样少的人数去完成如此浩大的修复工程,即使夜以继 日地工作也需要近千年。

信息检索中的关键词提取算法

信息检索中的关键词提取算法

信息检索中的关键词提取算法1. TF-IDF(Term Frequency-Inverse Document Frequency)算法:该算法通过计算一个词在文档中的出现频率(Term Frequency)以及在整个文集中的逆文档频率(Inverse Document Frequency)来衡量一个词的重要性。

TF-IDF算法认为一个词在一些文档中频繁出现,同时在其他文档中很少出现的情况下,该词对该文档的区分度越高,被认为是重要的关键词。

2. TextRank算法:该算法是一种基于图的关键词提取算法,它将文本中的词语作为节点构建图,将词语之间的关系作为边进行连接。

然后通过迭代计算每个节点的权重,根据节点的权重来确定关键词。

TextRank 算法是PageRank算法在文本处理中的应用,通过计算节点之间的相互引用关系来判断关键词的重要程度。

3. LDA(Latent Dirichlet Allocation)算法:该算法是一种主题模型算法,可以将文本集合中的每篇文档表示成一组概率分布,其中每个概率分布表示一个主题对应的词的概率分布。

通过训练得到的模型,可以根据文档的主题分布来提取关键词。

LDA算法可以挖掘隐藏在文本中的主题信息,从而提取出与主题相关的关键词。

4. RAKE(Rapid Automatic Keyword Extraction)算法:该算法是一种快速自动关键词提取算法,它通过对文本进行分割、过滤和排序等步骤来提取关键词。

RAKE算法采用基于词组的模式匹配技术,通过识别短语中的关键词和候选词,并根据词频和词组间的相对位置等指标来计算关键词的得分,最后选取得分高的词作为关键词。

以上是一些常见的信息检索中的关键词提取算法,不同算法适用于不同的情况和需求,可以根据具体场景选择合适的算法来进行关键词提取。

关于检索词的那些事儿——实际检索中提取检索词的一般方法

关于检索词的那些事儿——实际检索中提取检索词的一般方法

关于检索词的那些事儿——实际检索中提取检索词的一
般方法
在实际的检索中,提取检索词是非常重要的一步,因为它直接影响到检索结果的准确性和全面性。

下面介绍一般的方法来提取检索词:
1.关键词提取:通过观察文本的内容,找出与主题相关的关键词。

可以根据词频统计、词性标注、语义分析等技术来识别关键词。

2.句子摘要提取:将文本中的句子进行摘要,提取其中的关键词或关键短语作为检索词。

摘要可以通过抽取式摘要或生成式摘要来实现,抽取式摘要会直接提取句子中的关键词,而生成式摘要则会根据语义和上下文生成摘要。

3.领域专业词汇:根据文本所属的领域,提取专业词汇作为检索词。

可以通过领域词典、专业术语表等来辅助提取。

4.同义词扩展:对于已有的检索词,可以通过同义词扩展来丰富检索语境。

可以使用同义词词典、词向量等技术来寻找与检索词相关的其他词汇。

5.相关实体提取:对于特定的主题,可以提取与之相关的实体作为检索词。

可以通过命名实体识别、实体链接等技术来提取实体。

以上方法可以单独或结合使用,根据具体的检索需求来选择合适的方法。

在实际操作中,还需要根据文本特点和检索目标进行调整和优化,在多次实验验证后确定最佳的检索词提取方法。

如何提取关键词课件

如何提取关键词课件
关键词:口口口口 口口 口口 口口口口
书法(艺术)通过意象体现美,即“舍貌取神”。
答题示例:
★书法艺术 抽象意象 启发人们 舍貌取神
3分
★现实属性 抽象的意象 蕴含的美 神髓
2分
★意象
想象力
情感
神髓
1分
★启发
调动
体味
概括
0分
★书法
意象
舍貌取神 美
4分
练习题2、 提取下面一段话的主要信息,在方框内写 出四个关键词。
开道,为新能源保驾。
关键词: 能源 立法 节能
6、提取下面这段话中的三个关键词。
慈溪市有297个村中,已有108个村建起了村 文化宫,散落在慈溪广袤的田野间,使农民随时随 地可在家门口享受“文化小康”。有了这样的村落 文化阵地,先进文化得以扎根于基层群众,并焕发 出越来越旺盛的生命力。
关键词: 农民 文化 小康
提取关键词
• 以议论为主的语段,其主要信息是①议论的话题、 中心论点;②证明中心论点的证据③结论是什么等。
• 以说明为主的语段,其主要信息是①被说明的事物; ③被说明事物的主要特征;③说明的目的等。
• 以叙述为主的语段,其主要信息是①叙述的主体; ②主体的经历及特征;③叙述的意义及目的。
• 以描写为主的语段,其主要信息是:①描写的景物 ②景与物的主要特征;③描写的角度及目的、感情 等。
1、关键词既可以是双音节词,也可以是四字短 语或多音节短语
2、关键词一般是名词、动词、形容词,不会是 虚词
3、书写时注意词语的顺序,因为不少题暗含顺 序的要求,最好按原文顺序书写。
练习题1、提取下面一段话的主要信息,写出四个关键词 语。
从甲骨文到草书、行书的各种书法艺术,间接地反映 了现实某些方面的属性,将具体的形式集中概括为抽象的 意象,通过视觉来启发人们的想象力,调动人们的情感, 使人们从意象中体味到其间所蕴舍的美。这也就是一些讲 书法的文章里常说的“舍貌取神”——舍弃客观事物的具 体现象特征,而摄取其神髓。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

例如:“国土资源”的英语翻译

• land and resources land and natural resources • land resources lands and mineral resources
• territorial resources • territorial natural resources
• • 规范化:就是对自然语言的各种名词术语进
行优选和限定,单一,避免同一性,多义性。
(2)利用《汉语主题词表》查找主题词
《汉语主题词表》介绍
• 是一部显示主题词与词间语义关系的规范化, 动态性的检索语言词表。它是自然语言与情报 系统语言之间的媒介,同时又是人与计算机之 间在进行情报存储与检索方面的联系工具。它 适合用以组织计算机化情报系统的存储与检索, 也适合用以组织编制手工检索的主题目录和主 题索引。
3、主题法的运用举例例1 搜索“中学地理教学法”例2 CNKI数据库检索有关的学术文章
例3 馆藏目录检索“地理信息系统”的相关图书
例4 报纸中在线搜索新闻“BRICS”
例5 《EA》(美国大百科全书)后的
“Subject Index”
• Geography 12-437 • Atlas 2-624 • Basin 3-318 • Climate 7-71 • Desert 9-1 • Exploration and Discovery 10-772;11-182 • Island 15-509 • Lake 16-673 • Map 18-277 • Ocean 20-611 • River 23-545
2、为何要运用主题法?
1) 针对跨学科、交叉学科的情况 ,按分类检索文献会出现漏检的 问题。
为了更完整、准确而快捷地检 索到文献,应该使用主题法进行 检索。
例1 “GIS”的学科分布
例2“地理信息系统”相关图书的中图分类号
《地理信息系统基本原理及应用》 P91(数理地理学) 《地理信息系统及其在城市规划与管理中的应用》 TU984
关键词的近义词检索举例
CNKI检索近义词:“裹足” “缠足” “小脚” “三寸金莲”
中(约53,500,000结果) • 研究生招生考试(约1,300,000个 ) • 研究生考试(约31,300,000 )
中文关键词的英文翻译有不同的表达法
(3)关键词提取的注意事项
• A.使用专业名词(特定概念或专业 术语)、物体、人名、地名、机构 名等作关键词。
• • 避免使用“研究”、“探讨”、
“论述”、“世界”等词作关键词。

B.注意提取隐含主题词
例:“废旧电池的回收处理与利用” 隐含主题词:循环利用、稀土金属、
稀有金属、提炼
C.正确提取中英文关键词的同义 词、近义词及其相关词等。
(TU建筑科学—984城市规划) 《遥感数据的计算机处理与地理信息系统》 TP751.1 (TP自动化技术—7遥感技术—751图像处理方法——
751.1数字处理 《地理信息系统设计与实现》 P208 (P2测绘学—208测绘数据库与信息系统)
2) 无论是当代的搜索引擎、网络数 据库,还是工具书(EB)后的“主 题索引”等,大多是按主题法进行 编排和检索的。
利用CNKI进行检索
例1的检索结果仅有1篇文献,为什么?
关键词提取太窄、太细
关键词:湖南省 国土资源 地学数据库 数据融合技术
• 例2 贵州矿产资源的开发利用 • • 关键词:贵州 矿产资源
检索:
例2的关键词“贵州” “矿产资源”
上两个例子的检索结果来看, 仅按标题提取关键词,作为检索入 口词不太全面完整,因而检索到的 参考文献偏少、内容不够丰富。
《汉语主题词表》编排方法
• 全部主题词款目按汉语拼音字顺排列,并在每个主题词款 目下根据需要设有:
• “Y”(用) • “D”(代) • “F”(分) • “S”(属) • “Z”(族) • “C”(参)

• 词的参照项可作为选词和扩大概念时参考。
利用《汉语主题表》,在同义词 中选出主题词:
自然环境图 Y环境地图

考察报告 Y调查报告


2) 关键词(Keywords)
(1)什么是关键词?(P15)
从文献主题内容(篇名、章节名) 中抽出来的 ,带有关键性的重要词 汇,作为检索入口词。
(2)关键词检索及其结果
例1:
湖南省国土资源地学数据库模型与数据融合 技术应用研究
关键词:湖南省 国土资源 地学数据库 数据融合技术
• national territory resources • national land resources
• state land resources • natural resource
• 通过主题索引的检索,可查到相关主题信息在《EA》 中的卷数与页数。
4、如何提取主题词与关键词
正确提取主题词与关键词是检索文献的关 键点,贯穿于检索课教学的始终。
1)主题词(subject words)
• (1)什么是主题词?
• 能够表达文献主题的概念,被规范化的词, 并具有检索意义和组配性能。
第4节 信息的组织
信息组织的方式之三
该讲的主要内容
• 1、什么是主题法? • 2、为何要用主题法? • 3、主题法的运用举例 • 4、如何提取主题词和关键词? • 5、课堂练习与讲评
三、主题法(P14)
1、什么是主题法?

• 采用主题词作为文献主题标识和 查找依据的文献编排检索方法叫 主题法。
例:
同义词:我国—中国—中华人民共和国—国内 音译词:迪斯科—disco 电子邮件— E-mail 学名:拐枣—Hovenia acerba Lindl 俗名:拐枣—万寿果、金钩子、金钩梨 简称—全称:西华师大—西华师范大学 缩写:美国职业男球赛—NBA,世界贸易组织—WTO,
金砖五国—BRICS 术语:非典-非典型肺炎-严重急性呼吸综合症-SARS 代码:水——H2O 上位词:语言—英语—词义—同义词、反义词 下位词:中国—四川—南充—顺庆
相关文档
最新文档