关键词标引常见问题探讨

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

关键词标引常见问题探讨

通过对关键词标引现状及其常见问题的分析,提出优化词表,重视关键词检索、加强人员培训和制定关键词标引的质控体系。以提高关键词标引质量。

关键词标引已成为现代文献数据加工的重要环节,其原因在于关键词在统一同类文献、涵盖不同专业文献,有利于文献查找方面发挥着不可替代的作用。正因为如此,如何改进和提高关键词标引的质量,吸引了大量研究人员进行探讨并深入挖掘关键词在文献数据库构建中的巨大潜力。本文对关键词标引的现状、常见问题进行分析,并对如何提高关键词标引的质量提出一些建议,供研究者参考。

关键词标引的现状

关键词标引是构建文献数据库的基础。关键词标引的好坏,直接影响文献数据库的质量。正确理解关键词的概念以及关键词标引的要求、作用和意义,对于把握关键词标引有着至关重要的作用。

1、关键词的概念

《科学技术报告,学位论文和学术论文的编写格式》(GB7713-87)对关键词的定义如下:“关键词是为了文献标引工作从报告、论文中选取出来用以表示全文主题内容信息款目的单词或术语。”学术界对关键词的定义更为具体,如有的学者认为“所谓关键词,是指那些出现在文献的标题(篇名、章节名)、摘要和正文中,对表征文献主题内容具有实质意义的词语,亦即对揭示和描述主题内容来说是重要的、带有关键性的、可作为检索入口的词或短语,是一种近似于自由词的自然语言。”(《医学论文关键词的标引》,陈晶等著)但是,我国尚无国家标准直接将关键词定性为“近似于自由词的自然语言”,为非受控词汇。在实际应用中,关键词标引时受较少控制,可以比较自由地标引,但也不是绝对的自由,其遵循的原则应选择表述文献主题的具有实质意义的词或短语。由于关键词标引是依据被标引文献原文选取关键词,选取的关键词具有一定的专指性,具备及时反映新学科、新理论、新技术、新材料等概念的优点,但不足之处在于查全率不高。

2、关键词标引的要求、作用及意义

一般情况下,标引的关键词必须是表达某个主题概念的具有专业用语性质的词或词组。这个词或词组应该是名词或

以名词为中心组成的名词性词组。毋庸置疑,关键词标引在文献数据加工中具有重要的作用和意义。首先,关键词能表达文献主题,往往通过查看关键词就可以了解该篇文献的主题,进而判断是否需要阅读全文;其次,采用关键词标引可以较低的成本、较快的速度将海量文献构建成书目数据库,通过关键词串联相同主题的文献,为读者快速、准确地查阅和了解文献内容提供方便,避免全文检索中词汇相同而主题不同的文献的干扰,确保用户检索到需要的文献。

3、关键词标引的发展趋势

关键词标引的发展趋势取决于两个方面。

一方面取决于关键词标引的难易度。由于叙词标引有较高的难度,这个难度体现在文献主题的表达方面和标引人员与检索人员如何保持一致性方面。在学术期刊中,使用关键词标引仍占大多数。相对叙词标引而言,关键词标引虽然难度小一些,但其查全率亟待提高。因此,有学者通过对期刊文献中关键词标引质量的比较,从标引词来源、标引深度、标引一致性、通用词使用情况等方面做了抽样统计分析,提出编制综合性的后控词表,该词表可以把“自由散漫”的自然语言组织起来,形成一个语义网络以方便检索,克服不同刊物、不同标引人员存在标引不一致的问题。

另一方面取决于计算机技术的发展。当前关键词标引仍

存在不小的难度,准确性不高,一致性难以保证,需要耗费巨大的人力和物力。而计算机技术的发展可以给关键词标引带来一些新变化。基于已标注关键词的大规模分类语料库,依据领域专家知识,统计得到词语表达文献主题概念的主题度,以此为基础,构建一个关键词自动标引系统,取得了很好的标引结果。另外,研究人员对于马尔可夫统计模型和最大熵模型在关键词自动标引任务中的应用也做了有益分析和深入探讨。虽然与实际应用还有相当的距离,但这些研究工作展现了关键词标引的新方向。

关键词标引的常见问题分析

当前的关键词标引主要存在标引词不足、标引词过度、标引词错误和标引词无检索意义等几种类型。

现结合实例对上述常见问题进行分析,探讨如何正确选取和标引关键词。

1、标引不足

所谓“标引不足”是指标引的关键词不能全面、准确体现文献主题或技术信息,遗漏了主题信息或其他对检索有用的信息。包括以下几种形式。

(1)标引的关键词文献重要的主题信息

例如,某文献介绍了一种由高效减水剂、普通减水剂、高活性组分、载体以及钠盐组成的混凝土施工用复合防冻剂,“减水剂”显然是该文献的重要技术信息,而标引的关键词中遗漏了该信息。

又如,某文献主题为“电介质陶瓷组合物及使用该组合物的叠层陶瓷电容器等电子部件”,而关键词中没有“电子部件”、“多层陶瓷电容器”的信息。

(2)标引的关键词缺少对检索有用的信息

例如,某文献介绍了一种乳液聚合法制备偏氯乙烯共聚物胶乳的方法,“脱氯化氢”和“颜色稳定性”属于技术信息产生的直接技术效果,是该方法区别于其他方法的显著优点,具有一定的检索意义,应增加标引词“脱氯化氢”和“颜色稳定性”。

2、标引过度

所谓“标引过度”是指主题提炼过程中,将检索意义不大或与主题概念不太吻合的词作为标引对象,引起过多标引或一定程度上的重复标引。

例如,某文献介绍了一种合成烃催化剂,所用催化剂为金属氧化物,但标引人员由于对主题理解不当,标引了很多金属的名称,对文献论述的各种金属氧化物却未提取作为标引词。

又如,标引人员将某文献中的“碳酸钡”和“毒重石”同时标引为关键词,事实上两者为同一物质,只需标引其中之一即可。

再如,某文献介绍了一种可络出高质量纱筒的筒子机成形控制机构,标引人员对“弹簧”和“压力弹簧”进行了标引,二者是上下位概念,但在该文献中是同一个部件,应删除“弹簧”。

3、标引词错误

所谓“标引错误”,是指由于标引人员对主题理解错误、用词不当等原因导致标引的关键词无法正确地体现文献主题。包括以下几种形式。

(1)对文献主题理解错误导致的标引错误

例如,某文献介绍了一种具有螺旋隔板的翅片列管式冷却器,其冷却筒内设置有环绕翅片管束的螺旋隔板,标引人员将“翅片;列管式换热器”作为关键词,误解了原文献的技术概念和主题,应标引为“翅片管:冷却器”。

又如,某文献介绍了一种烟火电流发生器,其可缩短从启动到达到最大电流强度的时间,即缩短燃料反应时间,标引人员将“启动时间”作为关键词,误解了原文献的主题,应标引为“反应时间”。

相关文档
最新文档