国内主题词表研究的热点与趋势_基于词频统计与知识图谱方法_余丰民
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
您的好帮手——
《档案界》网站 理 论 探 讨
21
档案管理
6/2012
总第199期
国内主题词表研究的热点与趋势:基于词频统计与知识图谱方法
摘 要:通过1980年~2003年和2004年~2011年两个时间段的词频统计与可视化知识图谱等方法的比较分析与研究,展现了国内主
题词表研究领域的热点和趋势,认为:国内对主题词表的研究内容在时间上有明显的分界线、研究趋势展现了知识组织的演化过程、主题词表基于语义描述语言的本体转换是目前学界研究的热点和未来研究的趋势。
关键词:主题词表;词频统计;知识图谱;研究热点;研究趋势
Abstract:Based on word frequency statistics and visualization of knowledge mapping and other methods of
comparative analysis and research in two periods of 1980-2003 and 2004-2011, the article shows the areas of research focus and trends of Thesaurus in China. That is: there is a clear dividing line in two periods, and trends show that the evolution process of knowledge organization system, Thesaurus based on semantic description language ontology conversion is currently a focus of academic research and future research trends.
Keywords:Thesaurus; Word Frequency Statistics;Knowledge Mapping;Research Focus;Research Trends
1 引言
主题词表(叙词表)是一种情报检索语言,它在早期情报检索和知识组织中发挥着非常重要的作用。早在1876年,美国图书馆学家卡特发表了他的《字典式目录条例》
[1]。而随着计算机技术的发展,主题词表的功能也发生了
相应的变化。另外,不断更新的网络技术,以及语义网等概念的技术实现,也为主题词表的发展注入了活力。
国内主题词表研究虽然起步较晚,但从《汉语主题词表》的问世,到《中国分类主题词表》的出版,均取得了卓越的成就。国内的研究主要集中在主题词表的介绍、评价、编制、修订、标引方法、应用及分类主题一体化等领域[2][3][4],另外,随着计算机网络技术的发展,各类词表被大量应用到了信息检索技术、知识组织与管理等领域之中
[5][6]。
那么,这些年来国内对主题词表的研究都触及了哪些主题?其研究的趋势和热点又在哪里?本文试图通过对发表在期刊上的学术论文进行研究,旨在为该领域同行了解和掌握研究方向提供些许帮助。
2 样本获取与研究方法
2.1 样本获取方法。本文获取数据样本的方法是:在
“中国学术期刊网络出版总库”中,用关键词“主题词表 OR 叙词表”,检索出1980年~2011年间发表在“核心期刊”上的论文,因为《中文核心期刊要目总览》第一版在1992年才出版,上述检索结果仅命中了1992年~2011年数据;因此,作者又补充了1980年~1991年的相关主题数据。经过人工筛选,最后,获得样本数为480篇(检索日期:2012年2月12日)。
2.2 研究方法。本文主要应用文献计量学领域的词频统计
方法和基于共词的可视化知识图谱方法。
通过关键词词频的动态统计与分析,可以反映出某时间段内研究主题的动态变化过程,如高频关键词的发展期、高峰期及衰退期等。词共现(共词)分析方法最早是在1986年由法国文献计量学家M.Callon等学者提出的[7]。在词共现分析方法的基础之上,我们可以运用社会网络分析方法及软件(如Pajek),绘制出各主题之间的相互联系的学科知识图谱。
3 研究结果
3.1 历年论文发表情况
图1 历年论文发表数量统计
对480篇论文进行按年度统计,见图1。由图1可以发现,论文数量基本上呈上升趋势:1980年~2003年为缓慢上升阶段,但1994年和1999年均有突出表现;2003年以后,呈现出了快速发展的态势。究其原因,一方面,随着计算机技术的发展,出现了诸如本体等语义网概念的应用研究,使得主题词表研究重新得到了重视;另一方面,有关主题词表的研究得到了更多的基金资助,2004年以前,
余丰民
DOI:10.15950/ki.1005-9458.2012.06.024
理 论 探 讨
22
档案管理6/2012总第199期
仅有8篇资助论文,而2004年及以后,资助论文达113篇,尤其是近两年,基金资助论文比例均达50%以上。
3.2 基于关键词词频统计。根据上述480篇论文的研究
主题(关键词),我们可以通过关键词词频统计及共现计算来分析国内主题词表研究的热点与趋势。由于有些论文发表年代尚早,作者没有给出关键词,因此笔者对这一部分关键词进行了人工补充;同时,为了集中主题,对一些一义多词的主要关键词进行了修正,如将“《中国图书馆图书分类法》”统一简称为“《中图法》”,将“语义WEB”统一改为“语义网”,将“叙词表”统称为“主题词表”,等。这样,我们一共可以获得893个(1827个次)关键词,篇均关键词约3.8个。
表1 关键词词频统计(总频次≥10,共22个)
表2 2004年~2011年间新出现的关键词(频次≥4)
表3 消失最快的关键词(1980年~2003年频次≥4)
为了便于比较,本文拟把1980年~2011年划分为两个时段:1980年~2003年和2004年~2011年。之所以这么划分,一方面,是因为从图1中可以发现,2003年以后,研究“主题词表”的论文数量增速较快;另一方面,“本体”、“语义网”、“知识组织系统”等新词汇在样本数据中均在2004年才出现;另外,两时段的论文数量也大致相当(分别是220篇和260篇),更具有可比性。表1列出了1980年~2011年高频关键词;表2列出了2004年~2011年新出现的关键词;表3列出了2004年~2011年消失最快的关键词。
在表1中,可以发现,除“主题词表”本身外,“本体”、“《中国分类主题词表》”、“《汉语主题词表》”、“主题标引”等关键词是总频次最多的,表明了国内对“主题词表”研究的热点所在。从关键词数量上统计,1980年~2003年频次在3次及以上的关键词有41个,
2004年~2011年有64个,增幅达56.1%,而两时段论文数量增长仅为18%,这从某种意义上说明了后一时段比前一时段研究范围的扩大和研究内容的深入。
表2中的新词基本上属于“语义网”的范畴:本体是语义网的核心概念[8];SKOS(简约知识组织系统)、OWL、主题图等都是语义描述语言;Protégé是用于构建本体的软件工具;与“本体”直接相关的关键词有4个(领域本体、本体构建、分布式本体、中文叙词表本体)。