共词分析法研究_三_共词聚类分析法的原理与特点

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基金项目:广东医学科研课题/广东省热点医学科研主题现状研究0(编号:A2006474)。作者简介:钟伟金,男,1976年生,硕士,馆员,研究方向为文献计量分析。

共词分析法研究(三)

)))共词聚类分析法的原理与特点

The Research of Co -word Analysis (3)

)))The Principle and C haracteristics of the C o -Word Cluster Analysis

钟伟金 李 佳 杨兴菊

(广东医学院图书馆 湛江 524023)

摘 要 共词聚类分析法采用聚类的计算方法,对文章中共现的词对(主题词或关键词)的关联性进行运算,将关系密切的词聚集归类,从而达到挖掘隐含信息的目的。通过对聚类原理的分析,认为该方法具有客观性、科学性、敏感性的特点。并讨论了共词聚类分析法的不足以及其解决办法,最后介绍了共词聚类分析法的最新研究进展。关键词 共词聚类分析法 研究进展 共词聚类原理中图分类号 G251.5

随着期刊数量的增长与学科的细化发展,给情报工作者带来了新的挑战:文献的组织与检索、文献内容的分析评价、文献信息的提取与挖掘。传统的文献检索方式如分类号、主题词、关键词等,由于缺乏文献内容间的联系、智能化检索程度低,在文献呈爆炸式增长的时代,传统的检索方式已难以在查全率与查准率间取得平衡,说明这种信息的组织检索方式难以满足人们的需求。由于人类科研活动及其成果主要是以文献方式记录储存的,因此对文献量与文献主题的统计分析可在某种程度上反映出一门科学在一定时期研究的基本趋势、研究的水平和发展速度[1],文献量的大量增长,无疑给情报人员通过对文献集的分析来评价学科的发展现状的难度,也为情报人员通过文献集提取、挖掘有用的信息带来困难。

为解决这一矛盾,需要采用新的方法来处理组织、整理和分析文献集。新方法应该具有以下三方面的特点:能对文献内容进行识别;能反映文献之间的内容联系;能借助机器进行批量处理。共词聚类分析法是共词分析法中的一种,它的分析对象是科技论文中高度概括文献内容并被专家规范的主题词,研究的是在一篇文献中同时出现的主题词对,通过这种共现的词对把文献集关联起来形成相互关联的网。对这种共词进行聚类统计分析的过程是共词聚类分析的全部。

1 共词聚类分析的原理

共词分析法利用文献集中词汇对或名词短语共同出现的情况,来确定该文献集所代表学科中各主题之间的关系。一般认为词汇对在同一篇文献中出现的次数越多,则代表这两个主题的关系越紧密。由此,统计一组文献的主题词之间两两在同一篇文献出现的频率,便可形成一个由这些词对关联所组成的共词网络,网络内节点之间的远近便可以反映主题内容的亲疏关系。共词聚类分析是共词分析中常用的一种方法,在共词分

析的基础上,以共词出现的频率为分析对象,利用聚类的统计学方法,把众多分析对象之间错综复杂的共词网状关系简化为数目相对较少的若干类群之间的关系并直观地表示出来的聚类的过程。通常在一篇文献中,由多个主题词组合在一起反映文献的内容,这个些主题词因为存在着一定的内容上的联系,而标引到一篇文章中,如果一对主题词同时在多篇文献中出现,则说明这对主题词的关系紧密。在文献群的主题中,通过聚类分析,能把这些关联密切的主题聚集在一起形成类团,表达某一领域分支的组成。类团的组成、演化以及消失是共词聚类分析的重点。

共词在同一篇文献出现的频率的大小,反映主题间关系紧密的程度。在主题词关系网中,有些主题词内容联合紧密,相互靠拢聚集在一块,形成概念相对独立的类团。相互关联的共词网络中,一个主题与多个主题形成关联,相互间构成立体状的关系网,在这种关系网中,很难分辨出由哪些主题词组成类团。为此,要借助数据挖掘中的聚类分析法,对共词关系网络中的词与词之间的距离进行数学运算分析,将距离较近的主题词聚集起来,形成一个个概念相对独立的类团,使得类团内属性相似性最大,类团间属性相似性最小[2]。

1.1 聚类时距离的确定 在进行聚类分析时,类组合的确定有两种概念方式:一是类和类之间的距离;二是点和点之间的距离。类间距离是基于点间距离定义的,比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离作为这两类之间的距离;当然也可以用各类的中心之间的距离来作为类间距离。在计算时,各种点间距离和类间距离的选择是通过统计软件的选项实现的。统计类间的距离时,采用组间距离法(Between-g roups linkage),即两类的平均距离最小。点间距离有很多定义方式,常用的是欧氏距离(Euclidean distance),其算法为[3]:

情报杂志2008年第7期 Journ al of Information No.7,2008

在欧氏算法中,将要计算的对象分成多维计算空间,以共词聚类分析来算,两个主题词的聚类称为2维,三个主题词间的聚类称为3维,对于2维空间距离的算法为:

主题词M1的从标为M1=(X1,X2),主题词M2的坐标为M2=(Y1,Y2)

M1与M2的欧氏距离为:

D=sqrt((X1-Y1)2+(X2-Y2)2)

3维的公式:

D=sqr t((x1-x2)2+(y1-y2)2+(z1-z2)2)

推广到n维空间,欧氏距离的公式为:

D=sqrt(E(x i1-x i2)2),这里i=1,2,,,n

在公式中x i1表示第一个点的第i维坐标,x i2表示第二个点的第i维坐标。

1.2聚类的途径聚类分析(Cluster Analysis)是物以类聚的一种统计分析方法。用于对事物类别的面貌尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类的场合。聚类分析实质上是寻找一种能客观反映元素之间亲疏关系的统计量,然后根据这种统计量把元素分成若干类。目前常用的聚类方法有两种:一是K类中心聚类(也称为快速聚类),常用于大样本的样品聚类方法;二是等级聚类(Hierarchical Cluster),是目前使用最多、研究最为充分的算法[4]。

等级聚类也称为系统聚类、层次聚类。根据聚类过程方向的不同,可以分为分解法(divisively)和凝聚法(agglomerative)两类[5]。

a.分解法。聚类开始把所有个体(观测量或变量)都视为属于一大类,然后根据距离和相似性逐层分解,直到参与聚类的每个个体自成一类为止。

b.凝聚法。其程序与分解法相反。先将n个元素(样品或变量)看成n类,然后将性质最接近(或相似程度最大)的2类合并为一个新类,得到n-1类,再从中找出最接近的2类加以合并变成了n-2类,如此下去,最后所有的元素全聚在一类之中。

2共词聚类分析法的特点(作用)

2.1客观性学科研究发展的评价,科学家依据自身的知识积累、学科背景等主观认识,可以描述出不同发展阶段的知识体系,但这种分析不可避免地会受到科学家研究背景、个人偏好及知识结构的影响[6]。共词聚类分析法,从主题分析的选择到类团的生成都以数学统计的方式进行,大大减少人为的干预。共词分析对主题的选择,通常选用文献群的高频主题词(关键词),由于一篇文献的主题词是文章核心内容的浓缩和提炼,因此,如果某一主题词在其所在领域的文献中反复出现,则可反映出该主题词所表征的研究主题是该领域的研究热点[7]。高频词的确定根据主题在文献群中出现的次数来确定,频率越高表示该主题受到的关注越多,是学科研究的重点与热点。高频词的选择是客观的,词频的大小由相关文献的篇数决定。选用高频词为共词聚类分析的对象,还能有效减少不规范的主题对聚类结果的影响。在聚类统计中,主题的聚类是由主题间的距离决定,通常两个主题在同一篇文献中出现的频率越高,两个词间的距离越近,也就是说主题距离与相关文献的篇数息息相关。因此共词聚类的结果是文献群内容现状的客观的、真实的反映。

212科学性共词聚类分析的目的,在于通过对学科文献群的研究,反映学科研究的结构与热点。这一过程涉及到三个逻辑性问题:一是主题的发文量与研究热点的逻辑。根据文献学研究的规律,如果某一学科的文献量呈逐年增长,表明该学科的研究处于稳步发展阶段,其学科发展的动向与其研究成果的文献数量密切相关。研究主题的发文量与很多因素有关,如:主题文献的易产性。在学科领域中,有些方面的主题容易生产出大量学术论文,而有些领域要经过漫长的实验研究才有少量论文产出,因此对于学科内各领域而言,文献发表的数据不是/机会均等0的。此外,科研管理政策与学术氛围也会影响到文献量的增长。因此,共词聚类分析对文献集来源刊的选择应有一定规定,应选择学科的核心性期刊,特别是在世界范围内在本学科有相当影响刊物。通常一种期刊的级别越高,它对论文的质量要求越高,通过学科专家的审核,能有效确保文献内容有较高的新颖性与学术性,把那些产文量大、学术性不够强的主题的文献排除在外,从而提高学科内各学科主题文献量的/机会均等0的几率。在这样的条件下,发文量越大的主题越是学科中研究的热点。二是研究内容与类团(若干个相关主题)的逻辑。聚类分析的结果是把所有高频词按相互间距离的远近划分为一个个类团,一个类团代表一个研究的子领域。一篇论文记录某一方面的研究成果,它由若干个主题词标引出来,反向推断,如果两篇论文中的相同主题词数越多,则表明两篇论文的内容越接近,说明它们是同一领域内的研究。三是主题的距离与主题内容的逻辑。按照距离的远近聚类的结果,因为主题间的相互影响,类团内所有主题词未必都代表一个研究方向,但通过对类团主题词的重要性进行分析,依据核心主题词的义,能推断出类团所代表的研究方向。

213排斥性在聚类的过程中,无论是分解法还是凝聚法,都使得一个主题词只能聚入一个类团。对于学科的各研究领域,一个主题词可能在多个子领域中出现,聚类的时候,由于主题词间的相互影响,只把相关文献量较多的子领域的类团聚类出来。这种聚类的结果,有可能影响到其它类团成员的个数,甚至不能形成类团。

214敏感性主题词对的距离由它们共同出现的频率决定,对于一个主题而言,如果相关论文基数不够大,主题词对的距离变得非常敏感,增多一篇相关文献会导致词对间的紧密度成倍增长。

3共词聚类分析法中应注意的问题

等级聚类法的突出优点是它能够生成比较规整的类集合,聚类结果不依赖文档的初始排列或输入次序,与聚类过程的先后次序无关,聚类结果比较稳定,不易导致类的重构。但共词聚类的分析方法存在一些不足的地方,需要我们在使用过程尽量避免。主要表现在以下几点:a.缺乏指标控制,如高频词的定义,类团划分标准,各种指标统计方式、方法都会影响到类团归类。高频词的确定主要有两种方法:一种是结合研究者的经验在选词个数和词频高度上平衡,该方法具有一定的主观性。在我国一些有关共词分析的文章中,高频词的阈值定在40%左

Journ al of Information No.7,2008情报杂志2008年第7期

相关文档
最新文档