共词分析法研究_三_共词聚类分析法的原理与特点
colexification的含义 共词
colexification的含义共词摘要:1.共词概念介绍2.共词方法论分析3.共词应用领域及案例4.共词面临的挑战与未来发展正文:一、共词概念介绍共词(Co-occurrence),又称为共现,是指两个或多个词语在同一文本中同时出现的现象。
在语言学、信息检索和文本挖掘等领域,共词分析作为一种重要的研究方法,旨在揭示词语之间的关联性和语义关系。
二、共词方法论分析1.共词矩阵:将文本中的词语两两组合,统计它们在同一句子中出现的次数,构建一个对称的共词矩阵。
共词矩阵的元素表示两个词语在文本中的共现次数,矩阵的行和列分别对应文本中的所有词语。
2.聚类分析:对共词矩阵进行聚类分析,可以发现词语之间的相似性,从而挖掘出文本的主题和结构。
3.网络分析:将共词矩阵转换为有向图,可以研究词语之间的因果关系、影响力度等。
4.词频统计:分析文本中的词语出现频率,可得出关键词、热点话题等。
三、共词应用领域及案例1.文献综述:在学术研究中,共词分析可以帮助研究者了解某一领域的研究热点、研究现状和发展趋势。
2.文本分类:共词分析可用于自动分类文本,如新闻分类、文档分类等。
3.情感分析:分析文本中的情感词汇共现关系,判断文本的情感倾向,如正面、负面或中性。
4.语言学习:共词分析可以帮助学习者掌握词汇之间的关联性,提高语言学习效果。
四、共词面临的挑战与未来发展1.数据规模:随着互联网的发展,文本数据呈现出爆炸式增长,如何处理大规模文本数据成为共词分析的一个挑战。
2.词语歧义:在自然语言处理中,词语存在多种含义,共词分析需要解决词语歧义问题。
3.语义关系挖掘:共词分析目前主要关注词语的统计关系,未来研究可深入挖掘词语间的语义关系。
4.智能化应用:结合人工智能技术,共词分析有望在更多领域发挥智能化作用。
总之,共词作为一种重要的文本分析方法,在多个领域具有广泛的应用价值。
共词分析方法理论进展
共词分析方法理论进展一、本文概述共词分析方法,作为一种文本挖掘和信息分析的重要工具,近年来在多个学科领域中都得到了广泛的应用。
该方法通过统计和分析在特定领域或主题中共同出现的词汇对(即共词),揭示出这些词汇之间的关联性和内在结构,从而帮助研究者深入理解该领域或主题的知识结构和发展趋势。
本文旨在全面梳理和评述共词分析方法的理论进展,包括其基本概念、发展历程、主要方法和技术,以及在不同领域中的应用实践。
通过对现有文献的综述和分析,本文旨在为研究者提供一套系统的共词分析理论框架和实践指南,以促进该方法在更多领域中的有效应用和发展。
二、共词分析的基本原理共词分析是一种基于文献计量学的文本分析方法,其核心原理在于通过统计和分析一组词汇在同一文本或文献集中共同出现的频次,来揭示这些词汇之间的关联性和内在结构。
这种方法主要基于两个基本假设:一是共同出现的词汇之间存在某种潜在的关联或相似性;二是这种关联性或相似性可以通过统计数据进行量化和描述。
数据收集与预处理:需要收集包含目标词汇的文本或文献集,并进行必要的预处理,如去除停用词、词干提取、文本清洗等,以消除噪音数据,提高分析的准确性。
共词矩阵构建:接下来,通过统计目标词汇在文本或文献集中共同出现的频次,构建一个共词矩阵。
这个矩阵的每一个元素代表两个词汇共同出现的频次,反映了它们之间的关联强度。
关联强度分析:通过对共词矩阵的分析,可以揭示词汇之间的关联强度和关联模式。
常用的分析方法包括词频分析、中心性分析、聚类分析等,这些方法可以帮助我们深入了解词汇之间的关系和结构。
可视化展示:为了更好地理解和展示共词分析的结果,通常需要借助可视化工具进行展示。
例如,可以通过绘制共词网络图、词云图等方式,直观地展示词汇之间的关联性和结构关系。
结果解释与应用:根据共词分析的结果,可以对词汇之间的关联性进行解释和解读,进而挖掘出隐藏在文本或文献集中的潜在信息和知识。
同时,这些结果也可以应用于各种实际场景中,如主题识别、趋势预测、知识图谱构建等。
共词分析法的基本原理及实现
共词分析法的基本原理及实现共词分析法是一种通过分析一组关键词之间共同出现的频率来揭示它们之间关联强度的方法。
这种分析方法在各个领域都有广泛的应用,如文献计量学、信息科学、社会科学等。
本文将详细介绍共词分析法的基本原理和实现过程,并举例说明其在文章撰写中的应用。
共词分析法的基本原理共词分析法的基本原理是建立在词汇共现理论基础上的。
词汇共现是指一组词汇在文本中出现位置相邻或相近的情况。
通过统计一组关键词在文本中共同出现的频次,可以衡量它们之间的关联程度。
共词分析法利用这一点,将文本中出现的词汇视为一个有向图中的节点,而词汇之间的共现关系则视为有向图中的边,从而构建出一个词汇共现网络。
在具体实现过程中,共词分析法需要解决三个关键问题:词典编写、扫描策略和挖掘算法。
词典编写词典编写是共词分析法的第一步。
它通过选择一组具有一定代表性的关键词作为初始节点,然后在文本中搜索这些关键词的同义词、近义词以及相关词汇,将其添加到词典中。
在这个过程中,需要考虑词汇的规范化和停用词的去除等问题。
扫描策略扫描策略是共词分析法的核心环节之一。
它通过扫描文本中的每个句子,统计每个句子中出现的词汇,并记录它们之间共同出现的次数。
一般来说,扫描策略可以分为两种:全局扫描和局部扫描。
全局扫描统计整个文本中词汇的共现次数,而局部扫描则只统计特定领域或主题范围内的词汇共现次数。
挖掘算法挖掘算法是共词分析法的另一个核心环节。
它通过一定的统计方法和算法,从词汇共现网络中挖掘出有用的关联规则和知识结构。
常用的挖掘算法包括聚类算法、关联规则算法、复杂网络分析算法等。
共词分析法的实现共词分析法的具体实现步骤包括数据准备、特征提取和模型构建三个阶段。
数据准备数据准备是共词分析法的第一步。
它包括数据收集、清洗和预处理等环节。
在数据收集环节,需要从多个来源收集相关领域的文本数据。
在清洗环节,需要去除数据中的噪声和无用信息,如停用词、标点符号、数字等。
引文分析法共词分析法浅析
共词分析法的过程
1 2 3 4 5 确定分析的问题 确定分析单元 高频词的选定 共词分析中统计方法 对共词结果的分析
一、确定分析的问题
利用共词分析法基本原理可以概述研究领 域的研究热点,横向和纵向分析领域、学科 的发展过程、特点以及领域或学科之间的关 系等等。不同的问题有不同的分析过程,采 用不同的数学计量方法。
常见的引文网络测度指标可以分为四类: ①引文数量特征测度指标:引文数; ②引文分布 特征测度指标:平均引用数、自引数与自引率 、被引次数与引用数的比值; ③期刊(论文)影 响力测度指标:被引用数、同引和耦合、期刊 影响因子即年指标引率
关于自引和自引率的研究是引文分析的内 容之一。目前在国外研究最多的是关于期刊 的自引和自引率。一般认为, 期刊高自引有 助于提升其影响因子; 也有研究人员研究去 除期刊自引数对影响因子的影响,认为未去 除影响因子的数据可以采用;还有研究显示 期刊自引与自引率与影响因子的负相关性。
引文分析和统计中的误差
引文分析以其独特的科学评价功能而备受推崇, 然而随着应用的深化,越来越多的人开始对引文分析 的有效性与可靠性提出质疑。因为无论是引文分析的 对象,还是引文分析的方法本身,都存在一些虚假和 错误的成份。虽然不是很热门,但针对引文分析和统 计误差的研究一直伴随着SCI 的成长历程。 尽管专论相对而言不是很多, 但在不少采用引文 数据进行研究工作的文献中多少都存在对引文分析中 缺陷和错误的分析和研究, 很多文献也以善意的提醒 或者警示来告知读者要谨慎地使用引文数据。目前, 国内对于引文虚假和误差讨论最多的当属伪引和漏引。
注: 两个必要条件: (1)对于相似性测度,变 量A和变量B 的相关系数s(A,B)在加入0-模块 后不能减小;(2)未加入0-模块前,如果s(A, >s(C,D),那么加入0-模块后,这种关系也仍 要保持。
共词分析法——精选推荐
共词分析法共词分析法属于内容分析法的一种,其原理主要是对一组词两两统计它们在同一篇文献中出现的次数,对这些词进行聚类分析,从而反映出这些词之间的亲疏关系,进而分析这些词所代表的学科和主题的结构变化的方法。
共词分析法演进:(1)基于包容指数和邻近指数的共词分析法包容指数和邻近指数主要用于测量款目之间关系的强度。
包容指数主要用来计算主题领域的层次,计算公式如下:Lij=Cij/min(Ci,Cj)其中,Cij代表关键词对Mi和Mj在文献集合中的数量;Ci代表关键词Mi在文献集合中的出现频次;Cj代表关键词Mj在文献集合中的出现频次;min(Ci,Cj)代表Ci和Cj两个频次的最小值。
这个公式可以用来计算那些出现频次相对高的关键词。
当存在着一些中间关键词,而且这些关键词的相对出现频次比较低,但是仍然在这些非重要的关键词之间存在着一定的关系,于是用邻近指数来计算潜在的领域,计算公式如下:Pij=(Cij/CiCj)*N其中Cij、Ci和Cj意思同上,N代表集合中文献的数量。
Callon等提出等价系数(Equivalence Coefficient,简化为E),用来计算关键词之间的关联值。
Eij=(Cij/Ci)*(Cij/Cj)=(Cij)2/(Ci*Cj)其中Eij值在0~1之间。
由于Eij可以同时计算关键词i和j出现在对方集合的频次,因此Turner和他的同事称这个参数为相互包含的系数。
以上面3个指数为基础,把主题词或关键词聚类成组,并以网络地图的方式表现出来。
通过比较不同时期的网络地图,就可以表现出科学的结构和动态变化。
(2)基于战略坐标的共词分析法战略坐标是在建立主题词的共词矩阵和聚类的基础上,用可视化的形式来表示产生的结果。
用“战略坐标”来描述某一研究领域内部联系情况和领域间相互影响情况。
在战略坐标中,x轴为向心度,表示领域间相互影响的强度;y轴为密度,表示某一领域内部联系强度。
其中,向心度用来测量一个学科领域和其他学科领域的相互影响程度。
今天看到的三种量化研究方法
今天看到的三种量化研究方法,主要应用于文献研究:1.文献计量法文献计量法是借助文献各种特征的数量,采用数学与统计学方法来描述、评价和预测科学技术的现状与发展趋势的定量分析方法。
这一术语最早是1969年由英国人A·普里查德提出的。
文献计量法的使用需要文献引文数据库的支持。
中国引文数据库来源于中国学术期刊(光盘版)电子杂志社出版的源数据库产品中的文献和参考文献,如:中国期刊全文数据库、中国优秀博硕士学位论文全文数据库、中国重要会议论文全文数据库、中国重要报纸全文数据库、中国图书全文数据库、中国年鉴全文数据库等。
2.内容分析法伯纳德·贝雷尔森(Bernard Nerelson)在1952年发表的“传播学研究的内容分析”给出了内容分析法的定义:“内容分析是一种客观、系统、能对明确的传播内容进行定量描述的研究方法。
”内容分析过程包括以下六个相互联系的步骤:•定义研究问题;•选择具体的媒介和案例;•定义分析的类型;•制定编码表;•进行预试,检验编码表的可靠性;•数据的准备和分析。
3.共词分析方法共词分析方法属于内容分析方法的一种。
其原理主要是对一组词两两统计它们在同一篇文献中出现的次数,对这些词进行聚类分析,进而分析这些词所代表的学科和主题的结构变化。
共词分析方法的主要内容集中在聚类和数据可视化方法上。
聚类方法除统计方法中的多维标度(Mulitdimensional scaling ) 、聚类分析法( Clusteranalysis) 外,还有M· Callon 等提出的基于共词矩阵的包容性指标( inclusion index ) 、临近性指标(proximity index ) 、等值系数指标( Equivalence Coefficient index) ,并按照指标值从大到小进行人工分类的方法。
可视化方法是将类目之间的关系用图形方式直观、形象地揭示出来的方法。
目前共词分析的主要可视化方法包括包容图( Inclusion Map) 、临近图(Proximity Map) 、战略坐标图(Strategic Diagram)等方法,多维标度(Mulitdimensional scaling) 的结果也可以直观地表示类目之间的关系。
聚类分析法ppt课件全
8/21/2024
25
1.2.2 动态聚类分析法
1.2 聚类分析的种类
(3)分类函数
按照修改原则不同,动态聚类方法有按批修改法、逐个修改法、混合法等。 这里主要介绍逐步聚类法中按批修改法。按批修改法分类的原则是,每一步修 改都将使对应的分类函数缩小,趋于合理,并且分类函数最终趋于定值,即计 算过程是收敛的。
8/21/2024
23
1.2.2 动态聚类分析法
1.2 聚类分析的种类
(2)初始分类 有了凝聚点以后接下来就要进行初始分类,同样获得初始分类也有不同的
方法。需要说明的是,初始分类不一定非通过凝聚点确定不可,也可以依据其 他原则分类。
以下是其他几种初始分类方法: ①人为分类,凭经验进行初始分类。 ②选择一批凝聚点后,每个样品按与其距离最近的凝聚点归类。 ③选择一批凝聚点后,每个凝聚点自成一类,将样品依次归入与其距离
8/21/2024
14
1.2 聚类分析的种类
(2)系统聚类分析的一般步骤 ①对数据进行变换处理; ②计算各样品之间的距离,并将距离最近的两个样品合并成一类; ③选择并计算类与类之间的距离,并将距离最ቤተ መጻሕፍቲ ባይዱ的两类合并,如果累的个
数大于1,则继续并类,直至所有样品归为一类为止; ④最后绘制系统聚类谱系图,按不同的分类标准,得出不同的分类结果。
8/21/2024
18
1.2 聚类分析的种类
(7)可变法
1 2 D kr
2 (8)离差平方和法
(D k 2 pD k 2 q)D p 2q
D k 2 rn n ir n n p i D i2 pn n ir n n q iD i2 qn rn in iD p 2 q
8/21/2024
近十年文献计量指标关键词研究进展
近十年文献计量指标关键词研究进展摘要:关键词是表达文献主题概念的自然语言词汇,有效利用各种分析方法对关键词进行处理,并在此基础上对关键词进行研究分析,能够揭示某一学科或领域研究成果的总体内容特征,研究内容之间的内在联系和学术研究的发展脉络与发展方向等。
利用中国期刊网、维普数据库、万方数据库及EBSCO等数据库,收集近十年基于文献计量指标关键词研究的论文,对近十年的研究成果进行深入分析,从关键词研究分析方法、关键词的选取和基于关键词分析的意义三个方面进行综述,以期为今后基于文献计量指标关键词的研究提供一定的参考。
关键词:关键词;共词分析法;内容分析法;文献计量分析A Review of Studies on Key Words,One of the BibliometricIndicators, in Recent DecadeAbstract :The key words ,belonging to the vocabulary of natural language express the conception of the literature topics.To research and analyse the key words which has been processed by various analytical methods ,can reveal the characteristics of the overall content of the research in one subject or field ,the inner link of the research and the the course of development as well as the trend of academic research.This article summarizes the research briefs on the key words from the methods of researching and analysing the key words ,the selection of the key words and the signification of the study on the key words, based on the collection of research about the key words in recent decade from the databases such as CNKI,VIP,WANFANG and EBSCO ,hoping for providing some references for the further study.Key words:Key words;co-word analysis;Content Analysis;Bibliometric Analysis关键词是表达文献主题概念的自然语言词汇,一个学术研究领域较大时,域内大量学术研究成果的关键词的集合,可以揭示研究成果的总体内容特征,研究内容之间的内在联系和学术研究的发展脉络与发展方向等。
共词分析法研究_三_共词聚类分析法的原理与特点
基金项目:广东医学科研课题/广东省热点医学科研主题现状研究0(编号:A2006474)。
作者简介:钟伟金,男,1976年生,硕士,馆员,研究方向为文献计量分析。
共词分析法研究(三))))共词聚类分析法的原理与特点The Research of Co -word Analysis (3))))The Principle and C haracteristics of the C o -Word Cluster Analysis钟伟金 李 佳 杨兴菊(广东医学院图书馆 湛江 524023)摘 要 共词聚类分析法采用聚类的计算方法,对文章中共现的词对(主题词或关键词)的关联性进行运算,将关系密切的词聚集归类,从而达到挖掘隐含信息的目的。
通过对聚类原理的分析,认为该方法具有客观性、科学性、敏感性的特点。
并讨论了共词聚类分析法的不足以及其解决办法,最后介绍了共词聚类分析法的最新研究进展。
关键词 共词聚类分析法 研究进展 共词聚类原理中图分类号 G251.5随着期刊数量的增长与学科的细化发展,给情报工作者带来了新的挑战:文献的组织与检索、文献内容的分析评价、文献信息的提取与挖掘。
传统的文献检索方式如分类号、主题词、关键词等,由于缺乏文献内容间的联系、智能化检索程度低,在文献呈爆炸式增长的时代,传统的检索方式已难以在查全率与查准率间取得平衡,说明这种信息的组织检索方式难以满足人们的需求。
由于人类科研活动及其成果主要是以文献方式记录储存的,因此对文献量与文献主题的统计分析可在某种程度上反映出一门科学在一定时期研究的基本趋势、研究的水平和发展速度[1],文献量的大量增长,无疑给情报人员通过对文献集的分析来评价学科的发展现状的难度,也为情报人员通过文献集提取、挖掘有用的信息带来困难。
为解决这一矛盾,需要采用新的方法来处理组织、整理和分析文献集。
新方法应该具有以下三方面的特点:能对文献内容进行识别;能反映文献之间的内容联系;能借助机器进行批量处理。
聚类分析法
聚类分析法聚类分析是一种常用的数据分析方法,主要用于将相似的样本归类到同一类别中。
它是数据挖掘和机器学习领域中非常重要的一项技术,被广泛应用于各个领域,如市场研究、医学诊断、社交网络分析等。
本文将介绍聚类分析的基本概念、方法和应用,并分析其优势和局限性。
聚类分析是一种无监督学习方法,它不依赖于事先标定好的训练数据集。
通过对给定的数据进行聚类,我们可以发现数据中隐藏的模式、结构和规律。
聚类分析的基本思想是通过计算样本之间的相似度或距离,将相似的样本归为一类,从而实现对数据的分类。
在聚类分析中,相似度或距离的度量是一个关键问题,常用的度量方法包括欧氏距离、曼哈顿距离、余弦相似度等。
聚类分析的方法主要有层次聚类和划分聚类两种。
层次聚类是将样本逐步合并或分割成不同的类别,形成层次化的分类结果。
划分聚类是将所有的样本划分为K个不相交的类别,每个类别之间是互不重叠的。
这两种方法各有优劣,选择何种方法取决于具体的问题和数据特点。
聚类分析的应用非常广泛。
在市场研究中,聚类分析可以将消费者按照其购买行为、兴趣偏好等特征划分为不同的群体,为企业提供有针对性的营销策略。
在医学诊断中,聚类分析可以将病人按照其病情特征进行分类,帮助医生进行准确的诊断和治疗。
在社交网络分析中,聚类分析可以将社交网络中的用户划分为不同的社区,研究社交网络的结构和特征。
然而,聚类分析也存在一些局限性和挑战。
首先,聚类算法的结果很大程度上依赖于选择的相似度或距离度量方法,不同的度量方法可能导致不同的聚类结果。
其次,聚类算法对初始的聚类中心的选择非常敏感,不同的初始选择可能会得到不同的聚类结果。
此外,聚类算法还面临维度灾难的问题,当数据的维度很大时,聚类算法的计算复杂度会急剧增加。
在实际应用中,我们还可以将聚类分析与其他数据挖掘方法相结合,以获得更好的分析结果。
比如,我们可以将聚类分析与关联规则挖掘结合起来,通过挖掘不同类别之间的关联规则,深入分析不同类别之间的关系。
共词分析法研究共词分析的过程与方式
共词分析法研究共词分析的过程与方式一、本文概述共词分析法是一种广泛应用于信息科学、图书馆学、社会学、管理学等领域的文献计量学方法。
它通过统计和分析一组词汇在特定领域文献中共同出现的频次,揭示这些词汇之间的关联性和聚类性,从而反映该领域的热点主题、研究趋势和知识结构。
本文旨在深入探讨共词分析的过程与方式,包括数据准备、共词矩阵构建、聚类分析、结果解读等关键环节,以期为相关领域的研究者提供一套系统、实用的方法论参考。
在本文中,我们首先将对共词分析法的基本原理进行简要介绍,阐述其相较于其他文献计量学方法的独特优势。
随后,我们将详细介绍共词分析的具体步骤,包括如何从海量文献中筛选和提取关键词,如何构建共词矩阵并计算关键词之间的关联强度,以及如何运用聚类分析等统计方法对共词矩阵进行解读和可视化展示。
我们将通过实例分析,展示共词分析法在实际研究中的应用效果,并探讨其可能存在的局限性和改进方向。
通过本文的阐述,我们期望能够帮助读者更加深入地理解共词分析法的核心思想和操作步骤,掌握其在实际研究中的应用技巧,从而推动该方法在相关领域的研究中得到更广泛的应用和发展。
二、共词分析法的理论基础共词分析法是一种基于文献计量学的方法,它的理论基础主要源自信息科学、文献学和情报学等领域。
该方法通过统计和分析一组关键词或主题词在同一篇文献中共同出现的频次,来揭示这些关键词或主题词之间的关联程度,从而反映某一学科或领域的热点、结构和发展趋势。
共词分析法的理论基础主要包括词频分析理论、共现分析理论和聚类分析理论。
词频分析理论认为,关键词的出现频次能够反映其在某一学科或领域的重要性,频次越高,说明该关键词越受关注,其研究价值也越大。
共现分析理论则强调关键词之间的关联性,认为如果两个关键词在同一篇文献中频繁共现,那么它们之间就存在一定的关联或相似性。
聚类分析理论则是将共现频次较高的关键词进行聚类,形成不同的主题或研究领域,从而揭示学科或领域的结构和发展趋势。
共词分析报告
共词分析报告1. 引言共词分析(Co-occurrence Analysis)是一种文本分析方法,用于揭示词语之间的关联性和共现概率。
通过分析大量文本数据,可以找到词语之间常一起出现的模式和关系,进而帮助理解文本中的主题和语义。
本文将介绍共词分析的原理和方法,并通过一个实例进行分析和解读。
2. 共词分析原理共词分析基于词语在文本中的共现情况,通过计算词语之间的共现频率和相关性,来推断它们之间的关联性和共现概率。
常用的共词分析方法包括共现矩阵、点互信息(Pointwise Mutual Information)和相关性分析等。
2.1 共现矩阵共现矩阵是最常用的共词分析方法之一,它使用一个矩阵来记录词语在文本中的共现情况。
矩阵的行和列分别表示不同的词语,矩阵的元素表示两个词语在同一文本中同时出现的次数。
共现矩阵的构建过程包括分词、文本预处理和矩阵计算等步骤。
2.2 点互信息点互信息是一种用于衡量两个词语之间关联性的指标,它可以通过词语的共现概率来计算。
点互信息越大,表示两个词语之间的关联性越强。
点互信息公式如下:PMI(x, y) = log(P(x, y) / (P(x) * P(y)))其中,P(x, y)表示两个词语同时出现的概率,P(x)和P(y)分别表示词语x和y的出现概率。
2.3 相关性分析相关性分析是一种用于衡量词语之间相关关系的方法,它基于统计学中的相关系数来计算词语之间的相关性。
常用的相关系数包括皮尔逊相关系数和斯皮尔曼相关系数等。
相关系数越接近于1,表示两个词语之间的相关性越强。
3. 共词分析方法共词分析的具体方法取决于所使用的工具和数据集。
下面介绍一种常见的基于Python的共词分析方法:3.1 分词和预处理首先,将原始文本进行分词处理,将文本拆分成一个个单独的词语。
常用的分词工具有jieba和NLTK等。
然后,对分词结果进行预处理,包括去除停用词、词干化和词形还原等。
预处理可以提高共词分析的质量和准确性。
文献计量学方法共现和聚类
文献计量学方法共现和聚类
文献计量学是一种定量分析方法,用于研究学术文献之间的关
系和趋势。
其中,共现分析和聚类分析是两种常用的方法。
首先,共现分析是一种用于发现文献中关键词之间关联性的方法。
它通过统计文献中关键词同时出现的频率,来揭示这些关键词
之间的内在联系。
共现分析可以帮助研究者发现研究领域中的热点
问题和关键主题,从而指导后续研究方向的选择和研究重点的确定。
其次,聚类分析是一种将文献按照其特征进行分组的方法。
在
文献计量学中,聚类分析常常被用来将具有相似研究主题或关键词
的文献进行分类,以便于研究者对大量文献进行整理和理解。
通过
聚类分析,研究者可以更好地把握不同研究领域的发展趋势和内在
联系,为自己的研究提供更全面的背景和参考。
总的来说,文献计量学方法中的共现分析和聚类分析都是非常
有益的工具,它们可以帮助研究者更好地理解学术文献之间的关系
和趋势,为研究方向的选择和研究内容的确定提供重要参考。
同时,这些方法也为学术研究的发展和进步提供了有力的支持和指导。
共词分析法研究共词聚类分析法的原理与特点
共词分析法研究共词聚类分析法的原理与特点一、本文概述本文旨在深入探讨共词分析法及其重要应用——共词聚类分析法的原理与特点。
作为一种在文献计量学、内容分析和信息科学等领域广泛应用的文本分析方法,共词分析法通过对文献中共同出现的词汇进行分析,揭示出词汇之间的内在关联和知识结构。
而共词聚类分析法则是在此基础上,利用聚类算法对共词矩阵进行聚类,进一步挖掘出主题结构、研究热点和发展趋势。
本文将首先介绍共词分析法的基本原理和方法步骤,然后重点阐述共词聚类分析法的实现过程、优势和局限性,以期为读者提供全面而深入的理解,并为其在相关领域的实际应用提供指导和参考。
二、共词分析法的理论基础共词分析法是一种基于文献计量学的分析方法,其理论基础主要包括词频分析、共现分析和聚类分析三个部分。
词频分析是共词分析法的基础。
通过统计特定领域文献中词汇的出现频率,可以揭示出该领域的研究热点和趋势。
高频词汇往往代表了该领域的研究重点和方向,而低频词汇则可能反映了新的研究动向或未受足够关注的领域。
共现分析是共词分析法的核心。
它通过分析同一篇文献中不同词汇的共同出现情况,来揭示这些词汇之间的关联性和相关性。
共现频率高的词汇对往往具有紧密的内在联系,可能代表着同一研究主题或方向的词汇群体。
聚类分析是共词分析法的重要手段。
通过运用聚类算法,可以将共现频率高的词汇对进行聚类,形成不同的聚类群体。
这些聚类群体反映了文献中不同研究主题或方向的分布情况,有助于研究者快速识别出该领域的主要研究方向和热点。
共词分析法的理论基础包括词频分析、共现分析和聚类分析三个部分。
通过这些分析手段,共词分析法能够有效地揭示出文献中词汇的关联性、相关性以及研究主题和方向的分布情况,为研究者提供有力的研究工具和方法。
三、共词聚类分析法的原理共词聚类分析法是一种基于共词分析的信息挖掘方法,它通过对特定领域文献中词汇共现情况的统计和分析,揭示出该领域的研究热点、研究前沿和发展趋势。
聚类分析法的原理及应用
聚类分析法的原理及应用1. 引言聚类分析法是一种常见的无监督学习方法,它可以将数据集中的个体划分成若干个互不重叠的簇,使得同一个簇内的个体相似度较高,不同簇内的个体相似度较低。
本文将介绍聚类分析法的原理及应用。
2. 聚类分析法的原理聚类分析法的原理是基于数据个体之间的相似性或距离进行聚类。
其主要步骤如下:2.1 数据预处理在进行聚类分析之前,需要对数据进行预处理,包括数据清洗、数据标准化等操作。
这些操作旨在保证数据的准确性和可比性。
2.2 相似度度量在聚类分析中,需要选择合适的相似度度量方法来衡量个体之间的相似性或距离。
常见的相似度度量方法包括欧式距离、曼哈顿距离、余弦相似度等。
选择合适的相似度度量方法对于聚类结果的准确性有着重要的影响。
2.3 聚类算法根据相似度度量的结果,可以使用不同的聚类算法进行聚类操作。
常用的聚类算法有层次聚类、K均值聚类、密度聚类等。
不同的聚类算法适用于不同的数据特征和聚类目的。
2.4 簇个数确定在聚类分析中,需要确定合适的簇个数。
簇个数的确定对于聚类结果的解释和应用有着重要的影响。
常见的簇个数确定方法有肘部法则、轮廓系数法等。
3. 聚类分析法的应用聚类分析法在各个领域都有广泛的应用。
以下列举了一些常见的应用场景:3.1 市场细分在市场营销中,聚类分析法可以根据消费者的购买行为和偏好将市场细分成不同的消费群体。
这有助于企业精准定位和个性化营销。
3.2 社交网络分析在社交网络分析中,聚类分析法可以根据用户之间的社交关系和兴趣爱好将用户划分成不同的社区或兴趣群体。
这有助于发现社交网络中的重要节点和推荐系统的个性化推荐。
3.3 图像分割在计算机视觉领域,聚类分析法可以根据图像像素之间的相似度将图像进行分割。
这有助于物体识别、图像检索等应用。
3.4 城市交通规划在城市交通规划中,聚类分析法可以根据交通网络的拓扑结构和交通流量将城市划分成不同的交通区域。
这有助于优化交通规划和交通管理。
基于共词聚类的网络教育研究热点分析
基于共词聚类的网络教育研究热点分析一、共词聚类方法介绍共词聚类是一种基于词频和词语之间的关联性进行文本聚类的方法。
它通过寻找文本中频繁共现的词语,进行聚类分析,以发现不同主题的特征词语,从而揭示文本的内在语义结构。
在本文中,我们将采用共词聚类的方法,对网络教育研究领域的文献进行分析,以揭示当前研究的热点和未来的发展方向。
二、网络教育研究热点分析1. 在线学习平台在线学习平台是网络教育的基础设施,为学生和教师提供了在线学习和教学的环境。
近年来,国内外的研究者对不同类型的在线学习平台进行了广泛的研究。
在文献中,常出现与在线学习平台相关的词语有:MOOC(大规模开放在线课程)、学习管理系统、远程教育平台等。
研究者们关注在线学习平台的设计、功能、使用效果等方面的问题,以提高在线学习的质量和效果。
2. 教学设计与评价网络教育的教学设计和评价是该领域的重要研究课题。
研究者们探讨了如何设计有效的网络课程,如何评价网络教学质量等问题。
在文献中,与教学设计和评价相关的词语有:课程设计、教学评价、学习活动设计等。
研究者们试图探索更合理有效的教学设计方法,以及更客观科学的教学评价指标和方法。
3. 网络教学环境与技术网络教学环境和技术是网络教育的重要支撑,也是当前研究的热点之一。
与网络教学环境与技术相关的词语有:网络课堂、虚拟实验室、移动学习等。
研究者们关注如何构建适合网络教学的技术支持环境,以及如何应用新兴的技术手段来提升网络教学的效果。
4. 在线互动与教师角色网络教学强调学生与教师之间的互动,研究者们致力于探讨在线互动的方式和效果,以及教师在网络教学中的角色和功能。
与在线互动与教师角色相关的词语有:网络讨论、教师角色、网络交流等。
研究者们试图发现更有效的在线互动方式,以及更适合网络教学的教师角色和功能。
5. 学生学习行为分析学生学习行为是网络教育研究的重要方向之一,研究者们试图利用大数据和信息技术手段来分析学生的学习行为,揭示其规律和特点。
共词聚类分析法中的主要问题与对策
共词聚类分析法中的主要问题与对策李佳【摘要】共词聚类分析法通过聚类运算的方式对学科主题词进行划分,从而实现对学科结构的分析研究.聚类运算的结果,通常能把共现频次高的词聚在一起,而学科内主题词的分布与词的共现关系并不完全正向相关,因此,聚类运算的原理不完全符合学科研究点主题词分布的方式,是共词聚类分析法中的主要问题,并由此造成共词聚类分析存在许多不足的地方,主要表现在:聚类不稳定、聚类不完整、成员划分不合理以及容易造成没有意义类团的出现.问题的对策是:改进聚类算法、改变聚类策略、类团的弹性划分以及对结果的创新分析能有效弥补聚类算法的不足.【期刊名称】《情报学报》【年(卷),期】2010(029)004【总页数】4页(P614-617)【关键词】共词分析;类团分析;核心词;问题与对策【作者】李佳【作者单位】广东医学院图书馆,湛江,524023【正文语种】中文【中图分类】教科文艺情报学报ISSN 1000-0135第 29 卷第 4 期 614-617 , 2010 年 8 月JOURNAL OFTHECHINASOCIETYFORSCIENTIFICAND TECHNICAL INFORMATION ISSN1000-0135V01.29 No.4,614-617August 2010 doi :10.3772/j.issn.1000-0135.2010.04.005共词聚类分析法中的主要问题与对策李佳(广东医学院图书馆,湛江 524023 )摘要共词聚类分析法通过聚类运算的方式对学科主题词进行划分,从而实现对学科结构的分析研究。
聚类运算的结果,通常能把共现频次高的词聚在一起,而学科内主题词的分布与词的共现关系并不完全正向相关,因此,聚类运算的原理不完全符合学科研究点主题词分布的方式,是共词聚类分析法中的主要问题,并由此造成共词聚类分析存在许多不足的地方,主要表现在:聚类不稳定、聚类不完整、成员划分不合理以及容易造成没有意义类团的出现。
引文分析法共词分析法浅析课件
幼儿园2018年度第一学期园务总结与幼儿园2018年教研工作计划汇编幼儿园2018年度第一学期园务总结次本学期,我园以全面贯彻落实好幼儿园三年发展规划中第二年各项工作为原则,以不断推动教师自主学习的热情与能力为抓手,不断增强课程管理力度,对幼儿园保教质量的切实提高作出了实践与探索。
以下,从六个块面加以总结:园务管理:1、8月底至9月初,我园全面展开幼儿园三年发展规划第一年实施绩效的各项自评工作,及时回顾、总结经验:先由工作小组拟定自评计划,逐项开展自评、互评以及汇总、梳理工作,由园长先拟成文,初稿又听取了各方面的意见后再作调整,最后在三届十次教代会上全体通过。
在此基础上形成第一年自评报告并上交督导室,并调整完善了第二年规划,以此来保证幼儿园发展轨道的正常运行。
2、针对上学期未能开展中层干部考核工作的情况,本学期注重于该项目的落实:每月的最后一周为中层干部考评日活动,每次由各组室推选出一名代表,在聆听园长就考评意义、注意事项、内容等介绍后,对五名中层干部逐一考评,在学期结束时,在聆听这5名干部的工作总结后,再由全体教工作出考评。
这一过程充分体现了人人参与管理的意识,而群众对中层干部们的总体评价良好,也激发了中层干部的主动工作意识。
3、班子学习中,我们在形式上初步尝试联手党支部工作,既有总结学习的情况,也结合时事学习、讨论了胡锦涛主席在建党90周年大会上的讲话精神等,充分领会精神,以便督促现行的教育教学工作,较好地体现了和谐工作的氛围。
另一方面,则主要围绕幼儿园阶段工作重点作商量与决策,填写好心灵之约与群众沟通记录等,在实践中不断提高了我们的决策能力,也加大了我们的凝聚力与工作战斗力。
班子还注重为青年干部提供工作实践的平台,如安排了鲁莉指导、钱康玲组织实施青年工作小组的工作,在一定程度上锻炼了她们的实战能力。
4、党支部的5名党员认真学习胡锦涛主席的七一讲话精神,充分发挥了自身先锋模范作用,以积极向上的精神状态,在幼儿园各项工作中较好履行了责任制要求,同时还积极参与社区凝聚力工程建设。
聚类分析的原理
聚类分析的原理聚类分析是一种常见的数据分析方法,它的原理是将数据集中的对象按照它们的相似性分成不同的组别,使得同一组内的对象相互之间更加相似,而不同组之间的对象则相互之间差异更大。
聚类分析在数据挖掘、模式识别、图像分割等领域有着广泛的应用。
首先,我们来看一下聚类分析的基本原理。
在进行聚类分析时,我们首先需要选择一个合适的距离或相似性度量方法,常见的相似性度量方法包括欧氏距离、曼哈顿距离、余弦相似度等。
然后,我们需要选择一个合适的聚类算法,常见的聚类算法包括K均值聚类、层次聚类、密度聚类等。
接着,我们需要选择合适的聚类数目,这通常需要根据具体问题和数据集来确定。
最后,我们将数据集中的对象按照它们的相似性进行分组,形成不同的簇。
聚类分析的原理可以用一个简单的例子来说明。
假设我们有一组学生的考试成绩数据,我们希望根据他们的成绩将他们分成不同的学习类型。
首先,我们可以选择欧氏距离作为相似性度量方法,然后选择K均值聚类算法,最后选择合适的聚类数目。
通过这样的分析,我们可以将学生们分成不同的学习类型,比如优秀型、中等型、较差型等。
聚类分析的原理还涉及到一些重要的概念,比如簇的紧凑性和分离性。
簇的紧凑性指的是同一簇内的对象之间的相似性越高越好,而簇的分离性指的是不同簇之间的对象之间的相似性越低越好。
在进行聚类分析时,我们通常希望找到一种最优的分组方式,使得簇的紧凑性和分离性达到一个平衡点。
总的来说,聚类分析的原理是通过寻找数据集中对象之间的相似性,将它们分成不同的组别,以便更好地理解数据的结构和特点。
通过合适的相似性度量方法和聚类算法,我们可以得到有意义的聚类结果,从而为后续的数据分析和决策提供有力的支持。
在实际应用中,聚类分析的原理需要根据具体问题和数据集来灵活运用,选择合适的相似性度量方法、聚类算法和聚类数目。
同时,我们还需要对聚类结果进行有效的解释和评价,以确保分析结果的可靠性和有效性。
希望通过本文的介绍,读者能够对聚类分析的原理有所了解,并能够在实际问题中灵活运用。
护理人文关怀研究热点的共词聚类分析
基本内容
4、肿瘤患者的营养支持。这一热点主要肿瘤患者的营养需求和营养摄入,包 括制定合理的膳食计划、评估营养状况等。
参考内容二
引言
引言
随着医学科技的不断发展,护理研究也在持续推进。了解当前护理研究的热 点和趋势对于提高护理质量、推动护理学科发展具有重要意义。本次演示采用共 词聚类分析方法,对近5年护理研究热点进行深入分析,以期为未来护理研究提 供参考。
基本内容
1、化疗引起的恶心呕吐及相应的护理措施。这一热点主要涉及化疗药物的副 作用及相应的预防和护理措施,如心理护理、饮食护理、药物治疗等。
基本内容
2、肿瘤患者的心理护理。这一热点主要肿瘤患者的心理问题,包括焦虑、抑 郁、恐惧等,以及相应的心理护理措施,如心理疏导、心理干预等。
基本内容
3、疼痛管理。这一热点主要涉及肿瘤患者的疼痛控制和管理工作,包括疼痛 评估、疼痛药物治疗、非药物治疗等。
基本内容
2、收集和整理文献:收集和整理与护理人文关怀相关的文献,提取其中的关 键词,并对其进行预处理,如删除停用词、进行词干化等。
基本内容
3、构建共词矩阵:根据预处理后的关键词,构建一个共词矩阵,其中每个单 元格表示两个关键词同时出现在一篇文章中的次数。
基本内容
4、聚类分析:利用聚类分析算法,将共词矩阵中的关键词分成若干个簇,同 一簇中的关键词具有较高的相似度。
研究现状
尽管近5年护理研究取得了诸多成果,但仍存在一些不足之处,如:1)研究 方法单一,缺乏多学科融合;2)部分热点问题研究深度不够,需进一步加强实 证研究;3)护理技术创新与研发仍需加强;4)需护士职业发展与心理健康等方 面的研究。
共词聚类分析
共词聚类分析
共词聚类分析是一种通过分析一组关键词之间共同出现的情况,来揭示其内 在和主题分类的方法。具体步骤如下:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基金项目:广东医学科研课题/广东省热点医学科研主题现状研究0(编号:A2006474)。
作者简介:钟伟金,男,1976年生,硕士,馆员,研究方向为文献计量分析。
共词分析法研究(三))))共词聚类分析法的原理与特点The Research of Co -word Analysis (3))))The Principle and C haracteristics of the C o -Word Cluster Analysis钟伟金 李 佳 杨兴菊(广东医学院图书馆 湛江 524023)摘 要 共词聚类分析法采用聚类的计算方法,对文章中共现的词对(主题词或关键词)的关联性进行运算,将关系密切的词聚集归类,从而达到挖掘隐含信息的目的。
通过对聚类原理的分析,认为该方法具有客观性、科学性、敏感性的特点。
并讨论了共词聚类分析法的不足以及其解决办法,最后介绍了共词聚类分析法的最新研究进展。
关键词 共词聚类分析法 研究进展 共词聚类原理中图分类号 G251.5随着期刊数量的增长与学科的细化发展,给情报工作者带来了新的挑战:文献的组织与检索、文献内容的分析评价、文献信息的提取与挖掘。
传统的文献检索方式如分类号、主题词、关键词等,由于缺乏文献内容间的联系、智能化检索程度低,在文献呈爆炸式增长的时代,传统的检索方式已难以在查全率与查准率间取得平衡,说明这种信息的组织检索方式难以满足人们的需求。
由于人类科研活动及其成果主要是以文献方式记录储存的,因此对文献量与文献主题的统计分析可在某种程度上反映出一门科学在一定时期研究的基本趋势、研究的水平和发展速度[1],文献量的大量增长,无疑给情报人员通过对文献集的分析来评价学科的发展现状的难度,也为情报人员通过文献集提取、挖掘有用的信息带来困难。
为解决这一矛盾,需要采用新的方法来处理组织、整理和分析文献集。
新方法应该具有以下三方面的特点:能对文献内容进行识别;能反映文献之间的内容联系;能借助机器进行批量处理。
共词聚类分析法是共词分析法中的一种,它的分析对象是科技论文中高度概括文献内容并被专家规范的主题词,研究的是在一篇文献中同时出现的主题词对,通过这种共现的词对把文献集关联起来形成相互关联的网。
对这种共词进行聚类统计分析的过程是共词聚类分析的全部。
1 共词聚类分析的原理共词分析法利用文献集中词汇对或名词短语共同出现的情况,来确定该文献集所代表学科中各主题之间的关系。
一般认为词汇对在同一篇文献中出现的次数越多,则代表这两个主题的关系越紧密。
由此,统计一组文献的主题词之间两两在同一篇文献出现的频率,便可形成一个由这些词对关联所组成的共词网络,网络内节点之间的远近便可以反映主题内容的亲疏关系。
共词聚类分析是共词分析中常用的一种方法,在共词分析的基础上,以共词出现的频率为分析对象,利用聚类的统计学方法,把众多分析对象之间错综复杂的共词网状关系简化为数目相对较少的若干类群之间的关系并直观地表示出来的聚类的过程。
通常在一篇文献中,由多个主题词组合在一起反映文献的内容,这个些主题词因为存在着一定的内容上的联系,而标引到一篇文章中,如果一对主题词同时在多篇文献中出现,则说明这对主题词的关系紧密。
在文献群的主题中,通过聚类分析,能把这些关联密切的主题聚集在一起形成类团,表达某一领域分支的组成。
类团的组成、演化以及消失是共词聚类分析的重点。
共词在同一篇文献出现的频率的大小,反映主题间关系紧密的程度。
在主题词关系网中,有些主题词内容联合紧密,相互靠拢聚集在一块,形成概念相对独立的类团。
相互关联的共词网络中,一个主题与多个主题形成关联,相互间构成立体状的关系网,在这种关系网中,很难分辨出由哪些主题词组成类团。
为此,要借助数据挖掘中的聚类分析法,对共词关系网络中的词与词之间的距离进行数学运算分析,将距离较近的主题词聚集起来,形成一个个概念相对独立的类团,使得类团内属性相似性最大,类团间属性相似性最小[2]。
1.1 聚类时距离的确定 在进行聚类分析时,类组合的确定有两种概念方式:一是类和类之间的距离;二是点和点之间的距离。
类间距离是基于点间距离定义的,比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离作为这两类之间的距离;当然也可以用各类的中心之间的距离来作为类间距离。
在计算时,各种点间距离和类间距离的选择是通过统计软件的选项实现的。
统计类间的距离时,采用组间距离法(Between-g roups linkage),即两类的平均距离最小。
点间距离有很多定义方式,常用的是欧氏距离(Euclidean distance),其算法为[3]:情报杂志2008年第7期 Journ al of Information No.7,2008在欧氏算法中,将要计算的对象分成多维计算空间,以共词聚类分析来算,两个主题词的聚类称为2维,三个主题词间的聚类称为3维,对于2维空间距离的算法为:主题词M1的从标为M1=(X1,X2),主题词M2的坐标为M2=(Y1,Y2)M1与M2的欧氏距离为:D=sqrt((X1-Y1)2+(X2-Y2)2)3维的公式:D=sqr t((x1-x2)2+(y1-y2)2+(z1-z2)2)推广到n维空间,欧氏距离的公式为:D=sqrt(E(x i1-x i2)2),这里i=1,2,,,n在公式中x i1表示第一个点的第i维坐标,x i2表示第二个点的第i维坐标。
1.2聚类的途径聚类分析(Cluster Analysis)是物以类聚的一种统计分析方法。
用于对事物类别的面貌尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类的场合。
聚类分析实质上是寻找一种能客观反映元素之间亲疏关系的统计量,然后根据这种统计量把元素分成若干类。
目前常用的聚类方法有两种:一是K类中心聚类(也称为快速聚类),常用于大样本的样品聚类方法;二是等级聚类(Hierarchical Cluster),是目前使用最多、研究最为充分的算法[4]。
等级聚类也称为系统聚类、层次聚类。
根据聚类过程方向的不同,可以分为分解法(divisively)和凝聚法(agglomerative)两类[5]。
a.分解法。
聚类开始把所有个体(观测量或变量)都视为属于一大类,然后根据距离和相似性逐层分解,直到参与聚类的每个个体自成一类为止。
b.凝聚法。
其程序与分解法相反。
先将n个元素(样品或变量)看成n类,然后将性质最接近(或相似程度最大)的2类合并为一个新类,得到n-1类,再从中找出最接近的2类加以合并变成了n-2类,如此下去,最后所有的元素全聚在一类之中。
2共词聚类分析法的特点(作用)2.1客观性学科研究发展的评价,科学家依据自身的知识积累、学科背景等主观认识,可以描述出不同发展阶段的知识体系,但这种分析不可避免地会受到科学家研究背景、个人偏好及知识结构的影响[6]。
共词聚类分析法,从主题分析的选择到类团的生成都以数学统计的方式进行,大大减少人为的干预。
共词分析对主题的选择,通常选用文献群的高频主题词(关键词),由于一篇文献的主题词是文章核心内容的浓缩和提炼,因此,如果某一主题词在其所在领域的文献中反复出现,则可反映出该主题词所表征的研究主题是该领域的研究热点[7]。
高频词的确定根据主题在文献群中出现的次数来确定,频率越高表示该主题受到的关注越多,是学科研究的重点与热点。
高频词的选择是客观的,词频的大小由相关文献的篇数决定。
选用高频词为共词聚类分析的对象,还能有效减少不规范的主题对聚类结果的影响。
在聚类统计中,主题的聚类是由主题间的距离决定,通常两个主题在同一篇文献中出现的频率越高,两个词间的距离越近,也就是说主题距离与相关文献的篇数息息相关。
因此共词聚类的结果是文献群内容现状的客观的、真实的反映。
212科学性共词聚类分析的目的,在于通过对学科文献群的研究,反映学科研究的结构与热点。
这一过程涉及到三个逻辑性问题:一是主题的发文量与研究热点的逻辑。
根据文献学研究的规律,如果某一学科的文献量呈逐年增长,表明该学科的研究处于稳步发展阶段,其学科发展的动向与其研究成果的文献数量密切相关。
研究主题的发文量与很多因素有关,如:主题文献的易产性。
在学科领域中,有些方面的主题容易生产出大量学术论文,而有些领域要经过漫长的实验研究才有少量论文产出,因此对于学科内各领域而言,文献发表的数据不是/机会均等0的。
此外,科研管理政策与学术氛围也会影响到文献量的增长。
因此,共词聚类分析对文献集来源刊的选择应有一定规定,应选择学科的核心性期刊,特别是在世界范围内在本学科有相当影响刊物。
通常一种期刊的级别越高,它对论文的质量要求越高,通过学科专家的审核,能有效确保文献内容有较高的新颖性与学术性,把那些产文量大、学术性不够强的主题的文献排除在外,从而提高学科内各学科主题文献量的/机会均等0的几率。
在这样的条件下,发文量越大的主题越是学科中研究的热点。
二是研究内容与类团(若干个相关主题)的逻辑。
聚类分析的结果是把所有高频词按相互间距离的远近划分为一个个类团,一个类团代表一个研究的子领域。
一篇论文记录某一方面的研究成果,它由若干个主题词标引出来,反向推断,如果两篇论文中的相同主题词数越多,则表明两篇论文的内容越接近,说明它们是同一领域内的研究。
三是主题的距离与主题内容的逻辑。
按照距离的远近聚类的结果,因为主题间的相互影响,类团内所有主题词未必都代表一个研究方向,但通过对类团主题词的重要性进行分析,依据核心主题词的义,能推断出类团所代表的研究方向。
213排斥性在聚类的过程中,无论是分解法还是凝聚法,都使得一个主题词只能聚入一个类团。
对于学科的各研究领域,一个主题词可能在多个子领域中出现,聚类的时候,由于主题词间的相互影响,只把相关文献量较多的子领域的类团聚类出来。
这种聚类的结果,有可能影响到其它类团成员的个数,甚至不能形成类团。
214敏感性主题词对的距离由它们共同出现的频率决定,对于一个主题而言,如果相关论文基数不够大,主题词对的距离变得非常敏感,增多一篇相关文献会导致词对间的紧密度成倍增长。
3共词聚类分析法中应注意的问题等级聚类法的突出优点是它能够生成比较规整的类集合,聚类结果不依赖文档的初始排列或输入次序,与聚类过程的先后次序无关,聚类结果比较稳定,不易导致类的重构。
但共词聚类的分析方法存在一些不足的地方,需要我们在使用过程尽量避免。
主要表现在以下几点:a.缺乏指标控制,如高频词的定义,类团划分标准,各种指标统计方式、方法都会影响到类团归类。
高频词的确定主要有两种方法:一种是结合研究者的经验在选词个数和词频高度上平衡,该方法具有一定的主观性。
在我国一些有关共词分析的文章中,高频词的阈值定在40%左Journ al of Information No.7,2008情报杂志2008年第7期右[8~11]。