文本聚类研究知识图谱分析_奉国和

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4 数据分析
情报科学
第 32 卷 第 3 期 2014 年 3 月
4.1 聚类分析 共词聚类分析法(Cluster Analysis)是共词分析 法中的一种。它借助数据挖掘中的聚类算法,对共 词矩阵中各关键词间的联系强度进行运算,把相互 间联系相对紧密的主题聚集起来形成概念相对独 立的团体【6】。聚类分析方法有:划分聚类法、层次聚 类法、密度聚类法等,具体算法原理在相关文献有 详细阐述。本文采用层次聚类方法来对关键词进 行聚类,此处以高频关键词的相异度矩阵作为 SPSS 的输入进行层次聚类,选择欧氏距离平方作为关键 词 距 离 的 度 量 标 准 ,计 算 方 法 采 用“ 组 内 平 均 联 接”,其结果如图 1 所示。
收稿日期:2012-01-21 基金项目:广州市科技计划项目(2011J4300046) 作者简介:奉国和(1971-),男,湖南永州人,副教授,博士,主要从事文本分类、信息检索、自然语言处理研究.
- 23 -
·Theory Research·
INFORMATION SCIENCE Vol.32,No.3 March,2014
Study in the Knowledge Mapping of the Text Clustering
FENG Guo-he1,HUANG Jia-xing1,XUE Yun2
(1.School of Economics and Management, South China Normal University, Guangzhou 510006,China; 2.School of Physics and Telecommunication, South China Normal University, Guangzhou 510006,China)
2.1 材料来源及预处理
在 CNKI 学术期刊数据库中,以“文本聚类”为 检索词,检索时间跨度为 2005 年 1 月 1 日至 2010 年 12 月 31 日,进行题名或关键词检索,为提高研究的 准确性而去除中英文扩展检索,将文献记录导入 NoteExpress,剔除重复及无关键词的记录后得到有 效文献 382 篇,提取出关键词 1530 个。对关键词进 行规范化处理,将关键词中的同义词和相似词进行
DOI:10.13833/j.cnki.is.2014.03.012
·理论研究·
情报科学
第 32 卷 第 3 期 2014 年 3 月
文本聚类研究知识图谱分析
奉国和 1,黄家兴 1,薛 云 2
(1.华南师范大学 经济与管理学院, 广东 广州 510006; 2.华南师范大学 物理与电信工程学院, 广东 广州 510006) 摘 要:利用词频分析、共词分析、聚类分析、多维尺度分析,绘制我国 2005—2010 年间文本聚类 研究的知识图谱,得出领域研究结构,结合关键词粘合力,归纳出该领域四个类团研究群:相似度研 究、向量空间模型、搜索引擎、Web 文本挖掘。 关键词:文本聚类;知识图谱;共词分析;多元统计分析 中图分类号:G250.2 文献标识码:A 文章编号:1007-7634(2014)03-23-05
3 数据处理
数据处理的步骤可分为三步:①词频统计。对 382 篇有效文献中的 1530 个关键词进行词频统计, 并按照词频高低逐级递减排序并编上序号,最后按 照一定的方法确定高频关键词;②构建共现矩阵。 对获取的高频关键词两两出现在文献中的频次进 行统计,进而形成一个高频共词矩阵;③构建相似 度矩阵。共现矩阵反映的是绝对数量,它受关键词 各自的频次影响,不能真正揭示关键词间的关联程 度,因此须采用 Ochiia 相似系数对共词矩阵进行标 准化。
图 1 差异矩阵聚类结果
4.2 多维尺度分析 一般以相异度矩阵作为 SPSS 多维尺度分析的 输入,选取方形对称的图形(Square symmetric)描述 关键词的数据结构,用序数数值(Ordinal)作为数据 测度水平的指标,尺度模型采用欧几里德模型(Eu⁃ clidean Distance),对高频关键词的相异度矩阵作二 维尺度分析,得到相关可视化结果,多维尺度分析 结果如图 2 所示。 结合上述聚类分析的结果,将高频关键词分成 4 个区域较为合理,这些关键词所代表的主题形成 了文本聚类研究领域的四个方面,分别分布在 4 个 象限之中。
1引 言
2 数据来源与研究方法
文本聚类(Text clustering)是指利用聚类分析使 得同类的文档相似度较大,而不同类的文档相似度 较小,它是一种无监督的机器学习方法,已经成为 文本信息有效地组织、信息过滤、信息推荐、摘要和 导航的重要手段,为越来越多的研究人员所关注。 本文基于共词分析对 2005 年至 2010 年间国内文本 聚类研究文献进行聚类与知识图谱分析,探索出国 内文本聚类领域的研究结构,为相关研究者提供参 考。
7 数据挖掘
8
Web 文本 挖掘
9 SOM
10 聚类算法
11 特征选择
12 相似度
13 聚类分析
14 模糊聚类
15
中文信息 处理
频次 序号 关键词 频次序号 关键词 250 16 特征提取 11 31 中文文本 44 17 计算机应用 10 32 知网 38 18 遗传算法 10 33 搜索引擎 32 19 层次聚类 9 34 语义
12 27 关联规则 7 42 降维
5
12 28 蚁群算法 7 43 DBSCAN
5
12 29 谱聚类
7
11 30 分词
7
3.2 高频共词矩阵
利用 BICOMB 的共现矩阵功能将词频阈值确定 为大于等于 5 后计算得出 43*43 的高频关键词共现 矩阵,统计 43 个关键词两两间同时出现在文献当中 的频次,但是共现矩阵并不能很好揭示出各关键词 之间的关联度,为消除绝对值差异的影响,利用余 弦指数来测量各高频关键词之间的关联度。余弦 指数计算公式为:Cosine Coefficient= Cij Ci*Cj ,其
统一替换,并统一英文大小写,例如:将“K-均值”、 “K-Means 算法”、“K 平均”等替换为“K-Means”,将 “自组织神经网络”、“SOM 算法”等统一成“SOM”,
规范化工作有助于提高分析结果的质量和准确性。
2.2 研究方法
知识图谱(Mapping Knowledge Domain)是揭示 知识结构与发展进程的一种可视化技术,其具体方 法有引文分析、同被引分析、词频分析、共词分析、 聚类分析、因子分析、多维尺度分析、社会网络分析 等【1】。主要研究方法是词频分析和共词分析,共词 分析(Co-word Analysis)是一种较新的文献计量学方 法,主要原理是对一组词两两统计它们在同一篇文 献中出现的次数,以此为基础对这些词进行聚类分 析,从而反映出这些词之间的亲疏关系,进而分析 这些词所代表的学科或主题的结构与变化【2】。
图 2 多维尺度分析结果
5 结果分析
首先确定类团内的核心词,以便进一步判断类 团所代表的研究点,然后依次对类团的概念进行分 析以揭示文本聚类相关研究的现状和结构。
5.1 核心词确定
共词聚类通过计算将词间距离近的关键词聚
集形成类团,但要揭示类团所表达的中心概念一般
是根据类团关键词概念揣测类团所代表的研究点,
中,Cij 代表两个关键词共现频次,Ci、Cj 分别代表各 自词频【5】。利用余弦指数公式把共现矩阵转化为相 似度矩阵,结果如表 2 所示。
表 2 Ochiia 系数相似度矩阵 43*43(部分)
高频关键词
1:文本 聚类
2: K-Means
3:文本 挖掘
4:文本 分类
5:向量空间 模型
6:聚 类
1:文本聚类
频次 7 7 7 6
31 20 本体
9 35 后缀树
6
31 21 密度聚类 9
22
22
自然语言处 理
8
36 自动文摘 6
37
潜在语义索 引
6
16 23 信息检索 8 38 文本相似度 5
15 24 文本表示 8 39 概念格
5
13 25 Web 挖掘 8 40 奇异值分解 5
13 26 模糊 C 均值 8 41 关键词提取 5
2.3 研究工具
本 文 的 研 究 工 具 有 NoteExpress、BICOMB、 SPSSV18、Excel 等。文献查重采用的是 NoteExpress 软件,词频统计和共现矩阵构建采用的是 BICOMB, 该软件由中国卫生政策支持项目(HPSP)资助,中国 医科大学崔雷老师开发。它的主要功能包括:词频 统计、共现矩阵、词篇矩阵生成等,并支持矩阵导出 功能以便进一步用于聚类分析和社会网络分析。 数据分析采用的是 SPSS V18,实现因子分析、聚类 分析、多维尺度分析等功能并支持可视化输出,是 文献计量研究者的有力工具。
Abstract: Word-frequency analysis, Co-word analysis, together with Cluster analysis and Multi-dimen⁃ sional analysis, are used in the paper to draw the mapping of knowledge of the Text clustering in China from the year of 2005 to 2010. Combining with key words adhesion method reveals the research structure of this field. The conclusion indicates that there are four groups in the research of text clustering,which is Similarity study, Vector Space Model, Search Engine, Web Text mining. Key words:text clustering; knowledge mapping; co-word analysis; multivariate statistical analysis
分析。为衡量类团内每个成员的作用与地位,钟金
伟【8】等提出粘合力的概念,用粘合力衡量每个词在
类团中作用,粘合力用该词与类团中其他主题词的
2:K-Means 3:文本挖掘 4:文本分类 5:向量空
间模型 6:聚 类
1 0.286 0.246 0.28
0.261
0.023
0.286 1
0.073 0.08
0.162
0.054
0.246 0.073
1 0.401
0.029
0.058
0.28 0.08 0.401
1
0
0.032
0.261 0.162 0.029
该方法显然具有强烈的主观性,在判断中容易受到
不太相干关键词的干扰。确定类团的核心词,分析
各核心关键词间的关系,并通过检索核心关键词所
在的文献,结合文献的内容以及学科专业知识进行
判断,有助于正确判断类团所代表的研究点【7】。此
种方法可减少一些主观因素,但作为一般辅助判断
方法不可拘泥于数据,而应结合实际情况进行综合
3.1 词频统计
采用 BICOMB 进行词频统计,得到 669 个不重
- 24 -
复的关键词,并给出每个关键词的词频及其占总频
次的百分比。确定高频词的方法一般有两种【3】:①
主观选定法,依据研究者的经验在词频阈值和选词
个数之间进行平衡选定。在我国一些有关共词分
析的文章中,高频词的阈值定在 40%左右;②利用
齐普夫定律确定高频词频值【4】。本文采用第一种方
法确定高频词,结合有效文献总数、选词个数、词频
阈值等因素,最终将词频阈值确定为 5,得到 43 个
高频关键词及其频次如表 1 所示。
表 1 文本聚类研究领域高频关键词表
序号 关键词
1 文本聚类
2 K-Means
3 文本挖掘
4 文本分类
5
向量空间 模型பைடு நூலகம்
6 聚类
0
1
0.129
0.023 0.054 0.058 0.032
0.129
1
相似值取“0”到“1”,取“0”表明两个关键词之
间关联度最小,取“1”表明两者关联度最大。显然
·理论研究·
自身之间关联度为“1”,所以相似度矩阵对角线取 值均为“1”。为方便随后的因子分析和聚类分析, 此处用单位矩阵“I”减去相似度矩阵得到相异度(差 异)矩阵。
相关文档
最新文档