国内外文本分类研究计量分析与综述

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

国内外文本分类研究计量分析与综述一

发表于《图书情报工作》2011年第55卷第6期:78-142，欢迎大家下载、参考和交流

胡泽文王效岳白如江

山东理工大学科技信息研究所淄博255049

[摘要]运用文献计量分析方法、计算机统计分析技术、社会网络分析软件对文本分类领域的历史文献进行计量分析及可视化，通过绘制文献数量分布图、核心关键词的共现网络，挖掘文本分类领域的发展趋势、目前研究概况、热点及未来研究趋势等信息，并对文本分类领域研究热点和未来研究趋势进行综述。

[关键词]文本分类计量分析社会网络分析可视化图谱

[分类号]G250TP391

Q uantitative A nalysis and Review of Text Classification Research at Home and Abroad

Hu Zewen Wang Xiaoyue Bai Rujiang

Institute of Scientific and Technical Information,Shandong University of Technology,Zibo255049,China

[Abstract]This paper carries out the quantitative analysis and visualization to the historical literatures of text classification domain by using the bibliometric analysis method,the computer statistic analysis technology and the social network analysis software.By drawing the literature quantity distribution map and co-occurrence network of the core keywords,excavates the development trends,the current research situations,hotspots and the future research trends etc in text classification domain,and makes a review on the research hotspots and future research trends.

[Keywords]text classification quantitative analysis social network analysis visualizing map

1引言

随着数字化文档信息总量的快速增长，大规模文本处理已经成为一个挑战。传统向量空间模型表征文本的方法逐渐呈现出一些问题，比如忽视词间语义关系，不能解决同义词、多义词、词间上下位关系等问题，为解决这些问题，国内外学者开始从概念或语义层次上对文本自动分类方法展开广泛的研究，出现一些新的文本分类方法，如基于词典或概念的文本分类、基于本体或语义的文本分类等。随着文本分类领域的快速发展，文本分类领域的总体发展趋势、研究概况、热点及未来发展趋势如何，将是我们关注的焦点。因此关于文本分类领域文献信息的计量分析与综述具有重要的理论、现实和指导意义。

2样本与方法

样本数据检索情况如表1所示，共检索到1851篇国内外相关文献。在方法运用上，利用文献数量分析方法对国内外文本分类领域的发展趋势进行对比分析；利用Excel2007、SQL语句的数据处理与统计分析功能、社会网络分析软件Ucinet和NetDraw[1]的数据分析及可视化功能等，对文本分类文献中的关键词进行词频统计与分析、共现频次统计与分析，绘制国内外文本分类领域研究概况和热点的可视化图谱。据此可以解读国内外文本分类领域的发展趋势、研究概况、热点等信息。

表1样本数据的检索情况

数据库检索入口检索词时间范围文献数量

一本文系国家社科基金项目“海量网络学术文献自动分类研究”（项目编号：10BTQ047）和教育部人文社会科学研究项目“基于本体集成的文本分类关键技术研究”（项目编号：09YJA870019）的研究成果之一。

Compendex Title"text classification"OR

"text categorization"1969-2009954

ScienceDirect1969-Present去重：60

中国期刊全文数据库(CNKI)篇名文本分类（精确匹配）1999-2009615

中国硕博学位论文数据库(CNKI)题名文本分类（精确匹配）1999-2009222

3分析与结果

3.1文献数量分析

对表1中1980-2009年30年间的国内外文本分类文献数量进行分析（5年一个区间，30年共计6个区间），具体如图1所示。从图1可以看出，国外在文本分类方面的研究存在如下特点：①起步较早。德国学者Giere,W.和Dettmer,H.在1986年就提出基于词典的文本分类与检索[2]。国内在1999年才出现文本分类方面的研究文献，比国外晚了13年；②实际应用成果多，不过理论落后于实践。国外自动分类技术早在1975年就进入实用化阶段，而理论研究从1986才开始，落后于实践11年；③发展速度快。国外从1995年开始进入快速增长期，而国内从2000年才开始进入快速增长期，比国外晚了5年。国内在文本分类方面的研究虽然起步较晚，应用成果少，但是发表的文献数量较多。国外在快速增长期（1995-2009）内共发表文献510篇，而国内在快速增长期（2000-2009）内发表文献1338篇，比国外多出828篇。

图11980-2009年国内外文本分类文献数量分布图

3.2词频分析

利用作者提出的词频统计分析方法[3]对检索到的文献关键词进行统计分析，获得文本分类领域高频关键词86个。对86个高频关键词进行词频分析，发现国内外对文本分类领域的研究主要集中在以下几个部分(词汇后括号中的数字为词频)：

⑴文本分类过程。主要对分词（18）、词汇处理（27）、文本表示（27）、向量空间模型（200）等进行研究。最常用的文本表示方法是向量空间模型，到目前为止，国内外学者重点研究的向量空间模型主要有词向量空间模型、语义向量空间模型。词向量空间模型存在向量空间维度过高、词项之间缺乏语义关系等问题，针对这些问题，国内外学者提出语义向量空间模型，尝试利用潜在语义索引（32）技术或本体（28）的概念语义关系挖掘词项之间的语义关系，构建低维的语义向量空间模型。

⑵文本分类算法。目前国内外学者重点研究的文本分类算法有支持向量机算法（257）、K-近邻（102）算法、神经网络算法（90）、朴素贝叶斯（56）算法、决策树算法（28）和遗传算法（24）。未来研究趋势将是各类算法的融合、改进和提高。

⑶文本分类降维技术。文本分类的一个核心难题就是特征空间的高维性，因此文本分类降维技术是国内外学者研究的重中之重。降维技术主要分为两大类：特征选择（475）和特征重构（85）。特征选择是去除文档中信息量少的项以提高分类的效率，目前流行的特征选择方法有TF×IDF方法（11）、主分量分析（6）、互信息（27）、信息增益（20）和信息熵（6）。特征重构是将原有特征集T加以联系和转化以构建新特征集T’的过程，从而使得降维的效果最大化。目前主要有两种特征重构方法：项聚类（25）、潜在语义索引（32）。

⑷文本分类应用领域。主要对文本分类在信息检索（216）、学习系统（205）、数据挖掘（115）、文本挖掘（39）、模式识别（35）、数字图书馆（13）等领域的应用方法、原理和模型进行研究。

3.3共现频次分析

利用程序统计“文本分类”与3.2节中获得的86个高频关键词在文本分类文献标题中共现的频次，根据词汇之间的共现频次，利用Ucinet6的矩阵编辑功能构建文本分类与其领域关键词汇的共现矩阵，再利用NetDraw绘制文本分类与其领域关键词汇的共现网络如图2所示。从图2可以看出，文本分类领域的研究