基于多层类别主题图模型的教育文本分类方法

计算机与现代化 2016年第7期

JISUANJIYUXIANDAIHUA总第251期

文章编号:1006-2475(2016)07-0055-05收稿日期:2016-01-18

基金项目:湖北省教育科学“十二五”规划项目(2011B130);湖北省高等学校优秀中青年科技创新团队计划项目(T201515)作者简介:李全(1982-),男,湖北黄陂人,湖北师范学院教育信息与技术学院讲师,硕士,研究方向:信息检索,数据挖掘。基于多层类别主题图模型的教育文本分类方法

李 全

(湖北师范学院教育信息与技术学院,湖北黄石435002)

摘要:在互联网大数据时代,网络教育资源信息以爆炸式增长。层次分类能满足大规模教育文本多类别、多层次的分类要求,但传统层次分类的类别表示模型存在向量高维稀疏、缺乏语义理解等问题。针对以上问题,提出一种基于多层类别主题图模型的教育文本分类方法。该方法通过多层类别主题图模型对文本集进行建模,得到文本的多层类别-词项概率矩阵;利用3种特征提取方法的互补性进行组合特征提取,进一步提高特征词和主题类别关联度;利用多层SVM分类器进行分类。实验结果表明,该方法在性能上与传统的多层文本分类方法相比,宏平均MacroP、MacroR和MacroF1等评估值都有一定的提高,具有较好的网络教育文本分类效果和应用前景。

关键词:教育资源;层次分类;文本分类;主题图模型;概率矩阵;支持向量机

中图分类号:TP391.1 文献标识码:A doi:10.3969/j.issn.1006-2475.2016.07.011

ClassificationMethodofEducationTextBasedonHierachicalClassTopicGraphModel

LIQuan

(DepartmentofEducationalInformationandTechnology,HubeiNormalUniversity,Huangshi435002,China)

Abstract:TherearemoreandmoreeducationresourceofinformationintheperiodofbigdataontheWeb.Theclassificationre-quirementofagreatnumberofeducationtextsofbeingmulti-class,multi-levelcanbesatisfiedbyhierachicalclassification.Therefore,theclassrepresentationmodeloftraditionalhierachicalclassificationhashigh-dimensionandsparseproblem,andit’slackofsemanticunderstanding.Tosolvetheaboveproblems,theclassificationmethodofeducationtextbasedonhierachicalclasstopicgraphmodelwasproposed.Thetextsetwasmodelledbythehierachicalclasstopicgraphmodel.Probabilitymatricesofhierachicalclass-wordofthetextswereobtained.Inordertofurtherimprovecorrelationbetweenfeaturewordsandclasses,thecombinedfeaturewasextractedbythecomplementarityofthethreekindsofwayextractingfeature.Finally,thetextswereclassi-fiedbythehierachicalSVMclassifier.TheanalysisonsimulationresultindicatesthattheevaluationvaluesofMacroP,MacroRandMacroF1etcincreasetosomeextend,comparingtotraditionalhierachicalclassificationmethod.ThereforethemethodhasgoodclassificationeffectofInterneteducationtext,andapplicationprospect.

Keywords:educationresource;hierachicalclassification;textclassification;topicgraphmodel;probabilitymatrix;supportvectormachine(SVM)0 引 言

随着互联网的发展,海量网络教育资源数据以指

数级的方式增长,其中文本数据占据着重要的地位。

为了有效地组织和管理这些海量信息,通常的做法是

按照类别将这些信息组织成为资源分类目录,以便更

好地搜索、访问和管理这些教育资源[1]。文本分类

包括平面分类和层次分类。平面分类指将文档类别置于同一个平面层次,其中文本表示模型包括VSM模型和LDA模型[2]等;平面分类法包括Bayes[3]、SVM[4]、决策树[5]和KNN[6]等。刘振鹿等[7]应用LDA模型进行文本的潜在语义分析,将语义分布划分为低频、中频和高频语义区,以低频语义区的语义进行Web游离文本检测,以中、高频语义区的语义作为文本特征进行文本聚类。李文波等[8]提出了一种附加类别标签的LDA模型,通过在传统LDA模型中

相关主题
相关文档
最新文档