基于多层类别主题图模型的教育文本分类方法
计算机与现代化 2016年第7期
JISUANJIYUXIANDAIHUA总第251期
文章编号:1006-2475(2016)07-0055-05收稿日期:2016-01-18
基金项目:湖北省教育科学“十二五”规划项目(2011B130);湖北省高等学校优秀中青年科技创新团队计划项目(T201515)作者简介:李全(1982-),男,湖北黄陂人,湖北师范学院教育信息与技术学院讲师,硕士,研究方向:信息检索,数据挖掘。基于多层类别主题图模型的教育文本分类方法
李 全
(湖北师范学院教育信息与技术学院,湖北黄石435002)
摘要:在互联网大数据时代,网络教育资源信息以爆炸式增长。层次分类能满足大规模教育文本多类别、多层次的分类要求,但传统层次分类的类别表示模型存在向量高维稀疏、缺乏语义理解等问题。针对以上问题,提出一种基于多层类别主题图模型的教育文本分类方法。该方法通过多层类别主题图模型对文本集进行建模,得到文本的多层类别-词项概率矩阵;利用3种特征提取方法的互补性进行组合特征提取,进一步提高特征词和主题类别关联度;利用多层SVM分类器进行分类。实验结果表明,该方法在性能上与传统的多层文本分类方法相比,宏平均MacroP、MacroR和MacroF1等评估值都有一定的提高,具有较好的网络教育文本分类效果和应用前景。
关键词:教育资源;层次分类;文本分类;主题图模型;概率矩阵;支持向量机
中图分类号:TP391.1 文献标识码:A doi:10.3969/j.issn.1006-2475.2016.07.011
ClassificationMethodofEducationTextBasedonHierachicalClassTopicGraphModel
LIQuan
(DepartmentofEducationalInformationandTechnology,HubeiNormalUniversity,Huangshi435002,China)
Abstract:TherearemoreandmoreeducationresourceofinformationintheperiodofbigdataontheWeb.Theclassificationre-quirementofagreatnumberofeducationtextsofbeingmulti-class,multi-levelcanbesatisfiedbyhierachicalclassification.Therefore,theclassrepresentationmodeloftraditionalhierachicalclassificationhashigh-dimensionandsparseproblem,andit’slackofsemanticunderstanding.Tosolvetheaboveproblems,theclassificationmethodofeducationtextbasedonhierachicalclasstopicgraphmodelwasproposed.Thetextsetwasmodelledbythehierachicalclasstopicgraphmodel.Probabilitymatricesofhierachicalclass-wordofthetextswereobtained.Inordertofurtherimprovecorrelationbetweenfeaturewordsandclasses,thecombinedfeaturewasextractedbythecomplementarityofthethreekindsofwayextractingfeature.Finally,thetextswereclassi-fiedbythehierachicalSVMclassifier.TheanalysisonsimulationresultindicatesthattheevaluationvaluesofMacroP,MacroRandMacroF1etcincreasetosomeextend,comparingtotraditionalhierachicalclassificationmethod.ThereforethemethodhasgoodclassificationeffectofInterneteducationtext,andapplicationprospect.
Keywords:educationresource;hierachicalclassification;textclassification;topicgraphmodel;probabilitymatrix;supportvectormachine(SVM)0 引 言
随着互联网的发展,海量网络教育资源数据以指
数级的方式增长,其中文本数据占据着重要的地位。
为了有效地组织和管理这些海量信息,通常的做法是
按照类别将这些信息组织成为资源分类目录,以便更
好地搜索、访问和管理这些教育资源[1]。文本分类
包括平面分类和层次分类。平面分类指将文档类别置于同一个平面层次,其中文本表示模型包括VSM模型和LDA模型[2]等;平面分类法包括Bayes[3]、SVM[4]、决策树[5]和KNN[6]等。刘振鹿等[7]应用LDA模型进行文本的潜在语义分析,将语义分布划分为低频、中频和高频语义区,以低频语义区的语义进行Web游离文本检测,以中、高频语义区的语义作为文本特征进行文本聚类。李文波等[8]提出了一种附加类别标签的LDA模型,通过在传统LDA模型中