基于多层类别主题图模型的教育文本分类方法

计算机与现代化　２０１６年第７期

ＪＩＳＵＡＮＪＩＹＵＸＩＡＮＤＡＩＨＵＡ总第２５１期

文章编号：１００６－２４７５（２０１６）０７－００５５－０５收稿日期：２０１６－０１－１８

基金项目：湖北省教育科学“十二五”规划项目（２０１１Ｂ１３０）；湖北省高等学校优秀中青年科技创新团队计划项目（Ｔ２０１５１５）作者简介：李全（１９８２－），男，湖北黄陂人，湖北师范学院教育信息与技术学院讲师，硕士，研究方向：信息检索，数据挖掘。基于多层类别主题图模型的教育文本分类方法

李　全

（湖北师范学院教育信息与技术学院，湖北黄石４３５００２）

摘要：在互联网大数据时代，网络教育资源信息以爆炸式增长。层次分类能满足大规模教育文本多类别、多层次的分类要求，但传统层次分类的类别表示模型存在向量高维稀疏、缺乏语义理解等问题。针对以上问题，提出一种基于多层类别主题图模型的教育文本分类方法。该方法通过多层类别主题图模型对文本集进行建模，得到文本的多层类别－词项概率矩阵；利用３种特征提取方法的互补性进行组合特征提取，进一步提高特征词和主题类别关联度；利用多层ＳＶＭ分类器进行分类。实验结果表明，该方法在性能上与传统的多层文本分类方法相比，宏平均ＭａｃｒｏＰ、ＭａｃｒｏＲ和ＭａｃｒｏＦ１等评估值都有一定的提高，具有较好的网络教育文本分类效果和应用前景。

关键词：教育资源；层次分类；文本分类；主题图模型；概率矩阵；支持向量机

中图分类号：ＴＰ３９１．１文献标识码：Ａｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００６－２４７５．２０１６．０７．０１１

ＣｌａｓｓｉｆｉｃａｔｉｏｎＭｅｔｈｏｄｏｆＥｄｕｃａｔｉｏｎＴｅｘｔＢａｓｅｄｏｎＨｉｅｒａｃｈｉｃａｌＣｌａｓｓＴｏｐｉｃＧｒａｐｈＭｏｄｅｌ

ＬＩＱｕａｎ

（ＤｅｐａｒｔｍｅｎｔｏｆＥｄｕｃａｔｉｏｎａｌＩｎｆｏｒｍａｔｉｏｎａｎｄＴｅｃｈｎｏｌｏｇｙ，ＨｕｂｅｉＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ｈｕａｎｇｓｈｉ４３５００２，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：ＴｈｅｒｅａｒｅｍｏｒｅａｎｄｍｏｒｅｅｄｕｃａｔｉｏｎｒｅｓｏｕｒｃｅｏｆｉｎｆｏｒｍａｔｉｏｎｉｎｔｈｅｐｅｒｉｏｄｏｆｂｉｇｄａｔａｏｎｔｈｅＷｅｂ．Ｔｈｅｃｌａｓｓｉｆｉｃａｔｉｏｎｒｅ－ｑｕｉｒｅｍｅｎｔｏｆａｇｒｅａｔｎｕｍｂｅｒｏｆｅｄｕｃａｔｉｏｎｔｅｘｔｓｏｆｂｅｉｎｇｍｕｌｔｉ－ｃｌａｓｓ，ｍｕｌｔｉ－ｌｅｖｅｌｃａｎｂｅｓａｔｉｓｆｉｅｄｂｙｈｉｅｒａｃｈｉｃａｌｃｌａｓｓｉｆｉｃａｔｉｏｎ．Ｔｈｅｒｅｆｏｒｅ，ｔｈｅｃｌａｓｓｒｅｐｒｅｓｅｎｔａｔｉｏｎｍｏｄｅｌｏｆｔｒａｄｉｔｉｏｎａｌｈｉｅｒａｃｈｉｃａｌｃｌａｓｓｉｆｉｃａｔｉｏｎｈａｓｈｉｇｈ－ｄｉｍｅｎｓｉｏｎａｎｄｓｐａｒｓｅｐｒｏｂｌｅｍ，ａｎｄｉｔ’ｓｌａｃｋｏｆｓｅｍａｎｔｉｃｕｎｄｅｒｓｔａｎｄｉｎｇ．Ｔｏｓｏｌｖｅｔｈｅａｂｏｖｅｐｒｏｂｌｅｍｓ，ｔｈｅｃｌａｓｓｉｆｉｃａｔｉｏｎｍｅｔｈｏｄｏｆｅｄｕｃａｔｉｏｎｔｅｘｔｂａｓｅｄｏｎｈｉｅｒａｃｈｉｃａｌｃｌａｓｓｔｏｐｉｃｇｒａｐｈｍｏｄｅｌｗａｓｐｒｏｐｏｓｅｄ．Ｔｈｅｔｅｘｔｓｅｔｗａｓｍｏｄｅｌｌｅｄｂｙｔｈｅｈｉｅｒａｃｈｉｃａｌｃｌａｓｓｔｏｐｉｃｇｒａｐｈｍｏｄｅｌ．Ｐｒｏｂａｂｉｌｉｔｙｍａｔｒｉｃｅｓｏｆｈｉｅｒａｃｈｉｃａｌｃｌａｓｓ－ｗｏｒｄｏｆｔｈｅｔｅｘｔｓｗｅｒｅｏｂｔａｉｎｅｄ．Ｉｎｏｒｄｅｒｔｏｆｕｒｔｈｅｒｉｍｐｒｏｖｅｃｏｒｒｅｌａｔｉｏｎｂｅｔｗｅｅｎｆｅａｔｕｒｅｗｏｒｄｓａｎｄｃｌａｓｓｅｓ，ｔｈｅｃｏｍｂｉｎｅｄｆｅａｔｕｒｅｗａｓｅｘｔｒａｃｔｅｄｂｙｔｈｅｃｏｍｐｌｅｍｅｎｔａｒｉｔｙｏｆｔｈｅｔｈｒｅｅｋｉｎｄｓｏｆｗａｙｅｘｔｒａｃｔｉｎｇｆｅａｔｕｒｅ．Ｆｉｎａｌｌｙ，ｔｈｅｔｅｘｔｓｗｅｒｅｃｌａｓｓｉ－ｆｉｅｄｂｙｔｈｅｈｉｅｒａｃｈｉｃａｌＳＶＭｃｌａｓｓｉｆｉｅｒ．ＴｈｅａｎａｌｙｓｉｓｏｎｓｉｍｕｌａｔｉｏｎｒｅｓｕｌｔｉｎｄｉｃａｔｅｓｔｈａｔｔｈｅｅｖａｌｕａｔｉｏｎｖａｌｕｅｓｏｆＭａｃｒｏＰ，ＭａｃｒｏＲａｎｄＭａｃｒｏＦ１ｅｔｃｉｎｃｒｅａｓｅｔｏｓｏｍｅｅｘｔｅｎｄ，ｃｏｍｐａｒｉｎｇｔｏｔｒａｄｉｔｉｏｎａｌｈｉｅｒａｃｈｉｃａｌｃｌａｓｓｉｆｉｃａｔｉｏｎｍｅｔｈｏｄ．ＴｈｅｒｅｆｏｒｅｔｈｅｍｅｔｈｏｄｈａｓｇｏｏｄｃｌａｓｓｉｆｉｃａｔｉｏｎｅｆｆｅｃｔｏｆＩｎｔｅｒｎｅｔｅｄｕｃａｔｉｏｎｔｅｘｔ，ａｎｄａｐｐｌｉｃａｔｉｏｎｐｒｏｓｐｅｃｔ．

Ｋｅｙｗｏｒｄｓ：ｅｄｕｃａｔｉｏｎｒｅｓｏｕｒｃｅ；ｈｉｅｒａｃｈｉｃａｌｃｌａｓｓｉｆｉｃａｔｉｏｎ；ｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎ；ｔｏｐｉｃｇｒａｐｈｍｏｄｅｌ；ｐｒｏｂａｂｉｌｉｔｙｍａｔｒｉｘ；ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ（ＳＶＭ）０　引　言

随着互联网的发展，海量网络教育资源数据以指

数级的方式增长，其中文本数据占据着重要的地位。

为了有效地组织和管理这些海量信息，通常的做法是

按照类别将这些信息组织成为资源分类目录，以便更

好地搜索、访问和管理这些教育资源［１］。文本分类

包括平面分类和层次分类。平面分类指将文档类别置于同一个平面层次，其中文本表示模型包括ＶＳＭ模型和ＬＤＡ模型［２］等；平面分类法包括Ｂａｙｅｓ［３］、ＳＶＭ［４］、决策树［５］和ＫＮＮ［６］等。刘振鹿等［７］应用ＬＤＡ模型进行文本的潜在语义分析，将语义分布划分为低频、中频和高频语义区，以低频语义区的语义进行Ｗｅｂ游离文本检测，以中、高频语义区的语义作为文本特征进行文本聚类。李文波等［８］提出了一种附加类别标签的ＬＤＡ模型，通过在传统ＬＤＡ模型中