基于深度学习和主题模型的短文本分类方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
㊀收稿日期:2021-07-16基金项目:国家自然科学基金项目(61802160)
作者简介:王青松(1974-)ꎬ男ꎬ辽宁沈阳人ꎬ副教授ꎬ研究方向:大数据㊁数据挖掘.
㊀㊀辽宁大学学报㊀㊀㊀自然科学版第49卷㊀第2期㊀2022年JOURNALOFLIAONINGUNIVERSITYNaturalSciencesEditionVol.49㊀No.2㊀2022
基于深度学习和主题模型的短文本分类方法
王青松ꎬ聂振业ꎬ周芳晔
(辽宁大学信息学院ꎬ辽宁沈阳110036)
摘㊀要:为了解决短文本的语义稀疏和特征信息难以提取问题ꎬ本文提出了一种基于深度学习的短文本分类方法.首先通过增加自注意机制的双向BiLSTM通道获取短文本特征词向量ꎬ引入外部CN-DBpedia知识库KBs来深度挖掘短文本语义ꎬ解决语义稀疏问题.其次通过BTM主题模型在短文本数据集上提取主体信息ꎬ为了得到准确的词向量拼接引入了超参数δ.最终将所得的特征词向量以及知识向量运用语义余弦相似度计算并拼接向量ꎬ将得到的拼接结果与主题信息通过Softmax分类器中进行分类.在中国微博情感分析数据集㊁产品评价数据集㊁中文新闻标题数据集㊁Sogou新闻数据集上进行实验.与TextCNN㊁TextRNN㊁TextRNN_Att㊁BiLSTM-MP㊁KPCNN算法相比ꎬ分类准确性有一定提高.
关键词:短文本分类ꎻ注意力机制ꎻ外部知识库ꎻBTM主题模型ꎻ语义余弦相似度
中图分类号:TP391.1㊀㊀㊀文献标志码:A㊀㊀㊀文章编号:1000-5846(2022)02-0116-09
AShortTextClassificationApproachBasedonDeep
LearningandTopicModel
WANGQing ̄songꎬNIEZhen ̄yeꎬZHOUFang ̄ye
(CollegeofInformationꎬLiaoningUniversityꎬShenyang110036ꎬChina)
Abstract:㊀Inordertosolvetheproblemofsemanticsparsityandfeatureextractionofshorttextꎬashorttextclassificationmethodbasedondeeplearningisproposed.FirstlyꎬthefeaturewordvectorofshorttextisobtainedbyaddingtheBidirectionalBiLSTMchannelofselfattentionmechanismꎬandtheexternalCN-DBpediaknowledgebaseKBsisintroducedtodeeplyminethesemanticsofshorttexttosolvetheproblemofsemanticsparsity.SecondlyꎬthesubjectinformationisextractedfromtheshorttextdatasetbyBTMtopicmodel.Inordertogettheaccuratewordvectorsplicingꎬtheδsuperparametersareintroduced.FinallyꎬthefeaturewordvectorandknowledgevectorarecalculatedbyusingsemanticcosinesimilarityꎬandthesplicingresultsandtopicinformationareclassifiedbySoftmaxclassifier.TheexperimentsareconductedonChinesemicroblogsentimentanalysisdatasetꎬproductevaluationdatasetꎬChineseNewsHeadlinesdataset
㊀㊀
andSogounewsdataset.ComparedtoTextCNN㊁TextRNN㊁TextRNN_Att㊁BiLSTM ̄MP㊁KPCNNꎬtheclassificationaccuracyisimproved.
Keywords:㊀shorttextclassificationꎻattentionmechanismꎻexternalknowledgebaseꎻBTMthememodelꎻsemanticcosinesimilarity
0㊀引言
近年来ꎬ随着社交网络的飞速发展ꎬ例如微博和电影评论等类型的短文本数量在不断攀升.与传统的长文本相比ꎬ基于社交网络的短文本长度较短更易处理.因短文本实时性强㊁格式不标准等特点使其成为研究热点.但短文本在自然语言处理领域中仍然是一个难点问题.传统的机器学习分类算法如朴素贝叶斯㊁支持向量机在解决短文本分类问题仍然存在不足.
现有的短文本分类是从词频入手的.文献[1]采用TF-IDF(TermFrequency ̄InverseDocumentFrequency)的统计方法ꎬ通过评估某字词对于一个文件集或一个语料库中的重要程度来进行文本分类.字词的重要性随着它在文件中出现的次数成正比增加ꎬ同时会随着它在语料库中出现的频率成反比下降.文献[2]通过对朴素贝叶斯进行改进产生了隐含狄利克雷分布LDA(LatentDirichletAllocation)主题模型ꎬ它可以集中每篇文档的主题以概率分布的形式给出.文献[3]考虑到短文本的稀疏性很强ꎬLDA主题模型应用的效果不好ꎬ对此进行改进生成新的BTM(BitermTopicModel)主题模型ꎬBiterm一词将短文本生成C2n个新的样本ꎬ增加文本结构比一个词建模更能体现文章的隐藏主题.然而以上获取分类方法并没有考虑到语义关系ꎬ并不能准确地进行分类.
随着技术的发展ꎬ深度学习也应用到自然语言处理中ꎬ特别是应用到文本分类.文献[4]通过使用Word2vec将文本转化为词向量放入LSTM(长短期记忆人工神经网络)训练获取句子的语义信息和句法结构进行分类ꎬ但是没有考虑到特征词的重要性.文献[5]通过引用Attention机制将深度学习推到高潮ꎬ选用SelfAttention捕获同一个句子中单词之间的一些句法特征或者语义特征ꎬ从而更容易获取句子中长距离的相互依赖.以上方法并没有考虑到短文本特征的稀疏性.
现在语义增强应用是通过知识库对句子进行扩增.文献[6]通过KBs(知识库)中存在的isA㊁isPropertyOf等重要语义关系ꎬ这些信息对理解短文本有很多帮助.文献[7]将深度神经网络和知识库的先验知识整合到一起ꎬ充分对短文本进行理解ꎬ提高了短文本分类的准确性.知识库带来了新的先验知识ꎬ也带来了很多无关的知识向量ꎬ为短文本分类增加了负担.
本文针对上述短文本分类的算法不足ꎬ综合考虑词频㊁语义和先验知识等特征ꎬ利用BTM主题模型㊁深度学习和知识库多维特征进行融合ꎬ从而准确地将多方面特征联系在一起ꎬ通过词向量相似度筛选出相似的文本特征ꎬ通过全连接网络操作结合BTM主题模型的主题概率分布ꎬ最终得到更加准确的分类结果.
1㊀各个模块的计算1.1㊀局部特征计算
局部特征计算是为了提取短文本语义的计算ꎬ在众多的分类算法中ꎬ有很多算法只是考虑词频和关键词出现的概率ꎬ并没考虑到短文本语义的影响ꎬ为了提高本模型的分类准确性ꎬ本文选用文献7
11㊀第2期㊀㊀㊀㊀㊀㊀王青松ꎬ等:基于深度学习和主题模型的短文本分类方法
㊀㊀[8]深度学习中的双向长短记忆网络(BiLSTM).htң=LSTMң(xtꎬhңt-1)(1)htѳ=LSTMѳ(xtꎬhѳt-1)(2)
连接每个hңt和hѳt去获得一个隐藏状态ht.设每个单向LSTM的隐藏单元号为u.为了简便起见ꎬ
将所有的ht的数量记为一个集合HɪRnˑ2uꎻH=(h1ꎬh2ꎬ ꎬhn)(3)然后ꎬ使用一种新型的注意力机制ꎬ这种机制来源于文献[9].使用这种注意力机制的目的在于
学习特征词和短文本句子之间的依赖性并且捕获短文本的结构.给定一个n个查询向量的矩阵QɪRnˑ2uꎬ键为KɪRnˑ2uꎬ值为VɪRnˑ2uꎬ此注意力机制的计算公式为A=Attention(QꎬKꎬV)=Softmax(QKT2u)V(4)式中的Q㊁K㊁V都是维数相同的矩阵等同于Hꎬ2u是比例因子ꎬ注意力层输出的是一个矩阵ꎬ
记为AɪRnˑ2u.接下来ꎬ在A上使用max ̄pooling层来获取短文本表示qɪR2uꎬ其思想是在向量的每个维度上选择最高的值或重要的特征.
1.2㊀外部特征计算
外部特征计算也叫知识编码ꎬ本模块的目标是从CN-DBpedia知识库[10]中检索相关知识来扩充短文本内容ꎬ从CN-DBpedia知识库等外部资源获取的先验知识可以提供更丰富的信息ꎬ帮助确定给定的短文本的类标签.本文以isA关系为例ꎬisPropertyof等其他语义关系也可以以类似的方式应用.具体来说ꎬ给出一个简短的文本sꎬ希望找到一个与它相关的概念集C.通过2个主要步骤实现这个目标:实体链接和概念化.实体链接就是短文本中的某些字符映射到知识库中对应的实体上.概念化就是根据当前上下文动态识别出实体对应的上位概念.文献[11]的实体链接是自然语言处理中的一项重要任务ꎬ用于识别短文中提到的实体.文献[12]通过利用现有的实体链接解决方案ꎬ获得了一个包含短文本分词的实体集E.然后ꎬ对于每个实体eɪEꎬ从已有的CN-DBpedia知识库中获取概念信息ꎬ举个例子:林丹和刘翔出生于中国.通过实体链接得到实体集E={林丹ꎬ刘翔ꎬ中国}ꎬ然后对实体刘翔进行概念化ꎬ并从CN-DBpedia中获得其概念setC={中国人ꎬ运动员ꎬ田径世锦赛冠军ꎬ110m栏}等.
1.3㊀全局特征计算
全局特征计算称作主题特征计算ꎬ是针对文档进行的ꎬ主要是通过使用BTM主题模型进行计算的.LDA主题模型也可以进行全局特征计算ꎬ但是考虑到短文本分类和文本稀疏的原因ꎬBTM主题模型更适用于本文的模型计算.BTM模型的核心思想是在整个语料库中使用biterm聚合模式ꎬ在短文本上学习的模型ꎬ此模式解决了单个文档的文本稀疏问题[13].具体地说ꎬ一篇文章句子被分开之后特征词会很少ꎬ但是使用biterm(2个词)对文本建模要比一个词建模能更好地显示隐藏主题.举个例子 床前明月光ꎬ疑是地上霜ꎬ举头望明月ꎬ低头思故乡 ꎬ通过biterm可以分成{床前明月光ꎬ疑是地上霜㊁床前明月光ꎬ举头望明月㊁床前明月光ꎬ低头思故乡㊁疑是地上霜ꎬ举头望明月㊁疑是地上霜ꎬ低头思故乡㊁举头望明月ꎬ低头思故乡}ꎬ一共为C24个新的隐藏文本ꎬ所以说使用BTM主题模型对于短文本更有效.
全局特征计算的过程如公式(5)~(7)所示:
P(z|Z-bꎬαꎬβ)ɖ(nz+α)(nwi|z+β)(nwj|z+β)(ðwnw|z+Mβ)2(5)
811㊀㊀㊀辽宁大学学报㊀㊀自然科学版2022年㊀㊀
㊀㊀
φw|z=nw|z+βðwnw|z+Mβ(6)
θz=
nz+α|B|+Kα(7)公式(5)~(7)由吉布斯(Gibbs)抽样推理得出[14]ꎬ其中α和β是给定的先验数ꎬnz是主题z的bitermb出现的次数ꎬnw|z是单词w分配给主题z的次数ꎬ一旦一个bitermb被分配给主题zꎬ关键词wiꎬwj将同时被分配给主题.|B|代表的是biterm模式的总数量ꎬ对公式(5)~(7)进行Gibbs抽样ꎬ
更新每个词对应的topicꎬ重复操作ꎬ直到Gibbssampling收敛得到完整的模型.
算法1BTM吉布斯采样算法
输入文本向量化ꎬ偏置b1㊁b2㊁b3ꎬ超参数ꎬ主题模型参数1ꎬ主题模型参数2ꎬ主题数量ꎬ迭代次数ꎬδꎬαꎬβꎬKꎬNiterꎻ
输出分类概率值ꎻ1㊀BEGIN2㊀FORiter=1toNiter//迭代器进行试验迭代
3㊀FORi=1tondo:4㊀λi=Softmax(wT1f(W1[ciʒq]+b1))//LSTM模型得到的λi5㊀㊀㊀㊀㊀UPDATEW1//更新卷积核
6㊀ηi=wT2f(W2mi)+b2//知识向量扩充7㊀㊀㊀㊀㊀UPDATEW2//更新卷积核
8㊀㊀㊀㊀㊀Wight(λiꎬηi)//相似度计算
9㊀Ak=wT3ηi+wT4λi+b3//计算最终向量10㊀pi=Softmax(Ak)//得到语义模型概率
11㊀㊀㊀㊀㊀UPDATEnzꎬnw|z//更新主题模型参数
12㊀φw|z=nw|z+βðwnw|z+Mβꎬθz=nz+α|B|+Kαꎬ//更新BTM主题模型参数13㊀qi=P(z|Zbꎬαꎬβꎬφw|zꎬθz)//得到主题模型概率14㊀Pi=δpi+(1-δ)qi//得到最终概率分布
15㊀ENDFOR16㊀ENDFOR17㊀END2㊀基于语义和主题概率分布的短文本分类模型2.1㊀语义模型
如图1所示ꎬ语义模型的部分为深度学习提取短文本语义特征词ꎬ同时短文本经过文本处理ꎬ停用词去除和使用Jieba分词ꎬ将关键词输入到知识库中进行文本扩充.扩充得到的实体或者属性与LSTM模型训练完的语义特征向量进行相似度计算ꎬ在知识库扩充的时候产生大量的噪音词会影响模型的准确性ꎬ所以将扩充的知识向量与通过LSTM训练得到的特征向量进行相似度计算ꎬ留下相似度较高和特征向量进行拼接.9
11㊀第2期㊀㊀㊀㊀㊀㊀王青松ꎬ等:基于深度学习和主题模型的短文本分类方法
㊀
㊀
图1㊀LABTM语义模型部分
㊀㊀为了减少KBs生成的一些不良㊁不当的歧义概念ꎬ作者提出用公式(8)对知识向量与语义特征向量进行相似度计算.
λi=Softmax(wT1f(W1[ciʒq]+b1))(8)式中的λi表示第i个特征词对短文本的重视程度.得到的更大的λi意味着第i个特征词在语义
上更接近短文本特征.f( )是一个非线性激活函数如tanh函数ꎬSoftmax是用来标准每个特征的注意权重.W1ɪRdaˑ(2u+d)是一个权重矩阵ꎬw1ɪRda是一个权重向量ꎬda是一个参数ꎬb1是一个偏置.q为短文本经过LSTM训练之后得到的短文本语义向量.
通过公式(9)将KBs得到的概念转化成概念向量:
ηj=wT2(f(W2mj)+b2)(9)式中ηj是KBs得到的概念词向量表示形式.其中mj表示每个KBs得到的概念词向量ꎬw2ɪRda是权重向量ꎬ其中da是参数ꎬW2ɪRdbˑd是一个权重矩阵ꎬb2是偏置.
值得注意的是通过卷积层进行卷积之后ꎬ2个特征词向量在同一个维度.接下来要对2个向量进行相似度计算ꎬ如公式(10)所示:
wight(ηjꎬλi)=ηj λi ηj λi (10)式中向量ηj和向量λi得到的wight越高说明2个词向量的相似度越高ꎬ在本文算法中挑选相似度高的作为拼接对象ꎬ不设置特殊的阈值作为参考.如果0ɤwightɤ1ꎬ表明在正常范围内ꎬ否则说明向量ηj和向量λi没有任何相似关系.
然后ꎬ得到最高相似度的向量进行向量拼接ꎬ如公式(11)所示:
ak=wT3ηj+wT4λj+b3
(11)式中的ak代表最终拼接的语义向量矩阵ꎬwT3和wT4是权重系数ꎬb3是偏置.值得注意的是wT3ηj和wT4λj是维度相同的ꎬ根据ηj和λj分别调整参数wT3和wT4权重系数.得到的向量矩阵加入到max ̄pooling池中进行降维操作ꎬ然后将得到的结果再输入到全连接层ꎬ最后结果在输出层和主题模型结果进行汇总.021㊀㊀㊀辽宁大学学报㊀㊀自然科学版2022年㊀㊀
㊀㊀
2.2㊀模型总架构
图2是引入BTM主题概率模型之后的模型总架构.当语义向量进入到最终的输出层进行Softmax归一化之后会得到一个分类比例ꎬ如图3所示
.
图2㊀LABTM
模型总架构
图3㊀分类结果图
㊀㊀因为语义特征向量与知识向量进行相似度计算不能得到最终的分类结果ꎬ故还需要通过带有BTM主题模型的分类池进行分类ꎬ最终才
能得到每个主题的概率分布.接下来进行最后一步计算ꎬ如公式(12)
所示:
Pi=δpi+(1-δ)qi(12)
式中pi㊁qi分别是通过语义模型得到的分类类型概率和主题模型分类得到的类型概率.Pi为最终的分类类型概率.最后通过统计得出Max(Pi)为短文本的类型.δ为调节权重的系数ꎬ取值为δɪ[0ꎬ1].设置系数δ主要是因为受不同模型结果的影响会产生一系列偏差ꎬ若主题模型有损ꎬ语义模型赋予强系数.设置系数δ有很多方式ꎬ最简单是通过手动调节的方式ꎬ把δ当作超参数来获得更加准确的分类效果.
算法2LABTM模型分类算法
输入短文本向量ηjꎬ偏置b1㊁b3ꎬ超参数δ
输出分类概率值p1~n1.BEGIN2.FORiter=1toNiter//迭代器进行实验迭代
3.λi=Softmax(wT1f(W1ηi+b1))//LSTM得到的λi
4.UPDATEW//更新卷积核5.ENDFOR121㊀第2期㊀㊀㊀㊀㊀㊀王青松ꎬ等:基于深度学习和主题模型的短文本分类方法
㊀㊀
6.ak=WT3ηj+WT4λi+b3//计算最终向量7.pi=Softmax(ak)//得到语义模型概率pi
8.qi=P(z|Z-bꎬαꎬβ)//得到主题模型概率qi
9.Pi=δpi+(1-δ)qi//得到最终概率分布10.END3㊀实验过程结果与分析3.1㊀实验环境与任务
实验使用Python语言3.7版本ꎬ实现基于深度学习和主题模型的短文本分类模型ꎬ在Pytorch运行环境下ꎬ采用Jieba组件进行文本分词ꎬ使用word2vec模型训练词向量.在中国微博情感分析数据集[15]㊁产品评价数据集[16]㊁中文新闻标题数据集[17]和通过借鉴Sogou新闻数据集建立的短文本新闻数据集上进行文本分类实验.4个数据集都包含标签ꎬ如表1所示.
表1㊀实验数据集的细节
数据集
类别训练集/验证集/测试集平均字节平均词数微博
73500/600/45025.5016.23产品评价
27500/1350/100060.1539.89新闻标题
18155000/27000/1000020.5013.20主题数据集206000/1000/70015.327.65
3.2㊀实验参数设置
对于所有的模型ꎬ使用Adam优化算法进行学习ꎬ学习率为0.01.批量大小设置为64.训练正向传递和反向传递设置为20回.LABTM模型在搜狗新闻数据集上预先训练的50维度概念词向量ꎬ如果一个词是未知的ꎬ将随机初始化它的概念词向量.LABTM模型50维度的概念词向量ꎬ这些概念词向量也随机初始化.使用宽度为[2ꎬ3ꎬ4]大小为50层的1DCNN滤波一共150个.
超参数的设置可基于验证集进行估计ꎬ并用于最终测试集:u=64ꎬda=70ꎬdb=35.为了不给算法增加负担和经济损失ꎬ本文没有采用自动学习ꎬ而是通过手动调节参数δꎬ在接下来实验中选取若干代表性值ꎬ这些值不影响提高模型分类准确性.
由表2可知超参数δ的值不同ꎬ短文本分类的准确率也不同ꎬ所以在下面的实验中根据表2来设置超系数δꎬ以便得到更高的文本分类准确率.
表2㊀超参数δ对于文本准确率的影响
模型
准确率微博产品评价新闻标题主题数据集LABTM(δ=0.00)
0.42800.86000.73900.7370LABTM(δ=0.25)
0.43200.87000.74300.8007LABTM(δ=0.50)
0.42600.87860.73800.8002LABTM(δ=0.75)
0.42200.86430.73800.7959LABTM(δ=1.00)0.41600.85570.73600.7965
3.3㊀结果对比分析
将提出的LABTM模型与以下方法进行对比:
•TextCNN[18]:该模型是文本分类的经典基准.它使用基于预训练单词嵌入的卷积神经网络
(CNN).•TextRNN[19]:该方法使用递归卷积神经网络进行文本分类.它应用循环神经网络(RNN)捕捉上下文信息ꎬ并用CNN去捕捉短文本关键词.221㊀㊀㊀辽宁大学学报㊀㊀自然科学版2022年㊀㊀
㊀㊀
•TextRNN_Att[20]:是TextRNN的强化方法ꎬ增加注意力机制来提高分类水平.
•BiLSTM-MP[21]:该模型是为序列短文本分类而提出的.通过使用最大池来获得句子表示ꎬ然后使用多层感知器来输出分类结果.
•KPCNN[22]:该模型是短文本分类的最新方法.它利用CNN根据短文本和概念的单词和字符
级别信息进行分类
.图4 不同数据集上比较模型的准确性
由图4可知ꎬLABTM模型与5个模
型相比ꎬ各方面不一定都优于它们ꎬ比如
在中国微博情感分析数据库中就不是让
人很满意.可能的原因是微博存在一些
网络语或者表情等因素造成的准确性不
是很强ꎬ但是整体的分类准确率高于传
统没有使用知识库和主题模型的深度神
经网络ꎬ包括TextCNN㊁TextRNN㊁
TextRNN_Att㊁BiLSTM-MP和KPCNN.
主要原因是LABTM模型借助于KBs丰富了短文本信息ꎬ并通过全局主题分布ꎬ以及深度神经网络提取语义特征ꎬ这对短文本分类有很大的贡献.与传统的神经网络相比ꎬLABTM模型更像是一个人ꎬ 他 有内在的能力来处理基于观察(即神经网络和主题模型)以及自身现有的知识.此外LABTM模型也比BiLSTM-MP模型表现得好ꎬ因为LABTM模型在深度学习的模型中加入了注意力机制ꎬ能够更关注特征词的重要性.最后通过在不同数据集上取得不同值得到更高效的分类准确度.综上所述ꎬLABTM模型在短文本分类中得到了好的效果.
4㊀结束语
本文研究短文本分类ꎬ综合考虑了局部和全局以及外部知识的特征.分别从主题概率分布㊁语义和外部知识进行分类.利用了BTM主题模型㊁深度学习㊁知识库知识增益等方法ꎬ提高了分类的准确性.实验结果表明ꎬ相比传统单一方法进行分类ꎬ本文的综合性分类方法准确性更高些.在实验中还发现知识库的实体概念缺乏ꎬ下一步将研究知识库的语义消歧和多方面增加注意力机制ꎬ并补充知识库的不完全性ꎬ以及对于一些网络语言和聊天工具中的微表情进行向量转化ꎬ通过分类使其模型得到更高的准确率.
参考文献:
[1]㊀AminSꎬUddinMIꎬHassanSꎬetal.RecurrentneuralnetworkswithTF-IDFembeddingtechniquefordetectionandclassificationintweetsofdenguedisease[J].IEEEAccessꎬ2020ꎬ8:131522-131533.
[2]㊀TanXꎬZhuangMNꎬLuXꎬetal.Ananalysisoftheemotionalevolutionoflarge-scaleInternetpublicopinioneventsbasedontheBERT-LDAhybridmodel[J].IEEEAccessꎬ2021ꎬ9:15860-15871.
[3]㊀牛硕硕ꎬ柴小丽ꎬ李德启ꎬ等.一种基于神经网络与LDA的文本分类算法[J].计算机工程ꎬ2019ꎬ45(10):
208-214.[4]㊀XiaoLZꎬWangGZꎬZuoY.ResearchonpatenttextclassificationbasedonWord2VecandLSTM[C]//201811thinternationalsymposiumoncomputationalintelligenceanddesign(ISCID).Hangzhou:IEEEꎬ2018:71-74.
[5]㊀CaoRꎬFangLYꎬLuTꎬetal.Self-attention-baseddeepfeaturefusionforremotesensingsceneclassification[J].IEEEGeoscienceandRemoteSensingLettersꎬ2021ꎬ18(1):43-47.3
21㊀第2期㊀㊀㊀㊀㊀㊀王青松ꎬ等:基于深度学习和主题模型的短文本分类方法
㊀㊀[6]㊀WangK.Classifierdesigntoimprovepatternclassificationandknowledgediscoveryforimbalanceddatasets[D].ChapelHill:TheUniversityofNorthCarolinaatChapelHillꎬ2009.
[7]㊀ZhangNꎬXuXꎬTaoLꎬetal.Deepke:Adeeplearningbasedknowledgeextractiontoolkitforknowledgebasepopulation[EB/OL].(2021-01-24)[2021-05-14].2022:arXiv:2201.03335.https://arxiv.53yu.com/abs/
2201.03335.[8]㊀LuongTꎬPhamHꎬManningCD.Effectiveapproachestoattention-basedneuralmachinetranslation[C]//Proceedingsofthe2015ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.Lisbon:Associationfor
ComputationalLinguisticsꎬ2015:1412-1421.[9]㊀XuBꎬXuYꎬLiangJQꎬetal.CN ̄DBpedia:Anever-endingChineseknowledgeextractionsystem[C]//(eds)Advancesinartificialintelligence:Fromtheorytopractice.IEA/AIE2017.SpringerꎬChamꎬ2017:428-438.
[10]㊀ChenKꎬShenGHꎬHuangZQꎬetal.Improvedentitylinkingforsimplequestionansweringoverknowledgegraph
[J].InternationalJournalofSoftwareEngineeringandKnowledgeEngineeringꎬ2021ꎬ31(1):55-80.[11]㊀LuoSHꎬWangPLꎬCaoM.Anovelapproachforanalyzingentitylinkingbetweenwordsandentitiesfora
knowledgebaseusinganattention-basedbilinearjointlearningandweightedsummationmodel[J].IEEEAccessꎬ2020ꎬ8:1556-1566.
[12]㊀袁自勇ꎬ高曙ꎬ曹姣ꎬ等.基于异构图卷积网络的小样本短文本分类方法[J].计算机工程ꎬ2021ꎬ47(12):87-
94.[13]㊀PanYLꎬYinJꎬLiuSPꎬetal.Abiterm-baseddirichletprocesstopicmodelforshorttexts[C]//Proceedingsofthe3rdinternationalconferenceoncomputerscienceandservicesystemꎬadvancesinintelligentsystemsresearch.
Bangkok:AtlantisPressꎬ2014:301-304.
[14]㊀ParkHꎬParkTꎬLeeYS.PartiallycollapsedGibbssamplingforlatentDirichletallocation[J].ExpertSystemsWithApplicationsꎬ2019ꎬ131:208-218.
[15]㊀ZhouHꎬHuangMLꎬZhangTYꎬetal.Emotionalchattingmachine:Emotionalconversationgenerationwithinternalandexternalmemory[EB/OL].(2018-06-01)[2021-04-14].2017:arXiv:1704.01074.https://arxiv.org/
abs/1704.01074
[16]㊀ZhouYꎬXuRFꎬGuiL.AsequencelevellatenttopicmodelingmethodforsentimentanalysisviaCNNbaseddiversifiedrestrictboltzmannmachine[C]//2016Internationalconferenceonmachinelearningandcybernetics
(ICMLC).JejuIsland:IEEEꎬ2016:356-361.[17]㊀QiuXPꎬGongJJꎬHuangXJ.OverviewoftheNLPCC2017sharedtask:Chinesenewsheadlinecategorization
[C]//NaturalLanguageProcessingandChineseComputing.Dalian.Chamꎬ2018:948-953.[18]㊀KimY.Convolutionalneuralnetworksforsentenceclassification[C]//Proceedingsofthe2014conferenceon
empiricalmethodsinnaturallanguageprocessing(EMNLP).Doha:AssociationforComputationalLinguisticsꎬ
2014:1746-1751.[19]㊀ZhouCTꎬSunCLꎬLiuZYꎬetal.AC-LSTMneuralnetworkfortextclassification[EB/OL].(2015-11-30)
[2021-04-14].2015:arXiv:1511.08630.https://arxiv.org/abs/1511.08630
[20]㊀XieJꎬChenBꎬGuXLꎬetal.Self-attention-basedBiLSTMmodelforshorttextfine-grainedsentimentclassification[J].IEEEAccessꎬ2019ꎬ7:180558-180570.
[21]㊀LaiSWꎬXuLHꎬLiuKꎬetal.Recurrentconvolutionalneuralnetworksfortextclassification[C]//Proceedingsofthetwenty ̄ninthAAAIconferenceonartificialintelligence.Austin:AssociationfortheAdvancementofArtificial
Intelligenceꎬ2015:2267-2273.
[22]㊀WangJꎬWangZYꎬZhangDWꎬetal.Combiningknowledgewithdeepconvolutionalneuralnetworksforshorttextclassification[C]//Proceedingsofthetwenty ̄sixthinternationaljointconferenceonartificialintelligence.
Melbourne:InternationalJointConferencesonArtificialIntelligenceOrganizationꎬ2017:2915-2921.(责任编辑㊀郑绥乾)
421㊀㊀㊀辽宁大学学报㊀㊀自然科学版2022年㊀㊀。