【CN109918507A】一种基于TextCNN改进的文本分类方法【专利】

合集下载

一种改进的文本分类算法

一种改进的文本分类算法

一种改进的文本分类算法任朋启;王芳;黄树成【期刊名称】《电子设计工程》【年(卷),期】2017(025)018【摘要】文本分类技术是文本挖掘技术中的研究热点之一,但是传统KNN分类算法的时间复杂度高,在不均匀密度样本下分类准确率低.针对这些问题,提出一种在不均匀密度样本下的优化KNN算法:IKNN算法.首先选取样本分类不均匀的训练样本,并对其中高密度样本做出相应的裁剪,以提高准确率.然后在此基础上,针对裁剪后的训练样本使用投影寻踪理论,选取更小的、更具代表性的样本库,以降低分类算法的时间复杂度.在此理论基础上,通过实验表明,在大量的训练样本下,与经典KNN算法相比,IKNN算法具有更高的效率和准确率.%Text classification, as a kind of text mining, has been a hot research area. However, the traditional KNN algorithm is accompanied with higher time complexity and when applied to asymmetric density samples, it produces low classification accuracy. Considering the disadvantage of KNN, an improved algorithm IKNN is suggested. Firstly, samples with asymmetric density are specially chosen and circularly tailored in order to improve the accuracy rate. Secondly, on the base of the tailored samples, projection pursuit theory is employed to choose smaller and more representative sample database for a lower time complexity of classification algorithm. Thus, the experiment suggests that, based on the above theory, the IKNN algorithm is endowed with higherefficiency and accuracy than the traditional KNN algorithm in solving a large number of samples.【总页数】5页(P1-5)【作者】任朋启;王芳;黄树成【作者单位】江苏科技大学计算机科学与工程学院,江苏镇江 212003;江苏科技大学计算机科学与工程学院,江苏镇江 212003;江苏科技大学计算机科学与工程学院,江苏镇江 212003【正文语种】中文【中图分类】TN02【相关文献】1.云计算环境下的一种改进的贝叶斯文本分类算法 [J], 张琳;邵天昊2.一种改进的增量式贝叶斯文本分类算法 [J], 吴国文;庄千料3.一种改进的基于质心的文本分类算法 [J], 陈震;吴斌;沈崇玮;张忠辉;王柏4.一种基于多特征因子改进的中文文本分类算法 [J], 叶敏;汤世平;牛振东5.一种改进的SVM文本分类算法 [J], 王义忠;刘循;吴迪因版权原因,仅展示原文概要,查看原文内容请购买。

【CN109840279A】基于卷积循环神经网络的文本分类方法【专利】

【CN109840279A】基于卷积循环神经网络的文本分类方法【专利】

入门的偏置值, 表示当前输入的单元状态,它是根据上一次的输出和当前的输入计算得
来的 ,Wc表示当前输入的单元状态的权重矩阵 ,bc表示当前输入的单元状态的偏置值 ,ct表 示当前时 刻的单元状态 ,它是由 遗忘门ft乘以 上一时 刻的单元状态ct-1 ,再 加上输入门it乘 以当前输入的单元状态 的和计算得来,这样就把LSTM长期的记忆ct-1与当前的记忆 结合 在一起形成新的单元状态ct ,ot表示输出门 ,Wo代表输出门的权重居中 ,bo代表输出门的 偏 置值,ht表示最终的输出,它是由单元状态ct和输出门ot共同确定。 [0025] 进一步的,本方法还包括步骤S05)、增加全连接层,全连接层输出维度为训练集中 的 类 别 数 目 并 且 通 过 S o f t m a x 函 数 计 算 样 本 属 于 各 个 类 别 的 概 率 ,计 算 公 式 为
h1F(i)=f(WF·X(i:i+F-1)+b) (2),
h1F=[h1F(1) ;h1F(2) ;...;h1F(H2)] (3) , hr1F=relu(h1F) (4) , 公式中 ,H2表示卷积后特征图的高度 ,H1表示卷积前输入的高度 ,F表示卷积核的高度 ,P 表示Padding的大小,S表示步长, 表示向下取整,WF表示高度为F的卷积核,X(i:i+F-1) 表示样本输入向量中从第i个特征到第i+F-1个特征的局部特征向量,b表示偏置值; S03) 、使 用最大池化层Ma xPooling1 D对卷积后的 结果进行池化以 提取文本的 重要特 征,然后将池化后的结果使用Concatenate函数连接起来作为LSTM层的输入,计算公式分别 如公式5、6所示, hrp1F=max(hr1F) (5),
4 .根据权利要求1所述的基于卷积循环神经网络的文本分类方法,其特征在于:步骤 S02中使用一维卷积层对输入进行卷积操作,卷积核的高度分别取2和3两个尺度,卷积核的 数目为256,激活函数为Relu函数。

【CN109977950A】一种基于混合CNNLSTM网络的文字识别方法【专利】

【CN109977950A】一种基于混合CNNLSTM网络的文字识别方法【专利】

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910222217.X(22)申请日 2019.03.22(71)申请人 上海电力学院地址 200090 上海市杨浦区平凉路2103号(72)发明人 袁三男 沈兆轩 刘虹 孙哲 刘志超 (74)专利代理机构 上海科盛知识产权代理有限公司 31225代理人 叶敏华(51)Int.Cl.G06K 9/32(2006.01)G06K 9/62(2006.01)(54)发明名称一种基于混合CNN-LSTM网络的文字识别方法(57)摘要本发明涉及一种基于混合CNN -LSTM网络的文字识别方法,包括步骤:1)获取包含文本的图片,将图片灰度化、归一化;2)将图片分为训练样本和测试样本两部分,将训练样本图片对应的文本根据字典转码成二值向量序列作为标签;3)将处理过的训练样本的图片与标签输入混合CNN -LSTM网络中进行数据训练,获取识别模型;4)将处理后的图像和标签输入识别模型,输出特征矩阵;5)将特征矩阵采用梯度下降法进行CTC_loss 计算,获取损失函数结果;6)重复1)~3),直至损失函数结果最小,获取其对应的文本标签序列作为预测数据;7)将预测数据根据字典再次反转码得到文本,获取文字识别结果。

与现有技术相比,本发明具有简化运算、增强识别效果等优点。

权利要求书1页 说明书3页 附图2页CN 109977950 A 2019.07.05C N 109977950A权 利 要 求 书1/1页CN 109977950 A1.一种基于混合CNN-LSTM网络的文字识别方法,其特征在于,该方法包括以下步骤:1)获取包含文本的图片(w,h,n),将图片灰度化、归一化;2)将图片分为训练样本和测试样本两部分,并将训练样本图片对应的文本根据字典转码成二值向量序列作为标签;3)将步骤2)中处理过的训练样本的图片与标签输入混合CNN-LSTM网络中进行数据训练,训练完成后获取识别模型;4)将步骤1)、2)处理后的图像和标签输入步骤3)中的识别模型,输出特征矩阵;5)将步骤4)中的特征矩阵采用梯度下降法进行CTC_loss计算,获取损失函数结果;6)重复步骤1)至步骤3),直至步骤5)中的损失函数结果最小,获取的最小的损失函数对应的文本标签序列作为预测数据;7)将预测数据根据字典再次反转码得到文本,获取测试样本的文字识别结果。

【CN109918500A】基于卷积神经网络的文本分类方法及相关设备【专利】

【CN109918500A】基于卷积神经网络的文本分类方法及相关设备【专利】
通过所述第二全连接层进行融合后获得第二融合信息,并将所述第二融合信息发送给 输出层;
通过所述输出层的 sof tma x函数根据所述第二融合 信息获取每个文本类型的 概率 ,在 所述概率中获取最大的概率,并将所述最大的概率对应的文本类型作为所述待分类文本的 类型进行输出。
8 .一种基于卷积神经网络的文本分类装置,其特征在于,所述装置包括: 向量映射模块:设置为获取词与词向量之间的映射关系以及字与字向量之间的映射关 系; 向 量生成模块 :设置为获取待分类文本 ,并根据所述 词与词向 量之间的映 射关 系以 及 字与字向量之间的映射关系将所述待分类文本转换成词向量及字向量; 文本分类模块 :设置为将所述 词向 量及字向 量输入卷积神经网络文本分类模型 ,并通 过所述卷积神经网络文本分类模型对所述词向量及字向量进行融合,获得所述待分类文本 的类型。 9 .一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器中 存储有计算机可读指令 ,所述计算机可读指令被一个或多个所述处理器执行时 ,使得一个 或多个所述处理器执行如权利要求1至7中任一项所述文本分类方法的步骤。 10 .一种存储介质,其特征在于,所述存储介质可被处理器读写,所述存储介质存储有 计算机指令 ,所述计算机可读指令被一个或多个处理器执行时 ,使得一个或多个处理器执 行如权利要求1至7中任一项所述文本分类方法的步骤。
(74)专利代理机构 北京市京大律师事务所 11321
代理人 刘立天
(51)Int .Cl . G06F 16/35(2019 .01) G06F 17/27(2006 .01) G06K 9/62(2006 .01) G06N 3/04(2006 .01)
( 54 )发明 名称 基于卷积神经网络的文本分类方法及相关

基于改进TextRank的科技文本关键词抽取方法

基于改进TextRank的科技文本关键词抽取方法

基于改进TextRank的科技文本关键词抽取方法杨冬菊;胡成富【期刊名称】《计算机应用》【年(卷),期】2024(44)6【摘要】针对科技文本关键词抽取任务中抽取出现次数少但能较好表达文本主旨的词语效果差的问题,提出一种基于改进TextRank的关键词抽取方法。

首先,利用词语的词频-逆文档频率(TF-IDF)统计特征和位置特征优化共现图中词语间的概率转移矩阵,通过迭代计算得到词语的初始得分;然后,利用K-Core(K-Core decomposition)算法挖掘KCore子图得到词语的层级特征,利用平均信息熵特征衡量词语的主题表征能力;最后,在词语初始得分的基础上融合层级特征和平均信息熵特征,从而确定关键词。

实验结果表明,在公开数据集上,与TextRank方法和OTextRank(Optimized TextRank)方法相比,所提方法在抽取不同关键词数量的实验中,F1均值分别提高了6.5和3.3个百分点;在科技服务项目数据集上,与TextRank方法和OTextRank方法相比,所提方法在抽取不同关键词数量的实验中,F1均值分别提高了7.4和3.2个百分点。

实验结果验证了所提方法抽取出现频率低但较好表达文本主旨关键词的有效性。

【总页数】7页(P1720-1726)【作者】杨冬菊;胡成富【作者单位】北方工业大学信息学院;大规模流数据集成与分析技术北京市重点实验室(北方工业大学)【正文语种】中文【中图分类】TP391.1【相关文献】1.融合多特征的TextRank藏文文本关键词抽取方法研究2.基于改进TextRank的铁路文献关键词抽取算法3.基于改进TextRank的关键词抽取算法4.基于词向量与TextRank的政策文本关键词汇抽取方法研究5.基于先验知识TextRank的学术文本关键词抽取因版权原因,仅展示原文概要,查看原文内容请购买。

文本分类方法[发明专利]

文本分类方法[发明专利]

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202010595117.4(22)申请日 2020.06.24(71)申请人 上海应用技术大学地址 200235 上海市徐汇区漕宝路120-121号(72)发明人 刘云翔 徐齐 原鑫鑫 张国庆 唐泽莘 (74)专利代理机构 上海汉声知识产权代理有限公司 31236代理人 胡晶(51)Int.Cl.G06F 16/35(2019.01)G06F 16/36(2019.01)G06N 3/04(2006.01)G06N 3/08(2006.01)(54)发明名称文本分类方法(57)摘要本发明提供了一种文本分类方法,方法首先对带标签的文本数据进行清洗,分数据集;然后将文本序列映射为文本向量S;并将文本向量S输入到双向LSTM网络中得到与文本向量S维度相同的文本向量S1、S2,由文本向量S、S1、S2计算得到文本向量S w 。

最后,将句子S w 输入到神经网络中按照预设的超参数训练模型,根据模型在验证集上的表现选取最优的模型。

本发明利用LSTM网络获取全局文本信息,并通过加权求和方式得到包含全局信息的文本向量S w ,实验结果显示,该模型取得了较好的分类精度。

权利要求书2页 说明书5页 附图3页CN 111737470 A 2020.10.02C N 111737470A1.一种文本分类方法,其特征在于,包括:步骤S1,对带标签的文本数据进行清洗,对清洗后的带标签的文本数据划分训练数据集和验证集;步骤S2,统计训练数据集中的文本数据,然后将文本数据中文本序列替换为单词索引序列;步骤S3,构建词向量字典;步骤S4,基于所述词向量字典,将所述单词索引序列映射为文本向量S;步骤S5,基于所述文本向量S,获取文本全局信息向量S1、S2;步骤S6,由文本向量S和文本全局信息向量S1、S2计算得到文本向量S w;步骤S7,利用改进的CNN网络模型提取文本向量S w中的文本类别信息,以输出文本类别;步骤S8,根据文本数据的标签和改进的CNN网络模型输出的文本类别和计算损失函数;步骤S9,重复步骤S2~步骤S8,以批量输入训练数据,使用批量梯度下降算法优化损失函数;步骤S10,根据改进的CNN网络模型在所述验证集上的表现,选取最优的改进的CNN网络模型作为最终的模型。

一种基于TextRank的应用偏好文本分类方法[发明专利]

一种基于TextRank的应用偏好文本分类方法[发明专利]

专利名称:一种基于TextRank的应用偏好文本分类方法专利类型:发明专利
发明人:王海廷,杨从安
申请号:CN201911106117.7
申请日:20191113
公开号:CN111061869A
公开日:
20200424
专利内容由知识产权出版社提供
摘要:本发明提供了一种基于TextRank的应用偏好文本分类方法,包括如下步骤:根据TextRank算法,生成每个应用的关键词字段,构成第一关键词库;根据多个二级分类,为每个二级分类标记一个种子关键词;根据种子关键词,在第一关键词库中模糊检索包含所述种子关键词的应用,并将所述包含种子关键词的应用打上二级分类;再次使用TextRank算法,对所有二级分类下的所有应用的种子关键词进行全量计算,生成所述多个二级分类下的第二关键词库;再次遍历应用表,对每一个关键词字段中的内容与第二关键词库进行字符串相似度匹配,如果相似度低于预设阈值,则删除所述应用与当前二级分类之间的关联。

本发明可以自学习,根据每次生成的核心关键词的效果,逐步剔除不相关的关键词,提升准确率。

申请人:北京数字联盟网络科技有限公司
地址:100088 北京市海淀区知春路6号(锦秋国际大厦)16层B01
国籍:CN
代理机构:北京庆峰财智知识产权代理事务所(普通合伙)
代理人:周小平
更多信息请下载全文后查看。

一种文本分类的方法[发明专利]

一种文本分类的方法[发明专利]

专利名称:一种文本分类的方法专利类型:发明专利
发明人:耿玉水,杨涛,杨振宇
申请号:CN201510267849.X 申请日:20150522
公开号:CN104866573A
公开日:
20150826
专利内容由知识产权出版社提供
摘要:本发明公开了一种文本分类的方法,其具体实现过程为:首先获取网络中的文本;对文本进行预处理,提取特征词,对网络中的文本进行分词,然后去除停用词;计算出网络文本中各特征词的权重,并将文本用向量模型进行表示。

该文本分类的方法与现有技术相比,具有很强的适应性,能满足大部分不同文本的分类要求,有利于文本分类,实用性强。

申请人:齐鲁工业大学
地址:250353 山东省济南市西部新城大学科技园
国籍:CN
代理机构:济南信达专利事务所有限公司
代理人:孟峣
更多信息请下载全文后查看。

【CN109918499A】一种文本分类方法装置计算机设备及存储介质【专利】

【CN109918499A】一种文本分类方法装置计算机设备及存储介质【专利】
2
CN 109918499 A
权 利 要 求 书
被处理器执行时实现权利要求1至7任一项所述方法的步骤。
2/2 页
3
CN 109918499 A
说 明 书
一种文本分类方法、装置、计算机设备及存储介质
1/7 页
技术领域 [0001] 本发明属于自然语言处理领域,涉及一种基于语境词向量和深度学习的文本分类 方法。
发明内容 [0004] 本发明的目的是提供一种多损失函数文本分类方法、装置、计算机设备及存储介 质,用于解决现有技术存在的问题,具备了更好的学习及泛化能力。 [0005] 为实现上述目的,本发明提供一种多损失函数文本分类方法,包括以下步骤: [0006] S10:构建词向量,将输入文本转化为词向量形式; [0007] S20:将S10中的词向量分别输入到至少两组情感分类器进行训练,所述情感分类 器对所述词向量进行 训练后 ,将各自全连接层分别输出到各自的loss函数中 ,各情感分类 器根据业务不同的分类需求选择不同情感特征; [0008] S30:交叉学习并更新情感分类器,根据情感分类器的数量,将各loss函数按照等 权重加成到LOSSes中作为整体损失函数,并根据所述整体损失函数对所述各情感分类器进 行更新,直到整体损失函数不再降低为止。 [0009] 作为一优选方案,所述步骤S10中,使用word2vec构建词向量。 [0010] 作为一优选方案,所述步骤S20中,设置一级情感分类器与二级情感分类器,所述 S1中的词向量作为一级情感分类器与二级情感分类器的输入,并将所述一级情感分类器与 二级情感分类器全连接层输出到各自的loss函数中。 [0011] 作为一优选方案,所述步骤S20中,所述基于TextRNN结合attention机制建立一级 情感分类器; [0012] 和/或,基于TextCNN建立所述二级情感分类器。 [0013] 进一步的 ,所述一级情感分类器中,对TextRNN中每一个节点ht分配了权重αt,使

【CN109710770A】一种基于迁移学习的文本分类方法及装置【专利】

【CN109710770A】一种基于迁移学习的文本分类方法及装置【专利】
( 19 )中华人民 共和国国家知识产权局
( 12 )发明专利申请
(21)申请号 201910101012 .6
(22)申请日 2019 .01 .31
(71)申请人 北京牡丹电子集团有限责任公司数 字电视技术中心
地址 100191 北京市海淀区花园路2号
(72)发明人 柳宜江 武开智
(74)专利代理机构 北京轻创知识产权代理有限 公司 11212
3
CN 109710770 A
说 明 书
2/5 页
[0011] 进一步,所述文本的语义为句子的语义文件。 [0012] 进一步,所述经卷积神经网络处理的过程包括: [0013] 将所述文本的语义文件经卷积层处理得到特征图; [0014] 将所述特征图输入池化层,经最大池化处理得到词向量并将所述词向量串联成特 征向量; [0015] 将所述特征向量输入softmax层进行归一化处理得到所述语义文件中的句子的类 别标签。 [0016] 第二方面,本发明提供了一种基于迁移学习的文本分类装置,包括: [0017] 预训练模块,用于使用未标注的文本训练BERT模型,得到预训练好的词表示BERT 模型; [0018] 预处理模块,用于过滤所述待分类的文本中的链接、转发符号以及用户名的内容; [0019] 文本训练模块,用于将过滤后的所述文本再次输入所述预训练模块中训练好的所 述词表示BERT模型,得到文本的语义; [0020] 计算分类模块,用于将所述文本的语义文件输入卷积神经网络处理,得到所述语 义文件中的句子的类别标签。 [0021] 进一步,所述预训练模块中使用无标注中文文本训练BERT模型,得到所述中文文 本的语义表示,构成了预训练好的词表示BERT模型。 [0022] 进一步,所述文本的语义为句子的语义文件。 [0023] 进一步,所述经卷积神经网络处理的过程包括: [0024] 将所述文本的语义文件经卷积层处理得到特征图; [0025] 将所述特征图输入池化层,经最大池化处理得到词向量并将所述词向量串联成特 征向量; [0026] 将所述特征向量输入softmax层进行归一化处理得到所述语义文件中的句子的类 别标签。 [0027] 与现有技术相比,本发明具有以下的优点和有益效果: [0028] 1、本发明方法使用迁移学习进行文本分类,提出了一种使用基于大规模无标注的 语料训练出的BERT词表示模型。该词表示模型具有通用性,不依赖于具体的文本领域,也可 以用在其他的任务如实体抽取、情感分析等。 [0029] 2、本发明方法使用基于端到端的模型,不依赖于特征工程,避免了特征工程带来 的工作量。 [0030] 3、本发明方法使用基于迁移学习的文本分类方法,降低了深度学习模型对训练数 据量的需求 ,仅使 用少量的 标注数据就可以 达到很好的效果 ,减 少了数据标注带来的 人工 工作量。

一种改进的基于质心的文本分类算法

一种改进的基于质心的文本分类算法

一种改进的基于质心的文本分类算法陈震;吴斌;沈崇玮;张忠辉;王柏【摘要】Text categorisation is a hot topic in data mining and information retrieval, and has been rapidly developing in recent years. Centroid-based approach is a text categorisation method modelling fast and having good effect, many researchers have studied this method thoroughly and put forward the improvement strategies to incessantly raise the performance of it. In this paper, we propose a novel algorithm to dynamically adjust the centroid position. The algorithm adjusts the centroid position dynamically based on every sample text in training set. Besides, we tackle the bottleneck aiming at mass data, make use of two current parallel computing frameworks, MapReduce and BSP, and put forward the parallel strategy of the algorithm. By the comparative experiments on 5 different datasets with other algorithms, we prove that the algorithm has quite accurate classification effect.%文本分类是数据挖掘与信息检索领域的热点话题,近年来迅速发展.基于质心的方法是一种建模迅速且效果较好的文本分类方法,许多学者对该方法进行了深入研究并提出改进策略,不断提高算法效果.提出一种新的动态调整质心位置算法,该算法根据训练集中的每个样本文本动态的调整质心位置.并且针对海量数据处理瓶颈,运用当前两种并行计算框架MapReduce和BSP,提出了算法的并行策略.通过与其它算法在5种不同数据集中的对比实验,证明该方法确有较准确的分类效果.【期刊名称】《计算机应用与软件》【年(卷),期】2013(030)001【总页数】6页(P43-47,54)【关键词】文本分类;质心向量;动态调整;并行计算【作者】陈震;吴斌;沈崇玮;张忠辉;王柏【作者单位】北京邮电大学计算机学院北京100876;北京邮电大学计算机学院北京100876;北京邮电大学计算机学院北京100876;北京邮电大学计算机学院北京100876;北京邮电大学计算机学院北京100876【正文语种】中文【中图分类】TP3910 引言文本分类,是指依据文本的内容,由计算机根据某种自动文本分类算法,把文本判断为预先定义好的类别的过程[1]。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910174176.1
(22)申请日 2019.03.08
(71)申请人 北京工业大学
地址 100124 北京市朝阳区平乐园100号
(72)发明人 张涛 王露瑶 陈才 朱安琥 
(74)专利代理机构 北京思海天达知识产权代理
有限公司 11203
代理人 沈波
(51)Int.Cl.
G06F 16/35(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称一种基于TextCNN改进的文本分类方法(57)摘要本发明公开了一种基于TextCNN改进的文本分类方法,本方法采用改进后的TextCNN,改进后的TextCNN包括输入层,循环的卷积层与半池化层,全局池化层,输出层。

输入层:通过词向量word embeddings将自然语言中的字词转为计算机理解的稠密向量Dense Vector。

假设定义词向量的维度是n,定义句子最大限度包含单词数量为m,构成一张m*n的二维矩阵。

循环的卷积与半池化层:等长卷积层,残差连接,循环叠加卷积与半池化。

全局池化层:将以3,4,5个单词为单位同时进行卷积池化后的向量横向相加,增加特征的维度。

输出层:该层的输入为全局池化层,经过SoftMax层作为输出层,进行分类。

对于多分类问题使用SoftMax层,对于二分类问题使用一个含
有sigmoid激活函数的神经元作为输出层。

权利要求书1页 说明书4页 附图3页CN 109918507 A 2019.06.21
C N 109918507
A
权 利 要 求 书1/1页CN 109918507 A
1.一种基于TextCNN改进的文本分类方法,其特征在于:本方法采用改进后的TextCNN,改进后的TextCNN包括输入层,循环的卷积层,全局池化层,输出层;
1)、输入层:通过词向量word embeddings将自然语言中的字词转为计算机理解的稠密向量Dense Vector;假设定义词向量的维度是n,定义句子最大限度包含单词数量为m,构成一张m*n的二维矩阵;
2)、循环的卷积与半池化层:
(1)等长卷积层:为了保持整个语句的长度不被改变,会使用等长卷积;假设卷积核的尺寸为L,那么就意味着那就是将输入语句的每个词位和其左右((L-1)/2)个词的上下文信息压缩为该词位的embedding,也就是说,产生了每个词位的被上下文信息修饰过的更高级别更加准确的语义;
(2)残差连接:将该层的输入层与等长卷积后的卷积层相加;由于在初始化深度CNN时,往往各层权重都是初始化为一个很小的值,这就导致最开始的网络中,后续几乎每层的输入都是接近0,这时网络的输出自然是没意义的,而这些小权重同时也阻碍了梯度的传播,使得网络的初始训练阶段往往要迭代多层才能启动;直接用一条线把上一层的输出层连接到每个循环单元的输入乃至最终的池化层/输出层;这时的残差连接由于连接到了各个循环的单元的输入,当然为了匹配输入维度,要事先经过对应次数的1/2池化操作;有了残差连接后,梯度就能够忽略卷积层权重的削弱,从残差连接一路无损的传递到各个循环的单元,直至网络前端,从而极大的缓解了梯度消失问题;
(3)半池化层:在池化层每经过一个大小为3,步长为2的池化层,以下简称半池化层,序列的长度就被压缩成了原来的一半;这样,同样是size=3的卷积核,每经过一个1/2池化层后,能感知到的文本片段就比之前长了一倍;由于半池化层的存在,文本序列的长度会随着循环单元数量的增加呈指数级减少;
(4)循环叠加卷积与半池化:通过增加网络的深度,获得单词与单词之间的特征关系,增加特征维度;随着网络深度的增加可以抽取长距离的文本依赖关系,从而提高文本分类的准确性;
3)、全局池化层:将以3,4,5个单词为单位同时进行卷积池化后的向量横向相加,增加特征的维度;全连接层存在限制输入维度大小,参数过多的问题;全连接层需将所有特征图转成向量拼接后再全连接;
4)、输出层:该层的输入为全局池化层,经过SoftMax层作为输出层,进行分类;对于多分类问题使用SoftMax层,对于二分类问题使用一个含有sigmoid激活函数的神经元作为输出层。

2.根据权利要求1所述的一种基于TextCNN改进的文本分类方法,其特征在于:通过多尺寸卷积以及增加网络的深度,获得单词与单词之间的特征关系,增加特征维度;随着网络深度的增加可以抽取长距离的文本依赖关系,从而提高文本分类的准确性。

2。

相关文档
最新文档