基于超图的双模态特征融合的作物病害识别算法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
张 净,邵文文,刘晓梅,等.基于超图的双模态特征融合的作物病害识别算法[J].江苏农业科学,2023,51(15):164-173.doi:10.15889/j.issn.1002-1302.2023.15.023
基于超图的双模态特征融合的作物病害识别算法
张 净1,邵文文1,刘晓梅2,李贺亮3,高 跃4,张轩诚4
(1.江苏大学电气信息工程学院,江苏镇江212013;2.江苏科茂信息技术有限公司,江苏镇江212000;
3.江苏大学艺术学院,江苏镇江212013;4.清华大学软件学院,北京100084)
摘要:农作物叶部病害已经严重影响农作物的产量和质量,为提高农作物叶片病害识别的效果、减少经济损失、提高种植者的收益,提出基于超图的双模态特征融合的农作物病害识别算法BimodalFINet。BimodalFINet由文本模态分支、图像模态分支和超图神经网络构成。首先利用循环神经网络和改进的卷积神经网络构造图像文本双分支并行结构,提取语义特征信息和富含空间位置信息的特征表示,得到2种模态特征,然后利用特征融合方法实现各分支特征信息的互补与融合,得到包含更加丰富的病害双模态特征信息。最后利用超图神经网络将上述融合后的双模态特征信息进行编码以获得数据之间的相关性和数据表示,提升模型识别准确率。结果表明,BimodalFINet的文本模态分支TextRNN取得91.28%的识别准确率,图像模态分支RexNext50-CA取得89.20%的识别准确率,相比于单个ResNext50模型提高了1.08百分点,联合模态分支取得92.32%的识别准确率,相比于图像和文本单模态模型分别提高了3.12百分点和1.04百分点,加入超图后模型取得94.83%的识别准确率,相比于联合模态模型提高了2.51百分点。嵌入超图后的模型具有更好的特征提取能力,能够为田间环境下农作物的病害识别提供有效技术支持。 关键词:农作物病害;超图神经网络;卷积神经网络;特征融合;双模态
中图分类号:TP391.41 文献标志码:A 文章编号:1002-1302(2023)15-0164-09
收稿日期:2022-11-05
基金项目:国家重点研发计划(编号:2019YFC1606600)。
作者简介:张 净(1975—),女,江苏镇江人,博士,副教授,硕士生导师,研究方向为计算机应用。E-mail:jszj08062000@163.com。通信作者:邵文文,硕士研究生,研究方向为机器视觉。E-mail:355060863@qq.com。
现阶段,农作物病害已经成为我国面临的重大挑战之一,随着农业生产能力的不断提升,生产环境随之复杂化,在生产过程中遇到病害的情况也越加频繁,对农作物的生长造成了非常严重的影响,
从而加剧农作物食品安全问题[1-2]。随着计算机技
术的不断进步,卷积神经网络在众多领域如图像识别方面不断取得新的突破,现阶段众多专家学者运用卷积神经网络提取病害特征,从而帮助农业工作者识别诊断农作物病害,及时发现农作物病害的症
状并作出预防措施[3-6]
。Too等基于PlantVillage数
据库对VGG、ResNet、DenseNet和ResNext等卷积神经网络进行评估,最终DenseNet达到了最佳的分类
效果[
7-11]
。侯志松等提出一种基于集成学习的图像分类模型,该模型平均准确率为96.9%,效果较
好[12]
。Hou等提出坐标注意力,该机制通过嵌入病
害位置信息到通道注意力,在获取更大范围的病害
信息的同时避免了较大开销,性能较好[
13]
。由于卷积神经网络的相邻输入并无直接相关性,而语言又具有序列性,所以卷积神经网络在语言识别领域中效果较差。循环神经网络某一时刻v隐藏层的值是由v的输入和v-1时的输入所决定的,所以循环神经网络适合序列数据的建模。Lai等提出一种基于循环神经网络(RNN)的文本分类模型T
extRNN,该模型利用RNN捕获更长的序列信息,从而获得更佳的识别效果[
14]
。图是不规则结构且蕴含丰富的信息,卷积神经
网络的卷积操作无法在图结构上进行有效的计算,而图神经网络节点通过边相连,将不同样本(节点)之间的关系等信息进行有效和充分的表达,从而图神经网络能够高效地利用样本(节点)实例之间的结构性特征,但普通图网络边的度仅被设置为2,不能建模数据之间的高阶关系,Berge提出超图理论并全面提出无相超图理论,同时对普通图和超图进行比较:超图是普通图的重要扩展,普通图仅能表现2个节点之间存在的相关性,而超图中的边即超边能包含任意数量的节点并能表现多个节点之间
存在的某种关系[15-16]
。黄汝激提出有向超图理论,
并解释分解超图等概念[17]
。Feng等提出超图神经
网络(HGNN)框架,与普通图结构边的度被限制为2不同,超图神经网络可以使用无度超边编码数据之间的相关性并通过超边卷积运算处理表示学习过程中的数据相关性,从而通过超图神经网络有效提升双模态融合的效果,进而提升模型识别准确率[18]。
现阶段大部分农作物病害识别模型都是基于图像模态,但在使用图像单模态进行农作物病害识别时,现有方法未能有效利用农作物病害描述文本信息,而人们根据相关农作物病害图像作出的文本描述通常含有丰富的语义信息,其与图像模态在描述病害信息中存在高度相关性和互补性,两者的结合能融合2种模态之间的共性和特性,现如今已有相关学者对此进行探究,并充分挖掘双模态甚至是多模态的潜力。本研究提出一种基于超图的双模态特征融合的农作物病害识别算法,将图像模态、文本模态以及超图神经网络进行结合以改善现有农作物病害识别方法识别准确率低的问题。
1 农作物病害识别模型
1.1 病害图像模态分支
本节将ResNext50-CA网络作为特征提取模块,模块包括ResNext50和坐标注意力机制2个部分。ResNext是结合ResNet与Inception思想设计的特征提取网络,采用残差结构和多分路卷积,并引入分组卷积以解决Inception网络需要专门设成不同结构导致参数量增多的问题,相同的构造不仅简化了网络,而且增强了模型的特征表达能力。为有效获取长范围依赖的信息,使模型更准确地定位并识别目标区域,本研究在ResNext50网络中嵌入坐标注意力,见图1-a。坐标注意力将通道注意力分为2个一维特征编码过程,分别沿2个空间方向聚合特征,通过水平与垂直方向注意力图不仅能捕获特征的远程依赖关系,还可以有效保持精准的位置信息,提高网络识别目标的准确率。
图1-b为嵌入坐标注意力机制前ResNext50网络残差模块的结构图,其中图1-a(除虚线包含的部分)与图1-b所示网络严格等价。由图1-b可知,每个分组结构都是采用1×1和3×3卷积操作组合而成,图像首先经过1×1卷积层降低维度,降低后续卷积操作的计算量,然后通过3×3卷积层获得相关特征信息,其次通过嵌入的坐标注意力机制捕获特征远程依赖关系以及精准的位置信息,再通过1×1卷积层升维,最后对每个分组的输出进行加权计算。
如图2所示,坐标注意力网络主要包括2个部分,分别为坐标注意力生成和坐标信息嵌入。首先,对于输入特征图X分别设其长、宽和通道数为H、W和C,先利用尺寸为(H,1)和(1,W)的平均池化沿着水平和垂直方向对每1通道进行编码,得到1对方向感知特征图,此操作不仅能保存1个空间方向的精确位置信息,还能捕获到沿着另一个空间方向的长期相关性,使网络更加精准的定位感兴趣的目标。然后,将上述生成的特征图进行级联,使用1个共享的1×1卷积层进行变换以对通道进行降维,并通过1个非线性激活层,得到具有垂直和水平方向空间信息的中间特征图,图2中r表示下采样比例,用来控制模块大小。其次,沿着空间维度将中间特征图进行切分得到2个单独的张量,利用2个1×1卷积层将切分的2个单独张量变换到与输入特征图X相同的通道数,并用Sigmoid激活函数引入非线性,最后进行输入-
输出残差连接操作。