一种基于改进的Faster R-CNN小目标检测方法[发明专利]
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202011275521.X
(22)申请日 2020.11.16
(71)申请人 电子科技大学
地址 611731 四川省成都市高新区(西区)
西源大道2006号
(72)发明人 贾海涛 莫超杰 李俊杰 许文波
任利 周焕来 齐晨阳 毛晨
(51)Int.Cl.
G06T 7/00(2017.01)
G06K 9/62(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于改进的Faster R-CNN小目标检测
方法
(57)摘要
本发明公开了一种基于改进的Faster R ‑
CNN的小目标识别技术。
该发明在小目标检测方
向上具有一定的通用性,该专利以布匹缺陷检测
为说明案例。
布匹缺陷中存在大量的小目标缺陷
以及极端长宽比缺陷。
针对小目标问题,在
Faster R ‑CNN中加入了特征金字塔融合的多尺
度检测,多尺度检测算法对于小目标检测具有一
定的通用性和可移植性;针对极端长宽比的问
题,需要通过对实际布匹缺陷数据集的长宽比和
面积进行初步统计,然后在算法框架中进行聚
类,对Faster R ‑CNN锚框大小通过K ‑means++的
方法进行重新设定。
基于改进后的Faster R ‑CNN
算法模型能够精准的识别布匹缺陷,且对于小目
标缺陷和极端长宽比缺陷也能够取得较好的识
别效果。
权利要求书1页 说明书4页 附图7页CN 112465752 A 2021.03.09
C N 112465752
A
1.一种基于改进的Faster R ‑CNN小目标检测算法,其特征在于,包括以下步骤:
步骤1:特征提取主干网络采用VGG16 D,包括第一卷积层,第一下采样层,第二卷积层,第二下采样层,第三卷积层,第三下采样层,第四卷积层,第四下采样层,第五卷积层;
步骤2:步骤1中第二至第四下采样层及第五卷积层产生的特征图都采用1×1的卷积进行通道数统一,统一后的特征图分别记为M2,M3,M4,M5;
步骤3:该步骤为传统的FPN网络结构,采用自底向上的通路进行多尺度目标检测,使得底层的特征与富含位置信息的底层信息进行融合;M5经过3×3卷积消除融合带来的混叠效应,记为P5;M5经两倍上采样,与M4逐像素相加,再经过3×3卷积消除融合带来的混叠效应生成特征图,记为P4;M4经两倍上采样,与M3逐像素相加,经过3×3卷积消除融合带来的混叠效应生成特征图P3;M3经两倍上采样,与M2逐像素相加,经过3×3卷积消除融合带来的混叠效应生成特征图P2;
步骤4:该步骤是该专利的核心内容,在步骤3中FPN的基础上,添加一条自底向上的通路,称为I ‑FPN网络,使得底层特征与富含语义信息的高层特征进行融合;P2作为最底层特征I2,进行2倍下采样后,与P3进行逐像素相加,得到特征图I3;I2经过4倍下采样后,跨层与P4进行逐像素相加,生成特征图I4;I3进行4倍下采样后,跨层与P5进行逐像素相加,生成I5;与步骤3一样,I2至I5经过3×3卷积消除混叠效应,生成最终特征图Q2至Q5;
步骤5:将特征图Q2至Q5分别输入RPN网络,RPN网络的Anchor设置依据事先对数据集的聚类进定;将RPN网络输出的提议框映射成原图大小,框选出原图区域,输入至softmax分类和回归层,得出最后结果。
2.如权利要求1所述方法,其特征在于,步骤3中的上采样为双线性内插方法。
3.如权利要求1所述方法,其特征在于,步骤4中的下采样为局部最大值池化方法。
4.如权利要求1所述方法,其特征在于,步骤5中的聚类方法采用K ‑means++,对初始聚类中心的选取更加智能化,K值设为15,衡量物体框之间的距离采用IoU来衡量,IoU为两个物体框之间的重叠比例,box为物体框的长和宽组成的数组,centroid为物体框的中心点。
权 利 要 求 书1/1页CN 112465752 A
一种基于改进的Faster R‑CNN小目标检测方法
技术领域
[0001]本发明涉及深度学习中的目标检测领域,针对小目标检测尤其是布匹缺陷检测技术。
背景技术
[0002]生产过程中,设备故障、工厂环境温度变化、工作人员操作失误等各种状况都会影响布匹生产质量。
布匹缺陷是影响织物生产质量的关键因素,且直接影响织物品质等级,因此布匹缺陷的检测就显得尤为重要。
[0003]传统的布匹缺陷检测过程中,主要通过人眼对布匹疵点进行定位、检测、标记。
很明显,这种工作方式效率低下,容易受到验布工人的主观经验和情绪影响,经常会发生误检和漏检现象。
另外,布匹疵点检测对工人来说劳动强度大,不仅损害验布工人的视力,而且容易引发尘肺病。
[0004]计算机技术的发展,使得机器视觉被广泛地应用到布匹疵点检测。
现有的基于传统图像处理方法的布匹缺陷检测算法主要分为:
[0005](1)基于统计的检测方法。
基于统计的方法又包括有:形态学法、自相关函数法、共生矩阵法、分形法等;
[0006](2)基于频谱的检测方法。
基于频谱的方法又可以分为:傅里叶变换法、小波变换法、Gabor变换法、滤波法等;
[0007](3)基于模型的检测方法。
基于模型的方法又可以分为:自回归模型、马尔科夫随机场等;
[0008](4)基于机器学习的方法。
基于机器学习的方法主要为神经网络。
[0009]随着深度学习的不断进步和发展,其在工业领域的应用越来越广泛,尤其是目标检测领域,出现了Faster R‑CNN、YOLO、SSD等优秀的目标检测框架,但对于小目标检测,始终是目标检测领域的一个难题。
本发明就是着力于解决布匹缺陷目标小在布匹缺陷中造成的难题。
本发明在小目标检测领域有一定的通用性,并针对布匹缺陷中存在的极端长宽比做了特殊改进(极端长宽比同样是小目标的一种特殊情况)。
发明内容
[0010]为了克服上述现有技术的不足,本发明提出了一种基于改进的Faster R‑CNN小目标检测技术。
该技术引用了深度学习中的通用目标检测框架Faster R‑CNN,并针对布匹缺陷存在的小目标以及极端长宽比问题(如附图1和2所示)对Faster R‑CNN进行了进一步的改进。
[0011]本发明所采用的技术方案是:
[0012]步骤1:特征提取主干网络采用VGG16‑D,包括第一卷积层,第一下采样层,第二卷积层,第二下采样层,第三卷积层,第三下采样层,第四卷积层,第四下采样层,第五卷积层;[0013]步骤2:步骤1中第二至第四下采样层及第五卷积层产生的特征图都采用1×1的卷
积进行通道数统一,统一后的特征图分别记为M2,M3,M4,M5;
[0014]步骤3:该步骤为传统的FPN网络结构,采用自底向上的通路进行多尺度目标检测,使得底层的特征与富含位置信息的底层信息进行融合;M5经过3×3卷积消除融合带来的混叠效应,记为P5;M5经两倍上采样,与M4逐像素相加,再经过3×3卷积消除融合带来的混叠效应生成特征图,记为P4;M4经两倍上采样,与M3逐像素相加,经过3×3卷积消除融合带来的混叠效应生成特征图P3;M3经两倍上采样,与M2逐像素相加,经过3×3卷积消除融合带来的混叠效应生成特征图P2;
[0015]步骤4:该步骤是该专利的核心内容,在步骤3中FPN的基础上,添加一条自底向上的通路,称为I‑FPN网络,使得底层特征与富含语义信息的高层特征进行融合;P2作为最底层特征I2,进行2倍下采样后,与P3进行逐像素相加,得到特征图I3;I2经过4倍下采样后,跨层与P4进行逐像素相加,生成特征图I4;I3进行4倍下采样后,跨层与P5进行逐像素相加,生成I5;与步骤3一样,I2至I5经过3×3卷积消除混叠效应,生成最终特征图Q2至Q5;[0016]步骤5:将特征图Q2至Q5分别输入RPN网络,RPN网络的Anchor设置依据事先对数据集的聚类进定;然后将RPN网络输出的提议框映射成原图大小,框选出原图区域,输入至softmax分类和回归层,得出最后结果。
[0017]与现有技术相比,本发明的有益效果是:
[0018](1)在布匹小缺陷目标检测上,能够达到更高的识别精度;
[0019](2)对于极端长宽比的缺陷,更够更好的进行识别和检测。
附图说明
[0020]图1为:几种典型小目标缺陷示意图。
[0021]图2为:几种极端长宽比缺陷示意图。
[0022]图3为:VGG16特征生成过程。
[0023]图4为:VGG16各层感受野。
[0024]图5为:改进后的多尺度特征金字塔融合框架示意图。
[0025]图6为:原始Faster R‑CNN中Anchor尺寸示意图。
[0026]图7为:原始Anchor在布匹缺陷图像上的标注情况。
[0027]图8为:聚类结果散点图。
[0028]图9为:改进前后Anchor设定对照图。
[0029]图10为:三种算法模型效果对照图1正常尺寸缺陷。
[0030]图11为:三种算法模型效果对照图2小尺寸缺陷。
[0031]图12为:三种算法模型效果对照图3极端长宽比缺陷。
具体实施方式
[0032]下面结合附图对本发明进一步说明。
[0033]首先,利用VGG16网络模型对布匹缺陷图像进行特征提取的过程如图3所示。
VGG16共包含13个卷积层、5个池化层。
其中卷积操作不会改变前一层所传特征图的尺寸大小,而每一个池化层的步长为2,特征图经过池化后尺寸会缩小到一半。
根据采集到的布匹样本的情况,输入图像的大小长为2446,宽为1000,通道数为3,通过VGG16网络进行特征提取,最后
输出的特征图的大小长为76,宽为31,通道数为512。
[0034]在生成特征图的卷积网络中,生成底层特征图的神经元所叠加的前置计算较少,在原图上的感受野小,更注重保留图像的边缘、纹理等细节信息,而生成高层特征的神经元所叠加的前置计算较多,在原图上的感受野大,更注重保留图像的语义信息。
高层特征经过多次下采样,一般会忽略较多的细节信息。
图4是根是VGG各层输出特征图的感受野情况。
[0035]Faster R‑CNN利用的是Block5输出的特征图进行后续的分类和回归任务,也就是说利用的是感受野大小为212大小的特征图,而布匹缺陷小目标一般只具有几十,甚至几个像素,网络从这些仅有的少量像素中能提取出的语义信息是非常有限的。
极端情况下,一个缺陷目标在高层特征图上可能只对应一个点,所以小目标的检测需要更多的考虑具有较小感受野的神经元提取出的特征图。
[0036]然后,本发明对Faster R‑CNN检测模型做出了改进,加入多尺度检测。
如图5所示以及步骤3‑4所说明的那样,待检测图像通过一个深度网络提取特征,不是仅依靠最后一层的特征图(feature map)进行检测,而是用不同层提取出的多个不同尺度的特诊图进行检测,然后再分别将这些不同的特征图送给各自不同的RPN生成候选区域。
[0037]具体方法
[0038](1)M5经过3×3卷积消除融合带来的混叠效应,记为P5;M5经两倍上采样,与M4逐像素相加,再经过3×3卷积消除融合带来的混叠效应生成特征图,记为P4;M4经两倍上采样,与M3逐像素相加,经过3×3卷积消除融合带来的混叠效应生成特征图P3;M3经两倍上采样,与M2逐像素相加,经过3×3卷积消除融合带来的混叠效应生成特征图P2;
[0039](2)在以上基础上添加一条自底向上的通路,称为I‑FPN网络,使得底层特征与富含语义信息的高层特征进行融合;
[0040](3)P2作为最底层特征I2,进行2倍下采样后,与P3进行逐像素相加,得到特征图I3;I2经过4倍下采样后,跨层与P4进行逐像素相加,生成特征图I4;I3进行4倍下采样后,跨层与P5进行逐像素相加,生成I5;与步骤3一样,I2至I5经过3×3卷积消除混叠效应,生成最终特征图Q2至Q5。
[0041]这样改进的好处有两个方面,一方面,模型充分利用了富含细节信息的低层特征进行小目标检测,另一方面,多个尺度的特征图提取出的不同特征使用同样的分类和bounding box回归网络,相当于广义上的多任务联合,可以有效避免数据量较小时产生的过拟合。
这样的改进方式可以用于绝大多数特征网络,本方法选取ResNet50作为提取特征的主干网络,在ResNet50网络中,对Stage2,Stage3,Stage4,Stage5,Stage6产生的特征图进行检测。
其中底层生成的特征图用于检测小目标,中层生成的特征图用于检测中等目标,高层生成的特征图用于检测大面积目标。
[0042]最后,在原始的Faster R‑CNN中,RPN会为输入特征图上每一点对应的原始输入图像配备三种尺寸和三个长宽比相结合的Anchor(锚点)框,其中尺寸为{1282,2562,5122}三类,长宽比为{1,0.5,2}三类。
图6所示为以上尺寸和长宽比组成的Anchor示意图,不同颜色的方框代表不同的尺度Anchor,从图中可以看出,原始Faster R‑CNN中总共有9种固定的尺寸。
[0043]图7为原始设定值的Anchor在布匹缺陷图像上的框选情况,其中黄框为真值框(Ground Truth Box),其它颜色的框为原始Anchor设定下的框选情况。
可以看出,布匹缺陷
由于存在小目标以及极端长宽比的情况,实际的布匹缺陷与原始Faster R‑CNN中的预设Anchor框选的不够准确,背景部分过多。
[0044]Anchor的设定可以很大程度上影响检测的精度和模型的收敛速度,在RPN中默认的Anchor长宽比与尺寸都是针对目标检测的常用场景事先设定好的,Anchor的设计应该考虑被检测目标的实际尺寸。
本文的被检测对象为布匹缺陷,存在较多的小目标以及极端长宽比的目标,所以应根据布匹缺陷目标在数据集中的具体分布情况,来设定Anchor的尺寸和长宽比参数。
[0045]本发明通过K‑means++聚类的方法对布匹缺陷检测应用场景下的Anchor尺寸进行生成,并前述的多尺度检测方案相结合,为不同层级的特征设置不同尺寸的Anchor。
这相当于加入了良好的先验信息,在一定程度上可以降低边框回归的难度。
[0046]聚类结果的散点图如图8所示,根据聚类结果设定的Anchor与原始Anchor设定的对照如图9所示。
可以发现,与原始设定的Anchor大小相比,聚类结果的Anchor的尺度跨度较大,且对应底层特征的尺寸更小,这符合布匹缺陷小目标以及多尺度的特性。
[0047]图10‑12为算法模型检测效果的对照图,其中(a)为原始待测试图像,其中的红框为该图像中存在的缺陷区域;(b)、(c)、(d)分别为Faster R‑CNN、Faster R‑CNN+FPN、Faster R‑CNN+I‑FPN的检测结果,其中的的绿框为算法模型检测到的缺陷区域,且框上方标明了缺陷的类别以及此缺陷的置信度。
[0048]图10为三种算法模型对常规尺寸缺陷的检测效果对照图。
从图中可以发现,对于常规尺寸的缺陷,三类算法模型都能够检出,且检测的置信度较高,检测的效果都较好。
图11为三种算法模型对小目标缺陷的检测效果对照图。
从图中看出,Faster R‑CNN对小目标的检出能力较差,而加入了FPN和I‑FPN的多尺度检测方案能够较好的检出小目标。
图12为三种算法模型对极端长宽比缺陷的检测效果对照图,由于I‑FPN的Anchor设定是根据自采集布匹缺陷数据集通过聚类生成的,其检出的缺陷框选效果更佳。
[0049]以上所述,仅为本发明的具体实施方式,本说明中所公开的任一特征,除非特别叙述,均可被其他等效或者具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征或/和步骤外,均可以任何方式组合。
图1
图2
图3
图4
图5
图6
图7
图8
图9
图10
图11
图12。