蝴蝶种类自动识别研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

计算机研究与发展
Journal of Computer Research and Development DOI:10. 7544/issnl000-1239. 2018. 20180181
55(8) : 1609-1618, 2018
蝴蝶种类自动识别研究
谢娟英1侯琦1史颖欢2鹏3景丽萍4庄福振5张军平6谭晓阳7许升全8
U陕西师范大学计算机科学学院西安710119)
2(南京大学计算机科学与技术系南京210023)
3(山东财经大学计算机科学与技术学院济南250014)
4(北京交通大学计算机与信息技术学院北京100044)
5(中国科学院计算技术研究所北京100190)
6(复旦大学计算机科学技术学院上海200433)
7(南京航空航天大学计算机科学与技术学院南京210016)
8(陕西师范大学生命科学学院西安710119)
(xiejuany@snnu. edu. cn)
The Automatic Identification of Butterfly Species
Xie Juanying1,H ouQi1 ,ShiYinghuan2,LiiPeng3,JingLiping4,ZhuangFuzhen5 ,Zhang Junping6 ,
Tan Xiaoyang7,and Xu Shengquan8
1{School o f C om pu t er Scie nce, Shaanxi Nor ma l University, 78an710119)
2 (D e pa rt m en t o f C om pu te r Scie nce]T e c h n o l o g y, N a n j i n g University, N a n j i n g210023)
3(S ch oo l o f Co m pu tr r Scie nce]T e c h n o l o g y, S h a n d o n g University o f F inance an d Economics, J i n a n250014)
4 {School o f C om pu t er]I n f r r m a t i o n T e c h n o l o g y , B e i j i n g J i a o t o n g University , B e i j i n g100044)
5{Institute o f C o m p u t i n g T e c h n o l o g y, Chinese A c a d e m y o f Sciencss , B e i j i n g100190)
6(S ch oo l o f C om pu t er Scie nce, F u da n University, S h a n g h a i200433)
7 (C o l l e g e o f C om pu ter Scie nce a n d T e c h n o l o g y, N a n j i n g University o f Aeronautics a n d Astronautics , N a n j i n g210016)
8 (C o l l e g e o f L i f e Sciences, Shaanxi N rr m a l University, 78an710119)
Abstract The available butterfly image data sets comprise a few limited species,and the images in the data sets are a lways standard patterns without the images of butterflies in their living environments.
To overcome the aforementioned limitations in the butterfly image data sets,we build a butterfly image data set composed of all species of butterflies in Monograph of Chinese butterflies with 4 270 standard pattern images of 1176 butterfly species,and 1425 butterfly images from living environment
of 111 species.We use the deep learning technique Faster R-CNN to develop an automatic butterfly identification system including butterfly position detection in images from living environment and species recognition.We delete those butterfly species with only one living environment image from data set,then partition the rest butterfly images from living environment into two partition way,such that one is used as testing subset,and the other is respectively combined with all standard patterns of butterfly images or the standard patterns of butterfly images with the same species as the images from living environment to get two different training subsets.In order to
收稿日期!018—03—23;修回日期!018—06—13
基金项目:国家自然科学基金项目(61673251);中央高校基本科研业务费专项资金项目(GK201701006)
This w ork w as su p p o rted by th e N ation al N atural S cien ce F ou n d atio n o f C h in a(61673251)a n d th e Fu n d am en tal R esearch F u n d s
for th e C en tral U niversities (GK201701006).
通信作者:许升全(xush en gquan@sn n u.e d )
1610计算机研究与发展2018, 55(8) construct the training subset for FasterR-CNN,ninemethods are adopted to amplify the images in the
training subset including the t ur n i ng of upa n ddown,and left and right,rotation with different angles,adding noises,b lurring,and contrast ratio adjusting etc.Three kinds of network structure based prediction models are t rained.The mAP(mean average prediction)criterion is used to evaluate the performance of the predictive models.The experimental results demonstrate that our Faster R-CNN based butterfly automatic identification system performs well.Its worst mAP is up to 60 ', and it can simultaneously detect the positions of more than one butterflies in one image from living environment and can recognize their species as well.
Key words butterflies;automatic identification;object detection;deep learning%classification
摘要针对现有蝴蝶识别研究中所用数据集蝴蝶种类偏少,且只含有蝴蝶标本照片、不含生态环境中 蝴蝶照片的问题,发布了一个同时包含标本照片和生态照片的蝴蝶图像数据集,其中标本照片包含全部 中国蝶类志蝴蝶种类,共计)270张照片、1176种,蝴蝶生态环境下照片1425张、111种.提出基于深度 学习技术Faster R-C N N的蝴蝶种类自动识别系统,包括生态照片中蝴蝶位置的自动检测和物种鉴定. 实验去除只含有单张生态照片的蝴蝶种类,对剩余的蝴蝶生态照片进行55划分,构造2种不同训练数 据集:一半生态照片+全部模式照片、一半生态照片+对应种类模式照片;训练3种不同网络结构的蝴 蝶自动识别系统,以平均精度均值(mean average precision,m A P)为评价指标,采用上下、左右翻转、不同角度旋转、加噪、不同程度模糊、对比度升降等9种方式扩充训练集.实验结果表明,基于Faster R-C N N深度学习框架的蝴蝶自动识别系统对生态环境中的蝴蝶照片能实现其中蝴蝶位置的自动检测 和物种识别,模型的m A P最低值接近60%,并能同时检测出生态照中的多只蝴蝶和完成物种识别.
关键词蝴蝶;自动识别;目标检测;深度学习;分类
中图法分类号TP181
蝴蝶是节肢动物门、昆虫纲、鳞翅目、锤角亚目 昆虫的统称,全世界大约有18 000多种[1],中国的 蝴蝶种类约有1200种.蝴蝶大多白天活动,其翅和 身体一般都有各色鳞片形成的色斑和花纹.这些色 彩和斑纹往往和蝴蝶的生活环境一致,是其保护色,可使蝴蝶避免被鸟类等天敌发现.自古以来蝴蝶就 是重要的文化昆虫,不仅美化人类生活,梁祝化蝶等 爱情故事千百年来也被人们传颂.同时多数蝴蝶对 其生存的自然环境要求颇高,因此是重要的环境指 示昆虫.但人工鉴别蝴蝶种类不仅需要长期的经验 积累而且费时费力,严重影响了人类对蝴蝶的认识.为了提高蝴蝶物种识别效率,方便众多昆虫爱好者 及大众了解和认识蝴蝶,本文将建立包含蝴蝶生态 照片和标本模式照片的中国蝴蝶数据全集;提出基 于深度学习模型F a ste rR-C N N的生态照片蝴蝶自 动检测和物种鉴定方法,构建生态照片中蝴蝶种类 的自动识别系统.
1蝴蝶自动鉴定研究背景
近年来,蝴蝶自动识别受到了越来越多研究者的关注,出现了大量蝴蝶识别应用研究.在基于内容 检索的蝴蝶所属科识别[]中根据蝴蝶形状、颜色和 纹理分别提取图像特征,然后根据相似度返回分类结 果.基于极限学习机的蝴蝶种类自动识别[3]使用局部 二值模式(local binarypatterns,LBP)[4]和灰度共 生矩阵(grey-level co-occurrence matrix,GLCM)[5]提取蝴蝶图像纹理特征,然后使用极限学习机进行 分类.基于单隐层神经网络的蝴蝶识别[6]使用分支 长度相似度摘(branch length similarity entropies,BLS)提取蝴蝶形状特征,然后使用单隐层神经网络 进行分类.Kang等人提出了借助多视角观察蝴蝶图 像来扩充训练集,以训练神经网络的蝴蝶识别方 法[7].基于神经网络的物种自动识别[8],从图片的几 何结构、形态学、纹理特征3方面对鱼、蝴蝶、植物3 类不同生物设计了 15个特有特征,然后使用神经网 络进行训练和物种分类.然而现有蝴蝶物种识别研 究存在如下2个问题!)使用的蝴蝶数据集均只包 含较少的蝴蝶种类;2 )使用的蝴蝶照片均是标准蝴 蝶照片,即蝴蝶标本的模式照片,没有涉及蝴蝶在自 然生态环境中的生态照片.鉴于此,本研究将提供一
个较完整的蝴蝶图像数据集,其中包括中国现有的
谢娟英等:蝴蝶种类自动识别研究1611
所有蝴蝶标本 ,以及尽可能多的蝴蝶在其
生 中的 ,并使该 可随时间积累不断完善.
实现该 ,我们通过扫描《中国蝶类志》[9(中的蝴蝶 得 中国蝶类志全部蝴蝶种类的蝴蝶 ,并通过野外拍摄、蝴蝶爱好捐尽可能多的蝴蝶生 ,这大类蝴蝶 蝴蝶数据全集.该蝴
蝶 是目前世界上最大的蝴蝶图像 .数中自蝴蝶生 的多种 、姿态的蝴蝶生 ,以及中国蝶类志的全部蝴蝶种类的准 .
然而,蝴蝶本身的拟态性为生态照片中蝴蝶的 检测和 大 .生 中的蝴蝶种类,需要完 中蝴蝶的 问题,玍基础上的蝴蝶种类自动分类 问题.
学习作为机器学习领域的一项技术突破,在图像处理领域表现出非的潜能.Faster
R-CNN[1°]b学 目领域的一个经典算法,相 算 高 ,更大大升 ;多、多的区域 ,使其 的物体 ;区域 网络和分类网络的结合,真正实 的目 (.因此,我 FasterR-CNN算实
生态环境中蝴蝶 的蝴蝶位置自动 和种类 ,以期从复杂的自然 中
&的蝴蝶,并进行物种分类,构建一个上的蝴蝶种类自动 系统.
本研究 有蝴蝶自动识别研究只依
据蝴蝶标本 进行蝴蝶种类 的局限% 隍供 个 上的蝴蝶自动 系统,实 ^括 、任意大小蝴蝶的蝴蝶生 中
的蝴蝶 自动 与种类自动 ;还提供了一个供研究者们使用的目前种类最齐全的包含蝴 蝶生 的蝴蝶图像 ,且该 的蝴蝶生 可 随 间,和完善.
2数据与方法
2.1蝴蝶数据集
本 的蝴蝶数据集不仅包括标准的蝴蝶标本 ,还包括自然生 中的蝴蝶 ._中的蝴蝶标本标准 ,称 ,三
中国蝶类志[9]%胡蝶在其生 中的 ,简称生,野外实地拍摄和蝴蝶 捐赠.
共 5 695张蝴蝶 ,其中的生态
照片如图1所示,共有1)25张、111种,均 野外使用高清单反相机拍摄所得.其中1'种蝴蝶的生态 只有 ,即有1'种蝴蝶的生态照片只有一个样本.蝴蝶生 的特点是 的蝴蝶、种类 ,而且蝴蝶 自身的 避天,总是 处在有 隐藏自身的 中,使得蝴蝶和 较 .生 的I 统计如图2所示,多数生 的蝴蝶类 的样本 2°个以内,每个蝴蝶种类至少 个样本,最多的 121个样本,的分布.
蝴蝶标本的标准 ,即,如图3所示,通过扫描中国蝶类志[]的蝴蝶 得来,共有)27°张、11'6种,包含蝴蝶生态照的所有种类.模式照的 特点是 有一只蝴蝶.1 的数分布如图)所示,多蝴蝶类 的样本 )个 ,每个蝴蝶种类至少 个样本,最多含有1)个样本.对比图)和图2可见,模式
的蝴蝶种类多,每类样本 相 〔大,然 的分 .我 的蝴蝶种类 科、亚科、属、种、亚种,
以及蝴蝶的雌、
1612计算机研究与发展2018, 55(8)
Number of Butterfly Species
Data distribution of standard pattern images of butterflies
图)蝴蝶
分布图
、背、腹进行分类.由于部分亚种缺失,部分蝴蝶种 类雌、雄& 全.因此,为了统一,实验中将蝴蝶所

和生 的蝴蝶种类均
丨到
种.该
“2018 中国
—-国 蝴蝶
大赛”中
夕卜
.中的
中国蝶类志全部蝴蝶种类,构成蝴蝶种类全集,生 的蝴蝶种类是:照
蝴蝶种类的
.我们的目标是自动

中的蝴蝶种类.因此,以生
准,去掉只有单张生
的蝴蝶种类,最终的实
中,蝴蝶生

Fig. 2 Data distribution of naturaf butterfly images
图2
蝴蝶生态照数据分布图


1
(b )斑凤蝶 CMorac/;他!
(c )褐钩凤蝶 Me—im rasdrc
_
(d )摩




(e )络弄蝶Zotowg 批似ra /奶
(f )橙粉蝶/:\7_似外〜服
Fig. 3 Samples of butterfly pattern images
图3
的部分样本
14
12108
6
4
2
s9o9ds h l p C D w n P Q l I o B H
jo C D smul jo
J C D q m n
^:F i
g
谢娟英等:蝴蝶种类自动识别研究1613
1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93
Number of Butterfly Species
(b) Testing dataset
Fig. 5 Data distribution of natural butterfly images on training and testing datasets
图5
蝴蝶生态照训练集和测试集数据分布图
2.2数据集划分我 所有生态照的蝴蝶位置进行人工标注,
的蝴蝶 全图大小.E 学习
大量训练 ,
训练 样本采用翻
、旋转、加噪、模糊&
升降等9种
进行变
换,以扩充训练
的蝴蝶图像 .
训练集样本 生 和模式照.所有生
只有一个样本的蝴蝶种类后划分训练集 和
.我们的目标是对生
中的蝴蝶 进行和分类,因此, 只
蝴蝶生
.我们希望借助模式照的
信息预测生
的蝴蝶类别,因此, 入训练集. 入训
练集的方式分为2种!)将所有 入训练
,这样做是考虑到蝴蝶全集可有助 取蝴蝶间的共有特征信息,另外还可提高 的扩展
,提供
所有蝴蝶种类的预训练版本,如果有新
增加,可以在这个版本上继续进行增强训练%# 只加入与生
种类

,这是
通用
的方法,只对要分类的蝴蝶进行训练,减小模型复杂 度,提高分类精度.如2. 1节所述,生态照在去掉只 有一个样本的蝴蝶种类后,包含9)种蝴蝶、1)08张 蝴蝶生 .按照训练集和 50'的比例
划分生态照,测试集包含687张生态照,其余721张
生 入训练集.
1种构造训练集的方
法,将所有 入训练集,再对训练集所有样本进行扩充,
得到训练集的蝴蝶图像为)9 910
,我们称之为Data _1. . 2种生成训练集的,训练集只加入生 蝴蝶种类
的蝴蝶模
,得到蝴蝶训练 13 060张图像,命名为Data _2.至此,我们将蝴蝶自动识别问题转化
个9)类的多类目标自动 和
问题.与普
通的多类目 和 问题相比,我们的蝴蝶自

与 问题的
类别多,]要
的是我 进行的是相同大类(蝴蝶#下的小类(不种类蝴蝶)识别,或称为细粒度分类,因此,本文的
蝴蝶自动
研究更具有
.
1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93
Number of Butterfly Species
(a) Training dataset
像有1)08张、9)种.按照训练集、测试集各50'的
集.图5表示训练集和测试集的图像数量统计分布,进行划分,训练 上取整,得
721张蝴 可 训练集和
的分布大致相同,以确保
蝶生
的训练集,包含687
蝴蝶生


下得到尽可能优的实验结果.
1739517395173^6554443322211
s9o9ds h l p C D w n P Q l I o B H
jo
3§|1 jo J9qmn ^;1
739517395173951
6554443322211s CD o CD d s h l p cu w n PQ l I o B H
JO
(l )§BmI
jo
Jsqmn
^
;
1614计算机研究与发展2018, 55(8)
2.3蝴蝶位置检测与种类识别方法
本 Gi+hick [10] 的目标检测方
法,同时实现目标的 和分类.Faste r R-CNN [10]
结构如图6所示,它是对R -CNN [11]和FastR -CNN [12] 的改进,相比于开山之作的R -C N N ,FastR -C N N 提出新的兴趣区域(regionof interest ,RO I )层来规 避冗余的特征提取 ,只对整张图片全区域进行一次特征提取,
入了多任务学习,使得网络
训练过程中 学习物体分类和窗口 回归.
Faster R -C N N 在F a s tR -C N N 基础上加入了区域 生成网络层(region proposal network ,R PN ),来代 替耗时的候选区域生
,真正实
的目
务.
Faster R -C N N 区域生成网络R P N 采用多任务 学习,将生态照中蝴蝶的 和蝴蝶种类

2个任务同时进行.
L ({p t },t t}') =
"
L c l s()z
) G
els
.
! 2— "j P # L r e g (+,+#) •
(1)e g
.
〇. 5x 2,if 111 %1 %
smooth L (1) C { .
(2)
1 0•,otherwise .
式(1)表示R P N 网络多任务损失函数,即分类 损失和回归损失之和.其中,
. 个参考窗口
(anchor )在一个随机梯度下降的小批量分层采样中
的下标;P , 预.个anchor 为某类样本的概Classifier
Image
Fig. 6 Faster R-CNN network topology
图6 Faster R-CNN 的网络结构
率;P #为相应样本的真实类别标签,如果这个参考 窗口是正样本的,则P # =1,否则P # c 〇+表示正
样本an c h o r 到预测区域(boundingbox )的4个参 数化坐标+#是这个正样本an c h o r 对应的真实类
别位置区域的标签(ground -truth ) ; L ds是一个二值 分类器的分类损失,L reg 通过L r e g ( +,+# )=只(+ — +#)计算回归损失,其中函数只是式(2 )的
函数;!为权重参数,2ds 和准 2个损 失项.
Faster R -C N N 图像检测流程如图7所示,我们
首先通过共享卷积层提取蝴蝶图像特征,得到图像
Faster R-CNN image detection procedure
图7 Faster R-CNN
图像检测流程
谢娟英等:蝴蝶种类自动识别研究1615
的特征映射,输人的特征图通过滑动窗口扫描,每个 滑窗位置得到9种可能的anchors,得到区域建议的 低维特征向量,再经过R P N网络得到区域建议和 区域得分,并对区域得分采用非极大值抑制,输出 Top-N得分的区域建议给R O I池化层;通过ROI 池化层得到区域建议特征,区域建议特征通过全连 接层后,输出该区域的分类得分以及区域位置.
本文实验基于深度学习框架Caffe,采用 ZF[13],V G G_CNN_M_1024:[14],V G G16[15]三种网 络结构,使用联合训练方式,分别训练了 3个蝴蝶自 动识别系统.实验首先在Im ageNet数据上进行预 训练,然后使用扩充的蝴蝶训练数据集进行微调,所有模型的超参数使用默认参数,初始学习率为0.001,随后按步长调整;动量设置为0. 9,权重衰减 设置为0.000 5,共迭代10万次.
2.4蝴蝶识别评价指标
使用交并比(intersection-over-union,JoU)作 为区域检测的评价指标,其定义是预测产生的候 选框(candi-date region)与原标记框(ground-truth region)的交叠率,即它们的交集与并集的比值.最 理想情况是完全重叠,即比值为1,实验中取〇U> 0. 5.我们的目标是生态照中蝴蝶种类的正确识别,因此,实验结果中没有具体列出生态照中蝴蝶位置 检测结果的评价指标值.
多类图像分类评价指标中,平均精度均值(mean average precision,t o A P)作为目标检测的通用指 标,是评价多类分类的平均精度均值,因此,本文采 用t o A P作为蝴蝶识别情况的评价指标.t o A P根据 精度(precw oz)和召回率(recaZZ)计算得到.精度的 计算方法如式(3)所示,召回率的计算方法如式(4) 所示.
precisio n TP
TP+F P'"3)
re call=TP"4)
T P+F N,
其中,TP(true positive)为预测结果中正确分类和 定位的正样本个数,FP(false positive)为被错误标 记为正样本的负样本个数,FNCfalse negative)是被 错误标记为负样本的正样本个数.
为预测训练所得模型的性能,我们定义正样本 为真实框(ground-truth)和预选框的交并比大于0. 5,且预测的分类概率大于0. 5,也就是定位和分 类同时满足条件才可认为是正样本.
根据不同的置信度可以得到若干个,reaZZ)点,以召回率为横坐标、精度为纵坐标画出 P-i?曲线,A P(average precision)是精度和召回率 曲线下的面积,也就是P-i?曲线的积分,如式(5) 所.
1
AP = '(r)d r,(5)
实际计算中,一般都用若干矩形面积来代替曲线下面积,即将召回率划分为n块,[0,1/n,…,(n—1)/n,1],则A P可以表示为式(6).
n
AP= —max p(r),(6)
n ._1r([(—1)/n,/n]
最终得到的所有类的平均精度,如式(')所示,其中N为测试数据中的蝴蝶种类数.对于具体的矩 形划分,采用PASCAL VOCChallenge在2010年以 后的计算方法[16].
1 N
t o AP_N"A P(n).(7)
N n_1
=实验结果与分析
对2种不同的训练数据集和3种不同的网络结 构,训练得到6个不同蝴蝶识别系统,各系统对测试 集的蝴蝶种类识别t o A P结果如表1所示.测试集 上蝴蝶位置检测和分类鉴定的实际效果如图8所 示.由于页面空间有限,图8只列出了部分测试结 果•为了进一步验证我们选择FasterR-CNN实现 生态照中蝴蝶位置检测与种类识别研究的正确性,我们采用最新的算法YOLO v2[17]和YOLO v3[18]对相同的蝴蝶识别任务进行实验,网络结构采用相 应算法的原始网络结构,实验结果如表2所示.
Table 1 The mAP Results of Butterfly Automatic Recognition Systems Based on Faster R-CNN
表1 基于FasterR-C NN的蝴蝶自动识别系统的m A P结果Training Data ZF VGG_CNN_M_1024 VGG16 Data_1 59.8 64.5 72.8
从表1实验结果可以看出,无论采用哪种网络 结构,基于Faster R-CNN的蝴蝶自动识别系统对 生态照中的蝴蝶种类识别均显示出不错的效果,最 差的t o A P值也接近60',这不仅说明Faster R-CNN 在细粒度分类方面的性能,也说明了提出的基于
1616计算机研究与发展2018, 55(8)
FasterR-CNN的蝴蝶生态照中蝴蝶位置自动检测 和种类自动 的可行性和准 .另外,表1f 还揭示,Data_2所得模型的m A P值在整体上优于 Data_1所得 的m A P值,这说明训练 i含721张蝴蝶生 其与 生 蝴蝶种类对应的蝴蝶 ,训练所得模型的蝴蝶 自动与种类自动 能 721张蝴蝶生态照与蝴蝶 全集所得 的性能 .分析只加入与生 种类 的蝴蝶 的蝴蝶自动识别系统性能 的原 :该系统降低 的复 ,减少了过多无用蝴蝶种类的干扰,因此,其分类平均精度均值m A P值更高.
Table 2 The mAP Results of Butterfly Automatic Recognition Systems Based on Different YOLO
表2基于不同YOLO算法的蝴蝶自动识别
系统的mAP结果' Training Data YOLO v2YOLO v3 Data—152. 59
Data—262. 372. 8
表1关于3种不同网络结构的实验数据还显 示:在蝴蝶生 的蝴蝶 自动 与种类分类 中,VGG16网络的性能 其他2种网络;
是该 的复 高,训练时间长,故实际使用过程中可选用分类和 能较优、训练 较快的中型网络VGG—CNN.M—102)
表2关于算法YOLO V2和YOLO b3对2个 不同的蝴蝶训练集进行训练,所得 的m A P值显示:YOLO v2对Data—2只能得到62. 3'的mAP值,远低于表1所示的基于Faster R-CNN 的实验结果;另外,YOLO v2对Data—1训练集的训 练结果 能收敛,因此,没有相 的m A P值.YOLO b3对Data—2训练所得模型的测试 集 mAP=72. 8',除了 与基于 FasterR-CNN且采 用VGG—CNN—M—1024网络结构的测试集m A P值 类似,不如基于其他网络结构的Faster R-CNN在 Data—2 的实验结果;YOLO b3X才Data—1 的mAP 值只有52. 59'.
上 1和表2的实验结果分析揭示,我们采用Faster R-CNN进行蝴蝶种类 是非常正和有 的&
图8部分生态照的检测结果如图8所示,部分生态照蝴蝶位置检测和种类
识别结果显示:提出的基于Faster R-CNN的蝴蝶 自动 ,可 实现蝴蝶生态照片中蝴蝶的自动定位和种类自动 ;还可
生 中的多只蝴蝶,并 分类 其种类;对非常拟态的蝴蝶生 中的蝴蝶也能进行位置自动检测和物种自动鉴定.4结论与展望
本文发 个全新的蝴蝶图像 ,填补了现有蝴蝶自动 研究使用的蝴蝶图像 没有蝴蝶自然 图像 的空白% 供 个较完整的中国现有蝴蝶图像 ,供“2018
\
谢娟英等:蝴蝶种类自动识别研究1617
三届中国数据挖掘竞赛—
—国际首次蝴蝶识别大 赛”使用,并可供所有对蝴蝶自动识别感兴趣的研究 者们使用,也可用于测试目标自动检测和分类的相 关算法.需要说明的是,使用该数据集时,请按照数 据集使用规范引用本文.另外,本文基于Faster R-CNN深度学习模型,构建了一个对自然场景下拍 摄的蝴蝶照片中的蝴蝶进行自动定位和物种自动分 类鉴定的蝴蝶自动识别系统,弥补了蝴蝶识别研究 只对标准的蝴蝶模式照片进行蝴蝶种类识别的局 限,实现了一个真正意义上的蝴蝶自动识别系统.最 后,本文提出的数据集除可用于目标检测领域外,还 可以用于小样本分类、细粒度分类等方向,这也是我 们未来的研究工作之一.
本研究实现的蝴蝶自动识别系统默认一张生态 环境中的蝴蝶照片包含的多只蝴蝶为同一种类的蝴 蝶,虽然现实中不同种类的蝴蝶聚集一起的概率很 小,也就是说一张生态照中包含多个种类蝴蝶的概 率很小,但一旦出现这样的情况,蝴蝶自动识别问题 的难度将上升为多类别多标签的更具挑战性的蝴蝶 自动识别问题.这也将是我们今后需要进一步考虑 和研究的问题之一.另外,实现一个蝴蝶自动识别系 统的APP,为广大昆虫爱好者提供一个蝴蝶自动识 是我 的目之 .
致谢我们非常感谢FasterR-CNN算法的提 出者,因为他们的工作才使我们的蝴蝶自动识别系 统得以实现.另外,我们非常感谢南京大学的高阳教 授、北京交通大学的于剑教授、北京邮电大学的杜军 平教授,以及山东大学的尹义龙教授为我们稿件提出的宝贵修改意见.我们还要感谢为我们的蝴蝶数 据集无偿提供蝴蝶生态照片的南开大学的李后魂教 授、广西钦州学院的甄文全博士、青海师范大学的陈 振宁教授,以及广西河池学院的李晓东副教授.最后 我们还要感谢陕西师范大学的马丽滨副教授协助拍 摄蝴蝶生态照片,并且非常感谢中国科学院大学网 络空间安全学院的高红超博士所给予的技术指导!
参考文献
[1] Espeland M,Breinholt J,W illmott K R,et al. A
comprehensive and dated phylogenomic analysis of butterflies
[J]. Current Biology,2018, 28(5): 770-778
[2] Wang Jiangning,Ji Liqiang,Liang A iping,et al. The
identification of butterfly families using content-based image
retrieval [J]. Biosystems Engineering,2012,111(1) :24-32
[3] Kaya Y,Kayci L,Tekin R,et al. Evaluation of texture
features for automatic detecting butterfly species using
extreme learning machine [J]. Journal of Experimental ]
Theoretical Artificial Intelligence,2014,26(2): 267—281 [4] Ojala T,Pietikainen M,Maenpaa T. Multiresolution gray­
scale and rotation invariant texture classification with local
binary patterns [J]. IEEE Trans on Pattern Analysis and
Machine Intelligence,2002,24(7): 971-987
[5] Marceau D J,Howarth P J »Dubois J M M,et al. Evaluation
of the grey-level co-occurrence m atrix method for land-cover
classification using SPOT imagery [J]. IEEE Trans on
Geoscience and Remote Sensing,1990,28(4): 513-519 [6] Kang S H,Song S H,Lee S H. Identification of butterfly
species with a single neural network system [J]. Journal of
Asia-Pacific Entomology,2012,15(3): 431-435
[7] Kang S H,Cho J H,Lee S H. Identification of butterfly
based on their shapes when viewed from diferent angles
using an artificial neural network [J]. Journal of Asia-Pacific
Entomology,2014,17(2) : 143-149
[8] Hernandez-Serna A,Jimenez-Segura L F. Automatic
identification of species with neural networks [J]. P eerJ,
2014, 2: e563
[9] Chou Io. Monograph of Chinese Butterflies [M].
Zhengzhou: Henan Scientific and Technological Publishing
House,1998 (inC hinese)
(周尧.中国蝶类志[M].郑州:河南科学技术出版社,
1998)
[10] Ren S,He K,Girshick R,et al. Faster R-CNN : Towards
real-time object detection with region proposal networks [J].
IEEE Trans on Pattern A nalysis and Machine Intelligence,
2017, 39(6): 1137-1149
[11] Gi5shick R,Donahue J,Da55el T,et al. Rich featu5e
hie5a5chies fo5 accu5ate object detection and semantic
segmentation [C] //Proc of the IEEE Conf on Computer
Vision and Pattern Recognition. Piscataw ay,NJ : IEEE,
2014: 580-587
[12] Girshick R. Fast R-CNN [C] //Prco of 2015 IEEE Int Conf
on Computer Vision (ICCV). Piscataw ay,NJ : IEEE,2015:
1440-1448
[13] Zeiler M D,Fergus R. Visualizing and understanding
convolutional networks [C] /Proc of European Conf on
Computer Vision. Berlin: Springer,2014: 818-833
[14] Chatfield K,Simonyan K,Vedaldi A,et a l Return of the
devil in the details : Delving deep into convolutional nets [J].
arXiv preprint arXiv ; 1405. 3531,2014
[15] Simony6n K,Zisserm6n A. V ery deep convolution6l
networks for large-scale image recognition [J]. arXiv
preprint arXiv : 1409.1556,2014
[16] Everingham M,E slam iS M A,Van Gool L,et a l The
pascal visual object classes challenge : A retrospective [J].
International Journal of Computer V ision,2015,111 ( 1):
98-136
1618计算机研究与发展2018, 55(8)
[17] Redmon. J, Farhadi A. YOLO9000: Better, faster, stronger
[J]. arXiv preprint, arX iv;1612.08242,2017
[18] Redmon. J,Farhadi A. YOLOv3: An incremental
improvement [J]. arXiv preprint arX iv;1804. 02767,2018 I XieJuanying , born in 1971. PhD , professor.
Senior member of CCF. Her main research '■interests include machine learning,data
^mining,and biomedical big data analysis. JLJi
I H ou Q i, born in 1994. Master candidate.
His main research interests include data
mining and deep learning.
、Jing Liping,born in 1978. PhD,professor.
/ Member of CCF. Her main research j. interests include machine learning and 歡―一,
Zhuang Fuzhen , born in 1983. PhD ,
associate professor. His main research
interests include data mining , machine
learning , transfer learning , multi-task
learning and recommendation systems , etc.
Zhang Junping , born in 1970. PhD ,
professor. Senior member of CCF. His
main research interests include machine
learning , biometric authentication , intelligent
transportation systems and image processing.
Shi Yinghuan , born in assoc*ate professor. H*s interests include medical and machine learning.
1984. PhD
main research
image analysis
Tan Xiaoyang , born in 1971. PhD ,
professor. His main research interests include
deep learning , reinforcement learning , and
Bayesian learning.
Lu Peng, born in 1989. PhD , associate 屬professor. His main research interests include video processing , video under­
standing , computer vision , and machine
learning.Xu Shengquan , born in 1967. PhD , professor. His main research interests include entomological taxonomy , insect systematics and bioinformatics ,
etc.。

相关文档
最新文档