船舶SAR图像数据集简介

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

船舶SAR图像数据集简介
船舶SAR图像数据集简介
深度学习技术的发展和计算能⼒的提⾼极⼤地促进了SAR图像数据集的建⽴和数据集规模的提⾼，本节将介绍舰船领域三个重要的SAR图像数据集，SSDD数据集，HRSID数据集和Yuanyuan Wang等⼈建⽴的复杂背景船舶数据集。

这三个数据集为深度学习和计算机视觉技术应⽤于SAR图像⽬标检测起到了基础性的作⽤。

其中，本⽂提出的⼯作⽤到了SSDD数据集和HRSID 数据集。

⾸先介绍SSDD数据集[11]，SSDD数据集是国内外第⼀个专门⽤于基于SAR 图像的舰船⽬标检测公开数据集，数据集包含各种情况下的船舶图像，如不同图像分辨率、船舶尺⼨、海况、传感器类型等，可以作为研究⼈员评估其算法的基准。

对于SSDD数据集中的每⼀艘船，都标注有带置信分数的边界框。

由于该数据集的应⽤范围⼤多是视觉对象检测，因此其构建⽅法类似于PASCAL VOC数据集[12]。

SSDD数据集由三个⼦集组成，包括训练集、验证集和测试集，各个部分图像数量的⽐例为7:2:1。

由于SSDD数据集包含的不同条件如表1中所⽰，例如不同的图像分辨率，图像⼤⼩，海况，传感器等等。

因此，这种数据集设置可以使得训练出来的⽬标检测器更加具有鲁棒性，但是这也会使得⽬标检测器很难在该数据集上获得⾮常⾼的性能。

SSDD数据集中船只和图像的数量统计如表2所⽰，其中NoS表⽰船舶数量，NoI表⽰图像数量。

在SSDD数据集中，总共有1160张图⽚和2456艘船。

每幅图像的平均船舶数量为2.12艘。

在使⽤该数据集的过程中可以根据所选算法的要求对数据集进⾏扩展。

尽管SSDD数据集的规模不及PASCAL VOC数据集，但是SSDD数据集⾜够⽤来测试基于⽬标检测任务的算法性能，因此可以通过结合防⽌过拟合的技巧，⽐如正则化，来训练⼀个⽬标检测模型。

本⽂利⽤开源的“labelimg” 软件制作标签，每个船的边框会被表⽰成（x, y, w, h）。

这⾥（x, y）是矩形中⼼点的坐标，w 是矩形的宽度，h 是矩形的⾼度。

船舶，图(b)显⽰远海的船舶，图(c)显⽰复杂背景的船舶
图1 SSDD数据集样本SSDD数据集的统计结果如下图所⽰。

图：SSDD 数据集中舰船⽬标包围框长度统计结果
图：SSDD 数据集中舰船⽬标包围框宽度统计结果
图： SSDD 数据集中舰船⽬标包围框长宽⽐统计结果
Yuanyuan Wang等⼈建⽴的复杂背景船舶数据集[13]由SAR专家标记，该数据集使⽤了102张由“中国⾼分3号”卫星拍摄的SAR 图像和108张“哨兵1号”卫星拍摄的SAR图像。

它由43,819个不同的规模和背景舰船组成，在距离和⽅位上的像素为256。

该数据集构建的过程分为如下⼏步。

⾸先，所有的SAR图像都是转换为sigma0值。

然后，裁剪在距离和⽅位⾓上都包含⼤于800像素的舰船的候选⼦图像。

接下来利⽤滑动窗⼝在这些候选⼦图像的获取尺⼨为256×256像素的船舶图像。

为了丰富船只的背景，在滑动窗⼝中，128个像素在列和⾏上移动，这使得相邻船只图像有50%重叠。

为了标记船舶的位置，这些船舶芯⽚被转换成灰⾊图像。

然后由SAR专家使⽤LabelImg[14]进⾏标记。

每个船舶芯⽚对应⼀个可扩展标记语⾔(XML)⽂件，类似于PASCAL VOC检测数据集[12]，分别表⽰船舶位置、船舶图像名称和图7中红⾊、绿⾊和青⾊矩形表⽰的图像形状。

最后，将整个数据集随机分为训练数据集(70%)、验证数据集(20%)和测试数据集(10%)。

AIR-SARShip-1.0数据集是⼀个⾼分辨率、具有⼤尺⼨场景的SAR舰船检测数据集，该
左上⾓点为坐标原点，每个船舶的边框含有四个坐标点，依次为矩形框X轴坐标的最⼩值(xmin)与最⼤值(xmax)、Y轴坐标的最⼩值(ymin)与最⼤值(ymax)，坐标值即为边框在图像中实际像素的位置。

如图为AIR-SARShip-1.0数据集样本，可以看出，该图像既包括舰船信息，还包括周围海域、陆地及港⼝相关信息，⾮常贴近实际舰船检测应⽤场景。

图：AIR-SARShip-1.0数据集样本
AIR-SARShip-1.0数据集包括训练集和测试集，两个⼦集的⽐例为2：1，21张图像作为训练集，10张作为测试集。

该数据集的船舶边框⾯积统计如图所⽰。

图中横轴代表船舶边框的⾯积所属区间，纵轴代表该⾯积范围内舰船数量占总船舶数量的⽐例。

可以看出⼤多数边框⾯积都分布于2000～5000的范围中，在整张⼤图中占⽐较⼩，该数据集的场景⼤、⽬标⼩的特征⼗分显著。

与视觉领域中最具挑战性的数据集之⼀COCO相⽐，其⼩⽬标的⽐例也仅为41%，因此，AIR-SARShip-1.0数据集重点考验算法模型对⼩⽬标的检测性能。

图：AIR-SARShip-1.0数据集的边框分布图
最后介绍HRSID数据集[15]，⾼分辨率SAR图像数据集(HRSID)是⾼分辨率SAR图像中⽤于船舶检测、语义分割和实例分割任务的公开数据集。

该数据集共包含5604张⾼分辨率SAR图像和16951个船舶实例。

HRSID数据集借鉴了Microsoft Common Objects in Context (COCO)数据集的构建过程，包括不同分辨率的SAR图像、极化、海况、海域和沿海港⼝。

对于HRSID, SAR图像的分辨
率分别为:0.5m, 1 m, 3 m。

HRSID数据集的样本⽰例如图5所⽰，数据集图像统计结果如图6所⽰。

图5： HRSID数据集样本
图6：HRSID数据集统计分布。