复杂纹理背景下的密集骨签文字检测算法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第 38 卷第 9 期2023 年 9 月
Vol.38 No.9
Sept. 2023液晶与显示
Chinese Journal of Liquid Crystals and Displays
复杂纹理背景下的密集骨签文字检测算法
李健昱1,王慧琴1*,刘瑞2,王可1,王展3
(1.西安建筑科技大学信息与控制工程学院,陕西西安 710055;
2.中国社会科学院考古研究所,北京 100101;
3.陕西省文物保护研究院,陕西西安 710075)
摘要:骨签是记载西汉时期地方工官向中央上缴产品的重要文物,准确检测其文字内容具有重要意义。
针对复杂纹理背景下骨签文字特征难以提取及文字密集、粘连导致检测框冗余的问题,提出融合自注意力卷积和改进损失函数的骨签文字检测算法。
首先,在YOLOv5特征提取端加入自注意力卷积模块,增强网络对骨签文字特征的注意,同时使模型捕捉更丰富的全局信息,抑制裂痕对文字特征提取的干扰。
其次,使用Focal-EIOU损失函数替换原网络的CIOU进行优化,Focal-EIOU使用宽高损失降低预测框与真实框的宽高差距,剔除大于真实框的预测框,解决文字密集与粘连产生的检测框冗余问题,进而提高模型精准预测能力。
实验结果表明,本文算法的平均精确率达到93.35%,相比YOLOv5提高了3.08%,对于复杂纹理背景下的密集粘连骨签文字检测任务更为适用。
关键词:文字检测;骨签;注意力机制;YOLOv5;损失函数
中图分类号:TP391.4 文献标识码:A doi:10.37188/CJLCD.2022-0393
Dense bone stick text detection algorithm in complex
texture background
LI Jian-yu1,WANG Hui-qin1*,LIU Rui2,WANG Ke1,WANG Zhan3
(1.School of Information and Control Engineering, Xi'an University of Architecture and Technology,
Xi'an 710055, China;
2.Institute of Archaeology, Chinese Academy of Social Sciences, Beijing 100101, China;
3.Shaanxi Provincial Institute of Cultural Relics Protection, Xi'an 710055, China)Abstract: Bone stick is an important cultural relic that records the products handed over by local officials to the central government in the Western Han Dynasty. It is of great significance to accurately detect the written content.In order to solve the problem that bone stick text is difficult to extract under complex texture background and the dense text and adhesion lead to multiple characters in one frame, a bone stick text detection algorithm combining self-attention convolution and improved loss function is proposed. Firstly,a self-attention convolution module is added to the YOLOv5 feature extraction to enhance the network’s attention to the features of bone stick, and to make the model capture more global information and 文章编号:1007-2780(2023)09-1293-11
收稿日期:2022-11-25;修订日期:2022-12-26.
基金项目:国家社科基金冷门绝学研究专项项目(No.20VJXT001)
Supported by National Social Science Foundation for Rare and Unique studies Project of China (No.
20VJXT001)
第 38 卷
液晶与显示
suppress the interference of the crack to the feature extraction. In addition, the Focal-EIOU loss function is used to replace the CIOU network for optimization. Focal-EIOU uses the wide-height loss to reduce the wide-height gap between the prediction box and the real box, and eliminates the prediction box larger than the real box,the detection frame redundancy problem caused by text density and adhesion is solved to improve the precision prediction ability of the model.The experimental results show that the average accuracy of the proposed algorithm reaches 93.35%, which is 3.08% higher than that of YOLOv5. It is more suitable for the task of detecting dense adhesive bone stick text in complex texture background.
Key words: text detection; bone stick; attention mechanism; YOLOv5; loss function
1 引言
骨签出土于汉长安城未央宫遗址,数量巨大,记录了西汉王朝地方工官向皇室和中央上缴的各种产品,是西汉王朝中央政府备查的重要文字资料,同时也是秦汉考古方面不可多得的宝贵研究资料,对其内容的解读、性质的判定极其必要[1-2]。
由于骨签年代久远,其表面不可避免地出现了裂痕、磨损等纹理背景干扰,骨签上所刻文字也存在部分粘连和缺失,因此提取骨签文字信息需依靠文物专家的经验。
然而骨签数量庞大,人工检测并提取骨签文字信息的工作量巨大,因此使用数字图像处理等技术对骨签文字进行自动检测十分必要。
随着深度学习技术的发展,越来越多的目标检测技术[3]应用到文字检测中,代表算法有SSD[4]、R-CNN[5]、Faster-RCNN[6]、RetinaNet[7]和YOLO[8](You Only Look Once)等。
其中,Redmon等在2016年提出的YOLO系列性能更高,最具有代表性。
YOLO将目标检测问题视为回归问题,进而将目标和背景更好地进行区分。
Redmon等[9]在2017年提出YOLOv2,使用darknet-19网络作为主干网络,在简化网络结构的同时提高了目标检测的准确率。
刘杰等[10]提出一种基于YOLOv2的改进方法,对目标候选框聚类分析,并将其应用于自然场景中文字符检测中。
之后,Redmon[11]在2018年提出YOLOv3,在保持高检测速度的同时提高了检测精度。
殷航等[12]将YOLOv3与最大极值稳定区域相结合,实现了倾斜文本行的检测。
Alexey[13]在2020年提出YOLOv4,使用CSPDarknet53作为主干网络并采用FPN和PAN 融合特征图,进一步提高了检测准确率。
同年,Ultralytics[14]提出了YOLOv5,模型检测准确率高于以往的目标检测模型且检测速度快,YOLOv5也因此成为目前目标检测表现最好的网络模型之一[15-18]。
本文主要针对骨签文字检测。
骨签存在大量与文字特征相似的裂痕,使用YOLOv5等现有技术进行文字检测会受到裂痕等复杂纹理背景信息的干扰,产生误检问题。
骨签文字具有密集、粘连的特点,现有技术检测骨签文字时会出现检测框冗余,造成一框多字的问题。
针对上述问题,本文基于YOLOv5提出改进的骨签文字检测算法SAC-YOLOv5(Self-Atten⁃tion Convolutional-YOLOv5)。
该算法通过融合自注意力卷积关注骨签文字位置信息,扩展模型捕获特征图全局信息和丰富上下文信息的能力,并引入损失函数Focal-EIOU Loss替换原网络的CIOU计算定位损失,提高模型的精准定位能力。
实验结果表明,本文算法在保持较快检测速度的同时提高了骨签文字的检测精度。
2 骨签文字检测算法
为了解决现有检测算法在骨签文字检测中的问题,本文基于YOLOv5提出复杂纹理背景下的密集骨签文字检测算法,主要包括Input输入端、Backbone特征提取端、Neck颈部端和Predic⁃tion预测端。
Input端使用Mosaic数据增强和自适应锚框(Anchors)计算方法。
Backbone部分由切片结构Focus、4次卷积ConV、C3模块、空间金字塔池化(Spatial pyramid pooling,SPP)模块和SAC模块组成。
SAC模块加强网络对骨签文字深层特征的注意,同时扩展模型捕获特征图全局信息和丰富上下文信息的能力,抑制骨签图像上裂痕对文字检测的干扰;Neck端采用FPN(Fea⁃ture Pyramid Networks)[19]和PAN(Pyramid At⁃
1294
第 9 期
李健昱,等:复杂纹理背景下的密集骨签文字检测算法
tention Network )[20]
结构融合特征图,经过下采样
输出端生成3个特征图用于检测不同尺寸的目标,同时引入损失函数Focal -EIOU Loss 替换原始网络的CIOU 计算定位损失。
其中,EIOU 使用预测框和真实框的宽和高损失代替纵横比,从
而使预测框与真实框的宽度和高度之差最小,生成预测框时能剔除大于真实框的预测框,解决了骨签文字检测框冗余的问题。
本文提出的骨签文字检测算法SAC -YOLOv5网络结构如图1所示。
2.1 SAC 模块
骨签由于年代久远,出现了与文字特征相似的裂痕、磨损等复杂纹理背景信息,在进行文字特征提取时困难较大。
为了从裂痕等信息干扰的骨签图像中提取到更精确的骨签文字特征信息并使模型聚焦到这些文字信息上,本文提出自注意力卷积模块,具体结构如图2所示。
输入特征图F ∈R H ×W ×C 首先经过全局平均
池化操作,然后进行卷积核大小为k 的一维卷积操作,并经过Sigmoid 激活函数得到各个通道的权重,最后将权重与原始输入特征图对应元素相乘,得到的特征图输入到空间自注意力机制中,沿空间维度展开得到矩阵F ∈R N ×C ,其中N =H ·W ,C 表示不同图像区域的高维向量。
然后通过可学习的权重矩阵W q ∈R C ×C ',W k ∈R C ×C ', W v ∈R C ×C '分别计算得到Q 、K 、V 3个向量,
其中
图1 SAC -YOLOv5网络结构Fig.1 SAC -
YOLOv5 network architecture
图2 SAC 模块结构
Fig.2 Self -attention convolutional module architecture
1295
第 38 卷
液晶与显示
C '=C /r ,r >1,r 是还原比,用于减少向量的维数,并计算注意权重和低维子空间中的值。
Q =XW q ,K =XW k ,V =XW v ,(1)
β
N ×N
=Q · K T
⇒a ij =
exp βij
∑j =1
N
exp β
ij
,
i ,j =1,…,N ,(2)V
N ×C '
=α· ν ,
(3)
式中:
α∈R N ×N 为自注意矩阵;a ij 是区域i 对区域j 的注意权重;
V ∈R C ×C '是低维子空间中的权重矩阵,使用W v ∈R C ×C '将其投射到原始子空间获得自注意特征图S ∈R C ×C ',最后通过残差连接获得最终的输出。
S =V ×W v
,
(4)F =F +a S ,
(5)
其中,
a 是初始化为0的可训练标量参数。
SAC 模型首先学习局部邻域周围的图像特征,然后逐渐继续学习全局依赖关系,为网络提供具有丰富内容和上下文信息的特征图,在关注骨签文字位置信息的同时扩展模型捕获特征图全局信息和丰富上下文信息的能力,优化特征提取时混淆裂痕特征与文字特征的问题。
2.2 改进损失函数
YOLOv5的损失函数由分类损失、定位损失和置信度损失组成。
其中定位损失使用CIOU [21]
计算。
CIOU 考虑了边界框回归的重叠面积、中
心点距离、纵横比,其计算公式为:
L CIOU =1-IOU +
ρ2(
)b ,b gt
c 2
+αv ,(6)
其中:
IOU 为交并比,b 和b gt
分别表示预测框和真实框的中心点,ρ(·)表示欧几里得距离,
c 表示包含预测框和真实框的最小外接矩的对角线长度,
α是用于平衡比例的参数:α=
v
()1-IOU +v
,(7)
v 用于衡量预测框和真实框宽和高之间的比例一
致性:
v =
4
π2
(
arctan w gt h
gt
-arctan
w
h
)
2
,(8)
式中:
w gt 、h gt 代表真实框的宽和高,w 和h 代表预测框的宽和高。
由公式(7)可得,CIOU 使用的是预测框和真
实框的宽和高的相对比例,并不是宽和高的值。
根据纵横比v 的定义,可以看出当预测框的宽和高和真实框的比例满足:
{(w =kw
gt
,h =kh gt )|k ∈R +}
,
(9)
即预测框和真实框的宽高纵横比呈线性比例时,
CIOU 中添加的相对比例的惩罚项便不再起作用。
从预测框的宽和高的相对于v 的公式:
ìí
î
ïïïïïïïï∂v ∂w
=8π2(
)
arctan w gt h gt -arctan w h ×h w 2+h 2∂v
∂h =-8π2(
)
arctan w gt h gt -arctan w h ×w w 2+h 2 ,(10)
可以推导出:
∂v ∂w =-h w ∂v ∂h
.(11)
预测框w 和h 的梯度值∂v ∂w 和∂v
∂h
具有相反
的符号。
在预测框回归过程中w 和h 其中某一
个值增大时,另外一个值必须减小,不能同增或者同减。
由于骨签文字具有密集和粘连的特点,因此在骨签文字检测时使用CIOU 作为损失函数,纵横比v 决定了预测框的宽和高不能同增或同减,总是会出现预测框大于真实框的情况,从而导致一框多字的问题。
为了解决这个问题,采用EIOU [22]替换原网络的CIOU 计算定位损失。
EIOU 计算公式为:
L EIOU =L IOU +L dis +L asp =
1-IOU +
ρ2(
)b ,b gt
c 2
+ρ2
()w ,
w gt
c 2w +ρ2
()h ,h gt
c 2h
,
(12)
其中,
c w 和c h 分别是预测框和真实框最小外接矩形的宽和高。
EIOU 将损失函数分成了3个部分:预测框和真实框的重叠损失L IOU 、预测框和真实框的中心距离损失L dis 以及预测框和真实框的宽高损失L asp 。
EIOU 损失的前两部分延续CIOU 中的方法,第三部分使用宽高损失代替纵横比。
宽高损失使预测框与真实框的宽度和高度之差最小,生成预测框时能剔除大于真实框的预测框,解决检测框冗余问题。
图3是CIOU 和EIOU 损失预测框迭代过程对比图,橘色点线框是真实框,黑色实线框是预先设定的锚框,红色虚线框和蓝色虚线框是预测框的回归过程。
1296
第 9 期
李健昱,等:复杂纹理背景下的密集骨签文字检测算法
为了更好地提高模型性能,使用Focal L1损失针对文字和裂痕内容失衡的样本将错误率大的地方设置更高梯度,如式(13)所示,降低低质量骨签样本对模型性能的影响。
通过整合EIOU 损失和Focal L1损失,得到最终的Focal -EIOU 损失,如式(14)所示:
L f ()x =ìíîïï
ïï
ïï-αx 2[]
2ln ()βx -1
4, 0<x ≤1;1/e ≤β≤1 -αln ()
βx +C ,
x >1,1/e ≤β≤1 ,
(13)
L Focal -EIOU =IOU γL EIOU .
(14)
3 实验结果及分析
3.1 实验数据
骨签数据来源于中国社会科学院考古研究所。
由于年代久远,表面不可避免地出现了裂痕。
骨签文字具有密集、粘连的特点,骨签图像样本及标注结果如图4所示。
本文骨签文字数据集采
用“LabelImg ”标注工具进行人工标注,标注信息存储至txt 标签文件,共计标注2 500张骨签数据,按照8∶2的比例划分训练集和验证集。
3.2 数据增强
YOLOv5中使用了Mosaic 数据增强方法,主要思想是将4张图片随机裁剪缩放后拼接成一张图片,在丰富数据集的同时增加小样本目标,提
高网络的鲁棒性。
一次性计算4张骨签图片使模型对内存的需求降低。
本文在Mosaic 思想的基础上,将8张骨签图片随机裁剪、排列、缩放后拼接成一张图片,以此增加骨签图像中小文字样本,增加数据多样性并提升网络的训练速度。
数据增强的流程如图5所示。
3.3 实验环境及参数配置
本文使用Windows10 64位系统,实验环境为python3.7、pytorch1.8.0、cuda11.1。
所有的模型都在NVIDIA RTX 3090Ti GPU 运行,在相同超参数下进行训练、验证和测试。
图片设置为640×640 JPG 格式,Batch size 设置为8,训练200个epoch ,选取准确率(Precision ,P )、召回率(Recall ,R )、平均精度均值(mAP0.5)、每秒10亿次的浮点运算数(GFLOPs )、权重大小(Weight )和实际检测速度(FPS )作为评价指标。
其中P 和R 的计算公式如(15)和(16)所示:
P =
TP
TP +FP ,
(15)R =TP
TP +FN ,
(16)
式中:TP (True Positive )表示真正例,即预测正确的文字数量;FP (False Positive )表示假正例
,
图3 预测框迭代过程对比图
Fig.3
Prediction box iterative process comparison diagram
图5 数据增强Fig.5
Data enhancement
图4 实验数据Fig.4 Experimental data
1297
第 38 卷液晶与显示
即非文字样本被预测为文字的数量;FN(False Negative)表示假负例,即文字样本被预测为非文字的数量。
GFLOPs用于衡量训练模型时的计算复杂度。
mAP为学习的类别精度均值。
mAP0.5表示将交并比IOU设为0.5时,骨签图像文字数据集的AP的平均值。
精度均值AP为以准确率(Precision)和召回率(Recall)所围成的曲线面积值。
因本文检测目标为单类别目标,故mAP值与AP值相等。
mAP计算公式如式(17)所示:
mAP=AP=∫01P d R .(17)3.4 YOLOv5基础模型对比
YOLOv5目标检测网络结构共有YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x 4个模型,网络深度和宽度逐次递增。
在自建骨签文字数据集上对YOLOv5基础模型对比,结果如表1所示。
如表1所示,随着网络深度和宽度的递增,mAP值基本保持一致,而计算量和模型权重文件逐渐增大,导致训练时间变长,检测实时性下降明显。
本文以检测精度和速度为侧重点。
由于在检测精度基本保持一致时,模型实时性会因为网络规模的增大而降低,因此选择YOLOv5s 作为基础网络进行改进,模型参数量和计算量较小,具有更好的实时性和检测精度,能更好地满足骨签文字检测的实际项目需求。
3.5 消融实验
为验证引入多头注意力机制及改进损失函数的有效性,本文进行消融实验评估不同模块在相同实验条件下对骨签文字检测算法性能的影响。
在消融实验中选择YOLOv5s作为基准模型,结果如表2所示。
消融实验中,模型B表明在引入SAC模块后,mAP0.5在YOLOv5s的基础上提升了1.88%,证明了SAC模块的有效性,但检测速度降低,分析认为SAC计算需要消耗较大的计算资源,且检测速度与计算复杂度呈负相关性。
因此,为提高训练效率,本文只在特征提取网络中插入SAC结构。
模型C验证了改进损失函数后的网络性能,mAP0.5提高了1.05%,解决了骨签文字密集、粘连产生的一框多字问题。
模型D验证了最终改进模型的性能,mAP0.5比原YOLOv5s提高了3.08%,证明了本文改进方法对骨签文字检测的有效性。
为了进一步验证自注意力卷积模块的有效性,利用CAM[23]方法绘制增加SAC模块前后的骨签图像的热力图,结果如图6所示。
表1 YOLOv5基础模型结果对比Tab.1 Compared results of Yolov5 basic model
Model YOLOv5s YOLOv5m YOLOv5l YOLOv5x
P/%
89.02
89.51
90.12
90.06
R/%
83.06
84.32
83.17
84.64
mAP0.5/%
90.27
90.31
90.31
90.28
GFLOPs
15.8
48.0
107.9
204.2
Weight/M
13.6
40.1
88.4
165.0
FPS/(f·s-1)
69.6
57.4
43.7
36.3
表2 消融实验结果
Tab.2 Experimental results of ablation
A B C D
Model
YOLOv5s
YOLOv5s+SAC
YOLOv5s+
Focal-EIOU
SAC-YOLOv5s
P/%
89.02
92.21
92.83
92.85
R/%
83.06
87.74
88.53
89.82
mAP0.5/
%
90.27
92.15
91.32
93.35
FPS/
(f·s-1)
69.6
64.5
69.6
64.
5
图6 热力图对比结果
Fig.6 Thermodynamic diagram comparison results
1298
第 9 期
李健昱,等:复杂纹理背景下的密集骨签文字检测算法
由于骨签图像背景复杂,文字与裂痕纹理信息过于相近,未经过SAC 模块的骨签文字目标区域激活值较低且激活范围小,难以有效反映出真实文字目标位置;而经过SAC 模块后,相对更准确地在骨签文字目标区域形成聚焦产生了较高的激活值。
由此可见,本文提出的SAC 模块有效增强了骨签文字的特征,抑制了检测中复杂纹理背景对文字检测的干扰。
为了验证改进损失函数的有效性,对改进前后的模型检测效果进行可视化,结果如图7所示。
可以看出,使用CIOU 作为损失函数对粘连骨签文字进行检测时,出现了检测框冗余现象;而使用Focal -EIOU 作为损失函数时,完整地检测到每个文字,验证了Focal -EIOU 的有效性。
3.6 对比实验
为验证所提算法的先进性,在自建骨签数据集上与当前几种主流算法在相同训练环境下进行客观指标对比,结果如表3所示,P -R 曲线如图8所示。
由图8实验结果可得,在相同实验条件下本文算法的精确率、召回率和平均精确率均优于对比算法,mAP0.5比YOLOv4提高了11.23%;检测速度相较于改进前的YOLOv5s 略有下降,但仍优于其他对比算法。
为进一步验证本文算法对骨签文字的检测效果,选取上述经典检测算法与本
文算法针对含有裂痕干扰、粘连骨签文字以及密集骨签文字3种典型问题进行测试验证,图9展示了裂痕干扰样本。
图10展示了粘连骨签文字样本。
图11展示了密集骨签文字样本的检测结果。
图9中,骨签有严重的裂痕信息干扰,其他对比算法均产生了漏检,本文算法则完整地检测到裂痕干扰下的骨签文字。
图10为粘连骨签文字的检测结果,RetinaNet 、YOLOv3、YOLOv4将粘连文字检测为一个文字,SSD 存在漏检文字,Faster -RCNN 、YOLOv5s 产生了检测框冗余问题,本文算法则很好地检测出粘连文字。
图11所示为密集骨签文字的检测结果,SSD 、YOLOv3、YOLOv4、YOLOv5s 等算法均产生了漏检问题,本文算法则完整地检测出每个文字,检测结果较理想。
在实验中,发现本文算法检测的置信度较低,分析
P r e c i s i o n
Recall
图8 对比实验的P -R 曲线图Fig.8 P -R curves of contrast experiments
图7 Focal -EIOU 改进前后的对比结果
Fig.7 Comparison results of Focal -EIOU before and after
improvement
表3 不同算法的对比实验
Tab.3 Contrast experiment of different algorithms Model SSD [4]Faster -RCNN [6]RetinaNet [7]EfficientDet [24]
文献[16]文献[17]YOLOv3[11]YOLOv4[13]YOLOv5s [14]SAC -YOLOv5
P /%88.8462.56
91.1789.4586.2489.1484.0389.6589.0292.85
R /%52.7291.2578.9664.1477.4580.2666.3560.9483.0689.82
mAP0.5/
%72.4588.7888.9380.9486.4589.3179.8882.1290.2793.35
FPS/(f ·s -1)63.830.624.714.857.254.661.242.769.664.5
1299
第 38 卷
液晶与显示
图10 粘连骨签文字样本的检测结果对比
Fig.10
Comparison of test results of adhesive bone stick text samples
图9 裂痕干扰样本的检测结果对比
Fig.9 Comparison of detection results of crack interference samples
1300
第 9 期
李健昱,等:复杂纹理背景下的密集骨签文字检测算法
认为YOLOv5加入了标签平滑,标签平滑是一种正则化技术,它扰动目标变量,如果出现错误标签,算法受到的影响就会更小。
对比实验表明,本文算法相比其他对比算法能更有效地检测骨签文字。
4 结论
针对骨签存在裂痕等复杂纹理背景干扰、文字密集及粘连的问题,本文提出融合自注意力卷积和改进损失函数的骨签文字检测算法,建立了骨签文字数据集,基于此数据集进行训练和对比实验。
首先,使用Mosaic 数据增强,增加小样本目标,提升网络的训练速度;其次,设计自注意力卷积模块加入特征提取网络中,通过
为文字信息分配更大的权重增强网络对骨签文字特征的注意,同时综合利用各子空间的特征信息,缓解单纯使用自注意力机制产生的过度集中自身位置信息的问题,从全局提取出更多的有效特征,获得更丰富的上下文信息,抑制骨签图像上裂痕对文字检测的干扰;最后,采用Focal -EIOU 损失函数替换原网络的CIOU 进行优化,使用宽高损失使预测框与真实框的宽度和高度之差最小,提高模型的精准预测能力。
实验结果表明,本文算法针对骨签文字检测的mAP0.5达到了93.35%,在检测速度基本不变的情况下,有效增强了YOLOv5的鲁棒性和骨签文字的检测能力,解决了大量检测框冗余、漏检和误检的问题,对复杂纹理背景下的密集粘连骨签文字检测任务更为适用。
参考文献:
[1] 吴至录.西汉长安城未央宫骨签书法研究[D ].北京:中国艺术研究院,2018.
WU Z L. Research on the bones calligraph of Weiyang Palace in Chang ’an city in Western Han dynasty [D ]. Beijing : Chinese National Academy of Arts , 2018. (in Chinese )
[2] 王海勇.未央宫遗址出土骨签书法研究[D ].北京:中央美术学院,2018.
WANG H Y. A study on the calligraphy of the bone markers unearthed at the Weiyang Palace site [D ]. Beijing : China Central Academy of Fine Arts , 2018. (in Chinese
)
图11 密集骨签文字样本的检测结果对比
Fig.11 Comparison of test results of dense bone stick text samples
1301
液晶与显示
1302
第 38 卷[3]陈玺,何斌,龙勇机,等.复杂海背景下的自适应舰船目标检测[J].液晶与显示,2022,37(3):405-414.
CHEN X, HE B, LONG Y J,et al. Adaptive ship target detection in complex background [J].Chinese Journal of Liquid Crystals and Displays, 2022, 37(3): 405-414.(in Chinese)
[4]LIU W, ANGUELOV D, ERHAN D,et al. SSD: single shot MultiBox detector [C]//Proceedings of the 14th Euro⁃pean Conference on Computer Vision. Amsterdam: Springer, 2016: 21-37.
[5]GIRSHICK R, DONAHUE J, DARRELL T,et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus:IEEE, 2014: 580-587.
[6]REN S Q, HE K M, GIRSHICK R,et al. Faster R-CNN: towards real-time object detection with region proposal networks [J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[7]LIN T Y, GOYAL P, GIRSHICK R,et al. Focal loss for dense object detection [C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2980-2988.
[8]REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:unified,real-time object detection [C]// Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779-788.[9]REDMON J, FARHADI A. YOLO9000: better, faster, stronger [C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 6517-6525.
[10]刘杰,朱旋,宋密密.改进YOLOv2的端到端自然场景中文字符检测[J].控制与决策,2021,36(10):2483-2489.
LIU J, ZHU X, SONG M M. End-to-end Chinese character detection in natural scene based on improved YOLOv2 [J].
Control and Decision, 2021, 36(10): 2483-2489.(in Chinese)
[11]REDMON J, FARHADI A. YOLOv3: an incremental improvement [J/OL].arXiv, 2018: 1804.02767.
[12]殷航,张智,王耀林.基于YOLOv3与MSER的自然场景中文文本检测研究与实现[J].计算机应用与软件,2021,38(10):168-172,195.
YIN H, ZHANG Z, WANG Y L. Research and implementation of Chinese text detection in natural scene based on YOLOv3 and MSER [J].Computer Applications and Software, 2021, 38(10): 168-172, 195.(in Chinese)[13]BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection [J/OL].
arXiv, 2020: 2004.10934.
[14]ULTRARYTICS. YOLOv5 [EB/OL].(2020-06-03)[2021-04-15]. https:///Ultraytic/YOLOv5.[15]徐芳,刘晶红,孙辉,等.光学遥感图像海面船舶目标检测技术进展[J].光学精密工程,2021,29(4):916-931.
XU F, LIU J H, SUN H,et al. Research progress on vessel detection using optical remote sensing image [J].Optics and Precision Engineering, 2021, 29(4): 916-931.(in Chinese)
[16]高梦婷,孙晗,唐云祁,等.基于改进YOLOv5的指纹二级特征检测方法[J].激光与光电子学进展,2023,60(10):1010006.
GAO M T, SUN H, TANG Y Q,et al. Fingerprint second-order minutiae detection method based on improved YOLOv5 [J].Laser & Optoelectronics Progress, 2023, 60(10): 1010006.(in Chinese)
[17]董乙杉,李兆鑫,郭靖圆,等.一种改进YOLOv5的X光违禁品检测模型[J].激光与光电子学进展,2023,60(4):0415005.
DONG Y S, LI Z X, GUO J Y,et al. Improved YOLOv5 model for X-ray prohibited item detection [J].Laser & Optoelectronics Progress, 2023, 60(4): 0415005.(in Chinese)
[18]奉志强,谢志军,包正伟,等.基于改进YOLOv5的无人机实时密集小目标检测算法[J].航空学报,2023,44(7):327106.
FENG Z Q, XIE Z J, BAO Z W,et al. Real-time dense small object detection algorithm for UAV based on im⁃proved YOLOv5 [J].Acta Aeronautica et Astronautica Sinica, 2023, 44(7): 327106.(in Chinese)
[19]LIN T Y, DOLLÁR P, GIRSHICK R,et al. Feature pyramid networks for object detection [C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 5936-5944.
[20]LI H,XIONG P,AN J,et al.Pyramid attention network for semantic segmentation [C].IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 1701-1709.
[21]ZHENG Z H, WANG P, LIU W,et al. Distance-IoU loss: faster and better learning for bounding box regression
第 9 期李健昱,等:复杂纹理背景下的密集骨签文字检测算法
[C]//Proceedings of the 34th AAAI Conference on Artificial Intelligence. New York: AAAI, 2020: 12993-13000.[22]ZHANG Y F, REN W Q, ZHANG Z,et al. Focal and efficient IOU loss for accurate bounding box regression [J].
Neurocomputing, 2022, 506(C): 146-157.
[23]ZHOU B L, KHOSLA A, LAPEDRIZA A,et al. Learning deep features for discriminative localization [C]//Proceed⁃ings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 2921-2929.[24]TAN M X, PANG R M, LE Q V. EfficientDet: scalable and efficient object detection [C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 10781-10790.
作者简介:
李健昱(1999—),女,陕西渭南人,硕士研究生,2020年于西安建筑科技大学获得学士学位,主要从事机器视觉及图像处理方面的研究。
E-mail:ljy09@ 王慧琴(1970—),女,山西长治人,博士,教授,2000年于西安交通大学获得博士学位,主要研究方向为智能信息处理、信息理论与应用、信息技术与管理、数字建筑等。
E-mail:hqwang@ .
cn
1303 Copyright©博看网. All Rights Reserved.。