Processing math: 32%

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

用于水下声呐目标检测的弱特征共焦通道调控方法

何梦云 何自芬 张印辉 陈光晨 张枫

何梦云, 何自芬, 张印辉, 陈光晨, 张枫. 用于水下声呐目标检测的弱特征共焦通道调控方法[J]. 中国光学(中英文), 2024, 17(6): 1281-1296. doi: 10.37188/CO.2024-0031
引用本文: 何梦云, 何自芬, 张印辉, 陈光晨, 张枫. 用于水下声呐目标检测的弱特征共焦通道调控方法[J]. 中国光学(中英文), 2024, 17(6): 1281-1296. doi: 10.37188/CO.2024-0031
HE Meng-yun, HE Zi-fen, ZHANG Yin-hui, CHEN Guang-chen, ZHANG Feng. Weak feature confocal channel regulation for underwater sonar target detection[J]. Chinese Optics, 2024, 17(6): 1281-1296. doi: 10.37188/CO.2024-0031
Citation: HE Meng-yun, HE Zi-fen, ZHANG Yin-hui, CHEN Guang-chen, ZHANG Feng. Weak feature confocal channel regulation for underwater sonar target detection[J]. Chinese Optics, 2024, 17(6): 1281-1296. doi: 10.37188/CO.2024-0031

用于水下声呐目标检测的弱特征共焦通道调控方法

cstr: 32171.14.CO.2024-0031
基金项目: 国家自然科学基金资助项目(No. 62171206,No. 62061022)
详细信息
    作者简介:

    何梦云(2000—),女,云南昆明人,硕士研究生,2022年于天津科技大学机械工程学院获得学士学位,现为昆明理工大学机电工程学院硕士研究生,主要从事图像处理、机器视觉及机器智能方面的研究。E-mail:1184345885@qq.com

    何自芬(1976—),女,山西阳泉人,博士,教授,硕士生导师,2000年、2005年于西安理工大学分别获得学士和硕士学位,2013年于昆明理工大学获得博士学位,主要从事图像处理和机器视觉等方面的研究。E-mail:zyhhzf1998@163.com

    张印辉(1977—),男,河北故城人,博士,教授、博士生导师,2000年和2005年于西安理工大学分别获得学士学位和硕士学位,2010年于昆明理工大学获得博士学位,主要从事图像处理、机器视觉及机器智能等方面的研究。E-mail:zhangyinhui@kust.edu.cn

    陈光晨(1997—),男,安徽六安人,博士研究生,2020年于安徽工程大学获得学士学位,2023年于昆明理工大学获得硕士学位,现为昆明理工大学机电工程学院博士研究生,主要从事图像处理、机器视觉、深度学习等方面的研究。E-mail:guangchen_c@yeah.net

    张 枫(1998—),男,江苏南通人,硕士研究生,2021年于淮阴工学院机械与材料工程学院获得学士学位,现为昆明理工大学机电工程学院硕士研究生,主要从事图像处理、机器视觉及深度学习等方面的研究。E-mail:zf1977497475@163.com

  • 中图分类号: TP394.1;TH691.9

Weak feature confocal channel regulation for underwater sonar target detection

Funds: Supported by the National Natural Science Foundation of China (No. 62171206, No. 62061022)
More Information
  • 摘要:

    声呐图像视觉检测是复杂水域资源勘探和水下异物目标探测领域的重要技术之一。针对声呐图像中小目标存在的特征微弱和背景信息干扰问题,本文提出弱特征共焦通道调控水下声呐目标检测算法。为了提高模型对弱小目标的信息捕获和表征能力,设计弱小目标特征激活策略,并引入先验框尺度校准机制匹配底层语义特征检测分支,以提高小目标检测精度。应用全局信息聚合模块深入挖掘弱小目标的全局特征,避免冗余信息覆盖小目标微弱关键特征。为解决传统空间金字塔池化易忽视通道信息的问题,提出共焦通道调控池化模块,保留有效通道域小目标信息并克服复杂背景信息干扰。实验结果表明,本文所提模型在水下声呐数据集的9类弱小目标识别的平均检测精度达83.3%,相较基准提高了5.5%,其中铁桶、人体模型和立方体检测精度得到显著提高,分别提高24%、8.6%和7.3%,有效改善水下复杂环境中弱小目标漏检和误检问题。

     

  • 随着我国海洋强国战略的提出,迫切需求发展海洋经济和提高我国广阔海洋资源的勘探和开发能力[1]。声呐技术通过发射声波获取水下目标的空间位置和类别,在复杂水域环境中具有独特的探测优势,因而受到越来越多研究者的重视。

    传统水下声呐目标探测方法主要是基于回波特性[2-3]与磁性[4-5]等目标声学特性开展的,存在水介质传播不稳定以及微小目标磁性信号较弱不易捕捉等局限性。随着声呐探测技术的快速发展,针对水下目标的声呐图像视觉目标检测技术[6-7]取得了长足进步。Ishak等人[8]采用形态学开口重建方法和最大熵阈值分割算法平滑处理分割声呐灰度图像,增强被噪声破环并包含阴影及反射效果的声呐图像。Zhang[9]提出形态学重建预处理非均衡强度前视声呐图像,再用水平集方法实现了小目标轮廓分割。虽然上述方法均取得了较好的分割效果,但由于它们的模型依赖固定参数设置,导致泛化性和鲁棒性不足。万广南[10]提出结合超声波和激光水下目标探测方法,利用多波束声呐获取水下目标轮廓与尺度信息,以初步识别和定位目标。翟厚曦等人[11]利用瑞利混合模型结合马尔可夫随机场模型拟合合成孔径声呐图像以实现水下目标分割效果。杨卫东等人[12]提出改进snake目标轮廓提取方法,通过构建高斯模型提高声呐成像的轮廓提取和目标检测精度。

    以上传统水下目标探测方法由于数学函数模型固定,导致面对复杂海洋水体环境变化时存在模型鲁棒性不足问题,此外,由于模型参数固定导致难以捕捉复杂目标非线性关系使得目标漏检、误检率升高。深度学习[13]方法基于大数据抽象和表征原始目标信息,并可实现多领域迁移学习和泛化,使其处理复杂水体环境的声呐图像视觉检测任务更具优势。

    Divyabarathi G.[14]等的研究表明:相对于使用机器学习单分类器,使用集合分类器能够显著提高声呐图像的物体检测性能。Chandrashekar[15]采用双层CNN架构对侧扫声呐数据集进行迁移学习,实现了对水下物体的多分类识别。Kong[16]等基于YOLOv3[17]算法设计了双路径网络模块和融合转换模块对前视声呐图像进行高效特征提取,进而提高模型预测能力。Fan等[18]基于YOLOv4[19]算法构建的声呐图像目标检测模型的主干部分引入了自适应空间特征融合模块,缓解基准模型参数量大、网络较深导致的检测速度较慢问题。Gerg[20]采用DenseNet-121[21]进行特征提取的自适应图像增强网络进行声呐图像目标检测和分类,以有效减少数据集偏差引起的特征误差。Zhu等[22]将Swin Transformer[23]融入主干网络方法并结合可变性卷积可适应性调整的特点,从而克服了复杂噪声干扰并有效提高了精度和推理速度。上述方法依赖的复杂网络结构导致模型计算资源需求增加,降低了模型实时应用的效率和推理速度。

    基于深度学习技术的卷积神经网络对水下大尺度显著性目标的检测效果较好,但针对低信噪比微小目标的细节特征捕捉能力受限,因此研究者们为卷积神经网络引入注意力机制[24-25]重点关注弱小目标区域特征以强化其识别和定位精准度。乔美英[26]将协同非局部注意力机制融入特征金字塔模块,并利用卷积和横纵向池化挖掘高维抽象语义特征中的静态和动态上下文信息。张艳等[27]基于通道注意力与特征融合构建水下目标检测算法,强化小尺度目标高频区域的特征提取能力,降低小目标漏检、误检率。Li[28]为YOLOv7[29]引入注意力机制和多尺度信息融合模块,结合阈值分割方法筛选图像,提高水下声呐侧扫数据集中的微小目标的检测性能。虽然注意力机制能有效提高对小目标重点区域的模型关注度,但处理信噪比、低高分辨率图像时常常需要付出高昂的计算成本。张绍文[30]针对远距离中小目标特征丢失的情况,使用多重感受野和二维余弦变换赋予小感受野以较大权重,但其虽保留了空间域信息却无法处理通道域信息丢失的问题。Cui[31]提出基于空洞卷积[32]的上下文信息感知金字塔,通过空洞率控制感受野大小提升小目标检测效果,但空洞卷积易导致小目标局部信息丢失,其仍存在对弱特征微小目标检测的局限性。

    综上所述,基于深度学习水下声呐目标检测技术从注意力机制、感受野调整和特征信息补偿等角度进行了微小目标探测的深入研究。然而,声呐图像微小目标视觉探测依旧面临着声学数据稀缺、类别不均衡、特征弱小、尺度多变以及存在水下噪声干扰成像等问题。针对这些问题,本文提出一种弱特征共焦通道调控网络(weak feature confocal channel modulation network,WFCCMNet)模型。该模型通过3个方面提高水下目标检测精度:(1)通过对原始网络输出预测分支精细化调整及目标弱特征激活方式增强模型对水下声呐图像弱小目标的表征能力;(2)采取全局信息聚合模块进行全局信息提取,进一步挖掘并保留淹没在背景中的小目标弱特征信息;(3)设计共焦通道调控池化模块选择性保留通道域强特征信息,摒弃冗余信息,有效改善传统空间金字塔池化对通道信息提取能力有限的问题。

    本文所提弱特征共焦通道调控水下声呐目标检测算法模型WFCCMNet的网络结构如图1(彩图见期刊电子版)所示。其采用经典CSPNet[33]结构作为主干网络进行多尺度特征提取,设计小目标特征激活策略,根据不同分辨率特征图中的关键信息涵盖程度调整输出预测分支以及先验框匹配机制,从而加强模型对目标的学习能力;设计共焦通道调控模块代替原始空间特征金字塔池化结构,有效保留空间域和通道域弱小目标信息;在Neck部分引入全局信息聚合模块以捕捉弱小目标全局上下文信息,进一步提取更具有判别性的特征,从而提高网络对弱特征小目标的感知能力。

    图  1  WFCCMNet模型结构图
    Figure  1.  WFCCMNet model structure

    基准网络仅3个分支对应输出特征图N3R80×80×256N4R40×40×512N5R20×20×1024,用于进行目标预测。相较于原始输出特征图N4N5,特征图P4R40×40×512更接近网络输入层,感受野和特征抽象程度较小,因此能够保留丰富的声呐图像目标位置等细节信息。相较于P4N4N5特征图更接近网络输出层,感受野和特征抽象程度较大,声呐图像中的目标细节信息经过多次卷积转化为高层语义信息导致小尺度目标丢失。因此,引入P4特征图,保留N3特征图并重命名为P3,弃用N4N5特征图,以在有效扩大感受野的同时保留小目标定位和类别信息。

    为进一步获取包含更多小目标信息的高分辨率特征图,激活特征图P3R80×80×256。采用核数为1、步长为1的卷积模块、上采样模块并将其与主干分支输入特征图W1R160×160×128在通道维度进行拼接。然后,输入C3模块实现多尺度信息融合后经过分支输出高分辨特征图P2R160×160×128。为保留主干网络和上采样后的小目标细节纹理,对P2采用核数为3、步长为2、填充步数为1的卷积模块提取复杂非线性小目标边缘信息,与相同维度的特征图PCBSR80×80×256在通道维度上进行拼接后和C3模块操作得到P1R80×80×256,通过输出作为预测特征图。对应特征图计算公式如式(1)~(3)所示:

    PCBS=CBS1×1(GIAM(P3)), (1)
    P2=C3(Concat(Up(CBS1×1(PGIAM)),W1)), (2)
    P1=C3(Concat(CBS3×3(P2),PCBS)), (3)

    式中,CBS()表示卷积模块操作,()表示卷积模块操作的卷积核数,Up表示最邻近插值上采样操作,Concat表示在通道维度拼接操作,GIAM表示全局信息聚合模块,W1表示主干分支输入特征图,PGIAM表示经过全局信息聚合模块处理后的输出特征。

    先验框能否精准适配检测目标尺寸,是网络能否精准预测声呐目标的前提。为了在WFCCMNet模型中平衡特征图P4(新增弱小目标特征)与先验框尺度的关系,需要输出特征图P3P2P1与先验框的匹配程度,因此增加一组基于大规模小目标数据集聚类生成的先验框尺度[(5,6),(8,14),(15,11)]。经过实验验证,将这组小尺度先验框应用于模型P3预测层进行目标预测。同时,对P4输出分支预测层采用最大尺度先验框[(116,90),(156,198),(373,326)]进行预测,P2P1输出预测层分别使用的先验框为[(10,13),(16,30),(33,23)]、[(30,61),(62,45),(59,119)]。改进前后输出特征图和先验框尺度对应关系如表1所示。

    表  1  改进前后输出分支与先验框对应关系
    Table  1.  Correspondence between output branches and a priori boxes before and after improvement
    改进前 改进后
    输出
    分支
    先验框
    尺度
    输出
    分支
    先验框
    尺度
    - - P4 [(116,90),(156,198),(373,326)]
    N3 [(10,13),(16,30),(33,23)] P3 [(5,6),(8,14),(15,11)]
    N4 [(30,61),(62,45),(59,119)] P2 [(10,13),(16,30),(33,23)]
    N5 [(116,90),(156,198),(373,326)] P1 [(30,61),(62,45),(59,119)]
    下载: 导出CSV 
    | 显示表格

    为了验证上述先验框尺度与真实框尺度的匹配程度,首先对数据集中的标注信息进行核查,计算标注信息与4种尺度先验框的最佳可能召回率(best possible recall,bpr)。当最佳召回率大于或等于0.98时,则不需要更新先验框;如果最佳召回率小于0.98时,则需要重新计算符合此数据集的先验框。计算最佳可能召回率时,会考虑这12类先验框宽高和真实框宽高的差距。计算公式如式(4)~式(5)所示。

    xj=min(GTiwhKjwh,KjwhGTiwh)i{1,,n},j{1,,12} (4)
    bpr=112121max (5)

    其中, GT_{wh}^i 表示n个真实框的宽高, K_{wh}^j 表示12个先验框的宽高, i j 表示宽高索引, {x_j} 表示真实框与设定先验框的宽高比值, thr 表示阈值,默认为4。本文数据集通过上述方式得到的bpr为1,大于0.98,说明本文采用的先验框与数据集真实框的匹配度较高。

    低级语义信息的提取依赖于不同卷积核的滑动操作,并通过池化层的降维过程来保留关键特征,而高级语义信息的挖掘更依赖于全局信息聚合,提高模型对输入特征全局信息的关注度。因此,本文WFCCMNet模型在Neck部分引入全局信息聚合模块(global information aggregation module, GIAM),以有效挖掘上下文信息,提高对小目标全局高级特征的关注程度。结构图如图2(彩图见期刊电子版)所示。

    图  2  全局信息聚合模块结构图
    Figure  2.  Structural diagram of global information aggregation module

    全局聚合模块的4个分支分别用公式(6)~(9)表示,最终输出结果用公式(10)表示。

    v = {Re} (Con{v_v}({{P}_{}}))\quad, (6)
    k = soft\max ({Re} (Con{v_k}({{P}_{}})))\quad, (7)
    a = sigmoid(Con{v_a}({{P}_{}})) \quad, (8)
    o = Con{v_o}({Re} (v \otimes k)) \quad, (9)
    {{P}_{\rm GIAM}} = ((o \odot a) \oplus {{P}_{}})\quad, (10)

    其中, v \in {\mathbb{R}^{1 \times C \times HW}},k \in {\mathbb{R}^{1 \times HW \times 1}},a \in {\mathbb{R}^{1 \times H \times W}},o \in {\mathbb{R}^{C \times 1 \times 1}} 表示4种生成特征图, {{P}_{}} {{P}_{\rm GIAM}} 分别表示输入和输出特征, {Re} 表示维度重塑, C{\text{on}}{{\text{v}}_k}( \cdot ) C{\text{on}}{{\text{v}}_a}( \cdot ) 表示卷积核为1×1且输入通道为c,输出通道为1的降维操作, C{\text{on}}{{\text{v}}_v}( \cdot ) C{\text{on}}{{\text{v}}_o}( \cdot ) 表示卷积核为1×1且输入输出通道为c的特征映射操作。其中:对输入 {{P}}_{}^{} 进行特征映射及维度重塑得到 v \in {\mathbb{R}^{1 \times C \times HW}} ;对输入 {{P}}_{}^{} 进行通道降维和重塑,并进行softmax归一化操作得到结果 k \in {\mathbb{R}^{1 \times H \times W}} ;对输入 {{P}}_{}^{} 进行降维操作并用sigmoid激活函数进行特征非线性激活操作,映射到概率值得到重加权矩阵 a_{}^{} \in {\mathbb{R}^{1 \times H \times W}} ,其用于平衡每个像素的全局聚合空间上下文程度。 v k 进行矩阵相乘和特征重塑得到维度为 {\mathbb{R}^{C \times 1 \times 1}} 的矩阵,再进行卷积特征映射得到 o \in {\mathbb{R}^{C \times 1 \times 1}} ;最后,将 o a 逐元素相乘,并通过残差分支与原始输入 {{P}}_{}^{} 进行逐元素相加,得到输出结果 {{P}_{\rm GIAM}} \in {\mathbb{R}^{{\mathrm{C}} \times {\mathrm{H}} \times {\mathrm{W}}}} 。如图2所示,采用局部特征图放大方法表示初始输入经过特征提取、全局信息聚合及残差融合过程,增加输出结果图及验证结果对比图,直观描述了特征信息的变化情况,以说明全局信息聚合模块有效提高算法模型对弱特征小目标的挖掘能力。

    传统YOLOv5s模型采用的是快速空间金字塔池化(Spatial Pyraimd Pooling-Fast, SPPF),其使用最大池化层并联结构提取多尺度特征,以处理不同大小的目标。传统金字塔池化模块用于声呐图像弱小目标检测存在两个弊端:一方面其采用池化核为5×5串行最大池化层进行空间特征提取,导致小目标弱特征丢失;另一方面仅关注空间信息导致弱小目标检测和泛化性能差,造成模型特征可区分性下降。本文针对上述问题提出共焦通道调控池化模块(common focus channel regulation pooling module, CFCRP)。通过增加多维通道的权重感知实现共焦通道调控,避免传统卷积神经网络由于采用相同大小的卷积核所导致的模型表达能力受限的问题。通过动态计算每个卷积核得到通道权重。通过增加共焦通道调控和空间信息提取方式提取通道和空间信息,有助于提高算法模型对前景背景辨别能力。共焦通道调控池化模块结构如图3(彩图见期刊电子版)所示。

    图  3  共焦通道调控池化模块结构图
    Figure  3.  Structural diagram of confocal channel regulation pooling module

    通过学习通道权重进而调整不同通道的重要性,增强对关键通道的关注度并进行加权处理,从而抑制小目标检测无关通道,减少网络对噪声和冗余信息的敏感性。该模块通过共焦卷积分支、信息通道融合、加权通道选择和空间信息提取4个操作实现。

    共焦卷积分支:由于小目标分布较为疏松且有效特征占比较少,因此对输入特征图 {F_{{\mathrm{in}}}} \in {\mathbb{R}^{{\mathrm{C}} \times {\mathrm{H}} \times {\mathrm{W}}}} 进行1×1卷积得到特征图 X \in {\mathbb{R}^{{\mathrm{C}} \times {\mathrm{H}} \times {\mathrm{W}}}} ,再进行多分支共焦卷积模块操作,其根据目标敏感程度差异扩张感受野生成四分支多尺度语义特征向量 {\boldsymbol{U}}_{}^{m \times m} \in {\mathbb{R}^{{\mathrm{C}} \times {\mathrm{H}} \times {\mathrm{W}}}} m \in \left\{ {1,3,5,7} \right\} ,其中 m 表示卷积核的大小。

    通道信息融合:通过多尺度共焦卷积核控制多分支携带不同层次的信息流进行通道域拼接方式整合,结果如式(11)所示:

    U = \sum {{U^{m \times m}}} ,m \in \{ 1,3,5,7\} \quad, (11)

    式中, U \in {\mathbb{R}^{{\mathrm{C}} \times {\mathrm{H}} \times {\mathrm{W}}}} 通过通道维度进行全局平均池化后嵌入全局信息,生成 S \in {\mathbb{R}^C} 的通道统计信息。 {S_x} 表示S的第x个元素,通过缩小空间维度 H \times W 来计算,如式(12)所示:

    {S_c} = \frac{1}{{H \times W}}\sum\limits_{i = 1}^H {\sum\limits_{j = 1}^W {{U_c}(i,j)} }\quad, (12)

    式中, {U_x} 表示 {U_{}} 通道维度中的第x个元素,通过全连接层(fully connected layer,fc)降低维度提高效率,整合创建高维特征 Z \in {\mathbb{R}^d} 以实现精确自适应选择指导, d 表示全连接层中间特征维度,如式(13)所示:

    Z = FC(S) = \delta (BN(S)) \quad. (13)

    加权通道选择:整合创建后的 Z \in {\mathbb{R}^d} 进行维度扩张为 \widehat Z \in {\mathbb{R}^{C \times 1 \times 1}} ,将其作为特征信息引导 soft\max 操作实现通道间信息交互,以自适应选择不同通道尺度信息。采用4个不同共焦卷积尺度,进一步强化模型对稀疏小尺度目标的检测能力。4种分支自适应特征引导生成操作如式(14)所示:

    {\boldsymbol{w}}_c^{m \times m} = \frac{{{e^{{{\hat Z}^{m \times m}}}}}}{{\displaystyle\sum\limits_m {{e^{{{\hat Z}^{m \times m}}}}} }},m \in \{ 1,3,5,7\}\quad, (14)

    其中, {\boldsymbol{w}}_c^{m \times m} \in {\mathbb{R}^{C \times 1 \times 1}} 表示4种卷积结果的高维特征经过 soft\max 操作后得到的权重向量。通过权重与4种卷积分支结果 U_{}^{m \times m} 进行逐元素相乘和相加得到 V_c^{m \times m} \in {\mathbb{R}^{{\mathrm{C}} \times {\mathrm{H}} \times {\mathrm{W}}}} ,再对其进行逐元素相加得到最终特征图 V \in {\mathbb{R}^{{\mathrm{C}} \times {\mathrm{H}} \times {\mathrm{W}}}} ,计算过程如式(15)所示:

    \begin{split} &V = \sum\limits_c {V_c^{m \times m}} = \sum\limits_c {\sum\limits_m {w_c^{m \times m}U_c^{m \times m}} } , \\& c \in \{ 1,2, \cdots ,C\} ,m \in \{ 1,3,5,7\} \\ \end{split} (15)

    其中 c 表示第 c 个通道,\displaystyle\sum {w_c^{m \times m} = 1} V_c^{m \times m}表示4种共焦卷积分支的加权结果, V 表示 V_c^{m \times m} 逐元素相加结果。

    空间信息提取:将输出结果 {V_{}} 作为该部分输入,首先通过核数为3×3、5×5和9×9的并行平均池化层分别进行空间特征提取,目的是捕捉不同尺度的空间信息以全面理解特征图中小目标弱特征的空间结构,并对无处理特征图与3个池化结果进行通道维度拼接,得到结果 {F_{{\mathrm{avg}}}} \in {\mathbb{R}^{4C \times H \times W}} ,再输入1×1卷积降维成 {\mathbb{R}^{{{C}} \times {{H}} \times {{W}}}} ,采用3×3卷积对其进行特征提取,并与初始输入特征图 {F_{\rm in}} 经过1×1卷积处理后的结果进行通道维度拼接,再通过1×1卷积的通道降维处理获得最终输出特征 {F_{{\mathrm{out}}}} \in {\mathbb{R}^{{{C}} \times {{H}} \times {{W}}}}

    {F_{{\mathrm{avg}}}} = Concat(Av{g_{3 \times 3}}(V),Av{g_{5 \times 5}}(V),Av{g_{9 \times 9}}(V),V) . (16)
    \begin{split} {F_{{\mathrm{out}}}} = & Con{v_{1 \times 1}}(Concat(Con{v_{1 \times 1}}({F_{\rm in}}),\\ &Con{v_{3 \times 3}}(Con{v_{1 \times 1}}({F_{{\mathrm{Avg}}}}))))\end{split} (17)

    其中, Concat 表示通道维度拼接操作, Av{g}{(\cdot)} 表示平均池化操作, (\cdot) 表示平均池化核数。

    本文前视声呐数据集选用鹏城实验室[34]收集的3800张前视声呐图像,模拟了水下典型环境,其中有9个类别分别为包括3类规则几何结构物体:立方体(cube)、球体(ball)、圆柱体(cylinder)与其他6类水下物体:人体模型(human body)、轮胎(tyre)、圆形地笼(circle cage)、方形地笼(square cage)、铁桶(metal bucket)、飞机(plane)。对于数据集划分首先从3800张图片中随机抽取3000张作为训练集,800张作为验证集,训练集与验证集的数量比为15:4。9类目标的数量分布如图4所示。由图4可知球体和立方体水下目标是所有目标实例中数量最多的,分别含有15361330个目标实例;人体模型、轮胎和方形地笼3种类别的实例数量呈断崖式下降,分别为657、531、484个,圆柱体和铁桶水下目标是所有目标实例中数量最少的,分别为286和227个。数据集中九个类别实例数量统计柱状图呈现出小部分头部标签具有较多实例,大多数尾部标签包含少量数据实例的不平衡情况。

    图  4  数据实例分布图
    Figure  4.  Distribution of data instances and a priori frames

    在不同场景下对于小目标的定义各不相同,目前小目标定义方式主要有两种,即基于绝对尺度的定义与基于相对尺度的定义[35-37]。从目标绝对像素大小角度考虑,将分辨率小于32 pixel×32 pixel的目标定义为绝对小目标;从目标与图像的相对比例角度考虑,当目标边界框的宽高与图像的宽高比小于设定阈值时,定义目标为相对小目标,该阈值可根据不同任务进行设定,通用阈值为0.1。由数据集的统计结果可知,图片宽度最值为1024和512,高度最值为2047和1024,其中9个类别中最大目标框的宽高以及最小图片面积占比(512 pixel×1024 pixel)如表2所示。可见,最小占比为0.02,最大占比为0.1,符合相对小目标的定义。因此可以将水下声呐小目标定义为呈长尾状分布的相对小目标。

    表  2  目标图像面积占比
    Table  2.  Target image area percentage
    Classes nameMaximum area of target frame(height×width)Ration
    ball156×1420.04
    circle cage128×1480.04
    cube140×1640.04
    cylinder122×1020.02
    human body215×2160.09
    metal bucket168×2060.07
    plane187×2780.10
    square cage130×1180.03
    tyre166×1660.05
    下载: 导出CSV 
    | 显示表格

    实验环境配置为Windows10操作系统,NVIDIA GeForce GTX3060(12G)显卡和Inter Core i5-10400F的CPU。CUDA版本为11.7,Pytorch版本为1.12,python版本为3.7.0。为了充分发挥模型的优化程度和速度,实验中将训练迭代次数epoch设置为300,训练批量(batch size)设置为16。对于本文所使用的方法及基准训练模型均采用随机梯度下降算法(stochastic gradient descent,SDG)进行参数优化,参数设置一致,具体如下:设置初始学习率为0.01,动量为0.937,权重衰减为0.0005

    本文采用每类识别平均精度(average precision,AP)、均值平均精度(mean average precision,mAP)以及每秒10亿次的浮点运算数(giga floating-point operations per second,GFLOPS)3个指标来评价各网络模型对于水下前视声呐图像9类小目标的检测性能并综合分析网络模型运行复杂程度。

    准确率指分类器找出正确分类的正样本在整个被分为正样本中所占的比例,召回率指的是正类被分对的比例。通过获得多个预测框与标注框的IoU,并以此计算出对应的准确率与召回率。平均精度(AP)是在不同置信度下使用准确率和召回率构建曲线所围成的面积。均值平均精度(mAP)是指在测试集中对各类目标检测精度的平均值。其数值越大,代表识别效果越好,计算公式分别为:

    P = \frac{{TP}}{{TP + FP}}\quad, (18)
    R = \frac{{TP}}{{TP + FN}}\quad, (19)
    {\text{m}}AP = \frac{{\displaystyle\sum\limits_{i = 0}^K {AP} }}{K} \quad, (20)

    其中TP表示真实正类判定为正类的样本数,FP表示真实负类判定为正类的样本数,FN表示真实正类判断为负类的样本数, \displaystyle\sum {AP} 表示各类平均精度的总和,K表示数据集的类别数目。在目标检测分类识别中,mAP50是指设置IoU阈值大于0.5时的测试识别精度评价指标。

    本文通过逐次叠加3个模块消融实验证明各改进点针对声呐图像弱小目标的检测有效性,统计各类别AP精度、mAP50以及GFLOPS,以验证每个改进点相对于原始模型的改进效果。表3为各模块消融实验结果。通过表3可知,各改进模块对于弱小目标检测的平均精度都有所提升。首先,增加弱小目标特征激活策略后mAP50相较于基准网络提高2.3%,其中铁桶、人体模型和圆柱体的AP提升最显著,精度分别提高7.7%、6.4%和5.7%。说明充分利用模型输出包含浅层语义信息的特征检测层以及采用高匹配置信度先验框尺度能够提高弱小目标检测效果。在此基础上,引入全局信息聚合模块(GIAM),与基准网络相比,mAP50提升3.1%,其中铁桶、人体模型和圆形地笼精度分别提高20%、5.6%和2.5%,最后,采用共焦通道调控池化模块(CFCRP)后mAP50提升5.5%,其中铁桶、人体模型、轮胎、立方体和方形地笼精度增长显著,相较于基准网络分别提高24%、8.6%、8.3%、7.3%和4.2%。由于上述模块具有一定复杂程度,导致最终GFLOPS为23.7G;本文模型WFCCMNet对于人体模型、球体、轮胎、铁桶和立方体5类目标达到的检测精度最高,分别为89.8%、85.7%、73.1%、85.1%和91.7%。

    表  3  改进模块消融实验
    Table  3.  Improved module ablation experiments
    GFLOPS mAP50 human body ball circle cage square cage tyre metal bucket cube cylinder plane
    Baseline 15.8 77.8 81.2 84.9 81.6 78.7 64.8 61.1 84.4 71.8 92.5
    +特征激活 18.6 80.1 87.6 82.5 81.1 80.9 64.9 68.8 86.4 77.5 91
    +GIAM 19.5 80.9 86.8 83.8 84.1 78.5 64.3 80.1 85.8 74.8 90.3
    +CFCRP 23.7 83.3 89.8 85.7 79.1 82.9 73.1 85.1 91.7 71.2 91
    下载: 导出CSV 
    | 显示表格

    首先对P4P3P2P1 4个检测特征图和小目标先验框的对应关系进行对比实验,采用G1G5 5个实验代号表示5种输出分支预测层和先验框的对应情况,如表4所示。实验结果如表5所示。

    表  4  实验代号与输出分支和先验框尺度对应关系
    Table  4.  Correspondence of experiment codes with output layers and a priori boxes
    实验代号 输出分支 先验框尺度 输出分支 先验框尺度
    G1 - - N4 [(30,61),(62,45),(59,119)]
    N3 [(10,13),(16,30),(33,23)] N5 [(116,90),(156,198),(373,326)]
    G2 P4 [(5,6),(8,14),(15,11)] P2 [(30,61),(62,45),(59,119)]
    P3 [(10,13),(16,30),(33,23)] P1 [(116,90),(156,198),(373,326)]
    G3 P4 [(10,13),(16,30),(33,23)] P2 [(30,61),(62,45),(59,119)]
    P3 [(5,6),(8,14),(15,11)] P1 [(116,90),(156,198),(373,326)]
    G4 P4 [(30,61),(62,45),(59,119)] P2 [(10,13),(16,30),(33,23)]
    P3 [(5,6),(8,14),(15,11)] P1 [(116,90),(156,198),(373,326)]
    G5 P4 [(116,90),(156,198),(373,326)] P2 [(10,13),(16,30),(33,23)]
    P3 [(5,6),(8,14),(15,11)] P1 [(30,61),(62,45),(59,119)]
    下载: 导出CSV 
    | 显示表格
    表  5  检测分支与先验框组合定量实验结果
    Table  5.  Results of quantitative experiments on the combination of detection branch and a priori frame
    实验代号 GFLOPS mAP50 human body ball circle cage square cage tyre metal bucket cube cylinder plane
    G1 15.8 77.8 81.2 84.9 81.6 78.7 64.8 61.1 84.4 71.8 92.5
    G2 15.9 78.6 88.8 83.7 79.7 82.6 60.6 66.9 87.1 68.5 89.7
    G3 15.9 77.5 77.9 82.3 80.7 72.4 63.9 67.6 86.9 73.7 92.1
    G4 15.9 79.2 79.9 81.7 78.5 75.2 64.4 74.2 87.3 76.6 95.1
    G5 15.9 79.3 89.4 83.2 78.6 83.3 63 71.1 84.3 71.2 90
    下载: 导出CSV 
    | 显示表格

    原始模型在Neck部分输出三层特征层,分别对应N3N4N4特征图。实验G1作为基准实验,采用了3个不同尺度的先验框:[(10,13),(16,30),(33,23)]、[(30,61),(62,45),(59,119)]、[(116,90),(156,198),(373,326)]。根据定量实验结果可知,实验G2的mAP50提高0.8%,实验G3的mAP50降低0.3%。实验G4G5的mAP50均得到显著提高,分别提高1.4%和1.5%。然而,在人体模型类别中,实验G5相较G4的AP值提高9.5%,相较基准实验G1提高8.2%,实验G4G1的AP值降低1.3%;在方形地笼类别中,实验G5相较G4的AP值提高8.1%,较基准实验G1提高4.6%,实验G4G1的AP值降低3.5%。这说明实验G5的检测分支与先验框组合更适用于挖掘输出特征图中的弱小目标特征。因此,选择实验G5检测分支与先验框组合结果作为基准进行下一步模型改进。

    为验证所设计的共焦通道调控模块中多感受野卷积核的有效性,通过依次叠加1×1、3×3、5×5、7×7、9×9卷积核进行对比实验。

    表6实验数据可知,依次增加不同尺度共焦卷积核会导致计算量增加,且当卷积核增加到1×1、3×3、5×5、7×7时,mAP50最高,达到83.3%,其中3个类别精度达到最高,分别为:轮胎精度达到73.1%,立方体精度达到91.7%;飞机精度达到91%,相较基准模型mAP50提高2.4%。另外,人体模型精度提高3%,方形地笼精度提高4.4%,轮胎精度提高8.8%,铁桶精度提高5%,立方体精度提高5.9%,飞机精度提高0.7%。为进一步验证最优性,增加了一组核为9×9卷积进行对比实验,发现mAP50和9类AP精度均下降,说明进一步提高模型感受野不仅会导致计算量增加还会使精度下降。由此可知,1×1、3×3、5×5、7×7组合四分支共焦卷积为效果最优实验。

    表  6  多尺度共焦卷积对比实验
    Table  6.  Multi-scale confocal convolution comparison experiments
    Base Model 共焦卷积核 GFLOPS mAP50 human body ball circle cage square cage tyre metal bucket cube cylinder plane
    YOLOv5s
    +特征激活
    +GIAM
    -19.580.986.883.884.178.564.380.185.874.890.3
    +1×119.380.885.386.167.385.171.384.589.768.889.5
    +1×1
    +3×3
    19.481.489.484.178.883.366.187.587.168.787.5
    +1×1
    +3×3
    +5×5
    20.880.691.883.47579.167.272.387.280.588.8
    +1×1
    +3×3
    +5×5
    +7×7
    23.783.389.885.779.182.973.185.191.771.291
    +1×1
    +3×3
    +5×5
    +7×7
    +9×9
    27.678.285.384.97480.266.478.288.661.684.6
    下载: 导出CSV 
    | 显示表格

    为验证所提出的共焦通道调控池化模块的有效性,与目前常见的6种空间特征金字塔池化模型进行对比实验。所有实验均在特征激活和全局信息聚合模块改进的基础上进行,其中原始模型主干部分采用SPPF作为空间特征金字塔池化进行特征提取。为保证实验公平性,仅改变空间特征金字塔池化模块而不改变位置和参数。

    实验结果如表7所示。前面6种空间特征金字塔池化常用于不同目标检测任务对图像进行特征提取。由表7可知:SPP、RFB和SPPF能够在计算量较小的情况下使mAP50高于80%,分别为81.4%、80.5%和80.9%;而SPPFCSPC、SPPCSPC和ASPP较其他空间特征金字塔池化计算量高、精度低,mAP50均低于80%;本文提出的共焦通道调控池化模块(CFCRP)mAP50最高,为83.3%,其计算量为23.7 G。相较于原始特征金字塔SPPF,增益类别和类精度涨幅分别为:人体模型精度增加3%、球体精度增加1.9%、方形地笼精度增加4.4%、轮胎精度增加8.8%、铁桶精度增加5%、立方体精度增加5.9%。相较于其他空间特征金字塔池化结构,共焦通道调控池化模块对于人体模型、轮胎、铁桶、立方体4个类别AP精度均最高,分别为89.8%、73.1%、85.1%和91.7%;而球体和飞机精度分别为85.7%和91%,与最高精度差距仅为0.1%和0.2%。实验结果充分表明相较于其他空间特征金字塔池化模块,在水下声呐图像弱小目标识别检测任务中本文提出的共焦通道调控池化模块能够获得较好的效果。

    表  7  空间特征金字塔池化对比实验
    Table  7.  Spatial feature pyramid pooling comparison experiments
    Base Model 空间特征金字塔池化 GFLOPS mAP50 human body ball circle cage square cage tyre metal bucket cube cylinder plane
    YOLOv5s
    +特征激活
    +GIAM
    +SPPF 19.5 80.9 86.8 83.8 84.1 78.5 64.3 80.1 85.8 74.8 90.3
    +SPP 18.5 81.4 86.1 83.6 81.9 86.8 67.5 73.2 86.4 76.8 90.2
    +SPPFCSPC 23.6 73.9 78.1 79.7 71.6 76.5 60.3 60.4 85.4 62.1 91.2
    +ASPP 25.1 77 78.4 80.1 72.8 77.6 70 76.6 88 61.8 87.9
    +RFB 19.0 80.5 86.8 85.8 78.7 80.4 69.7 80.3 87.2 72.2 83.8
    +SPPCSPC 23.6 75.2 80.3 78.6 73.4 72.8 62.4 71.4 82.4 72.3 83.1
    +CFCRP 23.7 83.3 89.8 85.7 79.1 82.9 73.1 85.1 91.7 71.2 91
    下载: 导出CSV 
    | 显示表格

    为了综合测试本文模型WFCCMNet的检测效果,与双阶段目标检测网络、基准模型以及YOLO系列模型进行对比实验,实验结果如表8所示。模型训练和验证数据均为本文设定数据集。

    表  8  网络模型对比实验
    Table  8.  Network model comparison experiment
    Model GFLOPS mAP50 human body ball circle cage square cage tyre metal bucket cube cylinder plane
    SSD[38] 347.1 78.8 89.1 90.9 74.8 76.4 62.3 77.4 81 68.4 89
    RetinaNet[39] 207.9 68.4 89.8 77.5 59.8 74.7 47.4 75.9 78.6 24 87.9
    YOLOv5x[40] 203.9 77.4 76.1 83.8 76.8 72.7 62.3 80 83.8 66.2 95
    Faster RCNN[41] 193.8 71.2 80.4 81.1 77.6 75.7 45 70 81.8 40.4 88.7
    YOLOv7[29] 103.3 60.4 71.5 74.2 57.8 67 48.1 59.8 72.8 35.8 56.4
    YOLOv5m[40] 48 71.3 68.6 81.8 79 61.5 56.7 58.9 85.1 69.3 80.7
    DAMO-YOLO[42] 36 72.7 65.5 81.3 70.2 70.8 38.7 87.8 85.6 71.8 82.2
    YOLOv8s[43] 28.2 81.4 82.3 86.5 81.1 86.6 65 93.7 88.5 53.5 95
    YOLOXs[44] 26.7 82.4 88.1 88 75.9 87.2 71.7 79.3 89.6 71.4 90
    YOLOv5s[40] 15.8 77.8 81.2 84.9 81.6 78.7 64.8 61.1 84.4 71.8 92.5
    YOLOv7-tiny[45] 13.1 64.2 70.3 84.5 46.7 76.8 35.4 66.3 83.3 41.7 72.7
    YOLOv3-tiny[41] 5.57 63.2 65.2 73.6 69.4 63.2 37.5 63.9 76 48 72.1
    YOLOv5n[40] 4.2 72.3 86 79.2 74.5 77.9 59.3 52.8 81.8 58 80.8
    WFCCMNet 23.7 83.3 89.8 85.7 79.1 82.9 73.1 85.1 91.7 71.2 91
    下载: 导出CSV 
    | 显示表格

    表8按照GFLOPS指标从大到小降序排列。通过与经典双阶段目标检测算法(如Faster RCNN)和单阶段目标检测算法(如SSD和RetinaNet)对比发现,这几种算法的GFLOPS是本文算法WFCCMNet的8~14倍,且它们仅在人体模型和球体上达到最高检测精度,分别为89.8%和90.9%,类精度数据呈现出不平衡状态且mAP50都低于本文算法模型WFCCMNet。相比之下,YOLO系列算法的计算量较低,而YOLOv7模型GFLOPS较大但检测精度最低,mAP50仅达到60.4%;GFLOPS仅为5.57G和13.1G的轻量化模型YOLOv3-tiny、YOLOv7-tiny检测精度仅为63.2%和64.2%。与YOLOv5系列4种不同网络深度模型进行横向对比发现,GFLOPS最低为4.2 G的YOLOv5n模型mAP50仅达到72.3%;YOLOv5x为最大深度模型具有203.9 GFLOPS,但其mAP50仅达到77.4%,仅能实现飞机模型类精度最高,为95%,本文模型WFCCMNet与其相比,GFLOPS仅为其11.6%,但mAP50精度超过了5.9%。YOLOXs模型mAP50到达82.4%,较本文模型仅低0.9%,但其GFLOPS比本文模型高3 G。从类精度角度分析得知,9个类中有6个类AP值均高于YOLOXs模型结果,分别为:人体模型高于1.7%、圆形地笼高于3.2%、轮胎高于1.4%、铁桶高于5.8%、立方体高于7.3%和飞机高于1%。与YOLOv8s相比可知,本文模型GFLOPS较低且mAP50较其高1.9%。通过对比实验可知本文模型的综合效果均优于DAMO-YOLO模型。综合分析可知,本文模型WFCCMNet在23.7 G计算量下实现3类目标检测最高精度,分别为人体模型达到89.8%,轮胎精度达到73.1%,立方体精度达到91.7%,在水下声呐图像弱小目标检测任务中展现出较强的竞争优势。

    为了进一步评价本文算法的检测效果,通过局部放大真实值、YOLOv5s和WFCCMNet算法模型预测可视化结果进行对比。在图片左上角增加预测类别数量统计情况,以清晰展示高分辨率图像中的目标预测真实结果如图5(彩图见期刊电子版)所示。由图5得知,基础网络对小目标弱特征提取能力受限导致轮胎等多类目标识别精度较低,造成误检、漏检率较高;本文WFCCMNet模型通过弱小目标特征激活策略和全局信息聚合模块强化模型特征挖掘学习能力,构建共焦卷积通道调控模块增强模型对通道信息和空间信息的关注能力。通过真实值与基础网络预测结果的对比分析可知,基础网络YOLOv5s对立方体和人体模型出现错检和漏检情况,在多类目标检测时易产生漏检,如轮胎和铁桶,而WFCCMNet能够筛选有效特征,避免背景噪声信息干扰,从而提高立方体、轮胎、铁桶等目标检测精度,降低水下声呐图像弱小目标误检、漏检率。

    图  5  检测结果可视化
    Figure  5.  Visualisation of detection results

    针对水下声呐图像中存在信噪比低且稀疏小尺度目标容易导致误检和漏检的问题,本文提出一种弱特征共焦通道调控模型。该模型通过设计特征激活策略来增强网络对小目标的表征能力,并应用全局信息聚合模块有效挖掘全局和局部信息,提高对弱小目标特征的关注度。最后,针对现有空间特征金字塔池化存在的缺陷,设计共焦通道调控池化模块。该模块通过共焦卷积通道调控结构增强通道域的信息感知能力,减少冗余背景信息,同时保留小目标的空间域和通道域语义特征。实验结果表明,本文提出的WFCCMNet模型在水下声呐图像小目标检测任务中取得了83.3%的mAP50,相比基准模型提高5.5%。其中,铁桶、人体模型和立方体的检测精度较基准网络YOLOv5s分别显著提高了24%、8.6%和7.3%,在水下声呐图像弱小目标检测任务中表现出色。在未来实际应用中,将考虑模型压缩和知识蒸馏优化模型权重,进一步实现轻量化目标检测。

  • 图 1  WFCCMNet模型结构图

    Figure 1.  WFCCMNet model structure

    图 2  全局信息聚合模块结构图

    Figure 2.  Structural diagram of global information aggregation module

    图 3  共焦通道调控池化模块结构图

    Figure 3.  Structural diagram of confocal channel regulation pooling module

    图 4  数据实例分布图

    Figure 4.  Distribution of data instances and a priori frames

    图 5  检测结果可视化

    Figure 5.  Visualisation of detection results

    表  1  改进前后输出分支与先验框对应关系

    Table  1.   Correspondence between output branches and a priori boxes before and after improvement

    改进前 改进后
    输出
    分支
    先验框
    尺度
    输出
    分支
    先验框
    尺度
    - - P4 [(116,90),(156,198),(373,326)]
    N3 [(10,13),(16,30),(33,23)] P3 [(5,6),(8,14),(15,11)]
    N4 [(30,61),(62,45),(59,119)] P2 [(10,13),(16,30),(33,23)]
    N5 [(116,90),(156,198),(373,326)] P1 [(30,61),(62,45),(59,119)]
    下载: 导出CSV

    表  2  目标图像面积占比

    Table  2.   Target image area percentage

    Classes nameMaximum area of target frame(height×width)Ration
    ball156×1420.04
    circle cage128×1480.04
    cube140×1640.04
    cylinder122×1020.02
    human body215×2160.09
    metal bucket168×2060.07
    plane187×2780.10
    square cage130×1180.03
    tyre166×1660.05
    下载: 导出CSV

    表  3  改进模块消融实验

    Table  3.   Improved module ablation experiments

    GFLOPS mAP50 human body ball circle cage square cage tyre metal bucket cube cylinder plane
    Baseline 15.8 77.8 81.2 84.9 81.6 78.7 64.8 61.1 84.4 71.8 92.5
    +特征激活 18.6 80.1 87.6 82.5 81.1 80.9 64.9 68.8 86.4 77.5 91
    +GIAM 19.5 80.9 86.8 83.8 84.1 78.5 64.3 80.1 85.8 74.8 90.3
    +CFCRP 23.7 83.3 89.8 85.7 79.1 82.9 73.1 85.1 91.7 71.2 91
    下载: 导出CSV

    表  4  实验代号与输出分支和先验框尺度对应关系

    Table  4.   Correspondence of experiment codes with output layers and a priori boxes

    实验代号 输出分支 先验框尺度 输出分支 先验框尺度
    G1 - - N4 [(30,61),(62,45),(59,119)]
    N3 [(10,13),(16,30),(33,23)] N5 [(116,90),(156,198),(373,326)]
    G2 P4 [(5,6),(8,14),(15,11)] P2 [(30,61),(62,45),(59,119)]
    P3 [(10,13),(16,30),(33,23)] P1 [(116,90),(156,198),(373,326)]
    G3 P4 [(10,13),(16,30),(33,23)] P2 [(30,61),(62,45),(59,119)]
    P3 [(5,6),(8,14),(15,11)] P1 [(116,90),(156,198),(373,326)]
    G4 P4 [(30,61),(62,45),(59,119)] P2 [(10,13),(16,30),(33,23)]
    P3 [(5,6),(8,14),(15,11)] P1 [(116,90),(156,198),(373,326)]
    G5 P4 [(116,90),(156,198),(373,326)] P2 [(10,13),(16,30),(33,23)]
    P3 [(5,6),(8,14),(15,11)] P1 [(30,61),(62,45),(59,119)]
    下载: 导出CSV

    表  5  检测分支与先验框组合定量实验结果

    Table  5.   Results of quantitative experiments on the combination of detection branch and a priori frame

    实验代号 GFLOPS mAP50 human body ball circle cage square cage tyre metal bucket cube cylinder plane
    G1 15.8 77.8 81.2 84.9 81.6 78.7 64.8 61.1 84.4 71.8 92.5
    G2 15.9 78.6 88.8 83.7 79.7 82.6 60.6 66.9 87.1 68.5 89.7
    G3 15.9 77.5 77.9 82.3 80.7 72.4 63.9 67.6 86.9 73.7 92.1
    G4 15.9 79.2 79.9 81.7 78.5 75.2 64.4 74.2 87.3 76.6 95.1
    G5 15.9 79.3 89.4 83.2 78.6 83.3 63 71.1 84.3 71.2 90
    下载: 导出CSV

    表  6  多尺度共焦卷积对比实验

    Table  6.   Multi-scale confocal convolution comparison experiments

    Base Model 共焦卷积核 GFLOPS mAP50 human body ball circle cage square cage tyre metal bucket cube cylinder plane
    YOLOv5s
    +特征激活
    +GIAM
    -19.580.986.883.884.178.564.380.185.874.890.3
    +1×119.380.885.386.167.385.171.384.589.768.889.5
    +1×1
    +3×3
    19.481.489.484.178.883.366.187.587.168.787.5
    +1×1
    +3×3
    +5×5
    20.880.691.883.47579.167.272.387.280.588.8
    +1×1
    +3×3
    +5×5
    +7×7
    23.783.389.885.779.182.973.185.191.771.291
    +1×1
    +3×3
    +5×5
    +7×7
    +9×9
    27.678.285.384.97480.266.478.288.661.684.6
    下载: 导出CSV

    表  7  空间特征金字塔池化对比实验

    Table  7.   Spatial feature pyramid pooling comparison experiments

    Base Model 空间特征金字塔池化 GFLOPS mAP50 human body ball circle cage square cage tyre metal bucket cube cylinder plane
    YOLOv5s
    +特征激活
    +GIAM
    +SPPF 19.5 80.9 86.8 83.8 84.1 78.5 64.3 80.1 85.8 74.8 90.3
    +SPP 18.5 81.4 86.1 83.6 81.9 86.8 67.5 73.2 86.4 76.8 90.2
    +SPPFCSPC 23.6 73.9 78.1 79.7 71.6 76.5 60.3 60.4 85.4 62.1 91.2
    +ASPP 25.1 77 78.4 80.1 72.8 77.6 70 76.6 88 61.8 87.9
    +RFB 19.0 80.5 86.8 85.8 78.7 80.4 69.7 80.3 87.2 72.2 83.8
    +SPPCSPC 23.6 75.2 80.3 78.6 73.4 72.8 62.4 71.4 82.4 72.3 83.1
    +CFCRP 23.7 83.3 89.8 85.7 79.1 82.9 73.1 85.1 91.7 71.2 91
    下载: 导出CSV

    表  8  网络模型对比实验

    Table  8.   Network model comparison experiment

    Model GFLOPS mAP50 human body ball circle cage square cage tyre metal bucket cube cylinder plane
    SSD[38] 347.1 78.8 89.1 90.9 74.8 76.4 62.3 77.4 81 68.4 89
    RetinaNet[39] 207.9 68.4 89.8 77.5 59.8 74.7 47.4 75.9 78.6 24 87.9
    YOLOv5x[40] 203.9 77.4 76.1 83.8 76.8 72.7 62.3 80 83.8 66.2 95
    Faster RCNN[41] 193.8 71.2 80.4 81.1 77.6 75.7 45 70 81.8 40.4 88.7
    YOLOv7[29] 103.3 60.4 71.5 74.2 57.8 67 48.1 59.8 72.8 35.8 56.4
    YOLOv5m[40] 48 71.3 68.6 81.8 79 61.5 56.7 58.9 85.1 69.3 80.7
    DAMO-YOLO[42] 36 72.7 65.5 81.3 70.2 70.8 38.7 87.8 85.6 71.8 82.2
    YOLOv8s[43] 28.2 81.4 82.3 86.5 81.1 86.6 65 93.7 88.5 53.5 95
    YOLOXs[44] 26.7 82.4 88.1 88 75.9 87.2 71.7 79.3 89.6 71.4 90
    YOLOv5s[40] 15.8 77.8 81.2 84.9 81.6 78.7 64.8 61.1 84.4 71.8 92.5
    YOLOv7-tiny[45] 13.1 64.2 70.3 84.5 46.7 76.8 35.4 66.3 83.3 41.7 72.7
    YOLOv3-tiny[41] 5.57 63.2 65.2 73.6 69.4 63.2 37.5 63.9 76 48 72.1
    YOLOv5n[40] 4.2 72.3 86 79.2 74.5 77.9 59.3 52.8 81.8 58 80.8
    WFCCMNet 23.7 83.3 89.8 85.7 79.1 82.9 73.1 85.1 91.7 71.2 91
    下载: 导出CSV
  • [1] 王芳. 新时期海洋强国建设形势与任务研究[J]. 中国海洋大学学报(社会科学版),2020(5):11-19.

    WANG F. Research on the situation and tasks of building a strong maritime power in the new era[J]. Journal of Ocean University of China (Social Sciences), 2020(5): 11-19. (in Chinese).
    [2] CLAY C S, HORNE J K. Acoustic models of fish: the Atlantic cod (Gadus morhua)[J]. The Journal of the Acoustical Society of America, 1994, 96(3): 1661-1668. doi: 10.1121/1.410245
    [3] HARLEY H E, DELONG C M. Echoic object recognition by the bottlenose dolphin[J]. Comparative Cognition & Behavior Reviews, 2008, 3: 46-65.
    [4] 谭亦秋. 基于直流超导量子干涉仪的水下铁磁性目标探测技术研究[D]. 长沙: 国防科技大学, 2020.

    TAN Y Q. Research on detection technology of underwater ferromagnetic target based on DC superconducting quantum interference device[D]. Changsha: National University of Defense Technology, 2020. (in Chinese).
    [5] 陈正想, 卢俊杰. 弱磁探测技术发展现状[J]. 水雷战与舰船防护,2011,19(4):1-5,24.

    CHEN ZH X, LU J J. Current development of weak magnetic detection[J]. Mine Warfare & Ship Self-Defence, 2011, 19(4): 1-5,24. (in Chinese).
    [6] XU W H, YANG J M, WEI H D, et al. A localization algorithm based on pose graph using Forward-looking sonar for deep-sea mining vehicle[J]. Ocean Engineering, 2023, 284: 114968. doi: 10.1016/j.oceaneng.2023.114968
    [7] 罗逸豪. 基于深度学习的声呐图像目标检测系统[J]. 数字海洋与水下攻防,2023,6(4):423-428.

    LUO Y H. Sonar image object detection system based on deep learning[J]. Digital Ocean & Underwater Warfare, 2023, 6(4): 423-428. (in Chinese).
    [8] ISHAK A B. A two-dimensional multilevel thresholding method for image segmentation[J]. Applied Soft Computing, 2017, 52: 306-322. doi: 10.1016/j.asoc.2016.10.034
    [9] ZHANG B M, ZHOU T, SHI ZI F, et al. An underwater small target boundary segmentation method in forward-looking sonar images[J]. Applied Acoustics, 2023, 207: 109341. doi: 10.1016/j.apacoust.2023.109341
    [10] 万广南. 基于激光和超声的水下目标探测方法研究[D]. 哈尔滨: 哈尔滨工业大学, 2017.

    WAN G N. Research on underwater target detection based laser and ultrasound[D]. Harbin: Harbin Institute of Technology, 2017. (in Chinese).
    [11] 翟厚曦, 江泽林, 张鹏飞, 等. 一种合成孔径声呐图像目标分割方法[J]. 仪器仪表学报,2016,37(4):887-894. doi: 10.3969/j.issn.0254-3087.2016.04.022

    ZHAI H X, JIANG Z L, ZHANG P F, et al. Object segmentation method for synthetic aperture sonar images[J]. Chinese Journal of Scientific Instrument, 2016, 37(4): 887-894. (in Chinese). doi: 10.3969/j.issn.0254-3087.2016.04.022
    [12] 杨卫东, 叶长彬, 陈正林, 等. 基于snake算法的声呐图像轮廓提取方法[J]. 压电与声光,2023,45(5):752-758.

    YANG W D, YE CH B, CHEN ZH L, et al. Image contour extraction method based on snake algorithm[J]. Piezoelectrics & Acoustooptics, 2023, 45(5): 752-758. (in Chinese).
    [13] 胡钢. 基于深度学习的水下目标识别和运动行为分析技术研究[D]. 哈尔滨: 哈尔滨工程大学, 2021.

    HU G. Research on underwater target recognition and motion behavior analysis technology based on deep learning[D]. Harbin: Harbin Engineering University, 2021. (in Chinese).
    [14] DIVYABARATHI G, SHAILESH S, JUDY M V. Object classification in underwater SONAR images using transfer learning based ensemble model[C]. Proceedings of 2021 International Conference on Advances in Computing and Communications, IEEE, 2021: 1-4.
    [15] CHANDRASHEKAR G, RAAZA A, RAJENDRAN V, et al. Side scan sonar image augmentation for sediment classification using deep learning based transfer learning approach[J]. Materials Today: Proceedings, 2023, 80: 3263-3273. doi: 10.1016/j.matpr.2021.07.222
    [16] KONG W Z, HONG J CH, JIA M Y, et al. YOLOv3-DPFIN: a dual-path feature fusion neural network for robust real-time sonar target detection[J]. IEEE Sensors Journal, 2020, 20(7): 3745-3756. doi: 10.1109/JSEN.2019.2960796
    [17] ZHAO L, LI S. Object detection algorithm based on improved YOLOv3[J]. Electronics, 2020, 9(3): 537.
    [18] FAN X N, LU L, SHI P F, et al. A novel sonar target detection and classification algorithm[J]. Multimedia Tools and Applications, 2022, 81(7): 10091-10106. doi: 10.1007/s11042-022-12054-4
    [19] WANG C Y, Bochkovskiy A, Liao H Y M. Scaled-yolov4: Scaling cross stage partial network[C]//Proceedings of the IEEE/cvf conference on computer vision and pattern recognition. 2021: 13029-13038.
    [20] GERG I D, MONGA V. Structural prior driven regularized deep learning for sonar image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 4200416.
    [21] NANDHINI S, ASHOKKUMAR K. An automatic plant leaf disease identification using DenseNet-121 architecture with a mutation-based henry gas solubility optimization algorithm[J]. Neural Computing and Applications, 2022, 34(7): 5513-5534. doi: 10.1007/s00521-021-06714-z
    [22] ZHU X Y, LIANG Y SH, ZHANG J L, et al. STAFNet: swin transformer based anchor-free network for detection of forward-looking sonar imagery[C]. Proceedings of the 2022 International Conference on Multimedia Retrieval, ACM, 2022: 443-450.
    [23] LIU Z, LIN Y T, CAO Y, et al. Swin transformer: hierarchical vision transformer using shifted windows[C]. Proceedings of 2021 IEEE/CVF International Conference on Computer Vision, IEEE, 2021: 10012-10022.
    [24] 刘彦磊, 李孟喆, 王宣宣. 轻量型YOLOv5s车载红外图像目标检测[J]. 中国光学(中英文),2023,16(5):1045-1055. doi: 10.37188/CO.2022-0254

    LIU Y L, LI M ZH, WANG X X. Lightweight YOLOv5s vehicle infrared image target detection[J]. Chinese Optics, 2023, 16(5): 1045-1055. doi: 10.37188/CO.2022-0254
    [25] 朱威, 王立凯, 靳作宝, 等. 引入注意力机制的轻量级小目标检测网络[J]. 光学 精密工程,2022,30(8):998-1010. doi: 10.37188/OPE.20223008.0998

    ZHU W, WANG L K, JIN Z B, et al. Lightweight small object detection network with attention mechanism[J]. Optics and Precision Engineering, 2022, 30(8): 998-1010. (in Chinese). doi: 10.37188/OPE.20223008.0998
    [26] 乔美英, 史建柯, 李冰锋, 等. 改进损失函数的增强型FPN水下小目标检测[J]. 计算机辅助设计与图形学学报,2023,35(4):525-537.

    QIAO M Y, SHI J K, LI B F, et al. Enhanced FPN underwater small target detection with improved loss function[J]. Journal of Computer-Aided Design & Computer Graphics, 2023, 35(4): 525-537. (in Chinese).
    [27] 张艳, 李星汕, 孙叶美, 等. 基于通道注意力与特征融合的水下目标检测算法[J]. 西北工业大学学报,2022,40(2):433-441. doi: 10.3969/j.issn.1000-2758.2022.02.025

    ZHANG Y, LI X SH, SUN Y M, et al. Underwater object detection algorithm based on channel attention and feature fusion[J]. Journal of Northwestern Polytechnical University, 2022, 40(2): 433-441. (in Chinese). doi: 10.3969/j.issn.1000-2758.2022.02.025
    [28] LI L, LI Y P, YUE CH H, et al. Real-time underwater target detection for AUV using side scan sonar images based on deep learning[J]. Applied Ocean Research, 2023, 138: 103630. doi: 10.1016/j.apor.2023.103630
    [29] WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7: trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]. Proceedings of 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition, IEEE, 2023: 7464-7475.
    [30] 张绍文, 史卫亚, 张世强, 等. 基于加权感受野和跨层融合的遥感小目标检测[J]. 电子测量技术,2023,46(18):129-138.

    ZHANG SH W, SHI W Y, ZHANG SH Q, et al. Remote sensing small target detection based on weighted receptive field and cross-layer fusion[J]. Electronic Measurement Technology, 2023, 46(18): 129-138. (in Chinese).
    [31] CUI L SH, LV P, JIANG X H, et al. Context-aware block net for small object detection[J]. IEEE Transactions on Cybernetics, 2022, 52(4): 2300-2313. doi: 10.1109/TCYB.2020.3004636
    [32] Chen Y, Guo Q, Liang X, et al. Environmental sound classification with dilated convolutions[J]. Applied Acoustics, 2019, 148: 123-132.
    [33] WANG C Y, LIAO H Y M, WU Y H, et al. CSPNet: a new backbone that can enhance learning capability of CNN[C]. Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, IEEE, 2020: 390-391.
    [34] XIE K, YANG J, QIU K. A dataset with multibeam forward-looking sonar for underwater object detection[J]. Scientific Data, 2022, 9(1): 739.
    [35] 刘颖, 刘红燕, 范九伦, 等. 基于深度学习的小目标检测研究与应用综述[J]. 电子学报,2020,48(3):590-601. doi: 10.3969/j.issn.0372-2112.2020.03.024

    LIU Y, LIU H Y, FAN J L, et al. A survey of research and application of small object detection based on deep learning[J]. Acta Electronica Sinica, 2020, 48(3): 590-601. (in Chinese). doi: 10.3969/j.issn.0372-2112.2020.03.024
    [36] CHEN CH Y, LIU M Y, TUZEL O, et al. R-CNN for small object detection[C]. Proceedings of the 13th Asian Conference on Computer Vision, Springer, 2017: 214-230.
    [37] 高新波, 莫梦竟成, 汪海涛, 等. 小目标检测研究进展[J]. 数据采集与处理,2021,36(3):391-417.

    GAO X B, MO M J CH, WANG H T, et al. Recent advances in small object detection[J]. Journal of Data Acquisition and Processing, 2021, 36(3): 391-417. (in Chinese).
    [38] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[C]. Proceedings of the 14th European Conference, Springer, 2016: 21-37.
    [39] WANG Y Y, WANG CH, ZHANG H, et al. Automatic ship detection based on RetinaNet using multi-resolution Gaofen-3 imagery[J]. Remote Sensing, 2019, 11(5): 531. doi: 10.3390/rs11050531
    [40] WU W, LIU H, LI L, et al. Application of local fully convolutional neural network combined with YOLO v5 algorithm in small target detection of remote sensing image[J]. PloS one, 2021, 16(10): e0259283.
    [41] REN SH Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. doi: 10.1109/TPAMI.2016.2577031
    [42] Dewi C, Chen A P S, Christanto H J. Recognizing similar musical instruments with YOLO models[J]. Big Data and Cognitive Computing, 2023, 7(2): 94.
    [43] HUSSAIN M. YOLO-v1 to YOLO-v8, the rise of YOLO and its complementary nature toward digital manufacturing and industrial defect detection[J]. Machines, 2023, 11(7): 677. doi: 10.3390/machines11070677
    [44] WU Q, ZHANG B, XU CH G, et al. Dense oil tank detection and classification via YOLOX-TR network in large-scale SAR images[J]. Remote Sensing, 2022, 14(14): 3246. doi: 10.3390/rs14143246
    [45] MA L, ZHAO L Y, WANG Z X, et al. Detection and counting of small target apples under complicated environments by using improved YOLOv7-tiny[J]. Agronomy, 2023, 13(5): 1419. doi: 10.3390/agronomy13051419
  • 加载中
图(5) / 表(8)
计量
  • 文章访问数:  252
  • HTML全文浏览量:  168
  • PDF下载量:  149
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-02-05
  • 修回日期:  2024-03-06
  • 录用日期:  2024-04-26
  • 网络出版日期:  2024-05-17

目录

/

返回文章
返回