留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

面向光学遥感目标的全局上下文检测模型设计

张瑞琰 姜秀杰 安军社 崔天舒

张瑞琰, 姜秀杰, 安军社, 崔天舒. 面向光学遥感目标的全局上下文检测模型设计[J]. 中国光学. doi: 10.37188/CO.2020-0057
引用本文: 张瑞琰, 姜秀杰, 安军社, 崔天舒. 面向光学遥感目标的全局上下文检测模型设计[J]. 中国光学. doi: 10.37188/CO.2020-0057
ZHANG Rui-yan, JIANG Xiu-jie, AN Jun-she, CUI Tian-shu. Design of global-contextual detection model for optical remote sensing targets[J]. Chinese Optics. doi: 10.37188/CO.2020-0057
Citation: ZHANG Rui-yan, JIANG Xiu-jie, AN Jun-she, CUI Tian-shu. Design of global-contextual detection model for optical remote sensing targets[J]. Chinese Optics. doi: 10.37188/CO.2020-0057

面向光学遥感目标的全局上下文检测模型设计

doi: 10.37188/CO.2020-0057
基金项目: 中国科学院复杂航天系统电子信息技术重点实验室自主部署基金(No. Y42613A32S)
详细信息
    作者简介:

    张瑞琰(1995—),女,河南商丘人,博士研究生,2016年于南开大学获得理学学士学位,2018年于中国科学院大学国家空间科学中心转为硕博连读,主要从事空间数据处理、遥感目标检测网络优化及压缩的相关研究。E-mail:zhangruiyan16@mails.ucas.ac.cn

    姜秀杰(1965—),女,黑龙江鹤岗人,博士,研究员,博士生导师,1988年于北京航空航天大学获得工学学士学位,1991年于中国科学院大学获得工学硕士学位,2007年于清华大学获得工学博士学位,主要从事火箭探空技术研究、电场探测技术研究和空间综合电子技术研究。E-mail:jiangxj@nssc.ac.cn

  • 中图分类号: TP391.4

Design of global-contextual detection model for optical remote sensing targets

Funds: Supported by Independent Deployment Foundation of Key Laboratory of Electronic and Information Technology for Space Systems, National Space Science Center, Chinese Academy of Sciences (No. Y42613A32S)
More Information
  • 摘要: 在复杂背景下的光学遥感图像目标检测中,为了提高检测精度,同时降低检测网络复杂度,提出了面向光学遥感目标的全局上下文检测模型。首先,采用结构简单的特征编码-特征解码网络进行特征提取。其次,为提高对多尺度目标的定位能力,采取全局上下文特征与目标中心点局部特征相结合的方式生成高分辨率热点图,并利用全局特征实现目标的预分类。最后,提出不同尺度的定位损失函数,用于增强模型的回归能力。实验结果表明: 当使用主干网络Root-ResNet18时,本文模型在公开遥感数据集NWPU VHR-10上的检测精度可达97.6%AP50和83.4%AP75,检测速度达16 PFS,基本满足设计需求,实现了网络速度和精度的有效平衡,便于后续算法在移动设备端的移植和应用。
  • 图  1  特征编码-特征解码网络架构

    Figure  1.  Framework of the feature encoder-feature decoder network

    图  2  全局上下文检测模型总体架构

    Figure  2.  Overall framework of the global-contextual detection model

    图  3  普通卷积采样和变形卷积采样示意图

    Figure  3.  Sampling diagrams in standard convolution and deformation convolution

    图  4  全局上下文特征提取流程

    Figure  4.  Flow chart of global-contextual feature extraction

    图  5  (a)添加目标框的原图及(b)高斯椭圆掩模示意图

    Figure  5.  (a) Original image with a target box and (b) schematic diagram of gaussian elliptical mask

    图  6  不同γ值对结果的影响

    Figure  6.  Effects of different γ values on results

    图  7  不同ν值对结果的影响

    Figure  7.  Effects of different ν values on results

    图  8  GCDN的可视化检测效果图

    Figure  8.  Visual detection results of the GCDN

    表  1  ResNet18与Root-ResNet18结构

    Table  1.   Structures of ResNet18 and Root-ResNet18

    阶段输出尺寸ResNet18Root-ResNet18
    C1128×1287×7, 643×3, 64
    3×3, 64
    3×3, 64
    3×3, MaxPool
    $\left[ {\begin{array}{*{20}{c}} {3 \times 3,64} \\ {3 \times 3,64} \end{array}} \right]\times 2$
    C264×643×3, MaxPool$\left[ {\begin{array}{*{20}{c}} {3 \times 3,128} \\ {3 \times 3,128} \end{array}} \right]\times 2$
    $\left[ {\begin{array}{*{20}{c}} {3 \times 3,64} \\ {3 \times 3,64} \end{array}} \right]\times 2$
    C332×32$\left[ {\begin{array}{*{20}{c}} {3 \times 3,128} \\ {3 \times 3,128} \end{array}} \right]\times 2$$\left[ {\begin{array}{*{20}{c}} {3 \times 3,256} \\ {3 \times 3,256} \end{array}} \right]\times 2$
    C416×16$\left[ {\begin{array}{*{20}{c}} {3 \times 3,256} \\ {3 \times 3,256} \end{array}} \right]\times 2$$\left[ {\begin{array}{*{20}{c}} {3 \times 3,512} \\ {3 \times 3,512} \end{array}} \right]\times 2$
    C58×8$\left[ {\begin{array}{*{20}{c}} {3 \times 3,512} \\ {3 \times 3,512} \end{array}} \right]\times 2$
    下载: 导出CSV

    表  2  数据集NWPU VHR-10目标尺寸统计表

    Table  2.   Statistics of target sizes in the NWPU VHR-10 dataset

    尺度(pixel)0-1010-4040-100100-300300-500500以上
    00.13270.69480.15990.01260
    00.14480.72050.12420.01050
    下载: 导出CSV

    表  3  不同模型在数据集NWPU VHR-10上的平均精确度对比

    Table  3.   Comparison of mean average precisions of different models in the NWPU VHR-10 dataset

    模型主干网络飞机船舰油罐棒球场网球场篮球场田径场港口桥梁车辆平均精确度(mAP)
    RICAODAlexNet0.99700.90800.90610.92910.90290.80310.90810.80290.68530.87140.8712
    SSDVGG160.98390.89930.89180.98510.87910.84810.99490.77300.78280.87390.8912
    YOLOv3Darknet530.90910.90910.90810.99130.90860.90910.99470.90050.90910.90350.9243
    MMDFNVGG160.99340.92270.99180.96680.96320.97561.00000.97400.80270.91360.9504
    MSDNResNet500.99760.97210.83830.99090.97340.99910.98680.97190.92670.90100.9558
    MSCNNResNet500.99400.95300.91800.96300.95400.96700.99300.95500.97200.93300.9600
    GCDNRoot-ResNet180.99910.99830.96770.99160.99910.97590.99880.94120.92240.96360.9757
    下载: 导出CSV

    表  4  检测阈值0.75下的不同模型平均精确度对比

    Table  4.   Comparison of mean-average precision of different models under the 0.75 detection threshold

    模型平均准确率 (AP)平均准确率(AP)($I_{ {\rm{{ou} } } }$=0.50:0.95)平均召回率(AR)($I_{ {\rm{{ou} } } }$=0.50:0.95)
    $I_{ {\rm{{ou} } } }$=0.50:0.95$I_{ {\rm{{ou} } } }$=0.50$I_{ {\rm{{ou} } } }$=0.75小目标中目标大目标小目标中目标大目标
    CenterNet0.6630.9680.7680.5760.6690.7040.6300.7250.741
    MSCNN0.7060.9600.8240.5470.5780.7010.6000.6050.700
    GCDN-woGC0.6790.9730.7750.5720.6900.7500.6390.7440.786
    GCDN0.7050.9760.8340.6120.7270.7060.6830.7730.740
    下载: 导出CSV

    表  5  不同模型的平均检测时间对比

    Table  5.   Comparison of the average detection times with different models

    模型输入尺寸时间/s
    RICAOD400×4002.89
    MMDFN400×4000.75
    YOLOv3640×6400.13
    MSDN600×8000.21
    GCDN640×6400.06
    下载: 导出CSV

    表  6  不同模型在数据集DOTA上的平均精确度对比

    Table  6.   Comparison of the mean-average precisions with different models in the DOTA dataset

    模型主干网络平均检测精度(mAP)
    YOLOv2GoogleNet39.20
    R-FCNResNet10152.58
    Faster-RCNNResNet10160.46
    SCFPN-scfResNet10175.22
    GCDNRoot-ResNet1875.95
    下载: 导出CSV
  • [1] 许夙晖, 慕晓冬, 柯冰, 等. 基于遥感影像的军事阵地动态监测技术研究[J]. 遥感技术与应用,2014,29(3):511-516.

    XU S H, MU X D, KE B, et al. Dynamic monitoring of military position based on remote sensing image[J]. Remote Sensing Technology and Application, 2014, 29(3): 511-516. (in Chinese)
    [2] VALERO S, CHANUSSOT J, BENEDIKTSSON J A, et al. Advanced directional mathematical morphology for the detection of the road network in very high resolution remote sensing images[J]. Pattern Recognition Letters, 2010, 31(10): 1120-1127. doi:  10.1016/j.patrec.2009.12.018
    [3] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]. Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, IEEE, 2005: 886-893.
    [4] LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110. doi:  10.1023/B:VISI.0000029664.99615.94
    [5] LIU W, ANGUELOV D, ERHAN D, et al.. SSD: single shot multibox detector[C]. Proceedings of the 14th European Conference on Computer Vision, Springer, 2016: 21-37.
    [6] REDMON J, FARHADI A. Yolov3: an incremental improvement[J]. arXiv: 1804.02767, 2018.
    [7] 马永杰, 宋晓凤. 基于YOLO和嵌入式系统的车流量检测[J]. 液晶与显示,2019,34(6):613-618. doi:  10.3788/YJYXS20193406.0613

    MA Y J, SONG X F. Vehicle flow detection based on YOLO and embedded system[J]. Chinese Journal of Liquid Crystals and Displays, 2019, 34(6): 613-618. (in Chinese) doi:  10.3788/YJYXS20193406.0613
    [8] LIN T Y, GOYAL P, GIRSHICK R, et al.. Focal loss for dense object detection[C]. Proceedings of 2017 IEEE International Conference on Computer Vision, IEEE, 2017: 2999-3007.
    [9] LAW H, DENG J. Cornernet: detecting objects as paired keypoints[C]. Proceedings of the 15th European Conference on Computer Vision, Springer, 2018: 765-781.
    [10] ZHOU X Y, WANG D Q, KRÄHENBÜHL P. Objects as points[J]. arXiv: 1904.07850, 2019.
    [11] XIAO B, WU H P, WEI Y CH. Simple baselines for human pose estimation and tracking[C]. Proceedings of the 15th European Conference on Computer Vision, Springer, 2018: 472-487.
    [12] LI K, CHENG G, BU SH H, et al. Rotation-insensitive and context-augmented object detection in remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(4): 2337-2348. doi:  10.1109/TGRS.2017.2778300
    [13] MA W P, GUO Q Q, WU Y, et al. A novel multi-model decision fusion network for object detection in remote sensing images[J]. Remote Sensing, 2019, 11(7): 737. doi:  10.3390/rs11070737
    [14] 梁华, 宋玉龙, 钱锋, 等. 基于深度学习的航空对地小目标检测[J]. 液晶与显示,2018,33(9):793-800. doi:  10.3788/YJYXS20183309.0793

    LIANG H, SONG Y L, QIAN F, et al. Detection of small target in aerial photography based on deep learning[J]. Chinese Journal of Liquid Crystals and Displays, 2018, 33(9): 793-800. (in Chinese) doi:  10.3788/YJYXS20183309.0793
    [15] 姚群力, 胡显, 雷宏. 基于多尺度卷积神经网络的遥感目标检测研究[J]. 光学学报,2019,39(11):1128002. doi:  10.3788/AOS201939.1128002

    YAO Q L, HU X, LEI H. Object detection in remote sensing images using multiscale convolutional neural networks[J]. Acta Optica Sinica, 2019, 39(11): 1128002. (in Chinese) doi:  10.3788/AOS201939.1128002
    [16] 邓志鹏, 孙浩, 雷琳, 等. 基于多尺度形变特征卷积网络的高分辨率遥感影像目标检测[J]. 测绘学报,2018,47(9):1216-1227.

    DENG ZH P, SUN H, LEI L, et al. Object detection in remote sensing imagery with multi-scale deformable convolutional networks[J]. Acta Geodaetica et Cartographica Sinica, 2018, 47(9): 1216-1227. (in Chinese)
    [17] 董潇潇, 何小海, 吴晓红, 等. 基于注意力掩模融合的目标检测算法[J]. 液晶与显示,2019,34(8):825-833. doi:  10.3788/YJYXS20193408.0825

    DONG X X, HE X H, WU X H, et al. Object detection algorithm based on attention mask fusion[J]. Chinese Journal of Liquid Crystals and Displays, 2019, 34(8): 825-833. (in Chinese) doi:  10.3788/YJYXS20193408.0825
    [18] WANG CH, BAI X, WANG SH, et al. Multiscale visual attention networks for object detection in VHR remote sensing images[J]. IEEE Geoscience and Remote Sensing Letters, 2019, 16(2): 310-314. doi:  10.1109/LGRS.2018.2872355
    [19] 左俊皓, 赵聪, 朱晓龙, 等. Faster-RCNN和Level-Set结合的高分遥感影像建筑物提取[J]. 液晶与显示,2019,34(4):439-447. doi:  10.3788/YJYXS20193404.0439

    ZUO J H, ZHAO C, ZHU X L, et al. High-resolution remote sensing image building extraction combined with Faster-RCNN and Level-Set[J]. Chinese Journal of Liquid Crystals and Displays, 2019, 34(4): 439-447. (in Chinese) doi:  10.3788/YJYXS20193404.0439
    [20] 于渊博, 张涛, 郭立红, 等. 卫星视频运动目标检测算法[J]. 液晶与显示,2017,32(2):138-143. doi:  10.3788/YJYXS20173202.0138

    YU Y B, ZHANG T, GUO L H, et al. Moving objects detection on satellite video[J]. Chinese Journal of Liquid Crystals and Displays, 2017, 32(2): 138-143. (in Chinese) doi:  10.3788/YJYXS20173202.0138
    [21] LIU W, RABINOVICH A, BERG A C. Parsenet: looking wider to see better[J]. arXiv: 1506.04579, 2015.
    [22] ZHANG H, DANA K, SHI J P, et al.. Context encoding for semantic segmentation[C]. Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, IEEE, 2018: 7151-7160.
    [23] HE K M, ZHANG X Y, REN SH Q, et al.. Deep residual learning for image recognition[C]. Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition, IEEE, 2016: 770-778.
    [24] ZHU R, ZHANG SH F, WANG X B, et al.. ScratchDet: training single-shot object detectors from scratch[C]. Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, IEEE, 2019: 2263-2272.
    [25] LIN M, CHEN Q, YAN SH CH. Network in network[J]. arXiv: 1312.4400, 2013.
    [26] CHENG G, ZHOU P CH, HAN J W. Learning rotation-invariant convolutional neural networks for object detection in VHR optical remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(12): 7405-7415. doi:  10.1109/TGRS.2016.2601622
    [27] XIA G S, BAI X, DING J, et al.. DOTA: a large-scale dataset for object detection in aerial images[C]. Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, IEEE, 2018: 3974-3983.
    [28] ZEILER M D, FERGUS R. Visualizing and understanding convolutional networks[C]. Proceedings of the 13th European Conference on Computer Vision, Springer, 2014: 818-833.
    [29] CHEN K, WANG J Q, PANG J M, et al.. MMDetection: open MMLab detection toolbox and benchmark[J]. arXiv: 1906.07155v1, 2019.
    [30] CHEN CH Y, GONG W G, CHEN Y L, et al. Object detection in remote sensing images based on a scene-contextual feature pyramid network[J]. Remote Sensing, 2019, 11(3): 339. doi:  10.3390/rs11030339
  • [1] 钟笠, 宋迪, 焦月, 李晗, 李国林, 季文海.  具有复杂光谱特征的丙烯气体的TDLAS检测技术研究 . 中国光学, doi: 10.37188/CO.2019-0203
    [2] 黄乐弘, 曹立华, 李宁, 李毅.  深度学习的空间红外弱小目标状态感知方法 . 中国光学, doi: 10.3788/CO.2019-0120
    [3] 刘波, 许廷发, 李相民, 史国凯, 黄博.  自适应上下文感知相关滤波跟踪 . 中国光学, doi: 10.3788/CO.20191202.0265
    [4] 吴言枫, 王延杰, 孙海江, 刘培勋.  复杂动背景下的“低小慢”目标检测技术 . 中国光学, doi: 10.3788/CO.20191204.0853
    [5] 王春哲, 安军社, 姜秀杰, 邢笑雪.  基于卷积神经网络的候选区域优化算法 . 中国光学, doi: 10.3788/CO.20191206.1348
    [6] 耿庆田, 赵浩宇, 于繁华, 王宇婷, 赵宏伟.  基于改进HOG特征提取的车型识别算法 . 中国光学, doi: 10.3788/CO.20181102.0174
    [7] 谭翠媚, 许廷发, 马旭, 张宇寒, 王茜, 闫歌.  图-谱结合的压缩感知高光谱视频图像复原 . 中国光学, doi: 10.3788/CO.20181106.0949
    [8] 龙思源, 张葆, 宋策, 孙保基.  基于改进的加速鲁棒特征的目标识别 . 中国光学, doi: 10.3788/CO.20171006.0719
    [9] 齐冰洁, 刘金国, 张博研, 左洋, 吕世良.  高分辨率遥感图像SIFT和SURF算法匹配性能研究 . 中国光学, doi: 10.3788/CO.20171003.0331
    [10] 王丽.  融合底层和中层字典特征的行人重识别 . 中国光学, doi: 10.3788/CO.20160905.0540
    [11] 陈月, 赵岩, 王世刚.  图像局部特征自适应的快速SIFT图像拼接方法 . 中国光学, doi: 10.3788/CO.20160904.0415
    [12] 江山, 张锐, 韩广良, 孙海江.  复杂背景灰度图像下的多特征融合运动目标跟踪 . 中国光学, doi: 10.3788/CO.20160903.0320
    [13] 柯洪昌, 孙宏彬.  图像序列的显著性目标区域检测方法 . 中国光学, doi: 10.3788/CO.20150805.0768
    [14] 王灿进, 孙涛, 李正炜.  基于快速轮廓转动力矩特征的激光主动成像目标识别 . 中国光学, doi: 10.3788/CO.20150805.0775
    [15] 陈燕芹, 段锦, 祝勇, 钱小飞, 肖博.  基于纹理特征的图像复杂度研究 . 中国光学, doi: 10.3788/CO.20150803.0407
    [16] 冯书谊, 张宁, 沈霁, 叶盛, 张震.  基于反射率特性的高光谱遥感图像云检测方法研究 . 中国光学, doi: 10.3788/CO.20150802.0198
    [17] 吉淑娇, 朱明, 胡汉平.  基于特征点匹配的电子稳像技术 . 中国光学, doi: 10.3788/CO.20130606.841
    [18] 闫辉, 许廷发, 吴青青, 徐磊, 吴威.  多特征融合匹配的多目标跟踪 . 中国光学, doi: 10.3788/CO.20130602.0163
    [19] 赵阳, 巩岩.  投影物镜小比率模型的计算机辅助装调 . 中国光学, doi: 10.3788/CO.20120504.0394
    [20] 杨利红, 赵变红, 张星祥, 任建岳.  点扩散函数高斯拟合估计与遥感图像恢复 . 中国光学, doi: 10.3788/CO.20120502.0181
  • 加载中
图(8) / 表 (6)
计量
  • 文章访问数:  82
  • HTML全文浏览量:  42
  • PDF下载量:  3
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-04-07
  • 修回日期:  2020-05-11
  • 网络出版日期:  2020-10-22

面向光学遥感目标的全局上下文检测模型设计

doi: 10.37188/CO.2020-0057
    基金项目:  中国科学院复杂航天系统电子信息技术重点实验室自主部署基金(No. Y42613A32S)
    作者简介:

    张瑞琰(1995—),女,河南商丘人,博士研究生,2016年于南开大学获得理学学士学位,2018年于中国科学院大学国家空间科学中心转为硕博连读,主要从事空间数据处理、遥感目标检测网络优化及压缩的相关研究。E-mail:zhangruiyan16@mails.ucas.ac.cn

    姜秀杰(1965—),女,黑龙江鹤岗人,博士,研究员,博士生导师,1988年于北京航空航天大学获得工学学士学位,1991年于中国科学院大学获得工学硕士学位,2007年于清华大学获得工学博士学位,主要从事火箭探空技术研究、电场探测技术研究和空间综合电子技术研究。E-mail:jiangxj@nssc.ac.cn

  • 中图分类号: TP391.4

摘要: 在复杂背景下的光学遥感图像目标检测中,为了提高检测精度,同时降低检测网络复杂度,提出了面向光学遥感目标的全局上下文检测模型。首先,采用结构简单的特征编码-特征解码网络进行特征提取。其次,为提高对多尺度目标的定位能力,采取全局上下文特征与目标中心点局部特征相结合的方式生成高分辨率热点图,并利用全局特征实现目标的预分类。最后,提出不同尺度的定位损失函数,用于增强模型的回归能力。实验结果表明: 当使用主干网络Root-ResNet18时,本文模型在公开遥感数据集NWPU VHR-10上的检测精度可达97.6%AP50和83.4%AP75,检测速度达16 PFS,基本满足设计需求,实现了网络速度和精度的有效平衡,便于后续算法在移动设备端的移植和应用。

English Abstract

张瑞琰, 姜秀杰, 安军社, 崔天舒. 面向光学遥感目标的全局上下文检测模型设计[J]. 中国光学. doi: 10.37188/CO.2020-0057
引用本文: 张瑞琰, 姜秀杰, 安军社, 崔天舒. 面向光学遥感目标的全局上下文检测模型设计[J]. 中国光学. doi: 10.37188/CO.2020-0057
ZHANG Rui-yan, JIANG Xiu-jie, AN Jun-she, CUI Tian-shu. Design of global-contextual detection model for optical remote sensing targets[J]. Chinese Optics. doi: 10.37188/CO.2020-0057
Citation: ZHANG Rui-yan, JIANG Xiu-jie, AN Jun-she, CUI Tian-shu. Design of global-contextual detection model for optical remote sensing targets[J]. Chinese Optics. doi: 10.37188/CO.2020-0057
    • 随着科技的发展,遥感卫星搭载的传感器分辨率逐渐提高,遥感图像所包含的目标信息也日益丰富,光学遥感图像检测在军事防备[1]、民用生活[2]等方面的利用价值越来越大。因此,复杂背景下的光学遥感目标检测具有十分重要的意义。

      光学遥感图像具有幅面大、多尺度等特点,相比通用图像来说检测难度更大。以方向梯度直方图(HOG)[3],尺度不变特征变换(SIFT)[4]为代表的手工设计特征的方法表达能力不够,检测精度不高。近年来,卷积神经网络在遥感图像检测方面得到广泛应用。由于卷积神经网络的复杂度高及运算量大,在实际部署网络时常采用以SSD[5]、YOLO[6-7]及RetinaNet[8]为代表的高速单阶段检测方法。这些网络虽然能大幅度提高速度,但是在光学遥感图像检测上仍存在若干问题,例如生成大量候选框,并采用极大值抑制等限制速度的复杂操作,并且在精度上低于两阶段检测网络。为了解决这些问题,本文提出采用一种基于目标中心点的无预选框检测方式[9-10],并利用复杂度低的特征编码-特征解码网络来降低运算量[11]

      在光学遥感目标检测中,有效融合目标的局部特征和全局特征,可以较大程度上提高网络的定位和回归能力。在双阶段网络中常采用融合局部上下文特征的方法,如Li K等[12]提出RICAOD算法,将局部上下文信息融入区域候选网络(Region Proposal Network,RPN)中,以提高对候选框的筛选能力;Ma Wenping[13]等提出了一种基于上下文信息和多区域特征的多模型决策融合框架MMDFN。在单阶段检测网络中常采用构造特征金字塔的方式融合全局和局部的多尺度特征[14],如姚群力[15]等构造了一种深度特征金字塔MSCNN,以提取丰富的多尺度特征;邓志鹏[16]等提出MSDN模型,利用形变卷积和形变池化操作更准确地提取候选目标;文献[17]基于SSD网络提出了融合注意力掩模的改进特征金字塔算法;左俊皓[18]等则提出MS-VANs模型,采用跳跃连接的编码-解码网络提取特征,训练多尺度视觉注意力网络。

      为了进一步提高特征编码-特征解码网络的定位和回归能力,本文着重考虑全局上下文语义特征和局部特征在该网络中的融合。局部特征由中心点检测网络实现,而全局特征则需添加相应辅助模块。全局特征可提供目标的背景信息,常被用于分割、跟踪等多种视觉任务[19-20]。如Liu wei[21]等提出了ParseNet,添加全局特征后可大幅提高区域语义分割结果。Zhang Hang[22]等通过提取与特征图相关的上下文语义信息,并结合扩张卷积和多尺度策略提升了语义分割性能。

      综上,本文提出了一种基于光学遥感目标的全局上下文检测模型(Global-Contextual Detection Model,GCDN)。该模型采用特征编码-特征解码网络,融合全局上下文特征辅助模块,最后经分支检测模块输出预测热点图,包含目标位置信息和目标框尺寸信息,并采用定位热点损失、回归损失和偏移损失加权的方式训练网络。具体来说,本文的创新点如下:

      (1)采用基于单阶段检测的特征编码-特征解码网络。在特征解码阶段引入全局上下文特征,将其作为预分类,并与经反卷积和变形卷积提取的局部特征相融合,缓解目标检测中的误检漏检现象,增强模型定位能力。

      (2)针对多尺度检测问题,提出了基于不同尺度的定位损失函数,按目标框长宽比例确定目标各像素点对损失函数的贡献比例,增强模型回归能力。

      (3)采用小型主干网络,并摒弃了推理阶段的非极大值抑制操作,有效减小了推理时间和部署难度,缓解了精度和速度的不平衡问题。

    • 本文基于特征编码-特征解码网络,预测包含目标中心点位置和长宽数值的热点图。图1为特征编码和特征解码网络基本结构。该结构较简单,无需中间层直通操作,特征编码模块为主干网络,采用较成熟的分类网络结构提取深层特征,特征解码模块利用反卷积层输出高分辨率特征图。

      图  1  特征编码-特征解码网络架构

      Figure 1.  Framework of the feature encoder-feature decoder network

    • 本文所提模型总体架构如图2所示,整体检测流程如下:首先,在检测网络中输入原始图像,依次经过特征编码、特征解码和分支检测网络,得到定位预测热点图、中心偏移预测热点图和回归预测热点图。三者尺度大小相同,输出结果与原始图像相比缩减了4倍。

      图  2  全局上下文检测模型总体架构

      Figure 2.  Overall framework of the global-contextual detection model

      之后,将定位热点图的各像素值排序,可得到前K个像素点的位置(K为最大检测目标数),由此确定检测目标的位置。具体操作如下:图2中,若检测到坐标为(a,b)的点为物体中心点时,根据该坐标可在另外两幅热点图的对应坐标(a,b)处得到像素中心偏移结果和回归结果。最终输出带预测框的输出图像。

      其中特征解码阶段由两路并行处理,一路利用反卷积层和变形卷积层,增强深层特征在上采样时对感兴趣区域的建模能力,而后接入分支检测网络;另一路则采用普通卷积层和全局平均池化层提取各类全局语义信息。两路结果融合后便可得出预测值。

    • 本文采用含直连层的残差卷积网络(Residual Network, ResNet)[23]来提取深层特征。考虑到实际移动端对检测速度的要求,以及主机显卡性能的影响,本文采用18层的残差网络。因层数较浅,为保证在残差网络中提取到足够有用的特征,需对ResNet18进行特征扩充。ZHU R等人[24]提出一种可从头训练的Root-ResNet18网络。为挖掘更多的局部特征,该网络减少一次下采样,并利用3个相连的3×3卷积层代替原始ResNet的第一层7×7卷积层。其结构与原始ResNet网络对比如表1所示,原始图像大小设为512×512。对检测网络而言,此举虽增加一定量的网络参数,但可以为小目标检测提供更丰富有效的特征。本文将该网络作为特征编码网络。

      表 1  ResNet18与Root-ResNet18结构

      Table 1.  Structures of ResNet18 and Root-ResNet18

      阶段输出尺寸ResNet18Root-ResNet18
      C1128×1287×7, 643×3, 64
      3×3, 64
      3×3, 64
      3×3, MaxPool
      $\left[ {\begin{array}{*{20}{c}} {3 \times 3,64} \\ {3 \times 3,64} \end{array}} \right]\times 2$
      C264×643×3, MaxPool$\left[ {\begin{array}{*{20}{c}} {3 \times 3,128} \\ {3 \times 3,128} \end{array}} \right]\times 2$
      $\left[ {\begin{array}{*{20}{c}} {3 \times 3,64} \\ {3 \times 3,64} \end{array}} \right]\times 2$
      C332×32$\left[ {\begin{array}{*{20}{c}} {3 \times 3,128} \\ {3 \times 3,128} \end{array}} \right]\times 2$$\left[ {\begin{array}{*{20}{c}} {3 \times 3,256} \\ {3 \times 3,256} \end{array}} \right]\times 2$
      C416×16$\left[ {\begin{array}{*{20}{c}} {3 \times 3,256} \\ {3 \times 3,256} \end{array}} \right]\times 2$$\left[ {\begin{array}{*{20}{c}} {3 \times 3,512} \\ {3 \times 3,512} \end{array}} \right]\times 2$
      C58×8$\left[ {\begin{array}{*{20}{c}} {3 \times 3,512} \\ {3 \times 3,512} \end{array}} \right]\times 2$
    • 本文在特征解码模块分两路对特征编码模块提取的信息进行融合,一路添加反卷积层和变形卷积层提取局部细粒度特征,另一路添加普通卷积层和全局平均池化层提取全局粗粒度特征。

      第一路中的反卷积模块包含反卷积层、批量归一化层和ReLu激活函数层,反卷积层的步长为2,采用填充操作扩大尺寸。同时考虑到所有卷积层为规则化的3×3卷积核操作,对任意形状的目标适应性较差,变形卷积通过给规则卷积的每个采样点添加偏移量和幅值信息,可极大增强对所提取特征的空间整合和建模能力。普通卷积和变形卷积的采样示意图如图3(彩图见期刊电子版)所示,图中采样点颜色深浅代表该点在偏移和调制增量的占比不同。

      图  3  普通卷积采样和变形卷积采样示意图

      Figure 3.  Sampling diagrams in standard convolution and deformation convolution

      Pi为该模块输出结果特征图Y上的一点,X为输入特征图,其变形卷积操作定义如下:

      $$Y\left( {{P_i}} \right) = \sum\nolimits_k^K {{w_k}} \cdot X\left( {{P_i} + {P_k} + \Delta {P_k}} \right) \cdot \Delta {m_k},$$ (1)

      其中K为感受野区域,kKwk为普通卷积中可学习的权重值,Pk代表K中的元素,∆Pk和∆mk代表变形卷积中可学习的偏移量和调制量。

      第二路从全局的角度估计整张图片的场景内容,对目标的分类进行概率预判,该网络详细结构如图4所示。首先通过n个普通卷积模块进一步提取信息,卷积核为3×3,将输入特征图维度降低至64,这里网络较小,n取1即可。其次,通过卷积核为3×3的卷积层和批量归一化层,将输出特征图的维度降低,使之等于目标类别数,这里不使用激活函数。然后,经过全局平均池化层[25](Global Average Pooling, GAP)和Sigmoid激活函数得出每类目标的预判概率向量,以便后续融合,该过程定义为:

      $$q\left( k \right) = Sigmoid\left[ {\frac{1}{{WH}}\sum\nolimits_i^W {\sum\nolimits_j^H {X\left( {{P_{i,j,k}}} \right)} } } \right],$$ (2)

      其中,X为输入特征图,PXijk分别代表输入特征图中的宽、高和维度。q(k)为第k维度的输出值,作为预判全局系数。以强调输入图片中某类目标出现的概率,且相对抑制其他类别。两路采用式(3)进行融合,得到分类热点图。

      $${\hat Y_{{\rm{cls}}}}\left( {{P_{i,j,k}}} \right) = {Y_{{\rm{cls}}}}\left( {{P_{i,j,k}}} \right) \cdot \left[ {1 + \nu \cdot q\left( k \right)} \right],$$ (3)

      其中,$Y_{{\rm{cls}}} $为第一路经分支检测网络后的定位预测热点图,最终定位预测输出为${\hat Y_{{\rm{cls}}}}$ν为设定的超参数,以调整预判系数对整体检测结果的影响。

      图  4  全局上下文特征提取流程

      Figure 4.  Flow chart of global-contextual feature extraction

    • 本文所提模型将每个像素点视为一个目标,精细化检测过程,通过高分辨率预测图与软标签对比来得出最终结果,因此,更适用于中小型目标的检测。该模型目标定位的关键点在于如何设置软标签,即定位真实热点图、中心偏移真实热点图和回归真实热点图。

    • 设置定位真实热点图时,将目标中心点设为正样本,并在中心点处添加高斯掩模,以指引网络收敛方向。该掩模值设置为0至1的过渡值。图5(a)为添加目标框的原图。

      为更好地利用真实目标框信息,本文将高斯椭圆半径值与目标框的宽高相关联,区别于文献[9,10]中使用的二次方程求解半径的方法。在某个类别上的高斯椭圆掩模定义为:

      $$R_{ {i,j} }= \frac{{{{\left( {i - {i_0}} \right)}^2}}}{{2{{\left( {{\alpha / 8}} \right)}^2}}}{\rm{ + }}\frac{{{{\left( {j - {j_0}} \right)}^2}}}{{2{{\left( {{\beta / 8}} \right)}^2}}},$$ (4)
      $$\alpha = \gamma w, \beta = \gamma h,$$ (5)

      其中,(i0, j0)为高斯椭圆的圆心,也是正样本的位置所在,αβ分别设置为目标框宽w和高的γ倍,γ∈(0,1),γ的具体取值见4.4节。鉴于不同目标的正样本落在同一个像素点的概率较小,相比中心点的重叠问题,本文更关注于掩模的重叠现象,这里取落在同一像素的掩模的最大值参与训练。

      掩模对负样本的调节有较大作用。如图5(b)所示,颜色由暗至亮代表掩模值对损失函数中负样本的作用由重到轻,最亮处代表目标的中心点。

      图  5  (a)添加目标框的原图及(b)高斯椭圆掩模示意图

      Figure 5.  (a) Original image with a target box and (b) schematic diagram of gaussian elliptical mask

      本文的定位损失函数基于Focal loss做适应性调整,如式(6)所示,其中ρ沿用Focal loss中的值,设为2。

      $${{L_{{\rm{cls}}}} = - \displaystyle\frac{1}{N}\sum\limits_{ijk} {\left\{ \begin{array}{l} {\left[ {1 - \hat Y\left( {{P_{i,j,k}}} \right)} \right]^{^\rho }}\log \left( {\hat Y\left( {{P_{i,j,k}}} \right)} \right) \;\;\;\;\;\;\; if\; {P_{i,j,k}}{\text{为正样本}}\\ {{{G}}_{i,j,k}} \cdot {\left[ {\hat Y\left( {{P_{i,j,k}}} \right)} \right]^{^\rho }}\log \left( {1 - \hat Y\left( {{P_{i,j,k}}} \right)} \right) \quad\;\;\;{\rm otherwise} \end{array} \right.}, }$$ (6)

      其中,Pi,j,k为预测定位热点图上的一点,ijk为三维坐标,Gi,j,k为所有类别上的定位损失掩模系数,定义为:

      $$G_{ {i,j,k} } = {\left\{ {1 - \exp \left[ { - R_{{i,j,k} }} \right]} \right\}^\omega },$$ (7)

      其中,R代表施加在目标中心点周围的掩模值。参照文献[8,10],设置ω值设为4。当该点为目标框的中心点即正样本时,采用式(6)上面的公式计算损失函数;当该点不为中心点时,采用式(6)下面的公式计算。N为图像中所有类别的正样本数之和。

    • 这里图像下采样比例为4,预测定位热点图的每一点均代表原图像中4×4范围的点,因此,需要采用中心偏移预测来提高定位能力。偏移量真实值为目标框中心点坐标除4后的小数部分,而回归量真实值为目标框缩减4倍后的宽和长。二者真实热点图极其稀疏,只有正样本处有值,其余部分均为零。这里直接采用L1损失函数进行训练,定义如式(8)所示。其中输出预测热点图为B,真实热点图为$\overline B $N为输入图像的各类别正样本个数。

      $${L_{{\rm{off}}/{\rm{box}}}} = \frac{1}{N}\sum\nolimits_n^N {\left| {{B_n} - \overline {{B_n}} } \right|}. $$ (8)
    • 训练该网络时采用混合损失函数,对定位、回归和偏移损失函数做加权处理。该混合损失函数定义为:

      $$L = {L_{{\rm{cls}}}} + {\lambda _{{\rm{off}}}}{L_{{\rm{off}}}} + {\lambda _{{\rm{box}}}}{L_{{\rm{box}}}},$$ (9)

      其中,${L_{{\rm{cls}}}}$代表定位分类损失,${L_{off}} $为中心点偏移损失,${L_{box}} $为预测框回归损失,λ为调节系数。考虑到网络收敛需先大范围确定位置,再细微调节目标边框大小,因此,定位分类损失占较大比重,与文献[10]保持一致,取${\lambda _{{\rm{off}}}}$为1,${\lambda _{{\rm{box}}}} $为0.1。

    • 为验证本文提出方法的有效性,采用复杂背景航天遥感十分类目标检测公开数据集NWPU VHR-10[26]和大规模十五分类数据集DOTAv1.0[27]进行验证。

      NWPU VHR-10包含有标注信息的图像650张,背景信息图像150张。目标共有10类,分别为:飞机、舰船、油罐、棒球场、网球场、篮球场、田径场、港口、桥梁和车辆。表2对该数据集的各类目标框尺寸进行了统计,结果显示目标尺度大部分在300像素以下,最大不超过500像素。

      DOTAv1.0数据集包含2806张标注信息的光学遥感图像。共15个类别,分别为:飞机、棒球场、桥、船只、田径场、小型车辆、大型车辆、船只、网球场、篮球场、储蓄罐、足球场、环形路线、海港、游泳池和直升飞机。其特点是尺度变化性更大,检测难度更高。

      表 2  数据集NWPU VHR-10目标尺寸统计表

      Table 2.  Statistics of target sizes in the NWPU VHR-10 dataset

      尺度(pixel)0-1010-4040-100100-300300-500500以上
      00.13270.69480.15990.01260
      00.14480.72050.12420.01050

      本文采用平均精确度(mean Average Precision, mAP)作为评估网络检测能力的标准。平均精确度代表所有类别模型检测精度(AP)的平均值,而 AP由精确度和召回率构成的折线图的积分值确定。

      精确度是指被预测为正样本中真实正样本所占比例,召回率是指原本正样本中依然被预测为正样本的比例。根据预测结果可得到TP(真阳性), FP(假阳性), FN(假阴性)和TN(真阴性)。从而得出检测精确度(p, precision)和召回率(r, recall)。

      $$p = \frac{{{T_P}}}{{{T_P} + {F_P}}},r = \frac{{{T_P}}}{{{T_P} + {F_N}}}.$$ (10)

      本文通过判断预测框(PR,Predection Result)与真实框(GT, Ground Truth)的交并比(Iou)来判断是否成功检测到物体,如式(11)所示。本文中主要评估交并比阈值为0.5和0.75两种情况,预测框与目标框的交并比在阈值之上即认为检测到有效目标。

      $${I_{ou}} = \frac{{{P_R} \cup {G_T}}}{{{P_R} \cap {G_T}}}.$$ (11)

      为统计不同尺度对象的检测精度,与文献[13]保持一致,设置小目标(small)的尺寸为目标框面积小于602,中目标 (medium)为目标框面积大于小目标同时小于1202,大目标(large)则为目标框面积大于1202。后文将对各尺度目标统计检测结果。

    • 由于遥感图像尺寸较大,需要对数据集进行裁剪处理。根据十分类数据集目标的宽高统计信息,长和宽最大不超过500像素,因此设定裁剪图片尺寸至少满足500×500,故最终将图片裁剪为640×640,并保证两张图片有140个像素的重叠区域。可以保证完整覆盖最大尺寸目标。在裁剪时,检测物体中心点是否在所得图像内,若包含中心点,则保留目标框并调整标注的长宽;若不包含中心点,则抛弃该目标框。

      对NWPU VHR-10数据集来说,本文采用数据集中含标注信息的650张图片进行训练和测试。处理后共获得1743张图像,取其中的60%作为训练集(1045张),20%作为验证集(349张),剩余20%为测试集(349张)。对DOTA v1.0数据集来说,对其进行同样操作,共得到33892张图片,随机取数据集的1/2为训练集(16946张),1/6为验证集(5649张),1/3为测试集(11297张)。同时对图片进行数据增强操作,包括随机左右翻转,上下翻转及比例放缩等。

      网络训练的优化器为Adam,初始学习率设置为1.25×e−4,在NWPU VHR-10数据集上训练次数为280,并在160和240次后分别将学习率降低10倍,在DOTA数据集上训练次数为140次,并在70和120次后各将学习率降低10倍。批处理大小设置为6张图片。图像预处理阶段对输入图像进行统一缩放操作,进入特征编码网络的图像尺寸为512×512。本文训练及测试硬件均为GPU GTX 1080 8G,CPU 为i7-7700K 4.20GHz,算法平台采用Pytorch架构。

    • 为凸显本模型的有效性,对比了6种基于深度学习的有代表性的目标检测模型。

      (1)RICAOD模型:基于两阶段检测方法,在区域候选网络上融合了遥感图像的局部上下文特征,采用ZF-Net[28]网络架构,其主干网络为AlexNet。

      (2)SSD模型:作为对比的经典有效算法,采用VGG16网络提取特征,最后在不同尺度的特征图上得到多尺度融合预测结果。

      (3)YOLOv3模型:针对小目标检测,采用Darknet53网络结构,添加直连层和上采样操作实现不同层的特征图融合,在3个不同尺度的特征图上进行预测。

      (4)MMDFN模型:基于两阶段的检测方法,以VGG16分类网络为特征提取主网络,在RPN网络中构建多区域融合的子网络,也为基于局部上下文检测的方法。

      (5)MSDN模型:在特征提取网络ResNet50的最后一组残差块中采用可变形卷积,以获取多尺度形变卷积特征,在3个特征图上进行预测。

      (6)MSCNN模型:采用RetinaNet为基线架构,主干网络为ResNet50,构建了一种新的特征金字塔方式以融合特征。

      这里令Iou阈值为0.5,各总体实验结果如表3所示。其中SSD采用mmdetection[29]检测框架训练,YOLO v3采用darknet框架。RICAOD模型和MMDFN模型均为两阶段检测网络中融合局部上下文特征,MSDN模型和MSCNN模型均为融合多尺度特征提取方法的单阶段检测模型,而本文的GCDN则是基于单阶段检测中融合全局上下文特征检测和变形卷积的模型。

      表 3  不同模型在数据集NWPU VHR-10上的平均精确度对比

      Table 3.  Comparison of mean average precisions of different models in the NWPU VHR-10 dataset

      模型主干网络飞机船舰油罐棒球场网球场篮球场田径场港口桥梁车辆平均精确度(mAP)
      RICAODAlexNet0.99700.90800.90610.92910.90290.80310.90810.80290.68530.87140.8712
      SSDVGG160.98390.89930.89180.98510.87910.84810.99490.77300.78280.87390.8912
      YOLOv3Darknet530.90910.90910.90810.99130.90860.90910.99470.90050.90910.90350.9243
      MMDFNVGG160.99340.92270.99180.96680.96320.97561.00000.97400.80270.91360.9504
      MSDNResNet500.99760.97210.83830.99090.97340.99910.98680.97190.92670.90100.9558
      MSCNNResNet500.99400.95300.91800.96300.95400.96700.99300.95500.97200.93300.9600
      GCDNRoot-ResNet180.99910.99830.96770.99160.99910.97590.99880.94120.92240.96360.9757

      通过实验可以看出,MMDFN结构较为复杂,需要多个子系统的特征融合,在检测复杂度和计算资源利用率方面与单阶段检测相比不占优势。YOLOv3借鉴了SSD的多尺度特征图提取特征,采用多尺度预测和多宽高比预测框两种策略,可提高预测精度。但遥感目标尺寸差异较大且分布不均衡,针对单一像素点将生成大量无目标的预选框。本文的GCDN采用不生成预选框的方式,主干网络为Root-ResNet18,参数量较VGG16小且层数比ResNet50浅,结构更简单。

      通过分析实验结果可以看出,上下文特征与变形卷积对多尺度检测效果的提高十分有效。MMDFN对于油罐、田径场和港口的检测精度有较大提高,体现了利用上下文语义特征的优势。MSDN模型的平均检测精度达95.6%,证明了变形卷积在特征提取网络的有效性,尤其是对海港的检测精度较高。本文所提GCDN模型融合了变形卷积和全局上下文特征,进一步提高了十分类遥感目标的检测精度,最终精度达到对比实验中的最高值97.57%,相比当前最好的方法MSCNN,提高了1.57%。

    • 为更好地确定高斯椭圆的掩模半径γ对于检测结果的影响,本文做了4组对比实验,分别取γ为0.25,0.45,0.75和0.95。实验结果如图6所示。通过实验可以看出γ的大小对结果有一定的影响,γ较小时,对目标物体的覆盖率小,有利于网络的快速收敛,但会导致网络回归性能降低。而γ较大时,位于目标框内的负样本数目较多,网络计算得到的正样本的浮动范围较大,同时多个目标框聚集时,掩模的重合概率增大,不利于网络的学习和收敛。因此,本文最终取γ为0.45。

    • 由式(3)可得预判系数ν代表全局上下文特征在定位预测结果中所占比例大小。因为预测主要贡献者为基于目标中心点的局部特征,因此ν的取值范围在(0,0.5)之间。为确定出比较合适的预测系数ν,本文设计了若干对照值以比较检测效果。如图7所示,预测系数在[0.05,0.2]之间有较好的效果,过大会影响局部特征的表达能力,过小则不会对检测网络有提升作用。因此本文最终取ν为0.1。

      图  6  不同γ值对结果的影响

      Figure 6.  Effects of different γ values on results

      图  7  不同ν值对结果的影响

      Figure 7.  Effects of different ν values on results

    • 对于检测精度来说,AP50可有效评估网络的分类定位能力,而AP75则更能反映网络的回归效果,以反映预测框与目标框的差距。因此,本文将Iou阈值提高至0.75,证明了本文所提方法可提高检测网络的回归能力。本文设置4个对比实验,分别为基线无预选框检测网络CenterNet,预选框检测网络MSCNN,不加全局上下文特征辅助模块的GCDN-woGC和添加全局上下文特征辅助模块的GCDN,实验结果如表4所示。

      综合表4结果可以看出,CenterNet和GCDN-woGC的AP75均低于MSCNN网络,说明中心点检测方法在回归问题上略逊色于预选框检测网络。而本文所提模型可在一定程度上弥补该不足,GCDN相对MSCNN提高了1.0% AP75,最终可达到与预选框检测相当甚至更优的回归能力。

      表 4  检测阈值0.75下的不同模型平均精确度对比

      Table 4.  Comparison of mean-average precision of different models under the 0.75 detection threshold

      模型平均准确率 (AP)平均准确率(AP)($I_{ {\rm{{ou} } } }$=0.50:0.95)平均召回率(AR)($I_{ {\rm{{ou} } } }$=0.50:0.95)
      $I_{ {\rm{{ou} } } }$=0.50:0.95$I_{ {\rm{{ou} } } }$=0.50$I_{ {\rm{{ou} } } }$=0.75小目标中目标大目标小目标中目标大目标
      CenterNet0.6630.9680.7680.5760.6690.7040.6300.7250.741
      MSCNN0.7060.9600.8240.5470.5780.7010.6000.6050.700
      GCDN-woGC0.6790.9730.7750.5720.6900.7500.6390.7440.786
      GCDN0.7050.9760.8340.6120.7270.7060.6830.7730.740
    • 为确定本文所提模型的实时性和有效性,本文计算了测试集所有图片的平均检测时长,该时长为图像预处理、网络检测和图像后处理时间之和,并与RICAOD 模型、MMDFN模型、YOLOv3模型和MSDN模型进行对比,结果如表5所示。

      表 5  不同模型的平均检测时间对比

      Table 5.  Comparison of the average detection times with different models

      模型输入尺寸时间/s
      RICAOD400×4002.89
      MMDFN400×4000.75
      YOLOv3640×6400.13
      MSDN600×8000.21
      GCDN640×6400.06

      表5可以看出,本方法用时较短,平均检测速度可达到16FPS,达到实际应用需求。较双阶段检测RICAOD与MMDFN来说,检测速度有较大提升,与单阶段检测YOLOv3和MSDN相比检测速度也较快,更易于实现和操作,反映出网络结构的紧凑性以及无预选框模型的优越性。

    • 为进一步验证本文所提模型的有效性,将本文所提模型在大型数据集DOTA v1.0进行验证,$I_{{\rm{{ou}}}}$阈值取0.5。采取的基准对比实验为模型Faster-RCNN、R-FCN、YOLOv2和SCFPN-scf[30]。其中Faster-RCNN和R-FCN为提取候选区域的双阶段算法,采用的主干网络均为ResNet101。YOLOv2的主干网络为GoogleNet。SCFPN-scf为只基于场景上下文特征进行的适应性优化算法,其结构为融合了特征金字塔的双阶段检测网络。实验结果如表6所示,可看出本文所提方法的平均精确度大幅超越经典通用检测网络,同时在上下文特征的应用方面可媲美双阶段SCFPN-scf网络,并有效减少了计算资源。

      表 6  不同模型在数据集DOTA上的平均精确度对比

      Table 6.  Comparison of the mean-average precisions with different models in the DOTA dataset

      模型主干网络平均检测精度(mAP)
      YOLOv2GoogleNet39.20
      R-FCNResNet10152.58
      Faster-RCNNResNet10160.46
      SCFPN-scfResNet10175.22
      GCDNRoot-ResNet1875.95
    • 图8为所提模型的部分检测效果,涵盖10种光学遥感目标。从图中可以看出,所提模型适合检测复杂背景下不同尺度的目标,生成的预测框可完整覆盖目标物体,进一步证明了所提模型的有效性。

      图  8  GCDN的可视化检测效果图

      Figure 8.  Visual detection results of the GCDN

    • 在复杂背景的光学遥感目标检测中,针对网络复杂度和检测精度难以平衡的现状,提出了一种基于较浅层网络的全局上下文特征检测模型。该模型基于目标中心点的无预选框检测网络,结构简单且检测精度较高。结果显示,全局上下文特征有益于增强网络的定位分类功能;融合目标框尺度的定位损失函数适用于多尺度目标的检测,可提升网络的回归能力。最终,本文所提方法在公开数据集NWPU VHR-10上达到97.6%AP50和83.4% AP75的检测精度。相较于其他单阶段检测网络,所提模型在网络层数更浅的情况下获得了更强的分类和回归能力。

参考文献 (30)

目录

    /

    返回文章
    返回