留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

八度卷积和双向门控循环单元结合的X光安检图像分类

吴海滨 魏喜盈 王爱丽 岩崛佑之

吴海滨, 魏喜盈, 王爱丽, 岩崛佑之. 八度卷积和双向门控循环单元结合的X光安检图像分类[J]. 中国光学. doi: 10.37188/CO.2020-0073
引用本文: 吴海滨, 魏喜盈, 王爱丽, 岩崛佑之. 八度卷积和双向门控循环单元结合的X光安检图像分类[J]. 中国光学. doi: 10.37188/CO.2020-0073
WU Hai-bin, WEI Xi-ying, WANG Ai-li, YUJI Iwahori. X-ray security inspection images classification combined octconv and bidirectional GRU[J]. Chinese Optics. doi: 10.37188/CO.2020-0073
Citation: WU Hai-bin, WEI Xi-ying, WANG Ai-li, YUJI Iwahori. X-ray security inspection images classification combined octconv and bidirectional GRU[J]. Chinese Optics. doi: 10.37188/CO.2020-0073

八度卷积和双向门控循环单元结合的X光安检图像分类

doi: 10.37188/CO.2020-0073
基金项目: 国家自然科学基金(No. 61671190)
详细信息
    作者简介:

    吴海滨(1977—),男,上海人,博士,教授,2002年于哈尔滨工业大学获得硕士学位,2008年于哈尔滨理工大学获得博士学位,现为哈尔滨理工大学测控技术与通信工程学院教授,主要从事机器视觉、医学虚拟现实、深度学习图像分类方面的研究。E-mail:woo@hrbust.edu.cn

    王爱丽(1979—),女,天津人,博士,副教授,2008年于哈尔滨工业大学获得博士学位,现为哈尔滨理工大学测控技术与通信工程学院副教授,主要从事机器视觉、深度学习图像分类方面的研究。E-mail:aili925@hrbust.edu.cn

  • 中图分类号: TP391.4

X-ray security inspection images classification combined octconv and bidirectional GRU

Funds: Supported by National Natural Science Foundation of China (No. 616711901)
More Information
  • 摘要: 针对主动视觉安检方法准确率低、速度慢,不适用于实时交通安检的问题,提出了八度卷积(OctConv)和注意力机制双向门控循环单元(GRU)神经网络相结合的X光安检图像分类方法。首先,利用八度卷积代替传统卷积,对输入的特征向量进行高低分频,并降低低频特征的分辨率,在有效提取X光安检图像特征的同时,减少了空间冗余。其次,通过注意力机制双向GRU,动态学习调整特征权重,提高危险品分类准确率。最后,在通用SIXRay数据集上的实验表明,对8000幅测试样本的整体分类准确率(ACC)、特征曲线下方面积(AUC)、正类分类准确率(PRE)分别为98.73%、91.39%、85.44%,检测时间为36.80 s。相对于目前主流模型,本文方法有效提高了X光安检图像危险品分类的准确率和速度。
  • 图  1  X光安检图像分类算法框图

    Figure  1.   Block diagram of X-ray security image classification algorithm

    图  2  八度卷积结构

    Figure  2.  The structure of Octave Convolution

    图  3  双层BiGRU结构

    Figure  3.  The structure of double-layer BiGRU

    图  4  SIXray 数据集

    Figure  4.  SIXRay dataset

    表  1  SIXray数据集样本分布

    Table  1.   Sample distribution in SIXray dataset

    正类样本 (8929)负类样本
    枪支刀具扳手钳子剪子
    31311943219939619831050302
    下载: 导出CSV

    表  2  不同类别数据增强前后对比结果

    Table  2.   Comparison results of different types of data before and after data augmentation

    种类增强前后负类样本数正类样本数不平衡比率
    枪支增强前72255270526.27
    增强后89672126597.08
    刀具增强前73212174841.88
    增强后93723860810.89
    扳手增强前72948201236.26
    增强后9238099519.28
    钳子增强前71524343620.82
    增强后85574167575.10
    剪子增强前7415380791.89
    增强后99760257138.80
    下载: 导出CSV

    表  3  不同模型的ACC (%)比较

    Table  3.   Comparison of ACC (%) for different network modules

    方法枪支刀具扳手钳子剪子平均
    InceptionV394.6387.5288.9780.5096.9589.71
    VGG1997.8898.3697.4896.0397.3397.42
    ResNet98.3699.2098.1696.1097.8097.92
    DenseNet98.6999.2598.1896.1697.6597.99
    STN-DenseNet99.1598.7397.5296.3298.4698.03
    OnlyBiGRU98.7799.4097.7394.3799.1497.88
    CNN-ABiGRU98.8999.4298.8997.0798.9698.65
    OctConv-ABiGRU98.6099.2599.1097.5099.2098.73
    下载: 导出CSV

    表  4  不同模型的AUC比较

    Table  4.   Comparison of AUC (%) for different network modules

    方法枪支刀具扳手钳子剪子平均
    InceptionV363.3454.5751.3352.9250.7454.57
    VGG1993.3489.0377.4976.5771.0881.50
    ResNet94.0688.6876.0073.9260.4578.64
    DenseNet93.9190.3772.5974.6561.0878.52
    STN-DenseNet95.6993.5875.6076.9865.0981.39
    OnlyBiGRU92.7393.9068.0373.3389.4283.48
    CNN-ABiGRU93.9693.9482.2280.0987.9987.65
    OctConv-ABiGRU91.5394.5987.8486.1596.7091.39
    下载: 导出CSV

    表  5  不同网络用时比较

    Table  5.   Comparison of detection time for different network modules

    方法参数量(百万)模型大小(MB)检测时间(s)
    VGG1945.1234441.56
    DenseNet57.2243724.91
    CNN-ABiGRU14.4210875.14
    OctConv-ABiGRU121.47138236.80
    下载: 导出CSV

    表  6  不同方法的分类精度比较

    Table  6.   Companson of PRE (%) for different network modules

    方法枪支刀具扳手钳子剪子平均
    VGG1987.2086.4056.6055.2046.2066.32
    DenseNet88.2082.1851.2554.5038.5062.93
    CNN-ABiGRU88.5087.2063.0061.2076.4075.26
    OctConv-ABiGRU86.7892.2277.4476.2294.5685.44
    下载: 导出CSV
  • [1] 陈志强, 张丽, 金鑫. X射线安全检查技术研究新进展[J]. 科学通报,2017,62(13):1350-1365. doi:  10.1360/N972016-00698

    CHEN ZH Q, ZHANG L, JIN X. Recent progress on X-ray security inspection technologies[J]. <italic>Chinese Science Bulletin</italic>, 2017, 62(13): 1350-1365. (in Chinese) doi:  10.1360/N972016-00698
    [2] CAO S S, LIU Y H, SONG W W, et al.. Toward human-in-the-loop prohibited item detection in X-ray baggage images[C]. Proceedings of 2019 Chinese Automation Congress (CAC), IEEE, 2019: 4360-4364.
    [3] LYU SH J, TU X, LU Y. X-Ray image classification for parcel inspection in high-speed sorting line[C]. Proceedings of the 2018 11th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI), IEEE, 2018: 1-5.
    [4] 费彬, 孙京阳, 张俊举, 等. 基于稀疏处理的多能X射线分离成像[J]. 光学 精密工程,2017,25(4):1106-1111. doi:  10.3788/OPE.20172504.1106

    FEI B, SUN J Y, ZHANG J J, <italic>et al</italic>. Separation of multi-energy X-ray imaging based on sparse processing[J]. <italic>Optics and Precision Engineering</italic>, 2017, 25(4): 1106-1111. (in Chinese) doi:  10.3788/OPE.20172504.1106
    [5] 王旖旎. 基于Inception V3的图像状态分类技术[J]. 液晶与显示,2020,35(4):389-394. doi:  10.3788/YJYXS20203504.0389

    WANG Y N. Image classification technology based on inception V3[J]. <italic>Chinese Journal of Liquid Crystals and Displays</italic>, 2020, 35(4): 389-394. (in Chinese) doi:  10.3788/YJYXS20203504.0389
    [6] CHOUAI M, MERAH M, SANCHO-GOMEZ J L, <italic>et al</italic>. Supervised feature learning by adversarial autoencoder approach for object classification in dual X-Ray image of luggage[J]. <italic>Journal of Intelligent Manufacturing</italic>, 2020, 31(5): 1101-1112. doi:  10.1007/s10845-019-01498-5
    [7] 张万征, 胡志坤, 李小龙. 基于LeNet-5的卷积神经图像识别算法[J]. 液晶与显示,2020,35(5):486-490. doi:  10.3788/YJYXS20203505.0486

    ZHANG W ZH, HU ZH K, LI X L. Convolutional neural image recognition algorithm based on LeNet-5[J]. <italic>Chinese Journal of Liquid Crystals and Displays</italic>, 2020, 35(5): 486-490. (in Chinese) doi:  10.3788/YJYXS20203505.0486
    [8] 刘恋秋. 基于深度卷积生成对抗网络的图像识别算法[J]. 液晶与显示,2020,35(4):383-388. doi:  10.3788/YJYXS20203504.0383

    LIU L Q. Image recognition algorithms based on deep convolution generative adversarial network[J]. <italic>Chinese Journal of Liquid Crystals and Displays</italic>, 2020, 35(4): 383-388. (in Chinese) doi:  10.3788/YJYXS20203504.0383
    [9] 龚希, 吴亮, 谢忠, 等. 融合全局和局部深度特征的高分辨率遥感影像场景分类方法[J]. 光学学报,2019,39(3):0301002. doi:  10.3788/AOS201939.0301002

    GONG X, WU L, XIE ZH, <italic>et al</italic>. Classification method of high-resolution remote sensing scenes based on fusion of global and local deep features[J]. <italic>Acta Optica Sinica</italic>, 2019, 39(3): 0301002. (in Chinese) doi:  10.3788/AOS201939.0301002
    [10] 贠卫国, 史其琦, 王民. 基于深度卷积神经网络的多特征融合的手势识别[J]. 液晶与显示,2019,34(4):417-422. doi:  10.3788/YJYXS20193404.0417

    YUN W G, SHI Q Q, WANG M. Multi-feature fusion gesture recognition based on deep convolutional neural network[J]. <italic>Chinese Journal of Liquid Crystals and Displays</italic>, 2019, 34(4): 417-422. (in Chinese) doi:  10.3788/YJYXS20193404.0417
    [11] LIU J Y, LENG X X, LIU Y. Deep convolutional neural network based object detector for X-Ray baggage security imagery[C]. Proceedings of 2019 IEEE 31st International Conference on Tools with Artificial Intelligence (ICTAI), IEEE, 2019: 1757-1761.
    [12] AKCAY S, KUNDEGORSKI M E, WILLCOCKS C G, <italic>et al</italic>. Using deep convolutional neural network architectures for object classification and detection within X-ray baggage security imagery[J]. <italic>IEEE Transactions on Information Forensics and Security</italic>, 2018, 13(9): 2203-2215. doi:  10.1109/TIFS.2018.2812196
    [13] CAO S S, LIU Y H, SONG W W, et al.. Toward human-in-the-loop prohibited item detection in X-ray baggage images[C]. Proceedings of 2019 Chinese Automation Congress (CAC), IEEE, 2019: 4360-4364.
    [14] AKÇAY S, ATAPOUR-ABARGHOUEI A, BRECKON T P. Skip-GANomaly: skip connected and adversarially trained encoder-decoder anomaly detection[C]. Proceedings of 2019 International Joint Conference on Neural Networks (IJCNN), IEEE, 2019.
    [15] AYDIN I, KARAKOSE M, AKIN E. A new approach for baggage inspection by using deep convolutional neural networks[C]. Proceedings of 2018 International Conference on Artificial Intelligence and Data Processing (IDAP), IEEE, 2018: 1-6.
    [16] MERY D, SVEC E, ARIAS M, <italic>et al</italic>. Modern computer vision techniques for X-Ray testing in baggage inspection[J]. <italic>IEEE Transactions on Systems</italic>,<italic>Man</italic>,<italic>and Cybernetics</italic>:<italic>Systems</italic>, 2017, 47(4): 682-692. doi:  10.1109/TSMC.2016.2628381
    [17] GALVEZ R L, DADIOS E P, BANDALA A A, et al.. Threat object classification in X-ray images using transfer learning[C]. Proceedings of 2018 IEEE 10th International Conference on Humanoid, Nanotechnology, Information Technology, Communication and Control, Environment and Management (HNICEM), IEEE, 2018: 1-5.
    [18] HOWARD A G, ZHU M L, CHEN B, et al.. MobileNets: efficient convolutional neural networks for mobile vision applications[C]. Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2017.
    [19] IANDOLA F N, HAN S, MOSKEWICZ M W, et al.. SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size[C]. Proceedings of 2017 International Conference on Learning Representations (ICLR), Toulon, France, 2017.
    [20] CHEN Y P, FAN H Q, XU B, et al.. Drop an octave: reducing spatial redundancy in convolutional neural networks with octave convolution[C]. Proceedings of 2019 IEEE/CVF International Conference on Computer Vision, IEEE, 2019: 3434-3443.
    [21] CHO K, VAN MERRIËNBOER B, GULCEHRE C, et al.. Learning phrase representations using RNN encoder-decoder for statistical machine translation[C]. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), Association for Computational Linguistics, 2014: 1724-1734.
    [22] 董潇潇, 何小海, 吴晓红, 等. 基于注意力掩模融合的目标检测算法[J]. 液晶与显示,2019,34(8):825-833. doi:  10.3788/YJYXS20193408.0825

    DONG X X, HE X H, WU X H, <italic>et al</italic>. Object detection algorithm based on attention mask fusion[J]. <italic>Chinese Journal of Liquid Crystals and Displays</italic>, 2019, 34(8): 825-833. (in Chinese) doi:  10.3788/YJYXS20193408.0825
    [23] MIAO C J, XIE L X, WAN F, et al.. SIXray: a large-scale security inspection X-ray benchmark for prohibited item discovery in overlapping images[C]. Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2019: 2119-2128.
    [24] SZEGEDY C, VANHOUCKE V, IOFFE S, et al.. Rethinking the inception architecture for computer vision[C]. Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2016: 2818-2826.
    [25] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]. Proceedings of the 3rd International Conference on Learning Representations, 2014.
    [26] HE K M, ZHANG X Y, REN SH Q, et al.. Deep residual learning for image recognition[C]. Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2016.
    [27] HUANG G, LIU ZH, VAN DER MAATEN L, et al.. Densely connected convolutional networks[C]. Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2017.
    [28] WANG A L, WANG M H, JIANG K Y, et al.. A novel lidar data classification algorithm combined densenet with STN[C]. Proceedings of 2019 IEEE International Geoscience and Remote Sensing Symposium, IEEE, 2019: 2483-2486.
  • [1] 张红彩, 刘保生, 程旭.  同步荧光光谱探究头孢西丁钠与溶菌酶的结合机制 . 中国光学, doi: 10.3788/CO.2019-0112
    [2] 刘艺, 赵义武, 倪小龙, 娄岩, 姜会林, 刘智.  双向大气信道激光传输的信道互易性研究 . 中国光学, doi: 10.3788/CO.20201301.0140
    [3] 向磊, 陈纯毅, 姚海峰, 倪小龙, 潘石, 刘中辉, 娄岩.  双向大气湍流光信道瞬时衰落相关特性测量 . 中国光学, doi: 10.3788/CO.20191205.1100
    [4] 李安, 王亮伟, 郭帅, 刘瑞斌.  激光诱导击穿光谱增强机制及技术研究进展 . 中国光学, doi: 10.3788/CO.20171005.0619
    [5] 陈清江, 张彦博, 柴昱洲, 魏冰蔗.  有限离散剪切波域的红外可见光图像融合 . 中国光学, doi: 10.3788/CO.20160905.0523
    [6] 郝建坤, 黄玮, 刘军, 何阳.  空间变化PSF非盲去卷积图像复原法综述 . 中国光学, doi: 10.3788/CO.20160901.0041
    [7] 陈俊, 王青松.  基于OLED显示单元的红外上转换器件研究进展 . 中国光学, doi: 10.3788/CO.20150801.0017
    [8] 陈燕芹, 段锦, 祝勇, 钱小飞, 肖博.  基于纹理特征的图像复杂度研究 . 中国光学, doi: 10.3788/CO.20150803.0407
    [9] 王智, 郭万存.  空间臂式补偿机构轴承预紧力与系统刚度关系分析 . 中国光学, doi: 10.3788/CO.20140706.0989
    [10] 赵健, 楚学影, 李金华, 方铉, 王晓华.  SiO2包覆对ZnS纳米材料发光的增强机制 . 中国光学, doi: 10.3788/CO.20140706.0925
    [11] 王宇庆, 王索建.  红外与可见光融合图像的质量评价 . 中国光学, doi: 10.3788/CO.20140703.0396
    [12] 孙宏海, 刘艳滢.  改进的盲解卷积技术在远距离激光光斑图像复原中的应用 . 中国光学, doi: 10.3788/CO.20130606.868
    [13] APOLLONOV V V.  稳态力输出的实验与理论研究 . 中国光学,
    [14] 陈小林, 王延杰.  非下采样变换的红外与可见光图像融合 . 中国光学,
    [15] 邸男, 付东辉, 王毅楠.  利用加权预测的图像迭代盲解卷积 . 中国光学,
    [16] 李光鑫, 吴伟平, 胡君.  红外和彩色可见光图像亮度-对比度传递融合算法 . 中国光学,
    [17] 喻波.  Mo/Si多层膜小角X射线衍射结构表征 . 中国光学,
    [18] 蔺超, 郑玉权.  微型X射线数字成像系统的测试与应用 . 中国光学,
    [19] 汪剑波, 肖洪亮, 陈桂波, 陈新邑, 孙贯成, 卢俊.  圆环单元FSS对改善吸波体雷达吸波特性的影响 . 中国光学,
    [20] 于前洋, 曲宏松.  实现同步轨道(GEO)高分辨力对地观测的技术途径(上) . 中国光学,
  • 加载中
图(4) / 表 (6)
计量
  • 文章访问数:  56
  • HTML全文浏览量:  25
  • PDF下载量:  5
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-04-23
  • 修回日期:  2020-06-15
  • 网络出版日期:  2020-09-16

八度卷积和双向门控循环单元结合的X光安检图像分类

doi: 10.37188/CO.2020-0073
    基金项目:  国家自然科学基金(No. 61671190)
    作者简介:

    吴海滨(1977—),男,上海人,博士,教授,2002年于哈尔滨工业大学获得硕士学位,2008年于哈尔滨理工大学获得博士学位,现为哈尔滨理工大学测控技术与通信工程学院教授,主要从事机器视觉、医学虚拟现实、深度学习图像分类方面的研究。E-mail:woo@hrbust.edu.cn

    王爱丽(1979—),女,天津人,博士,副教授,2008年于哈尔滨工业大学获得博士学位,现为哈尔滨理工大学测控技术与通信工程学院副教授,主要从事机器视觉、深度学习图像分类方面的研究。E-mail:aili925@hrbust.edu.cn

  • 中图分类号: TP391.4

摘要: 针对主动视觉安检方法准确率低、速度慢,不适用于实时交通安检的问题,提出了八度卷积(OctConv)和注意力机制双向门控循环单元(GRU)神经网络相结合的X光安检图像分类方法。首先,利用八度卷积代替传统卷积,对输入的特征向量进行高低分频,并降低低频特征的分辨率,在有效提取X光安检图像特征的同时,减少了空间冗余。其次,通过注意力机制双向GRU,动态学习调整特征权重,提高危险品分类准确率。最后,在通用SIXRay数据集上的实验表明,对8000幅测试样本的整体分类准确率(ACC)、特征曲线下方面积(AUC)、正类分类准确率(PRE)分别为98.73%、91.39%、85.44%,检测时间为36.80 s。相对于目前主流模型,本文方法有效提高了X光安检图像危险品分类的准确率和速度。

English Abstract

吴海滨, 魏喜盈, 王爱丽, 岩崛佑之. 八度卷积和双向门控循环单元结合的X光安检图像分类[J]. 中国光学. doi: 10.37188/CO.2020-0073
引用本文: 吴海滨, 魏喜盈, 王爱丽, 岩崛佑之. 八度卷积和双向门控循环单元结合的X光安检图像分类[J]. 中国光学. doi: 10.37188/CO.2020-0073
WU Hai-bin, WEI Xi-ying, WANG Ai-li, YUJI Iwahori. X-ray security inspection images classification combined octconv and bidirectional GRU[J]. Chinese Optics. doi: 10.37188/CO.2020-0073
Citation: WU Hai-bin, WEI Xi-ying, WANG Ai-li, YUJI Iwahori. X-ray security inspection images classification combined octconv and bidirectional GRU[J]. Chinese Optics. doi: 10.37188/CO.2020-0073
    • X光安检系统广泛应用于交通安全出入控制[1],可以有效降低犯罪、恐怖袭击的风险[2]。目前X光安检工作基本为人工操作,操作人员必须专注于每个行李包裹的筛选,即使经过专业培训,人为错误的可能性仍然较大。随着5G和AI技术的发展,探索基于机器学习的高准确率、快速、容错X光安检图像危险品分类方法具有实际意义。

      基于传统特征提取的X光安检图像分类方法存在检测速度慢、泛化能力弱等不足[3-4]。随着深度学习的高速发展,使其在图像分类[5-6]、目标检测[7-8]、特征融合[9-10]等任务中发挥了至关重要的作用。近年来,深度神经网络能够有效学习数据本身的特征信息,已被用于提高安检图像的分类准确率[11-15]。Mery等在GDXray数据集上分别对基于词典、稀疏表示、深度学习等10余种分类方法进行了测试讨论[16]。Galvez等采用VGG-16网络在ImageNet数据集上进行预训练,再将该模型作为特征提取器迁移到危险品分类中[17]

      以上深度神经网络模型需要大量的数据和强大的计算能力以保证训练的有效性。为此,Howard等使用深度可分离卷积建立了轻量级神经网络MobileNets,其具有规模小、延迟少、功耗低等特点[18]。Forrest等提出Fire模块,使用1×1卷积代替部分3×3卷积,降低了模型的存储空间[19]。Chen等提出一种即插即用OctConv,将高频特征和低频特征映射到不同组中,通过相邻位置间的信息共享,可以优化缓存和计算量[20]

      门控循环单元神经网络(GRU)[21]用于处理序列数据,与前馈神经网络不同,其会记忆前序信息并用于当前输出计算,即隐藏层的输入不仅包括输入层的输出,还包括上一时刻隐藏层的输出。本文将八度卷积与引入注意力机制的双向GRU相结合(OctConv-ABiGRU),提出了X光安检图像分类方法,该方法在提高分类准确率的同时,还满足实时性要求。

    • 对于给定的一组X光安检图像,本文利用判别函数$y = f({x_n};\theta )$预测其中所有可能包含的标签。每幅安检图像可表示为:

      $${x_n} = \sum\nolimits_C {y_{n,c}^* \cdot {x_{n,c}}}, $$ (1)

      其中,${x_{n,c}}$表示从原始图像中采样得到的子图像,每一幅子图像对应一个类别$c$。每个维度的${y_{n,c}}$为0或者1,0表示不包含该类别,1表示包含该类别。

      本文方法主要包括3个部分,如图1所示。

      图  1  X光安检图像分类算法框图

      Figure 1.   Block diagram of X-ray security image classification algorithm

      (1)为了减少类别的不平衡性对分类器的影响,首先进行数据增强,通过对少数类样本(至少包含一种危险品的样本)进行随机过采样,以增加少数类样本的代表性。

      (2)利用OctConv将从X光安检图像中提取的特征向量映射为高频特征和低频特征,分别进行卷积、池化等操作,然后利用BiGRU构建特征序列。

      (3)采用注意机制匹配特征图通道与样本类别,进一步确定需要注意的特征,得到不同的特征图。最后采用sigmoid分类器进行分类。

    • X光安检图像中包含危险品的少数类样本过少,会造成分类面偏倚,导致少数类样本的分类准确率低。因此,本文利用随机过采样方法进行数据增强,即随机复制少数类样本,扩充数据集。为了防止过拟合,在每次生成新数据点时加入轻微随机扰动。

    • 频域图像包含高频部分和低频部分,同样,卷积层的输出特征映射也可分解为不同频率成分。OctConv是一种多频特征表示方法,将高频和低频映射存储到不同组中,并且使用低维度向量储存和处理特征图中的低频部分,由于低频分量是冗余的,可以通过降低低频特征的分辨率来降低冗余和计算成本。

      在OctConv中,输入和输出的特征向量及卷积核都被分解为高频$[{{{X}}^{\rm{H}}},{{{Y}}^{\rm{H}}},{{{W}}^{\rm{H}}}]$和低频$[{{{X}}^{\rm{L}}},{{{Y}}^{\rm{L}}}, {{{W}}^{\rm{L}}}]$两个部分。低频向高频进行信息更新时,即${{{W}}^{{\rm{L}} \to {\rm{H}}}}$,需要对低频分量上采样再卷积;同理,在${{{W}}^{{\rm{H}} \to {\rm{L}}}}$过程中,需要对高频分量下采样。具体过程如式(2)和式(3)所示:

      $$\begin{split} {{Y}}_{p,q}^{\rm{H}} =\;& \sum\limits_{i,j \in {N_k}} {{{W}}_{i + \textstyle\frac{{k - 1}}{2},{j + \textstyle\frac{{k - 1}}{2}}^{\rm{T}}}} {{X}}_{p + i,q + j}^{\rm{H}} \\ & +\sum\limits_{i,j \in {N_k}} {{{W}}_{i + \textstyle\frac{{k - 1}}{2},j + \textstyle\frac{{k - 1}}{2}}^{\rm{T}}} {{X}}_{\left( {\left| {\textstyle\frac{p}{2}} \right| + i} \right),\left( {\left| {\textstyle\frac{q}{2}} \right| + j} \right)}^{\rm{L}} \end{split} ,$$ (2)
      $$\begin{split} {{Y}}_{p,q}^{\rm{L}} =\;& \sum\limits_{i,j \in {N_k}} {{{W}}_{i + \textstyle\frac{{k - 1}}{2},j + \textstyle\frac{{k - 1}}{2}}^{\rm{T}}} {{X}}_{p + i,q + j}^{\rm{L}} \\ & + \sum\limits_{i,j \in {N_k}} {{{W}}_{i + \textstyle\frac{{k - 1}}{2},j + \textstyle\frac{{k - 1}}{2}}^{\rm{T}}} {{X}}_{\left( {2*p + 0.5 + i} \right),\left( {2*q + 0.5 + j} \right)}^{\rm{L}} \end{split} ,$$ (3)

      其中,$(p,q)$为位置坐标,${N_k}$定义了一个局部领域。

      八度卷积结构如图2所示,采用平均池化进行下采样操作。其中α表示低频特征通道比例,低频特征定义为比高频特征低一个八度,即低频特征图的分辨率仅为高频特征图的一半。

      图  2  八度卷积结构

      Figure 2.  The structure of Octave Convolution

    • 长短时记忆网络(LSTM)通过在每个单元中引入门控状态来控制传输状态,记住需要长时间记忆的信息,忘记不重要信息。

      ${{W}}$是门的权重向量,${{b}}$是偏置项,$\sigma $是sigmoid函数,输入均为$[{{{h}}_{t - 1}},{{{x}}_t}]$,表示把两个向量连接成更长的向量。LSTM主要包含3个阶段:

      (1)忘记阶段。通过计算得到的${\textit z}^{{f}}$作为忘记门控,控制上一状态的哪些信息需要记住,哪些信息需要忘记。

      $${{{\textit z}}^{{f}}} = \sigma ({{{W}}_{{f}}} \cdot [{{{h}}_{t - 1}},{{{x}}_t}] + {{{b}}_{{f}}}).$$ (4)

      (2)选择记忆阶段。对输入的${{{x}}_t}$进行选择记忆。当前的输入内容由前序计算得到的${\textit z}^{{f}}$表示,选择的门控信号由${\textit z}^{{i}}$控制。

      $${{\textit z}^{{i}}} = \sigma ({{{W}}_{{i}}} \cdot [{{{h}}_{t - 1}},{{{x}}_t}] + {{{b}}_{{i}}}),$$ (5)
      $${{\tilde{ C}}_t} = \tanh ({{{W}}_{{c}}} \cdot [{{{h}}_{t - 1}},{{{x}}_t}] + {{{b}}_{{c}}}).$$ (6)

      (3)输出阶段。通过tanh激活函数对上一阶段得到的${{{C}}_t}$进行缩放,决定哪些将会作为当前状态的输出。

      $${{{C}}_t} = {{\textit z}^{{f}}} * {{{C}}_{t - 1}} + {{\textit z}^{{i}}} * {{\tilde{ C}}_t},$$ (7)
      $${{{o}}^{{t}}} = \sigma ({{{W}}_{{o}}} \cdot [{{{h}}_{t - 1}},{{{x}}_t}] + {{{b}}_{{o}}}),$$ (8)
      $${{{h}}_t} = {{{o}}_t} * \tanh ({{{c}}_t})$$ (9)

      GRU是LSTM的重要变体,它将LSTM中的3个门控单元简化为两个:更新门和重置门,并且将单元状态和输出合而为一。这样在保证网络性能的同时,减少了网络参数,提高了训练效率,更容易收敛。为了充分利用前后图像特征序列信息,本文设计了一种双层双向GRU网络。相比于传统的单向神经网络,BiGRU由前后两种状态共同决定。双层网络增强了网络的学习能力,信息利用的更加充分。在每个时刻,输入端都提供两个相反方向的GRU,输出端由两个GRU共同决定。双层 BiGRU结构如图 3所示。

      图  3  双层BiGRU结构

      Figure 3.  The structure of double-layer BiGRU

    • 注意力机制是模仿人类的生物系统,只注意输入的相关元素,而忽略其他不相关信息。如人类在观察图像时,并非一次性观察整幅图像的每个位置,而是选择性地观察特定部分,将注意力集中在含有图像特征的区域[22]。人脑会根据经验,学习图像注意力集中的目标,从众多信息中选择出对当前任务更关键的信息,其核心思想是对不同的信息赋予不同的权重。

      一幅X光安检图像中通常包含多个对象,并且背景杂乱,毫无规律;每个对象可能出现在图片中的任意位置,这意味着图像的不同区域的重要性不同,并且两幅图像之间关注区域可能完全不同;对于特定类(例如枪支),它们在不同的图像中的尺寸和形状不同。

      本文利用自上而下的残差注意力模型,为BiGRU加入注意力机制,重点学习图像中待处理要素。当前状态根据前序状态学习得到的关注特征和当前输入特征,进而学习调整特征权重,使输出的特征有更强的区分度。具体过程如下:

      (1)首先,BiGRU输出隐藏层向量${{{x}}_{{{i}},{{c}}}}$,并将其作为注意力模块的输入。通过由注意力机制随机初始化得到的概率权重${{{w}}^T}$${{{x}}_{{{i}},{{c}}}}$的乘积经过Softmax 函数计算得到注意力参数矩阵${{W}}_{{{i}},{{c}}}$

      (2)其次,利用残差学习的方式,将主干特征图与注意力特征图相乘,再进行规范化,从而得到注意力层的输出。最终可以让网络集中在需要注意的特征上,抑制不需要的特征。如式(10)和式(11)所示:

      $${{{y}}_{{{i}},{{c}}}}(x) = (1 + {{{W}}_{{{i}},{{c}}}}(x)) * {f_{i,c}}(x),$$ (10)
      $${f_{i,c}}(x) = \frac{1}{{1 + \exp \left( { - \dfrac{{{{{x}}_{{{i}},{{c}}}} - mea{n_c}}}{{st{d_c}}}} \right)}},$$ (11)

      其中,${{{y}}_{{{i}},{{c}}}}$为注意力模块的输出,${f_{i,c}}$为图片特征张量在通道域上的平均值的激活函数,$mea{n_c}$为均值,$st{d_c}$为标准差。

    • 本文采用中国科学院在2019年公布的Security Inspection X-ray (SIXray)数据集[23],它包含100万余幅来自于真实场景的X光安检图像,其中正类样本少于1%,如表 1所示。

      表 1  SIXray数据集样本分布

      Table 1.  Sample distribution in SIXray dataset

      正类样本 (8929)负类样本
      枪支刀具扳手钳子剪子
      31311943219939619831050302

      其中一个正类样本中可能包含多种危险品(例如:枪支、刀具以及剪子)。SIXray数据集中的样本为不同材质的物品分配了不同的颜色,物品的尺度、视角、样式也存在较大差异,并且危险品一般都与其他安全品交叠,如图 4所示。

      图  4  SIXray 数据集

      Figure 4.  SIXRay dataset

    • 为了更好地评估类别不平衡对实验的影响,本文通过整体分类准确率(ACC),接受者操作特征曲线下方面积(AUC)两个指标评估本文方法性能。

      为计算ACC定义4种情况:TP(True Positives)、FN(False Negatives)、FP(False Positives)、TN(True Negatives),对于正类样本,如果预测结果中包含危险品标记,则将其定义为TP,否则定义为FP,对于负类样本,如果预测结果中包含危险品标记,则将其定义为FN,否则定义为TN。

      ACC和PRE的定义如下:

      $$ACC = \dfrac{{TP + TN}}{{TP + FN + FP + TN}},$$ (12)
      $$PRE = \frac{{TP}}{{TP + FP}}.$$ (13)

      AUC定义为ROC曲线下与坐标轴围成的面积,其中ROC是由TP、FN、FP、TN计算得到的曲线。AUC的值越大,代表分类器性能越好。

    • 本文实验均在Windows操作系统下实现,采用python语言和Keras库编码,NVIDIA RTX2070显卡GPU加速,CPU为32GB Intel® Core™ i7-9750H CPU @ 2.60 GHz。实验采用SIXRay数据集中的子集SIXRay10,其中包含8929个正类样本,10倍的负类样本,经数据增强后,将总样本数扩充为102331个。其中训练集为图像总数的80%,测试集为图像总数的20%。

      经过数据增强前后的每类危险品正负样本数及不平衡率对比如表2所示。由表2可知,经过数据增强后,各类危险品的类别不平衡比率均有所减少。

      表 2  不同类别数据增强前后对比结果

      Table 2.  Comparison results of different types of data before and after data augmentation

      种类增强前后负类样本数正类样本数不平衡比率
      枪支增强前72255270526.27
      增强后89672126597.08
      刀具增强前73212174841.88
      增强后93723860810.89
      扳手增强前72948201236.26
      增强后9238099519.28
      钳子增强前71524343620.82
      增强后85574167575.10
      剪子增强前7415380791.89
      增强后99760257138.80

      每幅图像输入尺寸为224×224,并归一化至(−1,1),选择Adam作为梯度优化算法。训练的学习率为10−4,且每5个epoch后,学习率衰减为原来1/4,共计进行40,000次迭代。

      在八度卷积部分,首先设置α=0.2,随机选择20%的输入特征图,并对其进行平均池化操作,输出特征图大小为112×112,其余特征图保持原尺寸224×224;然后设置α=0.5,重复上述操作。连接相同尺寸的特征图,最后将生成的224×224大小的特征图输入到全连接层。

      为验证本文分类算法的有效性,实验对比了目前的主流分类模型,包括InceptionV3[24]、VGG19[25]、ResNet[26]、DenseNet[27]、STN-DenseNet[28]。为了验证八度卷积对模型的贡献,对比了BiGRU和CNN-ABiGRU。

      表3表4分别给出以上8种方法对5种危险品分类得到的ACC、AUC结果,可知OctConv-ABiGRU模型的平均ACC和平均AUC均为最优,分别达到98.73%和91.39%。尤其对扳手、钳子、剪子的分类效果提升明显,与CNN-ABiGRU相比,AUC分别提高了5.62%、6.06%、7.28%。标准的基线模型,更关注枪支的分类效果,而牺牲了其他类别物品判断的正确率。而本模型利用注意力机制将特征图通道和数据集中的类别相对应,意味着不同的特征图通道能够注意不同的类别,从而使各个类别的分类准确率相对均衡。

      表 3  不同模型的ACC (%)比较

      Table 3.  Comparison of ACC (%) for different network modules

      方法枪支刀具扳手钳子剪子平均
      InceptionV394.6387.5288.9780.5096.9589.71
      VGG1997.8898.3697.4896.0397.3397.42
      ResNet98.3699.2098.1696.1097.8097.92
      DenseNet98.6999.2598.1896.1697.6597.99
      STN-DenseNet99.1598.7397.5296.3298.4698.03
      OnlyBiGRU98.7799.4097.7394.3799.1497.88
      CNN-ABiGRU98.8999.4298.8997.0798.9698.65
      OctConv-ABiGRU98.6099.2599.1097.5099.2098.73

      表 4  不同模型的AUC比较

      Table 4.  Comparison of AUC (%) for different network modules

      方法枪支刀具扳手钳子剪子平均
      InceptionV363.3454.5751.3352.9250.7454.57
      VGG1993.3489.0377.4976.5771.0881.50
      ResNet94.0688.6876.0073.9260.4578.64
      DenseNet93.9190.3772.5974.6561.0878.52
      STN-DenseNet95.6993.5875.6076.9865.0981.39
      OnlyBiGRU92.7393.9068.0373.3389.4283.48
      CNN-ABiGRU93.9693.9482.2280.0987.9987.65
      OctConv-ABiGRU91.5394.5987.8486.1596.7091.39

      此外,本文还比较了DenseNet、VGG19、CNN-ABiGRU、OctConv-BiGRU的参数数量、检测时间和PRE,如表5表6所示。由表5表6可知本模型虽然网络结构较复杂,但是通过降低低频特征的分辨率,降低了计算成本,并且PRE大幅提升。检测时间较DenseNet增加了11.89 s,平均PRE提高了22.51%;检测时间较VGG19、CNN-ABiGRU分别减少了4.76 s、38.34 s,平均PRE分别提高了19.12%和10.18%。对于扳手,OctConv-ABiGRU的PRE达到77.44%,相比DenseNet、VGG19、CNN-ABiGRU分别提高了26.19%、20.80%、14.44%;对于钳子,OctConv-ABiGRU的PRE达到76.22%,相比DenseNet、VGG19、CNN-ABiGRU分别提高了21.72%、21.02%、15.02%。

      表 5  不同网络用时比较

      Table 5.  Comparison of detection time for different network modules

      方法参数量(百万)模型大小(MB)检测时间(s)
      VGG1945.1234441.56
      DenseNet57.2243724.91
      CNN-ABiGRU14.4210875.14
      OctConv-ABiGRU121.47138236.80

      表 6  不同方法的分类精度比较

      Table 6.  Companson of PRE (%) for different network modules

      方法枪支刀具扳手钳子剪子平均
      VGG1987.2086.4056.6055.2046.2066.32
      DenseNet88.2082.1851.2554.5038.5062.93
      CNN-ABiGRU88.5087.2063.0061.2076.4075.26
      OctConv-ABiGRU86.7892.2277.4476.2294.5685.44
    • 为了提高X光安检图像的分类性能,本文提出八度卷积结合注意力机制双向GRU的算法,并对比分析了对于多种不同网络模型危险品的分类性能。对于SIXRay数据集,本文算法的平均ACC、平均AUC和平均PRE分别达到了98.73%、91.39%和85.44%。实验结果表明,本文模型能够加快学习速度,特定情况下减少了检测时间,提高了危险品分类准确率。未来工作着重对分类算法中加入集成学习,以进一步减少数据不平衡性对分类模型产生的影响。

参考文献 (28)

目录

    /

    返回文章
    返回