留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于卷积神经网络的候选区域优化算法

王春哲 安军社 姜秀杰 邢笑雪

王春哲, 安军社, 姜秀杰, 邢笑雪. 基于卷积神经网络的候选区域优化算法[J]. 中国光学, 2019, 12(6): 1348-1361. doi: 10.3788/CO.20191206.1348
引用本文: 王春哲, 安军社, 姜秀杰, 邢笑雪. 基于卷积神经网络的候选区域优化算法[J]. 中国光学, 2019, 12(6): 1348-1361. doi: 10.3788/CO.20191206.1348
WANG Chun-zhe, AN Jun-she, JIANG Xiu-jie, XING Xiao-xue. Region proposal optimization algorithm based on convolutional neural networks[J]. Chinese Optics, 2019, 12(6): 1348-1361. doi: 10.3788/CO.20191206.1348
Citation: WANG Chun-zhe, AN Jun-she, JIANG Xiu-jie, XING Xiao-xue. Region proposal optimization algorithm based on convolutional neural networks[J]. Chinese Optics, 2019, 12(6): 1348-1361. doi: 10.3788/CO.20191206.1348

基于卷积神经网络的候选区域优化算法

doi: 10.3788/CO.20191206.1348
基金项目: 

国家自然科学基金 61805021

详细信息
    作者简介:

    王春哲(1989—), 男, 吉林松原人, 博士研究生, 2012年于长春大学获得学士学位, 2015年于长春理工大学获得硕士学位, 主要从事深度学习及目标检测方面的研究。E-mail:wangchunzhe163@sina.com

    安军社(1969—), 男, 陕西渭南人, 博士, 研究员, 1992年于北京航空航天大学获得学士学位, 1995年于北京科技大学获得硕士学位, 2004年于西北工业大学获得博士学位, 现为中国科学院国家空间科学中心研究员, 主要从事空间飞行器综合电子系统及深度学习方面的研究。E-mail:anjunshe@nssc.ac.cn

  • 中图分类号: TP394.1

Region proposal optimization algorithm based on convolutional neural networks

Funds: 

National Natural Science Foundation of China 61805021

More Information
  • 摘要: 在目标检测中,通常使用候选区域提高目标的检测效率。为解决当前候选区域质量较低的问题,本文将卷积边缘特征、显著性及目标位置信息引入到候选区域算法中。首先,利用卷积神经网络将待检测图像生成更富有语义信息的边缘特征,并通过边缘点聚合及边缘组相似性策略,获取每个滑动窗口的边缘信息得分;其次,利用显著性目标的局部特征,统计每个滑动窗口中的目标显著性得分;第三,根据目标可能出现的位置,计算每个滑动窗口中的目标位置信息得分;最后,利用边缘信息、显著性及位置信息的分数确定候选区域。在PASCAL VOC 2007验证集上进行实验,给定10 000个候选区域,交并比取0.7时,所提算法的召回率为90.50%,较Edge Boxes算法提高了3%。每张图像的运行时间大约为0.76 s。结果表明,本文算法可快速产生较高质量的候选区域。
  • 图  1  所提算法实现框图

    Figure  1.  Block diagram of the proposed algorithm

    图  2  RCF结构

    Figure  2.  The structure of RCF

    图  3  给定一张图像X

    Figure  3.  An given image X

    图  4  X的边缘特征图

    Figure  4.  Edge feature maps of X

    图  5  图像块的卡方距离

    Figure  5.  The chi-square distance of image patches

    图  6  选取S图像块的策略

    Figure  6.  Selection strategy of S image patch

    图  7  目标位置与目标数目关系。(a)VOC 2007数据集;(b)VOC 2012数据集

    Figure  7.  Relationship between the object′s location and object′s number. (a) VOC 2007 dataset; (b) VOC 2012 dataset

    图  8  参数αβ与召回率的关系

    Figure  8.  Relationship of the parameters α, β and recall

    图  9  参数w与召回率的关系

    Figure  9.  Relationship of the parameter w and recall

    图  10  不同候选框数下召回率与交并比之间的关系

    Figure  10.  Relationship between recall and IoU at different number of proposals

    图  11  不同交并比的候选框数与召回率的关系

    Figure  11.  Recall versus number of proposals at different IoUs

    图  12  13种算法不同位置目标的召回率与交并比的关系

    Figure  12.  Recall vs IoU curves of objects at different locations by 13 kinds of algorithms

    图  13  不同交并比下候选框数与召回率的关系

    Figure  13.  Recall versus number of proposals at different IoUs

    图  14  本文算法在PASCAL VOC 2007测试集的召回率

    Figure  14.  Recall on the PASCAL VOC 2007 test set for proposed algorithm in this paper

    图  15  不同宽高比时测试集及验证集上的召回率

    Figure  15.  The recalls at different aspect ratios of test set and validation set

    图  16  所提算法对部分目标的检测结果

    Figure  16.  Object detection results of some objects detected by proposed algorithm

    图  17  漏检目标的尺寸与漏检目标数目间的关系

    Figure  17.  The relation of the size of undetected objects and the number of undetected objects

    表  1  边缘组算法描述

    Table  1.   The description of edge group algorithm

    下载: 导出CSV

    表  2  精调滑动窗口策略

    Table  2.   The strategy of refining sliding windows

    下载: 导出CSV

    表  3  VOC 2007数据集特性

    Table  3.   The properties of VOC 2007 dataset

    数据集 训练集 验证集 测试集
    图像数 2 501 2 510 4 952
    目标数 6 301 6 307 12 032
    下载: 导出CSV

    表  4  交并比为0.7时13种算法的实验结果

    Table  4.   The experiment results of 13 kinds of algorithms with IoU of 0.7

    Algorithms AUC 45% 60% 75% R1000 R2000 R10000 mAP t/s
    Object-ness 0.27 -- -- -- 37.68% 37.89% 37.93% 51.4 3
    BING 0.20 -- -- -- 27.04% 27.39% 28.14% 49.0 0.2
    CPMC 0.41 86 475 -- 62.58% 62.59% 62.60% 57.1 250
    SS 0.40 171 530 1 812 68.13% 76.13% 89.12% 59.5 10
    EB 0.46 77 234 804 77.39% 83.25% 87.19% 60.4 0.25
    Rantalankila 0.23 489 1 712 -- 55.79% 61.21% 68.94% 57.9 10
    Rand. Prim′s 0.35 274 950 4 095 60.61% 68.52% 79.33% 57.6 1
    MCG 0.48 60 240 1 116 74.14% 79.58% 80.53% 60.3 30
    Endres 0.44 75 432 -- 63.93% 64.69% 64.88% 57.4 100
    Geodesic 0.35 266 630 2 491 66.45% 73.65% 81.05% 57.5 1
    Rigor 0.30 600 997 1 948 60.08% 75.59% 75.77% 58.4 10
    Improved EdgeBoxes 0.46 80 265 802 77.50% 84.15% 89.25% 60.8 0.43
    本文算法 0.47 103 276 799 77.87% 84.73% 90.50% 61.3 0.764 9
    下载: 导出CSV
  • [1] 梁华, 宋玉龙, 钱锋, 等.基于深度学习的航空对地小目标检测[J].液晶与显示, 2018, 33(9):793-800. http://d.old.wanfangdata.com.cn/Periodical/yjyxs201809011

    LIANG H, SONG Y L, QIAN F, et al.. Detection of small target in aerial photography based on deep learning[J]. Chinese Journal of Liquid Crystals and Displays, 2018, 33(9):793-800.(in Chinese) http://d.old.wanfangdata.com.cn/Periodical/yjyxs201809011
    [2] 李艳荻, 徐熙平.基于超像素时空特征的视频显著性检测方法[J].光学学报, 2019, 39(1):1-8. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=gxxb201901025

    LI Y D, X X P. Video saliency detection method based on spatiotemporal features of superpixels[J]. Acta Optica Sinica, 2019, 39(01):1-8.(in Chinese) http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=gxxb201901025
    [3] FATTAL A, KARG M, SCHARFENBERGER C, et al.. Saliency-guided region proposal network for CNN based object detection[C]. IEEE Conference on Intelligent Transportation Systems, Yokohama, Japan.2017: 1-8.
    [4] UIJLINGS J, K VAN DE SANDE, GEVERS T, et al.. Selective search for object recognition[J]. International Journal of Computer Vision, 2013, 104(2):154-171. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=3216de1927eb16418ad3bdf8d4bcd8bd
    [5] ALEXE B, DESELAERS T, FERRARI V. Measuring the objectness of image windows[J]. IEEE Transactions on Software Engineering, 2012, 34(11):2189-2202. http://d.old.wanfangdata.com.cn/Periodical/kzyjc201605006
    [6] CHENG M M, LIU Y, LIN W Y, et al.. BING: Binarized Normed Gradients for Objectness Estimation at 300fps[C]. 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA.2014(1): 3286-3293.
    [7] ZITNICK C L, DOLLAR P. Edge boxes: locating object proposals from edges[C]. Proceedings of 13th European Conference on Computer Vision. Zurich, Switzerland, 2014, 8689: 391-405.
    [8] JIANG S, LIANG S, CHEN C, et al.. Class agnostic image common object detection[J]. EEE Transactions on Image Processing, 2019, 28(6):2836-2846.
    [9] HE K M, GEORGIA G, PIOTR D, et al.. Mask R-CNN[C]. 2017 IEEE International Conference on Computer Vision, Venice, Italy. 2017, (1): 2980-2988.
    [10] 丁鹏, 张叶, 贾平, 等.基于视觉显著性的海面舰船检测技术[J].电子学报, 2018, 46(1):127-134. http://d.old.wanfangdata.com.cn/Periodical/dianzixb201801018

    DING P, ZHANG Y, JIA P, et al.. Ship detection on sea surface based on visual saliency[J]. Acta Electronica Sinica, 2018, 46(1):127-134.(in Chinese) http://d.old.wanfangdata.com.cn/Periodical/dianzixb201801018
    [11] 李宇, 刘雪莹, 张洪群, 等.基于卷积神经网络的光学遥感图像检索[J].光学 精密工程, 2018, 26(1):200-207. http://d.old.wanfangdata.com.cn/Periodical/gxjmgc201801024

    LI Y, LIU X Y, ZHANG H Q, et al.. Optical remote sensing image retrieval based on convolutional neural networks[J]. Opt. Precision Eng., 2018, 26(1):200-207.(in Chinese) http://d.old.wanfangdata.com.cn/Periodical/gxjmgc201801024
    [12] LIU Y, CHENG M M, HU X W, et al. Richer convolutional features for edge detection[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition.Honolulu, Hawaii, USA.2017, (1): 5872-5881.
    [13] ISHIKURA K, KURITA N, CHANDLER D M, et al.. Saliency detection based on multiscale extrema of local perceptual color differences[J]. IEEE Transactions on Image Processing, 2018, 27(2):703-717.
    [14] KUANG P J, ZHOU Z H, WU D C. Improved edge boxes with object saliency and location awards[J]. IEICT Transactions on Information and Systems, 2016, E99D(2):488-495. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=J-STAGE_2188038
    [15] CARREIRA J, SMINCHISESCU C. CPMC:automatic object segmentation using constrained parametric min-cuts[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(7):1312-1328. http://d.old.wanfangdata.com.cn/Periodical/xlyj200906002
    [16] 邝沛江.基于改进Edge Boxes的物体检测算法的研究[D].广州: 华南理工大学, 2017

    KUANG P J. Research on algorithm in object detection based on improved edge boxes[D]. Guangzhou: South China University of Technology, 2017.(in Chinese)
    [17] MANEN S, GUILLAUMIN M, VAN GOOL L. Prime object proposals with randomized prim's algorithm[C]. Proceedings of the 2013 IEEE International Conference on Computer Vision. Sydney, NSW, Australia. 2013: 2536-2543.
    [18] RANTALANKILA P, KANNALA J, RAHTU E. Generating object segmentation proposals using global and local search[C]. 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA.2014: 2417-2424.
    [19] PONT-TUSET J, ARBELAEZ P, BARRON J T, et al.. Multiscale combinatorial grouping for image segmentation and object proposal generation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(1):128-140. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=303f23167a0a55805d66a6d951514dca
    [20] ENDRES I, HOIEM D. Category-independent object proposals with diverse ranking[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(2):222-234. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=004584be68a696c66a884743028962f0
    [21] PHILIPP KRAHENBUHL, KOLTUN V. Geodesic object proposals[C]. 2014 European Conference on Computer Vision. Zurich, Switzerland, 2014: 725-739.
    [22] HUMAYUN A, LI F, REHG J M. Rigor: recycling inference in graph cuts for generating object regions[C]. 2014 IEEE Conference on Computer Vision and Pattern Recognition, Columbus, OH, USA. 2014: 2417-2424.
    [23] DANELLJAN M, HÄGER G, KHAN F S, et al.. Convolutional features for correlation filter based visual tracking[C]. IEEE International Conference on Computer Vision Workshop, Santiago, Chile. 2015: 621-629.
    [24] HOSANG J, BENENSON R, DOLLÁR P, et al.. What makes for effective detection proposals[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38(4):814-830. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=14eeeed4ff44e76fe35c0417c1062ae5
  • [1] 姜涛, 张桂林, 高俊鹏.  面向机器视觉检测的缸体横孔照明 . 中国光学, 2020, 13(6): 1-8. doi: 10.37188/CO.2020-0054
    [2] 张石磊, 崔宇, 邢慕增, 闫斌斌.  光场成像目标测距技术 . 中国光学, 2020, 13(6): 1-11. doi: 10.37188/CO.2020-0043
    [3] 黄乐弘, 曹立华, 李宁, 李毅.  深度学习的空间红外弱小目标状态感知方法 . 中国光学, 2020, 13(3): 527-536. doi: 10.3788/CO.2019-0120
    [4] 陈晓冬, 艾大航, 张佳琛, 蔡怀宇, 崔克让.  Gabor滤波融合卷积神经网络的路面裂缝检测方法 . 中国光学, 2020, 13(6): 1-9. doi: 10.37188/CO.2020-0041
    [5] 张瑞琰, 姜秀杰, 安军社, 崔天舒.  面向光学遥感目标的全局上下文检测模型设计 . 中国光学, 2020, 13(6): 1-12. doi: 10.37188/CO.2020-0057
    [6] 吴言枫, 王延杰, 孙海江, 刘培勋.  复杂动背景下的“低小慢”目标检测技术 . 中国光学, 2019, 12(4): 853-865. doi: 10.3788/CO.20191204.0853
    [7] 骞微著, 杨立保.  基于小波神经网络的光纤陀螺误差补偿方法 . 中国光学, 2018, 11(6): 1024-1031. doi: 10.3788/CO.20181106.1024
    [8] 谭翠媚, 许廷发, 马旭, 张宇寒, 王茜, 闫歌.  图-谱结合的压缩感知高光谱视频图像复原 . 中国光学, 2018, 11(6): 949-957. doi: 10.3788/CO.20181106.0949
    [9] 成培瑞, 王建立, 王斌, 李正炜, 吴元昊.  基于多尺度区域对比的显著目标识别 . 中国光学, 2016, 9(1): 97-105. doi: 10.3788/CO.20160901.0097
    [10] 孙辉, 李志强, 张建华, 韩松伟, 宋玉龙.  机载光电平台目标交会定位 . 中国光学, 2015, 8(6): 988-996. doi: 10.3788/CO.20150806.0988
    [11] 柯洪昌, 孙宏彬.  图像序列的显著性目标区域检测方法 . 中国光学, 2015, 8(5): 768-774. doi: 10.3788/CO.20150805.0768
    [12] 高文, 朱明, 贺柏根, 吴笑天.  目标跟踪技术综述 . 中国光学, 2014, 7(3): 365-375. doi: 10.3788/CO.20140703.0365
    [13] 赵阳, 巩岩.  投影物镜小比率模型的计算机辅助装调 . 中国光学, 2012, 5(4): 394-400. doi: 10.3788/CO.20120504.0394
    [14] 陈兆兵, 郭劲, 林森.  有限元-边界法在光电目标散射计算中的应用 . 中国光学, 2011, 4(2): 169-174.
    [15] 朱时雨, 张新, 李威.  计算机辅助装调与传统基准传递技术相结合实现三镜消像散系统的装调 . 中国光学, 2011, 4(6): 571-575.
    [16] 刘伟宁.  基于小波域扩散滤波的弱小目标检测 . 中国光学, 2011, 4(5): 503-508.
    [17] 董宇星, 刘伟宁.  基于灰度特性的海天背景小目标检测 . 中国光学, 2010, 3(3): 252-256.
    [18] 罗刚, 张云峰.  应用角点匹配实现目标跟踪 . 中国光学, 2009, 2(6): 477-481.
    [19] 薛陈, 朱明, 刘春香.  遮挡情况下目标跟踪算法综述 . 中国光学, 2009, 2(5): 388-394.
    [20] 续志军, 洪喜, 于欣.  利用神经网络提高编码器精度的方法 . 中国光学, 2008, 1(1): 62-65.
  • 加载中
图(17) / 表 (4)
计量
  • 文章访问数:  411
  • HTML全文浏览量:  107
  • PDF下载量:  4
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-05-28
  • 修回日期:  2019-06-14
  • 刊出日期:  2019-12-01

基于卷积神经网络的候选区域优化算法

doi: 10.3788/CO.20191206.1348
    基金项目:

    国家自然科学基金 61805021

    作者简介:

    王春哲(1989—), 男, 吉林松原人, 博士研究生, 2012年于长春大学获得学士学位, 2015年于长春理工大学获得硕士学位, 主要从事深度学习及目标检测方面的研究。E-mail:wangchunzhe163@sina.com

    安军社(1969—), 男, 陕西渭南人, 博士, 研究员, 1992年于北京航空航天大学获得学士学位, 1995年于北京科技大学获得硕士学位, 2004年于西北工业大学获得博士学位, 现为中国科学院国家空间科学中心研究员, 主要从事空间飞行器综合电子系统及深度学习方面的研究。E-mail:anjunshe@nssc.ac.cn

  • 中图分类号: TP394.1

摘要: 在目标检测中,通常使用候选区域提高目标的检测效率。为解决当前候选区域质量较低的问题,本文将卷积边缘特征、显著性及目标位置信息引入到候选区域算法中。首先,利用卷积神经网络将待检测图像生成更富有语义信息的边缘特征,并通过边缘点聚合及边缘组相似性策略,获取每个滑动窗口的边缘信息得分;其次,利用显著性目标的局部特征,统计每个滑动窗口中的目标显著性得分;第三,根据目标可能出现的位置,计算每个滑动窗口中的目标位置信息得分;最后,利用边缘信息、显著性及位置信息的分数确定候选区域。在PASCAL VOC 2007验证集上进行实验,给定10 000个候选区域,交并比取0.7时,所提算法的召回率为90.50%,较Edge Boxes算法提高了3%。每张图像的运行时间大约为0.76 s。结果表明,本文算法可快速产生较高质量的候选区域。

English Abstract

王春哲, 安军社, 姜秀杰, 邢笑雪. 基于卷积神经网络的候选区域优化算法[J]. 中国光学, 2019, 12(6): 1348-1361. doi: 10.3788/CO.20191206.1348
引用本文: 王春哲, 安军社, 姜秀杰, 邢笑雪. 基于卷积神经网络的候选区域优化算法[J]. 中国光学, 2019, 12(6): 1348-1361. doi: 10.3788/CO.20191206.1348
WANG Chun-zhe, AN Jun-she, JIANG Xiu-jie, XING Xiao-xue. Region proposal optimization algorithm based on convolutional neural networks[J]. Chinese Optics, 2019, 12(6): 1348-1361. doi: 10.3788/CO.20191206.1348
Citation: WANG Chun-zhe, AN Jun-she, JIANG Xiu-jie, XING Xiao-xue. Region proposal optimization algorithm based on convolutional neural networks[J]. Chinese Optics, 2019, 12(6): 1348-1361. doi: 10.3788/CO.20191206.1348
    • 在计算机视觉中,目标检测在人脸识别与目标跟踪等方面有着广泛的应用[1-2]。目标检测是确定图像中是否含有目标及目标所在图像中的位置。在过去几十年中,解决该问题的主要方法是采用滑动窗口范式,具体为:在该范式下,使用一个高效的分类器判断密集采样的滑动窗口中是否存在目标。然而,该类方法计算量巨大,仅在单尺度下,每张图像就需处理104~105个滑动窗口,而且现在的数据集还要求预测目标的宽高比,极大地增加了检测算法的复杂度。最近,学者们提出基于候选区域(Region Proposals,RP)的检测框架,该检测框架可有效提高目标的检测效率,其主要思想是在图像上生成少量更可能包含目标的候选区域,并对该候选区域进行后续的识别与定位[3]

      生成候选区域的主要准则有[3]:分组提案(Grouping Proposals,GP)准则及窗口评分(Window Scoring Proposals,WSP)准则。GP准则试图生成可能包含目标的分割段,并利用颜色、形状等线索合并分割段来生成候选区域,其代表性算法是选择性搜索算法(Selective Search,SS)[4]。WSP准则是对滑动窗口中出现目标的可能性进行评分,并根据评分高低筛选候选区域,该准则主要有Object-ness[5],BING[6]以及Edge Boxes(EB)[7]

      EB通过统计滑动窗口中出现目标边缘信息的多少来生成目标的候选区域。但由于EB方法使用传统边缘检测算子生成边缘特征,不能准确地描述目标,因此具有一定局限性。近几年,卷积神经网络(Convolutional Neural Network,CNN)在目标分割、识别与检测等领域中表现出色[8-11]。由于目标边界通常含有较多的语义信息[12],使用CNN可以生成更富有语义信息的边缘特征,有助于提高目标候选区域的质量。

      目标显著性是在图像的多尺度及不同宽高比下统计图像的颜色、纹理及形状信息,从而将目标从背景中区分出来[13-14]。目标的空间位置信息是衡量目标属性的重要指标,自然图像中,目标多出现在图像的中间或邻近中间位置,若将目标显著性及位置信息引入到候选区域算法中,可有效提高目标候选区域的召回率。

      本文从卷积边缘特征、目标显著性及目标的空间位置,3个方面来研究目标的候选区域算法。使用深度神经网络生成更能表达目标边界的卷积边缘特征,并统计每个滑动窗口中含有的目标边缘信息量、显著性特征及目标的空间位置信息,筛选滑动窗口。

    • 本文所述候选区域算法主要包括:(1)边缘信息得分;(2)目标的显著性得分;(3)位置信息得分;(4)筛选滑动窗口。首先,使用RCF(Richer Convolutional Features)网络生成富有语义信息的卷积边缘特征图;然后,在整张图像上无重叠采样若干图像块,并使用周边延拓像素、颜色直方图的卡方距离(Chi-square distance)等策略,统计每个滑动窗口的平均显著性得分;第三,为每个滑动窗口构建位置信息得分模型;最后,根据每个滑动窗口的边缘信息得分、显著性得分及位置信息得分,筛选滑动窗口,算法结构如图 1所示。

      图  1  所提算法实现框图

      Figure 1.  Block diagram of the proposed algorithm

    • RCF网络源于VGG-16,由13个3×3的卷积层、13个1×1的卷积层、eltwise层、deconv层和cross-entropy层组成[12],其结构如图 2所示。给定一张图像X,见图 3,使用RCF网络生成边缘特征图,见图 4。RCF网络分为单尺度和多尺度两种版本。由于多尺度较单尺度的精度F-measure仅提高了0.005,对提取候选框的质量改善效果较小,但算法运算时间却增加了约3倍,综合考虑,本文采用单尺度RCF网络。

      图  2  RCF结构

      Figure 2.  The structure of RCF

      图  3  给定一张图像X

      Figure 3.  An given image X

      图  4  X的边缘特征图

      Figure 4.  Edge feature maps of X

      鉴于EB的思想,首先将上具有一定相似性的边缘点聚合为边缘组s表 1描述了生成一个边缘组s的算法。对于边缘组s的可视化结果,学者Zitnick已经给出说明,详细参见文献[7]。

      表 1  边缘组算法描述

      Table 1.  The description of edge group algorithm

      对于一个边缘组s中的任意边缘点p,其边缘强度为mp、边缘方向角为θp及边缘点位置为(xp, yp),则边缘组s的位置(xs, ys)可定义为:

      (3)

      其中,P为边缘组s中所有边缘点集合。边缘组s的方向角θs可表示为:

      (4)

      在边缘组集合T中任意取两个边缘组titj,则两边缘组之间的相似度为:

      (5)

      其中,θiθj分别为titj的方向角;θijtitj重心连线间的方向角;γ用于调整方向角变化对相似度的敏感性[7],根据EB算法取值策略,取γ=2。

      对于任意边缘组tk及滑动窗口b,使用权重wb(tk)∈[0, 1]表达滑动窗口b包含边缘组tk的程度。若wb(tk)=1,则表示tkb完全包围;若tk在滑动窗口b外部,则wb(tk)=0[7]。令Tb为与滑动窗口b边界相交的所有边缘组的集合,对于tiTb,则有wb(ti)=0;设边缘组ti中的任意边缘点的位置为,若,则wb(ti)=0;若,则权重wb(ti):

      (6)

      其中,E表示由e1=tjTbe|E|=ti的路径。用于表示在滑动窗口b的边缘组集合Tb中寻找与ti最相似的边缘组,由此可知,边缘组ti被滑动窗口b所包含的程度为。根据每个边缘组的权重,计算每个滑动窗口的边缘信息得分:

      (7)

      其中,mi表示第i个边缘组强度;bhbw为滑动窗口b的高和长;ε为调节hb对滑动窗口大小的敏感度[7],鉴于EB算法,本文取ε=1.5。

    • 在文献[14]中,作者认为目标的颜色变化比背景的颜色变化丰富,因此作者将图像无重叠地分成若干图像块,并将图像块的6个通道R、G、B、L、a、b作为颜色向量,使用随机森林等训练策略确定滑动窗口的显著性得分。这种处理对算法性能有所改善,但有两点不足:第一,众所周知,语义信息对后续的目标检测很重要,但作者在文献[14]中使用传统的边缘检测算子生成边缘特征,不能很好地描述图像的语义信息,这就要求采用更复杂的分类器对后续目标进行识别,从而增加了检测阶段算法的复杂度;第二,需要对若干图像块的颜色特征进行单独的预先训练,而训练后的参数可能受不同数据库内容的影响,从而增加了算法的运算时间。

      针对上述两点不足,本文使用目标颜色的局部特征改进算法。目标显著性指出,目标与周围背景之间的颜色差异较大[13]。对于紧紧包含目标的矩形框bxc,通过将矩形框bxc向周边扩展像素,获得背景矩形框bxs(bxcbxs);对于不包含目标的矩形框bxr,按照相同策略获取相应的背景矩形框bxm(bxrbxm),则颜色直方图的卡方距离关系有:ds{bxc, bxs}>ds{bxr, bxm},如图 5所示。将矩形框bxcbxr称为中心图像块,简记为C图像块;背景矩形框bxsbxm称为背景图像块,简记为S图像块。

      图  5  图像块的卡方距离

      Figure 5.  The chi-square distance of image patches

      在尺寸为M×N的彩色图像X上无重叠采样,采样窗口为w×w,因此,共采样Ng=(M/w)×(N/w)个彩色图像块。每个彩色图像块Xci(i=1, …, Ng)有3个通道,分别记作Xci(R)、Xci(G)、Xci(B)。

      为计算显著性得分,需将每个图像块Xci按照一定的策略向四周延拓像素,形成S图像块,记作Xsi(i=1, …, Ng)。S图像块的选取策略如图 6所示。对位于X边缘上的图像块Xci,仅向含有像素的方向延拓2×w个像素;对位于非边缘上的图像块Xci,则向四周分别延拓2×w个像素。为衡量图像块XciXsi间的颜色差异,分别计算Xci三通道的颜色直方图为hr, hg, hb以及Xsi三通道的颜色直方图为sr, sg, sb。每个通道颜色直方图的卡方距离分别为:

      (8)
      (9)
      (10)

      图  6  选取S图像块的策略

      Figure 6.  Selection strategy of S image patch

      其中,nbin为一常数,取值为256。图像块XciXsi的颜色直方图的卡方距离定义为:

      (11)

      使用b中所有图像块的卡方距离的平均值,作为滑动窗口b的显著性得分:

      (12)

      其中,χ2(Hcs(k))表示b中第k个图像块Xck的卡方距离,N表示b含有Xck的个数。

    • 为描述图像中目标的位置信息,图 7分别列出了PASCAL VOC 2007、VOC 2012数据集中目标位置与目标数目的关系。其中:横坐标为已标注目标的中心与图像中心归一化后的欧氏距离,纵坐标为目标数目。可以看到,目标主要分布在距图像中心[0, 0.5)范围内,此区域的目标约占70%,随着距离的增加,目标数逐渐减少。根据这一特性,将目标位置信息融入到候选区域算法中。

      图  7  目标位置与目标数目关系。(a)VOC 2007数据集;(b)VOC 2012数据集

      Figure 7.  Relationship between the object′s location and object′s number. (a) VOC 2007 dataset; (b) VOC 2012 dataset

      在文献[14]中,作者使用二维高斯分布函数对图像中的每个滑动窗口的空间位置进行建模。由于二维高斯分布函数 ,需要根据滑动窗口中所有像素点的位置计算二维方差矩阵Σ及其逆矩阵Σ-1,增加了算法的计算复杂度,对于尺寸较大的滑动窗口,计算量还将进一步提升。为解决此问题,本文仅使用滑动窗口的一对中心点(bmx, bmy),对每个滑动窗口进行位置信息建模。

      首先对每个滑动窗口进行位置信息建模,计算彩色图像X的中心位置坐标(Xmx, Xmy):

      (13)

      对于滑动窗口b,用四维向量(bx, by, bw, bh)表示,因此b的中心位置坐标(bmx, bmy):

      (14)

      其中,bxby表示滑动窗口b左上角的位置坐标,bwbh分别为滑动窗口的宽和高。则滑动窗口b的中心与彩色图像中心的欧氏距离为:

      (15)

      由于滑动窗口b的中心与图像X中心距离越大,则含有目标的概率越小。因此,本文选取一个单调递减函数作为该距离的权重,来表达该候选区域的位置信息得分:

      (16)

      其中,0<η<1,η值的大小(取0.5),表明L(b)对距离dst(b, X)的敏感程度。

    • 将计算的边缘信息得分、显著性得分及位置信息得分,分别赋予合适权重,作为滑动窗口b的最终得分:

      (17)

      其中,参数αβ用于调整sal(b)及L(b)两者在hbrev中的重要程度。根据该得分,精调滑动窗口b,可获得最终的候选区域,其精调策略如表 2所示。

      表 2  精调滑动窗口策略

      Table 2.  The strategy of refining sliding windows

    • 本文选取在候选区域算法中使用较广泛的数据集PASCAL VOC 2007进行实验。该数据集有训练集、验证集及测试集,共9 963张图像、24 640个目标。数据集的基本情况如表 3所示。

      表 3  VOC 2007数据集特性

      Table 3.  The properties of VOC 2007 dataset

      数据集 训练集 验证集 测试集
      图像数 2 501 2 510 4 952
      目标数 6 301 6 307 12 032

      本文采用召回率(recall)、AUC(Area Under Curve,AUC)值及达到某召回率时所需候选框数目作为评价算法性能的标准,具体见3.4节。

      召回率是描述候选区域为正样本的概率指标,公式为:

      (18)

      其中,nmb(·)表示含有·的数目;tp表示正样本,fn表示虚假负样本。为确定候选区域是否为正样本,需通过候选区域与标注区域的交并比(Intersection over Union,IoU)实现。在给定候选区域pbx及对应的标注框gbx情况下,其交并比可定义为:

      (19)

      若交并比IoU(pbx, gbx)大于设置的阈值thr(通常为0.5),则候选区域pbx为正样本。召回率越大,说明候选区域算法越好。AUC值是衡量候选区域算法性能的重要指标,其值越大,候选区域算法性能越好。

    • 为得到更加富有语义信息的边缘特征,本文选取ImageNet数据集VGG16的预先训练模型,并在BSD500的边缘检测数据集上训练RCF。在训练RCF网络时,选择均值为零、标准差为0.01的高斯分布的权重值,在偏置为零时进行参数初始化。每次选取10张图像,并使用随机梯度SGD算法优化参数。参数设置为:学习率为1×10-6、动量值为0.9、权重衰减为0.000 2,NVIDIA GeForce GTX 1080上共运行SGD 40k次。

    • 所提算法hb(rev)有3个参数,包括权值αβ,及窗口尺寸w。本文借鉴EB算法确定参数的策略,使用PASCAL VOC 2007的验证集数据确定参数,再采用测试集进行对比实验[7]。首先分析参数αβ与召回率之间的关系。固定窗口尺寸w,选取α={0, 0.000 1, 0.001, 0.01, 0.1, 1},β=0, 0.01, 0.05, 0.1, 0.5, 1,参数(α, β)与召回率之间的关系,如图 8所示。当α=0.000 1,β=0.1时,召回率达到峰值。当α=0或β=0,召回率没有取得峰值,这表明,目标的显著性及位置信息均能提高候选框的召回率。

      图  8  参数αβ与召回率的关系

      Figure 8.  Relationship of the parameters α, β and recall

      为确定合适的窗口尺寸w,固定参数αβ的最优值α=0.000 1和β=0.1,选取w分别为8, 16, 24, 32, 40, 48,w与召回率之间的关系如图 9所示。可见,当窗口尺寸w=16时,召回率为最大值。因此,本文最终选取的参数为α=0.000 1、β=0.1、w=16。

      图  9  参数w与召回率的关系

      Figure 9.  Relationship of the parameter w and recall

    • 为验证本文方法的有效性,选取SS[4]、Object-ness[5]、BING[6]、CPMC[15]、EB[7, 16]、Randomized Prim′s[17]、Rantalankila[18]、MCG[19]、Endres[20]、Geodesic[21]、Rigor[22-23]、Improved EdgeBoxes[14]共12种近年来主流算法,在PASCAL VOC2007测试集上进行对比实验。首先固定候选框的数目,研究13种算法在不同交并比IoU下的召回率,如图 10所示(彩图见期刊电子版)。

      图  10  不同候选框数下召回率与交并比之间的关系

      Figure 10.  Relationship between recall and IoU at different number of proposals

      图 10可知,实验中的算法可分为两类:一类是定位较好的算法,此类算法随着IoU的升高,召回率缓慢下降,如SS和EB算法;另一类是定位较差的算法,随着IoU的升高,召回率急速下降,如BING,Rantalankila算法。当候选框个数为100时,Improved EdgeBoxes性能略高于所提算法,但弱于CPMC、endres等算法,这表明在候选框较少的情况下,可优先考虑CPMC及endres算法;当候选区域数目为1 000时,MCG性能表现最好;当候选区域数目大于1 000,且IoU为0.5~0.7时,本文算法的召回率最高,这表明本文算法有效提高了候选区域的质量。

      评价候选区域算法性能的另一种方法是固定交并比IoU,研究不同候选区域数目下算法的召回率。图 11(彩图见期刊电子版)为指定交并比IoU,13种算法召回率随候选区域数目的变化示意图。从图 11可知,交并比IoU取为0.5及0.7时,随着候选框数目的增加,本文算法性能趋于最佳,有最高的召回率。图 11(c)展示了13种算法在不同交并比下的平均召回率。从图 11(c)可知,MCG、SS和本文算法的整体性能表现优越。

      图  11  不同交并比的候选框数与召回率的关系

      Figure 11.  Recall versus number of proposals at different IoUs

      平均召回率AR表示在不同交并比IoU下召回率的平均值,定义为:

      (20)

      为全面衡量所提算法性能,表 4列出了在PASCAL VOC 2007验证集下,当交并比IoU=0.7时,AUC值、运算时间及召回率分别达到45%、60%、75%时,所需候选框的数目。其中,除本文算法外,其他算法的结果来自参考文献[7][24]

      表 4  交并比为0.7时13种算法的实验结果

      Table 4.  The experiment results of 13 kinds of algorithms with IoU of 0.7

      Algorithms AUC 45% 60% 75% R1000 R2000 R10000 mAP t/s
      Object-ness 0.27 -- -- -- 37.68% 37.89% 37.93% 51.4 3
      BING 0.20 -- -- -- 27.04% 27.39% 28.14% 49.0 0.2
      CPMC 0.41 86 475 -- 62.58% 62.59% 62.60% 57.1 250
      SS 0.40 171 530 1 812 68.13% 76.13% 89.12% 59.5 10
      EB 0.46 77 234 804 77.39% 83.25% 87.19% 60.4 0.25
      Rantalankila 0.23 489 1 712 -- 55.79% 61.21% 68.94% 57.9 10
      Rand. Prim′s 0.35 274 950 4 095 60.61% 68.52% 79.33% 57.6 1
      MCG 0.48 60 240 1 116 74.14% 79.58% 80.53% 60.3 30
      Endres 0.44 75 432 -- 63.93% 64.69% 64.88% 57.4 100
      Geodesic 0.35 266 630 2 491 66.45% 73.65% 81.05% 57.5 1
      Rigor 0.30 600 997 1 948 60.08% 75.59% 75.77% 58.4 10
      Improved EdgeBoxes 0.46 80 265 802 77.50% 84.15% 89.25% 60.8 0.43
      本文算法 0.47 103 276 799 77.87% 84.73% 90.50% 61.3 0.764 9

      若在指定召回率下,所需候选框数目越少,表明该算法定位性能越好;另外,由于处理的候选框相对较少,也可为后续检测节约时间,从而极大地提高了检测效率。

      达到指定召回率时,所需最少候选框数目的确定规则如下:

      (1) 预先选取候选框的个数为cnts={1, 2, 5, 10, 100, 200, 500, 1 000, 2 000, 5 000, 10 000},然后计算各候选框数目下的召回率,为区分不同交并比下的召回率,此处,记作Rj(j=1, 2, …11);

      (2) 对给定的数据集合cnts中每个数据取对数ms=log(cnts),ms中共有11个值,每个值分别记为ms[i]

      (3) 当召回率RjRs时,候选区域最小数目的索引为:e=min{index{RjRs}},并令f=e-1;

      (4) 召回率达到Rs时,所需候选框的最小数目,即为:

      (21)

      根据上述的召回率值Rjms确定AUC值,其策略如下:

      (22)

      式(22)中,ms[end]表示集合ms的最后一个值。

      表 4中“--”表示无穷大。由表 4知,本文算法的AUC值达到了0.47,与MCG算法性能相当;性能达到75%时,仅需799个候选框,相比于MCG的1 116个、SS的1 812个候选区域,明显降低了候选框个数。

      表 4中,Rρ代表候选框数为ρ(1 000, 2 000, 10 000)时,各算法的召回率。可以知道,在不同候选框数目下,本文算法均有很好性能;当候选框数为10 000时,本文算法的召回率达到了90.50%,明显高于其他算法,同时较Improved EdgeBoxes提高了1.25%。

      本文在NVIDIA GeForce GTX 1080、CPU@4.20 GHz,32G RAM下,本文算法所用时间为0.764 9 s,以牺牲微小计算资源,提高了算法的召回率。精度mAP值是选取1 000个候选框,在Fast R-CNN(model M)的测试结果。由表 4可知,本文算法的精度较高。

    • 为证明所提算法对出现在图像中不同位置目标的性能,本文在PASCAL VOC 2007测试集中,选取已标注目标的中心与图像中心的归一化距离分别为[0, 0.5)、[0.5, 0.8)及[0.8, 1.0]的图像进行实验。归一化距离越大,则目标越靠近图像边缘;距离越小,目标越靠近图像中心。图 12(彩图见期刊电子版)列出了图像中不同区域的目标、候选框数目取10 000时,13种算法在不同交并比IoU下的召回率。可以看出,所提算法在距离图像中心为[0, 0.5)及[0.5, 0.8)上的目标性能优越,Improved EdgeBoxes与EB算法性能相当,低于所提算法的性能,在靠近边缘的目标,所提算法的性能接近SS算法。这表明,无论是在图像中心或图像边缘的目标,所提算法均有良好性能。

      图  12  13种算法不同位置目标的召回率与交并比的关系

      Figure 12.  Recall vs IoU curves of objects at different locations by 13 kinds of algorithms

      为进一步说明所提算法对图像边缘目标检测的性能,选取测试集中与图像中心的归一化距离为[0.8, 1.0]的图像,在不同交并比IoU下进行测试,其候选框数目与召回率之间的关系如图 13(彩图见期刊电子版)所示。由图 13(a)13(b)可知,所提算法仅用较少的候选框,就能达到较高的召回率;由图 13(c)可见,随着候选框数目的增加,所提算法的平均召回率逐渐上升,算法性能与SS相当,这说明所提算法能够获取定位较好的候选框。

      图  13  不同交并比下候选框数与召回率的关系

      Figure 13.  Recall versus number of proposals at different IoUs

      为确定每一类目标候选区域的召回率,本文利用PASCAL VOC 2007测试集中单目标图像的标注信息,以及Hosang在文献[24]中对VOC 2007各类目标候选框的统计标注信息,计算各类目标的召回率。

      图 14(彩图见期刊电子版)从PASCAL VOC 2007测试集选取20类目标,本文算法在候选框数目为500时的各类召回率。可以看出,所提算法在“cow”、“dog”及“sheep”目标在各交并比IoU下均能获得较高的召回率;但对于“bottle”及“pottedplant”目标,召回率相对较低,这是由于此类目标尺寸较小,含有目标的信息不多,使得召回率下降。

      图  14  本文算法在PASCAL VOC 2007测试集的召回率

      Figure 14.  Recall on the PASCAL VOC 2007 test set for proposed algorithm in this paper

    • 本文测试了C图像块窗口的宽高比对实验结果的影响。所谓宽高比是指窗口的宽与高的比值。本文选取宽高比分别为0.5, 1.2、窗口宽度分别为8, 16, 24共8个窗口,在测试集及验证集上进行实验,不同宽高比的召回率如图 15(彩色见期刊电子版)所示。可知,宽高比对召回率的影响小,这表明本文算法对宽高比的鲁棒性较好。

      图  15  不同宽高比时测试集及验证集上的召回率

      Figure 15.  The recalls at different aspect ratios of test set and validation set

    • 图 16(彩图见期刊电子版)列出了本文算法的部分目标的检测结果。其中,实线代表真实的标注框;虚线为本文算法预测的候选区域。可以看到,所提算法的目标检测性能较好,但对于尺寸相对较小的目标,出现了漏检。

      图  16  所提算法对部分目标的检测结果

      Figure 16.  Object detection results of some objects detected by proposed algorithm

      为证实漏检目标的分布情况,图 17绘制了测试集中漏检目标的尺寸与漏检目标数目间的关系示意图。可见,漏检目标主要集中在行数为(0~50)、列数为(0~50)范围内,这一区域内所提算法的性能下降。

      图  17  漏检目标的尺寸与漏检目标数目间的关系

      Figure 17.  The relation of the size of undetected objects and the number of undetected objects

      由于小目标分辨率低及对噪声敏感等原因,小目标检测是目标检测领域的一项挑战。针对这一问题,现有方法多借用多尺度手段,使用插值算法对小目标区域进行插值放大后检测。但这增加了算法的复杂度,且检测精度受插值算法影响较大。本课题组将继续从深度卷积神经网络方面研究小目标的敏感特征,使得算法有更高的检测精度。

    • 本文从卷积边缘特征、目标显著性及目标空间位置信息三方面研究了目标候选区域算法。从实验结果中得知,由于使用语义信息更丰富的卷积边缘特征,提高了目标候选区域的质量,这说明卷积神经网络能够很好地描述目标边界;另外,将目标显著性的局部特征及目标空间位置引入到候选区域中,也使得目标候选区域的召回率有所提高,这表明目标显著性特征及目标的空间位置信息有助于生成定位更准确的候选区域。当选取10 000个候选框、交并比为0.7时,所提算法在PASCAL VOC 2007验证集上的召回率达到了90.50%,较EB和SS算法分别提高了3.31%、1.38%。本文算法的不足之处在于对小目标的检测效果不好。这是由于小目标的像素较少,产生的边缘信息不多,容易出现目标漏检。针对这种情况,下一步将继续利用深度神经网络探究小目标含有的特征,以提高候选区域算法的召回率。

参考文献 (24)

目录

    /

    返回文章
    返回