-
人工智能是计算机学科的一个分支,被称为世界三大尖端技术之一[1-3],近年来,它飞速发展,在其他学科领域也获得广泛应用,并取得了丰硕的成果。人工智能主要是使计算机可以模拟人的某些思维过程和智能行为,如:思考、学习、推理等。作为人工智能领域的重要的基础组成部分的计算机视觉也受到越来越多国内外研究者的重视。而基于视频的目标跟踪是计算机视觉领域的核心问题之一,也是当前最热门的研究方向之一[4-5]。
近年来,相关滤波跟踪算法由于其优异的性能,受到广大研究者的关注。2010年,Blome[6]等人提出了MOSSE(Minimum Output Sum of Squared Error Filter)算法,该算法首次将相关滤波引入目标跟踪领域,并在计算目标和待测样本集之间相关性时,运用了傅立叶变换,将运算直接转到频域中,大大降低了运算量。随后,Henriques[7]等人在MOSSE的基础上提出了采用循环矩阵结构和核空间映射的CSK(Exploiting the Crculant Structure of Tracking-by-detection with Kernels)方法。这种方法只需要在目标位置提取一次待测样本,然后对该样本进行循环偏移,构成循坏矩阵,即样本集。但其只用到了较为简单的灰度特征。Danelljan[8]等人提出了基于颜色属性的相关滤波跟踪(CN),该方法是在CSK的基础上将灰度特征改为了颜色属性。2014年,Henriques[7]等人在CSK的基础上引入了核方法,并采用了HOG(Histogram of Oriented Gradients)多维特征对目标外观进行描述(KCF)。虽然基于核相关滤波改进的相关滤波目标跟踪算法很多,但对于背景感知这方面的相关滤波目标跟踪算法却相对较少。Kiani[10]等人提出了BACF(Learning Background-Aware Correlation Filters for Visual Tracking)目标跟踪算法。是在核相关滤波框架上,扩大了循坏采样的区域(整幅图片),这样就增加了样本的数量,并且在每个样本上裁剪出有用区域。较之前KCF的循环采样方法,样本的信息更加多样化,训练出来的滤波器也更加稳定。Mueller[11]等人在2017年的CVPR(Conference on Computer Vision and Pattern Recongnition)上提出了一种新的相关滤波框架,即联合全局上下文进行背景训练的CA-CF(Context-Aware Correlation Filter Tracking)算法。该算法既能够合理增加更多信息,又没带来其他较大负面的影响,在速度上的影响也比较小。此外其跟踪鲁棒性和准确性也有所提高。该算法在目标外观表示上增加了背景约束信息,即在目标位置的上下左右方向各取了一块背景区域,加到跟踪滤波器中,对它们进行背景监督训练,使得目标跟踪更加鲁棒。此框架也适合其他相关滤波算法,事实证明,加了背景约束的其他算法,如:DCF[9]、SAMF[12]、STPALE[13],在精准度和成功率上,都有了一定的提高,尤其是STAPLE[13]算法提升的最为明显。
目前,在目标跟踪系统中,除了目标外观表示的特征选择问题和模型更新问题之外。还需应对跟踪过程中的各种干扰因素。如:目标遮挡、尺度变化、光照变化、运动模糊、形变及背景杂乱等。因此,在这么多的因素干扰下,设计一个鲁棒的目标跟踪算法仍然是当今跟踪领域的难点问题[1]。
针对这一问题,本文提出了一种基于卡尔曼滤波的自适应上下文感知相关滤波跟踪算法。该方法利用卡尔曼滤波对目标做运动估计,预测目标的运动方向,并提取目标运动方向上的背景区域样本学习到滤波器中,同时,为了应对目标形变,提取其他非目标运动方向上的背景样本也学习到滤波器中,其中,分配给运动方向上的背景样本训练权重高于其他方向上的权重。从而提高了跟踪器对目标及背景的辨别性。为了解决目标遮挡问题,引入了一种新的遮挡判据APCE(Average Peak-to Correlation Energy),只有当前的响应峰值和APCE数值同时大于各自的历史均值时,才对目标模型进行更新,从而防止目标被遮挡后,滤波器被污染,使得跟踪器无法再检测到目标,有效解决了目标遮挡的问题。
-
设有训练样本集(xi, yi),则线性回归函数可以表示为f(xi)=wTxi,w是权重系数,岭回归函数可以表示为:
(1) 对式(1)求导,并令其导数为0,求解得:
(2) 其中,X、y分别是样本矩阵和标签矩阵,I表示一个单位矩阵,λ对应着正则化系数,是个常数。由于在后面的变换中会用到傅立叶变换,所以将式(2)转换到复数域下,其解析解为:
(3) 其中,X*=(XH)T,XH是X的复共轭。
-
相关滤波算法中,只需要对目标基础样本进行一次采样,其他样本都是由基础样本循环偏移产生的虚拟样本(如图 1所示),这样可以大大提高算法的运算速度。
假设一个向量n=[n1, n2, …, nm],那么由该向量循环偏移后的m×m的循环矩阵C(n)表示为:
(4) 循环矩阵经傅立叶变换可相似对角化,故可以将样本循环矩阵N进行如下转换:
(5) 其中,n是原向量n的傅立叶变换,F是离散傅立叶变换矩阵,且满足F*F=FF*=I。
用循环矩阵的特性来化简公式(3)得:
(6) 其中,w是w的傅立叶变换,H表示共轭,*表示共轭转置,⊙表示元素的点积。通过对其进行傅立叶变换,将其转换到了频域中的内积运算,大大降低了时间复杂度。
-
非线性岭回归较线性岭回归,在变量上有所变化,且非线性方程f(z)的求解方程会随着样本数量的增加而变得越来越复杂。为了克服这一缺点,引入了内核方法,使用内核方法,即采用将线性问题映射到非线性特征空间的映射函数φ(x),可以将相关滤波器用样本的线性组合来表示:
(7) 由核函数的特点知,将低维空间线性不可分的样本通过映射函数φ(x)转换到高维空间后将变得线性可分。可将公式(7)代入式(1)式中,求得α的闭环解的表达式为:
(8) 其中,K是核矩阵,且是个循环矩阵。根据循环矩阵经傅立叶变换可相似对角化这一特性,把式(8)转化为:
(9) 其中,kxx′是核矩阵的第一行向量,kxx′和y分别是kxx′和y的傅立叶变换。通过将式(8)转换到频域后变成了向量的Hadamard积,避开了矩阵的求逆过程,从而降低了算法的时间复杂度。
-
Mueller[11]等人在2017年的CVPR会议上提出了一种新的相关滤波的框架CA-CF。与传统的CF算法相比,CA-CF将目标框的上下左右4块背景信息也加到了相关滤波器中去学习,从而提高了跟踪器对目标及背景的辨别性,可将式(1)改为:
(10) 从式(10)可以看出,它对所有的上下文背景样本集都加了约束,并使他们回归到零。对式(10)求解为:
(11) -
本文提出的自适应上下文感知相关滤波跟踪是基于卡尔曼滤波对目标做运动估计。
将需要估计的元素用列向量表示:
(12) 其中,x, y表示目标的中心坐标,vx, vy表示目标平面内水平速度和垂直速度,两初始值都是0。下一帧的预测位置为:
(13) 其中,G(σ)是高斯白噪声,A是状态转移矩阵,其为:
(14) 结合式(13)运用卡尔曼滤波的其余4个迭代公式对其做状态估计,公式为:
(15) 其中,观测矩阵H、以及矩阵Q矩阵R的初始矩阵为:
(16) 由于只从估计的变量元素中取运动矢量,并不估计目标的位置,故目标的定位仍为响应峰值对应的图像位置。
(17) 当速度不为0时,单位矢量为:
(18) 由于时空一致性,将目标运动方向上的背景信息作为先验信息,赋予其较其他背景区域块多的权重,加到滤波器学习中,有利于提高跟踪器对目标及背景样本的辨别性。由此可将式(10)转化为:
(19) 对其求解为:
(20) 其中,Aj(j∈[1, k])为上下文背景信息运动方向上的背景样本。在目标跟踪过程中,是一个自适应项。k表示所取背景区域的数量,在本文中,围绕目标的上下左右选取了4块背景区域样本。
-
本文引入了Wang等人在文献[14]提出的遮挡判据APCE:
(21) 其中,Fmax、Fmin、Fw, h分别表示响应图中的峰值,谷值以及位置(w, h)对应的响应值。这个APCE判据可以反映出响应图的振荡程度,当APCE突然减少时,就是出现了目标被遮挡或者目标丢失的情况。只有当响应值峰值和APCE同时都一定比例γ1,γ2大于它们各自的历史均值时,才认为此时刻的跟踪结果是准确的,并对模型进行更新,反之,只要其中有一个低于历史均值,就不更新目标模型。这样既可以减少模型漂移的情况,也可以减少模型的更新次数,达到了加速的效果,从而可以有效解决目标遮挡的问题。
-
为了验证本文算法的可行性,本文将本算法与当前主流的跟踪算法在CVPR2013 Benchmark[15]中进行对比实验。
-
本文的仿真实验都是基于MATLAB R2016a平台进行的,使用的台式电脑配置为:intel(R)core(TM)i5-4590 CPU@3.30GHz处理器、8G系统内存以及64位的Windows10专业版系统。本论文仿真实验选取的视频集为CVPR2013数据集的全部的50个视频序列(实际是51个视频序列),同时为了更加直观地对本文提出算法的整体性能进行评估,还将本文算法与当前多个主流目标跟踪算法做了大量的对比仿真实验。选取的主流算法为:CSK[7]、DCF_CA[11]、DCF[9]、Struck[16]、MOSSE_CA[11]、TLD[17]、VTD[18]、CXT[19]、OAB[20]等9个目标跟踪算法。本文算法的参数如下:正则化系数λ1=10-4,λ2=25,λ3=5,学习率η=0.015, 搜索框padding=2,γ1=0.5,γ2=0.35。
-
(1) 中心位置误差
中心位置误差就是指计算每一帧中跟踪目标的中心位置与手工标记的真值之间的欧氏距离,也可以叫精准率。通过欧式距离的大小评估跟踪的精确度。那么精准率可以表示为:
(22) (2) 成功率
成功率是在重叠率的基础上提出的新的评价标准,其反映了目标丢失后在后续跟踪过程中还可以重新检测到目标的真实性能。它是通过统计所有视频序列中重叠度超过一定阈值tθ的帧数Hx获得的,成功率的表达式为:
(23) 其中,N表示视频序列的总帧数。在Benchmark中设定的阈值为0.5。
-
本文算法与当前主流算法在CVPR 2013Benchmark进行对比实验,得到实验结果如图 2、图 3所示,图 2为精准率图,图 3为成功率图。
由图 2可知,本文提出算法的得分为0.810,排名第一位,比排名第二名的DCF_CA(得分为0.784)高出了0.026,同时比基准算法DCF(得分为0.740)高出了0.070。如图 3所示,本文算法在成功率上也是排名第一,得分为0.701,比第二名的DCF_CA(得分为0.680)高出了0.021,比基准算法DCF(得分为0.623)高出了0.078。
图 4(彩图见期刊电子版)显示了遮挡情况下的对比实验结果,从图中可以看出,本文提出的算法在目标被遮挡的情况下,仍可以很好地跟踪目标。表明了本文算法在目标遮挡的情况下进行跟踪的可行性。
图 5为算法在其他属性视频的跟踪性能,从图中可以看出,本文提出的算法性能总体优于其他对比算法,充分体验了本文提出算法的鲁棒性。达到了预期设计效果。
-
本文提出了一种自适应上下文感知相关滤波跟踪方法。通过利用卡尔曼滤波器对目标进行运动估计,预测目标的运动方向。在滤波器训练时,对目标运动方向上的背景样本训练时赋予较多的权重,同时为了解决遮挡的问题,在模型更新时引入了一个新的遮挡判定指标APCE,只有当响应峰值和APCE数值分别以一定比例大于各自的历史均值时,才对目标模型进行更新。将本文算法与当前一些主流的跟踪算法在CVPR 2013 Benchmark进行对比实验。仿真实验结果表明,本文提出的算法,精准率和成功率分别为0.810和0.701,均优于其他对比算法,充分体现出了本文算法的鲁棒性。
-
摘要: 针对上下文感知相关滤波目标跟踪算法中,上下文背景样本等值权重训练,对背景信息滤波过于平滑的问题,提出了一种自适应上下文感知相关滤波算法,同时为了解决目标遮挡的问题,引入一种新的遮挡判定指标。首先,提取目标上下左右4个方向的背景样本学习到滤波器中,利用卡尔曼滤波对目标运动状态进行估计,预测目标的运动方向。在滤波器训练时,对目标运动方向上的背景样本训练时赋予较多的权重;接着,在模型更新时引入一个新的遮挡判定指标APCE,只有当响应峰值和APCE数值分别一定比例大于各自的历史均值时,才对目标模型进行更新;最后将本文算法与当前一些主流的跟踪算法在CVPR 2013 Benchmark进行对比实验。仿真实验结果表明,本文算法的精准率和成功率分别为0.810和0.701,均优于其他算法,充分体现出了本文提出算法的鲁棒性。Abstract: Aiming at the problem of background information filtering too smooth when implementing equivalent weight training to context sample in context-aware correlation filter tracking algorithm, we propose an adaptive context-aware correlation filtering algorithm. And in order to solve the problem of target occlusion, we introduce a new occlusion criterion. First of all, extract background samples from the four directions of the target to learn in the filter. The target motion state is estimated by Kalman Filters and the direction of the target is predicted. During the training of the filter, more weight is given to the background sample training in the direction of the target movement. Then, a new occlusion indicator Average Peak-to correlation Energy(APCE) is introduced when the model is updated. The target model is updated only when the response peaks and APCE values are in proportional higher than their respective historical averages. Finally, the proposed algorithm is compared with some mainstream tracking algorithms in CVPR 2013 Benchmark. Simulation results show that the accuracy rate and success rate of the proposed algorithm respectively are 0.810 and 0.701, which are superior to other algorithms. The results fully reflect the robustness of the proposed algorithm.
-
Key words:
- context-aware /
- object tracking /
- adaptive /
- Kalman Filters /
- APCE
-
[1] 高文, 朱明, 贺柏根, 等.目标跟踪技术综述[J].中国光学, 2014, 7(3):365-375. http://www.chineseoptics.net.cn/CN/abstract/abstract9017.shtml GAO W, ZHU M, HE B G, et al.. Overview of target tracking technology[J]. Chinese Optics, 2014, 7(3):365-375.(in Chinese) http://www.chineseoptics.net.cn/CN/abstract/abstract9017.shtml [2] 郝志成, 高文.多模跟踪技术在轮式侦察车图像处理器的应用[J].中国光学, 2011, 4(5):480-488. doi: 10.3969/j.issn.2095-1531.2011.05.012 HAO ZH CH, GAO W. Application of multi-pattern tracking technique in image processor of wheel type scout car[J]. Chinese Optics, 2011, 4(5):480-488.(in Chinese) doi: 10.3969/j.issn.2095-1531.2011.05.012 [3] 罗刚, 张云峰.应用角点匹配实现目标跟踪[J].中国光学与应用光学, 2009, 2(6):477-481. doi: 10.3969/j.issn.2095-1531.2009.06.002 LUO G, ZHANG Y F. Target tracking using corner matching[J]. Chinese Journal of Optics and Applied Optics, 2009, 2(6):477-481. (in Chinese) doi: 10.3969/j.issn.2095-1531.2009.06.002 [4] 郭巳秋, 许廷发, 王洪庆, 等.改进的粒子群优化目标跟踪方法[J].中国光学, 2014, 7(5):759-767. http://www.chineseoptics.net.cn/CN/abstract/abstract9194.shtml GUO S Q, XU T F, WANG H Q, et al.. Object tracking method based on improved particle swarm optimization[J]. Chinese Optics, 2014, 7(5):759-767.(in Chinese) http://www.chineseoptics.net.cn/CN/abstract/abstract9194.shtml [5] 闫辉, 许廷发, 吴青青, 等.多特征融合匹配的多目标跟踪[J].中国光学, 2013, 6(2):163-170. http://www.chineseoptics.net.cn/CN/abstract/abstract8903.shtml YAN H, XU T F, WU Q Q, et al.. Multi-object tracking based on multi-feature joint matching[J]. Chinese Optics, 2013, 6(2):163-170.(in Chinese) http://www.chineseoptics.net.cn/CN/abstract/abstract8903.shtml [6] BOLME D S, BEVERIDGE J R, DRAPER B A, et al. . Visual object tracking using adaptive correlation filters[C]. Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, IEEE, 2010: 2544-2550. [7] HENRIQUES J F, CASEIRO R, MARTINS P, et al. . Exploiting the circulant structure of Tracking-by-detection with kernels[C]. Proceedings of the 12th European Conference on Computer Vision, Springer-Verlag, 2012: 702-715. [8] DANELLJAN M, KHAN F S, FELSBERG M, et al. . Adaptive color attributes for real-time visual tracking[C]. Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition, IEEE, 2014: 1090-1097. [9] HENRIQUES J F, CASEIRO R, MARTINS P, et al.. High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3):583-596. doi: 10.1109/TPAMI.2014.2345390 [10] GALOOGAHI H K, FAGG A, LUCEY S. Learning background-aware correlation filters for visual tracking[C]. Proceedings of 2017 IEEE International Conference on Computer Vision, IEEE, 2017: 1144-1152. [11] MUELLER M, SMITH N, GHANEM B. Context-aware correlation filter tracking[C]. Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition, IEEE, 2017: 1387-1395. [12] LI Y, ZHU J K. A scale adaptive kernel correlation filter tracker with feature integration[C]. European Conference on Computer Vision, Springer International Publishing, 2014, 8926: 254-265. [13] BERTINETTO L, VALMADRE J, GOLODETZ S, et al.. Staple:complementary learners for real-time tracking[J]. Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), IEEE, 2016:1401-1409. http://d.old.wanfangdata.com.cn/Periodical/gjny201503002 [14] WANG W M, LIU Y, HUANG Z Y. Large margin object tracking with circulant feature maps[C]. Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition, IEEE, 2017: 4800-4808. [15] WU Y, LIM J, YANG M H. Online object tracking: A benchmark[C]. Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition, IEEE, 2013: 2411-2418. [16] HARE S, GOLODETZ S, SAFFARI A, et al.. Struck:Structured output tracking with kernels[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(10):2096-2109. doi: 10.1109/TPAMI.2015.2509974 [17] KALAL Z, MIKOLAJCZYK K, MATAS J. Tracking-learning-detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(7):1409-1422. doi: 10.1109/TPAMI.2011.239 [18] KWON J, LEE K M. Visual tracking decomposition[C]. Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, IEEE, 2010: 1269-1276. [19] DINH T B, VO N, MEDIONI G. Context tracker: exploring supporters and distracters in unconstrained environments[C]. Computer Vision and Pattern Recognition, IEEE, 2011: 1177-1184. [20] GRABNER H, GRABNER M, BISCHOF H. Real-time tracking via on-line boosting[C]. British Machine Vision Conference, BMVA Press, 2006: 47-56. [21] DANELLJAN M, H GER G, KHAN F, et al. . Accurate scale estimation for robust visual tracking[C]. British Machine Vision Conference, BMVA Press, 2014: 471-482. -