A saliency target area detection method of image sequence
-
摘要: 针对传统视觉显著性模型在自顶向下的任务指导和动态信息处理方面的不足,设计并实现了融入运动特征的视觉显著性模型。利用该模型提取了图像的静态特征和动态特征,静态特征的提取在图像的亮度、颜色和方向通道进行,运动特征的提取采用基于多尺度差分的特征提取方法实现,然后各通道分别通过滤波、差分得到显著图,在生成全局显著图时,提出多通道参数估计方法,计算图像感兴趣区域与眼动感兴趣区域的相似度,从而可在图像上准确定位目标位置。针对20组视频图像序列(每组50帧)进行了实验,结果表明:本文算法提取注意焦点即目标区域的平均相似度为0.87,使用本文算法能够根据不同任务情境,选择各特征通道的权重参数,从而可有效提高目标搜索的效率。Abstract: For the lack of top-down task guidance and dynamic information processing of traditional visual saliency model, a visual saliency model fused with the motion features is designed and implemented. The static features and motion features are extracted based on the proposed model. The static features are extracted from the intensity, color and orientation channel of the current frame image. The motion features are extracted based on the multi-scales difference method. The saliency maps of four channels can be obtained by filtering and difference. Based on the proposed model a method of parameter estimation for multi channel is proposed to calculate the similarity between the region of interesting of current image and the region of interesting of eyes movement, then guide to generate the global saliency map, which can provide a calculation mechanism for accurate location on images. 20 groups of video image sequences(50 images per group) are selected for the experiment. Experimental results show that the average similarity of focus of attention is 0.87. The proposed method can more efficiently and accurately locate the region where the searched target may be present and can improve the efficiency of target searching.
-
Key words:
- visual saliency /
- top-down /
- target area detection /
- saliency map
-
1. 引 言
视觉注意机制可以快速定位到当前图像中的一些显著性区域。视觉注意计算机模型可以不用人工参与快速查找到图像中感兴趣区域,对图像处理和图像复原等技术提供理论支持[1, 2, 3, 4, 5]。1998年,Itti和Koch等人建立了基于显著的空间注意计算机模型[6, 7],该模型在提取特征向量时采用多通道和多尺度的滤波器对图像进行滤波,在提取特征后,用中央-外围(Center-Surround)算子来模拟细胞的感受野特性,从而获得显著图;然后根据生成的显著图,用胜者全胜(WTA)机制来确定显著性区域,从而得到待检测目标[8, 9, 10, 11]。
当前有些学者将协同感知理论[12]、多尺度分析和编组、多尺度熵理论应用到视觉注意的整合阶段[13, 14],并取得了较好的效果。但是这些模型仅是基于空间注意,并且在处理动态信息时略显不足。并且大部分模型往往都存在计算复杂性过高的问题。一些关于心理学及神经科学的研究成果表明,在视觉通路中,对于亮度、颜色和方向等特征的提取通常并不需要同等对待,往往都会随着自顶向下给出任务的不同而不同,这种特征权重随任务而改变的视觉信息处理机制使得人们能够快速有效地定位目标[15, 16]。因此,需要根据任务情境的不同计算相应通道的特征权重值,来指导全局显著图的生成,进而准确地定位目标。
本文在前人工作的基础上,设计并实现了一个融入运动特征的视觉显著性模型,基于这个模型,提出一种基于多尺度差分的运动特征提取方法,在指导全局显著图的生成时,基于多通道参数估计方法计算各通道在整合时的权重,从而能准确定位目标在图像上的位置。
2. 视觉显著性模型及其原理
本文首先提取当前帧图像的亮度、颜色和方向信息,通过高斯金字塔和小波分解滤波,然后归一化处理计算得到多尺度特征,生成各个通道的显著图;在得到运动显著图时,要对当前帧和前一帧图像分别滤波提取动态特征,然后对两帧图像的特征图进行多尺度的差分,再融合为运动显著图;最终通过多通道加权方法生成全局显著图,采用WTA机制来最终得到感兴趣区域,即注意焦点。融入运动特征的视觉显著性模型如图1所示。
本文生成全局显著图,将亮度显著图、颜色显著图、方向显著图和运动显著图进行多尺度融合。全局显著图 S 的计算公式如下,式中,I~代表亮度显著图,C~代表颜色显著图,O~代表方向显著图,M~代表运动显著图,α,β,γ,λ是权重系数,满足α+β+γ+λ=1,通过提出的多通道参数估计方法得到,具体算法详见下节内容。
3. 视觉显著性特征提取方法
3.1 静态特征提取
静态显著性特征的提取是在Itti视觉注意模型基础上进行的。本文在方向特征提取上进行了改进,使融合后的静态显著图更有利于和动态显著图融合。对输入图像用9层高斯金字塔进行滤波,提取亮度、颜色、方向特征,由于视觉神经元一般对于视觉场景中一小段范围最敏感,而对于它的周围有局部的抑制作用,因此这里对于亮度和颜色,采用中央-外围(Center-Surround)算子进行差分,它是基于DoG(Diffrence of Gaussions)方式:
当σ1<σ2时,G(x,y)称为二维ON型DoG算子;当σ1>σ2时,G(x,y)称为二维OFF型DoG算子。σ1的作用是控制Center(中央凹)的敏感区,而σ2的作用是控制Surround(外围)的敏感区。
对于输入图像 I的亮度特征I(c,s) ,可以用尺度差分得到:式中,c代表Center的某一尺度,c∈{2,3,4},即9层中的第2,3,4层;其中s代表Surround的某一尺度,s∈{3,4},即9层中的第3,4层,代表两个特征图的每个像素作差分。
同理,输入图像 I 的颜色特征C(c,s) 也可用尺度差分得到:由于输入图像场景中要提取的注意焦点存在运动特征,因此图像的方向特征提取与亮度和颜色特征提取方式不同,通过小波变换的Mallat算法进行9个尺度的小波分解,其中将小波分解中的三个高频分量组成方向金字塔,则方向特征 O(c,s,θ) 在4个方向上进行尺度差分得到O(σ,θ) :式中,c代表Center的某一尺度,c∈{2,3,4},即9层中的第2,3,4层,θ∈{0,π/4,π/2,3π/4},代表4个方向。
3.2 基于多尺度差分的运动特征提取
运动特征的提取并没有采用传统的帧差法来处理,本文提出一种基于多尺度差分的运动特征提取方法,方法原理为:对相邻两帧图像进行不同尺度的滤波,可得到图像 Iσ ,其中σ ∈{0,1,2,3,4},代表5个尺度,设当前帧图像为It(x,y),前一帧图像为It-1(x,y),图像It(x,y) 金字塔中的每一层图像可以通过上一层的图像通过差分迭代生成,同理我们可以得到其他层图像金字塔。如式(6)所示。式中,σ代表金字塔的尺度,γ的值取1,-1。
式(7)为 x 和y 的范围,满足0≤2x≤wσ-1k ,0≤2y≤hσ-1k 。因此Iσ 的宽度wσk 和高度hσk 满足:对于图像的运动特征 Mt(c,s) 为:式中,c,s∈{0,1,2,3,4},为两个相邻帧图像的每个对应像素作差分。
3.3 显著图生成策略
首先根据提取的静态特征,生成3个静态特征通道的显著图,包括亮度显著图、颜色显著图和方向显著图。 式中,I~,C~,O~分别为亮度显著图、颜色显著图和方向显著图。N()代表归一化函数,将颜色、亮度和方向特征图进行归一化。为不同尺度图像的每个像素点对应相加。
根据提取的运动特征,生成运动显著图 对每一幅运动特征图进行归一化,再融合就形成了动态显著图。
3.4 多通道参数估计
基于本文设计的融入动态特征的视觉显著性模型,提出了一种新的基于多通道加权的参数估计方法,通过计算图像感兴趣区域(ROI)与眼动感兴趣区域的相似度来估计多通道参数。使用这样估计的参数对多通道进行加权,能够使得计算得到的图像感兴趣区域尽可能地与眼动感兴趣区域相近,从而能在图像上准确定位目标位置。
首先定义图像的点相似度,如式(13)所示, 式中,I1,I2分别代表显著图和眼动图的掩模图,n代表图像像素总数,fi,gi代表分别代表显著图和眼动图在i点的像素值。
点相似度只能衡量相似点的差异度,不能反映显著性目标的位置信息,所以引入位置相似度,如式(14)所示。 式中,X1,Y1代表显著图的ROI的质心,X2,Y2代表眼动图的ROI的质心,质心为图像ROI区域的所有像素的均值,即数学期望;W、H分别代表图像的宽度和高度。
将点相似度和位置相似度结合即为图像的相似度,如式(15)所示。 利用式(15)来计算图像感兴趣区域(ROI)与眼动感兴趣区域的相似度,其中眼动ROI是固定的,分别调整底层各个通道的显著图的参数,得到相似度,当得到最大相似度时就为最优参数值。
4. 实验结果
根据本文提出的算法,用Matlab进行仿真实验,验证本文提出算法的有效性。针对20组视频图像序列(每组50帧)进行了实验,实验选取所有测试视频图像序列来自CDNET2012和CVPapers库。为体现根据任务情境实现的自顶向下的指导作用,所选取的图像序列中大多含有单个或多个突出目标。在这些实验中随机选取了3组图像序列,取得了较为满意的实验结果。
图2为本文提出融入动态特征视觉显著性模型生成的多通道显著图。从图像中分别提取各通道的显著性特征,经过差分并归一化后得到各通道的显著图。其中图2(a)为实验原图,选取3组图像序列,图2(b)为亮度显著图、图2(c)为颜色显著图,图2(d)为方向显著图、图2(e)为运动显著图。如图2(e)的运动显著图所示,在场景中,静态特征被有效抑制,图像中具有运动特征的汽车和人得到了加强,从而验证了本文提出的模型对于具有运动特征的目标区域检测的有效性。
表1为多通道参数估计权值平均值的部分实验结果。通过分析比较显著图ROI和眼动图ROI的相似度来评价文本提出算法的准确性和有效性。将全局显著图S 归一化为0~255,提取出注意焦点,即ROI。其中3组图像序列(每组50帧图像)的4个底层特征的权重值为每组图像的平均值。表1给出了眼动ROI和本文提出算法提取到的ROI之间满足最大相似度的各个特征通道的权值平均值。
表 1 多通道参数估计权值平均值的部分实验结果Table 1. Part results of the avarage values of the multi-channel parameter estimation从表1中可以看出,不同底层特征对ROI的影响不同,同一底层特征对不同类型图像的影响程度也不同,由于前两组图像中的汽车都有明显的颜色特征和运动特征,所以颜色和运动特征的权重较大,由于第3组图像的3个人相对其他目标运动特征较明显,所以运动特征的权重较大,其他3个特征权重较小,通过运动特征可以描述图像的ROI,从而减少计算量。
图3为Itti算法和本文算法的比较结果,给出20组视频图像序列中每组图像最终计算的ROI与眼动ROI的相似度平均值,可以看出本文算法的大部分图像序列的平均相似度要大于Itti算法的平均相似度,说明文本算法提取的ROI更准确,从而可有效提高目标搜索的效率。
5. 结 论
本文设计并实现了融入运动特征的视觉显著性模型,并在此模型基础上,利用基于多尺度差分的运动特征提取方法提取运动特征,然后生成运动显著图。在生成全局显著图时,提出了一种基于多通道参数估计算法,算法通过计算图像感兴趣区域(ROI)与眼动感兴趣区域的相似度来估计多通道参数,为目标在图像上的准确定位提供计算机制。针对20组视频图像序列(每组50帧)进行了实验,结果表明:本文算法提取注意焦点即目标区域的平均相似度为0.87,能更高效准确地定位目标可能存在的区域。
同时,本文算法还存在有待改进之处。算法中自顶向下的指导依赖于给定知识库中目标的信息点集合的统计结果,当目标区域较小且运动过慢时,运动特征提取的准确性有待提高。下一步工作的方向是提高复杂场景下该算法的鲁棒性。
-
表 1 多通道参数估计权值平均值的部分实验结果
Table 1. Part results of the avarage values of the multi-channel parameter estimation
-
[1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] 期刊类型引用(29)
1. 温娜,张帆. 基于傅里叶变换的细胞牵引力测量研究. 应用光学. 2021(02): 317-326 . 百度学术
2. 叶华,谭冠政,胡长坤,戴正科. 曲率滤波-经验模式分解的运动人体目标检测预处理. 红外与激光工程. 2018(02): 259-264 . 百度学术
3. 冯安惠,王忠策. 基于云台摄像机的快速移动人脸检测与跟踪设计. 科技风. 2018(25): 13-14 . 百度学术
4. 黄元超,王阿川. 基于空谱联合和波段分类的高光谱压缩感知重构. 液晶与显示. 2018(04): 291-298 . 百度学术
5. 耿庆田,赵浩宇,于繁华,王宇婷,赵宏伟. 基于改进HOG特征提取的车型识别算法. 中国光学. 2018(02): 174-181 . 百度学术
6. 任永平,张维光,李鹏涛,张彤,蒋琪. 基于小波分析的小型无人机目标显著性检测方法. 电子测量技术. 2018(24): 56-61 . 百度学术
7. 李波,董明利,张帆. 端面不透光的PDMS微柱阵列制备与图像处理方法研究. 红外与激光工程. 2018(12): 380-387 . 百度学术
8. 柯洪昌,邵文奇,梁丞汉. 一种基于显著性区域的运动目标跟踪方法. 科技创新与应用. 2017(09): 90 . 百度学术
9. 唐锟,施荣华. 基于信号蝴蝶效应提取的无线传感网络失效区域检测. 吉林大学学报(工学版). 2017(06): 1939-1948 . 百度学术
10. 杨鹰,孔玲君,刘真. 基于压缩感知的多光谱图像去马赛克算法. 液晶与显示. 2017(01): 56-61 . 百度学术
11. 夏振平,程成. 基于视觉显著性的立体显示灰阶串扰量化. 液晶与显示. 2017(01): 62-68 . 百度学术
12. 王永新,吕游. 火力压制试验弹丸落点脱靶量测试方法研究. 液晶与显示. 2017(01): 48-55 . 百度学术
13. 张兴春,孙寿健. 基于贝叶斯分类器的图像隐写分析. 液晶与显示. 2017(07): 560-566 . 百度学术
14. 姚军财. 基于人眼对比敏感视觉特性的彩色图像盲水印算法. 液晶与显示. 2017(08): 642-649 . 百度学术
15. 张建军,姜丽,阮志毅,张兴,郭奕强. IPS-LCD大倾斜角离轴漏光补偿方法研究. 液晶与显示. 2017(10): 804-808 . 百度学术
16. 魏丽,丁萌,曾丽君. 红外图像中基于似物性与稀疏编码的行人检测. 红外技术. 2016(09): 752-757 . 百度学术
17. 贾桂敏,卢薇冰,路玉君,杨金锋. 基于地理同名点配准的机载红外移动小目标检测方法. 红外与激光工程. 2016(08): 33-39 . 百度学术
18. 张浩,刘海明,吴春国,张艳梅,赵天明,李寿涛. 基于多特征融合的绿色通道车辆检测判定. 吉林大学学报(工学版). 2016(01): 271-276 . 百度学术
19. 申铉京,范子龙,吕颖达,陈海鹏. 基于统计特征的图像篡改评价模型. 吉林大学学报(工学版). 2016(04): 1232-1238 . 百度学术
20. 何凯,张丽莹,高俊俏. 稳健的基于等照度线的图像修复算法. 吉林大学学报(工学版). 2016(03): 929-933 . 百度学术
21. 王新华,欧阳继红,庞武斌. 压缩编码孔径红外成像超分辨重建. 吉林大学学报(工学版). 2016(04): 1239-1245 . 百度学术
22. 陈强,许洪国,谭立东. 基于小型无人机摄影测量的交通事故现场勘查. 吉林大学学报(工学版). 2016(05): 1439-1446 . 百度学术
23. 王生生,郭湑,张家晨,王光耀,赵欣. 基于全局与局部形状特征融合的形状识别算法. 吉林大学学报(工学版). 2016(05): 1627-1632 . 百度学术
24. 颜飞,周长久,田彦涛. 用于目标定位的图像边缘点检测算法. 吉林大学学报(工学版). 2016(06): 2103-2110 . 百度学术
25. 吉淑娇,雷艳敏,朱明. 基于背景特征点匹配的视频稳像. 吉林大学学报(工学版). 2016(06): 2116-2122 . 百度学术
26. 程藜,吴谨,朱磊. 基于结构标签学习的显著性目标检测. 液晶与显示. 2016(07): 726-732 . 百度学术
27. 王民,王静,王羽笙. 一种多尺度灰度共生矩阵的纹理特征提取算法. 液晶与显示. 2016(10): 967-972 . 百度学术
28. 常运,杜玉红,焉台郎,赵地,李兴. 基于云台摄像机的快速移动人群的检测与跟踪. 液晶与显示. 2016(10): 998-1005 . 百度学术
29. 郭汉洲,郭立红,吕游. 结合MSER与HSOG的目标局部特征提取. 液晶与显示. 2016(11): 1070-1078 . 百度学术
其他类型引用(6)
-