-
行人重识别是指给定一张行人图片,从不同位置、时间和视场下拍摄的海量行人数据库中,搜索同一行人的过程,可用于犯罪嫌疑人搜索、视频监控、多目标跟踪等领域[1]。行人重识别由于提出时间较短,目前尚不具备完整的理论和统一的框架,面临着诸多问题,例如:由于成像距离较远,传统的人脸和步态识别技术难以应用;同一行人图片受视角、光照、姿态、遮挡、背景变化等影响差异较大,单特征难以获得较好的区分效果;不同行人衣着可能非常相似等。
近年来,学者们提出了众多行人重识别算法。2007年,Wang等人[2]将行人进行分割,提取不同区域的Log-RGB梯度直方图和颜色空间关系进行识别;2010年,Farenzena等人[3]根据对称性将人体前景划分为头部、躯干、腿部3个部分,并提取各部分的HSV颜色直方图、最大稳定颜色区域特征和高重复结构特征加权进行识别;2011年,Cheng等人[4]使用图形算法定位人体的头、胸、腰、腿4个区域位置,并提取颜色直方图和最大稳定颜色区域特征;2012年,Kostinger等人[5]将HSV颜色直方图、RGB颜色直方图和图像块LBP特征进行组合,并使用PCA降维得到最后的特征;同年,Ma等人[6]提取图像的亮度和梯度信息并使用Fisher向量编码;2013年,Zheng等人[7]将图像进行水平分块,随后提取每个小块的HSV、RGB、YCbCr颜色直方图和Schimidt、Gabor纹理特征进行识别。
现有算法都是通过利用不同的底层特征(例如SIFT[8]、SURF[9]、LBP[10]、Garbor特征[11]、局部纹理[12]等),达到识别行人的目的。底层特征构造的难点在于不同图片中行人的表征随视角、光照、遮挡、行人姿态等发生很大变化,很难设计出对所有图片均适用的特征,而稳健的组合特征往往计算复杂度较高,在大数据库中搜索效率较低。因此,现有算法往往难以适应不同的数据库,识别效果也很难进一步提升。
考虑到构造底层特征的局限性,本文提出一种将底层特征与中层特征相结合的行人重识别方法。该方法提取人体的空间颜色直方图、SIFT直方图作为底层特征,建立粗略的外观模型进行初步筛选,再通过训练,提取不同部位的具有良好区分性和泛化能力的中层特征,用于精确分类。将两个分类器级联融合,能提高算法对于视角、遮挡和光照的稳健性。实验证明本文算法能获得更高的匹配率。
-
行人重识别中,常用的底层特征包括颜色特征和纹理特征。由于其信息互补,考虑将二者进行融合。
-
颜色特征由于能够体现目标区域的整体统计信息,对形状变化稳健性较好而被行人重识别算法广泛采用。但是,传统算法采用的颜色直方图忽略了颜色的空间分布,分辨能力较差。因此本文使用二阶空间直方图以保留颜色特征的空间信息[13]。
图像I的二阶空间直方图表示为:
(1) 式中,B为量化级数,nb为图像的量化直方图,μb和εb分别为均值矢量和协方差矩阵,计算公式为:
(2) (3) (4) (5) 式中,N是图像总像素个数;δkb标识像素k是否落在量化级数b内;xk是像素二维坐标。
两个空间直方图(SA,SB)的相似性可以计算如下:
(6) 式中,ρn(nb, A, nb, B)为两个直方图的Bhattacharyya距离,Ψb称为空间-相似性,计算公式为:
(7) 式中,
,η为高斯归一化常数。 -
不同行人衣着有可能相似,仅仅依靠颜色特征易造成误匹配,因此需要提取能够描述局部细节的纹理特征进行精确区分。由于SIFT特征在目标发生旋转、缩放、仿射变换时具有良好的不变性,本文考虑采用SIFT提取目标的纹理特征,步骤如下:
(1)对匹配目标和待识别目标分别在H、S、V通道上提取SIFT特征;
(2)对于匹配目标每个通道的SIFT特征进行K-means聚类,生成kH、kS、kV个聚类中心,构成视觉词典;
(3)将所有待识别目标的SIFT特征映射到对应关键词上,统计每个关键词出现的次数,归一化生成kH+kS+kV维的纹理直方图HT。
两个纹理直方图HTA和HTB用Bhattacharyya距离衡量相似度:
(8) 式中,HT(i)表示HT的第i个分量。
-
中层特征提取方法是近年来提出的一种目标描述方法,已被用于场景分类、运动识别[14-15]等领域。为使提取的特征具备视角不变性,同时考虑到人体各个部位的区分,本文提出一种新的中层特征提取方法。
-
为了区分人体的不同部位,将行人图像按水平方向分成头部、躯干和腿部,三部分的高度分别占人体总高度的16%、29%和55%,如图 1所示。从图中可以看出,用这种简单的方式能够较为准确地将行人身体部位划分出来。由于传感器分辨率限制,头部不包含足够有效的信息,将其忽略。
假设待识别图像集为Ai,匹配图像集为Bj (i=1, …, M,j=1, …, N),Ai、Bj来自于视角交叠的两个不同相机。Ai、Bj的躯干和腿部分别为Aibody、Aileg、Bjbody、Bjleg。将Aibody、Bjbody分为有重叠的U×V个小块,Aileg、Bjleg分为有重叠的K×L个小块,并在这些小块中获取中层特征。合适的中层特征图像块在图像序列中出现的次数不能过多,否则该块的区分性不够;也不能过少,否则特殊性过强,块的泛化能力不够。
下面讨论如何提取躯干部分的图像块,腿部的图像块同理可得。
对于每个Ai, u, vbody,计算其与Bj, s, tbody之间的相关性,其中s=u-h,u-h+1, …, u+h,t=1, …, V,这是因为考虑到姿态、相机视角的变化,人体的不同位置在竖直方向可能有±h的位移。
使用最近邻平均相关度来衡量每个图像块的泛化能力。给定Nr,Ai, u, vbody在Bbody中与其最相似的Nr个图像块之间的平均相关度为:
(9) 式中,min[Corr(Ai, u, vbody, Bbody), k]表示Ai, u, vbody与Bbody中所有块的第k个最小相关度。满足条件的Corr(Ai, u, vbody)约束条件为:
(10) 实验中取Nr=0.5 V,Cmin=0.5,Cmax=0.8。这样从一个摄像机中筛选出来的图像块在另一个摄像机中出现的概率既不会太大也不会太小,既有一定的泛化能力,又有一定的区分性。
-
假定经过3.1节的计算,筛选得到Nrem个图像块Ai, u, vbody。接下来需要知道哪些图像块来自同一行人的同一部位(相似),哪些来自不同行人或不同部位(不相似)。为此需要对这些图像块进行聚类。
根据前文所述,提取各个图像块的颜色和纹理直方图构成特征向量,接着根据提取出来的特征向量对所有图像块使用K-means算法进行聚类[16]。聚类结束后,删除过大或者过小的簇(即类内个数满足Ninter>Nintermin或Ninter<Nintermax的簇),最后剩余的聚类个数为Nclusterbody,实验中取Nintermin=50,Nintermax=300。最后,Nclusterbody个聚类中心Pibody构成了一组中层特征字典集。得到的字典集对行人姿态、视角、光照具有不变性。
-
使用训练图片生成的躯干部位中层特征为Pibody,i=1, …, Nclusterbody,腿部中层特征为Pjleg,j=1, …, Nclusterleg。对于任意待匹配目标Ai,将躯干和腿部分为U×V、K×L个小块,计算Pibody和Pjleg在对应部位出现的次数(相似度大于0.9),生成中层特征向量fmid为:
(11) 式中,bi、lj分别为对应躯干、腿部中层特征关键词出现的频次。将fmid进行归一化,得:
(12) 中层特征之间的相似性可由欧氏距离计算。
-
首先使用空间颜色直方图和纹理直方图对行人目标进行粗识别,随后使用中层特征对其进行精确分类,最后将识别结果融合,目标Ai和Bj之间的相似性为:
(13) 式中,ρcolor、ρtexture、ρmid分别为两个目标的空间颜色混合高斯模型、纹理直方图、中层特征的相似性,ω1、ω2、ω3是特征权重,ω1+ω2+ω3=1。实验中取ω1=ω2=0.3,ω3=0.4。
-
为验证算法有效性,采用VIPeR和ETHZ两类数据库进行实验。采用累计匹配特性曲线[8](CMC,Cumulative Matching Curve)来评价重识别算法的性能,CMC曲线下的归一化累计面积nAUC(normalized Area Under CMC)能描绘CMC曲线的整体走势和性能。
-
VIPeR中包含不同场景下的632对行人图片,图片大小都被归整为48 pixel×128 pixel。对比算法选择目前效果较好的SDALF[3]、ELF[17]和SCEAF[18]算法,采用与ELF算法相同的五轮二折验证法,即总共进行5次实验,每次将632对目标随机均分,并在测试时交换匹配图像和待识别图像,一共得到10组识别结果,最后取其平均值作为最终的评判依据,统计得到的识别结果如图 2所示。
从图 2可以看出,本文算法相比SDALF、ELF和SCEAF具有更高的匹配率。图 2中第1列表示第1匹配率CMC(1),SDALF、ELF和SCEAF分别为21.8%、19.4%、24.6%,而本文算法达到37.8%,这是因为本文算法融合了底层颜色特征、底层纹理特征和中层特征,由粗到精地进行分类,包含了目标图像的更多信息。而SDALF算法使用了HSV颜色直方图、最大稳定颜色区域和高重复结构,ELF使用一组简单特征组合构建分类模型,SCEAF融合结构信息和多个纹理特征,这3种算法本质上都使用的是局部特征,泛化能力不强。随着排名等级的增加,4种算法的识别率均呈上升趋势,本文算法始终高于其余3种算法。统计算法的rank-1、rank-10、rank-20、rank-30(即在待搜索目标库中相似度为前1、10、20和30的目标中找到正确目标的概率)和nAUC,如表 1所示,也证明了图 2趋势的正确性。在VIPeR数据库中,算法的nAUC高达91.7%,远高于其余3种算法。
表 1 算法排名等级和nAUC对比
Table 1. Comparation of ranking matching rate and nAUC
Method Rank-1 Rank-10 Rank-20 Rank-30 nAUC SDALF 21.8 51.4 65.7 76.8 83.5 ELF 19.4 45.6 60.5 70.9 79.6 SCEAF 24.6 57.3 70.4 81.5 85.4 Proposed method 37.8 70.9 77.2 86.7 91.7 -
ETHZ为多帧数据库,各帧之间存在较严重的光照和遮挡,但是姿态变化较小,更接近于实际应用中的相机连续曝光情况。
对比算法采用SDALF与PLS[13]。比较待识别目标为1帧,而候选目标分别为2、5、10帧的结果,如图 3所示。
比较图 3(a)、3(b)、3(c)内部的3条曲线,当候选目标分别为2、5、10帧时,本文算法识别率均优于其余3种算法,并且曲线趋势与单帧数据库相同。通过图 3(a)、3(b)、3(c)之间横向对比,随着候选目标的增加,PLS算法的识别率无变化,SDALF算法在候选目标5帧时识别率最高,在10帧的识别率反而低于5帧,而本文算法的识别率随着候选目标的增加而提升较大。这是因为本文算法融合了不同尺度下的特征,具有较好的稳定性。因此,本文算法不仅适用于单帧目标图像库,更适用于多帧图像库。
-
考虑到底层特征的构造难度和局限性较大,难以满足行人重识别的需求,本文提出了融合底层特征和中层特征的行人重识别方法。首先引入空间颜色直方图,对目标的颜色空间信息建模,并提取目标的SIFT纹理特征进行粗识别。随后提出一种区分不同人体部位图像块的中层特征训练和提取方法。融合上述底层特征和中层特征,对行人图像进行识别。实验表明本文算法在单帧和多帧数据库中均能取得良好的识别性能,低位匹配率远高于现有算法,具有较好的应用前景。下一步工作将研究如何更加精确地划分人体不同部位,以及将中层特征与距离度量算法相结合,使其具有更好的区分度。
-
摘要: 针对当前行人重识别方法采用单一底层特征识别率较低的问题,提出一种融合底层和中层特征的识别方法,由粗到精对人体目标进行匹配识别。首先提取目标的颜色直方图和纹理直方图进行粗分类;然后将人体目标分为头部、躯干和腿部3个部分。忽略包含信息量较少的头部,对躯干和腿部,提出一种中层图像块字典提取方法,并对照该字典生成中层特征,进行精确分类。底层特征结合中层特征使算法既具有较好的区分度,又具有良好的泛化能力。实验结果表明本文算法在VIPeR数据库上的nAUC比已有方法提高6.3%,对遮挡和背景粘连的鲁棒性更好。Abstract: Aiming at the problem of low recognition rate in the existing pedestrian re-identification algorithm using single low-level feature, a new method by fusing low-level and mid-level features is proposed, which identifies person in a coarse to fine strategy. First, the pedestrian is recognized roughly by color and texture features. Then, the human body is divided into three parts, including head, main body and leg. Head is ignored for its few useful information. A mid-level dictionary method is proposed and the dictionary is trained using patches from main body and leg, and then mid-level feature is computed for fine recognition. Fusing mid-level and low-level features can be not only discriminative but also representative. The experimental results indicate that the proposed method can increase nAUC by 6.3% compared with the existing methods, which is more robust to occlusion and background adhesion.
-
Key words:
- pedestrian re-identification /
- color histogram /
- texture features /
- mid-level features /
- clustering
-
表 1 算法排名等级和nAUC对比
Table 1. Comparation of ranking matching rate and nAUC
Method Rank-1 Rank-10 Rank-20 Rank-30 nAUC SDALF 21.8 51.4 65.7 76.8 83.5 ELF 19.4 45.6 60.5 70.9 79.6 SCEAF 24.6 57.3 70.4 81.5 85.4 Proposed method 37.8 70.9 77.2 86.7 91.7 -
[1] GONG S, CRISTANI M, YAN S, et al..Person Re-identification[M].London:Springer, 2014. [2] WANG X, DORETTO G, SEBASTIAN T B, et al..Shape and appearance context modeling[J].IEEE, 2007, 1(1):1-8. http://www.docin.com/p-1479988732.html [3] ARENZENA M, BAZZANI L, PERINA A, et al..Person re-identification by symmetry-driven accumulation of local features[C].IEEE Conference on Computer Vision and Pattern Recognition, San Francisco, USA, 2010:2360-2367. [4] CHENG D, CRISTANI M, STOPPA M, et al..Custom pictorial structures for re-identification[C].British Machine Vision Conference, Dundee, UK, 2011:749-760. [5] KOSTINGER M, HIRZER M, WOHLHART P, et al..Large scale metric learning from equivalence constraints[C].IEEE Conference on Computer Vision and Pattern Recognition, IEEE, 2012:2288-2295. [6] MA B, SU Y, JURIE F.Local descriptors encoded by fisher vectors for person re-identification[C].European Conference on Computer Vision, Florence, Italy, 2012:413-422. [7] ZHENG W, GONG S, XIANG T.Re-identification by Relative Distance Comparison[J].IEEE, 2013, 35(3):653-668. [8] 王睿, 朱正丹.融合全局-颜色信息的尺度不变特征变换[J].光学精密工程, 2015, 23(1): 295-301. doi: 10.3788/OPE. WANG R, ZHU ZH D.SIFT matching with color invariant characteristics and global context[J].Opt.Precision Eng., 2015, 23(1):295-301.(in Chinese) doi: 10.3788/OPE. [9] 王飞宇, 邸男, 贾平.结合尺度空间FAST角点检测器和SURF描绘器的图像特征[J].液晶与显示, 2014, 29(4):598-604. doi: 10.3788/YJYXS WANG F Y, DI N, JIA P.Image features using scale-space FAST corner detector and SURF descriptor[J].Chinese J.Liquid Crystals and Displays, 2014, 29(4):598-604.(in Chinese) doi: 10.3788/YJYXS [10] 王晓华, 孙小姣.联合Gabor降维特征与奇异值特征的人脸识别[J].光学精密工程, 2015, 23(10):553-558. http://cpfd.cnki.com.cn/Article/CPFDTOTAL-GXJM201507001084.htm WANG X H, SUN X J.Face recognition based on Gabor reduction dimensionality features and singular value decomposition features[J].Opt.Precision Eng., 2015, 23(10):553-558.(in Chinese) http://cpfd.cnki.com.cn/Article/CPFDTOTAL-GXJM201507001084.htm [11] 邓丹, 吴谨, 朱磊, 等.基于纹理抑制和连续分布估计的显著性目标检测方法[J].液晶与显示, 2015, 30(1):120-125. doi: 10.3788/YJYXS DENG D, WU J, ZHU L, et al.Significant target detection method based on texture inhibition and continuous distribution estimation[J].Chinese J.Liquid Crystals and Displays, 2015, 30(1):120-125.(in Chinese) doi: 10.3788/YJYXS [12] BIRCHFIELD S T, RANGARAJAN S.Spatiograms versus histograms for region-based tracking[J].IEEE, 2005(2):1158-1163. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.73.3012 [13] SINGH S, GUPTA A, EFROS A A.Unsupervised discovery of mid-level discriminative patches[C].European Conference on Computer Vision, Florence, Italy, 2012:73-86. [14] JAIN A, GUPTA A, RODRIGUEZ M, et al..Representing videos using mid-level discriminative patches[C].IEEE Conference on Computer Vision and Pattern Recognition, IEEE, 2013:571-2578. [15] 陈莹, 朱明, 刘剑, 等.高斯混合模型自适应微光图像增强[J].液晶与显示, 2015, 30(2):300-309. doi: 10.3788/YJYXS CHEN Y, ZHU M, LIU J, et al..Automatic low light level image enhancement using Gaussian mixture modeling[J].Chinese J.Liquid Crystals and Displays, 2015, 30(2):300-309.(in Chinese) doi: 10.3788/YJYXS [16] GRAY D, TAO H.Viewpoint invariant pedestrian recognition with an ensemble of localized features[C].European Conference on Computer Vision, Florence, Marseille, Italy, 2008:262-275. [17] HU Y, LIAO S, LEI Z, et al..Exploring structural information and fusing multiple features for person re-identification[C].IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Portland, USA, 2013:794-799. [18] SCHWARTZ W, DAVIS L.Learning discriminative appearance based models using partial least squares[C].Computer Graphics and Image Processing, Rio de Janeiro, Brazil, 2009:322-329. -