Introduction

(1)Motivation:

当前的一些video-based reid方法在特征提取、损失函数方面不统一,无法客观比较效果。本文作者将特征提取和损失函数固定,对当前较新的4种行人重识别模型进行比较。

(2)Contribution:

① 对四种ReId方法(temporal pooling, temporal attention, RNN and 3D conv)进行科学合理的比较;

② 提出了一种采用时空卷积提取时间特征的注意力提取网络。

Method

(1)视频片编码(video clip encoder):

将视频切成若干片段 {c},每个片段含有 T 帧,将每个片段编码成 D 维特征向量 f ,视频的特征为这些片段取平均值。

① 3D CNN:采用3D ResNet模型,将最后一个分类层替换为行人身份的输出,将 T 帧输入网络中,输出即为特征表示。

对于 2D CNN:采用ResNet-50模型,每次输入一帧图像,每个片段提取 T 次特征,即 {f},t 属于 [1, T],即 T*D 的特征矩阵,再采用以下方法将特征压缩到特征向量 f 中。

② 时间池化(temporal pooling):考虑最大池化和平均池化,即:

论文阅读笔记(十三)【arxiv2018】:Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

论文阅读笔记(十三)【arxiv2018】:Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

③ 时间注意力(temporal attention):应用注意力权重,设第 c 个视频段权重因子为 a,其中 t 属于 [1, T]:

论文阅读笔记(十三)【arxiv2018】:Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

Resnet-50的最后卷积层规格 [w, h, 2048],其中 w 和 h 取决于输入图片的尺寸。

注意力提取网络的输入规格 [T, w, h, 2048],输出 T 个注意力得分。

考虑两种注意力网络:

  空间卷积+全连接(spatial conv + FC):卷积层规格(kernel = w*h,input channel number = 2048,output channel number = d),全连接层规格(input channel number = d,output channel number = 1),输出结果为 s,其中 t 属于 [1, T].

  时空联合卷积(spatial + temporal conv):先通过空间卷积层(kernel = w*h,input channel number = 2048,output channel number = d),再通过时间卷积层(个人理解参数3的含义是每个元素是由三帧计算而得,input channel number = d,output channel number = 1),输出结果为 s,其中 t 属于 [1, T].

使用softmax计算注意力得分 a:

论文阅读笔记(十三)【arxiv2018】:Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

结合正则化(使用sigmoid函数):

论文阅读笔记(十三)【arxiv2018】:Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

④ RNN:考虑两种方法:

  直接把隐藏层元素 h 作为最后结果,即:

  论文阅读笔记(十三)【arxiv2018】:Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

  计算 RNN 输出 {o} 的平均值,即:

  论文阅读笔记(十三)【arxiv2018】:Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

论文阅读笔记(十三)【arxiv2018】:Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

(2)损失函数:

考虑两种损失函数,三元组损失(Batch Hard triplet loss)和交叉熵损失(Softmax cross-entropy loss)。

每个batch含有 P 个行人视频,每个视频含有 K 个视频片段,即每个batch含有 PK 个视频片段,三元组损失为:

论文阅读笔记(十三)【arxiv2018】:Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

交叉熵损失为:

论文阅读笔记(十三)【arxiv2018】:Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

如何理解?

论文阅读笔记(十三)【arxiv2018】:Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

损失函数:

论文阅读笔记(十三)【arxiv2018】:Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

(3)相似度计算:

通过 L2 距离,计算视频特征的相似度。

Evaluation

(1)实验设置:

数据集:MARS

参数设置:batch size = 32,每个行人抽取4段tracklets,learning rate = 0.0001/0.0003,视频帧的规格为 224*112.(关于batch的设置描述模糊)

(2)实验结果:

① 3D CNN实验比较:

论文阅读笔记(十三)【arxiv2018】:Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

② Temporal pooling实验比较:

论文阅读笔记(十三)【arxiv2018】:Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

论文阅读笔记(十三)【arxiv2018】:Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

③ Temporal attention实验比较:

论文阅读笔记(十三)【arxiv2018】:Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

论文阅读笔记(十三)【arxiv2018】:Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

④ RNN实验比较:

论文阅读笔记(十三)【arxiv2018】:Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

论文阅读笔记(十三)【arxiv2018】:Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

论文阅读笔记(十三)【arxiv2018】:Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

论文阅读笔记(十三)【arxiv2018】:Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

⑤ 对比方法:

论文阅读笔记(十三)【arxiv2018】:Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

05-11 20:13