论文阅读笔记（十三）【arxiv2018】：Revisiting Temporal Modeling for Video-based Person ReID

Introduction

（1）Motivation：

当前的一些video-based reid方法在特征提取、损失函数方面不统一，无法客观比较效果。本文作者将特征提取和损失函数固定，对当前较新的4种行人重识别模型进行比较。

（2）Contribution：

① 对四种ReId方法（temporal pooling, temporal attention, RNN and 3D conv）进行科学合理的比较；

② 提出了一种采用时空卷积提取时间特征的注意力提取网络。

Method

（1）视频片编码（video clip encoder）：

将视频切成若干片段 {c}，每个片段含有 T 帧，将每个片段编码成 D 维特征向量 f ，视频的特征为这些片段取平均值。

① 3D CNN：采用3D ResNet模型，将最后一个分类层替换为行人身份的输出，将 T 帧输入网络中，输出即为特征表示。

对于 2D CNN：采用ResNet-50模型，每次输入一帧图像，每个片段提取 T 次特征，即 {f}，t 属于 [1, T]，即 T*D 的特征矩阵，再采用以下方法将特征压缩到特征向量 f 中。

② 时间池化（temporal pooling）：考虑最大池化和平均池化，即：

论文阅读笔记（十三）【arxiv2018】：Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

③ 时间注意力（temporal attention）：应用注意力权重，设第 c 个视频段权重因子为 a，其中 t 属于 [1, T]：

论文阅读笔记（十三）【arxiv2018】：Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

Resnet-50的最后卷积层规格 [w, h, 2048]，其中 w 和 h 取决于输入图片的尺寸。

注意力提取网络的输入规格 [T, w, h, 2048]，输出 T 个注意力得分。

考虑两种注意力网络：

　　空间卷积+全连接（spatial conv + FC）：卷积层规格（kernel = w*h，input channel number = 2048，output channel number = d），全连接层规格（input channel number = d，output channel number = 1），输出结果为 s，其中 t 属于 [1, T].

　　时空联合卷积（spatial + temporal conv）：先通过空间卷积层（kernel = w*h，input channel number = 2048，output channel number = d），再通过时间卷积层（个人理解参数3的含义是每个元素是由三帧计算而得，input channel number = d，output channel number = 1），输出结果为 s，其中 t 属于 [1, T].

使用softmax计算注意力得分 a：

论文阅读笔记（十三）【arxiv2018】：Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

结合正则化（使用sigmoid函数）：

论文阅读笔记（十三）【arxiv2018】：Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

④ RNN：考虑两种方法：

　　直接把隐藏层元素 h 作为最后结果，即：

　　论文阅读笔记（十三）【arxiv2018】：Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

　　计算 RNN 输出 {o} 的平均值，即：

　　论文阅读笔记（十三）【arxiv2018】：Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

（2）损失函数：

考虑两种损失函数，三元组损失（Batch Hard triplet loss）和交叉熵损失（Softmax cross-entropy loss）。

每个batch含有 P 个行人视频，每个视频含有 K 个视频片段，即每个batch含有 PK 个视频片段，三元组损失为：

论文阅读笔记（十三）【arxiv2018】：Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

交叉熵损失为：

论文阅读笔记（十三）【arxiv2018】：Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

如何理解？

论文阅读笔记（十三）【arxiv2018】：Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

损失函数：

论文阅读笔记（十三）【arxiv2018】：Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

（3）相似度计算：

通过 L2 距离，计算视频特征的相似度。

Evaluation

（1）实验设置：

数据集：MARS

参数设置：batch size = 32，每个行人抽取4段tracklets，learning rate = 0.0001/0.0003，视频帧的规格为 224*112.（关于batch的设置描述模糊）

（2）实验结果：

① 3D CNN实验比较：

论文阅读笔记（十三）【arxiv2018】：Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

② Temporal pooling实验比较：

论文阅读笔记（十三）【arxiv2018】：Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

③ Temporal attention实验比较：

论文阅读笔记（十三）【arxiv2018】：Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

④ RNN实验比较：

论文阅读笔记（十三）【arxiv2018】：Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP

⑤ 对比方法：

论文阅读笔记（十三）【arxiv2018】：Revisiting Temporal Modeling for Video-based Person ReID-LMLPHP