2019在AAAI(还有一版叫GaitSet: Regarding Gait as a Set for Cross-View Gait Recognition,大体上一样)

摘要

引言

GEI模式方法尽可能丰富地编码信息,但压缩过程忽略了时间信息和细粒度空间信息等重要特征

直接从原始步态轮廓序列中提取特征。这些方法保留了更多的时间信息,但当输入包含不连续的帧或具有与训练数据集不同的帧速率时,会出现显著的退化(这些古早算法还那么依赖帧率什么的啊)

(优越性提到说“快速:我们的模型直接学习步态的深度集步态表示,而不是测量一对步态模板或序列之间的相似性”,那也就是说过去的方法中还有类似孪生网络输入一对样本拟合相似度的做法吗?那复杂度有点吓人吧)

模型

集合池化

结合基本统计函数(最大、平均、中值)和求和、拼接的联合函数,以及注意力机制(公式符号看得头大,之后结合代码理解吧)
读《Gaitset: Regarding gait as a set for cross-view gait recognition》-LMLPHP

水平金字塔池化

参考自reid的条带分隔和金字塔多尺度
组合最大池化和平均池化
读《Gaitset: Regarding gait as a set for cross-view gait recognition》-LMLPHP

MGP

读《Gaitset: Regarding gait as a set for cross-view gait recognition》-LMLPHP
为了收集不同的水平集信息,提出了一种多层全局管道(MGP),它与主管道中的卷积网络具有相似的结构,但是独立的参数不共享,保留步态细节

训练

Batch All (BA+) triplet loss

实验

数据集

CASIA的大中小划分:
在ST中,前24 名受试者(001-024)用于训练,其余 100 名受试者用于测试。
在 MT 中,前 62 个(001-062)用于训练,其余 62 个用于测试。
在 LT 中,前 74 个(001-074)用于训练,其余 50 个主题用于测试。(代码里的基线设置是这个)
对于所有三个设置中的测试集,将 NM 条件的前 4 个序列(即 NM #1-4)保留在图库中,其余 6 个序列分为 3 个探针子集,即 NM 子集 #5-6、包含 BG #1-2 的 BG 子集和包含 CL #1-2 的 CL 子集。

对比实验

依然是垂直视角好一些,正对着摄像头的0或180不好
换装效果有限,主要还是因为衣服会对四肢、体型造成干扰,并且训练过程中也很少学到换装(讲道理也不该学,毕竟应用场景中一个人可能会换任何未知的衣服,又不是reid)

消融

集合化比GEI效果好,因为时空信息被保留,并且训练时随机从序列中抽帧相当于数据增强了

集合池化
MGP
HPM

这里设计独立FC有利于准确率和训练效率(所以后续的代码中都有了separate FC吗)

训练策略

需要关注dropout和bn

维度

更丰富的实验

更少的轮廓帧

输入不同视角的数据

将背包、换装纳入图库,并组合输入

10-19 20:04