论文笔记：Tracking by Natural Language Specification

Tracking by Natural Language Specification
2018-04-27 15:16:13

Paper: http://openaccess.thecvf.com/content_cvpr_2017/papers/Li_Tracking_by_Natural_CVPR_2017_paper.pdf

Code: https://github.com/QUVA-Lab/lang-tracker

The Proposed Models：

本文更加关注的是 Model III：联合文本和图像进行跟踪

论文笔记：Tracking by Natural Language Specification-LMLPHP

Attention Model.

　　Why：随着跟踪的进行，刚开始能够很好描述第一帧情况的语言描述，可能已经不再适用于后续的视频帧。所以，我们需要随着跟踪的进行，关注文本中不同的单词描述（Therefore, we develop an attention model in the language tracking network to selectively focus on parts of the lingual specification about the visual target）。

　　How：我们首先将单词映射成 vector，然后用 LSTM network 来从 the word sequence，产生 hidden states $h_i$。不同于简单的利用最后一个时刻的 hidden state，我们计算这些 hidden states 的加权求和：

　　论文笔记：Tracking by Natural Language Specification-LMLPHP

　　其中，权重代表了单词的重要性。这些权重是通过一个多层感知机（MLP) 基于每一个单词位置的 hidden states 以及目标 B 的 visual features z：

　　论文笔记：Tracking by Natural Language Specification-LMLPHP

　　其中，attention weights 也用 softmax 进行归一化。这个 attention 权重是通过将 visual target 和在每个单词位置的单词序列进行匹配得到的。所以，和目标物体属性相关的单词就会被赋予更高的权重。

Model III details：

　　为了得到最终的预测，我们首先将 language and visual target 的响应图进行组合。然后利用 1*1 convolution 在堆叠的 response map 上进行处理，得到：

　　论文笔记：Tracking by Natural Language Specification-LMLPHP

　　对于模型 III，我们计算 the tracking trajectory of the target：

　　论文笔记：Tracking by Natural Language Specification-LMLPHP