Fast Video Object Segmentation by Reference-Guided Mask Propagation

Introduction

VOS依赖两方面的线索
1. temporal coherence of object motion，可以把VOS看做Mask propagation，也就是pixel-level tracking，但这种方法对遮挡和快速运动敏感，易产生漂移
2. 基于检测[5, 27, 45]，由于没有依赖时序信息，对遮挡和漂移鲁棒，但过于依赖appearance，难区分distractror

Method

Siamese encoder
Global convolution block：用于global特征匹配，并行了一个两个kernel为7的conv
Decoder
训练策略：
1. 两步训练，现在静态数据上训，再tune DAVIS
2. 对于一个静态图片，用不同的数据扩增方式形成图像对
3. 对于一个前景目标和一个背景图片，对前景做不同的变换放到背景图上

Experiment

Ablation
1. -Ref表示Siamese reference分支输出为0
2. -Prev表示不使用前一帧的mask
3. -PT表示没有预训练
4. -FT表示没有fine tune
5. -Rec表示fine tune时没有在时间上传播
6. +OL表示首帧更新
Results on DAIVS 2016, 2017 看起来很好，但是Table 1中其他方法都直接在DAVIS16上训，没有预训练

Thoughts

整体方案简单有效，利用前一帧的mask来指导当前帧mask产生，没有后处理过程。Global Conv部分有改进的空间。