Skip to content

Latest commit

 

History

History
37 lines (32 loc) · 1.64 KB

RGMP.md

File metadata and controls

37 lines (32 loc) · 1.64 KB

Fast Video Object Segmentation by Reference-Guided Mask Propagation

cvpr git

Introduction

  1. VOS依赖两方面的线索
    1. temporal coherence of object motion,可以把VOS看做Mask propagation,也就是pixel-level tracking,但这种方法对遮挡和快速运动敏感,易产生漂移
    2. 基于检测[5, 27, 45],由于没有依赖时序信息,对遮挡和漂移鲁棒,但过于依赖appearance,难区分distractror

Method

RGMP

  1. Siamese encoder
  2. Global convolution block:用于global特征匹配,并行了一个两个kernel为7的conv
  3. Decoder
  4. 训练策略:
    1. 两步训练,现在静态数据上训,再tune DAVIS
    2. 对于一个静态图片,用不同的数据扩增方式形成图像对
    3. 对于一个前景目标和一个背景图片,对前景做不同的变换放到背景图上

Experiment

  1. Ablation ablation_RGMP
    1. -Ref表示Siamese reference分支输出为0
    2. -Prev表示不使用前一帧的mask
    3. -PT表示没有预训练
    4. -FT表示没有fine tune
    5. -Rec表示fine tune时没有在时间上传播 add_on_RGMP
    6. +OL表示首帧更新
  2. Results on DAIVS 2016, 2017 Davis16 Davis17 看起来很好,但是Table 1中其他方法都直接在DAVIS16上训,没有预训练

Thoughts

整体方案简单有效,利用前一帧的mask来指导当前帧mask产生,没有后处理过程。Global Conv部分有改进的空间。