- VOS依赖两方面的线索
- temporal coherence of object motion,可以把VOS看做Mask propagation,也就是pixel-level tracking,但这种方法对遮挡和快速运动敏感,易产生漂移
- 基于检测[5, 27, 45],由于没有依赖时序信息,对遮挡和漂移鲁棒,但过于依赖appearance,难区分distractror
- Siamese encoder
- Global convolution block:用于global特征匹配,并行了一个两个kernel为7的conv
- Decoder
- 训练策略:
- 两步训练,现在静态数据上训,再tune DAVIS
- 对于一个静态图片,用不同的数据扩增方式形成图像对
- 对于一个前景目标和一个背景图片,对前景做不同的变换放到背景图上
整体方案简单有效,利用前一帧的mask来指导当前帧mask产生,没有后处理过程。Global Conv部分有改进的空间。