[TOC]
- Data Augmentation:data-anchor-sampling
- Feature Extractor:New-ResNet-18
- Training Strategy:
- double thetraining epoch to 260 epochs and train the model with modified backbone from scratch
- Group Normalization
- pretraining on COCO
- 尝试无用的策略
- Decoupled Classification Refinement
- Segmentation Branch: element-wise(空间) attention
- Squeeze-and-Excitation (SE) Block: channel-wise attention
- 主动视觉跟踪(Visual Active Tracking):智能体根据视觉观测信息主动控制相机的移动,从而实现对目标物体的跟踪(与目标保持特定距离)
- 深度强化学习的局限
- 深度强化学习需要通过大量试错来进行学习,而直接让机器人在真实世界中试错的代价是高昂的
- 使用虚拟环境进行训练,但难以克服虚拟和现实之间的差异
- 基于对抗博弈的强化学习框架用于主动视觉跟踪的训练
- 直接构造成零和游戏进行对抗训练是十分不稳定且难以收敛的, 解决方法有
- partial zero-sum reward: 仅鼓励跟踪器和目标在一定相对范围内进行零和博弈
- tracker-aware model: 除了其自身的视觉观测外,还额外获得了跟踪器的观测和动作输出作为模型的输入。
- Using SOT Tracker for Short Term Cues 短期线索
- Using ReID Network for Long Term Cues 长期线索
- Switcher-Aware Classifier用于决策匹配, 其实就是对检测器和跟踪器的信任程度
- MS COCO中,训练集中出现的所有目标中有41.43%是小的,而只有34.4%和24.2%分别是中型和大型目标;另一方面,只有约一半的训练图像包含任何小物体,而70.07%和82.28%的训练图像分别包含中型和大型物体。
- Oversampling: 创建了多个图像副本,对这些带有小目标的图像进行过采样
- Augmentation
- 复制并粘贴每个图像中的所有小目标一次
- 用带有 copy-pasted 的小目标的图像替换每个图像
- Copy-Pasting Strategies
- 选择一个小目标,并在随机位置复制粘贴多次
- 选择了许多小目标,并在任意位置复制粘贴这些目标一次
- 在随机位置多次复制粘贴每个图像中的所有小目标,保留原始图像和增强副本
- Pasting Algorithms
- 必须确定粘贴的目标是否会与任何其他目标重叠
- 是否执行添加过程以平滑粘贴对象的边缘是一种设计选择。我们试验具有不同滤波器尺寸的边界的高斯模糊是否可以帮助进一步处理。
- 回顾
- 实验结论:更大的receptive field对于大物体性能会更好,更小的receptive field对于小物体更加友好。
- TridentNet在原始的backbone上做了三点变化
- 构造了不同receptive field的parallel multi-branch
- trident block中每一个branch的weight是share的
- 每个branch,训练和测试都只负责一定尺度范围内的样本,也就是所谓的scale-aware