Reading/ToBeContinued/extension.md at master · HuangSecretKey/Reading · GitHub

[TOC]

Bag of Freebies for Training Object Detection Neural Networks

arXiv 机器之心 cver 混合图像内容来训练检测网络

Attention is All you need

Improved Selective Refinement Network for Face Detection

arXiv cver zhihu

Data Augmentation：data-anchor-sampling
Feature Extractor：New-ResNet-18
Training Strategy：
1. double thetraining epoch to 260 epochs and train the model with modified backbone from scratch
2. Group Normalization
3. pretraining on COCO
尝试无用的策略
1. Decoupled Classification Refinement
2. Segmentation Branch: element-wise(空间) attention
3. Squeeze-and-Excitation (SE) Block: channel-wise attention

AD-VAT: An Asymmetric Dueling mechanism for learning Visual Active Tracking

主动视觉跟踪（Visual Active Tracking）:智能体根据视觉观测信息主动控制相机的移动，从而实现对目标物体的跟踪（与目标保持特定距离）
深度强化学习的局限
1. 深度强化学习需要通过大量试错来进行学习，而直接让机器人在真实世界中试错的代价是高昂的
2. 使用虚拟环境进行训练，但难以克服虚拟和现实之间的差异
基于对抗博弈的强化学习框架用于主动视觉跟踪的训练
1. 跟踪器要尽量跟随目标
2. 目标要想办法脱离跟踪
直接构造成零和游戏进行对抗训练是十分不稳定且难以收敛的, 解决方法有
1. partial zero-sum reward: 仅鼓励跟踪器和目标在一定相对范围内进行零和博弈
2. tracker-aware model: 除了其自身的视觉观测外，还额外获得了跟踪器的观测和动作输出作为模型的输入。

Multi-Object Tracking with Multiple Cues and Switcher-Aware Classification

Using SOT Tracker for Short Term Cues 短期线索
Using ReID Network for Long Term Cues 长期线索
Switcher-Aware Classifier用于决策匹配, 其实就是对检测器和跟踪器的信任程度

Augmentation for small object detection

MS COCO中，训练集中出现的所有目标中有41.43％是小的，而只有34.4％和24.2％分别是中型和大型目标;另一方面，只有约一半的训练图像包含任何小物体，而70.07％和82.28％的训练图像分别包含中型和大型物体。
Oversampling: 创建了多个图像副本，对这些带有小目标的图像进行过采样
Augmentation
1. 复制并粘贴每个图像中的所有小目标一次
2. 用带有 copy-pasted 的小目标的图像替换每个图像
Copy-Pasting Strategies
1. 选择一个小目标，并在随机位置复制粘贴多次
2. 选择了许多小目标，并在任意位置复制粘贴这些目标一次
3. 在随机位置多次复制粘贴每个图像中的所有小目标，保留原始图像和增强副本
Pasting Algorithms
1. 必须确定粘贴的目标是否会与任何其他目标重叠
2. 是否执行添加过程以平滑粘贴对象的边缘是一种设计选择。我们试验具有不同滤波器尺寸的边界的高斯模糊是否可以帮助进一步处理。

Scale-Aware Trident Networks for Object Detection

arXiv zhihu git

回顾
1. image pyramid：直接对图像进行不同尺度的缩放，然后将这些图像直接输入到detector中去进行检测
2. feature pyramid (FPN): 直接在feature层面上来近似image pyramid
3. backbone有哪些因素会影响性能: network depth（网络越深表示能力更强），downsample rate(下采样次数过多对于小物体有负面影响)和receptive field。
实验结论：更大的receptive field对于大物体性能会更好，更小的receptive field对于小物体更加友好。
TridentNet在原始的backbone上做了三点变化
1. 构造了不同receptive field的parallel multi-branch
2. trident block中每一个branch的weight是share的
3. 每个branch，训练和测试都只负责一定尺度范围内的样本，也就是所谓的scale-aware