1. 论文信息

论文标题： 《FCOS: Fully Convolutional One-Stage Object Detection》

论文来源：ICCV2019
论文链接：https://arxiv.org/abs/1904.01355
论文代码：https://github.com/tianzhi0549/FCOS/

20211119114214

@inproceedings{tian2019fcos,
  title={Fcos: Fully convolutional one-stage object detection},
  author={Tian, Zhi and Shen, Chunhua and Chen, Hao and He, Tong},
  booktitle={Proceedings of the IEEE/CVF international conference on computer vision},
  pages={9627--9636},
  year={2019}
}

2. 归纳总结

标签	目的	方法	总结
#Anchor-Free #单阶段	解决Anchor-Base算法超参数设置复杂，计算量大的问题	FCN，Center-ness	Anchor-Free经典算法

3. 主要工作

FCOS是一种基于全卷积的单阶段目标检测算法，并且是一种Anchor box free的算法。其实现了无Anchor，无Proposal，并且提出了Center-ness的思想，极大的提升了Anchor-Free目标检测算法的性能。

Anchor free的好处是：

避免了Anchor Box带来的复杂计算，如计算重合度IoU；
避免了Anchor Box相关的超参数设置，其对性能影响较大；

因此，FCOS的优点是：

其可以和其他使用FCN结构的任务相统一，方便其他任务方法之间的re-use
proposal free和anchor free，减少了超参数数量，更简单
减少了计算复杂度，如IoU计算
FCOS在单阶段算法中性能不错，并且证明了FCOS替换两阶段算法里的RPNs也可以取得更好的性能
适用于各种instance-wise的预测问题

3.1 模型结构

模型结构如下图：

FCOS包含三个大模块：

Backbone：提取图像特征，如结构图左侧所示，其中特征图尺寸逐层减半，如左侧$H×W$所示，$s=\frac{W^*}{W}$代表步长。对于坐标为$(x,y)$的位置，其映射回原图为$(\lfloor\frac{s}{2}\rfloor + xs,\lfloor\frac{s}{2}\rfloor+ys)$;
FPN：多层级预测，提高检测器对不同尺寸目标的检测性能；与Anchor Based不同的是，FCOS通过限制不同层级边界框回归范围来分配层级
Classification+Center-ness+Regression Head

对于FCOS，其直接将每个位置$(x,y)$视为训练样本，其需要回归的值为一个4维向量$t=(l,t,r,b)$，如上图所示。
由于一张图片中的目标数量有限，所以导致基于Anchor的算法会产生更多的负样本，因此FCOS对于每个像素点只回归一组值（可以理解为Anchor数量为1），可以利用更多的前景（正）样本信息去训练。如果坐标落在任何ground-truth box中即为正样本，且该位置的类别为这个gt box的类别$c^{ * }$ ，否则为负样本（即背景，类别为0），如果落在多个gt box中，则认为其是一个歧义样本（ambiguous sample），针对这种情况，可通过FPN解决。计算 $(l^*, t^*, r^*, b^*)$，$m_i$为每个特征层最大距离（论文里作者设置$m_2$ ~ $m_7$分别为0，64，128，256，512，$\infty$），如果$\max(l^*, t^*, r^*, b^*) > m _ i$ 或者 $\max(l^*, t^*, r^*, b^*) < m _ {i−1}$,则此位置为负样本，不进行计算；对于大小相近又存在重叠的gt box，FPN无法区别，则选择面积最小的gt box为回归目标。

3.2 正负样本定义

一个目标检测算法性能的优异性，最大影响因素就是如何定义正负样本。而FCOS的定义方式非常通俗易懂。主要分为两步：
(1) 设置regress_ranges=((-1, 64), (64, 128), (128, 256), (256, 512),(512, INF)，用于将不同大小的bbox分配到不同的FPN层进行预测即距离4条边的最大值在给定范围内
(2) 设置center_sampling_ratio=1.5,用于确定对于任意一个输出层距离bbox中心多远的区域属于正样本（基于gt bbox中心点进行扩展出正方形，扩展范围是center_sample_radius×stride，正方形区域就当做新的gt bbox），该值越大，扩张比例越大，选择正样本区域越大；（细节：如果扩展比例过大，导致中心采样区域超过了gt bbox本身范围了，此时需要截断操作）