时间原因没有认真读论文和看代码，看了一下下Up主-霹雳吧啦Wz的讲述，记录一下自己认为的yolo多次迭代版本的核心设计，以达到临阵磨枪，不快也光的目的。

论文：

【Yolov1】You Only Look Once: Unified, Real-Time Object Detection (2016 CVPR)
【Yolov2】YOLO9000: Better, Faster, Stronger (2017 CVPR)
【Yolov3】YOLOv3: An Incremental Improvement
【Yolov4】Optimal Speed and Accuracy of Object Detection
【Yolov5】Github
【YolovX】YOLOX: Exceeding YOLO Series in 2021

总结下来我认为该系列的核心设计有几个方面：

数据增强方式
多尺度特征提取网络结构的设计、多尺度检测头
多尺度anchor（部分版本）
定位损失函数的设计

个人总结

个人总结Yolo系列比较work的地方，包括

数据增强：Mosaic，Copy-Paste、Random affine、Mixup、Albumentations、Augment HSV(Hue, Saturation, value)
网络结构：特征提取层（残差）、多尺度特征提取（SPP，SPPF）、多尺度检测头（通过聚类得到的anchor template）
损失函数：IoU、GIoU、DIoU、CIoU，Focus Loss.
定位纠正：Eliminate grid sensititive-使纠正区间在合理范围，IoU threhold-提高正样本数
训练策略：multi-scale training，

Yolov1

Yolov1系列的核心想法是将图像分成 $S\times S$ 网格(实操中通过32倍下采样成 $S\times S$ 的像素点的特征图)，在计算损失阶段，每个网格只计算中心点落在该网格的物体的定位和分类误差。

往往每个网格都要需要负责预测$B$个定位框，而对于每个框要预测5个参数，分别是bounding box的的位置(4个参数)，用对角线的两个点 $(bx_1, by_1, bx_2, by_2)$ 来表示或者用一个点加框的宽高来表示 $(bx, by, width, height)$ ，还有1个参数是判断bounding box是否含物体的置信度（往往理解为预测的框和ground truth的IOU）。

除此之外每个网格还要负责预测这个网格中 $C$ 个类别的概率，代表该网格中物体的分类结果，当然这样的设计也是Yolov1存在的缺陷，即每个网格中只能预测最多1个物体，同时每个网格预测的定位框是anchor-free的。

在Yolov1的实验中，$B$ 取 2，$C$ 取 20，如下图所示：

Yolov1的backbone是全卷积网络加全连接检测头，没有考虑梯度消失和尺度的问题。

从损失函数的设计上，是定位损失、置信度损失和分类损失的加权和，用的均是误差平方和，其中定位损失的w和h使用了开发的误差平方和是为了降低定位损失对大尺寸物体的敏感度(权重)，即在相同的偏置x，y的定位误差上，大物体的总体定位误差更小。

Yolov2

改进的点：

Batch Normalization (代替dropout对模型进行正则化)
High Resolution Classifier ( $224\times 224\rightarrow 448\times 448$ )
Convolutional With Anchor Boxes
Dimension Clusters
Direct location prediction
Fine-Graied Features
Multi-Scale Training

Yolov2的核心思想是：通过K-means聚类的方法获取数据集的目标的尺寸的先验信息作为anchor template（论文中K=5），于是通过聚类得以得到不同尺度大小的anchor template，下一步是要把anchor template应用到定位中，对于每个网格都有 K 个anchor template，其中心位于网格左上角，希望网络来学习anchor长和宽的调整，以及anchor中心位置的调整。

而对于中心位置的调整，希望通过损失函数的设计使每个网格中anchor位置的偏移不超出网格的位置，这样的设计是为了让每个网格的anchor仅负责该网格的定位，其通过以下方式来实现，其中 $(t_x, t_y, t_w, t_h)$ 为网络的输出，而 $(b_x, b_y, b_w, b_h)$ 为调整后用来计算定位损失的参数， $\sigma$ 为sigmoid函数，将输入映射到 $0\sim1$ 的范围，而 $(c_x, c_y)$ 表示当前网格左上角像素点较整个图像的左上角的偏移，如上图为例， $c_x, c_y$ 的范围是 $[0,2]$ 。 $(p_w, p_h)$ 表示为聚类得到的不同anchor的长宽，使用一个平滑的函数 $e^x$ 进行微调（但是 $e^x$ 的值域是不受限的，可能会出现无穷的情况，这在Yolov5中进行修改），同样分类损失结合IOU也通过sigmoid进行约束网络预测的 $t_o$ 的范围。

网络结构：采用了和ResNet类似的DarkNet作为backbone，对高尺度的信息做了PassThrough Layer特征重排降维，最后通过concatenation融合高低尺度特征。

Yolov3

我认为Yolov3的核心是多尺度anchor template和多尺度检测头的提出，至于损失函数的修改并不是很重要。

网络结构：backbone去Maxpooling，多尺度检测头的引入，有大中小三个不同尺度的分类头，其中每个分类头又有3个不同anchor，所以K-means通过聚类得到9个不同尺度的anchor

损失函数的设计

Yolov3-SPP

Yolov3-SPP的核心修改是以Mosaic为主的数据增强方式和新的IoU定位损失函数。

网络结构：SPP模块

定位损失的演变：

GIoU：下图 $A_c$ 表示中蓝筐的面积，$U$ 表示两个bounding box交集的面积；

当目标框水平或者竖直平行的时候，GIoU Loss退化为IoU Loss

DIoU: 在下图的case中IoU Loss和GIoU Loss不能很好地区分三种不同的定位结果

DIoU加上定位框的中心点的考虑，加快收敛速度。

CIoU：提出一个优秀的回归定位损失应该考虑到3种几何参数：重叠面积（IoU）、中心店距离（第二项）、长宽比(第三项)。

Focal Loss用来解决检测中，正负样本数量极度不平衡的问题，其中 $\alpha$ 是用来平衡正负样本权重的参数， $p_t$ 是用来平衡难易样本权重的参数，对难分的样本给予更大的权重。

$\text{FL}(p_t)=-\alpha_t(1-p_t)^\gamma \log(p_t). \text{FL}(p)\\ \begin{cases} -\alpha(1-p)^\gamma \log(p)\;\;\text{if }y=1 \\ -(1-\alpha)p^\gamma \log(1-p)\;\;\text{otherwise} \end{cases}$