Press "Enter" to skip to content

目标检测说明:YOLO v2。

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

YOLO v2-更好、更快、更强大

 

在我的对象检测解释系列之前,我讨论并介绍了YOLOv1架构。对于YOLOv2,我总结了作者添加的所有修改要点。作者介绍了很多修改,但我希望您对YOLO v1非常熟悉,因为它将帮助您更快、更好、更强大地理解YOLO v2。

 

原文:YOLO9000:更好、更快、更强:https://arxiv.org/pdf/1612.08242v1.pdf https://arxiv.org/pdf/1612.08242v1.pdf

 

上一次:

 

RCNN RCNN

 

快速RCNNFast RCNN

 

FPNFPN

 

更快的RCNNFaster RCNN

 

固态硬盘SSD

 

YOLO v1YOLO v1

 

更好的

 

作者指出,与Fast-RCNN相比,YOLO v1犯了更多的定位错误,而且召回率也相对较低。因此,针对上述问题,他们对撞击进行了如下修改:

 

1.批量归一化(BN)

 

在YOLOv1中的每一卷积层之后都引入了BN层,从而使MAP提高了约2%。

 

2.高分辨率分类器

 

YOLO v1以224×224的图像分辨率训练分类器,并将其提高到448以进行检测。然而,YOLO v2在开始训练网络进行检测之前,首先在ImageNet上将其分类器直接微调为448×448分辨率10个历元。这导致MAP提高了4%。

 

3.带锚箱的卷积

 

作者从YOLOv1中删除了完全连接的层(您可以参考我以前关于YOLOv1的文章),并使用锚框来预测边界框。此外,他们删除了一个池层,并将输入分辨率从448×448更改为416个输入图像。这样做是因为他们在我们的要素地图中需要奇数个位置,所以只有一个中心单元。结果,他们在MAP方面的表现略有下降,但在召回率方面有了很好的改善,大约为7%。

 

4.维度集群

 

与YOLO配合使用时,锚箱有两个问题。首先,我们需要为网络选择好的先例,即锚盒,这样网络就更容易学习。因此,作者在训练集包围盒上采用K-均值聚类。

 

它是这样做的:

a)他们选择如下距离函数:D(方框,质心)=1−IOU(方框,质心)。

 

b)他们用不同的k值运行K-Means,发现k=5在模型复杂性和高召回率之间提供了一个很好的折衷。

 

5.直接位置预测

 

遇到的第二个问题是模型不稳定。因此,在过去,区域建议网络t_x和t_y,而中心坐标(x,y)计算如下:

然而,这个公式是不受约束的,因此它造成了不稳定。因此,作者使用以下公式:

其中网络预测t_x、t_y、t_w、t_h和t_o(客观性)。同时,(c_x,c_y)从图像的左上角偏移,p_w和p_h是先前边界框的宽度和高度。正如你所看到的,地面真相被限定在[0,1]的范围内(S型激活)。

 

由于维数簇结合了对包围盒中心位置的直接预测,作者获得了大约5%的改进。

6.多规模培训

 

网络不固定输入图像大小,而是从以下32的倍数中随机选择不同的输入分辨率,每隔10个历元:{320352kb,…,608}。这一制度鼓励网络在各种输入维度下表现良好。此外,它还提供了速度和准确性之间的简单折衷。

更快

 

1.暗网-19

 

作者提出了一种新的主干,Darknet-19,它有19个卷积层和5个最大合并层。处理一幅图像需要55.8亿次运算,但在ImageNet上,TOP-1准确率达到72.9%,TOP-5准确率达到91.2%。

 

2.分类训练

 

作者使用了标准的扩充。首先,他们以224×224的输入分辨率训练他们提出的主干,并在更大的尺寸上进行微调,448,持续10个历元。更多详情请参考原文。

 

更强大

 

有多个数据集用于分类和检测。它们能结合在一起吗?请注意,作者提出YOLO9000,而不是YOLOv2,只是出于这个原因。他们把两个数据集结合起来,得到了9000多个班级,所以这一部分是关于YOLO9000是如何训练的。

 

1.合并

 

Microsoft Coco包含10万张图片,有80个类别、检测标签,类别比较通用,例如“狗”或“船”。
ImageNet有1300万张图片,有22000个类别,分类标签更具体,比如“诺福克梗”、“约克郡梗”或“贝德灵顿梗”。

然而,像“狗”和“诺福克梗”这样的职业是相互排斥的。

 

要进行组合,请使用WordTree:

如上所述,作者使用WordTree构建了视觉概念的分层树。因此,“诺福克梗”也被贴上“狗”和“哺乳动物”的标签。总共有9418个班。

 

2.联合分类检测

作者使用3个先验,而不是5个,来限制输出大小。
对于检测图像,损失像正常情况一样反向传播。
对于分类图像,只有分类损失在标签的相应级别或以上被反向传播。

3.结果

实现了19.7%的MAP。

 

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注