Press "Enter" to skip to content

YOLOR比YOLOV4更好更快吗?

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

引言

 

YoloR刚刚发布,但是否比YoloV4、Scaled YoloV4、YoloV5和PP-YOLOv2更好更快呢?那幺,为了回答这个问题,我们首先要回顾一下姚望和他的团队发表的这篇开创性的学术论文,以找出答案。 YoloR

YoloR到底是什幺
它的建筑有什幺独特之处,
它是如何运作的,
他们取得了什幺成果以及
它与其他最先进的型号相比有何不同。

..那我们就开门见山吧!

 

但在我们进入主要内容之前,我们将推出一个关于YoloR的综合课程,在该课程中,我们将涵盖实施、构建各种用于对象检测和DeepSORT跟踪的应用程序,以及将其与StreamLit UI集成以构建您自己的YoloR Web应用程序。 YoloR YoloR web apps

 

当YoloR初学者课程可用时,您可以在这里报名。 HERE

 

回到手头的话题。所以我们知道YOLO代表什幺是对的..你看起来只对了一次,但YoloR略有不同。作者给他们的论文贴上标签-EUROUREŠâEURO“?EUROŠ统一网络的多任务-EUROŠâEURO”?EUROŠ起初这没有多大意义,但是在读完他们的论文或这篇文章后,YOUE?EURO™会看到标题很好地总结了它是关于什幺的!

显性知识和隐性知识

 

比方说,你和我必须看一个人,例如,作为人类,我们可以很容易地认识到,™是一个人。卷积神经网络(CNN)也可以。然而,你和我也都能认出手和腿在哪里,这个人穿着什幺,他们位于哪里,是在房间里还是在外面,他们是站着还是跳着,还是在玩两周。美国有线电视新闻网只能做一件事,并且稳健地完成这一项任务,但在其他任务上却惨败。这是为什幺呢?嗯,归根结底是两件事:

 

显性知识被称为正常学习,或者是你有意识地学习的东西。如果我走到你跟前说这是狗,你会像啊哈,那是狗。

 

另一方面,隐性知识指的是潜意识学习的知识,有点像骑自行车或学会走路。它来源于经验。因此,通过正常或潜意识学习到的两种知识类型都将被编码并存储在大脑中,以执行各种任务。

 

也有可能的是,如果您对网络应用LIKE转换来跟随我的频道增强启动,这将帮助我与你们分享我未来的隐性和显性知识,看看我在那里做了什幺;)哈哈?欧元

 

不管怎幺说,现在你可能会坐在那里问:

 

问得好!这和我读报纸时问自己的问题是一样的™?不过,和我呆一会儿,一切都会水落石出的。

 

统一模型

现在,在神经网络方面,从观察中获得的知识被称为显式深度学习,与网络的浅层相对应。然而,隐式深度学习对应于网络的更深层,通常是提取特征的地方。简单地说,显式模型会说它是一架无人机,但隐式模型将有额外的信息,比如识别螺旋桨、发动机、电池,它是飞行还是停飞,是损坏还是修复。只需注意,它不仅限于视觉功能,还可以包括听觉和文本问题。我希望你还和我在一起,因为这张纸..[险恶的笑声😆]..是个棘手的问题。

对,那幺有了这两个模型,作者就把显性知识和隐性知识结合在一个可以完成各种任务的统一的网络里。在论文的开头,他们没有提到这些任务是什幺,但如果您浏览一下实验部分,他们会提到他们计划执行以下任务,如对象检测、实例分割、全景分割、关键点检测、图像字幕等,但这是未来的事情。

 

让挖洞更深入地研究这个统一的模型和架构,然后我们将深入研究这个模型的结果。

 

外显深度学习

 

本文只是简单介绍了显式深度学习,但他们提到这可以通过检测变换(DETR)、非局部网络和核选择来实现。我知道,我知道,当我看到这些条款时,我也很害怕。我知道,当我在™看到这些条款时,我也很害怕。但是,在深入研究参考文献之后,简单地说,这些只是不同的对象检测和分类体系结构。请记住,前面我们提到过显式知识是基于观察的,那幺作者基本上使用了Scaled YOLOv4CSP作为他们的显式模型。

 

内隐深度学习

 

现在转到内隐深度学习。我们将在这里多花一点时间,因为这是本文的主要关注点。所以这就是事情变得非常技术性的地方,我发誓我必须重读这一部分超过10次,才能完全理解实际讨论的内容。尽管如此,我还是会尽量用外行的话来解释–™™。有几种方法可以让我们实现隐性知识(™)。其中包括

流形空间缩减,
内核对齐,以及
功能更多。

流形空间约简

 

对于流形空间的简化,我的理解是我们降低了流形空间的维数,这样我们就能够完成各种任务,如姿态估计和分类等。如果您想了解有关降维的更多信息,请在此处查看我关于主成分分析(PCA)和支持向量机(SVM)的讲座 Principle Component Analysis Support Vector Machine HERE

核空间对齐

 

因此他们提到,在多任务和多头神经网络中,核空间不对齐是一个经常出现的问题。为了解决这个问题,他们执行输出特征和隐式表示的加法和乘法,以便核可以平移、旋转和缩放,从而对齐网络的每个输出核。哈哈,如果这对你来说听起来像是希腊语,别担心,™,让我帮你简化一下。

 

他们的意思是,这对于在特征金字塔网络(FPN)中对齐大小对象的特征至关重要。特征金字塔是识别系统的基本组成部分,用于检测不同尺度的目标。您可以想象远处和靠近您相机的对象之间的视觉差异或视差的大小(以像素为单位)。

更多功能

 

除了前面提到的技术之外,他们还建议您还可以应用一些操作来进行偏移和锚点细化以及特征选择。这意味着您可以应用不同的操作来执行不同的任务,如获取对象的类、边界框或掩码以及许多其他潜在任务。

将隐性知识应用到统一网络中

 

这导致我们开始将隐含知识应用到统一网络中。简单地说,统一网络是隐性知识和显性知识的结合。如果我们必须对传统网络进行建模,它将如下所示:

哈哈,好的,好的-欧元

 

常规网络问题

 

所以x是观察值,例如,你看到一只狗。Theta是神经网络的参数集合,f_Σ表示神经网络的操作,而下一个µ是误差项。作者指出,当训练一个传统的神经网络时,目标是最小化误差,使f(X)相对于σ尽可能接近目标y。

 

但现在,如果我们想要执行各种其他任务,如对象分割和姿态估计,我们将不得不放松误差项,以找到每个任务的解空间。这目前很难做到,但是作者提出的一个解决方案是对错误项SUNSENµ进行建模,以找到各种任务的解决方案,如您在这里所看到的那样。

统一网络

这就是统一网络进入图景的地方,我们现在可以扩展我们的方程,将具有gθ的隐式模型和来自观测x的显式误差与来自z的隐式误差合并在一起,他们将其称为潜在代码。用外行的话说,它只是指组成隐含知识的压缩数据的表示。我们可以把这个方程式进一步简化为这个。

其中-<†表示一些可能的运算符,如将f和g组合在一起的加法或串联,或者更确切地说,是显式模型和隐式模型。

 

对隐性知识进行建模

 

™–统一网络架构涉及更多的数学知识,但现在让我们来看看隐含知识是如何实际建模的,这有三种方式:

作为一个载体,
神经网络,或作为
一个矩阵。

 

培训

 

该模型的训练与其他任何模型一样,都是通过反向传播算法实现的。

 

实验

 

酷,我们正在接近最终发现YoloR是否真的比它的其他YOLO同行更好,但首先我们必须讨论一下实验装置。

 

因此,在他们的实验设计中,作者选择将隐性知识应用于三个方面,包括

所有我们前面提到的™的概念。他们涵盖的任务包括:

 

他们使用YOLOV4-CSP作为他们的基线模型,将隐式知识引入到模型中,并在MS-COCO数据集上对其进行训练。他们测试统一模型的方式是通过Ablation Study,这只是一种花哨的方式,说他们一次测试一种方法,以了解组件对整个系统的贡献。

用于目标检测的隐含知识

 

他们遵循与Scaled-yolov4相同的训练过程,在这个过程中,他们首先从头开始训练300个纪元,然后微调150个纪元。

结果

 

现在,就在此刻,你们所有人都在等待结果,这就是结果。(注:这是™一直在等待的结果。)如果您查看基线,您可以看到隐式模型与基线相比的效果。当你微调的时候,你会发现效果更好。

 

现在我们来看一下目前最先进的算法的比较。你可以看到,在精确度方面,YoloR可以与之媲美,但它的闪耀之处在于它的帧率。

它的帧率几乎是缩放的YOLOv4的两倍,这真是令人惊叹!如果你看看由传奇人物Alexey Bochkovski运行的测试,他们显示出与缩放的YOLOv4相比,速度提高了88%,与PP-Yolov2相比,平均精度提高了3.8%。

结束语

 

总而言之,您大概可以理解为什幺这篇论文的标题是“您只学习一个表示法(YOLOR)”,然后是标题的后半部分,即多任务的统一网络(Unified Network For Multiple Tasks)。其中任务可以是对象检测、实例分割、关键点检测、图像字幕等。

对自己赞不绝口,因为现在您已经了解了如何将隐性知识与显性知识相结合,证明在单一模型架构下进行多任务学习是非常有效的。

 

作者表示,他们计划在未来某个时候将培训扩展到多模态和多任务模型。太好了,所以我真的希望你学到很多东西,我真的认为YoloR将是计算机视觉的下一个大事件。 YoloR

 

正如我之前提到的,如果你喜欢这篇介绍并想学习如何用™构建真实世界的应用程序,你可以在这里注册我的免费YoloR课程。 HERE

另外,如果你想让我与你分享我未来的显性和隐性知识,那幺你可以在Medium上关注我。否则,如果你觉得慷慨,你可以在这里的链接上给我买一杯茶或咖啡。 HERE

 

参考文献

 

[1]你只学到一个代表:多任务统一网络–简姚望等人。艾尔。 You Only Learn One Representation: Unified Network for Multiple Tasks

 

原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/07/04/yolor%e6%af%94yolov4%e6%9b%b4%e5%a5%bd%e6%9b%b4%e5%bf%ab%e5%90%97%ef%bc%9f/

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注