Press "Enter" to skip to content

ECCV 2022 | ProbEn:基于概率融合的多模态目标检测

前言本文研究了使用RGB和热敏相机的多模态目标检测,提出了一种融合不同模态信息的策略——概率融合技术ProbEn,融合来自多模态的检测。

 

从Bayes规则和假设条件独立性的基本原理推导出ProbEn。通过概率边缘化,ProbEn处理缺失模态时,检测器不扫描同一目标。即使条件独立假设不成立,ProbEn也显着改善了多模态检测。

 

在包含对齐(KAIST)和未对齐(FLIR)多模态图像的两个基准上验证了ProbEn,表明ProbEn在相对性能上优于先前的工作超过13%。

 

欢迎关注公众号 CV技术指南 ,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。目前公众号正在征稿中,可以获取对应的稿费哦。

 

QQ交流群: 444129970。群内有大佬负责解答大家的日常学习、科研、代码问题。

 

 

论文: arxiv.org/abs/2104.02…

 

代码: github.com/Jamie725/RG…

 

创新思路

 

目标检测是一个典型的计算机视觉问题,通过深度神经检测器的端到端训练,该问题得到了极大的改进。由白天和晚上都运行的驾驶车辆驱动,本文使用RGB和热敏相机研究多模态目标检测。

 

多通道数据

 

多模态检测存在以下挑战:**缺乏数据。虽然有大量的带注释的单模态数据集和预训练模型的存储库,但其他模态的注释数据要少得多,配对时的注释就更少了。**一个经常被忽略的方面是模态的对齐:对RGB和热图像进行对齐需要特殊用途的硬件,例如,用于空间对齐的波束分束器或专用机架,以及用于时间对齐的GPS时钟同步器。

 

多通道融合

 

多模态检测的核心问题是如何融合不同模态的信息。以往的研究已经探索了不同阶段的融合策略,通常分为早融合、中融合和晚融合。早融合构建一个四通道的RGB和热图像输入,然后由一个深度网络进行处理。过去绝大多数的工作都集中在架构设计的地方和如何融合。

 

本文的关键贡献**是通过检测器集合来探索在单独模态上训练的检测器的晚融合的极端变体。**虽然概念上很简单,但集成是有效的,因为可以从单模态数据集中学习,而单模态数据集通常会使多模态数据集的规模相形见绌。

 

概率融合(ProbEn)

 

本文从Bayes规则和假设条件独立性的基本原理推导出ProbEn:如果单模态信号在给定真实标签的情况下是条件独立的,那幺最优融合策略由Bayes规则给出。ProbEn不需要学习,因此不需要任何多模态数据进行训练。重要的是,**ProbEn通过概率边缘化处理“缺失”模态。**虽然ProbEn是假设条件独立性导出的,但通过实验发现,它可以用于融合来自其他融合方法(包括现成的和内部训练的)的输出,而不是严格独立的输出。在这个意义上,ProbEn是集成检测器的通用技术。

 

方法

 

多模态检测的融合策略

 

本文提出了用于检测的多模态融合策略。首先指出,单模态检测器是处理多模态信号的可行方法,因此将其作为基线。还包括早融合的融合基线,其将RGB和热图像连接为四通道输入,以及中融合,其连接网络内的单模态特征(图2)。

 

 

图2所示。中后期融合的高层次比较。(a)过去的工作主要集中在中融合(b)通过融合来自独立检测器的检测,用于后融合。

 

Naive Pooling。最简单的策略是将来自多个模态的检测简单地集中在一起。这可能会导致多个检测重叠同一ground-truth目标(图1a)。作者描述了从不同模态中后期融合检测器的策略,或检测器集成。

 

 

图1所示。多模态检测通过集成单模态检测器。(a)从每一种模态汇集探测结果 (b)应用非极大值抑制(NMS)来抑制来自不同模态的重叠检测,返回最大评分检测。

 

**非极大值抑制(NMS)。**处理重叠检测的解决方案是NMS,它是RGB检测器中的关键组件。NMS具有高空间重叠的边界框预测,并移除得分较低的边界框。这可以通过按置信度排序预测的顺序方式来实现,如算法1所示。

 

 

虽然NMS已用于集成单模态检测器,但并未提倡多模态检测器的融合。当来自两个不同模态的两个检测重叠(例如,IoU>0.5)时,NMS简单地保持较高分数检测并抑制另一个(图1b)。NMS不是在全局图像级别选择一个模态,而是在局部边界框级别选择一种模态。

 

**概率融合(ProbEn)。**假设有一个带有标签y的目标(例如“人”)和来自两种模态的测量信号:x1(RGB)和x2(热)。假设在给定目标标签y的情况下,测量值是条件独立的:

 

 

如果该预测不会改变热信号x2的给定知识,则条件独立性成立。根据多模态测量推断标签:

 

 

通过应用(1)至(2)的条件独立性假设,得到:

 

 

上述提出了一种简单的融合方法,当单模态特征条件独立于真实目标标签时,该方法可证明是最优的:

 

1.训练独立的单模态分类器,在给定每个单独特征模态p(y|x1)和p(y | x2)的情况下预测标签y上的分布。

 

2.通过将两个分布相乘,除以类先验分布,并将最终结果(4)归一化为和,以产生最终分数。

 

为了获得类先验p(y),可以简单地规范化每个类示例的计数。将ProbEn(4)扩展到M个模态:

 

 

**缺失的模态。**当融合“缺失”模态时,求和和和求平均的表现截然不同。不同的单模态检测器通常不会对同一物体扫描。为了输出高于置信阈值的检测的最终集合,需要将来自融合多模态检测的分数与单模态检测进行比较,如图3所示。ProbEn处理缺失模态,因为概率归一化的多模态后验p(y|x1,x2)可以直接与单模态后验p(y124;x1)进行比较。

 

 

图3.缺失的模态。

 

**边界框融合。**将ProbEn扩展到重叠检测的概率融合边界盒(bbox)坐标。假设单模态检测提供后验p(z | xi),其采用高斯形式,具有单方差σ2i。还假设p(z)上的一致先验,这意味着bbox坐标可以位于图像平面中的任何位置:

 

 

等式(8)提出了一种概率融合盒坐标的简单方法:计算盒坐标的加权平均值,其中权重由逆协方差给出。

 

实验

 

 

表1.KAIST上的消融实验。

 

 

表2. 对KAIST上的基准测试。

 

 

表3.FLIR昼夜场景的消融实验。

 

 

图6.用RGB(顶部)和热图像(中部和底部)覆盖在两个FLIR测试图像(列)上的检测。

 

结论

 

本文研究了对齐和未对齐RGB和热图像下的多模态检测的不同融合策略——非学习概率融合ProbEn。其强大性能的关键原因在于:(1)它可以利用在大规模单模态数据集上训练的高度调谐的单模态检测器,以及(2)它可以处理特定模态的缺失检测,这是融合检测时常见的情况。

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注