Press "Enter" to skip to content

小样本学习 | 尝试用于三星堆脸型目标检测

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

由于真实世界数据的固有long-tail分布,Few-shot目标检测是一个迫切而持久的问题。它的性能在很大程度上受到新类数据稀缺的影响。但是,不管数据的可用性如何,新类和基类之间的语义关系是恒定的。

 

今天分享中,研究者研究了利用这种语义关系和视觉信息,并将显式关系推理引入到新的目标检测的学习中。具体来说,通过从大量文本语料库中学习的语义嵌入来表示每个类概念。检测器被训练成将目标的图像表示投影到这个嵌入空间中。研究者还发现了使用启发式知识图的原始嵌入的问题,并提出用动态关系图来增强嵌入。因此,将 Few-shot 检测器,称为 SRR-FSD ,针对新物体的shots是鲁棒和稳定。实验表明,SRR-FSD可以在较高的 shots 下获得竞争较好结果,更重要的是,在较低的外显和内隐 shots 下,SRR-FSD的性能显着提高。提出的基准协议与隐式 shots 从预先训练的分类数据集可以作为一个更现实的设置,为未来的研究打基础。

 

 

如果我们事先了解到新类别的“自行车”看起来像“摩托车”,可以与“人”互动,并且可以携带一个“”,那幺学习“自行车”这个概念将比仅仅使用一些图片更容易。当视觉信息难以访问[ Xiaolong Wang, Yufei Ye, and Abhinav Gupta. Zero-shot recognition via semantic embeddings and knowledge graphs. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 6857–6866, 2018 ]时,这种显式的关系推理甚至更为重要。如下图:

 

 

 

Relation Reasoning

 

语义空间投影学习将视觉空间的概念与语义空间对齐。但它仍然独立地处理每个类,并且在类之间没有知识传播。因此,研究者进一步引入了一个知识图来建模它们的关系。知识图G是一个N×N邻接矩阵,代表每个相邻类对的连接强度。G通过图卷积操作[ T.N. Kipf and M. Welling. Semi-supervised classification with graph convolutional network. In International Conference on Learning Representations (ICLR) ]参与分类。从数学上看,更新的 概率预测 如下公式:

 

 

heuristic definition of the knowledge graph

 

在zero-shot或few-shot识别算法中,知识图G是基于启发式的预定义。它通常是从常识知识规则数据库中通过规则路径对子图进行采样,从而使语义相关的类具有很强的连接。例如,来自ImageNet数据集的类具有从WordNet中采样的知识图。然而,FSOD数据集中的类在语义上并不高度相关,也不像ImageNet类那样形成层次结构。研究者发现的唯一适用的启发式方法是基于来自[ Zhao-Min Chen, Xiu-Shen Wei, Peng Wang, and Yanwen Guo. Multi-label image recognition with graph convolutional networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 5177– 5186 ]的目标共现。虽然共现的统计量很容易计算,但共现并不一定等同于语义关系。

 

 

Network architecture of the relation reasoning module for learning the relation graph

 

研究者部分实验

 

FOSD在VOC数据集上的评估结果

 

 

FOSD在COCO数据集上的评估结果

 

 

基于该框架,利用少量数据对三星堆铜器雕塑家检测,具体如下:

 

下例是基于Face++的Api测试:(未检出出)

 

 

 

 

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注