Press "Enter" to skip to content

【技术分享】蚂蚁将反欺诈底层能力用于CVPR图像检索大赛并夺冠

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

CVPR是计算机视觉领域最顶级的学术会议之一,会议每年都会吸引全球顶级高校及Google、微软、Facebook等科技企业参加。

 

在今年CVPR组织的AI竞赛中,蚂蚁安全实验室以高出主办方基线24.4%的成绩,获得图像检索大赛冠军。官方限定1个半月的比赛时长,为什幺蚂蚁选手仅用10天时间便能提交一个具有领先优势的模型?

 

 

参赛选手之一兰钧向我们介绍道:“我们在比赛中使用的技术是依托于蚂蚁安全实验室“反欺诈智能风险感知与响应系统”中的底层能力,如无监督学习技术被用于黑产团伙挖掘、潜在风险事件预测等场景;多模态、细粒度技术在欺诈举报审理、内容风险识别过程中也发挥了重要作用。但虽然说参赛团队有一些以往的经验可以借鉴,可这次比赛中设定的场景不同以往,所面临问题也是全新的,这些因素使得我们还是面临了相当的挑战。最终,经过团队一番探索,我们尝试提出了一个有意思的解决方案。

 

以下是他们的技术分享

 

CVPR2021图像检索大赛冠军方案

 

兰钧,应缜哲,孟昌华,王维强

 

蚂蚁集团

 

[email protected] [email protected] [email protected] [email protected]

 

摘要:大规模产品识别是计算机视觉和机器学习在电子商务领域的主要应用之一。由于产品的数量通常比产品类别的数量大得多,基于图像的产品识别通常被视为视觉搜索而不是分类问题。

 

我们提出了一套多模态图像检索的解决方案。首先使用弱监督聚类算法根据文本数据生成伪标签作为新的训练数据,然后在新数据集上训练度量学习模型,最后我们加入后处理操作优化搜索结果。

 

最终在eProduct数据集上获得了比官方baseline召回率超过25%的提升。

 

关键词: 多模态、细粒度、无监督、聚类、度量学习

 

01

 

背景介绍

 

主办方为比赛提供了一个超过250万图片的数据集,其中训练接有130万,样本包含图像和商品描述文本数据,并配有级联的类别标签。用于评估算法的数据集包含两个部分,一部分query集,包含5000张图片;另一部分是index集,包含110w张图片。比赛的任务是从index集中找到与query集中图片完全相同的商品,品牌、型号、颜色都相同的商品被认为是同一商品。比赛以[email protected]作为评价指标。

 

类似的场景在电商平台很常见,用户常常想通过一个照片找寻类似的物品在平台是否有售卖,即搜索引擎的图像版。同样在大安全场景我们也经常在内容安全场景遇见,判断一些商家的交易物是否有风险。

 

 

02

 

问题难点

 

2.1 弱监督学习

 

训练集虽然提供了细粒度类别的标签,但是还是不够精细。例如训练集中提供的苹果手机这个类别里面包含不同型号、不同颜色的苹果手机,而我们的目的是要找到完全一样的手机,如query是白色iphone6,找到的index也必须是白色的iphone6,黑色的iphone6和白色的iphone7都是不行的。

 

2.2 训练集多模态测试集单模态

 

训练集包含图像和文本信息,query集及index集都没有文本信息的。

 

1)由于条件不对等,多模态的信息融合只能应用在训练部分,预测时只能使用单模态模型。

 

2)有些相同的物品可以通过文本关联但无法通过图像关联,例如同样的物品有的是在包装袋内有的是拆封后的,这样在预测时完全无法通过图片关联。

 

03

 

模型方案

 

我们经过对数据集观察分析后,确定了一个以文本聚类作为训练伪标签,图像模型作为主体,加上后处理增强关联搜索的方案。

 

3.1 文本多级联聚类

 

直接对标题文本进行词袋聚类的效果并不好,因为不同的词会代表不同的重要度。我们的目标是使具有具体意义的词拥有更大的权重。Tfidf向量是一个很容易想到的方法而且有不错的效果。除此之外我们还使用词的分类熵向量与位置向量代表该词所占的权重。

 

 

我们通过官方提供的hierarchical category计算每个词的分类熵,越大的熵代表该词拥有更多可能的大类,即越不重要。这种方法可以给诸如new、ship、free等极低的权重。位置向量代表我们假定越靠前的词拥有越重要的意义,即我们在搜索商品,描述物品时都会把重要的代表物品唯一的关键词放在前面。所以我们以位置信息的倒数构成了位置向量。

 

通过以上方法我们对每个title构建了4个向量,在四个向量构建的余弦相似度knn cluster中,我们对每个单一的item,以tfidf value与entropy value构建的为基础,获取它们置信度中等与较高的召回,同时加入另外两个value向量构成的置信度较高的召回。这样对每个item我们都拥有一个召回I-list和它们的得分C-list。

 

同时我们关注到有些物品一度链接无法寻找到足够匹配的召回,于是我们加入了循环迭代机制继续寻找合适的召回,原理如下:

 

1.设定物品最小循环相似度Cmin(0.5)与最大遍历深度Lmax(5)

 

2.对每个item,我们遍历到它的Clist中每一个物品的Clist,相乘它们的相似度获得c,如果c>Cmin且遍历深度数目<Lmax则继续遍历,直到获得一个较大的召回集I2-list

 

3.将I2-list这个最为最终的聚类结果。

 

3.2 模型训练

 

在聚类结束后,我们筛选出至少有两个样本的聚类中心作为新的类别来训练模型。我们得到666722张训练图像和109299个类别。然后我们训练metric learning模型。由于时间限制我们只训练了一个模型作为最后的提交结果。我们模型的基础网络为efficientnet-b3,用基础网络和GAP从图像中提取特征,接着链接512维的全连接网络来表达图像的信息,然后我们用ArcFace loss作为损失函数训练模型。ArcFace的margin为0.5,scale为30。

 

通过分析聚类结果我们发现包含样本量较大的类通常类内的准确率不高。为了处理标签带噪声和类别不平衡问题,我们根据类别样本的数量设计带权重的交叉熵损失,其中每个类别的权重为1/log(类别数量)。我们训练时的优化器选用Adam,模型总共训练14步,前六步的学习率是3e-4,接下来六步的学习率是1e-4,最后两步的学习率是5e-5。输入图像的尺寸是384×384。

 

3.3 向量后处理

 

后处理大概可以带来1-2个点的提升,后处理的步骤如下:

 

1.用训练完成的模型分别提取query图像和index图像的特征

 

2.计算query特征和index特征之间的相似度

 

3.设置阈值为0.5,筛选出与query特征相似度超过阈值的index特征

 

4.如果筛选出来的index特征数量大于0,新的query特征为筛选出的index特征的平均值再和query特征的平均,否则,新的query特征为原始query特征

 

5.计算新的query特征与index特征的相似度,取相似度最大的10个图像作为最后的结果。

 

04

 

实验结果

 

 

在最后的排行榜上我们的单模距离第二取得了将近5%的优势,并且超过了官方的baseline 25%。在有限次的提交中我们在这个任务上总结出一些经验:

 

1. 好的聚类结果对于训练好的检索模型是非常关键的

 

2. 图像分辨率对结果影响比较大,为了加速训练可以现在低分辨率上训练模型再在高分辨率上finetune

 

3. 带权重的损失是一个很好的方式来处理带噪声和样本不平衡的数据

 

4. 后处理方法融合了index集图像的特征对结果带来了明显的提升。

 

参考文献

 

[1] Jiankang Deng, Jia Guo, Niannan Xue, and Stefanos Zafeiriou. 2019. Arcface: Additive angular margin loss for deep face recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 4690–4699.

 

[2] Thorsten Joachims. 1996. A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization. Technical Report. Carnegie-mellon univ pittsburgh pa dept of computer science.

 

[3] Hieu V Nguyen and Li Bai. 2010. Cosine similarity metric learning for face verification. In Asian conference on computer vision. Springer, 709–720.

 

[4] Mingxing Tan and Quoc Le. 2019. Efficientnet: Rethinking model scaling for convolutional neural networks. In International Conference on Machine Learning. PMLR, 6105–6114.

 

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注