Press "Enter" to skip to content

多模态预训练技术的探索和实践

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

作者:connorywang、larryjfyan

 

一、预训练技术的研究背景

 

预训练技术首先通过大规模无监督或半监督任务使模型能够尽可能多的学习到通用先验知识,然后在下游任务中进行微调,以实现知识的迁移。这种预训练+微调的模型训练方式使得在下游任务中深度模型仅需学习一些任务相关性的知识,而无需重新开始学习,因而能够显着降低下游任务对标注数据的依赖,并提高模型在小数据集上的泛化能力。

 

图 1.1 左子图表示在 MS-COCO 数据集的一个包含 35K 张图像的子集上进行模型训练,在测试集上的 AP 变化。在训练数据相对充分时,使用 ImageNet 上的预训练模型作为模型的初始参数和随机初始化模型参数可以取得相当的准确率,但通过加载预训练模型参数,模型在 MS-COCO 上的收敛速度具有显着的提升。图 1.1 右子图将训练样本量从 35K 缩减到 10K。在小数据集下,通过预训练+微调策略训练的网络在下游任务(MS-COCO)能够取得更好的平均准确率,同时将模型的收敛速度提升了将近 4 倍。

图1.1 ImageNet预训练 + MS-COCO微调[^1]

 

[^1]: He K, Girshick R, Dollár P. Rethinking imagenet pre-training[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 4918-4927.

 

对于训练耗时较为严重或样本量不够充足的下游任务,如视频检索、目标检测等,通过加载预训练模型来加快模型的收敛速度并提高模型的泛化性已经成为目前网络训练的通用策略。

 

1.1 预训练研究团队

表1.1 预训练研究团队

 

表 1.1 统计了目前预训练领域的一些团队的研究成果和研究方向。整体而言,目前预训练领域呈现模型参数膨胀,多模态的趋势。对于大型企业而言,由于预训练模型对于企业内部业务的广泛支撑,以及企业自身所拥有的相对充分的计算资源,近两年来,大规模预训练模型已经演化成为大公司在人工智能领域中的“军备竞赛”。

 

接下来我们首先介绍两种主要的单模态预训练模型:自然语言处理预训练和计算机视觉预训练,然后过渡到目前在产业界和学术界比较火热的多模态预训练模型。

 

1.2 自然语言处理

 

近期大规模预训练首先兴起于自然语言处理(Natural Language Processing,NLP)领域。

 

2013 年 Word2Vec 模型将单词以 embedding 进行密集表示,使得单词与单词之间可以进行相似性度量。之后,单词的 embedding 表示成为了 NLP 领域的主流方向之一。2015 年,Kiros 提出了 Skip-Thought,将无监督预训练从 word-level 拓展到 sentence-level,使得通过长文本进行预训练成为可能。之后,2018 年 Peters 提出 ELMo,通过融合单词的上下文信息,解决了一词多义的问题。这些工作奠定了 NLP 大规模预训练的基础。

 

2018 年 OpenAI 的 GPT 模型被提出,通过大型预训练语料库 BooksCorpus(包含 7000 本书)和 1.17 亿的参数量在 9 个 NLP 任务中超越了 SOTA。同年,Devlin 提出 BERT,在 11 个 NLP 榜单中都达到了 SOTA,从此开启了 NLP 领域的大规模预训练时代。2018 年至今,T5、GPT-3、M6、盘古等大规模预训练模型相继被发布,模型参数量和训练数据量都呈指数形式爆发,并且在很多下游任务和落地应用中显着提升了模型的性能。

 

目前 NLP 预训练领域中的相关模型按照研究方向大致可以分为 7 种:

多任务:通过堆叠预训练任务,使预训练模型能够更好的学习一些通用先验知识,并且在下游任务中具有更好的泛化性,典型工作如 BERT、RoBERTa。
超大规模:通过增大模型参数量和优化模型结构,并且在超大规模半监督或无监督数据集上进行预训练,使得预训练模型能够获得更强的泛化能力,如近期发布的 Pangu 大模型、M6。
知识融入:通过融入知识提高模型的泛化能力,典型工作如 K-BERT、KnowBERT。
多模态:在模型中融入图像/视频等模态作为补充信息,不仅扩大了模型在多模态任务中的应用前景,同时由于不同模态之间的信息互补,使模型的表征能力大幅提升,如 ImageBERT、ViLBERT。
跨语言:将单语言任务推广到多语言任务,典型工作如 XLM、mT5。
模型加速:在模型结构上进行优化,在保持模型泛化能力的同时降低模型的参数量,提高模型运行的高效性,如 TinyBERT 和 MiniLM。
中文特色:针对中文数据集进行模型改进和训练,如 ERNIE、AMBERT。

图1.2 预训练模型分类

 

1.3 计算机视觉

 

如图 1.3 所示,计算机视觉根据网络结构可以分为两个阶段。在 2020 年之前,CV 领域中的网络模型主要以 CNN 为主。CNN 中所用到的卷积操作因为具有良好的旋转、平移不变性以及强大的局部特征提取能力,天然适合处理图像相关任务。典型工作如 ResNet、GhostNet、Xception 和 EfficientNet。

图1.3 CNN模型[^2] [^2]: Gasulla, Dario Garcia and Javier Béjar Alonso. “Studying the characterisation of deep CNN neurons.” (2019).

 

2020 年被提出的 ViT 模型(如图 1.4 所示)挑战了 CNN 在 CV 领域中的主导地位。ViT 在网络结构上没有使用卷积操作,它结合了 Transformer 和 Patch 编码,通过在 JFT-300M 大规模图像数据集上预训练,在多个下游榜单上的性能超过 SOTA CNN 模型。同时,ViT 也通过实验证明了 Transformer 结构对大规模数据的拟合能力。之后,Transformer 结构和大规模预训练成为了 CV 领域的研究热点,一些经典工作,如 ViT、DeiT、CaiT、CCT、LeViT 也相继被提出。

图1.4 ViT模型[^3] [^3]: Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.

 

1.4 多模态预训练

 

单模态表示学习负责将信息表示为计算机可以处理的数值向量或者进一步抽象为更高层的语义特征。多模态表示学习是指通过利用多种模态之间的信息互补性,剔除模态间的冗余特征,从而学习到更好的特征表示。由于其广泛的应用前景,目前已经成为了预训练技术进一步发展的突破口。

 

多模态预训练技术的产生和兴起的背景因素可以大致概括为三个方面:

 

 

    1. 通过融合多模态信息,可以扩充模型所能表达的特征空间。由于不同模态之间具有很强的信息互补性,因此通过合适的模型训练,可以得到更具有区分性的特征表示。

 

图1.5 多模态的信息互补性[^4] [^4]: Huang Y, Du C, Xue Z, et al. What Makes Multimodal Learning Better than Single (Provably)[J]. arXiv preprint arXiv:2106.04538, 2021.

 

图 1.5 中 分别表示某个模态或者模态集合,通过融合 ,我们可以将向量的表示空间映射到更广的隐式空间中。

 

 

    1. 数据来源广:网络上具有庞大的天然图像-文本对(简称图-文对),如图像和自身的标题,图像和围绕图像的描述语。

 

图1.6 网页上的图-文对[^5] [^5]: https:// laion.ai/laion-400-open -dataset

 

图 1.6 中的图-文对来自于随机网页。这些图-文对由于获取成本极低,样本量庞大,并且几乎不需要人工标注,为多模态预训练模型的发展提供了有力的数据支撑。

 

 

    1. 多模态模型具有广阔的应用前景。如跨模态搜索、图像的标题生成以及人机互动等。

 

图1.7 多模态预训练应用举例

 

二、多模态预训练的现状和趋势

 

在本章中,我们从模型、数据集、任务设置等角度来简要介绍多模态预训练技术的发展现状和趋势。

 

2.1 模型规模

表2.1 多模态预训练模型

 

表 2.1 总结了从 2019 年 8 月至 2021 年 10 月的一些典型预训练模型的基本信息。可以看出,随着时间的推移,模型的参数量和训练数据量都呈指数形式扩充。大模型、大数据量成为了目前多模态预训练的发展趋势。此外,由于对训练资源要求较高,多模态预训练领域目前仍以大型企业为主导。

 

2.2 数据集

表2.2 多模态预训练数据集

 

从 2018 年 7 月至 2021 年 8 月,多模态预训练数据规模呈指数上升,数据通常采集自互联网上的图-文对,并且以无监督数据为主。近期最大的多模态预训练数据集 LAION-400M 开源,为更大规模的预训练模型提供了数据基础。

 

2.3 常用预训练任务

 

由于数据来源等因素,目前的多模态预训练任务仍以无监督学习为基础,以下我们列举一些常用的无监督预训练任务。

 

Masked Language Modeling

 

随机遮盖文本的某些 token,用其余 token 和其他信息(图像/视频)预测被遮盖的 token。

 

 

Image-Text Matching

 

根据图像/视频和它对应的文本构造正负图-文对。

 

 

Augmentation-based Contrastive Learning (by MOCO)

 

对图像随机增强两次,来自同一原始图像的样本构成正样本对,否则为负样本对。

 

 

Prefix Language Modeling

 

根据文本前面的 token 生成后面的 token,其中图像信息作为文本模态的先验。

 

 

先遮盖图像中某些表示物体的区域,然后用图像的其他区域信息回归被遮盖的区域。

 

目前的研究标明,用生成方式(如 Prefix Language Modeling 和 Masked Region Feature Regression)进行模型预训练,在某些下游任务中会获得更强的泛化能力。

 

2.4 下游任务

 

一个预训练模型可以同时支撑多个下游任务,如 VQA、Image Captioning、Text-Image Retrieval 等,表 2.3 列举了一些常见的下游任务。

表2.3 多模态预训练下游任务

 

2.5 业界应用现状

 

大规模预训练模型不仅在各个任务 benchmark 上取得了非常好的效果,同样具有非常重要的落地应用,以下我们列举一些成功的应用例子。

 

盘古(华为)

 

盘古(Pangu)大模型具有高达 200B 的参数量,训练数据集达到了 1TB。凭借着优异的性能得到了业界的广泛认可。目前华为依托盘古大模型,在 NLP 大模型、CV 大模型、多模态大模型和科学计算大模型四个领域开始布局,并且提供了对外服务接口: https://www. huaweicloud.com/product /modelarts/pangu.html

 

M6(阿里巴巴)

 

目前 M6 模型已经作为 AI 助理设计师上岗了犀牛智造,通过结合潮流趋势,辅助设计师进行快速设计、模拟试穿效果,在节约人力成本的同时又加快了服装设计的速度。此外,M6 还已应用到支付宝、淘宝等平台,参与了跨模态搜索、文案撰写、图片设计等。

 

文澜(人大/中科院)

 

人大和中科院联合开发的文澜模型同样在多种应用中得到了成功的落地,如《布灵的想象世界》、《只言片语 ∙AI 版》和《AI 心情电台》等。

 

2.6 近期业界研究成果

 

在本节中,我们简要介绍几篇预训练相关的研究工作。

 

Momentum Contrast for Unsupervised Visual Representation Learning?[^8] [^8]: He K, Fan H, Wu Y, et al. Momentum contrast for unsupervised visual representation learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 9729-9738.

 

会议:CVPR2020

 

单位:Facebook(现 Meta)

 

简介:作者提出一种新的模型预训练方式:首先对一张图像进行两次随机数据增强,然后分别过一个 query 网络和 key 网络(query 网络加了 momentum 的历史版本),用 contrastive loss 使网络学会识别出来自同一张图像的两张增强后的图像。此外,作者提出 Momentum Constrast 算法,能够在有限的硬件资源下显着拓展一个 batch 所能容纳的正负样本对。

 

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation?[^9] [^9]: Li J, Selvaraju R R, Gotmare A D, et al. Align before fuse: Vision and language representation learning with momentum distillation[J]. arXiv preprint arXiv:2107.07651, 2021.

 

会议:NeurIPS 2021 Spotlight Paper

 

单位:Salesforce

 

简介:论文主要解决两个问题:1. 基于 Transormer 的视觉 token 和文本 token 的融合模型没有考虑两个模态编码的差异,2. 来自网络的预训练图-文对存在较多的噪声。为了解决这两个问题,论文提出在视觉-文本特征进行融合前,首先用 contrastive loss 来对齐模态的特征表达。然后,作者提出一种 Momentum Distillation 的方式来生成图-文对的伪标签,以达到数据降噪的作用。

 

Less is More: CLIPBERT for Video-and-Language Learning via Sparse Sampling?[^10] [^10]: Lei J, Li L, Zhou L, et al. Less is more: Clipbert for video-and-language learning via sparse sampling[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 7331-7341.

 

会议:CVPR 2021 最佳学生论文提名

 

单位:微软

 

简介:本文用视频的稀疏采样解决了以前视频-文本多模态任务中模型训练时间/空间复杂度大、性能不高、多模态特征提取缺乏交互等问题。论文没有在网络结构上做太多的改进,而在数据处理和特征提取方面做了很多非常值得借鉴的工作。

 

Patches Are All You Need?[^11] [^11]: https:// openreview.net/pdf? id=TVHS5Y4dNvM

 

会议:ICLR2022 双盲审

 

简介:这篇论文旨在引起关于 ViT 热潮的反思:目前多数基于 ViT 的工作集中在对 Transformer 的研究上,而忽略了 Patch Embedding 的作用,本文通过实验证明,Patch Embedding 通过简单的和卷积结合,能取得比 VIT 更好的效果。

 

三、Video-CLIP 模型的设计和应用

 

3.1 业务背景

 

近年来短视频应用的火热,不断丰富着人们接受知识创造内容的途径,视频媒体也逐渐成为人们消费娱乐最重要的内容载体之一。在搜索领域,搜索技术的研究热点正在不断从文本,图片转移到视频。视频是一个综合了文本、声音、图片的多模态信息载体,要满足用户对视频搜索的需求,多模态内容理解是其中的关键技术。本文将介绍多模态内容理解在微信视频号搜索业务场景下的应用实践。

 

注:Video-Clip 模型是在我们之前做的 VideoBert 模型的基础上优化而来。

 

微信视频号搜索

 

本文的任务场景是微信视频号视频搜索中 query-video 内容相关性,给定用户搜索 query,我们需要得到 query 和视频的内容相关性得分。

 

在视频号的搜索场景中,视频内容多样且繁杂,用户搜索意图多元化,要准确理解用户搜索意图并且返回相关视频是一项具有挑战性的工作。在短视频内容平台上由于用户在上传 UGC 视频时,标题往往比较简单,不能完整表达视频内容,另一方面由于蹭流量蹭热点的情况存在,有一些标题和视频内容没有关联。因此传统的基于标题的纯文本召回在实际的业务场景中不能完全适用,如图 1 所示是我们在实际业务中碰到的不好的例子,分别是标题相关,但是视频内容不相关,标题中命中的不是视频里的主体,以及标题语义漂移等情况。为了在视频搜索中更好的理解搜索意图,召回相关视频,我们利用文本视频跨模态内容理解技术来进行视频内容理解,开发基于视频内容本身的相关性模型。

 

任务难点

图3.1 视频号搜索业务难点

 

如图 3.1 所示,视频号搜索业务具有以下难点:

 

 

    1. 视频号视频内容繁杂丰富,要获得一个通用的特征表达适用于线上需求多样的 query 类型存在一定的困难;

 

    1. 视频端的多模态融合不够充分,文本和视觉的语义鸿沟没有消除,模型容易过分依赖于文本特征的相似性,出现 OCR 过拟合的现象;

 

    1. 基于线上点击日志构建的训练数据存在监督噪声,线上点击情况不能很好的反应视频内容的相关性。

 

 

为了解决以上的问题,接下来我们从模型结构,训练数据构造和训练策略几个方面介绍我们的实践方案。

 

3.2 Video-CLIP 模型设计

 

baseline 模型

 

Baseline 模型是一个单塔的模型,综合文本和视频的各种特征联合输入建模。主要的模型架构如图 3.2 所示。

图3.2 baseline模型

 

VideoCLIP 模型

 

经过团队一年多的优化之后,综合考虑性能和效率,我们选择采用双塔形式的模型结构,分别对 query 和视频进行编码,通过计算 query 和视频的特征向量的余弦相似度得到相关性得分。主要的模型架构如图 3.3 所示。

图3.3 Video-CLIP模型模型

 

文本编码

 

对于 query 的文本编码,我们采用中文预训练的 Bert 模型作为文本编码器进行端到端的训练。

 

视频编码

 

视频编码模型主要需要将视频中的 OCR 文本,视觉信息,和主题标签信息进行多模态融合,输出能表达视频内容的特征向量。模型的输入为从视频中提取的 OCR 文本信息,视频主题标签和视频帧的视觉特征。其中 OCR 文本信息和主题标签信息输入和 query 共享的文本编码器进行文本编码得到 OCR embedding 和 Tag embedding; 视觉部分我们从视频中采样 30 帧,采用我们自主训练的基于 CLIP[8]的多模态自监督模型进行视觉编码。在多模态融合部分,我们采用学界目前常用的 Transformer 结构,将文本和视觉 embedding 进行拼接输入到 3 层的 Transformer 中进行多模态特征融合,其中 Transformer 输出的[CLS]向量作为视频侧的多模态特征输出。在模型训练过程中,通过 Transformer 的多头注意力机制,模型可以自主注意到相关的文本和视觉特征。

 

3.3 模型预训练

 

预训练目标

 

该任务的下游场景是视频号中视频的内容理解,与公开的超大预训练(CLIP)的场景不同,我们需要表征包含更多的社会热点、场景特点、特定实体等概念。如图 3.4 所示,直接使用 CLIP 的表征也能够得到类似图片,然而当需要图片表征包含更高层次的语义信息时(如洪崖洞的相关图片能够互相检索),CLIP 的权重由于没有相关训练数据很难包含高层次的中文场景信息。

图3.4 Video-CLIP模型与CLIP模型对比

 

特征提取

 

ImageCLIP 算法

 

无监督的图片表征预训练方式可以分为两类:1)基于图片/视频角度的自监督以及 2)基于图文角度的多模态预训练。如图 3.5 所示,图片/视频的自监督通过构造两个强增广(或两个样本)间的相似性来学习到对于增广鲁棒的表征,其中增广也可以理解成视频当中的不同帧或片段。图文交的的预训练采用高质量的文本-图片对,通过文本的 encoder 以及图片的 encoder 提取特征后对齐两边的特征。

图3.5 无监督的图片表征预训练

 

ImageCLIP

 

图片/视频角度的自监督和图文的自监督都能够得到较好的表征,然而这两者得到的表征依然存在许多问题。

 

 

    1. 语义信息的层次:视频角度的自监督得到的表征网络会倾向于寻找视频中的主体而忽略了视频的概念和风格,由于没有文本层次的监督信号,表征相对是 mid-level 的。视频的前后帧作为监督信号使得视频中的主体成为了训练的捷径。

 

    1. 数据质量差:图文方式的预训练虽然能够使得表征有比较高层次的语义信息,赋予了图片文本层次的一些概念,然而网络上的数据质量差,文本-图片对的对应关系弱,使得 CLIP 的训练方式带来的提升很有限。

 

 

为了得到 high-level 的表征,采用中文社交场景上的图文对是不可避免的,为了解决文本监督信号噪声大的问题,如图 3.6 所示,一个出发点是建立起图像-图像之间的监督信号来保证训练得到的特征已经具备 mid-level 的特征。

图3.6 通过建立图像-图像之间的监督信号提取mid-level特征

 

多模态对齐

 

由于我们增加了一个额外的图片表征,在特征对齐时就存在不同的做法。传统 CLIP 的损失函数如下所示。其中 q 代表图片侧的表征,t 代表文本侧的表征。

 

 

最终损失函数为:

 

 

在结合了多个图片增广后,在图片和文本交互侧一种损失函数的形式为:

 

 

这种方式不仅去拉进每个增广和文本表征之间的距离,同时还去拉进单个文本表征到两个图片表征之间的距离。考虑到在训练一开始时两个图片表征之间可能存在较大差异,这种做法可能导致更新方向模糊,因此还有一种做法为:

 

 

在这里我们只拉进文本表征与其中一个图片表征的距离。这种训练方式能够借助图片自监督的方式来达到鲁棒的表征,减少低质量数据对于预训练的影响,最终这种方式在我们下游一二级视频分类上相比 CLIP 的训练方式提点约为 2.3 个点,在 FIVR 公开视频检索任务上提升约为 4 个点。

 

ImageCLIP 特征提取

 

CLIP 的训练方式直接采用网络得到的特征进行对齐,然而这种方式训练的特征在面对低质量图文对时会导致得到的特征十分模糊,无法反映细粒度的信息。如图 3.7 所示,我们测量了直接采用 backbone 输出特征进行交互时两个强增广图片表征之间的相似度以及增加了额外的 projector 后的相似度。

图3.7 增加projector后,增广图像相似性对比

 

由于我们的预训练任务(希望强增广的图片和文本对齐)和下游任务也并不是强相关的,增加了额外的 projector 来作为缓冲反而能够提升最后的表征能力,最终的网络结构如图 3.8 (b)所示。采用额外的 projector 能够在下游视频分类任务上相比 CLIP 的训练方式提升 3 个点,在 FIVR 检索任务上提升约 7 个点。

数据集

 

在相关性模型的训练,准确的相关性标注数据为算法提供 Ground Truth 和训练的监督信号。准确的监督信号决定了模型性能的上限。但是在相关性标注上,由于标注体系复杂,标注数据量庞大需要耗费大量的人力资源。在我们的模型训练上,我们希望借鉴近年来学界的预训练技术的思想,从大量的弱监督数据中,学习一个预训练表征。因此我们在训练数据构造上主要采用线上的用户点击数据构建大规模的弱监督样本对,然后采用小规模的人工标注数据进行离线评测和验证。

 

但是根据线上的点击构建训练数据,往往是带有噪声的,用户对点击受线上很多其他因素的影响,并不完全代表内容上相关。为了对训练数据进行提纯,我们采用了视频的视觉特征聚类的方法,挖掘有点击样本中能够代表搜索主意图的视频,从而构建正负样本,在模型训练的过程中引入偏序学习。具体来说我们将同一个 query 下有点击的视频,对它们的视觉特征进行 CDP 聚类, 如果这些视频能聚成一个大簇的视频往往能代表这个 query 的主意图,而离散的点代表了一些离散的噪音或者相关性比较弱的视频,如图 3.9 所示,当 query 为一个影视剧名,能聚成大簇的视频与影视剧的剪辑相关,而离散的点则是一些旅游,搞笑或者周边的视频。通过视觉特征聚类的方法,我们能够从大规模的弱监督数据中提取一部分置信度较高的样本。在最终我们模型训练中,总共采集和筛选了一个包含 1 亿+点击数据(文本 query 和视频)的数据集进行模型的预训练。

图3.9 通过视觉特征聚类挖掘点击样本中的主体意图

 

模型训练

 

接下来,我们介绍模型训练采用的损失函数。在我们的模型训练中主要采用了两个损失函数,分别是对比损失和三元组损失。令 query 的 embedding 为 ,video 的 embedding 为 , 基于线上的点击数据我们可以得到大量的有点击的样本对 ,其中有点击的 pair 作为正样本,而 batch 内无点击的样本作为负样本,在训练中我们采用基于 InfoNCE 的对比损失函数:

 

 

其中, 为基于余弦距离的距离函数, 为温度参数。基于对比损失可以将有点击的 query 和 video 对的特征向量的距离拉近,而没点击的负样本对的特征向量的距离拉远。

 

除此之外,基于视觉特征聚类我们可以进一步获得同一个 query 下有点击的正样本 ,和负样本 ,基于这样的正负样本对我们引入三元组损失进行相关性的偏序学习:

 

 

其中 为基于 距离的距离函数, 为超参数。通过引入三元组偏序损失,我们可以学习到更加细粒度的相关性偏序关系,在我们的离线验证中,也证明了一致性的提升。利用视觉特征聚类获得的正样本在训练时与 query 的特征进行拉近,也能一定程度提升没有 OCR 文本提示的视频和 query 的相关性,做到隐式的特征聚类,解决过于依赖 OCR 文本信息的问题。

 

3.4 实验结论

 

通过大规模的多模态预训练,我们的方法在离线的相关性验证中能够提升约 5%的四分档相关性准确率,在 query-video 检索召回中提升了约 18%的 Top-1 Precision。

 

本章介绍了多模态预训练技术在微信视频号搜索相关性的实践,并在实际业务上取得了正向收益。我们的方案主要的创新点有以下几点:

 

 

    1. 我们通过点击数据构建大规模数据进行相关性模型预训练,并且引入基于 CLIP 的多模态自监督的视觉编码特征,提升相关性模型特征的泛化性,以适应业务中内容繁杂的视频。

 

    1. 在模型结构上,我们采用双塔式的相关性学习架构,通过 Transformer 进行多模态信息融合的端到端训练。

 

    1. 利用视觉特征聚类无监督的挖掘高置信度的正负例,引入偏序学习学习更加细粒度的相关性。一定程度上解决了点击数据噪声和 OCR 过拟合的问题。 在未来,我们展望通过更细粒度的视频信息结构化,引入语音等模态信息,以及设计更加合理多样的预训练任务进行更丰富的视频表征学习。

 

 

四、总结与展望

 

总结近几年来预训练模型的发展,更大规模的预训练模型通常在下游任务中具有更好的性能,已经成为了大型公司的竞争热点;随着训练数据的规模的增大,使用这些数据构造无监督预训练任务成为提升预训练模型泛化能力的关键。此外,预训练任务的多模态、多任务化成为一个重要的发展趋势。

 

在未来工作中,模型并行、模型蒸馏、训练加速等由大规模预训练所引申出来的任务将会成为工业落地的重要技术。研究发现,预训练任务与下游任务存在一定的鸿沟,使得在预训练任务中表现较好的模型在下游任务中不一定同样好,通过叠加更多预训练任务,或构造更符合下游任务的无监督优化目标同样是一个值得深入研究的课题。

 

欢迎加入我们

 

AI 平台部搜索业务中心在多模态/跨模态匹配、超大规模的多模态预训练、视频内容理解、图片内容理解、大规模搜索引擎、异构计算、召回排序 等方向急需各类人才,诚邀志同道合之士共襄大业。

 

联系方式:

 

faxonlian:[email protected]

 

sammsun:[email protected]

 

connorywang:[email protected]

 

larryjfyan:[email protected]

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注