Press "Enter" to skip to content

ACM MM 2021 | 用实体连接图文:融合多种图文线索的多模态虚假新闻检测

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

本文将解读 中国科学院跨媒体计算课题组(ICTMCG)  发表在ACM Multimedia 2021 Industrial Track的一篇长文。该工作提出了一种 实体增强的多模态虚假新闻检测框架 ,能够同时捕捉多种多模态线索,用于检测 不同类型的图文假新闻。

 

 

Paper预印版:

 

https://arxiv.org/pdf/2108.10509

 

Paper正式版:

 

https://dl.acm.org/doi/abs/10.1145/3474085.3481548

 

一、背景介绍

 

近年来,严重的虚假新闻问题不仅给互联网社交媒体发展带来了严峻挑战,更造成了政治、经济、社会等诸多方面的现实危害。其中,多模态内容(本文主要指文本和图片两个模态)对虚假新闻传播起到助推作用。

 

一方面,与文本内容相比,图片内容具有巨大的传播优势。  相关研究显示,带配图的推文比纯文本推文能多获得18%的点击率、89%的点赞率和150%的转发率[1]。同时,根据“有图有真相”这种普遍认知,图片内容通常被用作新闻事件的证据,因此可以增加新闻的可信度。 另一方面,由于缺乏对图片真实性以及拍摄语境的了解,图片内容(不论经过刻意篡改还是“移花接木”[2])极易被用于制造假新闻。  这类基于多模态内容的假新闻比纯文本的假新闻具有更强的传播力,也更具有检测挑战性。因此,多模态虚假新闻检测成为近年来的研究热点。

 

图片对于多模态虚假新闻完整故事的描述起到重要作用,但在不同类型的样例中起到的作用却有所不同,相应地,也提供了不同的检测线索。首先,我们最熟知的一类多模态假新闻是 围绕篡改图片或者取自其他事件的过时图片进行文本编造 的假新闻。这类假新闻检测的关键线索在于图片的原创性。具体地,我们可以建模图片的篡改/重压缩痕迹[3]或者通过图片逆向检索获取图片原始发布时的新闻事件并与当前新闻事件作比较[4]。然而,并非所有多模态虚假新闻中的图片使用都存在问题。事实上,有很大一部分多模态假新闻中 图片的使用是正常的 。这类新闻的造假之处主要存在于文本内容,图片在这里只是起到了丰富视觉信息、促进传播的作用。上述图片一般指的是经过摄录设备拍摄得到的自然图像,然而,在社交媒体这类非正规的新闻平台上, 非自然图片 也逐渐开始作为一种虚假新闻传播的媒介。造谣者通过截图或海报等方式将虚假新闻文本保存成图片的方式进行传播,从而避过社交媒体的审查机制。因此,如何有效且全面地建模多模态虚假新闻中复杂的线索,是该任务亟待解决的问题。

 

基于对多模态虚假新闻多样性的探索,我们建模了多模态虚假新闻中三种重要的图文交互,作为检测环节的线索:

 

1. 图文实体不一致。

 

错误地转载过时的图片作为当前新闻的配图是编造多模态假新闻的一种典型方式[5]。然而,找到能够支持编造的新闻事件的真实图片并非易事,因此极易出现图文冲突的情况。如下图(a)所示,该新闻文本描述了拜登在得克萨斯州的竞选总监Dallas Jones被捕的事件,然而所配的图片是一名男演员Cuba Gooding Jr.的逮捕现场。

 

2. 图文通过强调彼此的重要特征实现相互增强。

 

新闻图文共同描述了一则完整的新闻事件,因此他们在高层语义上是相关的,对齐的部分通常反映了新闻的关键元素。在这种多模态假新闻中,文本为检测提供了主要线索,而图片则帮助选择文本中的关键线索。如下图(b)所示,图中的纳粹标志与文本中的重要实体“纳粹”相对应,这是该条虚假新闻的关键争议点,但在模态内部并不显着,需要通过跨模态对齐来进行强调。

 

3. 图片中的嵌入文本为原始新闻文本提供补充信息。

 

根据我们对微博数据集[6]的初步统计,超过20%的多模态假新闻以图片的形式传播,即图片中嵌入的文本负责描述完整的假新闻故事,而原始文本通常是对该条新闻的评论(见下图©)。在这类假新闻中,需要结合原始文本和图片中的嵌入文本捕捉线索。

 

 

除多模态线索的多样性外,多模态虚假新闻检测的另一个挑战在于 多模态数据的异构性 。目前的工作对图片的建模仅停留在 通用物体 识别层面,而新闻文本则处于由 命名实体 构成的更抽象的语义层。由于这种语义层次的差异,目前的方法很难进行图文间的有效推理。如上图(a)所示,如果将图片中的名人识别为简单的目标标签“person”,而不是具体的实体标签“Cuba Gooding Jr.”,我们就无法捕捉到图文实体不一致这个重要的线索。为了应对这一挑战,我们引入视觉实体来建模新闻图片的高层语义。视觉实体由图片中识别到的命名实体(如名人、地标)以及一些新闻性较强的视觉概念组成。视觉实体一方面包含了丰富的视觉语义,有助于理解多模态新闻,另一方面可以作为图文模态在高层语义上交互的桥梁,减轻多模态的语义鸿沟。

 

为应对 多模态交互多样 以及 多模态数据异构 的两大挑战,我们提出了一种实体增强的多模态虚假新闻检测框架 EM-FEND (Entity-enhanced Multimodal FakE News Detection)。

 

二、已有工作

 

多模态虚假新闻检测任务一般被建模为二分类问题:给定一条新闻对应的文本 和图片 ,虚假新闻检测的目标是判断该条新闻为真实新闻或虚假新闻。基本的融合框架是利用在ImageNet上预训练的VGG19提取通用的视觉特征,然后将它们与文本特征进行拼接用于分类。根据关注点不同,现有工作可分为三大类(见下表)。

 

 

第一类方法结合最新技术进展或者假新闻的特性对框架进行优化。  例如,MVAE通过联合训练VAE和真假新闻分类器来学习文本与视觉模态的共享表达。SpotFake首次将BERT引入该框架。为了解决现有模型在新事件泛化性弱的问题,Wang等人先后提出了对抗学习EANN及元神经过程metaFEND的方法。这些方法更关注于如何使用多模态表达进行分类,而非如何更好的建模多模态交互关系。

 

第二类方法侧重多模态的一致性衡量。 SAFE使用Image Captioning模型将图片翻译成句子,然后通过衡量原始新闻文本和生成的图片标题之间的句子相似性来计算多模态不一致性。然而,Image Captioning模型的训练语料库与真实世界的新闻语料库存在显着差异,这限制了新闻图片的翻译性能,也进一步削弱了由此得到的跨模态一致性度量在最终检测任务中的有效性。MCNN通过子网络权重共享的方式,将文本和视觉特征转换到公共特征空间计算相似度。这种方法对多模态不一致性的建模能力仍然受限于图文特征语义层次的差异。

 

第三类方法通过精心设计模型建模多模态的对齐关系来提升检测性能。 attRNN提出一种基于神经元级别注意力机制的循环神经网络来融合图文信息。MKEMN从外部的知识图谱中引入文本实体对应的概念知识来增强对短文本的语义理解。通过注意力机制建模文本对视觉模态和知识模态的增强关系,并利用文本-图片-知识对齐的多通道CNN融合多模态信息。这两种方法侧重于多模态内容的单向增强,即在文本引导下突出重要的图片区域及实体概念信息。此外,CARMN首次使用协同注意力机制建模文本和图片之间的双向增强。KMGCN显式提取图片的目标标签,然后使用图卷积神经网络对文本中的单词和图片目标标签之间的相关性进行建模。类似地,EMAF也提取了图片的目标标签,然后使用胶囊网络将文本中的名词和这些目标标签进行融合。这些方法都是在新闻文本和图片的通用目标层次建模对齐关系,忽略了在高层语义上的跨模态增强。

 

综上所述,现有方法主要存在两个缺陷:

 

1. 仅考虑一种多模态图文关系,并且完全忽略了原始新闻文本和图片中嵌入文本之间的互补关系;

 

2. 基于图片的基本语义特征对跨模态关联进行建模,对图片中与新闻相关的高级视觉语义建模不足,新闻图文存在特征异构及语义鸿沟问题,导致很难进行有效的多模态推理。

 

三、EM-FEND模型介绍

 

模型整体框架如下图所示,主要包含三个阶段:多模态特征提取、多模态特征融合以及分类。

 

 

1. 多模态特征提取

 

1.1 文本输入

 

文本实体: 作为一种特殊的叙事文体,新闻通常包含人物、地点等命名实体。这些实体对于理解新闻语义具有重要意义,也有助于检测假新闻。因此,我们通过识别文本中的专有名词 (NER) 来显式地提取人物类型的实体 和地点类型的实体 。为了更好地理解新闻事件,我们采用词性标注 (POS) 技术提取所有的名词作为事件类型的文本实体 。

 

1.2 图片输入

 

视觉CNN特征: 跟随前人工作,我们采用VGG19来提取视觉特征。考虑到图片中不同区域可能展示不同的模式,我们将原始图片分割为 个区域,然后获得相应的视觉特征序列 其中 表示图片中第 个区域的特征。

 

视觉实体: 我们使用百度API提取了四种类型的视觉实体:名人和地标;组织机构名(如纳粹、佛教),通过检测特殊符号或服饰得到;有视觉冲击力的视觉概念(如暴力、血腥和灾难等);以及通用的目标及场景标签。即人物实体 、位置实体 以及其他视觉概念组成的事件类型的视觉实体 。

 

图片文本: 采用OCR模型API提取输入图片中的嵌入文本 。

 

2. 多模态特征融合

 

2.1 文本互补

 

将原始文本 和嵌入文本 通过 分隔符连接,输入预训练的BERT:

 

从而获得文本特征 ,其中 表示组合文本中第 个单词的特征, 是组合文本的长度。

 

2.2 相互增强

 

受VQA任务中协同注意机制的启发,我们使用文本特征与视觉实体和视觉CNN特征之间的多模态协同注意力Transformer (Multimodal Co-attention Transformer, MCT,见下图)建模不同视觉层次的多模态对齐。

 

 

秉承先融合相似模态再融合不同模态的原则,我们首先对文本特征和视觉实体进行融合。在获得视觉实体 后,我们使用预训练的BERT模型获得它们的表示向量 。因此,文本特征和视觉实体的表示可以在相似的BERT构造的特征空间中进行融合,缓解了多模态特征异构性带来的表征空间不统一的问题。具体地,我们将文本特征 和视觉实体特征 输入模型图中第一个MCT,获得由视觉实体增强的文本表示 和文本增强的视觉实体表示 。我们对后者进行平均操作后获得视觉实体的最终表示 。

 

视觉实体关注图片的局部高级语义,却忽略了全局的低层视觉特征。作为补充,我们又使用MCT建模了文本特征和视觉CNN特征之间的相关性。具体地,将 和视觉CNN特征 输入模型图中第二个MCT,获得由视觉实体和视觉CNN特征增强的文本表示 和文本增强的视觉CNN特征 。对上述特征进行平均操作后获得文本和图片的最终表示 和 。

 

2.3 实体不一致性衡量

 

我们衡量了 人物、地点 以及更一般的 事件上下文 这三种实体类型的多模态不一致性。以人物实体为例,将多模态人物实体相似性定义为该条新闻中所有文本和视觉人物实体对之间的最大相似度。由于神经网络在检测视觉实体时存在不可避免的误差,我们在计算相似度时将视觉实体的置信度考虑在内。形式化地,将 和 分别定义为文本和视觉实体的特征向量。对于一条包含文本人物实体集合 和视觉实体集合 的多模态新闻,计算跨模态的人物实体相似度为

 

 

其中 表示新闻图片包含视觉人物实体 的概率。对于没有文本或视觉实体的新闻,我们将其相似度设为 ,表示没有多模态不一致性的线索。类似地,我们计算跨模态地点相似度 和事件上下文相似度 ,然后将它们拼接起来,得到跨模态实体不一致特征 .

 

最后,我们将文本的最终表示 、视觉实体的最终表示 、图片的最终表示 以及跨模态实体不一致性特征 拼接起来,得到最终的多模态表示:

 

 

3. 分类

 

将多模态表示 最后的分类器,采用二分类交叉熵作为损失函数。

 

四、实验

 

1. 数据集

 

我们使用了中英文两个实验数据集。中文数据集[6]抓取自新浪微博平台,包括4749条假新闻及4770条真新闻微博,每条新闻都附有随机选择的一张配图。英文数据集[7]由新闻长文组成,包括2844条假新闻以及2825条真新闻文章,每条新闻都带有一张配图。为了避免模型对事件过拟合,我们首先采用k-means方法将数据聚类为不同事件,在此基础上划分训练集、验证集和测试集,数据比例为3:1:1。

 

2. 基线方法

 

我们选取了一些代表性的单模态及多模态方法作为对比。单模态方法包括Bi-LSTM, BERT以及VGG19,多模态方法包括本任务模型attRNN,、MVAE、MKN、SAFE、SpotFake和CARMN。为保证对比公平性,我们增加了EM-FEND的一个用Word2Vec和Bi-LSTM代替BERT的基础版本,用于和未使用BERT的基线模型进行对比。

 

3. 性能比较

 

由下表可知,无论是否采用BERT作为文本特征提取器,我们的模型都显着超过现有方法,这说明了我们的模型确实捕捉到了一些被现有方法忽略的多模态线索。

 

 

4. 消融实验

 

我们设计了两组消融实验来分析不同网络组件的有效性,包括视觉实体、图片文本和微调的VGG特征这三类视觉输入,以及文本和视觉实体的MCT、文本和视觉CNN特征的MCT以及实体一致性这三类跨模态交互。

 

 

 

从表中可观察到,在中、英数据集上最重要的视觉特征不同,这可能是由于数据来源的差异。中文数据集由社交媒体上的微博消息组成,假新闻具有较低的图片质量,因此微调后的VGG特征对于检测最为重要。而英文数据集抓取了正式的新闻长文,其包含质量高且语义丰富的新闻图片,因此视觉实体对检测最为重要。在跨模态交互中,我们观察到,文本和视觉CNN特征的MCT在两个数据集上均最为重要,这可能是因为视觉CNN特征提供了更为丰富的信息。

 

5. 样例分析

 

下图展示一些被实体不一致性检测模块标注为多模态人物实体一致性低的样例。

 

 

五、结论

 

本文揭露了多模态假新闻图文关系的多样性,并提出一个通用的多模态融合框架,同时建模多种图文关系。针对新闻图文异构及语义鸿沟的问题,显式引入视觉实体作为图文交互的桥梁。

 

参考文献

 

[1]  https://buffer.com/resources/the-power-of-twitters-new-expanded-images-and-how-to-make-the-most-of-it/

 

[2] Exploring the role of visual content in fake news detection. Disinformation, Misinformation, and Fake News in Social Media, 2020.

 

[3] Exploiting multi-domain visual information for fake news detection. ICDM 2019.

 

[4] Fact-checking meets fauxtography: Verifying claims about images. EMNLP-IJCNLP 2019.

 

[5] Verifying multimedia use at mediaeval 2016. MediaEval 2016 Workshop.

 

[6] Multimodal fusion with recurrent neural networks for rumor detection on microblogs. MM 2017.

 

[7] TI-CNN: Convolutional neural networks for fake news detection. arXiv:1806.00749.

 

本文来自:公众号【ICTMCG】

 

作者: 亓鹏

 

Illust rastion by  By   Polina Orlova from ico ns8

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注