Press "Enter" to skip to content

SIGIR 2022 | 迎战未来的假新闻:通过缓解实体偏差提高假新闻检测模型的泛化能力

 

本文将解读中科院计算所数字内容合成与伪造检测实验室(原“跨媒体计算课题组”)发表在SIGIR 2022的工作。 在该工作中,我们揭示了实体偏差对模型泛化性的影响(尤其是在面对训练数据采集时段之后产生的“未来数据”时),并提出了一个简单有效的因果框架以缓解上述偏差。

 

 

预 印版:

 

https://arxiv.org/pdf/2204.09484 代码:

 

https://github.com/ICTMCG/ENDEF-SIGIR2022

 

一、背景介绍

 

由于社交媒体的便捷性,越来越多的人通过在线社交媒体获取新闻资讯。然而由于缺少有效的预防和治理措施,假新闻也得以借势传播。根据2021年度微博辟谣数据报告,微博站方共有效处理不实信息66251条。虚假新闻的广泛传播严重威胁了个人和社会安全。为了能快速高效地识别虚假新闻,增强在线新闻生态的可信度,搭建自动化检测系统至关重要。

 

真实场景中,一个虚假新闻检测器会在 已有的新闻 上训练,之后部署到线上,用于检测  “未来”出现的虚假新闻 。换句话说,在该问题中,训练数据和测试数据不可避免地 不满足独立同分布条件 。然而,现有的检测方法假设训练和测试数据是从一个静态的新闻环境采样得到的,并且独立同分布。这使得论文中的实验结果与现实存在差距。WWW 2021工作中实验结果表明,这些方法在“时序划分”实验中的性能较“随机划分”实验大幅下降近10%。[1]

 

为什幺会出现上述情况?我们经过数据分析,发现现有的方法可能无意中捕捉了缺少良好泛化性的实体信息,即 产生了实体偏差 。

 

下表展示了Weibo数据集[2]中的10个代表性的实体。可以看出,在训练集中,实体和新闻的真实性有着很强的关联。例如,从2010年到2017年,关于实体“特朗普”的新闻97%是真的。然而,由于新闻环境[2]的快速变化,实体和新闻标签之间的联系会改变。在2018年,包含“特朗普”的真新闻就只占总数的33%。基于前8年的数据训练得到的模型,很可能依赖于“特朗普”这一实体是否出现进行新闻真实性预测。因此,如果一个模型过于依赖带偏的统计信息,把包含特定实体的新闻直接预测为真或假,将难以在未来出现的新闻样本上取得好的预测效果。

 

 

在该工作中,我们从因果的角度来缓解模型学习中的实体偏差问题。如下图(a)所示,现有的虚假新闻检测方法基于新闻的所有内容进行预测,其中混杂了实体对新闻标签的直接影响以及非实体信号的影响(如写作风格和情感)。基于因果思想,我们提出了 实体去偏假新闻检测框架(ENDEF) ,以增强检测模型面对“未来数据”的泛化能力,如下图(b)所示。在传统的检测支路之外,我们单独建模了实体对新闻真实性标签的直接影响。基于在训练阶段对训练集中所蕴含“实体偏差”的显式建模,我们可以通过在测试阶段直接移除实体相关支路,削弱实体对预测结果的影响,从而实现实体去偏条件下的新闻真实性预测。实验表明,基于本工作提出的ENDEF框架,五种虚假新闻检测模型都达到了更好的效果。

 

 

二、实体去偏假新闻检测框架ENDEF

 

 

一则新闻 里包含 个token,表示为

 

同时该新闻包含 个实体,表示为

 

我们的目标是预测该新闻的真实性,1表示假,0表示真。我们提出的模型如上图所示:同时建模两个因果路径,从实体到真实性标签,以及从实体到新闻内容再到真实性标签。这两条路径输入出的logit定义如下:

 

因此,在训练阶段,依据这两个部分的概率预测为:

 

这里,我们采用交叉熵进行整个框架的训练:

 

 

此外,为了实现更好地抓获实体偏差的目的,我们使用一个辅助损失,应用额外的监督训练在基于实体的模型上。

 

 

因此,总的训练流程包含两个损失函数:

 

这个训练流程是的基于实体的模型关注于仅依赖提供的实体来检测假新闻,因此可以在训练阶段很好地拟合实体偏差。同时,这样的训练可以让虚假新闻检测器学到更少的带偏的信息。

 

在推理阶段,要减缓实体偏差从而实现更好的泛化能力,关键在于移除实体的直接影响。所以,我们直接使用不包含基于实体的模型输出的结果作为推理阶段的预测。

 

此外,为了进一步增强模型的泛化能力,我们引入两种数据增强的技术 [3],包括:

 

· drop:随机丢弃部分token;

 

· mask:随机将部分token替换为特殊符号[MASK]。

 

在训练阶段,我们为样本随机选择一种数据增强策略,候选策略如下:

 

· 以一定的概率随机drop或者mask部分token;

 

· 以一定的概率随机drop或者mask部分实体。

 

三、实验

 

3.1 数据集

 

我们采用Weibo数据集(中文)[2]和FakeNewsNet[4]中的GossipCop部分(英文)来验证框架的有效性。数据集统计如下:

 

 

3.2 离线实验

 

我们选取了5种基础虚假新闻检测模型或者普通文本分类模型(基模型),包括BiGRU[5],EANN[6], BERT[7, 8], MDFEND[9], BERT-Emo[1]。实验结果如下图所示。可以看出,在大多数指标上,我们的ENDEF框架对这五种不同的基模型均有提升作用。

 

 

3.3 线上实验

 

我们还使用 “睿鉴识谣”线上数据进行了实验。下表列出了使用ENDEF后每个基模型的提升幅度,可以看出ENDEF仍然在大多数指标上带来了性能提升。

 

 

四、总结与展望

 

我们提出了面向虚假新闻检测任务的 实体去偏框架ENDEF ,通过减缓训练数据带来的实体偏差,提升不同虚假新闻检测器在“未来数据”上的泛化能力。离线和在线实验均证明了该框架的有效性。

 

就我们所知,这是该领域首个关注面向“未来数据”泛化性的工作 。该问题对真实世界检测系统有重要意义。为了深入理解不同时段新闻之间的差异,我们计划在未来工作中探索:

 

1. 将无偏模型适配到未来的新闻环境;

 

2. 探索不同时间段新闻之间的共性特征。

 

本解读文首发于“事实核查与假新闻检测”知乎专栏 (https://zhuanlan.zhihu.com/p/502590956 ),作者为朱勇椿。

 

参考文献

 

[ 1] Zha ng et al., Mining Dual Emotion for Fake News Detection. WWW 2021.

 

[2] Sheng et al., Zoom Out and Observe: News Environment Perception for Fake News Detection. ACL 2022.

 

[3] Li et al., Learning Policy Scheduling for Text Augmentation. Neural Networks, 2022.

 

[4] Shu et al., FakeNewsNet: A data repository with news content, social context, and spatiotemporal information for studying fake news on social media. Big Data, 2020.

 

[5] Cho et al., On the Properties of Neural Machine Translation: Encoder–Decoder Approaches. The 8th Workshop on Syntax, Semantics and Structure in Statistical Translation.

 

[6] Wang et al., EANN: Event Adversarial Neural Networks for Multi-Modal Fake News Detection. KDD 2018.

 

[7] Cui et al., Pre-training with Whole Word Masking for Chinese BERT. IEEE TASLP, 2021.

 

[8] Devlin et al., BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT 2019.

 

[9] Nan et al., MDFEND: Multi-Domain Fake News Detection. CIKM 2021.

 

本文来自:公众号【ICTMCG】

 

作者:朱勇椿

 

Illustration  b y ekzi.letters  f rom i cons8

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注