Press "Enter" to skip to content

ICML2022论文 | 虚拟同构化学习:抵御联邦学习中的数据异构性

恭喜师弟@二猹树 (香港浸会大学计算机博士生唐桢桁)喜提ICML,宣传文稿来一波,欢迎大家讨论关注。

 

ICML 2022 “Virtual Homogeneity Learning: Defending against Data Heterogeneity in Federated Learning” 提出了一种利用虚拟同构数据集来抵御联邦学习中的数据异构性的技术,显着地提高了联邦学习的泛化性能及收敛速度。

 

摘要

 

联邦学习可以实现对去中心化的数据收集和模型训练,已成为一种重要的模型训练并同时保护数据隐私的技术。在联邦学习场景中,大量客户端在不共享其私有数据的情况下协作更新机器学习模型。

 

在联邦学习中,模型性能通常会受到数据异构性而引起的客户端漂移的影响,主流工作侧重于纠正客户端漂移。 我们提出了一种名为虚拟同构性学习(VHL)的不同方法来直接“纠正”数据异构性。 VHL 使用虚拟同构数据集进行联邦学习,该数据集旨在满足两个条件:完全不包含任何隐私信息并且是可分的。虚拟数据集可以从客户端共享的纯噪声中生成,旨在校准来自异构客户端的特征。 理论上,我们证明了 VHL 可以在原数据分布上实现可保证的泛化性能。 实验上,我们验证了 VHL 赋予联邦学习显着提高的收敛速度和泛化性能。 VHL 是首次尝试使用虚拟数据集来解决数据异构性问题的工作,为联邦学习提供了新的有效工具。

 

背景与挑战

 

联邦学习面临着来自不同客户端的non-IID数据分布以及其计算和通信能力的多样性带来的异构挑战。严重的数据异构性很容易导致客户端漂移,导致不稳定的收敛和较差的模型性能。

 

为了解决计算以及通信异构性问题,第一个联邦学习算法FedAvg,提出在训练期间进行更多的局部计算和更少的通信。虽然FedAvg解决了计算和通信的异构性问题,但non-IID数据分布(数据异构性)引起的客户端漂移对FedAvg有显着的负面影响。为了解决客户端漂移问题,许多工作都致力于设计新的学习范式,例如在客户端的本地训练策略,或是在服务器端的模型聚合策略。然而,最近的一项基准测试工作表明,FedAvg在许多实验环境中都优于其变体。这表明,单一方法在多个场景中解决客户端漂移问题具有挑战性。因此,解决客户漂移仍然是联邦学习的一个基本挑战。

 

另一个令人振奋的方向是直接“纠正”客户端漂移的原因,即数据异构性。具体来说,共享一小部分私有数据或私有统计信息可以使位于不同客户端的数据异构性降低。然而,数据共享方法使联邦学习面临隐私泄露的危险。虽然差分隐私是避免隐私泄漏的一个竞争候选方案,但使用差分隐私可能会导致性能下降。所有这些挑战激发了一个基本问题:“通过共享完全不包含私有信息的数据,可以克服联邦学习系统中的数据异构挑战吗?”

 

在这项工作中,我们提出了一种新的方法,称为虚拟同构性学习(VHL),为这个问题提供了肯定的答案。VHL通过在所有客户端之间共享一个独立于私有数据集的虚拟同构数据集,为每个客户端矫正私有数据的异构性。

 

方法

 

VHL的关键挑战是如何生成虚拟数据集以提高模型性能。通常来说,将不同分布的新数据集与原始数据相结合可能会在不同方面牺牲泛化性能,例如分布漂移,带噪标签,和垃圾数据等问题。在实践中,从自然数据中采样数据以构建虚拟数据集是一个重要挑战。因此,引入来自不同分布的大量虚拟数据将导致训练分布不同于测试分布,即分布漂移,导致测试集的泛化性能较差。因此,分布漂移是引入虚拟数据集的一个关键不利影响。

 

幸运的是,我们可以访问有标签的虚拟数据集(即源域)和自然数据集(即目标域),因此我们可以通过域适应(DA)来缓解分布漂移。具体地说,我们可以匹配源域和目标域的条件分布。我们的理论分析表明,匹配基于标签信息的虚拟分布和自然分布可以实现可保证的泛化性能。这一匹配可以通过将同一类中的自然和虚拟数据特征拉到一起来实现,如图1所示。

 

图1 不同客户端的特征分布。圆形和三角形分别表示客户端A和B上的数据。由虚线圆框包围的点表示虚拟数据。不同的颜色代表不同标签的数据。经过本地训练后,同一标签在不同客户端上的私有自然数据的特征相距较远,但同一标签的共享虚拟数据的特征相距较近(左图)。

 

图2显示了训练后特征分布的T-SNE可视化。这些数据表明,同一类的私有数据在客户端之间具有不同的特征分布。但同一类的共享噪声数据在客户端之间具有相似的特征分布。

 

图2 使用FedAvg训练的3个不同客户端模型上的数据特征的t-SNE可视化。不同的颜色代表不同的数据类别,不同的形状代表不同的客户端,虚线圆圈表示虚拟数据。Naive VHL意味着使用私有自然数据和共享虚拟数据进行训练,而不进行特征校准。

 

基于这种现象,我们建议将同一标签的样本拉到一起,以便减少私有数据的特征漂移。在这里,我们给虚拟数据分配与私有数据相同的伪标签,使得虚拟标签与自然标签有一对一的映射,以便于进行特征校准。在具体实现中,我们只需要在虚拟特征与其相应的自然特征之间添加一个新的距离损失。与FedAvg相比,我们只需对噪声数据进行额外采样,并添加新的损失计算。因此,VHL可以与其他联邦学习算法无缝结合。

 

实验结果

 

为了证明VHL的有效性,我们在广泛使用的联邦学习模拟数据集上进行了实验,并测试了不同数量的客户端、不同的non-IID程度、不同的本地更新轮次。我们在四个数据集上将VHL应用于几种流行的FL算法,包括FedAvg、FedProx、SCAFFOLD和FedNova。实验结果表明,VHL可以提高泛化能力和收敛速度。对于大多数实验,VHL可以获得最佳泛化性能和以最少的目标通信轮来获得目标精度。

 

另外,我们验证了不同消融算法和超参数对VHL的影响。第一种算法是虚拟特征转移学习(VFTL)。在该算法中,服务器将在噪声数据集上预训练全局模型,之后正常执行联邦学习算法。该算法没有表现出任何明显的改进,表明噪声预训练对联邦学习没有好处。第二种算法被命名为Naive VHL,其中,联邦学习同时对私有数据和噪声数据进行学习但不进行特征校准。有趣的是,结果表明,Naive VHL也可以改善训练,尽管其性能不如VHL。这一有趣的现象将激发更多的研究工作。第三种是虚拟特征对齐。它仅基于一些随机特征校准私有特征。这个简单的算法还改进了联邦学习。这表明了客户端之间相同标签的一致表示的重要性。我们还修改了VHL的不同超参数以进行敏感性测试。结果表明,VHL对这些因素不敏感

 

总结与展望

 

在本文中,我们发现联邦学习可以显着受益于不包含隐私信息的虚拟数据集,从而从虚拟数据的角度缓解了数据异构性。通过基于同质虚拟数据的异构特征校准,联邦学习可以显着提高性能,减少客户端漂移。我们的贡献不仅在于改进了联邦学习中的模型性能,而且带给人们对联邦学习更多的认识以及许多有趣的实验现象。我们希望未来的工作能够发掘更多关于VHL的理论与新算法,并利用它来增强联邦学习或其他机器学习任务。

 

更多的文章细节请阅读我们的文章,十分感谢大家。

 

资源

 

论文链接: https:// arxiv.org/abs/2206.0246 5

 

代码链接: https:// github.com/wizard1203/V HL

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注