Press "Enter" to skip to content

NeurIPS 2021 | 对比图泊松网络:面向极少标签的半监督学习方法

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

现实生活中,无标签样本易于获取,而有标签样本的收集通常代价高昂。针对这种情况,半监督学习(Semi-Supervised Learning,简称SSL)被提出,以同时利用少量有标签样本和大量无标签样本来训练分类器。然而,当标签信息极为稀少时,当前的半监督学习方法往往无法取得令人满意的效果。因此,本文提出了一种新型图神经网络框架—— 对比图泊松网络 ,其在标签规模非常有限的情况下,仍有不俗的分类表现。该工作由 京东探索研究院、南京理工大学、悉尼大学和莫纳什大学合作完成 ,目前已被NeurIPS 2021接收。

 

 

文章:

 

https://papers.nips.cc/paper/2021/file/31c0b36aef265d9221af80872ceb62f9-Paper.pdf

 

一、研究背景

 

SSL旨在利用少量有标签数据和大量无标签数据进行模型训练 [2]。 过去的几十年间,SSL在多个领域都引起了广泛的研究兴趣,包括协训练 [3]、一致性正则 [4]、支持向量机 [5]等方法陆续被提出。 其中,基于图的SSL算法凭借其坚实的数学基础和优越的性能,吸引了众多研究者的注意。

 

在基于图的SSL算法中,所有的有标签和无标签数据都被表示为图节点,而它们之间的关系则用边来刻画,其主要任务是将少量有标签节点中的标签信息,转移到剩下的无标签节点上,从而实现无标签节点的准确分类。近年来,作为解决这类问题的主流方法之一,图神经网络(Graph Neural Networks,简称GNN)[6]取得了令人瞩目的成果。尽管如此,当前的GNN模型(如图卷积网络GCN [7]和图注意力网络GAT [8])通常需要足够的有标签样本进行训练,才能拥有令人满意的分类能力。然而,对有标签样本的依赖无疑会增加数据收集工作的负担,同时,在某些场景下,有标签样本的数据可能是极为稀少的。由于有限的监督信号不足以训练一个具备良好鉴别能力的模型,所以大部分GNN模型的性能会随着标签数量的减少而逐渐下降,如图1所示。目前为止,关于使用极少标签进行半监督学习的GNN模型研究十分匮乏。

 

 

图1 在不同数量的标签下,GCN,GAT和CGPN(本文方法)的分类表现。

 

二、方法原理简述

 

为了填补该研究的空白,我们提出了一个新的框架: 对比图泊松网络(Contrastive Graph Poisson Networks,简称CGPN) 。该框架基于变分推断和对比学习,拟从两个方面解决标签极少时,分类效果不佳的问题。框架结构如图所示。

 

 

图2 CGPN的框架结构

 

首先,为了促进标签信息在图中更好地传播,我们提出了图泊松网络(Graph Poisson Networks,简称GPN)。借助图结构信息,GPN能够将原本稀少的标签信息灵活地传播到整个图中。具体地,受泊松学习 [8]启发,GPN以如下规则迭代地进行信息传播:

 

 

其中, 是第t次迭代的结果, 是拉普拉斯矩阵, 是对角阵, 是包含了原始标签信息的矩阵。考虑到泊松学习主要着眼于标签信息的传播,而无法利用邻居节点特征的结构信息,我们借助一个特征转换模块   来显示地引入节点特征信息,从而通过迭代过程提取邻域结构信息来优化预测结果。另一方面,泊松学习的信息传播过程无法有效利用节点之间的内在关联信息,这主要是因为泊松学习始终基于固定的原始图,而原始图可能存在噪声等干扰因素,从而使得不准确的预测结果随着迭代而逐渐累积,为了解决这一缺陷,GPN借助注意力机制灵活地刻画节点间的内在关联,并逐步优化图信息。

 

 

图3 GPN的传播规则

 

尽管通过GPN能够使得标签信息得到有效传播,但当输入的标签信息极少时,仍不足以训练一个鉴别能力优秀的模型。因此,我们想要从数据本身出发来挖掘额外的监督信息辅助模型训练。由于在变分推断中,我们分别借助GPN和常规的GNN,来对ELBO的两个参数化后验概率模型进行实例化,因此,这两个实例化模型能够分别提供两个视角下的输出,从而我们可以在这里非常自然地使用对比学习 [10, 11],如下图所示。

 

 

图4 CGPN中的对比学习

 

最后,我们的总体目标函数如下,分别由 (1)ELBO损失函数、(2)交叉熵损失函数和(3)对比学习损失函数三部分组成 :

 

 

三、实验结果

 

在本节中,我 们将本文所提出的CGPN方法与几种最先进的GNN模型在多个数据集 [15, 16]上进行比较并展示了部分比较结果,包括GCN [7](ICLR 17)、GAT [8](ICLR 18)、BGCN [12] (AAAI 19)、MVGRL [11](ICML 20)、GPRGNN [13](ICLR 21)和APPNP [14](ICLR 18)。 为了凸显CGPN在标签极为稀缺时的分类优越性,我们从每类中分别随机挑选1、2、3、4个有标签节点进行训练。

 

 

表1 Cora数据集上的分类结果

 

 

表2 CiteSeer数据集上的分类结果

 

 

表3 PubMed数据集上的分类结果

 

 

表4 Amazon Photo数据集上的分类结果

 

四、总结

 

在面对数量极少的标签时,当前基于图的半监督方法往往无法取得令人满意的分类结果,为了解决这一问题,我们提出了对比图泊松网络框架。通过在对比框架下设计图泊松网络,原本有限的标签信息能够被灵活地传播到整个图中,并且足够的监督信号可以被用作模型训练。 在不同数据集上的实验证明了本文所提出的CGPN的有效性。

 

参考文献

 

[1] Wan S, Zhan Y, Liu L, et al. Contrastive Graph Poisson Networks: Semi-Supervised Learning with Extremely Limited Labels[C]//Thirty-Fifth Conference on Neural Information Processing Systems. 2021.

 

[2] Xiaojin Zhu, John Lafferty, and Ronald Rosenfeld. Semi-supervised learning with graphs. PhD thesis, Carnegie Mellon University, language technologies institute, school of computer science, 2005.

 

[3] Blum, A.; and Mitchell, T. 1998. Combining labeled and unlabeled data with co-training. In COLT, 92–100.

 

[4] Tarvainen, A.; and Valpola, H. 2017. Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results. In NeurIPS, 1195–1204.

 

[5] Bennett, K. P.; and Demiriz, A. 1999. Semi-supervised support vector machines. In NeurIPS, 368–374.

 

[6] Zonghan Wu, Shirui Pan, Fengwen Chen, Guodong Long, Chengqi Zhang, and S Yu Philip. A comprehensive survey on graph neural networks. IEEE Transactions on Neural Networks and Learning Systems, 2020.

 

[7] Thomas N. Kipf and Max Welling. Semi-supervised classification with graph convolutional networks. In International Conference on Learning Representations, 2017.

 

[8] Petar Veliˇckovi´c, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio, and Yoshua Bengio. Graph attention networks. arXiv preprint arXiv:1710.10903, 2017.

 

[9] Jeff Calder, Brendan Cook, Matthew Thorpe, and Dejan Slepcev. Poisson learning: Graph based semi-supervised learning at very low label rates. In International Conference on Machine Learning, pages 1306–1316, 2020.

 

[10] Yanqiao Zhu, Yichen Xu, Feng Yu, Qiang Liu, ShuWu, and LiangWang. Deep graph contrastive representation learning. arXiv preprint arXiv:2006.04131, 2020.

 

[11] Kaveh Hassani and Amir Hosein Khasahmadi. Contrastive multi-view representation learning on graphs. In International Conference on Machine Learning, pages 4116–4126, 2020.

 

[12] Yingxue Zhang, Soumyasundar Pal, Mark Coates, and Deniz Ustebay. Bayesian graph convolutional neural networks for semi-supervised classification. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, pages 5829–5836, 2019.

 

[13] Eli Chien, Jianhao Peng, Pan Li, and Olgica Milenkovic. Adaptive universal generalized pagerank graph neural network. In International Conference on Learning Representations, 2021.

 

[14] Johannes Klicpera, Aleksandar Bojchevski, and Stephan Günnemann. Predict then propagate: Graph neural networks meet personalized pagerank. In International Conference on Learning Representations, 2018.

 

[15] Aleksandar Bojchevski and Stephan Günnemann. Deep Gaussian embedding of graphs: Unsupervised inductive learning via ranking. In International Conference on Learning Representations, 2018.

 

[16] Oleksandr Shchur, Maximilian Mumme, Aleksandar Bojchevski, and Stephan Günnemann. Pitfalls of graph neural network evaluation. arXiv preprint arXiv:1811.05868, 2018.

 

本文来自: 公众号【京东探索研究院】

 

作者:京东探索研究院

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注