Press "Enter" to skip to content

无监督对比学习,神经网络的未来

小天导语: 人工神经网络一直悬而未决的问题是如何像大脑一样有效地进行无监督学习。当前有两种主要的无监督学习方法。第一种方法,以BERT和变分自编码为代表,使用深度神经网络来重建其输入。第二种方法,通过训练一个深层神经网络的两个副本,以相同图像的两种不同剪裁作为输入,产生具有高度互信息的输出向量。7月27日上午,第43届SIGIR 2020线上开启,图灵奖得主Geoffrey Hinton进行了主题演讲,指出无监督对比学习将是神经网络的未来。

 

研究方向: 机器学习,无监督对比学习,神经网络

 

BERT在语言任务如鱼得水,但在视觉领域行不通

 

本次SIGIR大会上,Hinton首先回顾了自编码器。

 

自编码器是一种利用反向传播算法使得输出值等于输入值的神经网络,它将原始数据压缩成潜在的空间表征,然后通过这种表征来重构输出。

 

 

作为自编码器的典型代表BERT为例,它将句子中的每个词都表示为一种嵌入向量,L+1层通过对比相邻的其他词学到比L层更好的表征,这个更好的表征主要得益于注意力机制。

 

在到达最后一个激活层softmax之前,词的表征已经非常好了,只需要fine-tune,就能轻松迁移到其他自然语言相关的任务。

 

 

「上下文信息是最好的老师」。Hinton举例,「She scromed him with the frying pan」,即使我们没见过「scromed」,通过下文的平底锅,也能大概猜测出「scromed」的意思,拿个平底锅能干啥好事呢?

 

Hinton认为在视觉领域也是如此,同一批图片的上下文表示,可以提供很强的相关语义信息。

 

但是BERT这样的编码方式对于图像来说是有问题的,因为网络的最深层需要对图像的精细细节进行编码。

 

 

过去20年,为什幺有的研究人员认为训练深度自编码器如此困难?Hinton觉得主要有三个原因:

 

没有采用正确的神经元,修正的线性单元比sigmoid和tanh更合适。

 

初始化权重做的不好,导致反向传播时的梯度消失或爆炸。

 

硬件算力不足。

 

 

1750亿参数的GPT3,简直了!

 

 

无监督对比学习才是神经网络的未来

 

人类大脑有10^14个神经元连接,而人的一生只有10^9秒,因此人类仅靠监督学习是无法完成所有神经元训练的,我们的深度学习模型也是如此,只用监督学习无法取得更新的进展,要将无监督学习融入进来。

 

 

当前无监督学习方法过度关注数据的重构损失(Reconstructive Loss),而忽略了数据间关联关系的捕捉。基于此,他提出了下一代神经网络模型的构想,提出利用对比损失函数(Contrastive Loss)建模样本间的局部关系、增强数据间表达的一致性的解决思路。

 

 

最后,Hinton展示了自己这一构想的最新实现SimCLR。

 

 

SimCLR是一个简单的视觉表示对比学习框架,它不仅比以前的类似工作更出色,而且也更简单。

 

它首先学习未标记数据集上图像的一般表示,然后可以使用少量标记图像对其进行微调,就能实现特定领域的分类任务。

 

SimCLR可以通过同时最大化同一图像的不同变换视图之间的一致性以及最小化不同图像的变换视图之间的一致性来学习通用表示。利用这一对比目标更新神经网络的参数,使得相应视图的表示相互「吸引」,而非对应视图的表示相互「排斥」。

 

 

小天结语: SimCLR 极大地提高了 ImageNet 上无监督和半监督学习的SOTA效果。 基于 SimCLR 训练的线性分类器可以达到76.5% / 93.2%的 top-1 / top-5的准确率,而之前的最好的模型准确率为71.5% / 90.1%。由此,Hinton认为,SimCLR为代表的无监督对比学习将开启神经网络的新时代。后面小天也会就无监督对比学习分享理论和实践教程,大家可以先参考下面的资料进行学习。

 

资料推荐: 1. 《Efficient Processing of Deep Neural Networks | Synthesis Lectures on Computer Architecture》(Morgan & Claypool 2020)

 

2. 《Neural Networks from Scratch with Python Code and Math in Detail— I》by Pratik Shukla, Roberto Iriondo

 

3.《Neural Networks and Deep Learning | SpringerLink》by Charu C. Aggarwal (Springer 2019)

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注