Press "Enter" to skip to content

Learning implicit TG via feature matching

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

论文: Learning Implicit Text Generation via Feature Matching

 

来源:ACL 2020

 

Abstract

 

生成特征匹配网络 (Generative feature matching network, GFMN)是一种图像隐式生成方法,其通过将预训练神经网络的特征进行矩匹配来实现,详见论文 Learning Implicit Generative Models by Matching Perceptual Features

 

本文针对 序列数据 提出SeqGFMN,在三个生成任务上做了实验: 无条件文本生成、类别条件文本生成和无监督文本风格迁移 。结果表明SeqGFMN在文本生成和风格迁移中相比于其他对抗式方法 训练稳定、性能更优 。

 

Introduction

 

GFMN在图像生成上取得了最佳性能且避免了对抗学习的不稳定性。类似于GANs,GFMN通过生成数据反向传播更新参数来训练。这种反向传播过程,再结合对抗学习的不稳定性, 应用于离散数据极具挑战性 。然而, GFMN对于离散数据的有效性 还未被研究,特征匹配网络应用于离散数据是否会遇到挑战仍然未知。因此本文针对此问题展开研究。

 

贡献:

 

 

    1. 针对无条件序列生成提出 SeqGFMN ,由于不需要同时训练生成器,模型训练稳定。

 

    1. 通过执行 类别感知特征匹配 将SeqGFMN应用于类别条件生成中。

 

    1. 将 风格感知特征匹配 损失代替之前无监督文本风格迁移中的对抗损失和回迁损失,并取得更好的效果。

 

 

Related work

 

利用隐式生成模型进行文本生成

 

Adversarial feature matching for text generation. 2017

 

在GAN目标中加入重构特征损失,而本文判别器无需学习,特征匹配基于词级别而不是句子级别。

 

Seqgan: Sequence generative adversarial nets with policy gradient. 2017

 

Maximum-likelihood augmented discrete generative adversarial networks. 2017

 

Adversarial ranking for language generation. 2017

 

使用通过MLE损失预训练的生成器和通过强化学习训练的词级别分类器。本文模型无需对生成器预训练,使用现有的特征抓取器代替难以处理的判别器。

 

由于问题的离散性,训练隐式模型较为困难,之前通过强化学习、actor-critic、Gumbel softmax技巧来解决。

 

无监督文本风格迁移

 

针对此任务提出了许多编码器-解码器架构的变体。

 

Style transfer from non-parallel text by cross-alignment. 2017

 

Style transfer in text: Exploration and evaluation. 2018

 

使用对抗分类器将文本解码到不同的风格。

 

Improved neural text attribute transfer with non-parallel data. 2017

 

Fighting offensive language on social media with unsupervised text style transfer. 2018

 

提出协作分类器与回迁损失相结合的方法。

 

Style transfer through back-translation. 2018

 

针对不同的风格,通过结合预训练的NMT编码器与风格分类器训练不同的编码器。

 

本文方法与之前方法的不同之处在于使用特征匹配损失来执行分布匹配。

 

Feature Matching Nets for Text

 

SeqGFMN

 

:序列生成器,参数为 的神经网络;

 

:预训练NLP词级别(序列长度为 )特征提取网络,包含 个隐藏层。

 

则通过优化下式(最小化词级别的特征匹配损失)来训练

其中 表示用于特征匹配的隐藏层数量, 表示最大序列长度。

具体步骤 :预先在整个训练数据集上计算 ;训练阶段将高斯噪声向量输入生成器 得到小批量假数据;通过固定的特征提取器 得到生成器输出数据的词级别特征;计算损失,利用随机梯度下降优化 。生成器的输出用一系列的 向量表示,特征抓取器将对应embedding加权输入到下一层。

 

Class-Conditional SeqGFMN

 

条件生成的动机是:当训练数据可以被划分为不同的、有意义的类别,训练时便可利用类信息提升模型的整体性能。SeqGFMN提取的特征需在充分表示生成文本的同时,但在类别之间有所差异。当类别数量为2时,损失变为:

当给定条件 ,我们可以得到依赖于 的噪声向量:

均是可训练的参数,不同类别的噪声转换参数可以分别进行训练。此方法可将线性变换拓展为神经网络。

 

在生成器中使用了conditional batch normalization,分为两步实现。首先执行标准的BN:

之后引入类别依赖性:

这使得类条件的影响扩展至整个模型中使用condBN的部分。

 

Unsupervised Text Style Transfer (UTST) with SeqGFMN

 

文本风格迁移的主要挑战是缺乏平行数据,当前许多方法通过调整编解码器框架对非平行数据训练,调整通常包括平衡以下两种损失:

重构损失:旨在保留句子内容;
风格分类损失:旨在保证正确的迁移。

平衡这两种损失并保证生成句子的质量是困难的,本文通过基于编解码器的特征匹配来缓解此问题。损失包括三项:

重构损失

分类损失

第一项提供了监督信号,第二项提供了训练信号,以半监督的方式进行训练,给出了当前生成器把句子转换到其他风格的效果反馈。

特征匹配损失

类似于上式, 在这里表示不同风格。当从风格 转移到 时,我们将结果句子的特征与来自目标风格 的真实数据的特征进行匹配。

 

Experiments and Results

 

数据集:MSCOCO、WMT News dataset、Yelp Reviews

 

特征提取器:GloVe、FastText、BERT

 

评估指标(生成质量及多样性):BLEU、Self-BLEU、FID、准确率

 

无条件文本生成

实验中模型生成器均未预训练,可以看到本文模型性能优于其他GAN(较低的BLEU和Self-BLEU表示模式生成未出现在测试集中的随机n-grams)。

 

类别条件文本生成

根据结果可知模型有效地利用了条件信息,但此处未与其他条件文本生成模型作对比。

 

无监督文本风格迁移

Conclusion

 

提出了适用于无条件和条件文本生成的基于特征匹配损失的隐式生成模型。模型在离散数据上训练稳定,并在性能上表现良好。

 

启发:可将预训练模型当作特征匹配网络来判断分布的接近程度。

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注