Press "Enter" to skip to content

通过学习标记化来提高 Vision Transformer 的效率和准确性

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

近年来,预训练的语言模型,如BERT和GPT-3,在自然语言处理(NLP) 中得到了广泛应用。通过对大量文本进行训练,语言模型获得了关于世界的广泛知识,在各种 NLP 基准测试中取得了强劲的表现。然而,这些模型通常是不透明的,因为可能不清楚它们为何表现如此出色,这限制了模型的进一步假设驱动改进。因此,出现了一条新的科学探究路线:这些模型中包含哪些语言知识?

 

虽然人们可能想要研究的语言知识类型很多,但为分析提供强大基础的主题是英语中的主谓一致语法规则,它要求动词的语法编号与主语的语法编号一致. 例如,句子“狗跑。”是语法,因为“ dogs ”和“ run ”都是复数,但是“ Thedogsruns ” 。”是不合语法的,因为“ runs ”是一个单数动词。

 

评估语言模型的语言知识的一种框架是目标句法评估(TSE),其中向模型显示最小差异的句子对,一个是语法的,一个是不合语法的,模型必须确定哪一个是语法的。通过让模型判断同一句子的两个版本,TSE 可用于测试英语主谓一致规则的知识:一个特定动词以单数形式书写,另一个动词以单数形式书写它的复数形式。

 

 

在上述背景下,在EMNLP 2021发表的“ Frequency Effects on Syntactic Rule-Learning in Transformers ”中,我们调查了 BERT 模型正确应用英语主谓一致规则的能力如何受单词出现次数的影响模型在预训练期间看到的。为了测试特定条件,我们使用精心控制的数据集从头开始预训练 BERT 模型。我们发现 BERT 在预训练数据中没有一起出现的主语-动词对上取得了良好的表现,这表明它确实学习应用主谓一致。然而,当错误形式比正确形式更频繁时,模型倾向于预测错误形式,这表明 BERT 没有将语法一致性视为必须遵循的规则。这些结果有助于我们更好地了解预训练语言模型的优势和局限性。

 

先前的工作

 

先前的工作使用 TSE 在 BERT 模型中测量英语主谓一致能力。在这种设置中,BERT执行一个填充式的空白任务(例如,“狗_对面的公园”)的概率分配到两个给定的动词(如“的单数和复数形式运行”和“运行”)。如果模型正确地学会了应用主谓一致规则,那幺它应该始终为使句子在语法上正确的动词形式分配更高的概率。

 

之前的这项工作使用自然句子(取自维基百科)和nonce句子来评估 BERT ,这些句子被人为构造为在语法上有效但在语义上无意义,例如 Noam Chomsky 的着名例子“无色的绿色想法疯狂地睡觉”。Nonce 句子在测试句法能力时很有用,因为模型不能仅仅依靠表面的语料统计:例如,虽然“dogs run”比“dogs running”更常见,但“dogs publish”和“dogspublishes”都将是非常罕见,因此模型不可能简单地记住其中一个比另一个更有可能这一事实。

 

BERT 在 nonce 句子上实现了超过 80% 的准确率(远好于 50% 的随机机会基线),这被视为模型已经学会应用主谓一致规则的证据。在我们的论文中,我们通过在特定数据条件下预训练 BERT 模型超越了之前的工作,使我们能够更深入地研究这些结果,以了解预训练数据中的某些模式如何影响性能。

 

看不见的主语-动词对

 

我们首先研究了该模型在预训练期间看到的主语-动词对上的表现如何,以及主语和动词从未出现在同一个句子中的示例:

 

 

BERT 的错误率对于看不见的主谓 (SV) 对,自然和现时评估句子都略有增加,但它仍然比朴素的启发式算法好得多,例如选择在预训练数据中更频繁出现的动词形式或选择与主语名词一起出现频率更高的动词形式。这告诉我们 BERT 不仅反映了它在预训练期间看到的东西:做出决策不仅仅基于原始频率和推广到新的主语-动词对,这表明模型已经学会应用一些潜在的规则主谓一致。

 

动词的频率

 

接下来,我们超越了只看到与未看到的关系,并检查了单词的频率如何影响 BERT 使用主谓一致规则正确使用它的能力。在本研究中,我们选择了一组 60 个动词,然后创建了多个版本的预训练数据,每个版本都设计为包含特定频率的 60 个动词,确保单复数形式出现相同的次数。然后,我们从这些不同的数据集中训练了 BERT 模型,并在主谓一致任务上对其进行了评估:

 

 

这些结果表明,虽然 BERT 能够对主谓一致规则进行建模,但它需要看到一个动词大约 100 次才能可靠地将它与规则一起使用。

 

动词形式之间的相对频率

 

最后,我们想了解动词单数和复数形式的相对频率如何影响 BERT 的预测。例如,如果动词的一种形式(例如,“combat”)比另一种动词形式(例如,“combats”)出现在预训练数据中的频率要高得多,那幺 BERT 可能更有可能分配一个高概率到更频繁的形式,即使它在语法上不正确。为了评估这一点,我们再次使用了相同的 60 个动词,但这次我们创建了预训练数据的操纵版本,其中动词形式之间的频率比从 1:1 到 100:1 不等。下图显示了 BERT 在这些不同级别的频率不平衡下的性能:

 

 

这些结果表明,当两种形式在预训练期间被看到相同的次数时,BERT 在预测正确的动词形式方面取得了良好的准确性,但随着频率之间的不平衡增加,结果变得更糟。这意味着,即使 BERT 已经学会了如何应用主谓一致性,它也不一定将其用作“规则”,而是更愿意预测高频词,而不管它们是否违反主谓一致性约束。

 

结论

 

使用 TSE 评估 BERT 的性能揭示了它在句法任务上的语言能力。此外,研究其与训练数据集中单词出现频率相关的句法能力揭示了 BERT 处理竞争优先级的方式——它知道主语和动词应该一致,高频词更有可能,但不理解这种一致是必须遵循的规则,频率只是一种偏好。我们希望这项工作为语言模型如何反映训练它们的数据集的属性提供新的见解。

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注