Press "Enter" to skip to content

论文浅尝 – EMNLP2020 | 通过词重排序跨语言解析

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

笔记整理 | 吴林娟,天津大学硕士

 

 

来源:EMNLP2020

 

链接:https://www.aclweb.org/anthology/2020.findings-emnlp.265.pdf

 

 

动机

 

依赖解析研究快速发展,然而依赖解析的性能在很大程度上依赖于语料库的大小。获取足够的训练数据成本大且困难,基于机器学习的方法不能简单地应用于低资源语言的依赖解析。跨语言迁移的方法以及在POS、依赖解析、命名实体识别、实体链接、问答等低资源语言任务上获得了成功的应用。但是跨语言迁移的一个关键挑战是难以处理源语言和目标语言之间的词序差异,于是作者针对这个问题提出了通过词重排序跨语言解析(Cross lingUal paRSing by wOrd Reordering,CURSOR)的方法。

 

 

亮点

 

CURSOR的亮点主要是:将词的重新排序形式化为一个组合优化问题,并开发了一个基于种群的优化算法来寻找接近最优的重新排序结果。

 

 

概念及模型

 

问题定义

 

在源数据集S里,给定一个句子 ,目标是对句子中的单词进行排列,模仿目标语言中的顺序。为了测量排列的优劣,使用多层LSTM在目标语料库上训练一个基于POS任务的语言模型 。句子可以表示为:

 

 

目标是可以找到一个排列 ,这个重新排序的句子是由语言模型估计获得最高概率的:

 

 

其中R(x)是x中单词的所有可能排列的集合。理论上,候选者的总个数是n!,而大多数的排列可能与原句意思不同。为了避免这种情况,作者在生成R(x)时应用了一个语法约束:在原句子中构成成分的子序列在重新排序后仍然是子序列,而子序列中单词的内部顺序可能会发生变化。

 

基于种群的优化

 

式(2)中最优的 可以归结为一个着名的旅行推销员问题,是NP-hard的。因此,最优排序在计算上是困难的,作者设计了一个遗传算法来寻找接近最优的结果。

 

遗传算法是一种来自于自然选择过程的启发式搜索方法,它通过迭代的方式将候选解群体进化为更好的解。每一次迭代的总体称为一代。该算法首先执行初始化操作符来创建初始生成。在每一代中,对种群中每一个个体的适应度进行评估,通过应用选择算子,使适应度得分较高的个体有更多的机会繁殖下一代。下一代是通过两种遗传操作符的结合产生的:交叉和变异。交叉算子将双亲的遗传信息结合在一起产生新的后代,而突变算子将多样性引入到抽样群体中。遗传算法在解决组合优化问题方面表现得很好,适用于单词重排问题。

 

为了满足语法约束,作者在子树层次上设计了交叉和变异操作符,即当一个单词被移动到其他地方时,它的子树也被移动。

 

整体算法

 

 

实验

 

作者通过将在英语语料库上训练的四种不同的解析模型转移到30种目标语言来评估CURSOR,并提出了一种结合的方法来进一步提高性能。实验结果如下:

 

 

从表1中可以看出,与基线相比,在词汇重排后的语料库上训练了四种不同的解析模型,跨语言迁移性能都得到了提高。使用RNN编码器的模型比使用SelfAtt编码器的模型受益更多,可能是因为它们对词序更敏感。通过treebank重新排序增强的RNN-Graph模型获得了最佳的平均UAS(66.6%),比基线高出2.5%。对于那些词序与英语截然不同的语言,如印地语(hi)和拉丁语(la),这些改进是非常重要的。

 

作者研究了跨语言迁移的性能与源语言和目标语言的相似性之间的关系,以及迁移方向和迁移解析距离的差异对迁移性能的影响。证明了目标语言和源语言越相似,迁移性能越好。而且CURSOR方法可以很好地消除迁移方向的影响,模型在预测长距离依赖时,对语序的正确性更加敏感。

 

 

总结

 

作者提出了一种用于跨语言依赖分析的树库重新排序方法,不需要任何并行语料库,并且可以应用于任何一对源语言和目标语言,但是条件为POS标记可用。在30种语言的不同网络架构中进行的大量实验表明,论文提出的方法可以显着提高跨语言解析的性能。但是面向POS标记数据为低资源的语言,该方法不太适用,这一点可以留给我们读者继续思考的空间。

 

Be First to Comment

发表评论

邮箱地址不会被公开。 必填项已用*标注