Press "Enter" to skip to content

滴滴翻译技术探索与实践

1. 背景

 

机器翻译系统是使用深度学习技术从其支持的语言中翻译大量文本的服务。服务将 “源” 文本从一种语言转换为不同的 “目标” 语言。

 

机器翻译技术背后的概念和使用它的接口相对简单,但背后的技术是极其复杂的,并汇集了一些前沿技术,特别是深度机器学习、大数据、语言学、GPU 加速计算等。

 

大规模商业化使用的机器翻译主要经历了 SMT 与 NMT 阶段:

 

1.1 统计机器翻译(SMT)

 

机器翻译行业使用的比较早的技术是统计机器翻译 (SMT)。SMT 采用统计分析方法,根据源语言的语境,利用已有的双语语料学习到的短语翻译知识,将源语言的分隔片段短语转化为对应的目标短语,最后利用语言模型估计出一个句子的最佳可能译文。SMT 也是最早商用的机器翻译系统。

统计机器翻译结构

 

1.2 神经机器翻译(NMT)

 

神经机器翻译是利用深度神经网络将源句子进行编码,再进行解码翻译为目标语言。2016 年,Google 发表 GNMT[1],改变了 SMT 的地位,使翻译技术发生了根本性的转变,自此进入 NMT 时代,并且有了现在更高的翻译质量。

神经机器翻译结构

 

1.3 SMT 与 NMT 的相同点

 

两者都需要大量的标注数据(人类翻译内容 )来训练翻译系统。

 

两者不能用做双语字典。翻译是基于潜在翻译列表翻译单词,并根据句子中使用的单词的上下文进行翻译。

 

2. 评价指标 (BLEU)

 

对于机器翻译的结果,可以采用人工评估的方法,但是比较受限。首先是人工评估具有一定的主观性,其次每次训练结果需要人工评估成本较高。

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注