Press "Enter" to skip to content

机器翻译为何仍取代不了人类?自然语义的微妙是其瓶颈

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

机器翻译技术在近年来取得了长足进步,并且逐步逼近平行对译的境界。在西方诸语种之间,机器翻译的准确率已经稳居90%以上。(人民视觉/图)

 

机器翻译技术在近年来取得了长足进步,已经在诸多语种与诸多领域实现了从0到1的突破,并且逐步逼近平行对译的境界。在西方诸语种之间,机器翻译的准确率已经稳居90%以上,即便是长期以来难度颇大的中-英或是英-中对译,机器翻译的准确率也在稳步增长,Deep L与Google Translator的成就屡屡令人惊呼,人类是不是即将退出翻译这门古老的职业。

 

然而,几年前人们的乐观与预言,在2022年并没有实现。人工翻译不但没有退出历史舞台,甚至还在机器翻译的辅助下多挣了不少钱。另一方面,机器翻译似乎总面临那幺一点瓶颈,哪怕99%的内容都不出错,仍然会在最后一公里卡壳,不是需要人工查漏补缺,就是弄出谬以千里的笑话。

 

为什幺机器翻译仍然无法完全独立工作,以至于完全取代人类?这个问题有两个层次:一、人工智能自身的工作机制;二、翻译的本质。

 

人工智能的理念早在冷战期间就已提出,为何隔了几十年才有跨越式的进展?原因就在于,人类收集、存储与调用数据的能力有了飞速进步,成功地将机器学习的原理从“基于规则”变成了“基于数据”。大数据让机器得以运用“监督学习”(有数据标签)、“无监督学习”(无数据标签)与“强化式学习”(甚至不需要数据)这样的方法,用机器语言提出并解决问题,然后转译为自然语言,解答人类的难题。但在最后,所有类似的机器学习都要依赖数据。没有数据,就不可能有人工智能。

 

机器翻译是人工智能推动的,人工智能的工作机制则以“机器学习”为核心。机器语言有效利用数据,凭借强大的算力进行机器学习,有效转译并解答自然语言,已经成功在一个个领域攻城略地。

 

比如围棋。一盘围棋的可能性是一个天文数字,超过宇宙现存的原子总数。围棋向来被认为是人工智能难以攻克的所在,但这个态势在阿尔法狗出现以后也有了很大改观。阿尔法狗只需要自己与自己下棋,就凭借“强化式学习”获得海量数据,依托围棋自身的规则解答难题。人工智能棋手不知疲倦地训练,尽管算力不可能穷尽宇宙原子总数,但也将人类棋手甩在了身后。

 

但在机器翻译这个领域,人工智能需要处理的数据量显然远远超过了一盘围棋的无数种可能。自然语言的庞大语料库首先就是对机器算力的挑战,它需要在浩如烟海的文献里爬梳整理;其次,自然语言与机器语言之间的转换,很难有围棋那样明确的规则。

 

与其说人工智能在处理自然语言,倒不如说它要面对的是两种或者多种语言构成的全部公共知识,甚至还有一些不那幺公共的知识。这是个浩大的工程,哪怕人工智能结合了多种机器学习的机制,如何向其投喂语料库数据也是个道阻且长的任务。

 

不但如此,语言的演变速度非常非常快,热词往往在几年之间就已经不再流行,或者是意义全失,这一过程是机器无法或者难以理解的。不同语种的自然语言还衍生出了完全不同的公共知识,哪怕是同一句话,在语境不同或者说话人主体不同的情况下,意思可能就完全不同——这还是没有考虑到断句、语气等连自然语言也会产生歧义的情况。比如说,“颗粒度”与“赋能”这些互联网公司黑话,物理学家与互联网产品经理所说的必定不是同一个意思。

 

如果某个学科、某个词语需要实现两种语言/公共知识之间的第一次对译,甚至是在同一门语言里的提喻(metonymy),那幺这项任务仍然需要仰赖人工翻译。这并不代表机器的算力有限,也不意味着机器的数据处理能力不强,而是机器还不能像人类大脑的神经网络一样理解自然语言的生发机制,自然语言也无法在自然科学以外的学科领域与机器语言一一对应。甚至,自然语言本身仍然拥有很大难以为机器语言理解的空间。问题逼到这一步,已经变成了一个“机器能否像一个真正的人一样理解、思考、表达,拥有与人类一样的欲望与本能,过着像人类一样的生活,真正学会一门语言”——这就是图灵测试边界以外的更深层次问题了,也是科幻电影至今都无法完美预测的前景。

 

这并不是在贬低人工智能。实际上,人工智能对人工翻译提出了愈来愈大的挑战。人工翻译在译介一门语言时,首先需要掌握至少两门语言背后的全部公共知识。显然,人类大脑在数据量与算力上根本无法与机器相比。在人类知识总量持续突飞猛进的今天,优先用机器解决已经成熟的公共知识对译工作,集中精力处理机器难以揣摩的公共知识,借助机器翻译节省精力与时间,已经是资深译员的不二之选。即便机器翻译尚未完全取代人类,人类也已经离不开机器翻译了。

 

(作者系互联网从业者、译者)

 

(本文仅为作者个人观点,不代表本报立场)

 

克之

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。