一年半前,谷歌首先宣称其新的神经机器翻译(NMT)系统可以产生与人类输出“几乎不可区分”的翻译。

游戏本地化翻译的关键

 

  但是,尽管谷歌的“几乎不可区分”主张深深地埋在了论文的技术讨论的第18页,并且经过了小心避免,但微软在一篇新的研究论文的标题中发表了枪声,说他们在中文和英文翻译之间实现了“人对等” 。

  根据微软于2018年3月14日发表的题为“在汉语自动翻译中实现自动翻译”的研究论文,他们开发的新型NMT系统的一些变体已经实现了“人类平等”,即它们被认为是平等的人文翻译质量“(本文将人的素质定义为”WMT 2017中文到英文新闻任务的专业人类翻译“)。

  在24小时之内,TechCrunch,GeekWire,TechRadar和ZDNet等主流技术网点发布了这个故事,可预见地将人权平价理赔视为面值。

  微软提出了一个新的人类评估系统来得出这个方便的结论,但首先他们必须确保“人类平等”不那么模糊和更明确。

  因此,微软在其研究中对人类平等的定义是:“如果双语人类对人类生产的候选翻译的质量进行判断,使其与由机器产生的翻译质量相当,那么该机器就实现了人类的平等。”

  在数学上,可测试的术语中,如果机器翻译系统的候选翻译测试集的人类质量得分与相应的人类翻译的得分之间没有统计学显着差异,则实现人类奇偶性。“

  新的人类评估方法

  该研究团队使用2017年机器翻译会议测试集来获取新闻(WMT2017 newstest)数据,用于培训和测试其新的NMT系统变体。

  微软团队使用了双语人工评估器,并向他们提供了源自WMT2017新闻测试集的源文本和翻译输出,并要求他们对0到100的翻译进行评分.WMT2017会议中的顶级执行引擎是搜狗公司的搜狗知识NMT系统。研究人员还让他们的评估员评估了搜狗Knowing NMT的输出。

  他们向评估人员展示了九个系统的输出结果。根据研究报告,每个系统大约有2000个评估(每个系统至少有1,827个评估)。

  根据微软的人力评估人员,从最好到最差的排名:

  微软新的NMT引擎变体(Combo-6)

  参考用于此研究的人工翻译

  微软新的NMT引擎变体(Combo-5)

  微软新的NMT引擎变体(组合-4)

  WMT2017的参考翻译是后编辑的机器翻译

  搜狗了解NMT

  WMT2017在会议中使用的参考人类翻译

  微软现有的生产型NMT系统

  谷歌现有的生产NMT系统

  根据微软研究人员的说法,前四项是分组在一起的,并且彼此保持一致,即他们的分数非常接近,彼此之间没有区别。

  微软与搜狗

  奇怪的是,微软的研究报告还显示,使用这种新的评估方法,搜狗Knowing NMT的得分非常接近WMT2017参考人类翻译的得分,因此他们被认为难以区分。

  看起来微软还无意中使用了他们的新评估方法,即搜狗至少与WMT2017参考人工翻译相比达到了人类平等。

  同时,微软和谷歌现有的生产型NMT系统得分最低。

  请亲自看看:微软最高得分的NMT系统变体的英文输出取自他们的开源Github链接。从内容看,平均句子长度并不长,也不是非常复杂。

  他们还使用双语评估研究(BLEU)来衡量以前工作中的任何收益,这些收益也使用BLEU积分进行评分,包括WMT2017对参与NMT引擎的排名。

  据报道,微软的NMT模型设置(包括基线在内的12项中的10项)大部分都是Sogou Knowing NMT的26.40 BLEU分数。微软的表现最佳的NMT变体以27.40分的优势击败了最先进的1个BLEU,全部使用了与WMT2017相同的训练数据。

  发光的新技术和培训方法

  研究小组为他们的实验开发了新的NMT引擎。他们尝试了递归神经网络,卷积网络和变压器,并且最终因为输出更好而使用了变压器引擎。

  接下来,他们还升级了培训方案。

  他们采用了最近称为双重学习的技术,使他们的模型能够从双语培训数据的源到目标和目标到源的方向学习。他们还使用了Deliberation Networks,它使用另一个解码器层来“抛光”NMT系统中第一个解码器的翻译 - 就像编辑器打磨作者的草稿。此外,他们还采用联合培训和协议正规化。

  他们基本上混合并匹配所有这些方法,以迭代方式改进跨同一NMT系统的多个变体的翻译输出。

  微软团队还过滤了WMT2017的训练数据。清理和过滤培训数据后,乳清中剩下1800万双双语句子和700万中英文单语句子。

 

  未来的工作

  微软就这个新的研究开源做了一切,引用外部验证和未来研究为理由。

  至于何时,微软计划将其新系统转化为生产,公司发言人告诉ZDNet:“我们正在努力尽快将其投入生产,但目前我们没有任何声明。”