开源神经机器翻译竞赛-天使翻译公司

开源神经机器翻译竞赛

发布者:上海翻译公司发布时间：2018-5-31

2018年5月17日，在SlatorCon活动期间，神经机器翻译（NMT）通常占据显着位置，而SlatorCon London在伦敦Shoreditch的Nobu酒店举行也不例外。在事件发布会上，事件合作伙伴Systran全球首席技术官Jean Senellart讨论了NMT的一个方面，他同时发现了令人兴奋和可怕的一面：开源竞赛。Senellart简要介绍了50年历史的机器翻译公司Systran，这家公司经历并直接涉及所有MT技术的生产级部署 - 从规则型MT到统计型MT到NMT。他还谈到Open NMT的成功，开放源代码NMT框架Systran和哈佛大学携手合作，向观众介绍法国公司Ubiqus加入他们合资企业的最新情况。自2017年初发布以来，OpenNMT已发展成为第二大开放源代码NMT项目，包含18个主要版本，3300个星号和1020个Github分支，以及6个完整的代码重构。这就是Senellart谈到他演讲核心的地方：“我们正在谈论五千行代码。我们在同一时间讨论的东西很大，而且很小。“

NMT更改MT历史
当塞内拉特说他在谈论巨大的事情时，他通常指的是NMT如何彻底改变MT的历史。在他的演讲中，Senellart表明，基于规则的MT在1968年投入生产，直到2007年保持统治地位，当时统计MT已经足够生产了。然后在2016年，基本上两年前的技术将很快接管。“SMT是在90年代由IBM创建的。花了15年的时间才能进入工业级生产，“Senellart说。“NMT是由学术界在2014年推出的，花了两年的时间才被行业采用。”除了发展速度和行业采用的巨大差异之外，Senellart还注意到每项技术在被认为是其主要资产方面的差异。在基于规则的MT中，资产是代码并累积了语言资源。对于统计吨，资产是数据。Senellart说：“你拥有更好的数据的数据越多，方程就越简单。” “使数据翻倍，你又得到了一个BLEU [双语评估研究]的观点。”他还指出，MT统计系统化的第一次尝试是在统计学MT统治期间开始的。最后，NMT冲进了现场，并伴随着另一项资产转移：“我们不再谈论大数据了; 我们正在谈论良好的数据，“塞内拉特说。

开源的好坏
除了数据资产思维方式的改变之外，Senellart强调NMT的开源方面也很重要。“如果你看看过去两年，每个月都会有两个关于NMT的新的开源项目，所以它是不可思议的，”他说。虽然这看起来很令人鼓舞，但塞内拉特指出，他们中的很多人“正在死亡”，即新项目没有得到维护。即使谷歌也会启动一个新的开源项目，只是放弃维护而转向新技术或开发，这反映了NMT技术发展的速度。Senellart还提醒人们注意，尽管大多数开源项目来自学术界，但活动最多的项目来自行业参与者。例如，Google处理活动最多的最大的开源项目，然后是Systran自己的Open NMT。列表中的第三个是Facebook。

上一篇:在未来同声传译员能够获得实时帮助

下一篇:新闻翻译对全球新闻传播的影响