开源神经机器翻译竞赛
发布者:上海翻译公司 发布时间:2018-5-31
2018年5月17日,在SlatorCon活动期间,神经机器翻译(NMT)通常占据显着位置,而SlatorCon London在伦敦Shoreditch的Nobu酒店举行也不例外。在事件发布会上,事件合作伙伴Systran全球首席技术官Jean Senellart讨论了NMT的一个方面,他同时发现了令人兴奋和可怕的一面:开源竞赛。Senellart简要介绍了50年历史的机器翻译公司Systran,这家公司经历并直接涉及所有MT技术的生产级部署 - 从规则型MT到统计型MT到NMT。他还谈到Open NMT的成功,开放源代码NMT框架Systran和哈佛大学携手合作,向观众介绍法国公司Ubiqus加入他们合资企业的最新情况。自2017年初发布以来,OpenNMT已发展成为第二大开放源代码NMT项目,包含18个主要版本,3300个星号和1020个Github分支,以及6个完整的代码重构。这就是Senellart谈到他演讲核心的地方:“我们正在谈论五千行代码。我们在同一时间讨论的东西很大,而且很小。“
NMT更改MT历史
当塞内拉特说他在谈论巨大的事情时,他通常指的是NMT如何彻底改变MT的历史。在他的演讲中,Senellart表明,基于规则的MT在1968年投入生产,直到2007年保持统治地位,当时统计MT已经足够生产了。然后在2016年,基本上两年前的技术将很快接管。“SMT是在90年代由IBM创建的。花了15年的时间才能进入工业级生产,“Senellart说。“NMT是由学术界在2014年推出的,花了两年的时间才被行业采用。”除了发展速度和行业采用的巨大差异之外,Senellart还注意到每项技术在被认为是其主要资产方面的差异。在基于规则的MT中,资产是代码并累积了语言资源。对于统计吨,资产是数据。Senellart说:“你拥有更好的数据的数据越多,方程就越简单。” “使数据翻倍,你又得到了一个BLEU [双语评估研究]的观点。”他还指出,MT统计系统化的第一次尝试是在统计学MT统治期间开始的。最后,NMT冲进了现场,并伴随着另一项资产转移:“我们不再谈论大数据了; 我们正在谈论良好的数据,“塞内拉特说。

开源的好坏
除了数据资产思维方式的改变之外,Senellart强调NMT的开源方面也很重要。“如果你看看过去两年,每个月都会有两个关于NMT的新的开源项目,所以它是不可思议的,”他说。虽然这看起来很令人鼓舞,但塞内拉特指出,他们中的很多人“正在死亡”,即新项目没有得到维护。即使谷歌也会启动一个新的开源项目,只是放弃维护而转向新技术或开发,这反映了NMT技术发展的速度。Senellart还提醒人们注意,尽管大多数开源项目来自学术界,但活动最多的项目来自行业参与者。例如,Google处理活动最多的最大的开源项目,然后是Systran自己的Open NMT。列表中的第三个是Facebook。
上一篇:
在未来同声传译员能够获得实时帮助
下一篇:
新闻翻译对全球新闻传播的影响