Facebook希望了解神经机器翻译的不确定性-天使翻译公司

Facebook希望了解神经机器翻译的不确定性

发布者:上海翻译公司发布时间：2018-9-5

随着神经机器翻译（NMT）正在成为新标准，量化新技术的质量收益越来越成为一项挑战。在最近提交给arXiv.org的论文中，ADAPT数字内容技术中心副主任Andy Way教授解释了机器翻译（MT）的质量预期。Way并没有进行大量的技术研究，而是讨论了MT的质量评估，以及NMT作为主要的行业变革者继续发展时如何以及为什么要解决这个问题。“公司经常忽略技术中心实际上具有破坏性：它不仅影响技术培训的员工，还影响项目经理，销售和营销人员，培训团队，财务人员，当然还有后期编辑和质量评审员，“Way在他的论文中说。“如果要在充分了解预期投资回报的情况下做出正确的决定，所有这些都应该事先纳入董事会，但实际上很少。”

对于NMT，其中一个主要问题是双语评估低级研究（BLEU），这是大多数研究中使用的长期自动评估指标。

BLEU的限制
BLEU由于流行而成为事实上的自动评估系统：在MT研究中显示获益的最简单方法是使用先前使用的相同评分。然而，对于NMT而言，相对于前代MT的改进 - 更不用说设计上的差异（即NMT通常运行在字符级编码器 - 解码器系统上） - 使BLEU更不适合量化输出质量。除了BLEU将MT输出与单个参考人类翻译进行比较的问题之外，Way更具体地通过样本参考翻译和样本MT输出来说明BLEU的局限性。参考翻译是：“总统经常在克劳福德得克萨斯州度假。”

MT输出是：
乔治布什经常在德克萨斯州的克劳福德度假
布什在乔治克劳福德得克萨斯州经常度假
乔治杜鹃花经常在得克萨斯州的克劳福德度假
注意到A和B和C会得到相同的BLEU分数，这是由于BLEU计算分数的固有限制。
他提出解决MT产量的最佳方法是考虑两个因素：
适合翻译的目的
内容的易腐性。
用他自己的话说：“如何使用翻译，以及我们需要多长时间查阅翻译？”

对NMT质量度量的需求
Way继续在他的论文中解释说，“基于n-gram的度量标准如BLEU不足以真正证明NMT对[基于短语，统计和混合] MT的好处”。他解释说，现有关于NMT与前代技术相比的收获的研究表明，各个领域都有显着的改进，但总体而言，BLEU总分的增加只能达到2 BLEU点左右。另外，在人机交互方面，Way说MT和翻译记忆（TM）模糊匹配已经是人类翻译工具中常见的工具，因此它“迫使MT开发人员开始用他们的MT系统输出翻译伴随着对翻译人员有意义的质量评估。“在这方面，“虽然BLEU成绩无疑对MT开发者有用，但输出BLEU成绩（例如）0.435的目标句对翻译来说毫无意义。”此外，这影响定价和支付。Way在他的论文中写道：“根据TM系统为每个输入字符串所建议的模糊匹配级别，翻译者习惯于支付不同的费率。

上一篇:Slator语言行业就业指数（LIJI）在2018年9月略有下降

下一篇:英语确实很奇怪