机器翻译中比较的是文件而不是单纯的句子


发布者:上海翻译公司 发布时间:2018-1-14


  人们与机器翻译的争论可以追溯到20世纪50年代甚至可能更早这既令人着迷也很累人,过去两年中神经机器翻译的快速发展引发了讨论的重新崛起,甚至导致像微软这样的大型科技公司发布研究论文,其中大胆(如果不是误导性)的标题如“在自动汉语到英语新闻翻译中实现与人类语言一样等” 。当然微软的作者确实缓和了他们的说法,根据他们的论文如果来自机器翻译系统的候选翻译测试集的人类质量得分与相应人类翻译的得分之间没有统计上显着的差异,则实现等值。换句话说如果双语人工评估员将人类和机器翻译的质量判断为相等(分数差异在统计上无关紧要),那么“机器翻译 已达到人类水平”。许多研究人员和行业专家一直在从错误的角度来看问,在一篇题为“机器翻译是否实现人类水平?”文档级评估案例,爱丁堡大学博士候选人SamuelLubli和共同作者爱丁堡大学信息学院助理教授Rico Sennrich博士和计算语言学研究所Martin Volk博士苏黎世大学认为,研究应该侧重于文档层面的上下文,而不是在简单的句子层面比较输出。

翻译公司

  作者使用专业的人工翻译来评估微软在机器翻译会议(WMT)2017中英文新闻任务中使用的NMT引擎的性能,此外他们还使用成对排名(人与机器翻译的并排比较),同时在评估翻译充分性和流畅性时还考虑了文档级别的背景。根据他们定义微软翻译的人类水平声称持有一定水分,但仅仅是因为他们使用了当前的MT研究标准根据Lubli的论文这些标准已经不适合有效地评估NMT。了解NMT的优点和缺点,我们很难想象(微软的)系统真的达到了专业人工翻译的质量Lubli通过电子邮件告诉Slator,他解释说微软在他们的方法学中遵循了当前的研究标准,通常情况下“评估者从任何测试文件中逐个看到单个句子,按随机顺序排列 - 并将评分从0到100评定为充分和流畅性。 ”然而在这个过程中,Lubli表示评估人员“不可能”检测到某些翻译错误,因此他们无法正确考虑这些错误。

  在他们的论文结论中Lubli Sennrich和Volk解释说,NMT目前处于流利程度BLEU(双语评估替补)基于单一模型翻译得分,甚至评估非专业人类翻译句子级输出不再足够。“随着机器翻译质量的提高,翻译将难以在质量方面进行区分 ,并且可能是时候转向文档级评估,这为 评估者提供了更多理解原始文本及其翻译的背景,”该论文的结论阅读。它进一步解释说,文档级评估显示在句子级评估中否则“不可见”的翻译错误。我们认为MT现在达到了这种“最佳实践”需要改变的质量水平:我们应该使用完整的文件来判断MT的质量。当提出MT研究的突破时,Lubli建议谨慎传播关于人类平等的谣言对于研究和实践都是危险的,如果资助机构认为问题已经解决并且翻译经理不再愿意让专业人员修改MT输出,他们可能不想再为MT研究提供资金。

上一篇:TEP在翻译时意味着什么?

下一篇:韩国语音助理强调科技对语言数据是不会满足的