北京新译科技有限公司

新译科技讲堂|机器翻译评测

2017-11-09 17:18:15

newtranx

一、简介

机器翻译领域最困难的任务之一就是对给定的翻译系统或者翻译算法进行评价,我们称其为机器翻译评测。事实上,在科学研究和工业界的任何一个领域,如果提出一个新的算法并声称其具有良好的性能,都需要使用某种通用的、被广泛承认的评价标准为这个算法“打分”。这个分数不仅要体现出该算法是好的,而且要求能够体现出与其他算法相比,该算法能够好到什么程度。与其他的评测任务面对的对象不同,机器翻译所处理的对象―语言―本身存在某种程度的歧义,无法像数学公式或者物理模型那样简单客观地描述出来,这使得为机器翻译结果进⾏行客观的打分变得非常困难。

二、机器翻译系统的用户类型

机器翻译的译文质量评测与用户的类型有密切关系,不同类型的用户对译文有不同的要求。根据用户需求的不同,机器翻译系统一般可以分为如下类型:

1.为浏览者研制的机器翻译(MT for the Watcher,简称 MT-W): 其目的是帮助浏览者查阅外文资料,对于译问质量要求不高,浏览者可以接受粗糙的译文。

2.为修订者研制的机器翻译(MT for the Reviser,简称 MT-R):其目的是帮助用户修订粗糙的翻译,粗糙的译文经过修订之后,质量应该比为浏览者研制的机器翻译的译文有所提 。

3.为翻译者研制的机器翻译(MT for the Translator,简称 MT-T):其目的是帮助用户进行在线机器翻译, 用户在翻译时可以使用在线机器词典、翻译实例库等,因此,对于译文质量的要求比较高 。

4.为写作者研制的机器翻译(MT for the Author,简称 MT-A):其目的在于帮助用户进翻译或写作,要尽量避免翻译中的歧义,因此,对于译文质量要求更高。

根据上述分类,可以有针对性地对机器翻译系统进评测,根据用户类型的不同,评测时考虑不同的评测重点。

三、人工评测 人是语言的使用者,是机器翻译成果的最终享者,也就自然而然地成为了机器翻译系统质量的唯一评价标准(golden standard)。那么,什么样的译文质量才称得上好呢?我们知道翻译界推崇的“信、达、雅”这个最高标准,即使是最好的翻译人员也很难做到,使用这个标准来要求现阶段还在牙牙学语的机器翻译系统实在是有些勉为其难了。因此,传统的机器翻译评测中使用的是诸如“忠实度”(Adequacy)和“流畅度”(Fluency)这一类指标来衡量译文的质量。直观地说,这里的“忠实度”反映的是机器翻译系统生成的译文在多大程度上忠实于原 文所要表达的意思, “流利度”则用于评价译文本身是否流畅、是否符合目标语言的表达习惯等。理论上,这两个指标是相互独立的,译文可以非常通顺、很容易理解,但却与原文完全不相关。不过,对于机器翻译评测而言 ,这两个指标常常是相关的, 一般忠实度比较差的译文也不容易理解。在人工评测的具体操作过程中,可进一步对上述指标进行分级,由双语专家对照原文判断每个译文的忠实度和流利度,并为其打分,系统的最终得分即为每个译文分数的累加。

3.1单独采用忠实度和流畅度进行评测的标准 a)忠实度(Adequacy):评测译文是否忠实地表达了原文的内容。按 0–5 分打分,打分可含一位小数。最后的得分是所有打分的算术平均值。

b)流畅度(Fluency):评测译文是否流畅和地道。按0–5分打分,打分可含一位小数。最后的得分是所有打分的算术平均值。

3.2综合地采用可理解度(intelligibility)进行评测

表3:人工评测可理解度打分 评测时按0.0 – 5.0分打分,可含一位小数,最后采用百分制换算评测结果。总的流畅度 = 所有句子得分之和/总句数×100%

使用人工评价的方法得到的结果一般是十分准确的,但主要问题在于评测的成本太 , 周期过长(评测过程可能长达几周甚至数月 ),评价结果也会随着评价人的变化和时间的推移而不同,这使得评价结果不可重复,缺乏客观性。在这种评测方式下,研究人员无法迅速得知系统改进的效果,延长了机器翻译系统的开发周期。

四、国际人工评测网址

国际上人工评测比较出名的为WMT,该评测组织将会有来自全世界的企业、学术单位进行公开评测,相比较中国内地的CWMT评测具有更多的权威性。几个可供参考的自动评测系统和工具有:

WMT评测系统(www.appraise.cf)

【图1:WMT评测系统】

爱丁堡大学评测系统(matrix.statmt.org)

【图2:爱丁堡大学评测系统】

Universitat Politècnica de Catalunya评测系统

【图3:Universitat Politècnica de Catalunya评测系统】

五、自动评测

人工评测的耗时耗力使得机器翻译的自动评测被提上了议事日程。如果一种语言中的每一个词都只有一种含义,只对应到另外一门语言中的一个词,任何一个句子都只有一种翻译方法, 那么,不仅机器翻译评测变得轻而易举,机器翻译本本身也就只需查找一一对应的符号替换表就可以了。但人类总是要发挥自己的聪明才智,尝试使不同的方法来表达同一个含义,这就造就了美丽丰富的语言世界,也给机器翻译及其评测带来了巨大的困难。我们知道, 即使是一个人类专家,要对一个机器翻译的译文给出一个评分,也不是一件很简单的事情, 要对源文和译文都有比较准确的理解才能做到。机器并没有办法去理解一个句子,如何能对一个译文句子进行自动评分呢?

如果一个机器翻译评测系统只根据原文就能自动地为若干译文打分并选择出其中最好的结果,那么这个评测系统本身就是一个质量更好的机器翻译系统了。因此,人们最先想到的自动评测的出发点就是给出一些标准的翻译结果,然后比较机器生成的译文与这些翻译之间的相似程度。我们称这些标准的翻译为参考译文 (或者参考答案)。同一个句子可以有多个不同的参考译 ,这些参考译文都表达同一个含义,但可能使用了不同的词汇,或者虽然使用了相同的词汇但在句中的词序不同。这样一来,机器翻译自动评测的问题转换为比较机器翻译系统输出的一个翻译结果和多个通过人工产生的正确的参考译文之间的相似度的问题, 使用不同的相似度计算方法即可得到不同的自动评测方法。

5.1BLEU 评测方法

这是一种基于 N 元语法(N-gram)的自动评测法,它通过对译文跟参考译文进行 N-gram 的比较综合而得出译文的好坏的评价分数。这种基于N元语法共现的统计方法中, 一元词的共现代表了翻译的忠实度,它表征了原文有多少单词被翻译了过来; 而二元以上的共现词汇代表了目标标语言的流畅度,阶数高的N元词的匹配度越 ,系统译文的流畅度就越好。

其基本计算公式为:

  • 其中,
  • Pn = 被测译 文中与参考答案匹配的 N-gram 总数/被测译文中 N-gram 总数;
  • BP = 长度惩罚因 ;
  • Lref = 与被测句 子长度最接近的答案长度;
  • Lsys = 被评测句子的长度;
  • N = 最 N-gram 长度;
  • Wn = N-gram 的权重;
  • exp x 表 ex,即以 自然对数e为底的指数函数。
  • BLEU 是根据 N-gram 准确率的几何平均值来计算的,得分越高越好。
5.2NIST评测法

NIST 在 BLEU 标准基础上提出的一个改进方案,称为 NIST 评测标准。 NIST方法采用各阶N-gram 的算术平均值,而不是几何平均值,使得总体评价结果更偏重于忠实度, 且也不至于因为某一阶N-gram 的匹配率为零而导致总体评价为零。另外,NIST考虑到每一个N- gram 在多个参考译文中出现的次数不同能够表现出该词的重要性,因此根据其在多个参考 译文中出现的次数给每一个N-gram 赋予一个权值。实验证明,NIST在敏感性(对被测系统的区分程度) 方面高于BLEU。

下面是 NIST 的基本公式:

  • β是个常数,是一个经验阈值,使得在 Lsys/Lref=2/3 时, β使得长度罚分率为 0.5; Lref 是参考答案的平均长度;其余参数意义与BLEU 相同。
  • NIST 是根据根据 N-gram 准确率的算术平均值来计算的,得分越高越好。
  • BLEU 和NIST的自动评测结果有助于减少人工评测的主观性,对于人工评测有一定参考价值。当然还有其它自动评测方法,诸如:GTM,WER等,这里不再一一详述。
新译科技有限公司

新译科技成立于2014年,是一家利用人工智能和大数据技术提供互联网以及移动互联网服务与应用的科技公司。

联系我们

  北京:010-85160296      深圳:0755-86529976

新译科技邮箱   support@newtranx.com

  北京市朝阳区望京东园四区7号楼绿地中心B座2005-2006室
  深圳市南山区清华信息港科研楼909室

新译科技二维码