IV. 工业领域的中法机器翻译
引言
随着信息技术和网络的发展,人与人之间的交流不再受到距离的限制,人们可以随时通过网络,与世界各地的其他人交换信息,语言也成为信息的主要载体,如何有效地使用先进的技术突破人们之间语言的障碍,成为现在我们所面临的一个主要问题。机器翻译是通过计算机来进行不同语言之间的自动翻译,是解决这个问题的有力手段之一。
从商业领域来讲,中法两国公司之间的经济交流日益频繁,中文与法语之间的相互翻译对于推销商品的重要性是不言而喻的。如果法国的商品在中国销售,中国的客户当然希望这种产品的用户手册是中文写的,而不是用法语写的。如果中国的商品在法国销售,法国的顾客当然也希望这种产品的用户手册是法语写的,而不是用中文写的。翻译是一种高智能的劳动,他不仅要求熟练地翻译技巧和丰富的语言知识,而且还需要相当的专业领域的知识。因此,翻译的开销是很高的,中法文翻译更为突出。
现在很多公司都希望使用机器翻译系统来减低翻译的开销。例如,用户手册的本地化翻译,财经新闻的翻译,天气预报的翻译,等等。机器翻译对于例如,英文-中文,英文-阿拉伯语等语言对的翻译,还是比较理想的,但是针对于中文-法语的机器翻译系统还是非常匮乏的,而且翻译质量远远达不到用户的要求。
在这一章中,我首先介绍大公司对中法自动翻译的需求,之后是简要介绍中文机器翻译的历史和现状,最后是对现存的中法机器翻译系统学习和实验。
IV.1 大型企业的需求
Lingua et Machina 公司(L&M)首先开发和运营 Similis,一个基于“高层”翻译记忆助人翻译工具,是由Emmanuel Planas 在 GETA-CLIPS读博士和在 NTT 博士后阶段开发和测试的。最近该工具扩展了它的服务,不仅针对翻译者而是面向所有用户的一系列被称为 Libellex的工具,它可以应用于大型企业内部更好的进行多语言交流,该系统已经开始提供服务。L&M 现今拥有很多的用户,诸如Renault,Jouve,EADS-AIRBUS developpment,等公司,而且由于它本身是具有科研资质(私人实验室),所以也承担着 ANR 的 projet,诸如CRISTAL,KEIATH等等。
随着LM业务的发展,越来越多的客户要求在Libellex中加入中法翻译,但是并没有可以直接使用的中法机器翻译,如我们所熟知的支持中法文翻译的系统,Google Translator,不能用商业用途,Systran server或是SDL Trados等商业系统价格昂贵,而且此类系统的中法文翻译并不能让人满意。
自从2012年开始,LM应客户要求开始在Libellex系统中加入中法文自动翻译,例如,EDF,作为一个大型的国际公司,和中国拥有大量的业务往来,每天都有大量的中文文档需要翻译成法语,其中大部分是关于能源领域的文档, 这类客户的需求, 就归结成为了机器翻译在子语言领域的问题, 这个领域的翻译内容一般只包括有限的词汇和一些短语类型,歧义很少,而且歧义单词的意义也可以基于局部上下文采用词类和语义特征而得到消除。
在某些特定领域的机器翻译模型足以产生直接使用的原始的机器翻译输出。举一个简单的例子,天气预报, 它是机器翻译在子语言领域的一个实例, 常用的语义特征有: MONTH(月), PLACE(地点), DIRECTION(方向), TIME POINT(时间点), TIME DURATION (时间跨度),DEGREE-OF-POSSIBILITY (可能的程度)等。如果很好的把握住这些特点,就可以获得较好的翻译。 L&M针对客户的需求构建针对特定领域的中法机器翻译系统,并对其进行优化, 从而获得翻译效果较好的机器翻译。
IV.2 中国机器翻译的发展
IV.2.1 发展史
中国的机器翻译大致分为三个阶段:
1956年-1966年:在这个时期,中国学者对机器翻译进行了初步的探索和试验。1956年,中国把机器翻译研究列入了科学工作的发展规划,成为其中的一个课题,课题的名称是:“机器翻译、自然语言翻译规则的建立和自然语言的数学理论”。1957年,中国科学院语言研究所与计算技术研究所合作,开展俄汉机器翻译的研究。1959年,他们在我国制造的104大型通用电子计算机上,进行了俄汉机器翻译试验,翻译了9个不同类型的、较为复杂的句子。在这个时期,北京外国语学院、北京俄语学院、广州华南工学院、哈尔滨工业大学也分别成立了机器翻译研究组,开展俄汉或英汉机器翻译的试验。
1975年-1987年:1975年11月,在中国科学技术情报研究所设立了一个由情报所、语言所和计算所等单位的工作人员组成的机器翻译协作研究组,以冶金题录5000条为试验材料,制定英汉机器翻译方案并上机试验。1978年5月,在计算所111机上进行抽样试验,抽样20条,达到了预期的效果。“784”工程给予了机器翻译研究足够的重视,80 年代中期以后,我国的机器翻译研究发展进一步加快,首先研制成功了 KY-1 和MT/EC863 两个英汉机译系统。上机进行过实验的机器翻译系统已有十多个,翻译的语种和类型有英汉、俄汉、法汉、日汉、德汉等一对一的系统,也有汉译英、法、日、俄、德的一对多系统(FAJRA系统). 这也是第一次在中国出现法语<—>汉语机器翻译系统.
1987年-现在:这个时期是以中国软件技术公司的“译星1号”机器翻译系统的问世为标志的。继“译星1号”之后,一系列的实用化商品化的机器翻译系统被推向市场,北京的“高立”系统、陕西的“朗威”系统、天津的“通译”系统、深圳的LIGHT系统都拥有了一定数量的用户,中国机器翻译迈向了实用化和商品化的阶段,从实验室走向了市场。
20 世纪 80 年代之前,基于规则的理性主义方法几乎统治了整个机器翻译研究领域。1980 年代末统计翻译方法被实现,并得到快速发展.
1990年代初IBM公司的布朗(Brown)等人提出了5个模型来刻画统计机器翻译,取得了不错的效果,但是在此之后很长一段时间内都没有被大家认可和接受,原因是他们的模型非常复杂,难以理解和实现。直到1999年,一些研究人员齐聚约翰霍普金斯大学(JHU)开办了一次讨论班,大家共同合作,重复了IBM的实验,并在讨论班结束时发布了一个开源软件包Egypt,才使得IBM的模型被广泛研究和使用。可以说布朗等人的工作为现代统计机器翻译奠定了深厚的基础,但其影响却是通过开源软件才得以实现。
“法老”的出现揭开了统计机器翻译的神秘面纱,然而其核心部分——解码器的源码仍然没有公开。为此,中国的研究人员联合开发了一个完全开放源代码的统计机器翻译系统——“丝路”。该系统由中国的五家研究机构和高校(中科院计算所、中科院自动化所、中科院软件所、厦门大学、哈尔滨工业大学)联合开发,并在2006年中国第二届统计机器翻译研讨会上发布。“丝路”包括以下模块:语料预处理及后处理模块“仙人掌”、词语对齐模块“楼兰”、短语抽取模块“胡杨”、以及三个解码器(“骆驼”、“绿洲”和“商队”).
中国的统计机器翻译起步比较晚,在2004年左右才陆续有单位开始做相关的研究工作。中国几家从事统计机器翻译研究的单位联合开发了“丝路”系统。“丝路”充分利用了国际上已有的开源工具,比如GIZA++,SRILM等,此外,联合开发单位还开发了三个解码器,并完全开放了源代码,第一次将一个完整的统计机器翻译系统公开,极大地促进了国内统计机器翻译的快速发展。
IV.2.2 实验
IV.2.2.1 学习的系统
由于目前中法语料库的匮乏,中法机器翻译系统的研究和开发还远远不够,而且翻译质量也不能让人满意。下面的实验将测试Google Tranlator中法机器翻译的翻译质量,以及使用 Moses。Joshua, Niutrans 三个开源工具集训练的机器翻译系统的翻译质量。
IV.2.2.2 Google系统
2005年8月,Google凭借统计机器翻译在美国政府组织的机器翻译评测中(National Institute of Standards and Technology Machine Translation evaluation, NIST)取得了卓越的成绩(在阿拉伯语-英语翻译测试中,得分为0.5137;在汉语-英语翻译测试中得分为0.3531)。自此之后谷歌翻译在机器翻译领域就一直处于领先地位,到目前为止谷歌翻译已经支持90种语言。
首先测试谷歌翻译系统法语到中文的翻译质量。选取1000句后编辑过的法汉语料,用谷歌翻译翻译源语言句子(法语),然后比较谷歌翻译的翻译结果(汉语)与对应的后编辑过的汉语句子的差别。之后通过中间语言英语,获得中文翻译结果,进而比较谷歌翻译系统直接和间接获得法汉翻译的质量。
IV.2.2.3 Systran系统
Systran 于1968年由 Dr. Peter Toma 创办,是机器翻译行业最早的开发者和软件供应商。Systran 企业服务器版 V8是该公司推出的最新版的基于混合策略的机器翻译系统,也是首次支持汉法的直接翻译,我们将测试该系统汉法的翻译质量。
IV.2.2.4 Moses系统
Moses 是目前在科研和商业领域应用最广泛的用于训练统计机器翻译模型的工具集。绝大多数的统计机器翻译技术在 Moses 中都有支持,比如基于短语的模型、基于句法的模型、各种解码方法、各种特征权重训练方法。 Moses 使用大量的平行语料训练翻译模型,目前为止能使用的大型的法汉平行语料是MultiUN,从中抽取1000000句平行语料用于训练翻译模型(基于短语模型和基于层次短语模型),在抽取1000句作为测试数据计算 BLEU 值。
IV.2.2.5 Joshua系统
继 Moses 之后推出的开源系统。最开始以层次短语为主,现在也支持句法的模型。Joshua 对层次短语模型的实现是最早的(如果不算 David Chiang 的 python 版本),现在来看性能也是最稳定的系统之一。
我们使用与 Moses 相同的开发集,训练集和测试集,横向比较他们的翻译质量。
IV.2.2.6 Niutrans系统
NiuTrans 是东北大学自然语言处理实验室开发的一套开源统计机器翻译系统,是一个完整构建高质量统计机器翻译系统的平台。目前 NiuTrans 在统一架构下支持上文提到的基于短语,层次短语,句法的翻译模型。
IV.2.3 总结
中国是最早开始研究机器翻译系的国家之一,但是在汉法翻译上并没有取得进展。在国际上,目前的机器翻译系统(商业软件或开源软件)在汉法翻译上也都无法给出让人满意的结果。在现有的技术条件下,比较现实的解决方案是发展通过基于统计的机器翻译方法, 但是由于缺乏汉语法语高质量的语料库以及领域的适应性,统计机器翻译系统的翻译结果往往是“无法理解”的。高质量语料资源的匮乏成为阻碍统计机器翻译发展的最主要原因。
IV.3 企业中汉法统计机器翻译系统的构建
IV.3.1 子语言的选择和处理的语言对
IV.3.2 通过后编辑谷歌翻译结果的办法生产语料
IV.3.3 系统的构建
IV.3.4 评估和展望
返回目录