人工智能与机器翻译
——机器翻译部分
主讲:杨宪泽
第 4 章 机器翻译方法
机器翻译的处理对象是自然语言,而人类
对于语言认知的过程还未研究清楚,因此,要
实现理想、高质量的机器翻译至少目前还有较
大的距离。机器翻译是 21世纪要解决的科技难
题之一,主要困难是自然语言在各个层次上的
歧义性 。解决歧义问题很难从根本上突破,它
将涉及到处理的难度和翻译的速度,翻译的复
杂性,因此,寻求简单的翻译方法是一个重要
课题,它可以降低歧义处理难度,增加解决这
一科技难题的希望。
第 4 章 机器翻译方法
第 4 章 机器翻译方法
自然语言的机器翻译目前一般以句子为翻译
单位 。 句子又分为句, 短语, 词三个层次 。 分析
阶段一般分为词法分析, 句法分析, 语义分析,
语境分析, 语用分析等, 其中以词法分析和句法
分析为主 。
面对这么多而复杂的分析模块 ( 机器翻译中,
每一种分析组成一个软件模块 ), 面对这么庞大
的软件系统, 研究者必须有清晰的思维, 正确的
切入点, 才可能把翻译软件设计得好一些, 再好
一些 。 基于这样的认识, 本章将首先讨论现有的
机器翻译方法, 并把重点放在基于实例的机器翻
译上 。
第 4 章 机器翻译方法
人作翻译时,把一个源语言句子译成目标语言句子,涉及
到四个基本操作:目标语言单词的检索、调序、删词、增词;机
器翻译系统的操作过程也不例外,有检索、分析、转换和生成的
主要四个阶段。这被称为基于分析和转换的机器翻译系统。也被
认为是模拟人类翻译活动最恰当的机制。
基于分析和转换的机器翻译方法就是自动实现源语言到目标
语言的转换,它采取了一系列的分析和转换的生成层次,使一个
源语言句子经过不同的中间表达形式,最终达到目标语言句子的
表示。其目的是尽可能地加深对源语言的理解,生成尽可能恰当
的目标语言形式。这种方法比较全面地体现了语言学知识在机器
翻译中的应用,是了解机器翻译实现过程的非常合适的模式。
4, 1 机器翻译的四种实现方法
4, 1, 1 基于分析和转换的机器翻译方法
第 4 章 机器翻译方法
在“机器翻译的常规步骤”实际上已经慨略
的介绍了这一方法的全过程,这里再补充阐述一
些内容:
句子经过分析阶段之后,进入转换和生成阶
段。这两者一般联系得比较紧密,有时无法严格
区分,因为转换到目标语言也就是要生成目标语
言的词汇、短语、句子。可以把句子结构的转换
也就是源语言的句法树转换长合适的目标语言对
应形式当作转换,而后续的许多处理都当作生成
阶段的处理步骤看待。
第 4 章 机器翻译方法
实质上,机器翻译方法对语言的处理就是
在两种语言之间搭一座桥,实现一种语言到另
一种语言意义等价的转换。它并非象自然语言
理解那样只是对一种语言的操作,只需作针对
一种语言的分析。作为一个机器翻译系统,它
既要考虑源语言的语法和语义规律,也要考虑
目标语言的这方面规律,忽略了任何一方都是
不行的。也就是说,对于双语互译规律的发现
和应用才是机器翻译最本质的特征。所以,在
词、短语和句子这三个层次上寻找源语言的目
标语言翻译的等价物是机器翻译中转换与生成
的任务。
第 4 章 机器翻译方法
通常,机器翻译的研究中将转换看做
整个翻译过程中的一个阶段。然而,在语
义结构上进行转换却是一种好的方式。语
义结构可以是跨语言的,有能力同时应用
于分析和生成。另一方面,当机器翻译系
统的翻译语言对扩展时,还可以应用于多
种不同的语言。但要注意,大规模的自然
语言语义描述相当复杂,因而在机器翻译
系统中的应用往往会受到限制,难以采用
这样的语义表示作为转换的基本结构。
第 4 章 机器翻译方法
一般情况下, 分析以句法为主, 语义
为辅, 正确的句法结构转换加正确的词汇
译文可以从源语言向目标语言传递完整的
正确信息 。 因此, 以句法结构转换附加上
一定的语义信息, 能够构成转换的基本层
次 。 不足之处是:因为句法分析的结果是
面向源语言的, 而要生成合适的目标语言
译文, 转换部分常常引入许多目标语言方
面的约束, 使得转换规则变得复杂了 。
第 4 章 机器翻译方法
就标准的机器翻译系统来说,句子和短语
层次的结构转换是机器翻译转换部分的研究重
点。通常使用转换规则,就可以实现源语言句
法结构到目标语言句法结构的转换。这方面一
般采用产生式方式的转换规则形式:
S,S1+S2+…+Si<C1C2 …CK>→T1+T2+…+Tj, T
上式理解为,S是 SL(源语言)的某个待
翻译单位(句子、短语等等),S1~Si是 S中的
下一级组成单位;对于 S,如果满足条件 <C1
C2 … Ck>,则 TL(目标语言)中有 T1~Tj译
文构成了相应的等价物 T。
第 4 章 机器翻译方法
这样的方法有两个特点:一是面向源
语言分析, 因为源语言中的一个句子已经
由句法, 语义分析等阶段分析完毕, 生成
了关于源语言句子的某种中间表示, 转换
以这种源语言中间表示作为输入;二是直
接转换, 即对于 S表示, 直接给出译文形
式, 一般不需要在目标语言内再作进一步
转换, T1~Tj可以直接包括目标语言的词
汇, 也可以是对应于 S1~Si的译文组块 。
第 4 章 机器翻译方法
上述方法称为基于句法的转换方法,
因为 S1+S2+… +Si一般来说就是源语言的
的句法结构表示;也可以称为直接转换方
法, 因为对于每个源语言的翻译组块, 都
马上给出一个目标语言组块与之对应 。 应
该说, 这种转换方法符合人的直觉认识,
也能够实现 。
第 4 章 机器翻译方法
基于中间语言的翻译方法是对源语言
进行分析以后产生一种称为中间语言的表
示形式,然后直接由这种中间语言的表示
形式生成目标语言。所谓中间语言就是自
然语言的计算机表示形式的系统化,它试
图创造出一种独立于各种自然语言,同时
又能表示各种自然语言的人工语言。
4.1.2 基于中间语言的翻译方法
第 4 章 机器翻译方法
基于中间语言的机器翻译方法主要有两个优点。
首先,独立的中间表示形式为多语种之间的互译的实
现提供了一种经济有效的途径。假设要对 N种语言进
行互译,则有 N* (N-1)个语言对。不同方向的翻译是
不同的语言对。此时如果采用基于转换的方法,因为
把一种语言翻译成另一种语言都需要一个不同的转换
机制(或模块),所以 N* (N-1)个语言对共需要 N*
(N-1)个独立的转换机制。而采用中间语言的方法,由
于对每一种语言只需实现将该种语言翻译成中间语言
和把中间语言翻译成该种语言的目标语言这样两个模
块,所以总共只需要 2N个模块。其次,中间语言不仅
是对基于中间语言的机器翻译方法这一特定目的有意
义,同时,作为一种通用的自然语言表示,也值得深
入研究。
第 4 章 机器翻译方法
基于中间语言的机器翻译方法的优势
是无需一种语言到另一种语言的一一转换,
对于多语种的翻译系统可以节约大量的转
换知识的手工获取工作量。假如有 N种语
对需要相互翻译,只要有 2N个分析和生成
模块就够了。其中一半是源语言分析模块,
输入为原文,输出以 IL表示;另一半是目
标语言生成模块,输入为 IL表示,输出为
目标语言译文。
第 4 章 机器翻译方法
中间语言通常用语义概念表示,这些概念
符号采用英语单词符号或其它自行定义的符号来
表示。大规模的 IL需要大量的概念表示,需要
生成对应的概念词典。如果用语义概念来描写一
个句子,则构成复杂的语义网络。
对于多语种的机器翻译来说,使用中间语言
作为相互翻译的中介是可取的。在理想状态下,
中间语言应该没有或极少有歧义,结构严谨,词
汇单义,便于计算机处理。有了中间语言,一切
源语言分析的结果和目标语言生成的开端都由它
来表示。
第 4 章 机器翻译方法
然而,中间语言的机器翻译方法也常
遭到怀疑。因为是否能够构造出表示各种
不同的自然语言语法、语义的中间语言至
少目前还是未知数。此外,中间语言能不
能把各种语言的所有特征保留下来,又能
很好生成对应的各种语言也是问题。所以,
构造中间语言是一个巨大、复杂的工程,
还包含许多理论研究,迄今为止的探索还
没有好的答案。
第 4 章 机器翻译方法
基于统计的机器翻译方法,一般不要任何语言学知识,它的基
本原理是实现源语言词汇到目标语言词汇的映射。其思路受到
语音识别研究的启发,因而应用了类似的方法来实现。研究者
用大规模的双语语料库作为基础,对源语言和目标语言词汇的
对应关系进行统计,根据统计规律输出译文。这种方法没有使
用语言知识,主要特征是概率统计与随机过程的方法成为了分
析和生成过程的唯一方法。它的主要内容是双语句对的对齐,
通过词汇同现的可能性来计算一种语言的一个词映射到另一种
语言的一个词(或两个、零个词)的概率。应该说,基于统计
的机器翻译方法的出现改变了机器翻译研究的面貌,从而开始
了机器翻译研究的新阶段。不过,有些学者也对纯统计方法提
出了异议,认为必须引入高层语法、语义模型,显然这是正确
的。否则,基于统计的机器翻译方法不可能产生高质量。
4.1.3 基于统计的机器翻译方法
第 4 章 机器翻译方法
统计方法最先在语音识别领域取得了成功 。 由于当
前计算机在运算速度和存储容量方面都有巨大的提高,
可以获取大量的机读语料库, 因此在机器翻译中应用统
计方法的条件已经成熟 。
机器翻译的噪声通道模型可以视作最早的机器翻译
思想的某中复活, 其思路可以这样理解:
假设说话者已经用目标语想好了一句话 T,但是说
出的却是源语言句子 S。 这样一个过程可以看成为编码过
程 。 而统计的机器翻译就是要从 S回推 T,可以看成解码
过程 。 这样, 统计的机器翻译任务分为两个部分:一是
建模, 即建立翻译的计算方法以及从双语语料库中估计
模型的参数;二是解码, 即寻求一种高效搜索算法取有
关概率计算的最大值 。
第 4 章 机器翻译方法
在概率计算的前后,转换是进行有关预处
理和后处理,例如句子当中的日期、时间、数字、
人名等应该用适当的类别标志加以替换,以便更
好地进行计算,计算后再换回来。因为这类词不
属于一般的词汇,单词本身在语料库中的出现缺
乏代表性。
建模就是设计各个模型的计算公式。因为直
接计算某个句子出现的概率是比较困难的,语料
库不可能足够大到包含所有句子,必须进行合理
的、适当的简化。这是统计方法的特点,所得到
的结果是近似值,但是因为概率本身就不是精确
的,所以这些近似完全可以接受。
第 4 章 机器翻译方法
总之,基于统计的机器翻译方法可以
简单的这样看:将原始的某个句子按词折
开,然后全部单词存储;翻译则是取出,
按概率统计的方法重组句子,这样的句子
就是统计方法的翻译结果。
当然,我们还是认为应该加强统计方
法与语法分析、语义分析相结合的研究。
第 4 章 机器翻译方法
建立机器翻译系统需要大量的知识。在基于转换和
基于中间语言的机器翻译方法中,知识按一定规则译成
代码,这既耗时花费也大。此外,知识获取瓶颈阻碍了
机器翻译的快速发展,这是早期机器翻译面临的重大难
题。
为克服这一困难,除了上节介绍的统计方法外,日
本机器翻译专家 Nagao在 80年代提出了一种新方法,用
已经存在的翻译实例(双语文本)作为知识源,这种方
法称为基于类比的翻译,后来普遍称为基于实例的翻译。
基于实例的思想已被广泛的采用,既用于机器翻译的设
计,也用于机器翻译不同处理阶段的实现中。用不断积
累的已经译好的文本作为机器翻译的样本的思想,也是
具有吸引力的。
4.1.4基于实例的机器翻译方法
第 4 章 机器翻译方法
基于实例的机器翻译方法通过结构化的翻
译例子直接把源语言的短语和句子与目标语言
的短语和句子对应起来 。 方法的不同使得处理
步骤或多或少, 但都必须实现源语言到目标语
言的转换, 其映射关系或者是词到词, 或者是
短语或句子到与之相应的等价物, 或者是一棵
句法树到另一棵句法树 。
基于实例的机器翻译 ( EBMT) 的实现过
程简单概述如下:给定源语言输入句子 S,在
双语语料库 C中匹配查找一个最相近的句子 S',
则 S'的译文 T就被接受为 S的译文 。
第 4 章 机器翻译方法
翻译的过程一般就是查找和复现相似的例
子, 发现和记起特定的源语言表达或相似的表达
在以前是如何翻译的, 把以前的翻译实例作为主
要知识源 。
基于实例的机器翻译方法的基本思想:
( 1) 把翻译实例存入翻译数据库 。 例如, 存
入汉语和英语句子对;
( 2) 对输入的句子, 在翻译数据库中检索类
似的翻译例句;
( 3) 调整实例后生成译文 。
第 4 章 机器翻译方法
基于实例的机器翻译方法可以按如下步骤实
现:
( 1)对双语语料库进行句子级对齐;
( 2)在语料库的源语言一边进行句子分块,
称为组块。然后检索输入组块的最佳匹配侯选,
称为源语言内部匹配;
( 3)在源语言最佳匹配后选的组块中检索
对应目标语言组块,称为双语匹配;
( 4)对组块级检索结果进行组合,以获得
整个源语言文本的翻译结果。
第 4 章 机器翻译方法
源语言的内部匹配就是在语料库中查找一个
与待译句子最相似的句子。对于任意给定的一个
句子,很难在语料库中找到与之完全匹配的句子,
所以对输入文本在语料库源语言一边的匹配查找
采用了松弛匹配技术。松弛匹配就是部分匹配,
不同的部分匹配被赋予不同的分值,以反映输入
串和语料库中某些句子串的接近程度。整个输入
组块与语料库组块匹配的分值由一定的公式计算
出来。最后,待翻译文本中所有被匹配的每个输
入组块都在语料库中检索出若干个最相近的组块,
组块可以是一个句子、或者是一个从句、或者是
一个短语,按照匹配分数从大到小排列。
第 4 章 机器翻译方法
源语言内部匹配的输出成为输入,即把前面从语
料库中查到的组块、所在的句子和对应译文等构成当
前处理步骤的输入。因为每个输入组块可能在语料库
中匹配若干组块,所以每个组块有待进一步处理,即
在双语匹配处理过程中又分为若干子过程,包括通过
查词典获取词组译文;建立词汇级双语对照表;通过
评分机制求出最佳翻译句等等。
基于实例的机器翻译方法的输出结果带有相应的
分数,这些分值来自不同的标准,相差可能很大。因
此必须采用合适的函数(方式)对所有分数进行统一
(归一化),然后这些分值才有可比性。
第 4 章 机器翻译方法
基于实例的机器翻译方法的其它优点:
( 1)可以通过索引和并行处理提高处
理速度;
( 2)可以采用最佳匹配推理;
( 3)可以较好地利用翻译专家的专业
知识(通过翻译实例);
( 4)一个基于实例的机器翻译系统的
知识可以移植、共享。
第 4 章 机器翻译方法
基于实例的机器翻译方法的基本结构:
实例库

输入句子 → 检 索 ← 同义词词典

调整 ← 检索到的实例

输出
第 4 章 机器翻译方法
( 1)翻译实例库
翻译实例库就是翻译句子集,是系统的主要知识源。翻译实例句子有
多种形式,如没有处理的双语句对,不同领域翻译例句的组合,已经具有分
析句法树的例句对。
( 2)同义词词典
同义词词典应该包括词义的层次结构,以便计算句子间的相似度。
( 3) 检索
检索模块从实例库中检索与输入句子最相似的例句。标准做法是:首先
定义样本和新句间相似度;然后计算每个相似例句的相似度;然后再选最优
者。
( 4)调整
调整模块的任务是调整输入新句的检索实例,产生翻译结果。检索出来
的例句和新句应十分相似,但并非完全相同。因此需要一种调整它们不同之
处的方法。
第 4 章 机器翻译方法
在机器翻译领域,机器翻译方法可以看成
是两大类共四种方法,两大类是:基于规
则一类;基于语料库一类。显而易见,基
于规则一类包括了基于转换的机器翻译方
法和基于中间语言的机器翻译方法;基于
语料库一类包括了基于统计的机器翻译方
法和基于实例的机器翻译方法。
4.1.5 机器翻译方法的小结
第 4 章 机器翻译方法
基于规则的一类方法的一个基本假设就是认为翻译
过程是一个需要对源语言的分析和进行源语言意义的表
示,然后再生成等价的目标语言的过程。基于规则的一
类机器翻译方法的基本特点可以概括为层次性和模块性。
层次性指机器翻译采取由词到句的不同层次的分析过程,
建立一种中间表示,然后完成由句到词的不同层次的转
换生成过程。这样就达到了语言学处理过程和机器翻译
系统实现的模块化相辅助,源语言和目标语言模块的描
述分开。基于规则的一类机器翻译方法经过多年的发展,
有许多不同的实现方式,但基本思路与上述相同。
基于规则的一类方法在机器翻译界一直占有主导地
位,直到今天仍然发挥着重要作用,现在有影响的机器
翻译系统也都是基于规则的。
第 4 章 机器翻译方法
基于规则的一类方法在机器翻译的发展中确实起了
非常重要的作用,但是,随着研究的深入,研究者们发
现人工确定的有限规则难以正确翻译大规模的现实语句。
因此,人们不断地寻找新的方法,从而产生了基于语料
库的一类方法。所谓语料库,就是把各类在现实当中使
用的真实文本收集在一起,并不对原来的语句进行修饰
润色,这样构成的集合称为语料库。显然,机器翻译只
有对语料库中真实句子进行翻译研究,才有可能建立起
满足现实要求的机器翻译系统。早期的语料库主要是为
自然语言研究提供众多的实例,如用于词频统计,以后
逐渐发展为对其进行大规模的语法信息标注,如词性标
注、句法符号标注等。这样,对语料库进行收集、整理、
加工的研究诞生了一门新的语言学分支,就称为语料库
语言学。
第 4 章 机器翻译方法
为机器翻译服务的语料库应该是源语言和
目标语言双语对照的双语语料库,或者是多种
自然语言对照的语料库。在研究中,一方面可
以直接使用语料库进行机器翻译中的分析、转
换和生成,另一方面可以间接使用语料库,将
其作为获取翻译知识和统计知识的依据。
十多年来,对机器翻译的多方面研究使许
多人认为,好的机器翻译系统应采用混合方法,
因为就目前情况看,无论采用何种方法实现的
机器翻译系统,都没有混合方法质量好。
第 4 章 机器翻译方法
完全实例的翻译就是对待翻译的源语句通过翻
译实例数据库检索出要翻译的目标语句,翻译
的操作就是检索。 这种方法用已经存在的翻译
实例(双语文本)作为知识源。 工作之初,选
择了一些常用的双语翻译实例输入,构造成一
个特别的模块(翻译实例数据库 )。
4.2 基于实例的机器翻译改进方法
4.2.1 完全实例的翻译
第 4 章 机器翻译方法
例如:在汉译英翻译实例数据库中有
( 1)源 语 句 水的热容量比沙大
目标语句 Water has a greater heat
capacity than sand.
( 2)源 语 句 太阳离我们比其它任何恒星都更近一

目标语句 The sun is closer to us than
any of the other stars.
( 3)源 语 句 对于生物来说,没有什么东西比太阳
更重要了。
目标语句 There is nothing more
important to life than the sun.
第 4 章 机器翻译方法
之后,不断积累已经译好的文本作为机器翻译的样本。当然,
如果所要翻译的语言是由有限个常用句子构成,这种处理方法
的实用性会大一些;但是,每一种自然语言都是由无限多个句
子构成,计算机永远不可能完全存储,因此这种处理方法的实
用性很小。
虽然我们对完全实例的翻译并不寄于厚望,但我们的翻译
系统仍然建立了这一模块,收集的是一些成熟的、常用的双语
翻译实例。 这样做的理由是,完全实例的翻译处理方法省
略了自动分词、词义消歧、句法分析、语义分析、译文转换等
许多步骤。对具体待翻译的多个源语句来说,这种翻译(检索)
即使部分成功,目的也达到了,因为它的译文是高质量的,与
人工翻译一致;不成功,再采取二、三种处理方法。 当然,
要这样做,还应该采用高效的映射式检索算法,才能保证机译
速度,
第 4 章 机器翻译方法
完全实例的翻译译文是高质量的, 与人工
翻译一致, 但它的成功率很低, 而且并不与翻
译实例数据库的双语实例句数量成正比 。 如果
把完全实例扩充为句型间的转换翻译, 将提高
翻译的成功率 。 句型转换的翻译是把源语句的
单词和句型结构映射到译文相对应的单词和句
型结构 。 双语对译的核心是句型结构的表达式
相同, 所以我们建立了双语句型结构表达式集
合模块 。
实例句型转换的翻译主要有两种:
4.2.2 实例句型转换的翻译
第 4 章 机器翻译方法
第一种 句型转换顺序相同的翻译 例 如汉译英中,
( 1), 他们学习英语, 和, 我们研究汉语, 句型完全相同, 句
型表达式只需建立一个,rvn;对应英文的语序也完全系相同:
r'v'n';译文是,They study English,We research Chinese.
( 2), 他是一个学生, 和, 我是一个教师, 句型完全相同, 句
型表达式只需建立一个,rvmqn;对应英文的语序也完全系相同:
r'v'm'q'n';译文是,He is a student,I am a teacher.
( 3), 他有许多英语书, 和, 我有许多科技书, 句型完全相同,
句型表达式只需建立一个,rvdn(1)n(2);对应英文的语序也完全
系相同,r'v'd'n'(1)n'(2);译文是,He had many English
books,I had many science books.
这样的句型翻译, 只要自动分词正确, 无语义问题, 译文的质
量就可以保证, 并且, 再多的相同句型也只需一个句型表达式,
这无疑在完全实例的翻译的基础上大大进了一步,
第 4 章 机器翻译方法
第二种 句型转换顺序不相同的翻译 例如汉译英中,
( 1), 我们是新中国的学生,, 句型表达式为:
rvan(1)pn(2);其译文是, We are studends of New
China”,调序生成译文表达式是,r'v'n'(2)p'a'n'(1).
( 2), 我们在大学学过英语,, 句型表达式为:
rpn(1)vn(2);其译文是, We studied English in
university”,调序生成译文表达式是,r'v'n'(2)p'n'(1).
( 3), 去年他们设计过一台新机器,, 句型表达式
为,a(1)n(1)rvmqa(2)n(2);其译文是, They designed
a new machine last year”,调序生成译文表达式是:
r'v'm'q'a'(2)n'(2)a'(1)n'(1).
第 4 章 机器翻译方法
实例句型转换的翻译虽然在完全实例
的翻译的基础上大大进了一步, 但是自动
分词, 词义消歧, 语义分析, 译文转换等
步骤不能省略 。 例如,, The fish was
bought by the cook”和, The fish was
bought by the river”这两句的译文是
,鱼是厨师买的, 和, 鱼是从河边买的,,
这种语义的不同只可能靠语义分析予以解
决 。
第 4 章 机器翻译方法
在完全实例的翻译模块和实例句型转换的翻译模块不能完
成翻译的情况下, 系统将启动近似翻译模块 。 实例近似翻译
的实质是句型表达式的近似检索 ( 匹配 ), 即检索与输入句子
最相似的例句, 定义样本和新句间相似度;然后计算每个相似
例句的相似度, 再选最优者 。
相似度的计算有许多计算方法, 基本上可分为相似程度计
算和距离程度计算两类 。 计算的依据则各不相同, 可以按照单
词本身是否相同来计算, 可以按照单词所具有的词类, 语义类
是否相同来计算, 还可以按照形态变化, 语义上下位关系等来
计算 。
4.2.3 实例近似翻译
第 4 章 机器翻译方法
( 1) 按照相似程度计算, 则分值越大
越好 ( 一般在 0~1之间 ) ;
( 2) 按照距离程度计算, 则分值越小
越好, 此时的分值是罚分 。
相似度的计算按照距离程度计算, 分值
越小越好, 此时的分值是罚分 。 系统选择
分值最小的句型 表达式 做句型转换的翻译 。
第 4 章 机器翻译方法
在 3, 2, 1中已经论述过, 完全实例
的翻译就是对待翻译的源语句通过翻译实
例数据库检索出要翻译的目标语句, 实践
的主要工作就是建立翻译实例数据库, 另
一项工作就是翻译的操作检索算法 。
4.3 基于实例的机器翻译方法实践
4.3.1 完全实例的机器翻译实践
第 4 章 机器翻译方法
4,3, 2 实例句型转换的翻译实践
完全实例的翻译译文是高质量的, 但
在浩瀚语海语句中, 我们能收集在翻译实
例数据库的双语实例句数量是有限的, 甚
至可以说是非常少的 。 如果把完全实例
扩充为句型间的转换翻译, 那么能翻译的
句子就要多得多 。 句型转换的翻译是把源
语句的单词和句型结构映射到译文相对应
的单词和句型结构, 对译的核心是句型结
构的表达式相同 。
第 4 章 机器翻译方法下面我们介绍的是最初用于学生实验的句型转换的翻译的
一部分:
4,3, 2, 1 算法与程序设计
设计的核心部分如下:
( 1) 词典:用一维数组存储,kz数组存储汉语词组 ; yy数
组存储英语单词 ; dz数组存储词性标注,例如,动词为 v,代词
为 r,名词为 n,形容词为 a,介词为 p,数词为 m,量词 q,时间
词 t,方位词 f,副词 d,连词 c,语气词 y,叹词 e等等。
下面是一些标注例子:
计算机 / n,左 / f,学习 /v,得 /u,三 /m,支 /q,教师
/n,中国 /n,她们 / r,建立 /v,着 / u,是 /v,二 /m,
千 / m, 公斤 /q, 吗 /y,指出 /v,继承 /v,描述 /v,对
/p,规则 /n,有 / v,好处 /n, 从 /p, 人工智能 / n, 揭
示 /v,创立 /v,我们 /r, 急 /a,急忙 /d,忙 /a,观察 /v,
海量 /n 。
第 4 章 机器翻译方法
( 2)汉语句子键盘输入接收 (text1.text)
( 3)汉语句子自动分词算法与暂不能翻译处理,
1>,求输入的汉语句子字符长度,x=len(text1.text)
2>,确定汉语句子词组最长字符数和最短字符数 (例如最长 3,
最短 1,这有可能是巳知的,不用程序确定 )
3>,自动分词,mid(text1.text,b,t),先按最长词切分,t=3。
( 初值 i=1,b=1)
4>,检索汉语词组 kz词典,找到了转 6>,未找到转 5>
5>,t=t-1,t不等于 0转 3>,t=0转 7
6>,如果成功完成全句分词,转 (4)进行句法分析 ; 否则
i=i+1,t1=i(记录一句分了几个词 ),b=b+t(另置分词起点 ),重新继
续分词转 3>
7>,显示 "此句暂时不能翻译 ",退出
第 4 章 机器翻译方法
(4) 句法分析,
1>,求出词性标注组合,i=1 to t1 zs=zs+dz(i)
next i; 例如,汉语句子 ----我们是新中国的学生,分出的
单词及对应的词性标注为, kz(1)=我们,dz(1)=r; kz(2)=
是,dz(2)=v; kz(3)=新,dz(3)=a; kz(4)=中国,dz(4)=n;
kz(5)=的,dz(5)=u; kz(6)=学生,dz(6)=n。此例求出的
zs=rvanun
2>,据 zs分析此句是否是已定义的句型 (正确的句
型 ),是转 3>,不是转 显示 "此句暂时不能翻译 "处
第 4 章 机器翻译方法
(5) 译文语 序调整, 仍以“我们是新中国的
学生”为例,原来译文的顺序是 yy(1)=We,
yy(2)=are,yy(3)=New,yy(4)=Chinal,yy(5)=of,
yy(6)=students。调整后的顺序是:
yy(1)yy(2)yy(6)yy(5)yy(3)yy(4)
(6) 译文输出, 上例中即输出
yy(1)yy(2)yy(6)yy(5)yy(3)yy(4)
第 4 章 机器翻译方法
4, 3, 2, 2 进一步讨论
实例句型转换的翻译的难点集中在单词处理方面和
语法, 语义方面,主要有,
单词处理方面
(1) 英文单词复数, 大小写, 是动词人称变化, 过
去式, 过去分词, 现在进行时, 冠词 the在没有实际词
义时的加入等 。
(2) 词典除了主词典外,还应有下列辅助词典,
1> 缩略词词典 如英文的底 a·m; 当自动切分句子
遇到带 "·"的词时,通过检索缩略词词典,找出对应词组 。
第 4 章 机器翻译方法
2> 省略词词典 如英文的 it's; they've等 。 当自动切分句
子遇到带 "'"的词时,通过检索省略词词典时,找出相对应词组 。
3> 特殊词典 如英语的介词, 副词, 连词等,用法非常灵
活,在不同语言条件下,由于其前后搭配成 份不同,其藏汉译文
和藏汉生成的词序都很不一样,极易产生歧义,而且这类词出现
的频率极高 。 对这些结构词进行特殊处理,对提高译文的处理质
量是十分重要的 。
4> 专业词典 为使翻译能根据不同专业有更准确的译文,还
应建立专业词典 。
(3) 分词的歧义 难点是歧义切分,主要解决两类 。 一
类是交集型歧义切分字段, 一类是多义组合型歧义切分字段 。
第 4 章 机器翻译方法
语法、语义方面
( 1) 语法分析 将要解决的难题很多。诸如“小孩玩游戏”是对
的,但“游戏玩小孩”显然错误,而程序句法分析则是对的。这只有
靠语法分析的主宾关系予以解决。
(8) 语义分折 这一研究正在努力,涉及的方面佷多。诸如“白
天鹅游过来了”;“在日本保留和尚使用的古典乐器很多”这样的语
句只能靠语义分析解决。此外,单词一对多也有待语义分析选择。
此外,为了加快处理速度,可将原文中一些无需翻译的图表、公
式,符号标记出来。为了降低翻译的难度,可以在原文的句子中加进
一些符号以排除歧义或者补上一些省略了的成分,这项工作通常由只懂
原文的人根据系统的要求去做。
总之,随着研究的深入,需要解决的难点很多;而语法、语义方
面的 深入研究,还有待进一步的工 作,这也是机器翻译一个最难点。
第 4 章 机器翻译方法
在 完全实例的翻译模块和实例句型转换的翻
译模块不能完成翻译的情况下,我们就只能依赖
实例近似翻译了。再强调一下,实例近似翻译
的实质是句型表达式的近似检索(匹配),即检
索与输入句子表达式最相似的目标语句表达式,
定义样本和新句间相似度;然后计算每个相似例
句的相似度,再选最优者。
4.3.3 实例近似翻译实践
第 4 章 机器翻译方法
实例近似翻译实践步骤:
(1) 接收原文输入 输入原文的方法多种多样,实验模型采
用的是接收键盘输人。
(2) 译前编辑 为了加快处理速度,可将原文中一些无需翻
译的图表、公式,符号标记出来。为了降低翻译的难度,可以
在原文的句子中加进一些符号以排除歧义或者补上一些省略了的
成分,这项工作通常由只懂原文的人根据系统的要求去做。
(3) 汉语自动分词(这一步相同于 3.3.2.1)。
(4) 词法分析 英语有词尾变化,而词典中不可能收录各个
单词的所有的形态,因此系统中应另建一套处理形态变化规则的
模块。根据这套规则,可将变化了的形态还原成基本形。这方
面工作我们在 4.3.2.1中已经进行了阐述。
(5) 词库检索(采用直接映射式检索算法)。
(6) 句法分析 句法分析解决两种语言间的转换问题。这里
由于没有直接的表达式相等的情况,必须先进行相似度计算。
第 4 章 机器翻译方法
我们再强调一下,相似度的计算有许多计
算方法, 基本上可分为相似程度计算和距离程度
计算两类 。
[1] 按照相似程度计算, 则分值越大越好
( 一般在 0~1之间 ) ;
[2] 按照距离程度计算, 则分值越小越好,
此时的分值是罚分 。
相似度的计算按照距离程度计算, 分值越小越
好, 此时的分值是罚分 。 系统选择分值最小的句
型表达式做句型转换的翻译 。
第 4 章 机器翻译方法
什么是分值最小的句型表达式?为了避免计算的复杂
性,我们把句型表达式少一个基本元素或多一个基本元
素多赋于罚分 1 。例如:下列语句意思都是相近的
[1] 请检索 95年后机器翻译的文献;自动分词将分出:
请 /y,检索 /v, 95/m,年 /q,后 /f,机器翻译 /n,的 /u,
文献 /n;它的句型表达式是, yvmqfnun
[2] 检索 95年后机器翻译方面的文献;自动分词将分
出:检索 /v, 95/m,年 /q,后 /f,机器翻译 /n,方面 /z,
的 /u,文献 /n;它的句型表达式是, vmqfnzun
[3]请检索 95年后机器翻译方面的文献;自动分词将
分出:请 /y,检索 /v, 95/m,年 /q,后 /f,机器翻译
/n,方面 /z,的 /u,文献 /n;它的句型表达式是,
yvmqfnzun。
第 4 章 机器翻译方法
如果以第 [2]句作待翻译源语句,而在双语句型结构表达式
集合模块中找不到句型结构完全相同的表达式(假设双语句型
结构表达式集合模块中只有第 [1]句和第 [3]句),就必须进行相
似度计算。因为源语句的句型结构表达式是,vmqfnzun ;而
第 [1]句的 句型表达式是, yvmqfnun,罚分 -2 ;第 [3]句的句型
表达式是, yvmqfnzun,罚分 -1,显然机器翻译系统将自动选
择第 [3]句。以后的翻译步骤相同于实例句型转换的翻译实践那
一节。
( 7) 语法分析 相同于实例句型转换的翻译实践那一节。
(8) 语义分折 相同于实例句型转换的翻译 实践那一节。
(10) 译文输出 译文用显示器显示或打印机输出。
返回