2010-5-20 第 1 章 总 论 1
主讲:杨宪泽
人工智能与
机器翻译
2010-5-20 第 1 章 总 论 2
本章将使同学们对什么是人
工智能与机器翻译有一个初步了
解,同时也介绍智能软件和常规
软件之间的差别。
第一章 总论
2010-5-20 第 1 章 总 论 3
一般认为,人工智能是计算机科学的
一个分支,任务旨在模拟人类行为和认知
过程。而自然语言处理和理解又是人工智
能的一个分支,机器翻译又是自然语言理
解和处理的一个分支。鉴于这种关系,有
必要在这一章中简介人工智能的情况。
1.1 人工智能简介
2010-5-20 第 1 章 总 论 4
计算机和人脑两者的物质结构大不一 样,一
个是无生命的机器,一个是由一千亿神经元组
成的活生生的活体。但是,计算机软件所表现
出的功能和人的认知过程却是类同的。即两者
的工作原理一致,都是信息加工系统:输人信
息、进行编码、存储记忆、作出决策和输出结
果。由于计算机和人的认知过程在信息加工原
理上一致,因此可以把计算机当成实验工具,
模拟人的认知活动。
2010-5-20 第 1 章 总 论 5
计算机能否智能, 在计算机发展的初期
就提出来了 。 图灵在他于 1950年发表的
一篇论文, 计算机与智能, 中, 回答了
这个问题 。 在这篇论文中, 他设计了一
个试验, 后来成为著名的图灵试验 。
此实验说明, 人们可以通过编制程序使
计算机体现出某种智能 。 几乎在同
时, 香农也指出了与计算机下象棋的可
能,后来得以实现 。
2010-5-20 第 1 章 总 论 6
人工智能技术发展经历了曲折的过程。
开始,研究者们认为:人工智能作为一
门科学,也应该象数学,物理学等学科
那样能够发现一些普遍的定律,把这些
定律同强有力的计算机结合起来应用到
各个领域中就可以产生不可估价的成效。
2010-5-20 第 1 章 总 论 7
因此,许多研究者致力于人类思维普遍
规律的探索。人工智能进入了推理方法
和问题求解模型的一般性研究。这一阶
段,的确发现了一些通用问题求解技术
和各种搜索策略。
2010-5-20 第 1 章 总 论 8
然而,现实世界是复杂的,问题是多种
多样的。随着研究过程的经验积累,研
究者们逐渐认识到:人们在探索自然界
的长期实践中所形成的解决问题的方法
和手段因事,甚至因人而变化,所以,
试图找出一种或几种通用的问题表示方
法和处理过程去描述人类一切智能行为
的想法,不说根本不可能,至少也是不
现实的。
2010-5-20 第 1 章 总 论 9
智能技术能取得今天的成绩,是一个从
特殊到一般,从一般到特殊相辅相承的
过程。即不断从模拟特殊问题求解的智
能行为开始,然后从中抽取一般规律性
问题,使研究推向深人。然而,由于人
的智能是多种能力的综合,在处理不同
问题时,又显示出各自独有的特性,所
以设计具体问题时又必须一般到特殊。
2010-5-20 第 1 章 总 论 10
今天,智能技术已无孔不入,在计算机
应用中发挥着巨大的作用。但对此我们
必须保持清醒的认识,因为即使是已能
实用引起很多行业兴趣的专家系统,认
真从人工智能角度看,其中的技术并不
十分高;一些自然语言理解系统,经历
数年攻关、目前仍没有原则性突破。
2010-5-20 第 1 章 总 论 11
计算机并不等于人脑,人类至今不仅对
哺乳动物,鱼类,甚至对与人类进化过
程相差数亿年的最低级动物(如水螅)
的神经机制都搞不清楚,要搞清人脑机
制为时遥远 。
2010-5-20 第 1 章 总 论 12
这并不是否认智能技术,虽然我们不能
造出象人一样思维的计算机,却有可能
用计算机模拟人的某些思维过程,解决
一些复杂的问题。例如,虽然对鸟类飞
行的神经机制至今也没有搞清楚,但人
类根据鸟飞行的空气动力学原理造出的
飞机却远远超出了鸟类飞行的能力。
2010-5-20 第 1 章 总 论 13
类似的,虽然我们不能精确地了解人类
思维的神经系统活动机制,但我们根据
人类解决问题的外部启发式特征设计的
系统却可以在一定范围内和一定程度上
解决只有人类才能解决的困难问题。
2010-5-20 第 1 章 总 论 14
一个智能软件系统也是一个计算机程序,因
此,它同通常软件系统在程序的设计和实现方
面有许多共同的特征。如一个智能系统的开
发,也需要进行相应的分析、设计、编写、
调试、维护等阶段,各个阶段也会用到与通
常程序开发相同的一些技术和手段。但另一
方面,智能软件系统又是一个智能程序。它
能体现出与通常程序所不同的一些特色和通
常程序所没有达到的许多优良特性。
1.1.1 通常软件系统和智能软件系统
2010-5-20 第 1 章 总 论 15
但另一方面,智能软件系统又是一个智
能程序。它能体现出与通常程序所不同
的一些特色和通常程序所没有达到的许
多优良特性。
2010-5-20 第 1 章 总 论 16
众所周知,计算机早期应用主要集中在
科学计算和日常事务性工作数据处理。
为使计算机实现一个确定范围的问题求
解,程序设计人员需要对问题进行深入
细致的研究,设计出一种逐步循进的求
解步骤,称为算法。
2010-5-20 第 1 章 总 论 17
把算法的每一步骤用特定的程序设计语
言翻译成程序输入计算机。计算机再按
照程序所描述的步骤针对具体问题输入
数据进行操作、求解。这种完全基于确
定的算法的程序设计方法称之为通常方
式的程序设计。
2010-5-20 第 1 章 总 论 18
⒈ 通用性,算法应能求解问范围内的全部
问题,而不是只能解决其中的某些特殊问题。
⒉ 确定性,算法中的问题求解状态,求解步
骤应该是精确的,唯一的,并且可以被机械
执行。
⒊ 有效性,问题范围内的任何具体问题代入
算法后,都可以经过有限步骤,达到所期望
的结果。
算法具有三个重要性质
2010-5-20 第 1 章 总 论 19
然而, 由于现实世界的复杂性, 一方面, 还
存在大量的人类尚未充分认识的问题,科技人
员目前尚不可能找到有效的算法;另一方面,
有许多类型的问题, 经过了严谨证明, 不存
在求解这类问题的算法;还有, 对某些类型
的问题, 即使存在算法, 也不可能付诸实现,
因为一个算法的执行要受到时间和空间复杂
性的限制,,有可能这类问题的解需要几百小
时, 几千小时, 甚至几千年以上 。
2010-5-20 第 1 章 总 论 20
与通常程序设计相比, 智能程序不是
单纯的依靠算法, 它结合了算法和启
发方式 。 什么是启发方式? 笔者认为,
它是 —些简化问题的法则, 经验公式 。
从某种角度看, 它仍然可能是算法,
但却是特殊的算法 。
2010-5-20 第 1 章 总 论 21
使用启发式往往具有试探性,成功使
人进入捷径,但这些解还需要人们判
断其合理程度,不成功将更换启发方
式,直至最后也失败说明法则不够或
者问题无解。
2010-5-20 第 1 章 总 论 22
⒈ 局部性:可能仅适用那些被认为合理的常见的
问题
⒉试探性:通常程序要求问题求解是精确的、唯
一的,不允许出错,而智能程序求解可以更换方
法,当这个方法失败时,允许更换其它方法;
⒊针对性:智能程序求解一些问题的特殊规律是
有针对性的,甚至是不精确的,它们经不起或者
未经过严格的理论证明。
智能程序与通常程序相比的三个相对性质:
2010-5-20 第 1 章 总 论 23
⒈ 智能软件分三级层次加以组织
①数据级:与通常软件一样,不过智能软
件的数据库结构可能更复杂;
②知识库级:智能软件特有,存储法则和
经验公式等的表达;
③控制级:求解策略和推理模式
通常软件只有数据级和程序级两级结构。
从研制智能软件和通常软件的角度看差异:
2010-5-20 第 1 章 总 论 24
⒉ 通常软件系统以数据为处理对象 ; 而智能软件
系统更强调符号处理。这是所有智能软件系统与
通常软件系统区别的一个重要特征。
⒊智能软件系统可在非编程状态下不断扩充和完
善知识库,进而不断改善系统性能的能力,即自
学习能力。
⒋智能软件系统的解释机制运用知识库中被求解
过程使知识和产生的各种中间结果,能回答用户
的提问,给出求解过程的推理路径显示。这种解
释机制提供了系统的一种透明界面,加强了用户
对系统的可接受性。
2010-5-20 第 1 章 总 论 25
最后指出, 既然智能软件系统也是一个计
算机程序, 理论上讲, 可用任何语言编制
程序,C语言行, PASCAL语言也行, 甚至
BASIC语言也行 。 为什么人们常用 LISP、
PROLOG,0PS83等语言呢, 主要在于这些
语言更适宜智能软件编程, 处理符号, 规
则等更为方便 。 也就是说, 所用语言不同,
构造智能系统的难易程度也大不相同 。
2010-5-20 第 1 章 总 论 26
智能技术实施于软件系统中有三
个组成部分:知识表示,知识的推理,
知识的获取,现分别介绍。
1.1.2 智能技术实施的三个组成部分
2010-5-20 第 1 章 总 论 27
1.1.2.1 知识表示
在通常程序中,知识库级知识和控制级知识
合二为一,都体现在程序设计过程中。智能技术
对此是分开的,因而需要适当的方法表示知识,
以便存储、检索、运用、增删和修改。所谓知识
表示,就是描述和组织知识的规则符号,形式语
言和网络图等。其方法很多,我们仅介绍产生式
规则表示。
2010-5-20 第 1 章 总 论 28
产生式规则可表示为:
Ri,IF RLS THEN RRS(i= 1,2,…, N)
其中,Ri称为规则集中第 i条规则;
RLS是第 i条规则条件部分,可以是任何子
句的逻辑组合,RRS是第 i条规则的结论部
分。可以是一个结论或操作,或者是多个
结论或操作的与组合。
2010-5-20 第 1 章 总 论 29
请看下列 —组规则表示例:
R1,IF 物体为绿颜色 THEN 它为农产品
R2,IF 物体包装在小容器内 THEN 它为精美
食物
R3,IF 物体为冷冻食物 OR 农产品 THEN
它为易腐烂食物
R4,IF 物体重 15磅 AND 为廉价物体 AND
不为易腐烂食物 THEN 它为常用食物
R5,IF 物体为易腐烂食物 AND 重 15磅
THEN 它为火鸡肉
R6,IF 物体重 15磅 AND 为农产品 THEN
它为西瓜
2010-5-20 第 1 章 总 论 30
1.1.2.2 知识推理
知识推理就是应用知识求解问题 。 知
识推理过程就是问题求解的过程 。 知识推
理技术就是使问题从初始状态转移到目标
状态的方法和途径 。 知识推理的求解策略
和推理模式作为控制级知识存储, 需要时,
触发它予以实施 。
2010-5-20 第 1 章 总 论 31
上述一组规则的控制策略以算法表示:
①找出与规则条件部分所匹配的所有规则,
并对它们标注。
②如果找出的规则不止一条,去掉结论部
分会带来重复符号的规则标记。
③如果不存在有标记的规则,退出;否则,
在有标记的规则中选取序号最低(或仅有)
的一条规则,执行操作部分。
④清除所有规则的标记转步骤①。
2010-5-20 第 1 章 总 论 32
设现有某物体特征为:颜色为绿色,
重量 15磅,问题是这是什么物体?
推理步骤如下:
第一步:仅找出规则 R1 (步骤① ),步
骤②不执行;步骤③执行 R1的结论部
分,标注 "农产品 ",得出
S=(农产品,绿色,重 15磅)
2010-5-20 第 1 章 总 论 33
第二步:找出规则 R1,R3和 R6,因 R1
的结论部分,产生, 农产品,,导致
S中符号, 农产品, 重复,从而这条
规则在步骤②中去掉;步骤③选择 R3
并执行,得出
S=(易腐烂食物,农产品,绿色,
重 15磅)
2010-5-20 第 1 章 总 论 34
第三步:找出规则 R1,R3,R5,R6,R1,
R3在步骤②中被去掉; 步骤③选择 R5并执
行,得出,
S=(火鸡,易腐烂食物,农产品,绿
色,重 15磅)
第四步,仍找出规则 R1,R3,R5,R6;
R1,R3,R5在步骤② 中被去掉,步骤③中
仅有 R6被执行,得出,S=(西瓜,火鸡,
易腐烂食物,衣产品,绿色,重 15磅)
2010-5-20 第 1 章 总 论 35
第五步:仍找出规则 R1,R3,R5,R6,但
它们在步骤②中全部被去掉;从而在步骤
③推理机退出而结束。第四周期得出的 S为
问题求解的最终上下文。
如果我们把问题的解定义为上下文中
最前次序的结论,则上述推理过程就给出
了正确的解 ---西瓜。
2010-5-20 第 1 章 总 论 36
1.1.2.3 知识获取
知识获取是智能系统的基本技术
之 —,也是主要问题之一。知识获取
和知识表达是知识推理的前提条件,
通过知识表达,将所获取的知识,存
储在知识库中,才能利用知识进行推
理,求解问题。因此,知识获取是设
计智能系统的关键问题。
2010-5-20 第 1 章 总 论 37
(1) 狭义知识获取,指人们通过系
统设计,程序编制和人 —机交互,
使机器获取知识。换句话说,就是
通过人工移植的方法,将人们的知
识存储到机器中去。因此,狭义知
识获取也可称为人工知识获取。
知识获取有两种方式:
2010-5-20 第 1 章 总 论 38
(2) 广义知识获取,指机器自动或半自动
地获取知识。比如,在系统调试和运行过
程中,通过机器学习进行知识积累,或者,
通过机器感知直接从外部环境获取知识,
对知识库进行增删,修改,扩充和更新。
广义知识获取是一个正在探索,国内外
研究都很活跃的领域,取得了一定的成绩,
但还有更多的技术问题有待解决。
2010-5-20 第 1 章 总 论 39
最后的说明:
人工智能涉及的技术非常多,
非常广泛,考虑到本科教育的实践
环节,我们选择人工智能的一个分
支机器翻译作为教学的主干。
当然,我们也会介绍相关的重
要技术。
2010-5-20 第 1 章 总 论 40
1.2.1 概述
机器翻译是人工智能研究的一个分支,
是用电脑代替人做翻译工作,这里特指笔
译,口译问题本书不讨论。那么什么是翻
译呢?翻译是把一种自然语言记述的表达
式 (单语、短语、机器翻译是人工智能研究
的一个分支,是用电脑句子、单词标记符 )
变换为用另 —种自然语言记述的表达式。
1.2 机器翻译概述
2010-5-20 第 1 章 总 论 41
自然语言的机器翻译目前一般以
句子为翻译单位。句子又分为句、短
语、词三个层次。分析阶段一般分为
词法分析、句法分析、语义分析、语
境分析、语用分析等,其中以词法分
析和句法分析为主。
1.1.2 机器翻译常用的处理技术
2010-5-20 第 1 章 总 论 42
同样是翻译,却有不同的水平。最基本的
是把原文的单词与句法结构映射到译文相
对应的单词与句法结构。人做翻译工作的
必要条件是懂得两种语言。一般情况下,
有一种语言是其母语,另 一种是外语,
因而工作的难点在外语上,需要记外语单
词,学外语语法。
2010-5-20 第 1 章 总 论 43
人能记住的单词与语法规则总是有限
的,翻译时免不了要查词典或参考书。
还应当注意到,人在翻译时会自觉或
不自觉地运用自已头脑中所有的关于
客观世界的各种各样的知识,而人的
知识又是可以不断积累与更新的, 因
此,高水平的翻译人是可以达到的。
2010-5-20 第 1 章 总 论 44
当然,不是人人都能达到最高境界,正
确认识人的知识在翻译过程中的作用
正是把握机器翻译能做到什么程度以
及做不到什么程度的关键。
2010-5-20 第 1 章 总 论 45
显然,计算机系统能够翻译的必要条件也
是要能, 懂得, 两种语言,而且,这两种
语言对于计算机系统来说都是, 外语, 。
不难想象,机器翻译是很难、很难的研究
课题,通观当今世界上现有的机器翻译系
统,大多数是建立在句法学的基础上的,
当然也注意吸收语义学的研究成果,因
此 —般以句子为单位进行翻译。
2010-5-20 第 1 章 总 论 46
机器翻译不可能达到人工翻译的水平,
因此,它的用途主要有:
⒈进行粗译,经过人工修改达到目标;
⒉有低水平的翻译总比没有翻译好,
可在译文中发现所需要的东西。
2010-5-20 第 1 章 总 论 47
翻译过程要尽可能多把源语言的意思、感
觉和语言艺术传递给目标语言,但是如果
源语言中有的词汇目标语言中找不到,翻
译就只能近似的表达了。对于这种情况,
机器翻译不可能超过人。
2010-5-20 第 1 章 总 论 48
若把自然语言文本分成四种情况:
⑴ 诗歌与文学作
⑵ 法律文件与合同
⑶科技文献
⑷文章题目和一般句子
机器翻译合适的处理对象是第⑶、第⑷类
语言材料。
2010-5-20 第 1 章 总 论 49
⑴ 多学科合作
⑵ 可计算性 即能用计算机程序实现
⑶ 难解性 由于人类对语言的认知过
程还不清楚,所以计算机不可能达到人
类对语言的熟知程度。
机器翻译的特点:
2010-5-20 第 1 章 总 论 50
因此机器翻译被称为要在 21世纪解决的科
技难题之一。主要困难是自然语言在各层
次上的歧义性,也称二义性或多义性。机
器翻译的根本任务就要在处理过程中逐步
消除这些歧义。
⑷实用性 尽管机器翻译的研究存在巨
大的困难,但人们却对它抱有高希望。
机器翻译的特点:
2010-5-20 第 1 章 总 论 51
(1)实践方面的意义 际间的合作与交
流,语言的差异是一个非常严重的障碍。
各行各业的人们面对大量他们不熟悉的
语言的文挡资料,如果单纯依靠人工翻
译,这些日益增加的待翻译材料将是一
种非常沉重的负担。而机器翻译可大幅
度减轻这种负担。
机器翻译有着重要的实践意义和理论价值:
2010-5-20 第 1 章 总 论 52
( 2) 学术研究方面的意义 机器翻译
对于了解人类语言和思维的基本机制,探
讨人工智能技术有着重要的意义。
( 3)商业方面的意义 机器翻译广泛的
应用前景有可观的经济效益和社会效益。
机器翻译有着重要的实践意义和理论价值:
2010-5-20 第 1 章 总 论 53
词法分析有单词切分(包括歧义切分)
和单词形态分析;还有专有名词问题,
如政府机构名称、地理名称、公司名
称、人名、日期、专业头衔等,若不
能正确识别,就不会有正确的翻译。
2010-5-20 第 1 章 总 论 54
句法分析任务是确定句子中每个词的
词性(或称词类),确定词与词之间
的关系以便构成短语,确定短语之间
的关系以便构成更大的短语或者组成
句子。
2010-5-20 第 1 章 总 论 55
多年句法分析认识到:对于复杂真实句子
来说,要一次性给出句子的完整分析是相
当困难的,而给出句子的某些基本分析或
部分分析结果很恰当,这样既可以提高整
个句子分析的正确性,又对于某些应用很
有用处。所以当前句法分析的一个热点是
注重真实句子的部分分析。其内容包括名
词短语的确定、句子中部分或全部短语边
界的划定等。
2010-5-20 第 1 章 总 论 56
语义分析就是解决句子中意义的不同或可
不可能搭配,如下两句:
⑴ The fish was bought by
the cook;鱼是厨师买的
⑵ The fish was bought by
the river;鱼是从河边买的
以上两个句子结构上完全相同,机器
翻译必须依靠语义分析来区分含义,
,cook”是有生命的人,而, river”是无
生命的地点。
2010-5-20 第 1 章 总 论 57
语境分析研究句子与句子间的关系,也就是
上下文关系。例如两个句子中某个代词指代
那一个名词。
语用分析研究源语言与目标语言不同的文化
背景,有典故的词、句(成语)的翻译,例:
⑴ How are you? 不能译成, 你
怎么样?,,只能译成, 你好!,
⑵, 指鹿为马, 不能译成, call a stag
a horse” 只能译成, deliberately
misrepresent”。
2010-5-20 第 1 章 总 论 58
居于机器翻译系统核心地位的语言处理
程序,包括原文的分析程序与译文的生
成程 序。实际翻译过程是利用从原文分
析出的信息生成与原文等价的译文。
2010-5-20 第 1 章 总 论 59
翻译在源语言和目标语言词汇级之间对
应情况有:
⑴一对一,直接根据词典译文替换;
⑵一对多,需要根据上下文选择词典给
出的译文之一。
2010-5-20 第 1 章 总 论 60
机器翻译系统的基础是词典与语法。这
里所说的词典同通常的书本形式的词典
不同,它是存放在计算机系统中的供语
言处理程序使用的电子词典,它记述了
构成句子的词所具有的各种有关词法、
语法、语义的性质,其中当然包括两种
语言的对译关系。
2010-5-20 第 1 章 总 论 61
为了实际运行机器翻译系统,在使
用者与系统之间必须有一种友好的
人机界面,使得原文与译文能够方
便地输入与输出。
2010-5-20 第 1 章 总 论 62
总之,机器翻译是一种高技术,它
综合运用了计算机科学、语言学、
认知心理学等多学科的技术成就。
机器翻译的理论与技术还在不断发
展之中,机器翻译系统在社会生活中
的价值将会日益显现出来。
2010-5-20 第 1 章 总 论 63
可以用下式高度抽象地描述机器翻译原
理,
Φ
L1 ——— L2
这里 L1,L2分别代表原语言,目标
语言中的所有表达式的集合,Φ是一种
算法; 它能确 定 L1中任一个表达式与
L2中的某个表达式之间的等价对应关系 。
1.2.3 机器翻译的过程
2010-5-20 第 1 章 总 论 64
显然,如果这祥的 Φ存在并且能够把它构造
出来,机器翻译的问题也就迎刃而解了,可
惜的是,无论在理论上还是在实践上都还没
能找到这样的 Φ,实际上,由于 Ll,L2都是
无限集,在只有有限资源 (计算速度、存储容
量等 )的计算机系统中,这样的 Φ是不存在的。
因此,从工程实现的角度,只能对 Ll,L2加以
限制,并给出 Φ的近似描述。
2010-5-20 第 1 章 总 论 65
Φ的最直观的描述是枚举。在计算机系统中
建立一部词典即数据库文件,它的每个记录
只要包含英语与对应的汉语这样两个字段就
够了。例如
beautiful------美丽
pretty------可爱的
flowe------花
very------很
garden------花园
Good morning------早晨好
girl------姑娘
2010-5-20 第 1 章 总 论 66
如果要翻译的东西有限,机器的存储又
足够,这种办法是再恰当不过的了,会
翻译得又准确又迅速。不过这种办法对
于变化多端的语句的翻译是没有实用价
值的。 因为即使有限多单词也能组合出
无穷多个不同的语句。
2010-5-20 第 1 章 总 论 67
例如,由上述词典中的 7个单词至少
可以组合出 24种不同的短语,petty
girl; beautiful girl,very
beautiful, very pretty
flower …… 都是这样的短语。
2010-5-20 第 1 章 总 论 68
将这么多短语全部存入机器显然太笨拙
了,实际上也是不必要的。词典中只要存
入基本的 7个单词就够了,另外把英语与
汉语中都有的, 名词可以受形容词修
饰,,, 形容词可以受副词修饰, 这样
的语法知识以下列规则的形式存入计算
机。
2010-5-20 第 1 章 总 论 69
计算机程序参照这些规则,通过查
英汉词典,得到相应的汉语词,就
可以合成相应的汉语短语,即, 可
爱的姑娘,,, 美丽的姑娘,,
,美丽的,,, 很可爱的花, …… 。
2010-5-20 第 1 章 总 论 70
自然语言的句子是由单词连接而成的,
但是句子不仅仅是单词的线性序列,句
于是有着层次结构的。例如,句子是由
,名词短语, 后接, 动词短语, 组成的,
而名词短语又是由名词或形容词后接名
词 组成的,动词短语是由不及
物动词或及物动词后接名词短语组成的。
2010-5-20 第 1 章 总 论 71
显然, 同一种语言内部存在不同的句子结构 。
不同的语言之间, 表达等价意义的句子的结
构可能相同, 也可能不同 。 在翻译的时候,
通常的做法就是按照句子结构的本来面貌把
原语言的一个句子分解成较小的构成要素,
如短语 。 再将较小的结构进一步分解成更小
的构成要素, 直到基本的构成要素 。 这样便
得到了关于原文句子的结构 。
2010-5-20 第 1 章 总 论 72
所谓基本的构成要素就是那些登录在词典中
的项目,单词显然属于这样的基本构成要素。
这时通过查词典就可以得到在意义上等价的
目标语言基本构成要素,于是参照原文的句
子结构以至语义就可以选定目标语言的对应
的句子结构,用目标语言的基本构成要素逐
步生成较大的结构、更大的结构直至完整的
句子。
2010-5-20 第 1 章 总 论 73
以上所述的要素合成原理是当代机器翻
译的最基本的原理 。 虽然说这个原理是
不难理解的, 但要将它付诸实施,就会
碰到许多棘手的难题 。
首先碰到的一个问题是如何选取基
本的构成要素, 单词是基本构成要素,
但仅仅将单词作为基本构成要素是不可
能得到较好的译文的 。
2010-5-20 第 1 章 总 论 74
请看下例:
Good morning.
How do you do?
Here is a cup of tea for you.
如果词典仅登录单词,并假定系统中的
语法规则是完备的,处理程序是正确的,以
上各句也只会被分别译成以下的汉语句子,
好的早晨。
你怎样做?
这里有一杯为了你的茶。
2010-5-20 第 1 章 总 论 75
中国人看了会莫名其妙吧?因此,通常
也要把一些固定词组作为基本构成要素。
但是这个口子一开,犹如洪水决堤,即
使当代计算机的海存也难以包容。因此,
对超越单词的 基本构成要素必须加以限
制,机器翻译还是要回到要素合成原理
上。
2010-5-20 第 1 章 总 论 76
即使将, Good morning”这样的固定词组
吸收到词典中, 也不能解决所有的翻译
问题, 因为翻译需要根据具体的语言环
境选择恰当的目标语言的表达方式 。 例
如, 朋友之间问好, 将, Good morning”
译成, 你早, 是恰当的 。
2010-5-20 第 1 章 总 论 77
但如果是晚辈问候长辈或下级问候上级,
最好译成, 您早, 。 一种取巧的办法是
不分, 你, 和, 您,, 而含混地译式
,早晨好, 。 但英美人在上午 11点见面
仍可以说, Good morning”,如果在此场
景中仍译成, 早晨好,, 中国人又会觉
得别扭了 。
2010-5-20 第 1 章 总 论 78
由此可见, 好的翻译决不是仅靠要素合
成原理就能实现的 。 不过, 这么多复杂
而又微妙的问题不是眼下立刻能够解决
的 。 现在的机器翻译系统主要用于翻译
科学论文等客观记述事实的, 不带感情
色彩的文章,因而可以认为要素合成原理
是适用的 。
2010-5-20 第 1 章 总 论 79
句子是表达一个完整意思的语言单位 。 现在的机器
翻译系统基本上是一句对一句地进行翻译的, 由于
机器翻译依据的是要素合成原理, 因此就有必要研
究如何把原文的句子分解成基本构成要素 ( 简称原
文分析 ) 以及如何根据基本构成要素结合成译文的
句子 ( 简称译文生成 ) 。 为了开发一个好的机器翻
译系统, 原文分析与译文生成都有很多的问 题需要
深人研究, 不过, 分析似乎处于更重要的地位 。
1.2.4 句子的剖析与翻译
2010-5-20 第 1 章 总 论 80
分析与生成都要依据某种语言理论去进
行, 计算语言学为适应机器翻译等自
然语言 处理技术的需要发展了一系列
新的语言理论, 如上下文无关短语结构
语法, 扩充转移网络, 格语法, 广义
短语结构语法, 词汇功能语法, 功能合
一语法等 。
2010-5-20 第 1 章 总 论 81
我们不打算系统介绍这些语法理论及
其在分析生成中的应用,而只选用这些
语法以及传统语法中的一些基本概念
与规则, 用以阐述原文分析的方法步
骤 。
2010-5-20 第 1 章 总 论 82
请考察下面的英语句子及一些语法公
式:
I like a red apple (1)
句子 → 代词十动词十名词短语 (2)
名词短语 → 冠词十名词 (3)
名词短语 → 冠词十形容词十名词 (4)
2010-5-20 第 1 章 总 论 83
与 (1)类似的句子的结构都可以用规则
(2)和 (4)加以解释。当然为了覆盖英语
的各种各样的句型,仅有规则( 2)~(
4)是远远不够的,但是这样的规则毕竞
有限,数量可以 控制。采用这种办法实
现了利用有限的规则组合无穷多的英语
句子。
2010-5-20 第 1 章 总 论 84
机器翻译系统不可能在任意的英语
句子与汉语句子之间建立一一对应
的关系,但是可以在反映英语句子结
构的语法公式与反映汉语句子结构
的语法公式之间建立对应关系,就
(2),(4)而言则有,
2010-5-20 第 1 章 总 论 85
(英 )名词十动词十名词短语
对应 (汉 )名词十动词十名词短语
(5)
(英 )冠词十形容词十名词
对应 (汉 )数量词十形容词十名词 (6)
(5),(6)表示了英语与汉语某些句
法结构的对应关系 。
2010-5-20 第 1 章 总 论 86
除了英语的冠词要替换为汉语的数量词
外,两者之间几乎没有什么区别,因而
两种语言之间句法结构转换的必要性 表
现得不明显。但这里只涉及到肯定陈述
句及名词短语的一部分结构。 如果考虑
到疑问句、否定句、被动句等等,情况
就不 —样了。
2010-5-20 第 1 章 总 论 87
依据英汉句法结构对应关系 (5),(6)就
可以将英语句子 (1)翻译成汉语,得到的
汉语句子是,我喜欢一个红苹果。 (7)
如果考虑到汉语名词前的数量词
,一个, 在不强调数量的情况下是可以
省略的,而在 (7)中,,红苹果, 只是
,喜欢, 的一般对象,“一个, 应该省去,
于是有,
我喜欢红苹果
2010-5-20 第 1 章 总 论 88
从这个简单的例子可以看出剖析一个句
子的结构在翻译中所起的关键作用,同
时也可以看到,为了生成一个合格的译
文句子,还需要给计算机配备足够多的语
言知识与客观世界知识。
众所周知,英语有以下 5个基本句型:
S十 V S+ V+C S十 V十 O
S十 V十 O十 C S十 V十 O1十 O2
2010-5-20 第 1 章 总 论 89
这里 S,V,O,C分别代表主语,谓语
动词,宾语,补语,O1,O2则分别表
示间接宾语与直接宾语。只要对英语
的这 5个基本句型分别给出对应的汉语
句型,就成为英语基本句型到汉语的
转换规则。
2010-5-20 第 1 章 总 论 90
如果能够识别一个英语句子属于哪一
个基本句型 (显然,计算机关于其操作
对象即符号或数据的异同的逻辑判断
能力在这里大有用武之地,这也就是
通常所说的模式匹配 ),根据英语汉语
之间句法结构转换规则,就能把 给定
的英语句子翻译成汉语。
2010-5-20 第 1 章 总 论 91
如可把下句,
She told me a very interesting story
识别为 S+V+ O1+ O2的句型 ( 其中 O1为
me,O2为 a very interesting story),
则根据转换规则, 不难把它翻译为:
她给我讲了一个很有趣的故事 。
2010-5-20 第 1 章 总 论 92
当然,实际的英语句子要复杂得
多,并不都这么容易处理。识别
一个英语句子的谓语动词是关键,
围绕谓语动词的是作为 S,O,C的
各个名词短语。
2010-5-20 第 1 章 总 论 93
而英语的名词短语又有复杂的结构:
(英语 )名词短语 → 名词
→ 人称代词
→ 冠词十名词
→ 冠词十形容词十名词
→ 副词十形容词十名词
→ 名词十介词十名词
→ 名词十关系代词十句子
→ ……
2010-5-20 第 1 章 总 论 94
英语的句子中包含名词短语,而从上
面的最后一个公式可以后出,名词短
语中又可以包含句子,因此剖析英语
句法结构的程序必须要有处理这种复
杂的递归结构的能力。
2010-5-20 第 1 章 总 论 95
通过以上介绍,可以归纳机器翻译的通常
方法要点如下:首先通过剖析确立原语言
句子的语法(或语义)结构,将原语言的
基本构成要素译成目标语言的基本构成要
素,根据两种语言间的句子结构转换规则,
可以由原语言的句子结构找到目标语言的
适当的句子结构,按照这个结构就可以将
目标语言的基本构成要素组合成句子。
2010-5-20 第 1 章 总 论 96
下面给出包括输入原文及输出译
文在内的常规机器翻译的全过程。简
要地解释一下各个步骤。虽然某些步
骤是纯技术性的,但它们对 —个实用的
机器翻译系统也是不可缺乏的 。
1.2.5 机器翻译的常规步骤
2010-5-20 第 1 章 总 论 97
[1]原文输入 输入原文的方法多种多样,
最常规的是键盘输人。
不过大量输入原文也并不是 —件轻而易
举的事。由中国操作员录人某些语种更会
感到困难。因此,要考虑文字识别等先进的
输入手段。机器翻译系统与科技文献检索
系统相结合,也可以收到很好的效益。
2010-5-20 第 1 章 总 论 98
[2]译前编辑 为了加快处理速度,可将
原文中一些无需翻译的图表、公式,符号
标记出来。为了降低翻译的难度,可以在
原文的句子中加进一些符号以排除歧义或
者补上一些省略了的成分,这项工作通常
由只懂原文的人根据系统的要求去做。
2010-5-20 第 1 章 总 论 99
[3]词法分析 英语有词尾变化,而词典
中不可能收录各个单词的所有的形态,因
此系统中应另存一套形态变化规则。根据
这套规则,可将变化了的形态还原成 基本
形,再去查词。如果原文是汉语,还需要将
构成句子的字符序列切分成单词。 这也是
一件颇困难的工作。
2010-5-20 第 1 章 总 论 100
[4]句法分析 这一步已详细介绍过了。
但是句法剖析并不能解决机器翻译中的
所有问题。特别当碰到有歧义结构的句
子时,仅仅靠句法分析便决定不了如何
取舍。例如:
The boy saw a girl with a
telescope,(8)
2010-5-20 第 1 章 总 论 101
在 (8)中,介词短语 with a telescope
既可以作为谓语动词 saw的状语,也可以
作为名词 girl的定语。当解释为状语时,
会译成:
男孩用望远镜看见了一个女孩。
2010-5-20 第 1 章 总 论 102
当解释为定语时,则译为,
男孩看见了一个带望远镜的女孩。
因此,仅有句法分析是解决不
了 两种 语言间的的转换问题,还需
要作深入的语义分析和语境分析。
2010-5-20 第 1 章 总 论 103
[5] 语义分折 虽然句法分析程序确定不了 (8)
中的介词短语在句子结构中的地位,但并不等
于说这类问题都是不可解决的。请看下面两个
例子,
I bought a table with three dollars (9)
I bought a table with three legs (10)
2010-5-20 第 1 章 总 论 104
当代的机器翻译系统或多或少都加进了语义分析的
功能。不过,多数系统还只是把语义分析作为一种
辅助的手段。即使增加了语义分析,通常分析的跨
度基本上也还是局限在一个句子的范围内。因此,
对于( 8)那样的句子还是无法排除其歧义的。也
许词典中指出了 telescope是工具,可以作为 saw
这个动词的工具格,据此可将 with a telescope
确定为 saw的状语。但并不能保证这种判断一定符
合原文的意思。因此,还需要进行语境分析。
2010-5-20 第 1 章 总 论 105
这两个句子的结构与 ( 8) 完全一样 。 但从
语义的角度看, 在 ( 9) 中, dollars是货币,
可以作为 bought的工具格, dollars 与
table 并没有直接关系, 因此介词短语
with three dollars只能是状语 。 而在
( 10) 中,legs是 table的组成部分, 不能
用 legs购物, 因此 with three Legs只能是
修饰 table的 。
2010-5-20 第 1 章 总 论 106
如果在英语词典中, 除了指明 dollars,
legs属于名词这个语法范畴外,还注记
其语义信息, 即 dollars是, 货币,,
legs是, 物体的组成部分,, 分析程序
就可以参照这些语义信息在两种可能的
句法结构中选择一个合理的保留下来 。
这项工作就叫做语义分析 。
2010-5-20 第 1 章 总 论 107
当代的机器翻译系统或多或少都加进了语义分析的
功能 。 不过, 多数系统还只是把语义分析作为一种
辅助的手段 。 即使增加了语义分析,通常分析的跨
度基本上也还是局限在一个句子的范围内 。 因此,
对于 (8)那样的句子还是无法排除其歧义的 。 也许
词典中指出了 telescope是工具, 可以作为 saw 这
个动词的工具格, 据此可将 with a telescope确
定为 saw的状语 。 但并不能保证这种判断一定符合
原文的意思 。 因此,还需要进行语境分析 。
2010-5-20 第 1 章 总 论 108
[6]语境分析 分析的范围超出一个句子,
在上下文的环境中确定句子的语义,这就是
语境分析。语境分析除了可以解决( 8)所
表现的那一类歧义性外,还可以解决句子中
的省略、指代等自然语言中习以为常而计算
机处理起来却十分困难的问题。语境分析程
序必须包含有力的推理功能。
2010-5-20 第 1 章 总 论 109
以上分别介绍了语言的词法分析、句法结构
分析、语义分析及语境分折。实际的分析过
程大致上也是这样进行的。但不等于说,每
一个实用的系统都必须包含直到语境分析的
每一个步骤,也不是说这些步骤之间一定是
分明的。实际的系统可能融合词法分折、句
法分折、语义分析于一体。
2010-5-20 第 1 章 总 论 110
设计机器翻译系统时,应该牢记
工作的目标是要得到与原文等价
的译文。因此,分析到哪一步为
宜要根据能否由此得到恰当的译
文来决定,不要以为分折得越深
就越好。
2010-5-20 第 1 章 总 论 111
[7]内部表示的转换 由句法结构分析,语义
分析及语境分析皆可得到原文的某种形式的内
部表示。上下文无关语法的分析树是一种内部
表示,格语法的格框架也是一种内部表示。机
器翻译的决定性步骤就是将这种相对独立于原
文表层表达方式的内部结构转换为译文的相对
应的内部结构,这种转换根据一定的规则和算
法进行。这一步完成了,剩下的工作就是根据
转换了的内部结构生成译文的句子。
2010-5-20 第 1 章 总 论 112
[8]译词选择 原文总是要分解
成基本构成要素的, 这些基本构
成要素的相对应的译词可以在双
语词典中找到 。 译词应当置于转
换后的结构的某个位置上,如树
结构的叶结点上或格框架的格槽
中 。
2010-5-20 第 1 章 总 论 113
由于一个英语词可能对应若干种风马牛
不相及的汉语词, 例如 table 作为名词
就有, 桌子,,, 平板,,, 表格, 3种
不同的意思,因此需要根据专业领域,
句法结构, 语义以及译文的前后搭配关
系加以选择 。 为了适应这种需要, 词典
很可能不仅仅是数据库, 而且可能包括
可执行的过程 。
2010-5-20 第 1 章 总 论 114
[9]译文句子的生成 根据转换
后的内部结构及选译的译词就可
以按一定的算法将单词排列成线
性的序列, 译文的句子也就形成
了 。
2010-5-20 第 1 章 总 论 115
[10]词形变化 如果是由英语译成汉语, 由于汉
语单词的形态变化不丰富, 这一步也许没有什么
事情可做, 只要按通常的书写印刷习惯将词与词
之间的空格挤掉就行了 。 如果是由汉语译成英语,
虽然无需挤掉单词间的空洛, 却应改变某些单词
的词形, 使主谓一致, 使时态表示正确 。 例如:
I be a student.
在这一步就应当改为,I am a student.
2010-5-20 第 1 章 总 论 116
[11]译后编辑 可以在终端屏幕上将译文显示出
来供人校对, 熟悉机器翻译规律的 校对者不看
原文也可以作一些编辑修改工作 。 如有一句译文
为:我看见了在桥上游泳的人 。
编辑者不难判断,, 在桥上, 这个短语应是
修饰动词, 看见, 的 。 译后编辑可在相当程度上
提高译文的可读性 。
为了提高译后编辑的效率, 机器翻译系统通
常会提供良好的界面, 如实现两种语言对照的多
窗口, 灵活的编辑功能等 。
2010-5-20 第 1 章 总 论 117
[12] 译文输出 译文可用打印机
输出, 也可同电子印刷系统联结
起来, 还可以通过网络将译文送
给远程终端的用户 。
2010-5-20 第 1 章 总 论 118
前面介绍了机器翻译的基本原理及典型过程,实
际的机器翻译系统却呈现各种各样形态,现我们
从不同角度对机器翻译系统进行分类,以期把握
机器翻译的概貌。
(1) 从涉及语种的角度分类,计有
a.一对一的系统,又可细分为单向的与双向的。
b.多语种系统。虽然说多对一与一对多的机器
翻译系统可划为多语种系统,但本质不过是多个
一对一系统的简单组合。
1.2.6 机器翻译的分类
2010-5-20 第 1 章 总 论 119
( 2)按自动化的程度分类,计有
a.自动翻译的系统。这类系统通常采用批处理
作业方式,在翻译过程中不需要人的干预。但
不同的自动翻译系统又可按有无译前编辑或译后
编辑分成不同的小类。
b.翻译支援系统。这类系统按人机互助方式完
成翻译作业,通常采用会话方式工作。又可细
分为人助机译和机助人译两小类。如果构思精巧,
这类系统是很有价值的,可以充分发挥人与机器
的各自优势,从而获得最大的效益。
2010-5-20 第 1 章 总 论 120
( 3)按处理方式分类,可以分为
a.直接翻译
b.间接翻译
直接翻译指从原文句子的表层出发,将单词
或者与单词同样看待的成分(固定的词组、短语
甚至句子)直接置换成目标语言的对应成分,必
要时也可能调整一些词序,这样生成译文的句子。
以词汇为主的第一代机器翻译系统主要采用这种
直接翻译方式。计算器型的旅游翻译器基本上也
采用这种方式。
2010-5-20 第 1 章 总 论 121
与直接翻译相对照,间接翻译则是要分析
原文的句子,得到原文句子的句法结构、
语义表达等中间形式,然后将这种中间形
式进行转换,得到目标语言的中间形式,
再由此生成译文的句子。以句法为主的第
二代机器翻译系统与以语义为主的第三代
系统采用的主要是间接翻译方式。
2010-5-20 第 1 章 总 论 122
接照分析深度及中间形式与原语言、目标
语言关系的密切程度又可将间接翻译方式
分成不同的小类。不过,这种划分的界限
不是十分清晰的。理想的中间形式是完全
独立于原语言与目标语言的,如果这样的
中间形式找到了,也可以将这种中间形式
叫做媒介语或中间语言。
2010-5-20 第 1 章 总 论 123
目前多数系统的中间形式或多或少地
依赖于原语言与目标语言,这样的方
式就叫做 转换方式。这是当代机器翻
译系统的主流。在主要采用转换方式
的系统中,当然也允许用直接方式翻译
某些语句。
2010-5-20 第 1 章 总 论 124
纵观机器翻译的历程,已经走过了理论研究的几
十年,并走向了实用化。美、英、法、日、俄、
徳等国都相应进行了母语与, 外语, 机器翻译,
这一领域的国际化研究与合作非常活跃,取得了
不少的成绩。然而,机器翻译确是一项很难的课
题,包含了语法、语义和语用等基础问题的研究,
需要计算机科学、语言学、认知心理学等多种学
科的技术成究,因此至今各种语言的机器翻译都
尚未得到满意的效果。
1.2.7 机器翻译的进展
2010-5-20 第 1 章 总 论 125
必须肯定的是,机器翻译的理论与技术近十几年
发展非常迅速,机器翻译系统在社会生活中的价
值日益显现出来。若其效果满意,它不仅可被各
国政府机构所用,而且可促进世界范围内的科学、
文化交流;另一方面,由于创造和使用自然语言
是人类高度智能的表现,因此,机器翻译的理论
部分有助于揭开人类智能的奥秘,深化我们对语
言能力和思维本质的认识。可以说:机器翻译的
研究在理论方面和应用方面都有重大意义。
2010-5-20 第 1 章 总 论 126
我国是继美国、俄国、英国之后,世界上第四个
开展机器翻译研究工作的国家。与国外机器翻译
的发展情况相比较,我国机器翻译除了有草创期、
复苏期和繁荣期之外,由于文革的影响,还有一
个非常特别的停滞时期。而且,由于我国机器翻
译在理论上和方法上以及设备上的底子都很薄,
我国机器翻译的每一个时期又都比国外机器翻译
的同样时期稍微落后。这是我国机器翻译发展的
不足之处,也有待我们从事这一领域研究的科技
工作者去赶超世界的先进水平。
2010-5-20 第 1 章 总 论 127
我国机器翻译 1956年至 1966年是草创期;
1966年至 1975年是停滞期; 1975年至 1987
年是复苏期; 1987年至今是繁荣期 。 这个
时期是以, 科译 1号, 机器翻译系统的问世
为标志的 。 继, 科译 1号, 之后, 一系列的
实用化商品化的机器翻译系统如雨后春笋
般地推向市场, 我国的机器翻译迈向了实
用化和商品化的阶段 。
返回