人工智能与机器翻译
主讲:杨宪泽
——单词与词组分析
第 5 章 单词与词组的处理与分析
对于机器翻译研究来说,本章的第一任务是要建立语言的
机器词典,这一机器词典是多语言的。例如各自的藏,英,汉语
机器词库。
单词与词组的处理与分析,对于汉语来说,首先必须要进行
单词的自动切分。自动切分歧义部分是解决的难点,不但可能
用到规则推理,而且还可能用到语法分析,语义用分析,更详细
的过程可以结合第六 章等一起研究。
词语分类和兼类的分析与处理是本章研究的又一重点。
本章的最后将研究词处理的一些细节问题。
第 5 章 单词与词组的处理与分析
第 5 章 单词与词组的处理与分析
人工翻译离不开词典,当然,机器翻译也离
不开机器词典。机器词典也被称为电子词典,简
称词典。机器词典的作用在机器翻译中是最重要
的,因为做任何机器翻译工作都必须通过查机器
词典来得到相关的翻译元素 ---单词和词组。如何
有效的组织、建立机器词典,如何更好地利用机
器词典中包含的各种知识,是一个值得深入研究
的课题。
5, 1 机器词典概述
第 5 章 单词与词组的处理与分析
5,1, 1 基于分析和转换的机器翻译方法
机器词典的作用:
( 1)机器词典的好坏是更好的实现实用化机器翻译系统软件的障碍之一。现
有的一些机器翻译系统在达到实用化阶段时往往因为机器词典规模的限制阻碍了
性能的进一步提高。 因为语言词汇是一个开放的集合,无论建立多么庞大的词
典,都不可能穷举所有的词。而且,随着时间的推移,还会出现大量的新词。因
此,只有尽可能的扩充机器词典的规模,才可能使机器翻译系统更实用,更会被
更多的行业、更多的人所接受。
( 2)机器词典是机器翻译的质量的关键,要达到机器翻译的全自动、高质量,
就必须有一部信息丰富、易于使用的机器词典。一部好的机器词典不仅要有庞大
的数量,而且要有尽可能高的质量,只要这样,才可能是机器翻译的质量更高。
( 3)电子词典(机器词典)不仅可以用于机器翻译,而且也可以用在自然语
言理解、自然语言处理诸多方面。因此,电子词典(机器词典)是大规模知识工
程的基础工作,它可以为知识系统提供一个基本的知识源。
第 5 章 单词与词组的处理与分析
对于机器翻译系统来说,为了适应不同专业领域的翻译要求,需要配有大
量的专业词汇。因此,机器翻译系统的词典又可以分为通用词典和专业词典两部
分。如专门的缩略语词典、特殊字词典等等。还可以把通用词典再细分为名词词
典、动词词典、成语词典等等。
机器词典的组织机构对于提高词语的检索速度是非常主要的。一定的组织结
构形式和相应的算法相配合,可以节约存储空间,提高检索速度,从而提高机器
翻译系统的整体翻译速度。
机器词典从存储形式来看,可以分为定长字段型、变长字段型和定变长混
合型三种类型;从索引格式看,可以分为一级索引和多级索引等等。
词语的长短是不同的,例如,某些常用词的信息特别丰富,书本词典可以占
满几页,而有一些词语却只要一行。这样,如果所有词语都使用定长字段,则必
须依据最长词语确定字段长度,而相当多的短词语将浪费巨大的存储空间。所以,
一般情况下一条词语的有关信息的存储都采用变长形式,这可以用链接技术实现。
第 5 章 单词与词组的处理与分析
5, 2 自动分词
汉语自动分词是我国计算机科学研究的重要课题之一,它是自然语言理
解、自动翻译,电子词典等信息处理的基础性工件。所谓分词,就是要把一
句话,一篇文章甚至一部著作中的词语逐个逐个的切分出来。汉语不象拼音
文字那样有自然切分标志,而且词语长短不一,词语的定义也不统一,语言
学中对词的定义多种多样,造成切分的多样性,这也自然给自动分词的同一性
带来很大困难。 汉语中词语本身的词素、词、词组无明显的区分界限,没有
一个统一的标准,许多东西都是凭经验和语感来划分。,这项工作如果全部交
给计算机来作,就没有那么简单了。
尽管计算机自动分词在诸多方面存在着许多困难,但是由于自动分词是
许多应用工作的第一步 (也是自动翻译的第一步 ),这就促进了研究的持续不断,
提出了不少方法,它们各有优缺点,也可能是基于特定环境的。
第 5 章 单词与词组的处理与分析
5,2, 1 典型的自动分词方法
5, 2, 1, 1 正向最大匹配法和逆向最大匹配法
正向最大匹配法是最早提出的自动分词方法,它的基本思想是先取一句话
的前六个字查字库,若不是一个词,则删除六个字的最后一个字再查,这样一直
查下去,至找到一个词为止。 句子剩余部分重复此工作,直到把所有的词都分
出为止。逆向最大匹配法也一样,每次匹配不成功时去掉汉字串中最前面的一
个字。
两法思路清晰,易于计算机实现,但由于试图用相对稳定的词表来代替灵
活多变,充满活力的词汇,把词库搜索作为判词的唯一标准,因而具有很大的
主观性和局限性。另外,这两种方法实际上否认了语言中的歧义现象。
在实际应用中,方法有所变化。如下述算法我们初始不是取六个字而是取长
度最短词的个数。
第 5 章 单词与词组的处理与分析
A1,一条汉语语句分划成单一字符 X1,X2,…,XM。
A2,决定语词中可能出现的词最大字符长度 Lmax,最小字符
长度 Lmin。
A3,逆向匹配,取语句最后的 Lmin个字查关键词库,若查不到,
加入一个字重复此工作,直至字符数为 Lmax为止。
A4,若实施 A3查不到词,去掉语句中最后一个字,再实施 A3,直
至整个语句只剩下 L min为止。
第 5 章 单词与词组的处理与分析
5, 2, 1, 2 高频优选法
这一方法基于词频的统计、字与字之间的构成结合律和歧
义切分等现象的分析而提出来的。根据, 现代汉语频率词典,,
对于报刊和政论性文章,不同音节词的词频构成为:双音节词大
约有 74%;三音节词大约有 3, 7%;单音节词大约有 17, 2%;而
五以上字音节词则大约只有 0, 4%左右。汉语是一字一音节,因
而也可以说,两字组词的频率比其它所有方式的概率加起来都还
要多。自动分词时首先考虑两字词,然后再考虑单字词,如此频
率低的词语最后才考虑。这种方法提高了分词效率,但对歧义问
题也无能为力,出错率并不低。
第 5 章 单词与词组的处理与分析
5, 2, 1, 3 其它方法
设立切分标志
切分标志有自然和非自然之分。自然切分标志是指文章的非
文字符号,例如标点符号等等;非自然切分标志是利用词缀和不
构成词的词(单字词等等)。设立切分标志方法的基本思想就是
通过建立非自然切分标志的一张表存储于计算机中用程序来识别
所有的非自然标志。这样一来,一个句子链将被化为若干短链,
然后再用其它切分方法进行各种细加工,这种多方法合作的综合
应用,途径增多,可以大大提高效率。
第 5 章 单词与词组的处理与分析
扩充转移网络分词法
它是以有限状态机概念为基础的方法。有限状态机只能识别正
则语言,对有限状态机作的第一次扩充可以使其具有递归能力,这
样就形成递归转移网络( RTN)。在 RTN中,弧线上的标志不仅可
以是终极符(语言语句中的各种词语)或非终极符(还没有推导完
的词类、符号等等,例如名词 N,动词 V,形容词 A等等),还可以
调用另外的子网络名字的非终极符(例如字或字串的成语条件)。
这样,计算机在运行某个子网络时,就可以调用另外的子网络,还
可以递归调用。目前大多数的自然语言理解系统都把词典组织成一
个表,表是静态的。使用扩充转移网络来组织词典就可以构成一个
动态的词典,词法扩充转移网络的使用,它使分词处理和自然语言
理解系统的句法处理阶段交互成为可能,并且有效地解决了汉语分
词的歧义。
第 5 章 单词与词组的处理与分析
全自动词典切词
这种方法完全使用切词规则切分词语,其规则中的参数由词
典提供。该方法可以部分解决歧义问题,但因是匹配切词,效率
不高。
规则描述语言切词法
规则描述语言是用以描述汉语分词、分析和生成规则的一种
工具。其中,整个规则语言将由若干个不同性质的规则块构成,
而每一个规则块又包括多条规则,这些规则块的结构一般采用多
层次的树型结构(当然,也可以采用其它结构,例如链式结构)。
该方法对正确描述汉语是一种有意义的尝试,值得深入研究
第 5 章 单词与词组的处理与分析
多遍扫描联想法
这种方法是使用切分标志把文本切分成若干子串。它一般分成两步进行:第
一步,使用自然切分标志对文本进行预处理;第二步,利用非自然切分标志结合
联想库对文本进行有效的分割。这两布完成以后,再利用实词的词库和联想库将
所有词群细分为词。在这种方法的操作中,分词时将要充分利用各种语法知识、
联想和回溯机制同时作用分割和细分阶段,其目的在于更有效的解决歧义组合结
构的切分问题,并且兼有自动纠错和检错这样的特殊功能。这种方法属于组合方
法,方法的基点立足于可靠性、实用性和通用性。
神经网络分词法
这种方法是模拟人脑功能采用并行、分布处理和建立数值计算模型工作的
方法。它将分词知识所分散隐蔽式的方法存入神经网络内部,然后再通过各种自
学习和训练修改内部的权值,以达到正确的分词效果,最后给出神经网络自动分
词结果。由于神经网络这一学科的研究有许多问题尚未解决,所以此方法还处于
探索之中。
第 5 章 单词与词组的处理与分析
专家系统分词法
这种方法从专家系统角度把分词的知识(包括常识性分词知识与消除歧义
切分的启发性知识,即歧义切分规则)从实现分词过程的推理机中独立出来,从
而使知识库的维护与推理机的实现互不干扰,以达到使知识库易于维护和管理。
这种方法还具有发现交集歧义字段和多义组合歧义字段的能力和一定的自学习功
能。虽然专家系统研究相对成熟,但真正要把这一方法作为完善的机器翻译自动
分词方法,还有很长的路要走。
综上所述,由于汉语的复杂性。我们很难以某种方法正确地、彻底地自动分
词。这些不同的方法,它们各有不同的优点和缺点,适合不同的环境。但是如何
比较正确的评价、度量一个方法,则显得尤为重要,这一点将在后面论述。
第 5 章 单词与词组的处理与分析
5, 2, 3 自动分词的歧义问题
自动分词的难点是歧义切分,而歧义切分字段
从构成形式上可分为两类, 一类是交集型歧义切分字
段,一类是多义组合型歧义切分字段。
第 5 章 单词与词组的处理与分析
5, 2, 3, 1 交集型歧义切分字段与解决方法
一般情况下,在多义组合型歧义切分字段中,歧义字段就是
一个歧义词,而非歧义词被包含在歧义词当中。例如,歧义字段
“语言学”同时也就是一个歧义词,而非歧义词“语言”和“学”
包含在歧义词“语言学”中。在这种情况下,机器很难根据多义组
合型歧义切分字段本身来获得非歧义词的特征信息,程序只有跳出
多义组合型歧义切分字段自身的框架,参考歧义字段与其前趋字串
或后继字串之间的关系,才有可能发现正确的切分。这就说明,为
了对多义组合型歧义切分字段本身作出唯一正确的切分,不能只考
察歧义字段内部的情况,还必须考察歧义字段与其前后字串之间的
关系。而在交集型歧义切分字段中,歧义字段本身就可以给我们提
供非歧义切分的特征信息,因此,多义组合型歧义切分字段的自动
切分比交集型歧义切分字段的自动切分要难得多。
第 5 章 单词与词组的处理与分析
有些歧义切分字段具有二重性。例如,在例句“乒乓球拍卖完
了”中,由名词“乒乓球”和动词“拍”串联组合而产生出多义组
合型歧义切分字段“乒乓球拍”,而“乒乓球拍”又与动词“拍卖”
交叉组合而产生交集型歧义切分字段“乒乓球拍卖”,这样一来,
在“乒乓球拍卖”这个字段中,既有多义组合型歧义切分字段,又
有交集型歧义切分字段。对于这样的具有二重性的歧义切分字段,
切分时也不能只考虑字段本身提供的信息,还应该考虑该字段与其
前趋字串和后继字串的关系。
为了正确地切分多义组合型歧义切分字段,可以利用前趋字串
和后继字串的句法、语义、语用 3个方面信息。
我们来讨论如何利用句法信息, 有些多义组合型歧义切分字段
与其前趋字串和后继字串之间,存在着密切的搭配关系,这时就可以
利用有关的句法信息得到正确的切分。
第 5 章 单词与词组的处理与分析
(1) 名词 +名词
例如,在句子“用树形图形式加以描述”中,歧义字段
“图形式”是由名词“图”与名词“形式”之间的交叉组合产
生的 ——“图形”十“形式”。事实上,“图形”是歧义词,
它是歧义字段“图形式”在给定句子中错误地切分出来的片段,
“形式”是非歧义词,它是歧义字段“图形式”在给定句子中,
按正确的切分方式切分出来的片段。
(2) 动词十名词
例如,在句子“研究生命的本质”中,歧义字段“研究生
命”是由动词“研究”与名词“生命”之间的交叉组合产生的 -
-----“研究生” (歧义词)十“生命” (非歧义词)。
第 5 章 单词与词组的处理与分析
(3) 形容词十名词
例如,在句子“白天鹅游过来了”中,歧义字段“白天鹅”
是由形容词“白”与名词“天鹅”之间的交叉组合产生的 ——
“白天”(歧义词)十“天鹅”(非歧义词)。
(4) 介词十名词
例如,在句子“让位移等于 50厘米”中,歧义字段“让位
移”是由介词“让”与名词“位移”之间的交叉组合产生的 ——
“让位”(歧义词)十“位移”(非歧义词)。
(5) 连词十名词
例如,在短语“独立自主和平等互利的原则”中,歧义字
段“和平等”是由连词“和”与名词“平等”的交叉组合产生
的 ——“和平”(歧义词)十“平等”(非歧义词)。
第 5 章 单词与词组的处理与分析
(6) 副词十形容词
例如,在句子“这本小说的情节太平淡了”中,歧义字段
“太平淡”是由副词“太”与形容词“平淡”的交叉组合产生的 ---
------“太平”(歧义词)十“平谈”(非歧义词)。
(7) 助词十形容词
例如,在短语“对这种现象的确切描述”中,歧义字段,
“的确切”是由助词“的”与形容词“确切”的交叉组合产生的 ---
-------“的确”(歧义词) +“确切”(非歧义同)。
(8) 名词十连词
例如,在句子“社会需求和生产水平有矛盾”中,歧义字段
“需求和”是由名词“需求”与连词“和”的交叉组合产生的 ------
---“需求”(非歧义词)十“求和”(歧义词)。
第 5 章 单词与词组的处理与分析
(9) 动词十介词
例如,在句子“他们看中和日本人做生意的机会”中,歧
义字段“看中和”是由动词“看中”与介词“和”的交叉组合产
生的 ----------“看中”(非歧义词)十“中和”(歧义词)。
由以上例子可以看出,交集型歧义切分字段 a1…ai, bl…bj,
cl…ck 的交段 b1…bj 与其后继字串 cl…ck 所组成的非歧义词的词
类,可以从歧义切分字段本身提供出来,例如,在歧义切分字段
“白天鹅”中,交段为“天”,它与后继字串“鹅”组成的非歧
义词“天鹅”,其词类为名词。歧义切分字段本身为我们提供了
非歧义词,天鹅”的词类信息。交集型歧义切分字段,
al…ai, b1…bj, cl…ck 的交段 b1…bj 与其前趋字串 al…ai 所组成
的非歧义词的词类,也可以从歧义切分字段本身提供出来。例如,
在歧义切分字段“需求和”中,交段为“求”,它与前趋字串
“需”组成非歧义词“需求”,其词类为名词,歧义切分字段本
身也为我们提供了非歧义词“需求”的词类信息。
第 5 章 单词与词组的处理与分析
交集型歧义切分字段可以为我们提供非歧义切分的特征信息,这是交集型歧义
切分字段非常宝贵而重要的特点。根据这个特点,我们可以事先为汉语词汇中
的每个词建立词法知识库,并在该知识库中为可能产生歧义切分的词条加上歧
义标志和歧义类型编号,这样,在实际切分歧义字段时,只要利用该字段中的
交段 bl…bj 与后继字串 cl…ck (或其前趋字串 a1…ai )所组成的非歧义词的已
知词类信息,再通过适当的逻辑推理,就可以对这类歧义切分字段作出唯一正
确的切分。
例如,在上述第 (3)种类型的歧义切分字段“白天鹅”中,因交叉组合产生
的歧义词是“白天”,交段是“天”,该交段的后继字串为“鹅”,二者组成
非歧义词“天鹅”,并已知其词类信息为名词。如果在词法知识库中,对歧义
词“白天”加上歧义标志和相应的歧义类型编号,并建立如下的规则:如果交
段与其后继字串组成名词,则将该歧义词的首字单切,否则,确认该歧义词为
词。
第 5 章 单词与词组的处理与分析
于是,根据歧义词“白天”的歧义类型编号调用上述规则,并利用词法知
识库中有关该歧义切分字段的交段“天”与其后继子串“鹅”组成词的知识,检
查这个词是否为名词,并进行逻辑推理,就可以确定,在切分歧义字段“白天鹅”
时,应将歧义词“白天”的首字“白”单切,“白天鹅”应切分为“白/天鹅”。
这是对歧义切分字段“白天鹅”作出的唯一正确的切分。
又如,在上述第 (8)种类型的歧义切分字段“需求和”中,因交叉组合产生
的歧义词是“求和”,交段是“求”,该文段的前趋字串为“需”,二者组成非
歧义词“需求”,并已知其词类信息为名词。如果在词法知识库中,对歧义词
“求和”加上歧义标志和相应伯歧义类型编号,井建立如下的规则:如果交段与
其前趋字串组成名词,则将该歧义词的尾字单切,否则,确认该歧义词为词。
于是,根据歧义词“求和”的歧义类型编号,调用上述规则,在词法知识库
中查询,得知该歧义切分字段的交段“求”与其前趋字串“需”所组成的词为名
词,进行逻辑推理,就可以确定,在切分歧义字段“需求和”时,应将歧义词
“求和”的尾字单切,“需求和”应切分为“需求/和”。这是对歧义切分字段
“需求和”作出的正确的切分。
第 5 章 单词与词组的处理与分析
对于其它类型的交集型歧义切分字段,不难建立相应的规
则,并为其中的歧义词设置相应的歧义类型编号,然后利用词
法知识库中有关词类信息的知识,进行类似的逻辑推理,就可
以作出唯一正确的切分。
由于对交集型歧义切分字段的正确切分,仅只需要关于词
类的信息,所以,可以把这类歧义切分字段。从性质上划为
“与词类有关的歧义切分字段”,简称为“词法歧义字段” 。
第 5 章 单词与词组的处理与分析
多义组合型歧义切分字段比较复杂,这种歧义切分字段是由词与词之间的
串联组合产生的。在字段 S= a1…ai, bl…bj 中,由于 a1…i, b1…bj 和 S三者都
能分别成词,字串 a1…ai 与字串 bl…bj 形成了串联组合,才产生歧义切分。从
产生的根源上看,有下列几种不同的类型:
(1) 量词十名词
例如,在句子“一阵风吹过来了”中,歧义切分字段“阵风”是由量词
“阵”和名词“风”的串联组合产生的。 (2) 介词十名词
例如,在句子“请把手抬高一点儿”中,歧义切分字段“把手”是由介词“把”
和名词“手”的串联组合产生的。
(3) 动词十名词
例如,在句子“他喜欢吃烤白薯,中,歧义切分字段“烤白薯,是由动词
“烤”和名词“白薯”的串联组合产生的。
5, 2,3, 2 多义组合型歧义切分字段与解决方法
第 5 章 单词与词组的处理与分析
(4) 名词十方位词
例如,在句子“他骑在马上”中,歧义切分字段“马上”是由名词“马”
和方位词“上”的串联组合产生的。
(5) 名词十动词
例 1,在句子“语言学起来并不十分容易”中,歧义切分字段“语言学”
是由名词“语言”和动词“学”的串联组合产生的。
例 2,在句子“学生会兴奋得手舞足蹈”中,歧义切分字段“学生会”
是由名词“学生”和动词“会”的串联组合产生的。
例 3,在句子“乒乓球拍卖完了”中,歧义切分字段“乒乓球拍”是由
名词“乒乓球”和动词“拍”的串联组合产生的。
例 4,在句子“美国会采取措施提高工业竞争力”中,歧义切分字段
“美国会”是由名词“美国”和动词“会”的串联组合产生的 。
第 5 章 单词与词组的处理与分析
(6) 方位词十动词
例如,在句子“他在庄稼地里间麦苗”中,歧义切分字段“里间”是由
方位词“里”和动词“间”的串联组合产生的。
(7) 副词十动词
例如,在句子“他将来北京探亲”中,歧义切分字段“将来”是由副词
“将”和动词“来”的串联 组合产生的。
(8) 助词十动词
例 1,在句子“他学会了解数学难题”中,歧义切分字段“了解”是由助
词“了”和动词“解”的串联组合产生的。
例 2,在句子“只要努力地学就可以学会”中,歧义切分字段“地学”是
由助词“地”和动词“学”的串联组合产生的。
第 5 章 单词与词组的处理与分析
(9) 连词十副词
例如,在句子“日本保留和尚使用的古代庙宇已经不多了”中,歧义
切分字段“和尚”是由连词“和”与副词“尚”的串联组合因此,可以先
在词法知识库中对歧义词“阵风 "加上歧义标志与相应的歧义类型编号,并
建立如下的规则:如果歧义字段的直接前趋字串是数词,则歧义字段的首
段单切,否则,该歧义字段成词。
然后根据“阵风”的歧义类型编号调用这条规则,并利用词法知识库
中的有关该字段前趋字串的信息,进行逻辑推理,就可以作出唯一正确的切
分。
上面例中的歧义切分字段“把手”是由介词“把”和名词“手”的串
联组合而产生的,按非歧义切分时的词间搭配关系,该歧义字段的后继字串
中必须有及物动词,根据这样的句法知识建立相应的规则,再使用与上述类
似的推理方法,就可以作出唯一正确的切分。
第 5 章 单词与词组的处理与分析
上面例中的歧义切分字段“白薯”是由动词“烤”和名词“白薯”的串联
组合而产生的,按非歧义切分时的词间搭配关系,该歧义字段的前趋字串中应该
有动词,根据这样的句法知识建立相应规则,再使用与上述类似的推理方法,就可
以得到唯一正确的切分。
上面 例中的歧义切分字段“马上”是由名词“马”和方位词“上”串联组
合而产生的,按非歧义切分时的词间搭配关系,该歧义字段的前趋字串中应该有介
词,根据这样的句法知识建立相应的规则,再使用类似的推理方法,就可以得到唯
一正确的切分。
类似地,切分上面例中的歧义字段“语言学”时,要使用“该字段的后继字
串中应有趋向动词或助词”这样的句法知识 ; 切分上面例中的歧义字段“里间”
时,要使用“该字段的前趋字串中应有介词”这样的句法知识 ; 切分生命例中的
歧义字段“将来”时,要使用“该字段的前趋字串中应有人名或人称代词”这样
的句法知识 ; 切分上面例中的歧义字段“地学”时,要使用“该字段的直接前趋
字串应该是形容词或副词”这样的句法知识。根据句法知识建立相应的切分规则,
通过一定的逻辑推理,就可以实现对这些歧义字段的正确切分。
第 5 章 单词与词组的处理与分析
现在讨论如何利用 语义信息, 例中歧义切分字段“学生会”是由名词
“学生”与动词“会”串联组会产生的,可以有两种切分结果,
学生 /会 /兴奋 /得 /手舞足蹈
学生会 /兴奋 /得 /手舞足蹈
这两种切分结果在词类与句法结构上都十分相似,因此,仅仅利用词法
和句法的知识,难以对这两种切分结果作出正确的判别,也就难以作出正确
的切分。这时,也就需要利用语义方面的知识了。从语义上来看,动词“兴
奋”的义项中,要求动作的发出者应具有“人”这个义素,在名词“学生会”
的义项中不具有这个义素,而在名词“学生”的义项中则具有这个义素,利
用这样的语义知识,可建立如下的语义规则, 如果歧义切分字段后继动词的义
项中含有动作发出者为“人”这个义素,则歧义字段的尾字单切,否则,该歧
义字段成词。
第 5 章 单词与词组的处理与分析
在自动切分时,根据歧义切分字段“学生会”的歧义类型编号,调用这条语
义规则,进行逻辑推理,就可以得到如下正确的切分,
学生 /会 /兴奋 /得 /手舞足蹈
例中歧义切分字段“了解”是由助词“了”和动词“解”的串联组合而产
生的,它们可以有两种切分结果,
他 /学会 /了 /解 /数学 /难题
他 /学会 /了解 /数学 /难题
这两种切分结果的词类和句法结构都是十分相似的,如果仅仅只根据词法
和句法知识,是难以得到正确的切分的,但是只要根据语义分析就可以知道,
在动词“解”的义项中,它要求宾语应该具有“数学公式”或者“扣子”这样
的义素,然而动词“了解”则对宾语则就没有这样的要求,由于作宾语的“数学
难题”符合动词“解”的义项这样的要求,因此机器可以判定前一种切分是正
确的,从而也就排除了第 2种切分。
第 5 章 单词与词组的处理与分析
我们最后来讨论任何使用语用信息, 所谓语用信息,就是必须结合上下
文不同的情况的信息才能确定语句含义。 歧义切分字段“乒乓球拍”仅只根
据词法、句法和语义知识,都不足以判断卖完的东西究竟是“乒乓球”还是
“乒乓球拍”,这时,就得根据语言交际的具体环境的语用方面的知识,才能
决定究竟什么才是正确的切分。
例中的歧义切分字段“美国会”,仅只根据词法、句法和语义知识,也不
足以判断采取措施提高工业竞争力的是“美国”还是“美国会”,这时,就得
根据语言交际的具体环境的语用方面的知识,才能作出正确的切分。
在上面的 例中的歧义切分字段“和尚”,如果仅只根据词法、句法和语义
知识,也不足以判断古代庙宇是“和尚”使用还是“尚”使用的,这也只好根
据语言交际的具体环境的语用方面的知识,才能作出正确的切分。
第 5 章 单词与词组的处理与分析
根据上面所述的歧义切分字段的性质,可以把它们分为 4种不同的类型,
(l)利用词法知识就能判断的歧义切分字段,叫做 "词法歧义字段 "。
(2)利用句法知识才能判断的歧义切分字段,叫做 "句法歧义字段 "。
(3)利用语义知识才能判断的歧义切分字段,叫做 "语义歧义字段 ".
(4)利用语用知识才能判断的歧义切分字段,叫做 "语用歧义字段 "。
在这其中,词法歧义字段与交集型歧义切分字段完全对应,其余三类
则与多义组合型歧义切分字段相对应。
第 5 章 单词与词组的处理与分析
5, 3 词语的排序,检索,词库
5, 3, 1 词语的排序,检索简叙
汉语的词语由汉字组成,词语的数量大,仅常用词条将达到 4万左右 。
要使自动翻译快速, 有效,必须对大量的词条使用好的排序和检索算法
进行处理,
按汉字笔画权值对词语进行排序是根据 <<辞海 >>笔画查字表中的汉
字排列来定义汉字的类,再给每一类汉字赋一个数值,这个数值就称为
该汉字的笔画权值 。 由于汉字笔画权值不超过 787个,采用映射式排序算
法是好的方法 。 而检索方法采用直接映射式字符检索算法 。
第 5 章 单词与词组的处理与分析
5, 3, 2 词库设计原则
(1) 略缩词词典
例如英语文句中经常出现的 a, m ; 当自动切分句子遇到带 ", "的词时,
通过查找略缩词词典时,找出相对应词组。
(2) 省略词词典
如英文的 it' s; they' ve等。 当自动切分句子遇到带 " ' "的词时,通过查
找省略词词典时,找出相对应词组。
(3) 特殊词典
如英语的介词,副词,连词等,用法非常灵活,在不同语言条件下,由
于其前后搭配成份不同,其中文译文和中文生成的词序都很不一样,极易产
生歧义,而且这类词的频率极高,对这些结构词进行特殊处理,对提高译文处
理质量是十分重要的。
(4) 专业词典
为使翻译能根据不同专业有更准确的译文,应建立专业词典 。
第 5 章 单词与词组的处理与分析
5, 4 词语的分类与兼类问题
5, 4,1 词语的分类
在目前情况下,自然语言信息处理的技术水平要求对每个词语给出它的
词类 (范畴 )乃至次范畴分类,语言学理论与信息处理技术之间有着明显的差
距。为满足机器翻译的实用需求,也为了更深入研究,机器词典将所收的词
语及符号划分为 26类,它们名称及代码如下, 名词 n,时间词 t,处所词 s,方
位词 f,数词 m,量词 q,区别词 b,代词 r,动词 v,形容词 a,状态词 z,副词 d,
介词 p,连词 c,助词 u,语气词 y,象声词 o,叹词 e,前缀 h,后缀 k,成语 i,简称略
语 j,习用语 l,语素 g,字 x,标点符号 w。当然,由于没有一个统一的标准,可
能这一种划分与其它文献中的划分可能有不同之处。这并不影响实际使用,
但是我们应用时要注意这个问题。
显然,仅仅规定出这些词类还远远不够,更重要的是要决定词典中的每
一个具体的词属于哪一类。这的确是一件颇费斟酌的事,特别是一些名词、
动词、形容词、状态词、区别词、副词的辨别可以说是相当困难的。
第 5 章 单词与词组的处理与分析
尽管词典中的词语数目是有限的,尽管有判别准则,尽管
研究者亲自确定词语的归类,但是仍有少数词一时仍难以决定下
来。 机器只有用语法方法对这些问题作必要的处理。当然,这
也为进一步研究准备了条件。
随着人们多年研究的深入,还可以考虑对某些词类进一步划
分子类。这个问题看上去更困难,主要是我们不容易把握按哪
一种标准进行子类划分更好、更为妥当。其中人们提出的一种
方法是按照名词与量词的关系将名词划分为可数名词,不可数名
词、集合名词、抽象名词及专有名词。这一种方法还比较科学。
沿着这个方向进一步研究,发现这些子类不在同一个层次上,且
有些名词不能受数量词修饰。现在的划分准则如下,111
第 5 章 单词与词组的处理与分析
凡是个体名词都应该有自己特有的个体量词,而且该量词前的数词可
以是, 一,,如, 一本书,,“一头牛,,“一位教授, ; 物质名词不可以用
个体量词计数,但是可以使用度量词或容器量词等来计量,如, 两碗水,,
“三公尺布,,“一身泥土, 等等 。 集合量词可以细划分为两个子类,一类
是可以分的,即可以进行个体化的,例如, 四十位师生,,“三个兄弟, 等
等,但是其个体量词的数词不能是, 一, 。 而 另一类是不可分的,即在它
们前面只能使用非个体量词之外的其它量词,例如, 两车军火,,“一队车
辆, 。 抽象名词前一般只可以使用, 种类量词, 与, 不定量词,,例如
,一些勇气,,“一种精神,,而且有一部分抽象名词作动词, 有, 的宾语
构成述宾词组后还可以受, 很, 一类副词修饰,例 如, 很有勇气,,“非常
有精神, 。 无量名词不能接在任何数词或数量词组之后 。 专有名词的特
点就是在于它的专有性,专有名词在用汉语拼音字母表示时或这被译成英
语时,其中首字母必须大写,我们认为将专有名词单分一个子类还是有意
义的 。 专有名词一般不受数量词修饰,但是在某些语境之中,它们也可以
接在数量词之后 。
第 5 章 单词与词组的处理与分析
综上所述, 名词与量词之间的搭配关系为划分名词子类
提供了相当明确的准则 。 但是, 有些语言现象人们处理起来仍
会感到棘手 。 首先我们来讨论个体量词,“个, 这个量词用得非
常广泛,可以这样说, 一个理论,,“两个学说,,非常显然,
在这里的, 个, 与, 一个苹果,,“两个梨,,, 五个同学, 中
的, 个, 很难区分 。 但是又不适宜据此我们就将, 理论,,“学
说, 也划分到个体名词中去,还是划分到抽象名这一类词较为合
适 。 又如不可分的集合名词,, 人口,,“大军,,不能接在数
量词之后,却可以说, 十亿人口,,“十万大军, 。
第 5 章 单词与词组的处理与分析
5, 4, 2 词语的属性描述
语法的属性描述将反映名词的特殊性质 。 分类法刻划事物
虽然简洁, 清晰, 信息密度大,但是属于同一类的事物仍然可能
各自具有不同的特点,例如,, 鱼, 和, 牛, 同属个体名词,但
是, 鱼, 却具有专用个体量词, 尾,,而牛具有专用个体量词
,头,,然而,“"鱼, 通常还可以与度量词, 斤,克, 搭配,“牛,
就不行 。 因此, 这就要依靠语法属性描述来刻划每一词语的语
法信息 。 对于名词,除了确定每个词的子类外,还应该详细描
述每个名词可以搭配的各类量词 。 此外, 我们注意和应用某些
个体名词的特殊性质也是非常必要的 。
第 5 章 单词与词组的处理与分析
属性描述可以对每一类词的语法属性进行相当充分的发掘 。
例如,对于作为研究重点的动词人们共确定了近 40项属性 。 这
些属性大致可归纳为 7类:第一类是关于动词本身特性的,例如
该动词是不是系动词, 助动词,趋向动词 。 第二类是关于动词
变化形态的 。 第三类描述该动词有无名词特性,例如能不能直
接修饰名词,能不能直接受名词修饰, 能不能后接趋向动词,能
带什么样的宾语 ----- 谓词,双宾等等 。 第四类反映该动词同一些
虚词的关系,例如它前面能不能受, 不,没, 很, 修饰,后面能
不能带, 着,了,过, 。 第五类描述动词在句子中的各种功能,
即该动词在句子中能否具有单独的属性 。 第六类刻划动词与后
继成分的关系,即该动词能否后接作动词, 有, 的宾语等等 。
第七类包含其它特性 。 当然, 这样确定的属性是不是科学, 完
整还值得研究 。
第 5 章 单词与词组的处理与分析
下面列出词典中量词库中的各个属性字段及其简单的解释。
个体量词, 个体量词填 "个 ",如,个,本。
集合量词, 集合量词填 "集 ",如 ;套,系列。
度 量 词, 度量词 (单位量词 )填 "度 " 如,尺,公斤,度,分,秒。
最近高位, 如尺的最近高位是丈,填 "丈 "。
最近低位, 如尺的最近低位是寸,填 "寸 ".。
容器量词, 容器量词填 "容 "如 ;瓶,杯。
种类量词, 种类量词填 "种 ",如 ;种,类。
成形量词, 成形量词填 "形 ",如 ;摊,堆。
不定量词, 不定量词填 "不 ",如,些,点儿。
任 一, 只能受数词 "一 "修饰的,填 "一 ",如, 系列。
后接名词, 择要填写该量词后可接的名词,例如,对 "艘 "可填 "轮船,军舰 "。
第 5 章 单词与词组的处理与分析
动 量 词, 动量词填 "动 ",如 ;次,下。
时 量 词, 时量词填 "时 ",,月,
表示顺序, 该量词前接数词可表示顺序的填 "序 ",如,月,年。
表示数量, 该量词前接数词可表示数量的填 "数 ",如,斤,天,年。
5, 4, 3 词语的兼类
兼类系指同一个词具有不同的词类语法功能,即这个词兼属不同的词类,
(l) 兼类词只占词汇的很小一部分。
(2) 常用词兼类现象严重。往往越是常用的词,不同的用法就越多,兼类现象也
就越多。所以,尽管兼类现象只占了词汇的很小一部分,但兼类词使用的频繁程
度并不很低。
(3) 兼类现象纷繁,覆盖面很广,涉及了大部分词类。
(4) 兼类现象的分布很不一致。
第 5 章 单词与词组的处理与分析
上面情况说明,不同的词类在兼类问题中的地位不是等同
的 。 有些词类,兼类现象很严重,解决其兼类问题比较困难,而
这些困难的兼类问题,恰恰是兼类现象中最基本的问题,可以把
这些词类叫做, 基本兼类词类, 。 它们是, 名词, 方位词, 代词,
动词, 能愿动词, 形容词, 副词, 介词, 连词等 9类词 。 另一些
词类, 或者其兼类问题的解决比较容易,或者其兼类现象极少,
例如时间词中,仅仅, 过去, 一词兼属, 时间 (词 )一趋向 (动词 )一
动 (词 )”3类,我们可以把这些词类,叫做 "非基本兼类词类 "。 它
们是,时间词, 数词, 量词, 区别词, 趋向动词, 助词等 6类词 。
显然, 对于兼类问题的研究也是很重要的, 而且有较大的用途 。
第 5 章 单词与词组的处理与分析
兼类词所包含兼类词类的个数各有不同,有的兼类词可能
只含两个兼类词类, 有的兼类词可能就含有三个兼类词类 。 某一
类兼类现象所包含兼类词类的个数叫做兼类长度 。 兼类长度等于
2,而且所含兼类词类均属基本兼类词类的兼类类型,叫做, '兼
类基本型, 。 如果我们解决了兼类基本型的兼类问题,实际上就
等于解决了大部分的兼类问题 。 而且其它的兼类问题,也可以设
法将它们转化为兼类基本型,这样,我们就可以抓住兼类现象中的
核心问题,通过少量的规则来处理尽可能多的兼类现象 。 否则,
需要的规则就多得多 。
第 5 章 单词与词组的处理与分析
兼类基本型有以下几种,
(l) "动一名 " 兼类
这种兼类基本型我们最为常见。兼类词多由动词转化而来。例如“报告,编
辑,装备,爱好,刺激,工作,”等等。
(2) "动一形 "兼类
这种兼类基本型我们也是常见的。兼类词主要由形容词转化而来,形容词后若
带宾语,则认为其兼有动词的类。例如,"多,苦,严肃,繁荣,普及,巩固 "等。
(3) "名一形 "兼类
这种兼类基本型我们还是比较常见的。兼类词多由形容词转化而来,例如 "秘
密,规矩,痛苦,困难,烦恼,科学 "等。
下面几种兼类基本型也是比较常见的。
(4) "形一副 "兼类,
有的形容词在修饰谓词性成分时,意义有所改变,句法功能与副词相同,形成 "
形一副 "兼类。例如,"直、怪、老、全、白、光、快、偏、死、真、干 "等。
试比较, 路很直 ("直 "为形容词 ).
他直哭 ("直 "为副词 ).
第 5 章 单词与词组的处理与分析
(5) "动一介 "兼类
很多介词是由动词发展而成的,因此,介词常常与动词兼类。例如 "在、朝、向、
往、顺、对、为、跟、随着 "等,
试比较 ; 我在家 ("在 "为动词 ).
我在办公室开会 (''在 "为介词 )
(6) "介一副 "兼类
这种兼类基本型数目有限。例如,"连、就、至、从 "等。
试比较,他从日本来 ("从 "为介词 ).
他从不抽烟 ("从 "为副词 ).
(7) "名一副 "兼类
这种兼类词不多见。例如,"极端 "。
试比较, 你不要走另一个极端 ("极端 "为名词 )
.他对顾客极端热忱 ("极端 "为副词 )
第 5 章 单词与词组的处理与分析
(8) "动一副 "兼类,
这种兼类基本型数目有限。例如,"断、还、越、比较 "等。
试比较 ; 老人断了气 (“断”为动词 ); 断无此事 ("断 "为副词 ).
(9) "代一副 "兼类
在代词中,有些我们常见的指别词,亦可修饰谓词性成分。例如“每、各、本、
另、另外”等等,属于此类。
试比较, 本编辑部概不负责 ("本 "为代词 ).
我本姓冯 ("本 "为副词 ).
(10) "能愿 (动词 )一动 "兼类
有的能愿动词可以带体词性宾语。例如 "要、会、得、想、该、配 "等,属于此类。
("'要 "为能愿动词 )
他要这本书 ("要 "为动词 ).
第 5 章 单词与词组的处理与分析
(ll) "介一连 "兼类
这一类兼类仅有 "跟、和、同、与 "几个词,它们使用频率很高,区别起来相当
困难。
试比较,我和小张都会德语 ("和 "为连词 ).
我和小张说了这件事 ("'和 "为介词 ).
(12) "副一连 "兼类
这一类兼类有 "不过、或、或者、并、尽管、只是 "等,区别起来比较困难。
试比较 ; 这个建议对他们或有好处 ("或 "为副词 ),
你或他都可以出国 ("或 "为连词 ).
(13) "方位 (词 )一动 "兼类
这一类兼类只包含 "上,下 "两句词,但由于 "在 …… 上 ","在 …… 下 "这一类
搭配很常见,有时可能产生混乱,所以将其列为兼类基本型。
第 5 章 单词与词组的处理与分析
试比较,我上学 ("上 "为动词 ).
我在昆明上学 ("上 "为动词 ).
我在床上 ("上 "为方位词 ).
我在床上看书 ("上 "为方位词 ).
非基本兼类词类的兼类问题我们比较容易解决,因为它们的前一个或者
后一个句法单元 (通常是一个单词 )有十分强的黏附性,可以根据这些句法单
元来区别兼类现象。例如,“本”兼属代词、副词、量词 3类,我们只要看它
的直接前趋词是否为数词,就可以判断它是否为量词。又如,“微”兼属区
别词、副词两类,如果它的直接后继词为名词,就马上可以判断它为区别词。
因此,在处理兼类问题时,我们可以根据先易后难的原则,它 先解决这一部
分的问题,就可以大大简化处理的过程。这种方法,我们把叫做 "兼类词过滤
"。
一词多类,形成了词的兼类现象,词类标注,要解决词的兼类问题。
一词多义,形成了词的多义现象,语义标注,主要是解决词的多义问题,
第 5 章 单词与词组的处理与分析
5, 5 词语处理的其它问题
5,5, 1 生词处理
在机器翻译过程中,肯定免不了输入的原文中有机器词典不
存在的生词,这就要求机器翻译系统有较好的生词处理功能,当
然这必须有好的方法, 好的程序能够对该词进行自动处理,包括
生成句法分折需要的各种信息 。
目前的系统对查找不到的词都按照名词处理,语法, 语义信
息与普通的名词同,中文译文为英文原文 。 生词处理进一步完善
方法是,处理过程由构词分析,句法, 语义信息假定,用户确肯定
定,词典添加等几个子过程构成 。
第 5 章 单词与词组的处理与分析
构词分析应该按照构词法分析各种不同的构词形式,建立
基本的词根, 词缀字典,归纳出适合于机器分析的基本构词规
则 。 由规则驱动构词分析,经过构词分析就可以推导出可能的
基本的语法语义信息和译文译义 。 词处理模块可以据此生成词
表,用于句法分析,处理结束后,机器可以按照用户的要求修
改, 确认系统对生词的处理结果,并决定是否可以将该词条增
加到主词典中 。 另外,在生词处理中, 还应该包括建立生词词
典,对主词典中不存在的词条进行登记,然后成批增加到主词
典中,以提高效率 。 当然, 为了尽可能减少机器翻译中出现的生
词, 我们还应该有一些特殊词类的处理方法, 这是下一节所要
介绍的 。
第 5 章 单词与词组的处理与分析
5, 5, 2 中国人名的处理
实际上,汉语自动分词有两个基本困难,一个是歧义切分问题,
另一个就是生词的处理问题。汉语词汇变化太多,无论建立多么庞
大的词典,都不可能穷举所有的词语。而且,随着时间的推移,还
会源源不断地出现大量的新词。对于应该收入机器词典而没有被收
入进去的词,实际上这是指一些被遗漏的词,或者是一些未被收入
的新词等等,这基本上是不可避免的,应纳入生词处理的范围。这
里主要讨论中国人名的处理。
给人初步的感觉,中国人名太多太多,处理可能也非常难。的
确,中文的名字选取随心所欲,没有任何可以遵循的规则,完全根
据个人的喜好,可以使用任何汉字或者汉字串作为名字。由此可见,
除了少数著名人物以外,要把所有的中文名字都收入某一词典模块
基本上是不可能的,这只能让机器翻译系统具有这方面处理的功能。
第 5 章 单词与词组的处理与分析
中文姓名的处理的确是一个非常复杂的问题, 不仅仅数量
太多, 而且随时间的变化而不断变化 。 中文姓名的结构也复杂,
表现形式多样, 姓名用字不仅可以自身成词, 而且也可以与相邻
的字构成词 。 例如, 马,, 可以当作名词来指一种家畜, 也可以
作姓 。 所有的这些问题都增加了姓名的处理难度, 也成为一个研
究难题 。
目前大多数姓名处理的方法都是利用姓名的分布规则, 姓
名的用字规律, 姓氏用字, 名字用字的出现频率和概率估值, 以
及姓名的前后约束用词等等信息综合进行推断, 也提出了一种基
于变换的方法 ( 还不十分成熟 ) 。
第 5 章 单词与词组的处理与分析
下面, 我们介绍基于语料库和规则库的中文人名处理方法:
( 1) 建立中文人名语料库, 对人名语料库进行统计, 列出可以用作双名
的字极其在双名中的位置, 列出单名用字;
( 2) 采用最大匹配法进行自动分词;
( 3) 如果句子中出现在词典中标为姓氏的词, 则可以找出其待定的中文
人名, 检测条件为:姓氏字或词 ( 复姓 ) 后跟一个可以用作双名的词, 或者
后跟一个双名首字, 再跟一个双名末字;或者后跟一个单名字;
( 4) 利用可以依的规则对待定的中文人名进行调整, 这里的规则其实就
是一些用于人名处理的启发信息, 包括:
称谓词, 如, 女士, 先生, 老师, ;
地名和单位, 人名前用单位名称和地名表示所在地和单位;
人名前加, 的, 的定语, 如, 年过四十的李力, ;
第 5 章 单词与词组的处理与分析
(5)分词规范里对于“小李”、“老王”、“刘总”、“张
大爷”、“何大妈”、“钟哥”、“林姐”等等简称和尊称都划为
分词单位,这些表示的人名分词单位可以采用如下一些简单的规则
进行处理和分析:
设 X为当前词,F为当前词的前一个词,B为当前词的后一个
词,SN为姓氏集,则可以有这样的处理规则:
设 K1={小、老、大 },若 X∈ SN,并且 F∈ K1
则 FX是姓名
设 K2={总、工、头,…},若 X∈ SN,并且 B∈ K2
则 XB是姓名。
第 5 章 单词与词组的处理与分析
5, 5, 3 中国地名的处理
机器翻译中如果存在没有被检索到的中国地名,将会出现严重的分词错误。
例如以下句子:
这是篷莱县小门家乡政府所在地。
如果没有地名专门处理,容易被切分成:
这 /是 /篷 /莱 /县 /小 /门 /家乡 /政府 /所在地。
地名不像人名那样又多又复杂,无法枚举,目前有的机器翻译系统的汉语
自动分词是通过机器词典中穷举地名来实现这一处理的。这对于面向真实文
本的自动分词是不可取的。因为地名,或者都市洲府,或者市井乡村,或者
名川大泽,或者穷乡僻壤,理论上虽然可以穷举,但是实际上是不可能穷举
完全的。而且即使可以穷举完全,地名的数量必然极其庞大,如果都收入分
词自字典中,一方面它会使分词词典的规模急剧增加,增加系统的开销,降
低了机器翻译的效率;另一方面也会增加各种歧义现象出现的概率,对切分
精度也有影响。
第 5 章 单词与词组的处理与分析
例如“于山”如果是一个地名,那么加入词典中,则对“由于山区”
的切分变成链长为 2 的交集歧义问题。因此,有必要研究中国地名特点、
用字规律、用词规律、构词规律和地名的上下文规律,实现真实文本中中
国地名的自动处理。
中国地名的特点,有一些对处理构成一定的难度。例如,中国地名的长
度没有一定的限制,从一个到多个不等,像“京、津”这样的简称,长度
为 1;而“北京”长度为 2,“内蒙古”长度为 3 等等。另外,汉语的常用
字经常出现在地名之中,例如“大直街”、“马家沟”中的汉字都是常用
字。此外,地名中含有的多字词也不利于地名的处理,例如“黄果树瀑布”
中的“果树”本身就是一个词,这肯定增加了难度。
但是,中国地名的处理过程中也有可以利用的信息,例如一些后缀有利于
地名的处理,像“乡、村、市、县”等。
第 5 章 单词与词组的处理与分析
对于地名的处理,虽然已经有不少的方法,但是一般可以采用统计
与规则相结合的方法,现在举例说明如下:
( 1)先建立一个包括省、自治区、直辖市、市、县、区、镇、乡、村,
以及山脉、河流、湖泊、峡谷、岛屿等等的中国地名库,收集尽可能多
的地名。越多、越详细越好,这将为以后的高质量机器翻译打下好的基
础。
( 2)可以先统计出地名库中地名用字以及地名的首、中、尾用字规律
及频率,然后再建立地名用字库,最后统计出地名用字库中各个字用做
地名的首字、地名的中间字、地名的尾字的概率。这里面主要采用统计
的方法。
( 3) 采用某一分词方法进行分词。
( 4)对于那些单字词,如果它确实属于地名用字库,则可以激活地名
处理过程。先去寻找占据中文地名首字的词或者字,然后再寻找中间的
和末尾的字或者词。 利用字频和中文地名用字的统计规律确定中文地
名的边界。
第 5 章 单词与词组的处理与分析
( 5)在地名初步处理结束以后,可以进一步调整其正确率。比如对于
连续的地名“黑龙江省哈尔滨市”,应该将它们分开。对于连续地名的分开可以
采用如下的两种方法:
[1] 我们可以使用规则进行处理。中文名的末尾字“省、市、县、乡、村”等等
都有很强的显性特征可以方便地用于地名的右边界,所以我们可以以它们为关
键字,然后采用规则的方法加以处理。当然,还有其他的规律可以采用规则表
示出来,并且也可以用于地名处理的过程之中。这一类方法采用得非常之多。
[2] 我们可以利用概论的和方法。对于初步处理的连续地名 P=C1 C2 ……Cn,可以通过以下公式计算
其权值:
权值 F( C1 C2 ……Cn ) = 地名首字( C1)的概率 +中间各字作为地名中间字概率的和 + 地名尾字
( Cn)的概率
对于任意的 i,i∈ ( 1~ n),
如果 F( C1 C2 ……Ci ) + F( Ci+1 Ci+2 …… Cn ) > F(C1 C2 …… Cn)
第 5 章 单词与词组的处理与分析
则 i为连续地名串 C1 C2 …… Cn 的分割点。
5, 5, 4 外国译名的处理
在汉语分词的过程中,如果文本中存在不能被检索的外国
译名,则要么造成句子被割裂,要么就会出现错误。
见下面的例子:
埃及 /总理 /穆 /巴 /拉 /克 /访问 /叙利亚。
国际 /田联 /取 /消费 /尔 /南 /多 /参赛 /的 /资格。
由此可见,外国译名的处理也是自动分词中不可缺少的一
部分。
第 5 章 单词与词组的处理与分析
我们对于外国译名的处理类似于中国地名的处理,但是要注意外国译名
的处理也有它自己的特点。首先,外国译名的用字就比中国地名用字
比较有规律,而且用字比中文地名少;其次,译文中含有多字词,如
“威廉明娜”等。
人们对于外国译名的处理,大多数都采取统计的方法,但是在处理
过程中也可以利用上下文的信息。
以下是外国译名处理的一种方法:
首先建立外国译名库,然后对库中的外国译名进行统计,得到外国
译名用字表以及各个外国译名用字用于首、中、尾的概率,然后采取
某种分词方法进行分词,在这一分词过程中激活外国译名的处理次序
进行处理。
对于连续的汉字串,先进行译名粗界定,即对于一个连续汉字串,
如果它的每个字都属于外国译名用字,机器程序则可以认为该串汉字
为外国译名。然后,再采用上下文进行处理,使之得到翻译较为满意
的结果。
第 5 章 单词与词组的处理与分析
例如,有这样的句子:
英国首相撒切尔夫人来访。
借助于称谓机器程序很容易处理为“撒切尔”为外国译名,这里就
要求有一张称谓表或者词典中有关于称谓的标志。
又如,有这样的句子:
约翰 ·史密斯将来中国。
对于这样连续的汉字串,如果在其之间有一个,·”,机器程序则可
以毫无疑义的将它处理成一个外国译名。
当然,还有一些上下文信息是可以用于外国译名的处理的,例如
外国译名前后采用的动词等等。这里不再多述。
第 5 章 单词与词组的处理与分析
对于上下文不明确的连续汉字串的外国译名的处理,我们可
以利用将单字词词频和译名用字表中的频率进行合理的评
级,然后再对级别进行比较,分析出译名的用字。我们也可
以采用不统计译名用字用于首、中、尾的频率方式,而是直
接给出四张统计表:
( 1)只出现在译名开头的字表;
( 2)不能出现在译名开头的字表;
( 3)只出现在译名结尾的字表;
( 4)不能出现在译名结尾的字表。
最后,在译名被粗界定的基础上,对其候选译名采用首尾逼
进法,分析得出首尾边界,即可以得到外国译名。
第 5 章 单词与词组的处理与分析
5, 5, 5 控制符
控制符是指控制词处理流程的标记符号。机器在进行词处
理的过程中,肯定会有许多词需作特珠处理,例如变形词
需要还原,有些单词可构成静态词组或动态词组的首词要
专门标出,有的词是结构词要转入特珠词库进行歧义处理,
有的词是习语,可作直进直出处理,有些词必须先进行词
组匹配,然后再作变形词恢复。
第 5 章 单词与词组的处理与分析
5, 5, 6 黏着型语言和屈折型语言的词处理
传统语言学根据词的形态结构把语言分为三大类,
(1) 分析型语言, 其特点是词基本上没有专门表示语法意义的附加
成分,形态变化很少,语法关系靠词序和虚词来表示。 如汉语,藏语
等。
(2),黏着型语言 ; 它的特点是在词内有专门表示语法意义的附加成分,
一个附加成分表达一种语法意义,一种语法意义也基本上由一个附加
成分来表达,词根或词干跟附加成分的结合不紧密。如芬兰语、日
语等。
(3),屈折型语言,其特点是用词的形态变化表示语法关系,一个形态成
分可以表示若干种不同的语法意义,词根或词干跟附加成分结合得很
紧密,往往不易截然分开。
第 5 章 单词与词组的处理与分析
分析型语言的形态变化很少。例如,在书面汉语中,勉强称得上屈折词
尾的只有一个 "们 "字,它可以加在有生命的指人名词的后面表示复数,
如 "学生们、老师们、先生们、女士们 ",但是,这些词不加 "们 "也有
复数的含义,如 "这些学生、这些老师、那些先生、那些女士 "。因此,
书面汉语在形态变化方面的问题不是很多。
对于黏着型语言,由于其附加成分很多,形态分析就显得十分重要。
对于屈析型语言,由于它们用屈析词尾表示语法的意义,词可以由词
根,词缀和词尾构成,词根和词缀可以组成词干,词根也可以单独组
成词干,所以,这些性质必须加以考虑并处理,这在汉语处理中,也
是非常重要的一环。
第 5 章 单词与词组的处理与分析
5, 5, 7 英语形态还原
英语具有丰富的词形变化,如动词的现在进行时、过去时、
过去完成时,名词的复数形式,形容词和副词的比较级、
最高级等。如果把这些词形变化放在词典中,就会使词典
规模过大。为此,采用专用模块处理:
( 1)以,ed”结尾的动词过去时,去,ed”,还原成原形。
( 2)以,ing”结尾的动词现在分词,消尾还原。
( 3)以,ly”结尾的词,适当消尾还原。
( 4)分别以,er/est”结尾的词,消尾后还原。
( 5)分别以,s/ses/xes/ches/shes/oes/ies/ves”结尾的词,适
当消尾后还原。
第 5 章 单词与词组的处理与分析
5, 5, 8 用有限状态转移网络处理分析
5, 5, 8 用有限状态转移网络处理分析
单词与词组的处理与分析 (主要是识别词类 )可采用有
限状态转移网络来进行。,
一个有限状态转移网络可由 Q,V,T三部分组成,
FATN=(Q,V,T)
其中,Q表示状态的有限集合
Q={q0,q1,…,qn}
q0,q1,…,qn 表示不同的状态 ;
V表示语言符号的有限集合
V={a1,a2,…,am)
a1,a2,…,am 表示不同的语素或标点符号 ;
第 5 章 单词与词组的处理与分析
T表示转移函数,它要反映出当有限状态网络在 Q中的某一状态 qi扫描到 V 中的某个特定的
词 ai时,这个有限状态转移网络将转移到 Q中的什么状态, Q中的状态有两个是比较特殊的,
一个是初始状态,一个是终极状态,记为 qf,显然,q0 Q,qf Q。
例如,这样定义一个有限状态转移网络,
FSTN=(Q,V,T)
Q={q0,q1,q2,qf}
其中,q0是初始状态,qf是终极状态,
Q={感,谢,!}
其中,"感 ","谢 " 是两个不同的语素,"!"
T{谢,q1}={q2}
T{感,q2}={q1}
T{!,q2}={qf}
第 5 章 单词与词组的处理与分析
这个有限状态转移网络表示如下,
感 谢 !
q0—→q1—→q2 —→qf

└──┘

这样的有限状态网络可以生成 "感谢 !","感谢感谢 !".....,这样的语句
符号串。
有限状态转移网络除了进行符号串生成以外,还可以进行符号串的
识别,这就可以用于单词和词组的处理。
这一原理是, 对于单词或词组组成的符号串,从初始状态开始,逐
步匹配语素,直至进入终极状态,那么这个单词或词组就被识别了。
第 5 章 单词与词组的处理与分析
5, 6, 1 概述
一词多义的现象在自然语言中是普遍存在的。例如,汉语中的词
“打”就有十几中意思;而英语中的,ba nk”可能表示银行,也可能
表示“河堤”。根据有关人士统计,物理学方面的文本的多义词约占
文本的 30%;其余科学文本的多义词约为 43%之多。显然,多义词我
们在翻译中肯定会遇到。这样的多义词现象虽然对人们之间的语言交
流并没有造成很多影响。可是对机器翻译系统来说,要确定词义却是
非常困难的。
词义消歧就是要在特定的上下文中确定多义词的意思,词义消歧
工作大量集中在同一词不同词义的区分。现在比较通用的处理方法是
利用机器中的同义词词典中的定义或者分类作为词义的划分,但需要
注意两点:
第 5 章 单词与词组的处理与分析
( 1)对同一个词,不同的词典的词义分类往往不一致,定义也不相同,
研究人员只能以某一部词典为准。
( 2)对于不同的应用,词义的含义不相同。例如机器翻译侧重于用目
标词的不同来区分词义,信息检索中强调词表达的概念及与其它词的
近似度。
一般情况下,词义可以定义为:在一定的语言环境中所阐明的内容。
词义消歧是指在一定的上下文中确定多义词的词义。
多义词表现在机器翻译中就是一个源语言的词汇对应着目标语言的
多个译文,不同的译文实际上代表着该词在源语言中不同的词义。所
以,词义消歧在机器翻译中的应用就是译文选择,即在一定的上下文
中选择源语言一个词的一个确定的目标语译文。
第 5 章 单词与词组的处理与分析
5, 6, 2 多义词类型
5, 6, 2 多义词类型
一般情况下,词的多义现象可以分为三种类型:
( 1)意义相关的多义,这指一个词的多个意义彼此在意义上有一定的联系
或者近似。例如,open”的两个意义“开着的”与“公开的”。
( 2)意义无关的多义,这指一个词的多个意义彼此在意义上没有相关性。
例如,bank”的两个意义“银行”、“河堤”。
( 3)词性不同的多义,这指一个词在不同词性下不同意义。如“打”的意
义,hit,和,dozen”,前者为动词,后者为量词。
从上面分类中可以看出,利用机器翻译系统确定多义词是很困难的。因此,
我们研究词义消歧的重要意义就非常大。在那三种类型的多义词中,第三种
多义词实际上是词性兼类,因为目前的词性标注的正确率已经很高,所以容
易消除;第二种多义词的区分也比较容易,这方面的研究也是比较成熟的,
由于两种意义区别比较明显,而且其使用的场合又完全不相同,所以人们无
论是使用统计方法还是采取搭配信息的方式都是比较容易确定词义的;唯有
第一种类型的多义词很难确定它的词义,有时即使人也很难进行区分。
第 5 章 单词与词组的处理与分析
为什么人很容易理解自然语言中多义词的词义,甚至可能没有觉察
出多义词的存在?如果说人对多义词的处理也是首先想到所有多义词
的情况,然后从中选择的话,那么机器翻译系统模拟人进行词义消歧
就应该比较容易。但事实并非如此,人所使用的知识可能包括:词法、
语法、语义、语用甚至直觉。机器翻译系统处理词义,也需要多层次
的知识:词法、语法、语义、语用。直觉对计算机(机器翻译系统)
就一无所知了。这其中,词法和语法的知识利用比较实际,因而已经
被广泛应用,而语义和语用的知识比较难于获得,所以这些知识的应
用也就较少。
从这些知识的来源看,一般可以分为三种:即来源于语言学家、来
源于词典、来源于语料库,当然也可能是它们的结合。
第 5 章 单词与词组的处理与分析
5, 6, 3 消歧方法
由于多义词现象普遍存在,因此任何有关自然语言的研究
都离不开词义消歧。这样,词义消歧就被列为自动语言分
析中最为急迫的问题之一。
但是,词义消歧的任务很难,被描述为,AI完全问题”,
即只有解决了 AI领域的所有难题,这一问题也才能解决。
词义消歧方法分为三类:基于 AI的方法;基于知识的方
法,基于语料库的方法。按照词义消歧的智能程度,又可
以分为有指导的方法和无指导的方法。
第 5 章 单词与词组的处理与分析
5, 6, 3, 1 基于 AI的方法
符号主义方法
传统的人工智能是符号主义的,它以物理符号系统假设为基础。物
理符号系统假设认为物理符号系统是智能行为充分和必要的条件。
物理符号系统由一组符号实体组成,它们都是物理模式,可以在符
号结构的实体中作为组分出现。这种系统一般都可以建立、修改、复
制和删除等等操作,也可以生成其他符号结构。
连接主义方法
连接主义方法研究非程序的、适宜性的、人脑风格的信息处理的本质
和能力,也称为神经计算,尤其近年发展迅速。
第 5 章 单词与词组的处理与分析
5, 6, 3, 2 基于知识的方法
随着大规模词法资源的开发,例如词典、同义词词典和语料库的采用,人们开始从资
源中自动获得知识,词义消歧的研究出现了新的转机。
基于机读词典的方法
机读词典是自然语言处理的常用资源,机读词典是由词典编撰者精心编撰而成的,
是进行词义消歧比较有用的方法。从机读词典中可以获得大量的有用的词义消歧
的知识,但它们用自然语言描述,必须改进后使用。
基本方法如下:
( 1) 指定歧义词的上下文窗口大小,即歧义词的左右多大距离(以词个数计)
之内的词为用于消歧的上下文特征;
( 2)机器检索有关词典中关于歧义词的不同词义的定义,以及其上下文中其他
词的词义定义,并作详细分析;
第 5 章 单词与词组的处理与分析
( 3)选择一种度量两个词义定义覆盖大小的打分机制,例如计算两个词
(歧义词和上下文中的某个特征词)在词典定义语句中相同词的个数;
( 4)选择歧义词的词义,使得该词义定义与上下文的覆盖最大。
遗憾的是,这种方法的正确率大约为 50%~70%,主要原因是:
( 1)传统的基于词典的方法没有充分利用词典中的短语、示例等等非 常有
用的信息,这值得深入再研究;
( 2)机读词典中词义定义语句一般比较短,以至于程序难以计算两种定义
的覆盖,所以在许多情况下,无论歧义的那一种词义的定义都与上下文
单词的定义覆盖均为零,这是一个不好解决的问题,需要多方面考虑;
( 3)在实际应用中,不可避免的组合爆炸也极大地限制了该方法。
第 5 章 单词与词组的处理与分析
基于类义词典的方法
11
如果说基于机读词典的方法表示的词义是平面的结构,而类
义词典或者称为同义词词典将表示同一意义的词和短语分类
并组成层次结构,它提供了单词之间的关系,即同义词关
系。同义词词典可以转换为机读形式,在机器翻译、信息修
复、内容分析等等领域均有应用,这也是一个值得注意的方
法,应该加以研究。
类义词词典在计算语句相似度,特别是在基于实例的机器
翻译中是不可缺少的知识库,在统计方法中也是有用的。
第 5 章 单词与词组的处理与分析
基于规则的方法
对于存放规则的知识库是由专家构造的,知识库依靠的是专家对语言的
知识。利用专家描述的语言学的限制,然后选择满足规则限制条件的词
义。一般来说,对歧义词修饰的成分或修饰歧义词的成分加以限制。例
如,一般情况下,对谓语动词消歧,规则要对动词作不同词义时的主格
和宾格的语义类加以限制。
由于规则在机器翻译系统的开发初期发挥了较大的作用,这方面专家能
够很快地使系统具有大量的基础知识,因此,这一方法一直被广泛地应
用。特别是在基于转换的机器翻译系统中具有操作上的一致性的优点。
如果我们 采用这一方法,可以采取分析生成一体化的策略,在分析规则
的右部就含有选择词义消歧操作,一旦这一条规则被调用,其规则右部
的词义消歧操作会被自动执行。也就是说,该词义消歧过程渗透在分析
和生成之中。在没有词义消歧的规则的特殊情况下,程序会进行判断,
选择机器词典中的第一个词义。
第 5 章 单词与词组的处理与分析
如果应用选择限制的方式进行词义消歧。词典中的名词
可以根据语义特征进行标注;对动词标记它的主语、宾
语以及其他修饰语的语义特征;对形容词和介词,标记
被它们修饰或者跟随其后的名词(名词短语)的语义特
征。对任何一个多义词的每个意义,词典提供唯一的入
口,它们具有不同的语义特征或者不同的选择限制。在
特定的 上下文中,可能有多个多义词,往往只有一种意
义的组合不违反词典中语义特征和选择选择的规定,系
统就选择这组词义。这种基于限制与优选的策略在自然
语言处理的其他领域也得到比较好的应用。
第 5 章 单词与词组的处理与分析
5, 6, 3, 3 基于语料库的方法
语料提供了实例库的语言数学模型。基于语料库方法的出现开辟
了机器翻译研究的新纪元,几乎已经渗透到机器翻译研究的各个
分支,给机器翻译的研究注入了新的生机和活力。语料库的方法
在词义消歧中也得到了广泛的应用,近年来,已经逐步成为占主
导地位的方法。可以说,词义消歧的研究已经离不开语料库的支
持。
基于语料库的词义消歧方法是以语料库作为知识源,是目前研究
最多的方法。方法的核心是通过语料库自动或者半自动学习决定
单词不同意义的上下文。可以使用未标记的目标单语语料库,或
者使用未标记的源语言单语语料库,或者使用对齐的双语语料
库。这种方法的正确率达到 75%~85%,比基于规则的方法和基
于词典的方法有明显提高。
第 5 章 单词与词组的处理与分析
基于统计的方法
基于统计的方法
基于语料库的方法,可以分为基于统计的方法和基于实例的方法
两种。基于统计的方法主要目的在于从语料库(标注或者未标注
的)统计支持歧义词作不同词义的上下文证据,这些证据可以用
来对新的输入句子中的歧义词消歧。基于统计的方法经常统计词
与词、词义与词义的搭配,然后利用搭配来消除歧义。
基于统计的方法根据使用的语料库性质的不同,可以分为:
( 1)基于目标语言的统计方法;
( 2)基于源语言单的统计方法;
( 3)基于双语的统计方法。
从标注的角度看,语料库中的歧义词可以预先标注词义,也可以
没有标注。因此,这一方法又可以分为有指导的方法和无指导的
方法。
第 5 章 单词与词组的处理与分析
基于实例的方法
基于实例的方法综合利用了多种知识实现词义消歧,这些知识包
括:上下文中词的词义,歧义词的词法等等。
在进行词义消歧时,采用基于实例的学习方法,先从训练语料库
中学习知识。训练语料库由句子组成,句中的词已经标注上正确
的词义。
程序为每个歧义词 W建立一个分类器。它的操作分成两个阶段:
训练阶段和测试阶段。
在基于实例方法的训练阶段,程序接受一个句子集,每个句子都
含有已经标注词义的待消歧词 W。对每个这样的训练句子,程序
取出 W周边词的词性,W的形态、同现词。为了对名词词义消
歧,作为该名词的谓语的动词也被抽出。这些特征值组成的序列
构成一个 W的实例。就这样,每个训练句子都提供了一个训练实
例。
第 5 章 单词与词组的处理与分析
在测试阶段,对训练集中没有出现过的包含 W的新句子,程序
从中抽取出同样的上述特征值序列以构成 W的测试实例。将 W
的测试实例与所有 W的训练实例比较。 W的词义就是与测试
实例最匹配的训练实例所对应的那个词义。
基于实例的学习核心是两个例子间相似度或者称距离的度量。
如果两个例子间的距离非常小,它们就相似。程序将计算任意
两个特征不同的值 V1,V2之间的距离。两个实例距离是这两个
实例中特征值距离的总和。如果存在几个训练实例和输入句的
距离相同,程序从中随机任选一个训练实例作为最佳匹配的实
例。 返回