第 3章 多媒体音频信息处理声音是多媒体信息的一个重要组成部分,
也是表达思想和情感的一种必不可少的媒体。无论其应用目的是什么,声音的合理使用可以使多媒体应用系统变得更加丰富多彩。在多媒体系统中,音频可被用作输入或输出。输入可以是自然语言或语音命令,输出可以是语音或音乐,这些都会涉及到音频处理技术。
3.1 音频信号及其概念
3.1.1 声音处理技术历史回顾
1.乐器、传声装置设计
2.19世纪爱迪生发明了留声机
3.电唱机、磁带录音机
4.声卡和音箱
5.可视电话、电视会议
3.1.2 音频信号的形式在日常生活中,音频 (Audio)信号可分为两类:
语音信号非语音信号。
在物理上,声音可用一条连续的曲线来表示。
这条连续的曲线无论多复杂,都可分解成一系列正弦波的线性叠加。规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波。
因声波是在时间和幅度上都连续变化的量,我们称之为模拟量。
用声音录制软件记录的英文单词,Hello” 的语音实际波形
3.1.3 模拟音频信号的物理特征模拟音频信号有两个重要参数:
频率幅度与频率相关的另一个参数是信号的周期。
它是指信号在两个峰点或谷底之间的相对时间。周期和频率之间的关系是互为倒数。
信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。
幅度越大,声音越强。对音频信号,声音的强度用分贝 (dB)表示,分贝的幅度就是音量。
幅度限周期基线
3.1.4 声音的 A/D与 D/A转换
A/D转换的一个关键步骤,
声音的采样和量化,得到数字音频信号,它在时间上是不连续的离散信号。
音频的数字化其实就是三步:
采样,量化,编码。
采样是把时间上连续的模拟信号转化成时间上断续的数字信号,即时间上将连续的模拟信号离散化。
借助于 A/D或 D/A转换器,模拟信号和数字信号可以互相转换
8 位可编程 A/D 转换芯片
3.1.5 与声音有关的几个术语
1.音高(音调)
2.音色语音是特殊的复合音。语音由元音和辅音所构成。元音是一种能连续发出的乐音,
辅音主要是不能连续发出的短促的噪音,
元音与辅音合成汉语音节。
3.响度 (音强 )
3.1.6 声音质量的评价目前来看,声音质量的度量有两种基本方法,
一种是客观质量度量另一种是主观质量的度量。
声音客观质量的度量方法声波的测量与分析传统的方法是先用机电换能器把声波转换为相应的电信号,然后用电子仪表放大到一定的电压级进行测量与分析。由于计算技术的发展,使许多计算和测量工作都使用了计算机或程序实现。这些带计算机处理系统的高级声学测量仪器,能完成下列一些测量工作:
评价值的测量 响度和响度级,噪音级,清晰度指数,噪音评价数。
声源的测量 频谱的时间变化,声功率,指向性,
效率,频谱特征,幅值分布等。
音质的测量 混响时间,隔音量,吸音量。
声测量的基本仪器是声级计。声级计是一种能对声音作出类似人耳的反应的仪器,同时,它能进行客观而可重复的声压和声级测量。声压测量的好处很多:它能帮助音乐厅提高音响效果;能对烦扰声音进行精密的、科学的分析。声级测量还能明确地告诉我们什么声音会引起听力损害,并提醒人们采用适当的听力保护措施。因此,声测量是不可少的。
度量声音客观质量的一个主要指标是信噪比 SNR
( Signal to Noise Ration),信噪比是有用信号与噪声之比的简称。其单位是分贝 (dB)。
声音主观质量的度量采用客观标准方法很难真正评定某种编码器的质量,在实际评价中,主观的质量度量比客观质量的度量更为恰当和合理。通常是对某编码器的输出的声音质量进行评价,例如播放一段音乐,记录一段话,然后重放给实验者听,再由实验者进行综合评定。可以说,人的感觉机理最具有决定意义。当然,可靠的主观度量值是较难获得的。
平均判分( Mean Opnion Scose-MOS) 过程是召集一批实验者,请每个实验者对某个编解码器的输出进行质量判分,采用类似于考试的五级分制,不同的 MOS分对应的质量级别和失真级别见表 3-1。
MOS 质量级别 失真级别
5 优 (Excellent) 不察觉
4 良 (Good) 刚察觉但不可厌
3 中 (Fair) 察觉及稍微可厌
2 差 (Poor) 可厌 (但不令人反感 )
1 劣 (Unacceptable) 极可厌 (令人反感 )
声音质量分级与带宽声音的质量与它所占用的频带宽度有关,频带越宽,信号强度的相对变化范围就越大大,音响效果也就越好。按照带宽可将声音质量分为 4级:
数字激光唱盘质量,通常又 CD-DA质量,这种质量也就是我们常说的超高保真,即 Super HiFi(High
Fidelity)。
调频无线电广播,简称 FM(Frequency Modulation)质量。
调幅无线电广播,简称 AM(Amplitude Modulation)质量。
电话 (Telephone)质量。
在这 4级质量中,以 CD-DA的声音质量等级最高,其余次之。
4级声音质量的频率范围音频测试仪 ( A U D I O T E S T )
3.2 模拟音频的数字化过程
1.音频在多媒体技术中的应用
2.模拟音频和数字音频
3.音频的数字化 (采样,量化,编码 )
4.音频处理技术的特点模拟信号的数字化过程
1 0 0 1 0 1 1 0 0 0 1 1 1 0 1
3.2.1采样早在 40年代,信息论的奠基者香农( Shannon) 指出:在一定条件下,用离散的序列可以完全代表一个连续函数,
这是采样定理的基本内容。采样定理看来象是一个数学问题,而实质上它为数字化技术奠定了一个基础。
为实现 A/D转换,需要把模拟音频信号波形进行分割,以转变成数字信号,这种方法称为采样 (Sampling)。 采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅度值,把时间上的连续信号,变成时间上的离散信号。该时间间隔称为采样周期,其倒数为采样频率。采样频率是指计算机每秒钟采集多少个声音样本。采样频率越高,即采样的间隔时间越短,则在单位时间内计算机得到的声音样本数据就越多,对声音波形的表示也越精确。这和测定每天 24小时气温变化是一样的,每小时测定 1次气温比每两小时测定 1次气温的精度要高一倍。
采样频率与声音频率之间有一定的关系,根据奈奎斯特 ( Nyquist) 理论,只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原成为原来的声音 。
采样的著名实例就在我们的日常生活中,例如电话和 CD唱片 。 在数字电话系统中,为将人的声音变为数字信号,采用脉冲编码调制 PCM方法,每秒钟可进行 8000次的采样 。 PCM提供的数据传输率是
56kb/s(b/s表示 b/s)或 64kb/s。 CD唱片存储的是数字信息,要想获得 CD音质的效果,则要保证采样频率为 44.1kHz,也就是能够捕获频率高达
22050Hz的信号 。
3.2.2 量化采样只解决了音频波形信号在时间坐标 (即横轴 )上把一个波形切成若干个等分的数字化问题,但是每一等分的长方形的高是多少呢? 即需要用某种数字化的方法来反映某一瞬间声波幅度的电压值的大小。该值的大小影响音量的高低。我们把对声波波形幅度的数字化表示称之为,量化,。
量化的过程是先将采样后的信号按整个声波的幅度划分成有限个区段的集合,把落入某个区段内的样值归为一类,
并赋于相同的量化值。如何分割采样信号的幅度呢? 我们还是采取二进制的方式,以8位 (bit)或 16位 (bit)的方式来划分纵轴。也就是说在一个以 8位为记录模式的音效中,
其纵轴将会被划分为个量化等级 (quantization levels),用以记录其幅度大小。而一个以 16位为采样模式的音效中,它在每一个固定采样的区间内所被采集的声音幅度,将以个不同的量化等级加以记录。
在相同的采样频率之下,量化位数愈高,
声音的质量越好。同理,在相同量化位数的情况下,采样频率越高,声音效果也就越好。这就好比是量一个人的身高,若是以毫米为单位来测量,会比用厘米为单位量更加准确。
表 3-2给出了不同信号类型的采样率和量化精度。 信号类型 频率范围 (Hz) 采样率 (kHz) 量化精度 (位 )
电话话音 200-3400 8 8
宽带音频 50-7000 16 16
调频广播 20-15k 378 16
高质量音频 20-22k 441 16
3.2.3 采样与量化过程示例以图 3-1所示的原始模拟波形为例进行采样和量化。假设采样频率为 1000次 /秒,即每
1/1000秒 A/D转换器采样一次,其幅度被划分成 0?9共 10个量化等级,并将其采样的幅度值取最接近 0? 9之间的一个数来表示,
如图 3-2所示。图中每个正方形表示一次采样。
当 D/A转换器从图 3-2得到的数值中重构原来信号时,得到图 3-3中蓝色 (直线段 )线段所示的波形。从图中可以看出,蓝色线与原波形 (红色线 )相比,其波形的细节部分丢失了很多。这意味着重构后的信号波形有较大的失真。
失真在采样过程中是不可避免的,如何减少失真呢?可以直观地看出,我们可以把图 3-2中的波形划分成更为细小的区间,即采用更高的采样频率。同时,增加量化精度,以得到更高的量化等级,即可减少失真的程度。在图 3-4中,采样率和量化等级均提高了一倍,分别为 2000次 /秒和 20个量化等级。在图 3-5中,采样率和量化等级再提高了一倍,分别达到 4000次 /秒和 40个量化等级。从图中可以看出,当用 D/A转换器重构原来信号时(图中的轮廓线),信号的失真明显减少,信号质量得到了提高。
图 3-4 采样率为 2000Hz,量化等级为 20的采样量化过程图 3-5 采样率为 4000Hz,量化等级为 40的采样量化过程声道,
单声道即只产生一个波形双声道就是同时的两个波形由此我们可以看出数据量的算法,
数据量 =(采样频率 *量化位数 *声道数)
/8( Byte/S)
8是因为一个字节有 8位
3.2.4 编码模拟信号量经过采样和量化以后,形成一系列的离散信号 ——脉冲数字信号。这种脉冲数字信号可以一定的方式进行编码,形成计算机内部运行的数据。 所谓编码,就是按照一定的格式把经过采样和量化得到的离散数据记录下来,并在有用的数据中加入一些用于纠错、同步和控制的数据。在数据回放时,可以根据所记录的纠错数据判别读出的声音数据是否有错,如在一定范围内有错,可加以纠正。
编码的形式比较多,常用的编码方式是 PCM——脉冲调制。脉冲编码调制( PCM) 是把模拟信号变换为数字信号的一种调制方式,既把连续输入的模拟信号变换为在时域和振幅上都离散的量,然后将其转化为代码形式传输或存储。 PCM的主要优点是:抗干扰能力强;失真小;传输特性稳定,尤其是远距离信号再生中继时噪声不累积,而且可以采用压缩编码、纠错编码和保密编码等来提高系统的有效性、可靠性和保密性。
模拟信号经过采样再经量化,然后用有限个二进制码去代表量化后的幅度,在编码器中引入的量化误差在解码时无法消除,这一误差等效于引入了噪声,降低了信噪比 。 在比特率较高的波形编码中可以用客观指标如信噪比来衡量编码的质量,例如现在电话中普遍使用的A律标准 ( ITU
G.711标准 ),要求信噪比优于 35dB。 除此之外,还可以规定动态范围和频率响应,在有关的国际标准中都有具体规定 。 在低比特率情况下,采用了语音特征参数分析和合成语音的编码方法,每个样值仅1或 0.5比特 。
在 ISO的红皮书 ( Red Book) 标准中,规定 CD-DA每 24字节双声道音频数据为一帧,对每一帧数据编码后要形成帧同步码,子码 ( 用于控制和显示 ) 及纠错码,采用差错校验码 CIRC,用来检测和纠正因 CD表面的划伤或灰尘产生的差错 。 其格式如表 4-3所示 。
在 CD-DA中,数据、控制码和纠错码分别记录在不同的光道上 。定义 98个音频数据帧为一个扇区。
因此每个扇区所含音频数据量为 98× 24 = 2352
( Byte),它使得一张 CD唱盘上可容纳约 74分钟的立体声音乐信号。
帧同步 子码 音频数据
(左声道)
Q校验 音频数据
(右声道)
P校验
4 1 12 4 12 4
音频处理的特点:
1.音频信号是时间依赖的连续媒体
2.理想的合成声音是立体声
3.对音频信号的处理要抽取语意等其他信息从人与计算机交互的角度:
1.人与计算机的通信
2.计算机与人的通信
3.人 —计算机 —人的通信语音识别实现输出的方法:录音 /重放;文 —语转换
3.3 音频信号的压缩编码与标准将量化后的数字声音信息直接存入计算机将会占用大量的存储空间。在多媒体系统中,一般是对数字化声音信息进行压缩和编码后再存入计算机,以减少音频的数据量。
3.3.1 音频信号压缩编码概述在多媒体音频信号处理中,一般需要对数字化后的声音信号进行压缩编码,使其成为具有一定字长的二进制数字序列,并以这种形式在计算机内传输和存储。在播放这些声音时,需要经解码器将二进制编码恢复成原来的声音信号播放。
音频信号处理过程声音信号能进行压缩编码的基本依据是:
声音信号中存在着很大的冗余度,通过识别和去除这些冗余度,便能达到压缩的目的;
音频信息的最终接收者是人,人的听觉器官 (包括视觉器器官 )都具有某种不敏感性,舍去人的感官所不敏感的信息对声音质量的影响很小,在有些情况下,甚至可以忽略不计。例如,人耳听觉中有一个重要的特点,
即听觉的,掩蔽,。它是指一个强音能抑制一个同时存在的弱音的听觉现象。利用该性质,可以抑制与信号同时存在的量化噪音。
.对声音波形取样后,相邻样值之间存在着很强的相关性。
音频数据压缩和编码与图像压缩编码有着很大的不同。图像数据表达的是二维空间,很难找出固定的模型来形式化地表征它。音频数据表达的是一维随时间变化的函数,因而声音数据的压缩比图像数据压缩要容易得多。从方法上看,声音信号的编码方式大致可分为三类,即波形编码、参数编码和混合编码。
波形编码的编码信息是声音的波形。这种方法要求重构的声音信号的各个样本尽可能地接近于原始声音的采样值,复原的声音质量较高。波形编码技术有 PCM( 脉冲编码调制),ADPCM( 自适应差分脉冲编码调制)和 ATC( 自适应变换编码)等 。
参数编码是一种对语音参数进行分析合成的方法 。 语音的基本参数是基音周期,共振峰,语音谱,声强等,如能得到这些语音基本参数,就可以不对语音的波形进行编码,
而只要记录和传输这些参数就能实现声音数据的压缩 。 这些语音基本参数可以由语音生成机构模型通过实验获得 。
得到语音参数后,就可以对其进行线性预测编码 ( LPC-
Linear Predictive Coding) 。
混合型编码方法是一种在保留参数编码技术的基础上,引用波型编码准则去优化激励源信号的方案 。 混合编码充分利用了线性预测技术和综合分析技术,其典型算法有:码本激励线性预测 ( CELP),多脉冲线性预测 ( MP-LPC) 及矢量和激励线性预测 ( VSELP) 等 。
总的来说,波形编码在声音编码方案中应用较广,可以获得很高的声音质量。下面我们介绍波形编码方案中常用的 PCM编码。
3.3.2 PCM编码
1939年法国工程师 Alec Reeves发明了将连续的模拟信号变换成时间和幅度都离散的二进制码代表的脉冲编码调制信号( Pulse Code
Modulation-PCM),并申请了专利。PCM首先开始应用于电话系统,但一直到1962年美国
Bell实验室才为AT&T制成了国际上第一套商用PCM电话系统(T1系统),这标志了通信开始步入数字化。以后的计算机发展更促进了通信的数字化,并逐步与通信相结合。
PCM 编码是对连续语音信号进行空间采样、幅度值量化及用适当码字将其编码的总称。 PCM方法可以按量化方式的不同,分为均匀量化 PCM,非均匀量化 PCM和自适应量化 PCM等几种。
如果采用相等的量化间隔对采样得到的信号作量化,那么这种量化称为均匀量化。均匀量化就是采用相同的“等分尺”来度量采样得到的幅度,
也称为线性量化,如图 4-6所示。均匀量化 PCM就是直接对声音信号作 A/D转换,在处理过程中没有利用声音信号的任何特性,也没有进行压缩。该方法将输入的声音信号的振幅范围分成个等份( B
为量化位数),所以落入同一等份数的采样值都编码成相同的 B位二进制码。只要采样频率足够大,
量化位数也适当,便能获得较高的声音信号数字化效果。为了满足听觉上的效果,均匀量化 PCM必须使用较多的量化位数。这样所记录和产生的音乐,可以达到最接近原声的效果。当然提高采样率及分辨率后,将引起储存数据空间的增大。
图 4 - 6 均匀量化图 4 - 7? 律的压缩特性改进 PCM编码技术的一个方法是采用非均匀量化,
即让量化级高度随信号振幅而变化 。 信号振幅小则缩小量化级高度,信号振幅大时则增大量化级高度 。 这样就可以在满足精度要求的情况下用较少的位数实现编码 。 在声音数据还原时,采用相同的规则 。
在非均匀量化中,采样输入信号幅度和量化输出数据之间定义了两种对应关系,一种称为? 律
(?-Law) 压 ( 缩 ) 扩 ( 展 ) 算法,另一种称为 A
律 (A-Law) 压 ( 缩 ) 扩 ( 展 ) 算法 。 这两种算法主要用于数字电话通信中 。
律的计算公式如下:
)]([)1ln (
]x ( n )u1ln [
)( m a xm a x nxs ig nuXXny?
其中是信号 x(n)的最大幅度,u是控制压缩程序的参数,u越大压缩就越厉害图 3-7给出了按?律压扩算法的输入输出特性曲线,?为确定压缩量的参数,它反映最大量化间隔和最小量化间隔之比 。 由图可见,?值越大,压缩量越大 。 由于? 律压扩的输入和输出关系是对数函数关系,所以这种编码又称为对数 PCM。
A律压扩与?律压扩相比,则压缩的动态范围略小些,小信号振幅时质量要比?律稍差 。 无论是 A律还是?律算法,它们的特性在输入信号振幅小时都呈线性,在输入信号振幅大时呈对数压缩特性 。
对于采样频率为 8kHz,样本精度为 16位的输入信号,使用
A律压扩或?律压扩编码,经过 PCM编码器之后每个样本的精度为 8位,输出的数据率为 64kb/s。 这个数据就是
CCITT,( 国际电话与电报顾问委员会)推荐的 G.711标准:
话音频率脉冲编码调制。
3.3.3 音频压缩编码的标准随着多媒体计算机系统及数字通信系统的发展,数字音频编码技术正日益受到重视。为了提高信号传输和存储的效率,人们多方致力于信源编码的研究,力图在保证声音质量的前提下,降低信源编码的数据速率,并由此产生了一系列的国际的区域的标准。
国际电报电话咨询委员会( CCITT) 先后提出了一系列有关语音压缩编码的建议。在 1972年制定了 G.711,采用的是?律或 A律的 PCM编码技术,数据速率为 64kb/s。 1984年,
公布了 G.721标准,它采用的是 ADPCM编码技术,数据率为
32kb/s。以上两个标准均适用于 300?3400Hz窄带语音信号,
也可用于公用电话网。针对宽带语音信号( 50Hz?7kHz),
CCITT制定了 G.722编码标准,它的数据速率为 64kb/s。用此标准编码,可在 ISDN( 综合业务数据网)的 B通道上传输音频数据 。
为了进一步降低数据速率,CCITT从 1989年开始研究
16kb/s的短延时,高质量的音频编码标准 。 在 AT&T Bell
实验室 16kb/s短延时码激励 ( LD-CELP) 编码方案的基础上,又公布适合于进入长途电话网采用的新标准 。 另外,
还有欧洲数字移动通信 ( GSM) 制定了数字移动通信网的
13kb/s长时预测规则码激励 ( RPE-LTP) 语音编码标准 。
美国 1989年也公布了 CTIA标准 。 它采用长时延自适应 CELP
方案,适应于更低速率的语音压缩,主要应用在保密话音通信 。
ISO( 国际标准化组织)也制定了一系列的相应的标准,
其运动图象专业组( MPEG) 在制定运动图象编码标准的同时,制定了高保真立体声音频压缩标准,MPEG音频”。
虽然 MPEG声音标准是 MPEG标准的一部分,但它同时也完全可以独立应用。 MPEG声音压缩算法是第一个高保真声音数据压缩的国际标准。
MPEG音频根据不同的算法分为三个层次。层次 1与层次 2具有大致相同的算法,如表 3-3所示。输入音频信号的采样频率为 48kHz,44.1kHz或 32kHz,经过滤波器组分成 32个子带。同时编码器利用人耳的屏蔽效应,根据音频信号的性质计算各个频率分量的屏蔽门限,以控制每一个子带的量化参数,
达到数据压缩的目的。 MPEG音频的层次 3进一步引入了辅助子带、非均匀量化和熵编码等技术,可以进一步压缩率。立体声信号的编码也可以在
MPEG音频中作为附加功能实现。 MPEG音频压缩技术的传输速率为每声道 32kb/s?448kb/s。
MPEG声音的质量表中,MUSICAM (Masking pattern adapted
Universal Subband IntegratedCoding And
Multiplexing)为自适应声音掩蔽特性的通用子带综合编码和复合技术。 ASPEC (Adaptive
Spectral Perceptual Entropy Coding of high
quality musical signal) 表示高质量音乐信号自适应谱感知熵编码。
层次 算法 压缩率 立体声信号所对应的比特率 (kbits/sec)
1 MUSICAM 1:4 384
2 MUSICAM 1:6? 1:8 256? 192
3 ASPEC 1:10?1:12 128?112
3.3.4 数字音频的文件格式在多媒体技术中,存储音频信息的文件格式主要有,WAV文件,VOC文件和 MP3文件等。
WAV文件
WAV文件又称波形文件,是 Microsoft公司的音频文件格式。自从 Windows视窗操作系统面世以来,Microsoft就将 WAV文件作为其标准格式的文件使用。用于保存 Windows平台的音频信息资源,被 Windows平台及其应用程序所广泛支持。
WAV文件来源于对声音模拟波形的采样,并以不同的量化位数把这些采样点的值轮换成二进制数,然后存入磁盘,这就产生了波形文件。
WAV 声音文件是使用 RIFF( Resource
Interchange File Format资源交换文件 ) 的格式描述的,RIFF格式文件是一种带有标记的文件结构,它由文件头和波形音频文件数据块组成 。 文件头包括标志符,语音特征值,声道特征以及 PCM
格式类型标志等 。 WAV数据块是由数据子块标记,
数据子块长度和波形音频数据 3个数据子块组成 。
Wave格式支持 MSADPCM,CCITT A Law,CCITT
μ Law和其他压缩算法,支持多种音频位数、采样频率和声道,是 PC机上最为流行的声音文件格式,但其文件尺寸较大,多用于存储简短的声音片断。
VOC文件
VOC文件是 Creative公司所使用的标准音频文件格式,也是声霸卡( Sound Blaster) 所使用的音频文件格式。 Voice文件是 Creative Labs (创新公司 )
开发的声音文件格式,多用于保存 Creative Sound
Blaster(创新声霸 )系列声卡所采集的声音数据,被
Windows平台和 DOS平台所支持,支持 CCITT A Law
和 CCITT μ Law等压缩算法。
与 WAV格式类似,VOC文件由文件头块和音频数据块组成。文件头包含一个标识、版本号和一个指向数据块起始地址的指针,这个指针帮助数据块定位以便顺利找到第一个数据块。数据块分成各种类型的子块,如声音数据、静音、标记、
ASCII码文件、重复、重复的结束及终止标记等 。
MPEG音频文件 ——,MP1/.MP2/.MP3
这里的音频文件格式指的是 MPEG标准中的音频部分,
即 MPEG音频层 (MPEG Audio Layer)。 MPEG音频文件的压缩是一种有损压缩,根据压缩质量和编码复杂程度的不同可分为三层 (MPEG Audio Layer 1/2/3),分别对应 MP1,MP2和
MP3这三种声音文件;
MPEG音频编码具有很高的压缩率,MP1和 MP2的压缩率分别为 4∶ 1和 6∶ 1~ 8∶ 1,而 MP3的压缩率则高达 10∶ 1~
12∶ 1,也就是说一分钟 CD音质的音乐,未经压缩需要
10MB存储空间,而经过 MP3压缩编码后只有 1MB左右,同时其音质基本保持不失真 。
MP3的流行得益于 Internet的推波助澜,它用网络代替了传统唱片的传播途径,扩大了数字音乐的流传范围,加速了数字音乐的传播速度,MP3凭借其优美的音质和高压缩比而成为最为流行的音乐格式 。
MP3播放器 Winamp
MP3是 Internet上流行的音乐格式
MP3格式文件在播放时需要专门的工具软件,Winamp
是一个集强大的功能和小巧灵珑于一体的 MP3播放器。
它能够对播放 MP3 文件的播放作全面的控制,支持
MMX技术。它内置的图形化均衡器,可以方便地调节音色,使之更符合个人喜好。此外,应用较为广泛的 MP3播放软件还有 Winplay3和 MusicMatch等。
RealAudio文件 ——,RA/.RM/.RAM
RealAudio文件是 RealNetworks公司开发的一种新型流式音频 (Streaming Audio)文件格式;它包含在 RealNetworks
所制定的音频、视频压缩规范 RealMedia中,主要用于在低速率的广域网上实时传输音频信息;网络连接速率不同,客户端所获得的声音质量也不尽相同:
对于 28.8kb/s的连接,可以达到广播级的声音质量;
如果拥有 ISDN或更快的线路连接,则可获得 CD音质的声音。
3.4 声卡声卡(也称为声效卡)在多媒体计算机中,是不可缺少的重要部件。它直接决定了 MPC对声音数据的处理能力与质量。现在的声卡已不仅仅作为发声之用,还兼备了声音的采集、编辑、语音识别、网络电话等种种功用。
1。声卡的发展历史
2。声卡的主要功能
3。声卡的工作原理(组成)
以及工作过程
4。集成声卡
5。声卡的性能指标
6。音频制作与处理软件
7。声卡的安装
3.4.1 声卡发展的历史
ADLIB-最早的声卡虽然 PC声卡是在 90年代才得以普及,但它的问世却早在 1984年。英国的 ADLIB公司是目前公认的,声卡之父,,虽然他们最初开发的产品只能提供简单的音乐效果,并且无法处理音频信号,但在当时无疑已经是一个很大的突破。
由于技术不够成熟、成本又非常高昂,而且当时计算机速度也不足以处理多媒体信息,因此这类带有试验品性质的早期 ADLIB音乐卡在当时未能普及。
Creative 声卡系列把声卡真正带入个人电脑领域的,是
CREATIVE-创新公司。创新科技有限公司是世界上规模最大的多媒体硬件生产商和制造商之一,其
,声霸卡,和,视霸卡,系列产品在全球占有很高的市场份额。自 1989年,Creative在美国
Comdex展览会上首次推出自己研制开发的适用于
PC机的 Sound Blaster而引起轰动至今,使 Sound
Blaster声霸卡产品形成系列而风靡全球。
第一代 Sound Blaster声卡基于 ISA总线,具有一个 8位的 D/A转换器,只支持单声道录放音模式。它一次为电脑同时加上了音乐处理和音频信号处理的功能。此后推出的 Sound Blaster Pro加入了对立体声信号的支持。 第一个多媒体电脑技术标准 ——MPC1,就把 Sound Blaster Pro作为声卡设备的标准配置。
Creative在成功推出第一块适用于PC
机的声音卡 Sound Blaster Pro 后,又推出了具有 16bit,44KHz采样率并支持立体声的 Sound Blaster 16系列。它的推出使多媒体声卡的录音和放音第一次在技术规格上达到了 CD唱片的品质。 在 20世纪 90年代中期,16bit,44KHz,立体声 D/A转换代表了声卡的最高技术水平。
Creative在 1995年的推出了具有波表合成功能的 Sound Blaster Awe 32声卡。 SB
Awe 32具有一个 32复音的波表引擎,并集成了 1MB容量的音色库,使其 MIDI合成效果大大超越了以前所有的产品(其以前的产品在 MIDI“电子合成器,方面采用都是
YAMAHA公司研发的 FM合成技术)。
在 Sound Blaster 32的基础上,Sound
Blaster AWE64在技术上取得了巨大的飞跃。
这里的 32和 64不再表示数字音频的位数,
而是表示 32和 64种复音的波表合成技术,
它们仍是 16位声卡。
声卡的主要功能:
1.CD-ROM接口兼容功能
2.转换功能
3.合成功能
4.MIDI接口传送功能
5.游戏杆接口娱乐功能
3.4.2 声卡的工作原理声卡采用大规模集成电路,将音频技术范围的各类电路以专用芯片形式集成在声卡上,并可直接插入计算机的扩展槽中使用。虽然声卡的品牌与型号各异,功能也不尽相同,但基本包含以下各功能部件,
如图 3-10所示。
主芯片 -数字信号处理器声卡音频处理的主芯片 承担着对声音信息处理、
特殊音效过滤与处理、语音识别、实时音频压缩、
MIDI合成等重要的任务。 而对声音信号的采样与量化则被分离出来,这个任务交给了一个被称作
,CODEC” 的芯片来完成。
声卡主芯片普遍都是一块具有强大运算能力的
DSP(数字信号处理器)。多数情况下,声卡上最为硕大的那块芯片就是主音频处理芯片,是声卡的核心部件。 DSP是一种可编程芯片,通过软件安装新的指令后就能够升级。
主芯片能将来自 ADC(数字 /模拟转换器 )的信号加以处理,改变成所需要的形式。 DSP芯片对输入的数字声音用 PCM,DPCM或 ADPCM方式进行编码和压缩,并形成 WAV格式文件送入计算机磁盘存储。
声音输出时,将磁盘中的 WAV文件送入 DSP芯片,
经解码后变成数字声音信号送至 D/A转换部分。
美国 ESS 生产的声卡主芯片
DSP的主要功能:
1。执行 8位或 16位的单声道 /立体声录音和回放;
2。执行 Sound Blaster模式下的 ADPCM的压缩和还原算法;
3。解释与 Sound Blaster兼容的 MIDI的命令;
4。提供主机与高级信号处理器的联系通道;
5。装载高级信号处理器代码;
6。控制多模式的 DMA传输。
DSP的数据传输方式:
1。直接传输
------占用较多 CPU时间
2。 DMA传输(寄存器间直接访问)
------不经过 CPU,速度更快
混音芯片 -CODEC
CODEC的意思是,多媒体数字信号编解码器,,
一般我们把它简称为,混音芯片,或,混音器,。
Intel公司制定的 AC‘97音频规范文件中建议,为了提高声音信号转换过程中的信噪比,减少电磁干扰,
应该把数模转换( D/A) 和模数转换( A/D) 部分从主芯片中脱离出来,采用一个独立的处理单元来进行声音采样和编码,CODEC也就应运而生了。
CODEC芯片它主要承担对原始声音信号的采样、
量化和混音处理,由于它肩负着采样、量化工作,
所以 CODEC芯片的处理能力和信噪比对最终的声音输出品质有很大的影响。混音的声源可以是 MIDI信号、
CD音频、线性输入、话筒等,可以选择输入一个声源或将几个不同声源进行混合录音。在对音源处理时,可编程设定采样频率和量化位数。
混音器通过 I/D端口 (地址和数据端口 )可对混音器的各种功能进行可编程设置:
控制数字化声音输出的音量 。
控制 FM输出音乐音量,设置左声道或左右声道同时输出以及静音 (mute)方式 (即所有声道全部关闭 )。
控制 CD-ROM中播放的音量 。
控制外线输入和话筒输出的音量 。
控制总音量输出,调整左,右及中央声道输出,
达到控制音频媒体表现效果 。
选择声音 I/O模式,即单声道或立体声 。
选择或组合声音输入源 。
选择 I/O滤波器,低通,高通或关闭滤波器,适应输出要求 。
Sound Blaster PCI64声卡的混音器设置界面在多声道趋于流行的时代,CODEC芯片是否具有多通道 DAC功能就显得尤为重要 。 目前新声卡产品已经普遍可以支持四通道的 DAC转换 。 ADC由于主要负责声音的录制,所以一般都是两通道的 。
频响范围也是非常重要的指标,大部分 CODEC
芯片都能够支持 20Hz~ 20KHz的频响范围,这已经是人耳所能听到的最大范围 。
合成器标准多媒体 PC可以通过声卡的内部合成器或主机 MIDI端口的外部合成器播放 MIDI文件。 MIDI
合成器有两种:频率调制合成器 (FM合成器 )、波形表 (Wave Table合成器 )。波形合成器是将每一种乐器对应一种或几种波形,合成音乐时,以查表方式获取乐器的波形,从而产生效果逼真的合成音乐输出。
总线接口和控制器总线接口和控制器由数据总线双向驱动器、总线接口控制逻辑、总线中断逻辑和
DMA控制逻辑组成。目前声卡的总线接口一般采用 PCI接口,并可设定基本 I/O地址、
中断向量 IRQ和 DMA通道三个参数。
外部输入输出口声卡外部输入输出口均为 3.5mm规格插口,
比较常见的包括:
麦克风接口( MIC IN) ——连接麦克风,实现声音输入、外部录音功能。
线性输入口( LINE IN) ——连接各种音频设备的模拟输出,实现相关设备的音源输入。
音频输出口( LINE OUT) ——连接多媒体有源音箱,实现声音输出。
扬声器输出( SPK OUT) ——通过声卡功放输出的放大信号,用于连接无源音箱
后置音箱输出口( REAR OUT) ——四声道声卡专有,连接环绕音箱。
MIDI设备接口 /游戏手柄接口
( MIDI/Joystick) ——连接 MIDI音源、电子琴或者游戏控制设备。
同轴数码输出( SPDIF OUT) ——连接数字音频设备,主要是 AC-3,DTS解码器和数字音箱。
光纤数码输入( SPDIF IN) ——用于连接数字音频设备的光纤输出,实现无损录音。
3.4.3 声卡录音与回放的工作过程在基本了解了声卡的结构后,就容易理解声卡究竟是如何完成对声音的录制与回放的过程了。
在录音时,声音信号通过麦克风或者 Line in通道进入,首先经过 CODEC芯片进行采样,A/D转换、
混合等一系列过程,随后通过主芯片处理,录制成相关的波形音频文件。
在放音时,数字波形声音信号首先通过声卡主芯片进行处理和运算,随后被传输到 CODEC芯片进行 D/A转换,模拟信号再经过放大器的放大,通过多媒体音箱输出,而被用户的耳朵最终接收到。
在播放 MIDI时,根据所指示的乐器到波形查询表中查询该乐器的资料,经过 D/A转换为模拟声音方式,可以达到令人满意的音乐效果,
集成声卡:
现在很多主板上都集成了 AC'97声卡,
然而由于 AC'97声卡没有主音频芯片,就是说没有硬件的数字音频处理单元,而只是一个 CODEC芯片,所以电脑在处理音频信号的时候,除了 D/A和 A/D转换之外所有的处理工作都要交给 CPU来完成,所以确切的说 AC'97声卡其实是软声卡,它的最大缺点就是提高了 CPU的占用率,影响其他程序的运行。
3.4.4 声卡的性能指标
音频技术指标声卡的录音、放音效果应该具有 CD
唱片的音质。所谓 CD音质是指录音采样速度 (频率 )达到 44.1KHz,用 16位量化指标来记录声音。 Sound Blaster 16( 即
16位声霸卡)系列的声卡都是 CD音质的声卡。
MIDI音频
MIDI是计算机产生声音的另外一种方法,
它是一种电子音乐,MIDI(,MID)文件记录产生某种声音的指令,因此与数字化声音文件 (.WAV)
相比,同一首乐曲,.MID文件的存储容量远小于,WAV文件,此外,MID文件容易修改,用户借助 MIDI制作软件可在计算机上作曲,
计算机播放 MIDI文件时,有两种方法合成声音,FM合成和波表合成,FM合成是通过多个频率的声音混合来模仿乐器的声音,波表合成是将乐器的声音样本存储在声卡波形表中,播放时从波形表中取出来产生声音,采用波表合成技术可以产生更逼真的声音
声道数声卡所支持的声道数也是重要指标。
单声道是比较原始的声音复制形式,
单声道缺乏对声音的位置定位,而立体声技术则彻底改变了这一状况。立体声声音在录制过程中被分配到两个独立的声道,
从而达到了很好的声音定位效果。这种技术在音乐欣赏中显得尤为有用,听众可以清晰地分辨出各种乐器来自的方向,从而使音乐更富想象力,更加接近于临场感受。
时至今日,立体声依然是许多产品遵循的技术标准。
立体声虽然满足了人们对左右声道位置感体验的要求,而要达到好的效果,仅仅依靠两个音箱是远远不够的,随着波表合成技术的出现,由双声道立体声向多声道环绕声的发展就显得格外迫切 。 因为同时期的家用音响设备已经基本转向多声道环绕声的家庭影院系统,而且随着 DVD-
ROM 的普及,回放 DVD 影片时的 Dolby
Digital( AC- 3) 5.1声道信号的解码也提上了日程 。
四声道环绕规定了 4个发音点:前左,
前右,后左,后右,听众则被包围在这中间 。 同时还建议增加一个低音音箱,以加强对低频信号的回放处理 (这也就是如今
4.1声道音箱系统广泛流行的原因 )。 就整体效果而言,四声道系统可以为听众带来来自多个不同方向的声音环绕,可以获得身临各种不同环境的听觉感受,给用户以全新的体验 。 如今四声道技术已经广泛融入于各类中高档声卡的设计中,成为未来发展的主流趋势 。
多音频流输出多音频流输出是指声卡可以在同一时间内支持多个 WAVE,MP3,MIDI类音频文件的播放。拥有多音频流输出能力的一个典型好处就是,你可以在欣赏 MP3音乐的时候,
同时听到来自 OICQ,ICQ之类软件的信息提示音。如果声卡不支持这个功能,如果某个软件程序首先占用了 WAVE音频输出,它就将独占这个通道,其他需要播放其他文件的程序 (包括播放同种音频文件类型 )将不能被正常播放。目前大部分中高档 PCI声卡是普遍支持多音频流输出的,多路 Wave
信号通过声卡芯片进行混合后输出。
I/O设备接口一般的声卡都设有线性输入 (LINE IN),线性输出 (LINE OUT),音箱输出 (SPEAKERS OUT)、
MIDI和游戏杆接口 (MIDI/JOYSTICK PORT)等。
声卡的常用接口
系统参数的可调性为避免 I/O地址,DMA,IRQ对系统的冲突,声卡参数必须能够设置。当然是利用软件进行设置才最为方便,早期的声卡有可能要对着手册去调整硬卡上的 Jumper(跳线 )。
声卡软件声卡软件很重要,一块声卡的技术指标再高,
但缺乏应用软件的支持,很难发挥该卡的特长。
声卡一般都带有应用程序,这些应用程序包括录音软件,WAV,CD及 MIDI播放软件、混音器,WAV
文件编辑器等。较高档的声卡还应提供特殊效果播放器、文字阅读软件及语音识别软件等。
总线结构由于计算机技术突飞猛进的发展,ISA总线已经不能满足音频信号的高吞吐量的需要,于是产生了 PCI声卡。所谓 PCI声卡,就是采用 PCI总线的声卡。那么 PCI声卡比 ISA声卡有什么优点呢?。
ISA总线的最大传输率是 8Mb/s,由于 ISA总线带宽的限制,使少量的声音流直接影响到游戏程序编制,
使之由简变复,加重了系统负担。而 PCI总线的最大传输率是 133Mb/s,由于数据带宽得到扩展,系统负担也就由此而得以缓解,完全可以满足音频数据传输的要求。
3.4.6 音频制作与处理软件声卡生产商会给用户提供一些音频制作与处理软件,满足简单的制作与处理音频的要求。如果要进行专业级的创作,可以考虑选用一种兼容性强、功能完善的通用音频制作与处理软件。
CoolEdit
CoolEdit Pro是著名的 Syntrillium公司开发的数字音频处理软件,其运行环境为 Windows。 CoolEdit Pro是一个功能强大的音频处理软件,其主要特色有:
作为一个功能超强的数字音频处理软件,其 所支持的音频格式十分丰富,多达十余种,还提供了对 5种不同类型 WAV文件的支持。
提供丰富的特殊效果。包括 3D混响、降噪、滤波、音频缩 /放、合声、延迟、变形、反转、静音等。
提供了强大的 DSP( 数字信号处理)能力。能够同时处理 64条音轨。支持录音、回放、混音、音频编辑。借助它,能够方便地制作出自己想要的任何特殊音效,
并添加到各种类型的多媒体作品中去。
操作界面设计简捷方便。在工具栏中,提供了 56个图形化按钮。几乎所有的编辑操作都能够方便地进行操作。
Sound Forge
Sound Forge是 Sonic Foundry公司开发的一个专业化数字音频处理软件,主要针对 Flash用户而编写的。
FLASH本身自己不能处理声音,所以要配合其他音频软件来帮助,Sound Forge能够非常方便、直观地实现对音频文件( wav文件)以及视频文件( avi文件)中的声音部分进行各种处理。
Sound Forge作为音效编辑软件,它的功能相当多。
Sound Forge 包括全套的音频处理,工具和效果制作等功能。它支持多种声音及视频的格式,包括 WAV,WMA,RM,AVI,和 MP3等。
虽然 Sound Forge功能强大,但使用起来还是非常容易的,它简洁实用的操作菜单让用户在编辑音效的更加容易学习和使用。
声卡的安装
(1),硬件安装步骤 1 关闭计算机电源,拔下供电电源和所有外接线插头。
步骤 2 打开机箱外壳,选择一个空闲的 16位扩展槽并将声卡插入扩展槽。
步骤 3 连接来自 CD-ROM驱动器的音频输出线到声卡的 CD IN针形输入线上;
步骤 4 盖上机箱外壳,并将电源插头插回。
步骤 5 声卡与其它外设的连接,按下页图进行。
LINE IN
LINE OUT
SPK OUT
MIDI
录音机,CD唱机等线性输出话筒扬声器线性输入立体声放大器
MIDI设备
MIC IN
(2),软件安装对不同的声卡,软件的安装方法不完全相同,需要按照说明书安装。
1),安装驱动程序声卡的驱动程序是控制声卡工作的必要程序,不同的声卡驱动程序是不同的。
2),安装应用程序安装声卡的应用程序,例如混音器、录音师和 MIDI编辑软件等。
(3),测试声卡安装完成后,即可对声卡进行测试,
以检查声卡能否正常工作,可以使用
Windows 98的,媒体播放机,进行测试。如果测试时,没有声音播出,可能有两种情况:一是插孔接触不良,请检测扬声器插孔、音量开关等;二是配置产生冲突,进入控制面板的,系统,设置查看是否有冲突。
3.5 乐器数字接口 ——MIDI
在音乐创作领域,由于 MIDI,电子乐器和多媒体计算机的结合,给人们提供了一种快捷、独特的制作方式,它更加强调音色的非常规化、电子化、空间感和对比等,并且日益形成一种崭新的音乐风格。
1。 MIDI的概念
2。 MIDI的特点
3。 MIDI系统的组成
4。 MIDI的工作过程
3.5.1 什么是 MIDI
MIDI 是数字音乐接口( Musical Instrument
Digital Interface)的缩写。或者说,MIDI是用来將电子乐器相互连接,或将 MIDI设备与电脑连接成系统的一种通信协议。 通过它,各种 MIDI设备都可以准确传送 MIDI信息。
MIDI是由软件部分和硬件部分共同组成的系统规范,这个规范定义了 MIDI设备间数字传送时电缆硬件接口和协议。规范的制定的目的是希望各家生产的乐器之间通过统一的 MIDI交换信息及控制信号,从而完成音乐的合成。这样,任何电子乐器,只要有处理 MIDI信息的处理器和适当的硬件接口都能变成 MIDI装置。
尽管 MIDI是多媒体音响制作的一个重要部分,但它不属于数字音响技术的范畴 。
打个比方,如果数字音响是一盘录了某个人小提琴独奏的磁带,则 MIDI就是该独奏的乐谱,尽管乐谱本身并不产生任何实际声音,
但它确实定义了演奏的速度,音符及演奏声音的大小 。
MIDI文件的特点:
(1)由于 MIDI文件只是一系列指令的集合,因此它比数字波形文件小得多,大大 节省了存储空间。
(2)使用 MIDI文件,其声音卡上必需含有硬件音序器或者配置有软件 音序器。
(3)MIDI声音适于重现打击乐或一些电子乐器的声音,利用 MIDI声音方式可 用计算机来进行作曲。
(4)对 MIDI的编辑很灵活,在音序器的帮助下,
用户可自由地改变音调、音色以及乐曲速度等,以达到需要的效果。
3.5.2 MIDI系统的组成
MIDI系统实际就是一个作曲、配器、电子模拟的演奏系统。
基于计算机的 MIDI音乐系统有多种构筑方案,
但基本上都由以下几部分组成,多媒体计算机、
合成器、音序器、音源,MIDI键盘、录音设备和监听设备等。 这些设备可以是独立的,也可以是集成的。
如果在计算机上安装了 MIDI软件,可将音乐的创作、乐谱的打印、节目编排、音乐的调整、
音响的幅度、节奏的速度、各声部之间的协调、
混响都可由 MIDI软件控制完成。
利用 MIDI技术将电子合成器,电子音源与音序器连接在一起即可演奏模拟出音色变化万千的音响效果,又可将演奏中的多种按键数据存储起来,极大的改善了音乐演奏的能力和条件 。
基于计算机的 MIDI 音乐创作系统
合成器
MIDI合成器是能够产生特定声音的电子装置,
其数据传送符合 MIDI通信约定 。
合成器自诞生以来,其概念已发生了很多变化 。 早期的合成器是真正意义上的硬件合成器,
它通过人为地调制各种波的参数 ( 如锯齿波,方型波,滤波器,截止频率 ) 等来合成音色 。
合成器是通过控制面板上的按钮产生数字信号来控制的 。 这些数字信号用于,告诉,合成器内部的微处理器键盘上哪个键被击,哪个旋钮被转动 。 这些数字控制信号还可以同时被记录在合成器内部被称作,音序器,的装置中具有 USB接口的 MIDI键盘人工通过控制面板来调制音色的硬件合成器集音源、音序器,MIDI键盘于一身的合成器现在,合成器的概念已经不是人为合成音色的设备。
它拥有大量真实的采样音色可供演奏使用,它拥有自己的音序器可以录制编辑音乐,它拥有 MIDI接口可以与其他设备交换信息。我们可以认为现代的合成器是这样意义上的,合成,,即集音源,音序器,MIDI键盘于一身的设备。
随着软件音序器的普及,合成器的硬件音序器由于它的繁琐而魅力大减,音源,音序器,键盘三位一体的方式受到挑战。人们认识到用电脑制作 MIDI是将来的趋势,
于是出现了一系列适合为电脑配套的合成器,它们省去了音序器,音序任务由软件完成,合成器只提供键盘和音色,
这就降低了合成器的成本。又由于独立的硬件音源和采样技术的普及,人们觉得合成器的音色也是多余的,因为独立音源可以提供更好的音色,于是不带音序器和音色的
MIDI控制键盘也随即产生,这类键盘有较强的控制功能,
音色用音源的,音序器用软件的,可谓是专物专用,而且只要添加音源或采样器就可以得到更多的音色,更换音序软件就可以使用更强的功能。
音源由于音乐最终要以声音的形式表现出来,所以做为电脑音乐系统中产生声音的设备,音源音色的数量、品种和质量都将对最终音乐作品的效果产生重要的影响。音源内部有很多不同音色的样本波形,譬如钢琴就有钢琴的音色的真实样本,
吉它就有吉它的音色真实样本 (即波表 )。但是音源只是一个资源库,因为它不知道在什么时候该用什么音色发怎样的声音。至于何时调用资源 (使用哪种音色 )不是音源的工作,这项任务是由音序器来完成的。
音源也分硬件和软件两种。硬件音源是现在专业 MIDI制作不可缺少的设备,因为它们可以提供比任何一块声卡上的波表都要好很多的音色,
这些独立音源基本上是专业人士使用的,常见的型号有 Roland JV1080和 Yamaha MU100R等。
作为一般用户,可以不需要添置硬件音源设备,
因为现在任何一块多媒体声卡上都有一个 128种音色的 GM音色库,即 MIDI音源,只不过质量比专用音源设备差一些 。 但有些声卡 (如 Sound Blaster
Live)的音源 质量 较 好,可 达 到准 专 业级 。
另外,还可以使用软件音源来代替 。 软件音源也是随着电脑的高速发展而产生的,它们也必须安装在电脑上才能使用 。 大家熟悉的软音源有:
Yamaha S-YXG100,Roland VSC88等,大家平时俗称它们为 MIDI播放器,其实它们就是音源,因为它们是提供音色的 。 软音源的产生为 MIDI的大众化作出了很大的贡献,它使人们不需购买专门设备就可以进行 MIDI的创作和演奏 。
音序器 (Sequencer)
音序器是用来记录、编辑和播放 MIDI文件的设备。音序器分硬件和软件的两种。
最早的是硬件音序器,我们也常称它为,编曲机,。 它可以是一个独立的设备,也可以内置于合成器里 。 这类音序器的编辑和修改必须在它的面板上进行,使用是很不方便的 。 常见的型号有 Yamaha QY700等 。
软件音序器是安装在计算机中的多功能音乐创作,编辑软件,如我们常用的 Cakewalk就是一个软件音序器 。 软件音序器因为其显示界面扩大 ( 使用电脑显示器 ),功能增强,
特别是操作方便获得了绝大多数音乐制作者的认可,大有淘汰硬件音序器之势 。 其实正是由于软件加入音乐制作的领域才使 MIDI音乐和电脑联系起来,不然制作 MIDI音乐完全用不着电脑 。
YAMAHA QY700 音序器硬件音源 ROLAND JV1080
采样器音乐的表现力是无限的,因此人们对于音色的要求也是无限的。一般的音源均是一种封闭的结构,它们的音色都是固定的,提供的数量和品种都有限,不能满足制作者对新的音色的要求。 而采样器则是一种开放式的音源,它可以对任何声音进行取样,并把它们编辑成音色来供电脑音乐系统使用。
使用采样器可以对各种音乐、其他电子乐器和各种自然界声响进行取样,或是通过读取现成磁盘来获取各种音色。到目前为止,使用采样器仍然是满足其对新增音色的最佳手段。
其他设备如录音设备、监听设备、音箱功放等,这里不加赘述。
3.5.3 MIDI的工作过程
MIDI电子乐器通过 MIDI接口与计算机相连,MIDI靠这个接口来传递消息而进行彼此通信。这样,计算机可通过音序器软件来采集 MIDI电子乐器发出的一系列消息或指令。这一系列消息可记录以,MID 为扩展名的 MIDI文件中。在计算机上音序器可对 MIDI 文件进行编辑和修改。最后,将
MIDI消息送往音乐合成器,由合成器将
MIDI消息进行解释并产生波形,然后通过声音发生器送往扬声器播放出来。其过程如图 3-11所示。
MIDI的工作过程理解 MIDI工作方式的最直接的方法就是看看 MIDI消息是什么。
MIDI消息实际上是对一段音乐的描述,或理解成是乐谱的数字描述。它包括音符、节拍、乐器种类等。 MIDI消息包括两个大的部分:状态信息和数据信息。状态信息用于描述音符被演奏还是声音被加强这样的信息,而数据信息则重点描述哪个音符被演奏了,或被加强的声音的强度如何等可以用量来表示的信息。例如,你在一个具有 MIDI
功能的电子琴上按下了一个键时,电子琴便产生了一个
MIDI信息,通过 MIDI接口传送出去。这个信息就包含了状态信息及数据信息两部分。信息的前一部分用于描述你做了什么,这里你按了一个键,产生了一个音符。信息的后一部分描述哪一个键被按下了。
例如,当在 MIDI电子琴上按下一个琴键时,电子琴便会产生一个 Note-On Message的 MIDI提示(即该键被按下了),一个音名编号( Note Number,
如:中央 C=60) 和一个按键速度的数据
( Velocity,如:中等速度= 38)。其产生的消息为:
Note-On/Channel # ( 1001 CCCC)
Note Number (0NNN NNNN)
Velocity (0VVV VVVV)
当手指离开 MIDI电子琴键时,电子琴便会产生一个 Note-Off Message的 MIDI提示(即该键被放开了),一个音名编号和一个放开速度的数据。
Note-Off/Channel # ( 1001 CCCC)
Note Number (0NNN NNNN)
Velocity (0VVV VVVV)
这样我们就可以比较容易地理解 MIDI
的工作方式了。 MIDI提供详细描述乐谱的协议,计算机与 MIDI设备通过 MIDI接口发送编码来达到相互通信的目的。 MIDI是以某一种乐器的发声为数据记录的基础,故在播放时也要有相同乐器与之对应,否则声音效果会大打折扣。当 MIDI消息通过一个音乐或声音合成器 (synthesizer)进行播放时,该合成器对一系列的 MIDI信息进行解释,然后产生相应的一段音乐或声音。
3.5.4 FM与波表合成方式合成器是利用数字信号处理器 DSP或其他芯片来产生音乐或声音的电子装置。利用合成器产生 MIDI乐音的主要方法是 FM合成法和波表合成法。
FM合成法
FM合成法是 80年代初由美国斯坦福大学的 John
Chowning发明的,称为,数字式频率调制合成法,,简称 FM合成法。 FM合成法生成乐音的基本原理是,用数字信号来表示不同乐音的波形,
然后把它们组合起来,再通过数模转换器(D
AC)生成乐音播放。
在乐音合成器中,数字载波的波形有很多种,不同型号的 FM合成器所选用的波形也不同 。 各种不同乐音的产生是通过组合各种波形参数,采用各种不同的算法实现的 。
FM合成器的算法包括确定用什么样的波形作为数字载波波形,用什么样的波形作为调制波形,用什么样的波形参数去组合来产生所希望的乐音 。 例如改变数字载波频率可以改变乐音的音调,改变它的幅度可以改变它的音量 。 选择的算法不同,载波器和调制器的相互作用也不同,生成的音色也不同 。
FM合成器的声音参数和算法共控制参数以字节的形式存储在声音卡的 ROM中 。 播放某种乐音时,计算机就发送一个信号,这个信号被转换成 ROM的地址,从该地址中取出的数据就是用于产生乐音的数据 。 FM合成器利用这些数据产生的乐音是否真实,它的真实程度有多高,取决于可用的波形源的数目,算法和波形的类型 。
FM合成器由许多操作单元构成,每一个操作单元都由一个调制单元和载波单元组成 。 每个调制单元和载波单元都是由三个功能模块组成,即脉冲发生器,包络发生器和正弦表 。 每个单元产生一个正弦波,它的频率取决于脉冲发生器,而振幅取决于包络发生器 。
调制单元的输出对载波单元进行调制,因此载波单元的输出波形包含许多谐波,其频率为载波频率和调制频率各种倍数的差及和值。而谐波振幅取决于调制波形的振幅,这样合成波形 F(t)可用下面公式表示:
)s i ns i n ()( tItAtF mc
这里 A是输出信号振幅,I是调制单元输出信号的振幅 。 ωc和 ωm分别是载波信号频率和调制信号的频率 。
FM合成器共有 18个操作单元,有三种不同的用法:
18个操作单元产生 9通道 FM声音,每个 FM声音使用两个操作单元,从而构成 9通道 FM声音 。
用 12个操作单元 (l~ 12)构成 6通道 FM声音,其他操作单元 (13~ 18)产生 5种打击乐器声音 。
使用 3~ 6个不同频率和振幅的正弦波 (每个操作单元产生一个正弦波 )就能合成语音 。
另外,FM合成 器中除操 作单元外还 内置一个 颤音
(Vibrato)
振荡器和振幅调制振荡器,分别产生 Vibrato和 Tremdo
( 震音 ),使其效果更接近自然乐器的声音 。
波表合成法使用 FM合成法来产生各种逼真的乐音是相当困难的,有些乐音几乎不能产生。为子能真实地再现乐音,目前的声卡一般采用乐音样本合成法,
即波表合成法。这种方法就是把真实乐器发出的声音以数字的形式记录下来,播放时根据命令生成各种音阶的音符,产生的声音质量比 FM合成方法产生的声音质量要高很多。乐音样本的采集相对比较直观,音乐家在真实乐器上演奏不同的音符,选择 44.1kHz的采样频率,16比特的量化位数,
这相当于 CD-DA的质量,把不同音符的真实声音记录下来,这就完成了乐音样本的采集。
与 FM合成不同,波表合成是采用真实的声音样本进行回放 。 声音样本记录了各种真实乐器的波形采样,并保存在声卡上的 ROM中 。 例如创新的 Sound Blaster AWE32是第一块广为流行的波表声卡 。 该卡采用了 EMU8000波表处理芯片,提供 16位 MIDI通道和 32位的复音效果 。 波表合成的声音比 FM合成的声音更为丰富和真实,但由于需要额外的存储器贮存音色库,因此成本也较高 。 而且音色库越大,
所需的存储器就越多,相应地成本也就越高 。
波表合成可以有软硬之分,软波表原理跟硬波表一样,
都是采用了真实的声音样本进行回放 。 只是硬波表的音色库是存放在声卡的 ROM或 RAM中,而软波表的音色库则以文件的形式存放在硬盘里,需要时再通过 CPU进行调用 。 由于软波表是通过 CPU的实时运算来回放 MIDI音效,因此软波表对系统要求较高 。
3.5.5 GM-标准 MIDI乐器排序表以前各生产商在设计 MIDI发声工具(如:声卡、音源器、合成器等)时并没有一个统一的乐器排序标准,例如甲生产商把钢琴排序为第一号乐器声,而小提琴为第四十号乐器声;但乙生产商却把钢琴排序为第五号乐器声,而小提琴则为第六十号乐器声。那么,同一首乐曲如果使用不同生产商生产的 MIDI发声工具来重播,便会用不同的乐器来演奏。原本是钢琴声的可能变成了吉它声,又或原本是小提琴声的可能变成了手风琴声,对用户来说十分不便。
基于这种情况,各生产商终于达成了共识,共同编制了一份,标准 MIDI乐器排序表,( General MIDI
Instrument Map,简称 GM)。 GM共收录了十六类不同的乐器,每类各选八件,全部总共有 128件乐器。在第 10号
MIDI通道( MIDI Channel 10) 收录了各种鼓和其他打击乐器。表中最后的一类(第十六类)并非乐器声,而是一些声效( Sound Effects),如电话铃声、小鸟叫声、海浪声、直升机声、枪声等。
现在大部分的 MIDI发声工具均以这,标准 MIDI乐器排序表,作为乐器排序的标准。
3.5.6 MIDI音乐创作软件与音序软件既然 MIDI音乐上的各种功能均可用 MIDI编码来代表,
那么我们只要编写出一些适当的软件来处理这些编码,便可实现利用电脑来处理音乐的梦想了。正因如此,近几年来不断出现了大量不同功能的电脑音乐软件。有些是专为作曲及编曲而设的;有些是专为制作和打印五线谱而设的;
有些是专为音乐教育而设的(如 Piano,Music Lesson
等),五花八门,目不暇接。有了这些软件的帮助,我们在学习音乐、作曲、编曲、制作和编印五线谱、制作唱片等各方面均发生了前所未有的变化。这正如文字处理软件的出现,对出版、写作、印刷等方面所起的影响一样。
音序器是 MIDI音乐创作的核心控制部件,合成器中的音序器是将操作软件和硬件捆绑在一起的一体化编曲机器,
而在计算机系统中,音序器则以纯软件的形式出现,硬件资源完全由计算机和外部 MIDI乐器提供。由于音序软件具有一体化音序器所不具备的多种优点,如人机交互界面、
图形化的操作方式、更新升级方便等,因此音序软件已经逐步取代了音序器的功能,在专业音乐制作和音乐教学领域得到了广泛的应用。
Cakewalk是 Twelve Tone Systems公司设计的一个界面友好,功能强大的图形 MIDI音序软件,也是世界范围内用户最多的音序软件 。 Cakewalk提供了 MIDI制作所需的全部功能 。 Cakewalk较为常见的版本 有多 种,最 新的 版本 为 Cakewalk Pro
Audio9.0。
Cakewalk Pro Audio 9.0的功能非常多,可提供 64条音频轨,256条虚拟轨和 32bit的实时效果处理,并 改 进 了 文 件 管 理 系 统,使 装 备 了
Cakewalk Pro Audio 的计算机能够成为一台真正的多轨音频工作站 。 有多个控制图标可供用户在不同形式下观看并编辑 MIDI音序,五线谱和事件表等 。 用鼠标可以控制 MIDI的速度变化,调整力度或细调变音 。 可以在音序中嵌入波形声音文件;
在 Cakewalk 中可使用 16个 MIDI接口设备;利用多媒体控制接口 ( MCI) 可控制多媒体设备 。
下面对 Cakewalk Pro Audio 一些具有特色的功能作简单介绍。
Cakewalk的调音台可以自动混音,可以一边播放乐曲,一边记录控制键 ( 滑键 ) 的调整动作,而且多个控制键可以编组控制,这为制作渐强减弱效果提供了最为简单的操作手段 。
于所有连续变化的数据,例如弯音,调制,控制器,键速和速度等,Cakewalk都提供了手工划线的编辑方式,用鼠标划一条斜线或曲线便可随意改变数值 。 因此,对于像弯音轮的细微变化过程,速度的自由变化等之类较难处理的数据,在 Cakewalk中都变得异常简单 。
Cakewalk可以将其所有菜单操作命令赋予 MIDI键盘,也就是说,可以用合成器的键盘来控制软件的各种操作,其功能是所有音序软件中最全面的 。
Cakewalk可以将音符的位置,控制器的变化等 MIDI信息图形化地显示出来,因此看起来更加接近总谱 。
3.6 语音识别技术及应用
3.6.1 语音识别技术概述人的表达方式有多种,其中语音是最迅速、最常用和最自然的一种。让人们与,机器,也通过语言进行信息交流,则是科学家们多年来探索的领域。早在
70年代,国外就开始致力于语音识别技术的研究。经过近 30年的探索,语音识别技术经历了从最初的特定人、小词汇量、非连续、非独立扬声器的语音识别到今天的非特定人、大词汇量、连续、独立扬声器的语音识别的发展历程,而且识别速度和准确率都有极大提高。随着计算机科学和应用的飞速发展,语音技术已日益广泛地应用于实际中。
语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信。
目前语音识别的主要应用是通过 TTS( Text-
to-Speech,文本 ——语音转换器)和 SR
( Speech Recognition,语音识别器)实现的。
TTS和 SR是为应用开发者增加的两个用户接口设备,
开发者可将 TTS和 SR加入到应用程序中。
语音识别系统的性能通常用单词错误率 E来度量:
其中,N是测试集的单词总数,S,I 和 D分别是替代、插入和删除的总数。
3.6.2 文本 -语音转换器 TTS
TTS的基本概念文语转换( Text-to-Speech) 是将文本形式的信息转换成自然语音的一种技术,其最终目标是力图使计算机能够以清晰自然的声音,以各种各样的语言,甚至以各种各样的情绪来朗读任意的文本。也就是说,要使计算机具有象人一样、甚至比人更强的说话能力。
因而它是一个十分复杂的问题,涉及到语言学、韵律学、语音学、自然语言处理、信号处理、人工智能等诸多的学科。
%1 0 0 N DISE
TTS分为综合的和连贯的两种类型 。 综合的语音就是通过分析单词,由计算机确认单词的发音,然后这些音素就被输入到一个复杂的模仿人声音并发声的算法,这样就可以读文本了 。 通过这种方式,TTS就能读出任何单词,甚至自造的词,但是它发出的声音不带任何感情,带有明显的机器语音味道 。
连贯语音系统分析文本并从预先录好的文库里抽出单词和词组的录音 。 数字化录音是连贯的,因为声音是事先录制的语音,听起来很舒服 。 遗憾的是,如果文本包含没有录的词和短语,TTS就读不出来了 。 连贯 TTS可以被看成是一种声音压缩形式,因为单词和常用的短语只能录一次 。
连贯 TTS会节省开发时间并减少错误,使软件增加相应的功能 。 因为连贯 TTS只播放一个 WAV文件,所以它只用很少的处理能力 。
汉语文语转换的研究始于 60年代,最初发展较为缓慢,到了 70年代后期,随着计算机科学的发展,才有了较快的进步 。
总之,TTS系统最根本的问题便在于它的自然度,自然度是衡量一个 TTS系统好坏的最重要的指标 。 人们是无法忍受与自然语音相差甚远的机器语音的,自然度问题已经成为严重阻碍 TTS系统的推广和应用的桎梏 。 因此,研究更好的文语转换方法,提高合成语音的自然度就成为当务之急 。
TTS系统的组成与工作过程
TTS的基本工作过程是:输入的汉字文本经语言学和语音学处理,得到语流的控制参数,然后读取语音数据库,
再经语音信号处理,输出连续的语音。
汉语 TTS系统有三个主要的组成部分:文本分析模块、韵律分析模块、语音生成模块。
文本分析主要功能是利用分词知识库对文本进行语义、
语法和词法分析,进而知道哪些是短语或句子,哪些是词,
以及停顿等问题;语言学处理包括,文体分析还要将输入的文字转换成计算机能够处理的内部参数。
人类发音具有不同的声调、语气和停顿方式,发音的长短也不同。韵律生成提取出其中的韵律特征。以解决要发什么音,怎样发音的问题。韵律生成方法是采用基于规则的方法。
语音生成是根据韵律建模的结果,从原始语音库中取出相应的语音基元,利用特定的语音合成技术对语音基元进行韵律特性的调整和修改,最终合成符合要求的语音。
TTS的应用领域文语转换在各种计算机相关领域中有着广泛的应用前景。当今,人与计算机之间进行交互的最常规手段是通过键盘输入信息,通过屏幕或打印机以视觉形式输出信息。
这种方式不同于人与人之间通过语音来交流信息的自然的交往方式,因而不仅极大地限制了广大普通用户使用计算机,而且在某些特定场合使用起来也很不方便。因此,构造一个以语音为媒介与计算机进行交互的系统,即智能计算机界面,是人们长久以来的梦想,也是科技人员孜孜以求的目标。显然,智能计算机界面包括两个相对独立的部分:,倾听,部分,即语音识别;,诉说,部分,即文语转换。随着这两方面技术的不断发展,将会从根本上改善人机接口,从而使计算机以崭新的面貌进入人类生活,使计算机发挥出更大的作用。
除了人机交互,TTS系统在医疗、教育、通信、信息、
家电等领域也具有相当广泛的用途。目前,已经逐步实用化的有:
残障人士康复发声障碍者通过 TTS系统与其他人交谈。盲人通过 TTS系统进行,阅读,。
计算机训练利用 TTS系统对学生进行某些特殊的言语训练。利用 TTS系统进行教学。
信息服务利用 TTS系统通过电话查询信息。利用 TTS
系统通过电话接听 Email。 随着科学技术突飞猛进的发展,尤其是网络技术的迅速崛起、飞速发展,文语转换技术将在人类社会生活中有着越来越广泛的应用。
3.6.3 语音识别器语音识别器比 TTS更复杂,也较难以划分,但每个语音识别器都必须解决下列一些问题:
连续性与不连续性如果语音识别系统是连续的,用户就能正常地与系统对话;如果是不连续的,用户就需要字字停顿。显然,
连续语音识别( Continuous Speech Recognition) 比不连续的识别更受欢迎,但它却需要更多的处理能力。
单词量语音识别系统可以有或大或小的词汇量。词汇量小的识别系统需要用户发出简单的命令,而朗读文件时,
这一系统就必需有大的词汇量。大词汇量识别系统比小词汇量识别系统需要更多的处理能力和储存空间。
虽然日常生活中常用的词汇最多不超过一两万个,但每个专业的术语不少于几万条。
影响语音识别的因素:
口音识别音素作为组成单词的最小声音单位,与它们所出现的上下文密切相关。例如在美国英语中,字母 t在 two,
true,和 butter中的发声不同。其次,声音上的多变可能来自环境以及传感器的位置与特性。说话者本身也有一些可变因素,比如生理或者情绪状态,说话的速度,话音质量等等。最后,社会语言背景,方言,
以及声带大小与形状也会带来说话者之间的可变因素。
规则句式与自由句式识别结构化的句式比较容易,因为它有规则可循,有一定的范围;而人们说话大多采用任意句式,增加了计算机识别的难度。
识别速度的快慢与准确率的高低
3.6.4 语音识别的基本原理及过程语音识别属于模式识别,它与人的认知过程一样,语音识别分为训练和识别两个过程。在训练阶段,语音识别系统对人类的语言进行学习,学习结束把学习内容组成语音库存储起来;在识别阶段就可以把人们当前输入的语音在语音库中查找相应的词义或语义。
从信号处理的角度来看,任何一个语音识别系统都可以如图 4-13来表示。
图 3-13 语音识别系统框图
前端处理( Analysis System)
在语音识别系统中,前端处理的主要作用是对输入的语音进行分析,提取出包含语义的语音参量。此外,在孤立词识别中,前端处理还包括语音的端点检测。一般情况下,直接的语音波形信号由于包含太多的说话人特征和噪声等冗余信号,与人的听觉特征也不符合,并且数据量太大不利于词库的存储,因此波形信号不适合作语音识别的特征信号。
前端处理模拟训练 模版或模型模型分类 判决逻辑
模型训练( Pattern Training)
语音模型现在流行的有三种:动态规划(DTW)、隐马尔可夫(HMM)和神经网络。语音库中可以以每个词为一个模型,也可以以音素等为模型。在中小词量的识别系统中,一般以词为单位的较多;在大词汇量的情况时,多以音素为单位。语音识别的方法主要以语音模型的不同来区分。
模型识别( Pattern Classifier)
在识别阶段,前端处理后的语音特征参量进入该模块,根据不同的识别模型相应与词库中每个模型计算逻辑距离。
判决逻辑( Decision Logic)
在这个模块中确定识别的判决方式并最后确定识别结果。
根据不同的语音识别系统的类型,判决逻辑有简有繁。对于连续词的识别,该模块还完成词的上下文关联及语法判决。
3.6.5 中文语音识别软件 -ViaVoice
在国外早已出现了非连续语音识别技术,即要求使用者在语音录入时所读出的词汇间有一定停顿,使计算机能够逐个词地进行识别。但中文语音识别又有其特殊性和一定的难度,这是因为汉语句子中词和字的界限不分明,字在句子中有时作为独立的单字词,有时又作为词的语素,这使得计算机的词汇库很难应付这么多变化。更何况我们不能强迫人们在句子中的每个词间加上生硬的停顿。所以非连续语音识别技术对汉语而言并不实用,汉语识别只有采用连续语音识别
( Continuous Speech Recognition) 技术才行得通。
在语音识别领域,IBM在世界上一直处于领先地位,并在这一领域拥有一百多项专利。迄今为止,
共有 13种语言的连续语音识别产品。 1997年 9月,
IBM推出了 ViaVoice中文连续语音识别系统,引起人们的极大关注。这一高度智能化的语音系统是
IBM三十年的语音技术研究成果和本地人才智慧的结晶。它成功地解决了汉语同音字多、有声调、
口音复杂等难题,为汉字快速方便地输入提供了有效的方法,因而被广泛认为是汉字输入的重要里程碑。在 1999年底推出的 ViaVoice中文语音识别系统,除了具有非特定人、无限词汇量、连续语音识别、高识别率,专业文章智能分析、理解等强大的语音功能外,还为广大上网的用户提供了轻松上网的功能,实现网上语音聊天的梦想。
针对中文同音字多、有声调、词界不明、新词不断出现的特点,IBM的 ViaVoice的推出,给我国的中文连续语音识别技术的推广注入了催化剂。
有人称 ViaVoice是汉字输入的一次根本性革命,
使计算机向人性化迈出了重要的一步,是中文信息处理技术发展的一个重要里程碑。
ViaVoice中文语音识别系统,是在 Windows上使用的中文普通话语音识别听写系统及相应的开发工具。由于采用连续语音识别技术,汉字输入速度快且识别率高,无需指定说话人,无需专门训练,自由句式输入,每分钟可输入 150个汉字,平均识别率超过 90%,自定词组 32000个,用户可添加词组 28000个。可以说,ViaVoice中文版代表了当前汉语语音识别的最高水平。另外,ViaVoice
语音识别系统本身是智能化的,在不断使用的过程中,识别率也会不断地提高。
ViaVoice只是一个普及型产品,它可以满足人们日常的使用要求。如果再进一步发展 ViaVoice所采用的技术,可将 ViaVoice系统作为一个技术平台,再在这个平台上开发出一些特定行业的专用系统,向各个领域延伸,获得的应用还将更多。
3.6.6 中文语音识别技术的应用展望随着科学技术的发展,中文语音识别技术可以应用到 4个方面:语音到文字的转换输入系统、人机对话系统、人机控制系统和同声翻译系统。语音到文字转换系统是将人们所说的话逐字逐句地记录下来,它可以用于日常的文字输入工作,还可用于许多特定的场合,如会议记录整理、采访录音整理、电视台的时事字幕制作系统等等;人机对话会系统是指人和计算机在特定的领域中交换信息,以达到查询信息等任务。他可以用于各种信息咨询领域,如查询电力、电信和煤气等各种费用,咨询股票、天气、电话号码、航班车票等各种信息,方便人们通过电话快捷地获取各种信息;人机控制系统是指人们通过语音命令控制计算机,它可用于声音导航、工业控制等多个领域;同声翻译系统能够进行多语种之间的同声翻译,帮助不懂外语的人自由地与外国人交谈。
从现有的需求和技术条件来看,语音界面将会是未来操作系统的外壳。现在的技术已经发展到可以采用语音录入文字以及驱动字处理系统,甚至还出现了语音 Email。 在现实生活中,语音也正在逐步显示其强大的生命力。语音录入的速度和方便程度是其他任何方式所无法比拟的。
自动翻译电话全称自动同声翻译电话,是指两个说不同语言的人在打电话时,由电脑自动将一种语言翻译成另一种语言,并用声音传给对方,
不需通过第三方翻译就可直接对话,中间也不会因翻译而产生迟延,就如同国内打电话一样方便。
在信息产业为主流的今天,自动翻译电话的实现,
不再是遥远的幻梦。有关专家预测,自动翻译电话在 2005年前可实用化,2010年即将进入千家万户。
技术的发展为人们带来了极大的方便。可以预计,进入 21世纪,中文语音识别技术不仅会发展成为 PC上的标准应用平台或配置,而且会出现在越来越多的嵌入式系统中,用来解决各种形式的输入问题和复杂的操作问题。当自然语言理解技术成熟后,
中文语音识别技术将会得到更为广泛的应用,真正成为人们生活的一部分。可以想象,我们站在家门口说 "芝麻,开门 "的一天将不再遥远。