第 3章 音频信息处理
学习目标
l了解声音信号的特点, 存储格式及质量的度量方法
l理解音频信号压缩方法及音频编码标准
l掌握常用的音频处理软件对声音信号进行处理
l了解语音识别技术及其应用
3.1 音频信息处理基础
音频信息 在多媒体中的 应用 极为广泛, 视频图像配以娓
娓动听的音乐和语音 ; 静态或动态图像配以解说和背景音
乐 ; 立体声音乐可增加空间感 ; 游戏中的音响效果 等。
音频处理技术主要包括 电声转换、音频信号的存储、重
放技术、加工处理技术以及数字化音频信号的编码、压缩、
传输、存取、纠错等。
3.1.1 音频信号的特点
1.音频信号的分类
音频信号可分为两类:语音信号和非语音信号 。
语音 是语言的物质载体,是社会交际工具的符号,它包含了丰
富的语言内涵,是人类进行信息交流所特有的形式。
非语音信号 主要包括音乐和自然界存在的其他声音形式。非语
音信号的特点是不具有复杂的语义和语法信息,信息量低、识
别简单。
规则音频 是一种连续变化的模拟信号,可用一条连续的曲线
来表示,称为 声波 。因声波是在时间和幅度上都连续变化的量,
我们称之为 模拟量 。
用声音录制软件记录的英文单词, Hello”的语音实际波形
2.模拟音频信号的两个重要参数
模拟音频信号有两个重要参数,频率和幅度 。声音的频率
体现音调的高低,声波幅度的大小体现声音的强弱。
一个声源每秒钟可产生成百上千个波,我们把每秒钟波峰
所发生的数目称之为信号的 频率,单位用赫兹 (Hz)或千赫兹
(kHz)表示。 信号的幅度 是从信号的基线到当前波峰的距离。
幅度决定了信号音量的强弱程度。幅度越大,声音越强。对音
频信号,声音的强度用分贝 (dB)表示,分贝的幅度就是音量。
幅度限
周期
基线
3,声音的 A/D与 D/A转换
A/D转换 就是把模拟信号转换成数字信号的过程,模拟电信号
变为了由, 0”和, 1”组成的 Bit信号。这样做的好处是显而易
见的,声音存储质量得到了加强,数字化的声音信息使计算
机能够进行识别、处理和压缩 。
A/D转换的一个关键步骤是声音的 采样和量化,得到数字音频
信号,它在时间上是不连续的离散信号。
借助于 A/D或 D/A转换器,模拟信号和数字信号可以互相转换。
4,声音的三要素
1) 音调,代表了声音的高低 。 音调与频率有关, 频率越高,
音调越高, 反之亦然 。
读者也许有这样的经验,当提高磁带录音机的转速时,其
旋转加快,声音信号的频率提高,其喇叭放出来声音的音调
提高了。同样,在使用音频处理软件对声音的频率进行调整
时,也可明显感到音调随之而产生的变化。各种不同的声源
具有自己特定的音调,如果改变了某种声源的音调,则声音
会发生质的转变,使人们无法辨别声源本来的面目。
2) 音色,即特色的声音 。 声音分 纯音 和 复音 两种类型 。 所
谓纯音, 是指振幅和周期均为常数的声音;复音则是具有不同
频率和不同振幅的混合声音 。 大自然中的声音绝大部分是复音 。
在复音中, 最低频率的声音是, 基音,, 它是声音的基调 。 其
他频率的声音称为, 谐音,, 也叫 泛音 。 基音和谐音是构成声
音音色的重要因素 。 各种声源都具有自己独特的音色, 例如各
种乐器的声音, 每个人的声音, 各种生物的声音等, 人们就是
依据音色来辨别声源种类的 。
3)音强,声音的强度,也被称为声音的响度,常说的, 音量,
也是指音强。音强与声波的振幅成正比,振幅越大,强度越大。
唱盘,CD激光盘以及其他形式声音载体中的声音强度是一定的,
通过播放设备的音量控制,可改变聆听时的响度。
声音的频谱有线性频谱和连续频谱之分 。 线性频谱 是具有
周期性的单一频率声波; 连续频谱 是具有非周期性的带有
一定频带所有频率分量的声波 。 纯粹的单一频率的声波只
能在专门的设备中创造出来, 声音效果单调而乏味 。 自然
界中的声音几乎全部属于非周期性声波, 该声波具有广泛
的频率分量, 听起来声音饱满, 音色多样且具有生气 。
5.声音的频谱
3.1.2 模拟音频的数字化过程
数字化的声音易于用计算机软件处理,现在几乎所有的专
业化声音录制、编辑器都是数字方式。对模拟音频数字化过程
涉及到 音频的采样、量化和编码。
采样和量化的过程可由 A/D转换器 实现 。 A/D转换器以固定的
频率去采样,即每个周期测量和量化信号一次。经采样和量化
后声音信号经编码后就成为数字音频信号,可以将其以文件形
式保存在计算机的存储介质中,这样的文件一般称为 数字声波
文件 。
模拟信号的数字化过程
1 0 0 1 0 1 1 0 0 0 1 1 1 0 1
信息论的奠基者香农( Shannon)指出,在一定条件下,用
离散的序列可以完全代表一个连续函数,这是采样定理的基本
内容。
为实现 A/D转换,需要 把模拟音频信号波形进行分割, 这种
方法称为采样 (Sampling)。 采样的过程是每隔一个时间间隔在
模拟声音的波形上取一个幅度值,把时间上的连续信号变成时
间上的离散信号。该时间间隔称为采样周期,其倒数为采样频
率。 采样频率 是指计算机每秒钟采集多少个声音样本。
1,采样
采样频率与声音频率之间有一定的关系,根据奈奎斯特
( Nyquist)理论,只有采样频率高于声音信号最高频率的两
倍时,才能把数字信号表示的声音还原成为原来的声音 。
2ffs ?
采样只解决了音频波形信号在 时间坐标 (即横轴 )上把一个波
形切成若干个等分的数字化问题,但是还需要用某种数字化的
方法来反映某一瞬间声波幅度的电压值大小。该值的大小影响
音量的高低。我们把 对声波波形幅度的数字化表示称之为, 量
化, 。
量化的过程 是先将采样后的信号按整个声波的幅度划分成
有限个区段的集合,把落入某个区段内的样值归为一类,并赋
于相同的量化值。如何分割采样信号的幅度呢? 我们还是采取二
进制的方式,以8位 (bit)或 16位 (bit)的方式来划分纵轴 。也就是
说在一个以 8位为记录模式的音效中,其纵轴将会被划分为个量
化等级,用以记录其幅度大小。
2,量化
以下图所示的原始模拟波形为例进行采样和量化。假设采样
频率为 1000次 /秒,即每 1/1000秒 A/D转换器采样一次,其幅度被
划分成 0到 9共 10个量化等级,并将其采样的幅度值取最接近 0~ 9
之间的一个数来表示,如下图所示。图中每个正方形表示一次
采样。
D/A转换器 从上图得到的数值中重构原来信号时,得到下
图中蓝色 (直线段 )线段所示的波形。从图中可以看出,蓝色线
与原波形 (红色线 )相比,其波形的细节部分丢失了很多。这意
味着重构后的信号波形有较大的失真。
失真 在采样过程中是不可避免的,如何减少失真呢?可以直
观地看出,我们可以把上图中的波形划分成更为细小的区间,即
采用更高的采样频率。同时,增加量化精度,以得到更高的量化
等级,即可减少失真的程度。在下图(左)中,采样率和量化等
级均提高了一倍,分别为 2000次 /秒和 20个量化等级。在下图(右)
中,采样率和量化等级再提高了一倍,分别达到 4000次 /秒和 40个
量化等级。从图中可以看出,当用 D/A转换器重构原来信号时
(图中的轮廓线),信号的失真明显减少,信号质量得到了提高。
3,编码
模拟信号量经过采样和量化以后,形成一系列的离散信
号 —— 脉冲数字信号。这种脉冲数字信号可以一定的方式进行
编码,形成计算机内部运行的数据。所谓 编码,就是按照一定
的格式把经过采样和量化得到的离散数据记录下来,并在有用
的数据中加入一些用于纠错、同步和控制的数据 。在数据回放
时,可以根据所记录的纠错数据判别读出的声音数据是否有错,
如在一定范围内有错,可加以纠正。
编码的形式比较多,常用的编码方式是 PCM—— 脉冲调制。
脉冲编码调制( PCM)是把模拟信号变换为数字信号的一种调
制方式,即把连续输入的模拟信号变换为在时域和振幅上都离
散的量,然后将其转化为代码形式传输或存储 。
3.1.3 数字音频的文件格式
在多媒体技术中,存储音频信息的文件格式主要
有,WAV文件,VOC文件和 MP3文件等。
1,WAV文件
WAV文件又称波形文件,来源于对声音模拟波形
的采样,并以不同的量化位数把这些采样点的
值轮换成二进制数,然后存入磁盘,这就产生
了波形文件。 WAV文件用于保存 Windows平台的
音频信息资源,被 Windows平台及其应用程序所
广泛支持。
WAV声音文件是使用 RIFF( Resource Interchange File
Format资源交换文件 ) 的格式描述的, 它由文件头和波形
音频文件数据块组成 。 文件头包括标志符, 语音特征值,
声道特征以及 PCM格式类型标志等 。 WAV数据块是由数据子
块标记, 数据子块长度和波形音频数据 3个数据子块组成 。
Wave格式支持 多种 压缩算法,支持多种音频位数、采样
频率和声道,是 PC机上最为流行的声音文件格式,但其文
件尺寸较大,多用于存储简短的声音片断。
未压缩的声音文件的存储量 可用下式计算:
存储量( KB) =(采样频率 KHZ× 采样位数 bit× 声道数 × 时间秒) /8
2.VOC文件
VOC文件是 Creative公司所使用的标准音频文件格式,
多用于保存 Creative Sound Blaster(创新声霸 )系列声卡所采
集的声音数据,被 Windows平台和 DOS平台所支持。
与 WAV格式类似,VOC文件由文件头块和音频数据块组成。
文件头包含一个标识、版本号和一个指向数据块起始地址
的指针,这个指针帮助数据块定位以便顺利找到第一个数
据块。数据块分成各种类型的子块,如声音数据、静音、
标记,ASCII码文件、重复、重复的结束及终止标记等。
3.MPEG音频文件 ——,MP1/.MP2/.MP3
这里的音频文件格式指的是 MPEG标准中的音频部分,即
MPEG音频层 (MPEG Audio Layer)。 MPEG音频文件的压缩是
一种有损压缩,根据压缩质量和编码复杂程度的不同可分
为三层 (MPEG Audio Layer 1/2/3),分别对应 MP1,MP2和 MP3
这三种声音文件;
MPEG音频编码具有很高的压缩率, MP1和 MP2的压缩率分
别为 4∶ 1和 6∶ 1~ 8∶ 1,而 MP3的压缩率则高达 10∶ 1~
12∶ 1,也就是说一分钟 CD音质的音乐, 未经压缩需要
10MB存储空间, 而经过 MP3压缩编码后只有 1MB左右, 同
时其音质基本保持不失真 。
4,RealAudio文件 ——,RA/.RM/.RAM
RealAudio文件是 RealNetworks公司开发的一种新
型流式音频 (Streaming Audio)文件格式;它包含在
RealNetworks所制定的音频、视频压缩规范 RealMedia
中,主要用于在低速率的广域网上实时传输音频信
息;网络连接速率不同,客户端所获得的声音质量
也不尽相同:对于 28.8kb/s的连接,可以达到广播级
的声音质量;如果拥有 ISDN或更快的线路连接,则
可获得 CD音质的声音。
5.AIFF文件 ——,AIF/.AIFF
AIFF是音频交换文件格式 (Audio Interchange
File Format)的英文缩写,是苹果计算机公司
开发的一种声音文件格式;被 Macintosh平台
及其应用程序所支持,其他专业音频软件
包也同样支持这种格式。
3.1.4 声音质量的评价
目前有三种方法可以衡量声音的质量。一是用声音信号的带宽
来衡量声音的质量,等级由高到低依次是 DAT,CD,FM,AM和数
字电话。此外,声音质量的度量还有两种基本的方法:一种是
客观质量度量,另一种是主观质量度量。评价语音质量时,有
时同时采取两种方法评估,有时以主观质量度量为主。
1.以声音的带宽衡量声音的质量
2,声音客观质量的度量
声音客观质量的度量主要用信噪比 (signal to niose
ratio,SNR)来度量。它指音源产生最大不失真声音信
号强度与同时发出噪音强度之间的比率,通常以 S/N表
示。一般用分贝( dB)为单位,信噪比越高表示音频
质量越好。 信噪比 (SNR)用下式计算,SNR= 10 log
[(Vsignal)2 / (Vnoise)2]= 20 log (Vsignal / Vnoise)
其中,Vsignal表示信号电压,Vnoise表示噪声电压; SNR的单位
为分贝 (db)。
3,声音主观质量的度量
与用 SNR客观质量度量相比较, 应该可以说人的感觉 (如
听觉, 视觉等 )更具有决定意义, 感觉上的, 主观上的测试
应该成为评价声音质量和图像质量不可缺少的部分 。 而有
的学者则认为, 在语音和图像信号编码中使用主观质量度
量比使用客观质量度量更加恰当, 更有意义 。 可是一般来
说, 可靠的主观度量值也是比较难获得的, 所获得的值也
是一个相对值 。
对声音主观质量度量比较通用的标准是 5分制, 优
(Excellent),良 (Good), 中 (Fair), 差 (Poor), 劣 (Bad) 。
3.2音频信号压缩技术
音频信号压缩编码的主要依据是人耳的听觉特性,主要有两点:
1.人的听觉系统中存在一个 听觉阈值电平,低于这个电平的声
音信号人耳听不到,
2.人的听觉存在 屏蔽效应 。当几个强弱不同的声音同时存在时,
强声使弱声难以听到,并且两者之间的关系与其相对频率的大
小有关,
声音编码算法就是通过这些特性来 去掉更多的冗余数据,来
达到压缩数据的目的。
3.2.1 脉冲编码调制
1.编码的原理
它的原理框图下图所示
3.2.1 脉冲编码调制
1.编码的原理
它的原理框图下图所示
? 模拟信号数字化一般有三个步骤:第一步是采样,就是每
隔一段时间间隔读一次声音的幅度;第二步是量化,就是
把采样得到的声音信号幅度转换成数字值。但那时并没有
涉及如何进行量化。量化有好几种方法,但可归纳成两类:
一类称为均匀量化,另一类称为非均匀量化。采用的量化
方法不同,量化后的数据量也就不同。因此,可以说量化
也是一种压缩数据的方法;第三步是编码,就是按一定格
式记录采样和量化后的数据。
2.均匀量化
? 采用相同的, 等分尺, 来度量采样得到的幅度,也称为线
性量化,如图 3-4所示。量化后的样本值 Y和原始值 X的差
? E=Y-X称为量化误差或量化噪声。
3.非均匀量化
? 对输入信号进行量化时,大的输入信号采用大的量化间隔,
小的输入信号采用小的量化间隔,如图 3-5所示。
一个 CD— DA采用脉冲编码调制 PCM编码的实例
? 首先用一组脉冲采样时钟信号与输入的模拟音频信号相乘,
相乘的结果即输入信号在时间轴上的数字化。然后对采样
以后的信号幅值进行量化。最简单的量化方法是均衡量化,
这个量化的过程由量化器来完成。对经量化器 A/D变换后的
信号再进行编码,即把量化的信号电平转换成二进制码组,
就得到了离散的二进制输出数据序列 x(n),n表示量化的时
间序列,x(n)的值就是 n时刻量化后的幅值,以二进制的形
式表示和记录。
3.2.2 增量调制
它是一种预测编码技术,是 PCM编码的一种变形。 DM是
对实际的采样信号与预测的采样信号之差的极性进行编码,
将极性变成, 0”和, 1”这两种可能的取值之一。如果实际的
采样信号与预测的采样信号之差的极性为, 正,,则用, 1”
表示;相反则用, 0”表示,或者相反。
图 3-7 DM波形示意图
? 从上图中可以看到,在开始阶段增量调制器的输出不能保持
跟踪输入信号的快速变化,这种现象称为增量调制器的, 斜
率过载, (slope overload)。
? 在输入信号缓慢变化部分,即输入信号与预测信号的差值接
近零的区域,增量调制器的输出出现随机交变的, 0”和, 1”。
这种现象称为增量调制器的粒状噪声 (granular noise),这种
噪声是不可能消除的。
? 在输入信号变化快的区域,斜率过载是关心的焦点,而在输
入信号变化慢的区域,关心的焦点是粒状噪声。
?
3.2.3 自适应脉冲编码调制
? 是根据输入信号幅度大小来改变量化阶大小的一种波形编码
技术 。 这种自适应可以是瞬时自适应, 即量化阶的大小每隔
几个样本就改变, 也可以是非瞬时自适应, 即量化阶的大小
在较长时间才发生变化 。
? 改变量化阶大小的方法有两种:一种称为前向自适应, 后向
自适应 。 前者是根据未量化的样本值的均方根值来估算输入
信号的电平,以此来确定量化阶的大小,并对其电平进行编
码作为边信息 (side information)传送到接收端。后者是从
量化器刚输出的过去样本中来提取量化阶信息。
? (a) 前向自适应
(b) 后向自适应
3.2.4 差分脉冲编码调制
? 是利用样本与样本之间存在的信息冗余度来进行编
码的一种数据压缩技术。差分脉冲编码调制的思想
是,根据过去的样本去估算 (estimate)下一个样本
信号的幅度大小,这个值称为预测值,然后对实际
信号值与预测值之差进行量化编码,从而就减少了
表示每个样本信号的位数。它与脉冲编码调制 (PCM)
不同的是,PCM是直接对采样信号进行量化编码,而
DPCM是对实际信号值与预测值之差进行量化编码,
存储或者传送的是差值而不是幅度绝对值。
? 差分脉冲编码调制的概念示于图 3-9。图中的
差分信号 d(k)是离散输入信号 s(k)和预测器输
出的估算值 se(k-1)之差。注意,se(k-1)是对
s(k)的预测值,
3.2.5 自适应差分脉冲编码调制
? 综合了 APCM的自适应特性和 DPCM系统的差分特性,是
一种性能比较好的波形编码。它的核心想法是:①利
用自适应的思想改变量化阶的大小,即使用小的量化
阶 (step-size)去编码小的差值,使用大的量化阶去编
码大的差值,② 使用过去的样本值估算下一个输入样本
的预测值,使实际样本值和预测值之间的差值总是最
小。它的编码简化框图如图 3-10所示。
3.3 音频编码标准
? 3.3.1 CCITT G系列声音压缩标准
? CCITT和 ISO先后提出了一系列有关语音数据编译码标准,下
面简要介绍几种音频编码技术标准 。
? 1.电话质量的音频压缩编码技术标准
? 信号频率规定在 300Hz~ 3.4kHz,采用标准的脉冲
编码调制 (PCM),当采样频率为 8kHz,进行 8bit量
化时,所得数据速率为 64kb/s,即一个数字电话。
1972年 CCITT为电话质量和语音压缩制定了 PCM标
准 G.711,其速率为 64Kb/ s,使用非线性量化技术,
主要用于公共电话网中。
? 2.调幅广播质量的音频压缩编码技术标准
? 频率在 50Hz一 7kHz范围。 G.722标准是采用 16kHz采样,
14bit量化,信号数据速率为 224kbit/ s,采用子带编码
方法,将输入音频信号经滤波器分成高子带和低子带两
个部分,分别进行 ADPCM编码,再混合形成输出码流,
224kbit/ s可以被压缩成 64kbit/ s,最后进行数据插入
(最高插入速率达 16kbit/ s),因此利用 G.722标准可以
在窄带综合服务数据网 N-ISDN中的一个 B信道上传送调幅
广播质量的音频信号。
3,高保真度立体声音频压缩编码技术标准
? 高保真立体声音频信号频率范围是 50Hz~ 20kHz,采用
44,1kHz采样频率, 16bit量化进行数字化转换, 其数据速率
每声道达 705kbit/ s。 1991年国际标准化组织 ISO和 CCITT开
始联合制定 MPEG标准, 其中 ISOCDlll72-3作为, MPEG音频,
标准, 成为国际上公认的高保真立体声音频压缩标准 。 MPEG
音频第一和第二层次编码是将输入音频信号进行采样频率为
48kHz,44.1kHz,32kHz的采样, 经滤波器组将其分为 32个子
带, 同时利用人耳屏蔽效应, 根据音频信号的性质计算各频
率分量的人耳屏蔽门限, 选择各子带的量化参数, 获得高的
压缩比 。 MPEG第三层次是在上述处理后再引入辅助子带, 非
均匀量化和熵编码技术, 再进一步提高压缩比 。 MPEG音频压
缩技术的数据速率为每声道 32~ 448kbit/ s,适合于 CD- DA
光盘应用 。
? 3.3.2 MP3压缩技术
? MP3的全名是 MPEG Audio Layer-3,简单地说就是一种声音
文件的压缩格式。
? ISO/MPEG音频压缩标准里包括了三个使用高性能音频数据
压缩方法的感知编码方案, 按照压缩质量 (每 Bit的声音效
果 )和编码方案的复杂程度分别是 Layer1,Layer2,Layer3。
所有这三层的编码采用的基本结构是相同的。它们在采用
传统的频谱分析和编码技术的基础上还应用了子带分析和
心理声学模型理论。也就是通过研究人耳和大脑听觉神经
对音频失真的敏感度,在编码时先分析声音文件的波形,
利用滤波器找出噪音电平 (Noise Level),然后滤去人耳不
敏感的信号,通过矩阵量化的方式将余下的数据每一位打
散排列,最后编码形成 MPEG的文件。而音质听起来与 CD相
差不大。
? MPEG的层次与压缩比率
Layer1(相当于 384kbps立体声信号 ) 4:1
Layer2(相当于 192~256kbps立体声信号 ) 6:1~8:1
Layer3 (相当于 112~154kbps立体声信号 ) 10:1~12:1
? 3.3.3 MP4压缩技术
? MP4并不是 MPEG-4或者 MPEG-1Layer4,它的出现是针对 MP3的
大众化, 无版权的一种保护格式, 由美国网络技术公司开发,
美国唱片行业联合会倡导公布的一种新的网络下载和音乐播
放格式 。
? MP4使用的是 MPEG-2 AAC技术也就是俗称的 a2b或 AAC。 其中,
MPEG-2是 MPEG于 1994年 11月针对数码电视 (数码影像 )提出的 。
它的特点就是, 音质更加完美而压缩比更加大 (1:15)。
MPEG-2 AAC(ISO/IEC 13818-7)在采样率为 8~ 96KHz下提供
了 1~ 48个声道可选范围的高质量音频编码 。 AAC就是
Advanced Audio Coding(先进音频编码 )的意思, 适用于从
比特率在 8kbit/s单声道的电话音质到 160kbit/s多声道的超
高质量音频范围内的编码, 并且允许对多媒体进行编码 /解
码 。
? AAC与 MP3相比,增加了诸如对立体声的完美再现、比特
流效果音扫描、多媒体控制、降噪优异等 MP3没有的特性,
使得在音频压缩后仍能完美的再现 CD音质。
? AAC技术主要由以下三个部分组成。第一,AT&T的音频
压缩技术专利。它可以将 AAC压缩比提高到 20:1而不损失
音质。这样,一首 3分钟的歌仅仅需要 2.25MB,这在互联
网上的下载速度是很惊人的。第二、安全数据库。它可以
为你的 AAC Music创建一个特定的密钥,将此密钥存于其
数据库中。同时,只有 AAC的播放器才能播放含有这种密
钥第三、协议认证。这个认证包含了复制许可、允许复制
副本数目、歌曲总时间、歌曲可以播放时间以及售卖许可
等信息。
? MP4技术的优越性要远远高于 MP3,因为它更适合多媒体技
术的发展以及视听欣赏的需求。但是,MP4是一种商品,它
利用改良后的 MPEG-2 AAC技术并强加上由出版公司直接授
权的知识产权协议作为新的标准;而 MP3是一种自由音乐格
式,任何人都可以自由使用。此外,MP4实际上是由音乐出
版界联合授意的官方标准; MP3则是广为流传的民间标准。
相比之下,MP3的灵活和自由度要远远大于 MP4,这使得音
乐发烧友们更倾向于使用 MP3。更重要的一点是,MP3是目
前最为流行的一种音乐格式,它占据着大量的网络资源,
这使得 MP4的推广普及难上加难。
3.3.4乐器数字接口 MIDI
? 产生 MIDI乐音的方法很多, 现在用得较多的方法有两种:一
种是频率调制 (frequency modulation,FM)合成法, 另一种
是乐音样本合成法, 也称为波形表 (Wavetable)合成法 。 这
两种方法目前主要用来生成音乐 。
? FM合成器生成乐音的工作原理 主要是把几种乐音的波形用
数字来表达,并且用数字计算机而不是用模拟电子器件把它
们组合起来,通过数模转换器 (digital to analog convertor,
DAC)来生成乐音。但是使用 FM合成法来产生各种逼真的乐
音是相当困难的,有些乐音几乎不能产生。
? 乐音样本合成法就是把真实乐器发出的声音以数字的形式记
录下来,播放时改变播放速度,从而改变音调周期,生成各
种音阶的音符。乐音样本的采集相对比较直观。
? MIDI协议 提供了一种标准的和有效的方法,用来
把演奏信息转换成电子数据。
? MIDI信息是以, MIDI messages”传输的,它可以
被认为是告诉音乐合成器 (music synthesizer)如
何演奏一小段音乐的一种指令,而合成器把接收到
的 MIDI数据转换成声音。国际 MIDI协会
(International MIDI Association)出版的 MIDI
1.0规范对 MIDI协议作了完整的说明。
MIDI数据流 是单向异步的数据位流 (bit stream),其速率
为 31.25 kbps,每个字节为 10位 (1位开始位,8位数据位
和 1位停止位 )。 MIDI乐器上的 MIDI接口通常包含 3种不同
的 MIDI连接器,用 IN(输入 ),OUT(输出 )和 THRU(穿越 )。
MIDI数据流通常由 MIDI控制器 (MIDI controller)产生,
如乐器键盘 (musical instrument keyboard),或者由
MIDI音序器 (MIDI sequencer)产生。 MIDI控制器是当作乐
器使用的一种设备,在播放时把演奏转换成实时的 MIDI数
据流,MIDI音序器是一种装置,允许 MIDI数据被捕获、存
储、编辑、组合和重奏。来自 MIDI控制器或者音序器的
MIDI数据输出通过该装置的 MIDI OUT连接器传输。
3.4 常用音频处理软件简介
3.4.1 Cool Edit Pro
CoolEdit Pro是著名的
Syntrillium公司开发的
数字音频处理软件,其
运行环境为 Windows启动
后其界面如右图所示 。
CoolEdit Pro的 主要特色有:
(1).支持的音频格式十分丰富,多达十余种,还提供了
对 5种不同类型 WAV文件的支持。
(2).提供丰富的特殊效果 。包括 3D混响、降噪、滤波、
音频缩 /放、合声、延迟、变形、反转、静音等。
(3).提供了强大的 DSP(数字信号处理)能力。能够同时
处理 64条音轨。 支持录音、回放、混音、音频编辑。借
助它,能够方便地制作出自己想要的任何特殊音效,并
添加到各种类型的多媒体作品中去。
(4).操作界面设计简捷方便 。在工具栏中,提供了 56个
图形化按钮。几乎所有的编辑操作都能够方便地进行操
作。
3.4.2 Gold Wave
GoldWave的窗口界面如图 下图 所示。
GoldWave是一款相当不错的数码录音及编辑软件,除了
附有许多的效果处理功能外,它还能将编辑好的文件存为
WAV,AU,SND,RAW和 AFC等格式,而且它可以不经由
声卡直接抽取 SCSI形式的 CD ROM中的音乐来录制编辑。
作为 Wave文件编辑处理工具,支持从 MP3,MPG,AVI、
ASF,MOV等文件中提取音频进行编辑,所以除了它强大的
编辑功能外,用作把以上格式的音频转换成 WAV文件也是很
方便的。
GoldWave同时是较新的、适合于一般进行音频素材采集与制
作的软件,它集音频录制和编辑于一体,不仅是一个录音程
序,可以很方便地制作 CAI课件的背景音乐、音效、录制 CD、
转换音乐格式等,而且还具有各种复杂的音乐编辑和特效处
理功能。该软件不需要安装,只要运行程序文件夹中的可执
行程序即可。 GoldWave小巧玲珑,只有 600K左右,可从
http://www.goldwave.com下载。
3.4.3 CakeWalk(音乐大师)
作为一种图形化的音乐编 辑软件, CakeWalk的主要工作界面就是各种工作
窗口, 我们对 MIDI事件和音频事件的所有编辑和操作都是在工作窗口中完
成的 。 如下图所示, 音轨窗既是 CakeWalk主界面的主要组成部分, 也是重
要的工作窗口 。 类似的还有钢琴窗帘, 事件列表窗, 调音台窗等, 每个窗
口各有所长, 分别适用于不同的编辑对象和编辑特征 。
1,Cakewalk的调音台 可以自动混音, 可以一边播放乐曲, 一边
记录控制键 ( 滑键 ) 的调整动作, 而且多个控制键可以编组
控制, 这为制作渐强减弱效果提供了最为简单的操作手段 。
2.对于所有连续变化的数据, 例如弯音, 调制, 控制器, 键速
和速度等, Cakewalk都 提供了手工划线的编辑方式, 用鼠标
划一条斜线或曲线便可随意改变数值 。 因此, 对于像弯音轮
的细微变化过程, 速度的自由变化等之类较难处理的数据,
在 Cakewalk中都变得异常简单 。
3.Cakewalk可以将其所有菜单操作命令赋予 MIDI键盘, 也就是
说, 可以用合成器的键盘来控制软件的各种操作, 其功能是
所有音序软件中最全面的 。
4,Cakewalk可以 将音符的位置, 控制器的变化等 MIDI信息图形
化地显示出来, 因此看起来更加接近总谱 。
Cakewalk Pro Audio的 一些特色功能
3.5波形音频文件的采集与制作
3.5.1利用, 录音机, 生成和编辑波形文件
Windows录音机的主要功能是录音和放音, 使用, 录音机,
可以录制, 混合, 播放和编辑声音, 也可以将声音链接或插
入到另一文档中 。 其主要功能操作如下所述:
( 1) 波形文件的录制:确保音频输入设备已经连接到计算机 。
录音机常用的输入设备是麦克风和 CD-ROM播放机 。
( 2) 波形文件的存储:存储的文件格式为波形 (,wav) 文件 。
( 3) 声音的编辑:复制, 粘贴, 插入, 删除等操作 。
( 4)音频变换与特殊效果:更改声音的大小、速度、回音等。
? Cool Edit Pro是一种非常出色的声音编辑器, 其主要功能
操作如下所述 。
? ( 1) 波形文件的录制:录制及录制参数 ( 采样率, 量化
位数, 单双声道等 ) 的设定 。
? ( 2 ) 波 形 文 件 的 存 储, 存 储 的 文 件 格 式
(,wav,.au,.smp,.asf,.wma等 ) 的选择, 文件格式与
参数 ( 采样率, 量化位数, 单双声道 ) 的变换 。
? ( 3) 波形文件选定范围播放, 记录播放时间 。
? ( 4) 声音的编辑:剪切, 拷贝, 混合粘贴, 插入多轨工
程, 插入多轨播放列表, 删除静音, 零点定位, 确定节拍
等 。
? ( 5) 声音的变换与特殊效果:降噪, 扩音, 剪接, 添加
立体环绕, 淡入淡出, 3D回响等音效 。
3.5.2用 Cool Edit Pro编辑制作波形文件
3.6 声音文件格式的互换
1,选择声音文件格式的部分原则
1) Wav文件,不仅所有的 Windows的音效处理应用程序都可
以播放 WAVE文件, 而且常见的各种多媒体编辑制作软件的
音效播放都能直接使用 WAV文件 。 再者, WAV格式的音质效
果也不错 。
? 2) MP3文件, 如果通过适当的工具来截取 CD上的数字音
频并保存为 CD音质的 WAVE文件, 然后进行 MPEG Layer 3的
压缩编码形成 MP3文件, 再用合适的解码软件对 MP3解码 。
那么可以形成一个节约大量存储空间, 保持 CD音质的整体
解决方案 。
? 3) MIDI文件,是多媒体计算机产生音频 ( 特别是音乐 ) 的
另一种主要方式, 可以满足需要长时间音乐的场合 。
? 4) SWA文件,SWA格式的音乐文件,是 Authorware4.0以上
版本支持的特殊音乐格式,它的容量类似于流行的 MP3,也
非常小。在 Authorware4.0或 4.0以上版本中,自带
WAV→SWA 转换器,
3.6.2转换 CD音轨
下面以比较常用的 CDCopy为例来说明一下如何转换 CD音
轨。 CDCopy是一个常用的抓音轨工具,它对烂盘的纠错性
能非常好,还可以把 CD音轨转换为 WAV,AU,RA、
Yamaha VQF,AAC,MP3等多种声音格式,而且 CDCopy
是一个共享软件,我们可以从 http://cdcopy.actadivina.com下
载到它的最新版本。 抓取及转换音轨 步骤分以下 3步:
?1.选择文件格式
? 2.设置文件保存路径
?3.转换音轨
? 3.7.1语音识别的发展历史
? 可以将语音识别近六十年的发展历史划分为 4
个时期:
? ( 1) 初始发展期
? ( 2) 基础突破期
? ( 3) 综合发展期
? ( 4) 成熟期
3.7 语音识别技术及应用
3.7.2语音识别技术
? 语音识别以语音为研究对象,是语音信号处理的一
个重要研究方向,是模式识别的一个分支,其目的
就是要让机器具有人的听觉功能,在人机语音通讯
中, 听懂, 人类口述的语言。根据不同的需求,语
音识别的识别内容可分为狭义的语音识别和说话人
语音识别 。
1.语音识别技术的基础
一个完整的语音识别系统可大致分为三部分:
( 1)语音特征提取,其目的是从语音波形中提取出随时间变
化的语音特征序列。
( 2)声学模型与模式匹配(识别算法),声学模型通常将获
取的语音特征通过学习算法产生。在识别时将输入的语音特
征同声学模型(模式)进行匹配与比较,得到最佳的识别结
果。
( 3)语言模型与语言处理,语言模型包括由识别语音命令构
成的语法网络或由统计方法构成的语言模型,语言处理可以
进行语法、语义分析。对小词表语音识别系统,往往不需要
语言处理部分。
声学模型 是识别系统的底层模型,并且是语音识别系统中
最关键的一部分。声学模型的目的是提供一种有效的方法计算
语音的特征矢量序列和每个发音模板之间的距离。声学模型的
设计和语言发音特点密切相关。声学模型单元大小(字发音模
型、半音节模型或音素模型)对语音训练数据量大小、系统识
别率,以及灵活性有较大的影响。必须根据不同语言的特点、
识别系统词汇量的大小决定识别单元的大小。
语言模型 对中、大词汇量的语音识别系统特别重要。当
分类发生错误时可以根据 语言学模型、语法结构、语义学 进
行判断纠正,特别是一些同音字则必须通过上下文结构才能
确定词义。语言学理论包括语义结构、语法规则、语言的数
学描述模型等有关方面。目前比较成功的语言模型通常是采
用 统计语法的语言模型 与 基于规则语法结构命令语言模型 。
语法结构可以限定不同词之间的相互连接关系,减少了识别
系统的搜索空间,这有利于提高系统的识别。
2.语音识别的基本原理
预处理 包括语音信号采样、反混叠带通滤波、去除个体发音
差异和设备、环境引起的噪声影响等,并涉及到语音识别基元的
选取和端点检测问题:
特征提取部分 用于提取语音中反映本质特征的声学参数,如
平均能量、平均跨零率、共振峰等;
训练 在识别之前进行,通过让讲话者多次重复语音,从原始
语音样本中去除冗余信息,保留关键数据,再按照一定规则对数
据加以聚类,形成模式库;
模式匹配部分 是整个语音识别系统的核心,它是根据一定的
准则(如某种距离测度)以及专家知识(如构词规则、语法规则、
语义规则等),计算输入特征与库存模式之间的相似度,判断出
输入语音的语意信息。
3,处理的方法:
(1) 连续语音流的预处理
·波形硬件采样率的确定, 分帧大小与帧移策略的确定;
·剔除噪声的带通滤波, 高频预加重处理, 各种变换策略;
·波形的自动切分 (依赖于识别基元的选择方案 )。
(2) 特征参数提取
识别语音的过程,实际上是对语音特征参数模式的比较和匹配
的过程。语音特征参数的选取对系统识别结果起着重要的作用。
因此,必须寻找一个既能充分表达语音特征又能彼此区别的特征
参数,这是语音识别中的一个最重要基本问题。语音识别系统常
用的特征参数有线性预测系数、倒频谱系数、平均过零率、能量、
短时频谱、共振峰频率及带宽等。
? ( 3) 参数模板存储 。 在建立识别系统时, 首先进
行特征参数提取, 然后对系统进行训练和聚类 。
通过训练, 系统建立并存储一个该系统需识别字
( 或音节 ) 的参数模板库 。
? ( 4) 识别判决 。 识别时, 待识语音信号经过与训
练时相同的特征参数提取后, 与模式模板存储器
中的模式进行匹配计算和比较, 并根据一定的规
则进行识别判决, 最后输出识别结果 。
3.7.3 语音识别系统的类型
? 1.按可识别的词汇量多少
? 2.按照语音的输入方式
? 3.按发音者为特定 /非特定人
? 4.按发音者的声纹
3.7.4 语音识别的应用
? 1.在信息处理领域的应用
? ( 1)给计算机发送指令 。
? ( 2)听写系统 。
? ( 3)信息查询。
? ( 4)网上交谈。
? 2.教育与商务应用
? ( 1)语音教学软件。
? ( 2)电话查询。
? ( 3)电子商务。
? 3.消费电子产品应用
第三章小结
声音是携带信息的重要媒体,对音频信息的处
理是多媒体技术研究的一个重要方面。声音种类繁
多,且不同种类的声音之间既有共性也有自身的特
性。在本章的前 3节主要介绍了音频信息处理的基本
知识和音频信号压缩及编码等理论。在后 4节中先介
绍了常用音频处理软件及声音文件的制作、转换等
实际应用,最后介绍了一个目前较热门的应用领
域 — 语音识别技术 。
第 3章 讨论题
1.声音按其特性分为哪几类?举例说明。
分为规则和不规则两类。不规则指不含任何信息的噪音;规则
声音分为语音、音乐和音效。语音是指具有语言内涵和人类约
定俗成的特殊媒体,音乐是规范的、符号化的声音,音效是指
人类熟悉的其他声音,如雨声、雷声、机器轰鸣声。
2.声音具有哪 3个要素?举例说明。
音强、音调、音色。
3.声音数字化分为哪两个步骤?
采样 就是每隔一段时间就读一次声音信号的幅度,记录下来的
原始模拟声波在某一时刻的状态,称之为 样本 ;每秒钟抽取声
波幅度样本的次数,称为 采样频率,采样频率的高低由奈奎斯
特采样订立和声音信号本身的最 高频率决定 ;常用的有 8kHz,
11.025kHz,22.05,kHz 16kHz,44.1kHz,48kHz等。
量化,把采样得到的声波幅度转化为数字值,也就是把某一幅
度范围内的电压用用一个数字表示。量化位数 是每个采样点
能够表示的数据范围,有 8/12/16/32位。 量化级 的大小决定了
声音的动态范围,即被记录和重放的声音最高与最低之间的差
值。 量化有很多种方法,可归纳为两类,均匀量化和非均匀量
化。
4,从人机交互的角度看,音频信号有哪些
处理过程?
? 1.音频获取 (计算机接收音频信号):语音识别和理解。
? 2.音频合成 (计算机输出音频信号):语音合成和音乐合成;
? 3,声音定位,包括立体声模拟、音 /视频同步。
? 4.人通过网络与别人通信,语音采集、音频编码 /解码,音频
传输等。
5.声卡有哪些主要功能?
? 1.录制、编辑和回放声音文件;
? 2.控制各个音源的音量,混合后再数字化;
? 3.记录和回放声音文件;
? 4.文语转换和语音识别;
? 5.MIDI接口和音乐合成。
6.声卡有哪些主要技术指标?
1.采样率与量化位; 2.FM合成与波形表;
3.外围接口; 4.音频压缩;
5.DSP芯片; 6,软件支持。
实验题
1、清制作一段自己的录音文件,并配背景音乐,写出制
作步骤。
2、请叙述用 Cool Edit Pro取出某段录音文件中的环境噪音
的步骤。
3、请把某段正常速度录制的语音文件,在保持语调不变
的情况下把语速降低到正常语速的 70%。
学习目标
l了解声音信号的特点, 存储格式及质量的度量方法
l理解音频信号压缩方法及音频编码标准
l掌握常用的音频处理软件对声音信号进行处理
l了解语音识别技术及其应用
3.1 音频信息处理基础
音频信息 在多媒体中的 应用 极为广泛, 视频图像配以娓
娓动听的音乐和语音 ; 静态或动态图像配以解说和背景音
乐 ; 立体声音乐可增加空间感 ; 游戏中的音响效果 等。
音频处理技术主要包括 电声转换、音频信号的存储、重
放技术、加工处理技术以及数字化音频信号的编码、压缩、
传输、存取、纠错等。
3.1.1 音频信号的特点
1.音频信号的分类
音频信号可分为两类:语音信号和非语音信号 。
语音 是语言的物质载体,是社会交际工具的符号,它包含了丰
富的语言内涵,是人类进行信息交流所特有的形式。
非语音信号 主要包括音乐和自然界存在的其他声音形式。非语
音信号的特点是不具有复杂的语义和语法信息,信息量低、识
别简单。
规则音频 是一种连续变化的模拟信号,可用一条连续的曲线
来表示,称为 声波 。因声波是在时间和幅度上都连续变化的量,
我们称之为 模拟量 。
用声音录制软件记录的英文单词, Hello”的语音实际波形
2.模拟音频信号的两个重要参数
模拟音频信号有两个重要参数,频率和幅度 。声音的频率
体现音调的高低,声波幅度的大小体现声音的强弱。
一个声源每秒钟可产生成百上千个波,我们把每秒钟波峰
所发生的数目称之为信号的 频率,单位用赫兹 (Hz)或千赫兹
(kHz)表示。 信号的幅度 是从信号的基线到当前波峰的距离。
幅度决定了信号音量的强弱程度。幅度越大,声音越强。对音
频信号,声音的强度用分贝 (dB)表示,分贝的幅度就是音量。
幅度限
周期
基线
3,声音的 A/D与 D/A转换
A/D转换 就是把模拟信号转换成数字信号的过程,模拟电信号
变为了由, 0”和, 1”组成的 Bit信号。这样做的好处是显而易
见的,声音存储质量得到了加强,数字化的声音信息使计算
机能够进行识别、处理和压缩 。
A/D转换的一个关键步骤是声音的 采样和量化,得到数字音频
信号,它在时间上是不连续的离散信号。
借助于 A/D或 D/A转换器,模拟信号和数字信号可以互相转换。
4,声音的三要素
1) 音调,代表了声音的高低 。 音调与频率有关, 频率越高,
音调越高, 反之亦然 。
读者也许有这样的经验,当提高磁带录音机的转速时,其
旋转加快,声音信号的频率提高,其喇叭放出来声音的音调
提高了。同样,在使用音频处理软件对声音的频率进行调整
时,也可明显感到音调随之而产生的变化。各种不同的声源
具有自己特定的音调,如果改变了某种声源的音调,则声音
会发生质的转变,使人们无法辨别声源本来的面目。
2) 音色,即特色的声音 。 声音分 纯音 和 复音 两种类型 。 所
谓纯音, 是指振幅和周期均为常数的声音;复音则是具有不同
频率和不同振幅的混合声音 。 大自然中的声音绝大部分是复音 。
在复音中, 最低频率的声音是, 基音,, 它是声音的基调 。 其
他频率的声音称为, 谐音,, 也叫 泛音 。 基音和谐音是构成声
音音色的重要因素 。 各种声源都具有自己独特的音色, 例如各
种乐器的声音, 每个人的声音, 各种生物的声音等, 人们就是
依据音色来辨别声源种类的 。
3)音强,声音的强度,也被称为声音的响度,常说的, 音量,
也是指音强。音强与声波的振幅成正比,振幅越大,强度越大。
唱盘,CD激光盘以及其他形式声音载体中的声音强度是一定的,
通过播放设备的音量控制,可改变聆听时的响度。
声音的频谱有线性频谱和连续频谱之分 。 线性频谱 是具有
周期性的单一频率声波; 连续频谱 是具有非周期性的带有
一定频带所有频率分量的声波 。 纯粹的单一频率的声波只
能在专门的设备中创造出来, 声音效果单调而乏味 。 自然
界中的声音几乎全部属于非周期性声波, 该声波具有广泛
的频率分量, 听起来声音饱满, 音色多样且具有生气 。
5.声音的频谱
3.1.2 模拟音频的数字化过程
数字化的声音易于用计算机软件处理,现在几乎所有的专
业化声音录制、编辑器都是数字方式。对模拟音频数字化过程
涉及到 音频的采样、量化和编码。
采样和量化的过程可由 A/D转换器 实现 。 A/D转换器以固定的
频率去采样,即每个周期测量和量化信号一次。经采样和量化
后声音信号经编码后就成为数字音频信号,可以将其以文件形
式保存在计算机的存储介质中,这样的文件一般称为 数字声波
文件 。
模拟信号的数字化过程
1 0 0 1 0 1 1 0 0 0 1 1 1 0 1
信息论的奠基者香农( Shannon)指出,在一定条件下,用
离散的序列可以完全代表一个连续函数,这是采样定理的基本
内容。
为实现 A/D转换,需要 把模拟音频信号波形进行分割, 这种
方法称为采样 (Sampling)。 采样的过程是每隔一个时间间隔在
模拟声音的波形上取一个幅度值,把时间上的连续信号变成时
间上的离散信号。该时间间隔称为采样周期,其倒数为采样频
率。 采样频率 是指计算机每秒钟采集多少个声音样本。
1,采样
采样频率与声音频率之间有一定的关系,根据奈奎斯特
( Nyquist)理论,只有采样频率高于声音信号最高频率的两
倍时,才能把数字信号表示的声音还原成为原来的声音 。
2ffs ?
采样只解决了音频波形信号在 时间坐标 (即横轴 )上把一个波
形切成若干个等分的数字化问题,但是还需要用某种数字化的
方法来反映某一瞬间声波幅度的电压值大小。该值的大小影响
音量的高低。我们把 对声波波形幅度的数字化表示称之为, 量
化, 。
量化的过程 是先将采样后的信号按整个声波的幅度划分成
有限个区段的集合,把落入某个区段内的样值归为一类,并赋
于相同的量化值。如何分割采样信号的幅度呢? 我们还是采取二
进制的方式,以8位 (bit)或 16位 (bit)的方式来划分纵轴 。也就是
说在一个以 8位为记录模式的音效中,其纵轴将会被划分为个量
化等级,用以记录其幅度大小。
2,量化
以下图所示的原始模拟波形为例进行采样和量化。假设采样
频率为 1000次 /秒,即每 1/1000秒 A/D转换器采样一次,其幅度被
划分成 0到 9共 10个量化等级,并将其采样的幅度值取最接近 0~ 9
之间的一个数来表示,如下图所示。图中每个正方形表示一次
采样。
D/A转换器 从上图得到的数值中重构原来信号时,得到下
图中蓝色 (直线段 )线段所示的波形。从图中可以看出,蓝色线
与原波形 (红色线 )相比,其波形的细节部分丢失了很多。这意
味着重构后的信号波形有较大的失真。
失真 在采样过程中是不可避免的,如何减少失真呢?可以直
观地看出,我们可以把上图中的波形划分成更为细小的区间,即
采用更高的采样频率。同时,增加量化精度,以得到更高的量化
等级,即可减少失真的程度。在下图(左)中,采样率和量化等
级均提高了一倍,分别为 2000次 /秒和 20个量化等级。在下图(右)
中,采样率和量化等级再提高了一倍,分别达到 4000次 /秒和 40个
量化等级。从图中可以看出,当用 D/A转换器重构原来信号时
(图中的轮廓线),信号的失真明显减少,信号质量得到了提高。
3,编码
模拟信号量经过采样和量化以后,形成一系列的离散信
号 —— 脉冲数字信号。这种脉冲数字信号可以一定的方式进行
编码,形成计算机内部运行的数据。所谓 编码,就是按照一定
的格式把经过采样和量化得到的离散数据记录下来,并在有用
的数据中加入一些用于纠错、同步和控制的数据 。在数据回放
时,可以根据所记录的纠错数据判别读出的声音数据是否有错,
如在一定范围内有错,可加以纠正。
编码的形式比较多,常用的编码方式是 PCM—— 脉冲调制。
脉冲编码调制( PCM)是把模拟信号变换为数字信号的一种调
制方式,即把连续输入的模拟信号变换为在时域和振幅上都离
散的量,然后将其转化为代码形式传输或存储 。
3.1.3 数字音频的文件格式
在多媒体技术中,存储音频信息的文件格式主要
有,WAV文件,VOC文件和 MP3文件等。
1,WAV文件
WAV文件又称波形文件,来源于对声音模拟波形
的采样,并以不同的量化位数把这些采样点的
值轮换成二进制数,然后存入磁盘,这就产生
了波形文件。 WAV文件用于保存 Windows平台的
音频信息资源,被 Windows平台及其应用程序所
广泛支持。
WAV声音文件是使用 RIFF( Resource Interchange File
Format资源交换文件 ) 的格式描述的, 它由文件头和波形
音频文件数据块组成 。 文件头包括标志符, 语音特征值,
声道特征以及 PCM格式类型标志等 。 WAV数据块是由数据子
块标记, 数据子块长度和波形音频数据 3个数据子块组成 。
Wave格式支持 多种 压缩算法,支持多种音频位数、采样
频率和声道,是 PC机上最为流行的声音文件格式,但其文
件尺寸较大,多用于存储简短的声音片断。
未压缩的声音文件的存储量 可用下式计算:
存储量( KB) =(采样频率 KHZ× 采样位数 bit× 声道数 × 时间秒) /8
2.VOC文件
VOC文件是 Creative公司所使用的标准音频文件格式,
多用于保存 Creative Sound Blaster(创新声霸 )系列声卡所采
集的声音数据,被 Windows平台和 DOS平台所支持。
与 WAV格式类似,VOC文件由文件头块和音频数据块组成。
文件头包含一个标识、版本号和一个指向数据块起始地址
的指针,这个指针帮助数据块定位以便顺利找到第一个数
据块。数据块分成各种类型的子块,如声音数据、静音、
标记,ASCII码文件、重复、重复的结束及终止标记等。
3.MPEG音频文件 ——,MP1/.MP2/.MP3
这里的音频文件格式指的是 MPEG标准中的音频部分,即
MPEG音频层 (MPEG Audio Layer)。 MPEG音频文件的压缩是
一种有损压缩,根据压缩质量和编码复杂程度的不同可分
为三层 (MPEG Audio Layer 1/2/3),分别对应 MP1,MP2和 MP3
这三种声音文件;
MPEG音频编码具有很高的压缩率, MP1和 MP2的压缩率分
别为 4∶ 1和 6∶ 1~ 8∶ 1,而 MP3的压缩率则高达 10∶ 1~
12∶ 1,也就是说一分钟 CD音质的音乐, 未经压缩需要
10MB存储空间, 而经过 MP3压缩编码后只有 1MB左右, 同
时其音质基本保持不失真 。
4,RealAudio文件 ——,RA/.RM/.RAM
RealAudio文件是 RealNetworks公司开发的一种新
型流式音频 (Streaming Audio)文件格式;它包含在
RealNetworks所制定的音频、视频压缩规范 RealMedia
中,主要用于在低速率的广域网上实时传输音频信
息;网络连接速率不同,客户端所获得的声音质量
也不尽相同:对于 28.8kb/s的连接,可以达到广播级
的声音质量;如果拥有 ISDN或更快的线路连接,则
可获得 CD音质的声音。
5.AIFF文件 ——,AIF/.AIFF
AIFF是音频交换文件格式 (Audio Interchange
File Format)的英文缩写,是苹果计算机公司
开发的一种声音文件格式;被 Macintosh平台
及其应用程序所支持,其他专业音频软件
包也同样支持这种格式。
3.1.4 声音质量的评价
目前有三种方法可以衡量声音的质量。一是用声音信号的带宽
来衡量声音的质量,等级由高到低依次是 DAT,CD,FM,AM和数
字电话。此外,声音质量的度量还有两种基本的方法:一种是
客观质量度量,另一种是主观质量度量。评价语音质量时,有
时同时采取两种方法评估,有时以主观质量度量为主。
1.以声音的带宽衡量声音的质量
2,声音客观质量的度量
声音客观质量的度量主要用信噪比 (signal to niose
ratio,SNR)来度量。它指音源产生最大不失真声音信
号强度与同时发出噪音强度之间的比率,通常以 S/N表
示。一般用分贝( dB)为单位,信噪比越高表示音频
质量越好。 信噪比 (SNR)用下式计算,SNR= 10 log
[(Vsignal)2 / (Vnoise)2]= 20 log (Vsignal / Vnoise)
其中,Vsignal表示信号电压,Vnoise表示噪声电压; SNR的单位
为分贝 (db)。
3,声音主观质量的度量
与用 SNR客观质量度量相比较, 应该可以说人的感觉 (如
听觉, 视觉等 )更具有决定意义, 感觉上的, 主观上的测试
应该成为评价声音质量和图像质量不可缺少的部分 。 而有
的学者则认为, 在语音和图像信号编码中使用主观质量度
量比使用客观质量度量更加恰当, 更有意义 。 可是一般来
说, 可靠的主观度量值也是比较难获得的, 所获得的值也
是一个相对值 。
对声音主观质量度量比较通用的标准是 5分制, 优
(Excellent),良 (Good), 中 (Fair), 差 (Poor), 劣 (Bad) 。
3.2音频信号压缩技术
音频信号压缩编码的主要依据是人耳的听觉特性,主要有两点:
1.人的听觉系统中存在一个 听觉阈值电平,低于这个电平的声
音信号人耳听不到,
2.人的听觉存在 屏蔽效应 。当几个强弱不同的声音同时存在时,
强声使弱声难以听到,并且两者之间的关系与其相对频率的大
小有关,
声音编码算法就是通过这些特性来 去掉更多的冗余数据,来
达到压缩数据的目的。
3.2.1 脉冲编码调制
1.编码的原理
它的原理框图下图所示
3.2.1 脉冲编码调制
1.编码的原理
它的原理框图下图所示
? 模拟信号数字化一般有三个步骤:第一步是采样,就是每
隔一段时间间隔读一次声音的幅度;第二步是量化,就是
把采样得到的声音信号幅度转换成数字值。但那时并没有
涉及如何进行量化。量化有好几种方法,但可归纳成两类:
一类称为均匀量化,另一类称为非均匀量化。采用的量化
方法不同,量化后的数据量也就不同。因此,可以说量化
也是一种压缩数据的方法;第三步是编码,就是按一定格
式记录采样和量化后的数据。
2.均匀量化
? 采用相同的, 等分尺, 来度量采样得到的幅度,也称为线
性量化,如图 3-4所示。量化后的样本值 Y和原始值 X的差
? E=Y-X称为量化误差或量化噪声。
3.非均匀量化
? 对输入信号进行量化时,大的输入信号采用大的量化间隔,
小的输入信号采用小的量化间隔,如图 3-5所示。
一个 CD— DA采用脉冲编码调制 PCM编码的实例
? 首先用一组脉冲采样时钟信号与输入的模拟音频信号相乘,
相乘的结果即输入信号在时间轴上的数字化。然后对采样
以后的信号幅值进行量化。最简单的量化方法是均衡量化,
这个量化的过程由量化器来完成。对经量化器 A/D变换后的
信号再进行编码,即把量化的信号电平转换成二进制码组,
就得到了离散的二进制输出数据序列 x(n),n表示量化的时
间序列,x(n)的值就是 n时刻量化后的幅值,以二进制的形
式表示和记录。
3.2.2 增量调制
它是一种预测编码技术,是 PCM编码的一种变形。 DM是
对实际的采样信号与预测的采样信号之差的极性进行编码,
将极性变成, 0”和, 1”这两种可能的取值之一。如果实际的
采样信号与预测的采样信号之差的极性为, 正,,则用, 1”
表示;相反则用, 0”表示,或者相反。
图 3-7 DM波形示意图
? 从上图中可以看到,在开始阶段增量调制器的输出不能保持
跟踪输入信号的快速变化,这种现象称为增量调制器的, 斜
率过载, (slope overload)。
? 在输入信号缓慢变化部分,即输入信号与预测信号的差值接
近零的区域,增量调制器的输出出现随机交变的, 0”和, 1”。
这种现象称为增量调制器的粒状噪声 (granular noise),这种
噪声是不可能消除的。
? 在输入信号变化快的区域,斜率过载是关心的焦点,而在输
入信号变化慢的区域,关心的焦点是粒状噪声。
?
3.2.3 自适应脉冲编码调制
? 是根据输入信号幅度大小来改变量化阶大小的一种波形编码
技术 。 这种自适应可以是瞬时自适应, 即量化阶的大小每隔
几个样本就改变, 也可以是非瞬时自适应, 即量化阶的大小
在较长时间才发生变化 。
? 改变量化阶大小的方法有两种:一种称为前向自适应, 后向
自适应 。 前者是根据未量化的样本值的均方根值来估算输入
信号的电平,以此来确定量化阶的大小,并对其电平进行编
码作为边信息 (side information)传送到接收端。后者是从
量化器刚输出的过去样本中来提取量化阶信息。
? (a) 前向自适应
(b) 后向自适应
3.2.4 差分脉冲编码调制
? 是利用样本与样本之间存在的信息冗余度来进行编
码的一种数据压缩技术。差分脉冲编码调制的思想
是,根据过去的样本去估算 (estimate)下一个样本
信号的幅度大小,这个值称为预测值,然后对实际
信号值与预测值之差进行量化编码,从而就减少了
表示每个样本信号的位数。它与脉冲编码调制 (PCM)
不同的是,PCM是直接对采样信号进行量化编码,而
DPCM是对实际信号值与预测值之差进行量化编码,
存储或者传送的是差值而不是幅度绝对值。
? 差分脉冲编码调制的概念示于图 3-9。图中的
差分信号 d(k)是离散输入信号 s(k)和预测器输
出的估算值 se(k-1)之差。注意,se(k-1)是对
s(k)的预测值,
3.2.5 自适应差分脉冲编码调制
? 综合了 APCM的自适应特性和 DPCM系统的差分特性,是
一种性能比较好的波形编码。它的核心想法是:①利
用自适应的思想改变量化阶的大小,即使用小的量化
阶 (step-size)去编码小的差值,使用大的量化阶去编
码大的差值,② 使用过去的样本值估算下一个输入样本
的预测值,使实际样本值和预测值之间的差值总是最
小。它的编码简化框图如图 3-10所示。
3.3 音频编码标准
? 3.3.1 CCITT G系列声音压缩标准
? CCITT和 ISO先后提出了一系列有关语音数据编译码标准,下
面简要介绍几种音频编码技术标准 。
? 1.电话质量的音频压缩编码技术标准
? 信号频率规定在 300Hz~ 3.4kHz,采用标准的脉冲
编码调制 (PCM),当采样频率为 8kHz,进行 8bit量
化时,所得数据速率为 64kb/s,即一个数字电话。
1972年 CCITT为电话质量和语音压缩制定了 PCM标
准 G.711,其速率为 64Kb/ s,使用非线性量化技术,
主要用于公共电话网中。
? 2.调幅广播质量的音频压缩编码技术标准
? 频率在 50Hz一 7kHz范围。 G.722标准是采用 16kHz采样,
14bit量化,信号数据速率为 224kbit/ s,采用子带编码
方法,将输入音频信号经滤波器分成高子带和低子带两
个部分,分别进行 ADPCM编码,再混合形成输出码流,
224kbit/ s可以被压缩成 64kbit/ s,最后进行数据插入
(最高插入速率达 16kbit/ s),因此利用 G.722标准可以
在窄带综合服务数据网 N-ISDN中的一个 B信道上传送调幅
广播质量的音频信号。
3,高保真度立体声音频压缩编码技术标准
? 高保真立体声音频信号频率范围是 50Hz~ 20kHz,采用
44,1kHz采样频率, 16bit量化进行数字化转换, 其数据速率
每声道达 705kbit/ s。 1991年国际标准化组织 ISO和 CCITT开
始联合制定 MPEG标准, 其中 ISOCDlll72-3作为, MPEG音频,
标准, 成为国际上公认的高保真立体声音频压缩标准 。 MPEG
音频第一和第二层次编码是将输入音频信号进行采样频率为
48kHz,44.1kHz,32kHz的采样, 经滤波器组将其分为 32个子
带, 同时利用人耳屏蔽效应, 根据音频信号的性质计算各频
率分量的人耳屏蔽门限, 选择各子带的量化参数, 获得高的
压缩比 。 MPEG第三层次是在上述处理后再引入辅助子带, 非
均匀量化和熵编码技术, 再进一步提高压缩比 。 MPEG音频压
缩技术的数据速率为每声道 32~ 448kbit/ s,适合于 CD- DA
光盘应用 。
? 3.3.2 MP3压缩技术
? MP3的全名是 MPEG Audio Layer-3,简单地说就是一种声音
文件的压缩格式。
? ISO/MPEG音频压缩标准里包括了三个使用高性能音频数据
压缩方法的感知编码方案, 按照压缩质量 (每 Bit的声音效
果 )和编码方案的复杂程度分别是 Layer1,Layer2,Layer3。
所有这三层的编码采用的基本结构是相同的。它们在采用
传统的频谱分析和编码技术的基础上还应用了子带分析和
心理声学模型理论。也就是通过研究人耳和大脑听觉神经
对音频失真的敏感度,在编码时先分析声音文件的波形,
利用滤波器找出噪音电平 (Noise Level),然后滤去人耳不
敏感的信号,通过矩阵量化的方式将余下的数据每一位打
散排列,最后编码形成 MPEG的文件。而音质听起来与 CD相
差不大。
? MPEG的层次与压缩比率
Layer1(相当于 384kbps立体声信号 ) 4:1
Layer2(相当于 192~256kbps立体声信号 ) 6:1~8:1
Layer3 (相当于 112~154kbps立体声信号 ) 10:1~12:1
? 3.3.3 MP4压缩技术
? MP4并不是 MPEG-4或者 MPEG-1Layer4,它的出现是针对 MP3的
大众化, 无版权的一种保护格式, 由美国网络技术公司开发,
美国唱片行业联合会倡导公布的一种新的网络下载和音乐播
放格式 。
? MP4使用的是 MPEG-2 AAC技术也就是俗称的 a2b或 AAC。 其中,
MPEG-2是 MPEG于 1994年 11月针对数码电视 (数码影像 )提出的 。
它的特点就是, 音质更加完美而压缩比更加大 (1:15)。
MPEG-2 AAC(ISO/IEC 13818-7)在采样率为 8~ 96KHz下提供
了 1~ 48个声道可选范围的高质量音频编码 。 AAC就是
Advanced Audio Coding(先进音频编码 )的意思, 适用于从
比特率在 8kbit/s单声道的电话音质到 160kbit/s多声道的超
高质量音频范围内的编码, 并且允许对多媒体进行编码 /解
码 。
? AAC与 MP3相比,增加了诸如对立体声的完美再现、比特
流效果音扫描、多媒体控制、降噪优异等 MP3没有的特性,
使得在音频压缩后仍能完美的再现 CD音质。
? AAC技术主要由以下三个部分组成。第一,AT&T的音频
压缩技术专利。它可以将 AAC压缩比提高到 20:1而不损失
音质。这样,一首 3分钟的歌仅仅需要 2.25MB,这在互联
网上的下载速度是很惊人的。第二、安全数据库。它可以
为你的 AAC Music创建一个特定的密钥,将此密钥存于其
数据库中。同时,只有 AAC的播放器才能播放含有这种密
钥第三、协议认证。这个认证包含了复制许可、允许复制
副本数目、歌曲总时间、歌曲可以播放时间以及售卖许可
等信息。
? MP4技术的优越性要远远高于 MP3,因为它更适合多媒体技
术的发展以及视听欣赏的需求。但是,MP4是一种商品,它
利用改良后的 MPEG-2 AAC技术并强加上由出版公司直接授
权的知识产权协议作为新的标准;而 MP3是一种自由音乐格
式,任何人都可以自由使用。此外,MP4实际上是由音乐出
版界联合授意的官方标准; MP3则是广为流传的民间标准。
相比之下,MP3的灵活和自由度要远远大于 MP4,这使得音
乐发烧友们更倾向于使用 MP3。更重要的一点是,MP3是目
前最为流行的一种音乐格式,它占据着大量的网络资源,
这使得 MP4的推广普及难上加难。
3.3.4乐器数字接口 MIDI
? 产生 MIDI乐音的方法很多, 现在用得较多的方法有两种:一
种是频率调制 (frequency modulation,FM)合成法, 另一种
是乐音样本合成法, 也称为波形表 (Wavetable)合成法 。 这
两种方法目前主要用来生成音乐 。
? FM合成器生成乐音的工作原理 主要是把几种乐音的波形用
数字来表达,并且用数字计算机而不是用模拟电子器件把它
们组合起来,通过数模转换器 (digital to analog convertor,
DAC)来生成乐音。但是使用 FM合成法来产生各种逼真的乐
音是相当困难的,有些乐音几乎不能产生。
? 乐音样本合成法就是把真实乐器发出的声音以数字的形式记
录下来,播放时改变播放速度,从而改变音调周期,生成各
种音阶的音符。乐音样本的采集相对比较直观。
? MIDI协议 提供了一种标准的和有效的方法,用来
把演奏信息转换成电子数据。
? MIDI信息是以, MIDI messages”传输的,它可以
被认为是告诉音乐合成器 (music synthesizer)如
何演奏一小段音乐的一种指令,而合成器把接收到
的 MIDI数据转换成声音。国际 MIDI协会
(International MIDI Association)出版的 MIDI
1.0规范对 MIDI协议作了完整的说明。
MIDI数据流 是单向异步的数据位流 (bit stream),其速率
为 31.25 kbps,每个字节为 10位 (1位开始位,8位数据位
和 1位停止位 )。 MIDI乐器上的 MIDI接口通常包含 3种不同
的 MIDI连接器,用 IN(输入 ),OUT(输出 )和 THRU(穿越 )。
MIDI数据流通常由 MIDI控制器 (MIDI controller)产生,
如乐器键盘 (musical instrument keyboard),或者由
MIDI音序器 (MIDI sequencer)产生。 MIDI控制器是当作乐
器使用的一种设备,在播放时把演奏转换成实时的 MIDI数
据流,MIDI音序器是一种装置,允许 MIDI数据被捕获、存
储、编辑、组合和重奏。来自 MIDI控制器或者音序器的
MIDI数据输出通过该装置的 MIDI OUT连接器传输。
3.4 常用音频处理软件简介
3.4.1 Cool Edit Pro
CoolEdit Pro是著名的
Syntrillium公司开发的
数字音频处理软件,其
运行环境为 Windows启动
后其界面如右图所示 。
CoolEdit Pro的 主要特色有:
(1).支持的音频格式十分丰富,多达十余种,还提供了
对 5种不同类型 WAV文件的支持。
(2).提供丰富的特殊效果 。包括 3D混响、降噪、滤波、
音频缩 /放、合声、延迟、变形、反转、静音等。
(3).提供了强大的 DSP(数字信号处理)能力。能够同时
处理 64条音轨。 支持录音、回放、混音、音频编辑。借
助它,能够方便地制作出自己想要的任何特殊音效,并
添加到各种类型的多媒体作品中去。
(4).操作界面设计简捷方便 。在工具栏中,提供了 56个
图形化按钮。几乎所有的编辑操作都能够方便地进行操
作。
3.4.2 Gold Wave
GoldWave的窗口界面如图 下图 所示。
GoldWave是一款相当不错的数码录音及编辑软件,除了
附有许多的效果处理功能外,它还能将编辑好的文件存为
WAV,AU,SND,RAW和 AFC等格式,而且它可以不经由
声卡直接抽取 SCSI形式的 CD ROM中的音乐来录制编辑。
作为 Wave文件编辑处理工具,支持从 MP3,MPG,AVI、
ASF,MOV等文件中提取音频进行编辑,所以除了它强大的
编辑功能外,用作把以上格式的音频转换成 WAV文件也是很
方便的。
GoldWave同时是较新的、适合于一般进行音频素材采集与制
作的软件,它集音频录制和编辑于一体,不仅是一个录音程
序,可以很方便地制作 CAI课件的背景音乐、音效、录制 CD、
转换音乐格式等,而且还具有各种复杂的音乐编辑和特效处
理功能。该软件不需要安装,只要运行程序文件夹中的可执
行程序即可。 GoldWave小巧玲珑,只有 600K左右,可从
http://www.goldwave.com下载。
3.4.3 CakeWalk(音乐大师)
作为一种图形化的音乐编 辑软件, CakeWalk的主要工作界面就是各种工作
窗口, 我们对 MIDI事件和音频事件的所有编辑和操作都是在工作窗口中完
成的 。 如下图所示, 音轨窗既是 CakeWalk主界面的主要组成部分, 也是重
要的工作窗口 。 类似的还有钢琴窗帘, 事件列表窗, 调音台窗等, 每个窗
口各有所长, 分别适用于不同的编辑对象和编辑特征 。
1,Cakewalk的调音台 可以自动混音, 可以一边播放乐曲, 一边
记录控制键 ( 滑键 ) 的调整动作, 而且多个控制键可以编组
控制, 这为制作渐强减弱效果提供了最为简单的操作手段 。
2.对于所有连续变化的数据, 例如弯音, 调制, 控制器, 键速
和速度等, Cakewalk都 提供了手工划线的编辑方式, 用鼠标
划一条斜线或曲线便可随意改变数值 。 因此, 对于像弯音轮
的细微变化过程, 速度的自由变化等之类较难处理的数据,
在 Cakewalk中都变得异常简单 。
3.Cakewalk可以将其所有菜单操作命令赋予 MIDI键盘, 也就是
说, 可以用合成器的键盘来控制软件的各种操作, 其功能是
所有音序软件中最全面的 。
4,Cakewalk可以 将音符的位置, 控制器的变化等 MIDI信息图形
化地显示出来, 因此看起来更加接近总谱 。
Cakewalk Pro Audio的 一些特色功能
3.5波形音频文件的采集与制作
3.5.1利用, 录音机, 生成和编辑波形文件
Windows录音机的主要功能是录音和放音, 使用, 录音机,
可以录制, 混合, 播放和编辑声音, 也可以将声音链接或插
入到另一文档中 。 其主要功能操作如下所述:
( 1) 波形文件的录制:确保音频输入设备已经连接到计算机 。
录音机常用的输入设备是麦克风和 CD-ROM播放机 。
( 2) 波形文件的存储:存储的文件格式为波形 (,wav) 文件 。
( 3) 声音的编辑:复制, 粘贴, 插入, 删除等操作 。
( 4)音频变换与特殊效果:更改声音的大小、速度、回音等。
? Cool Edit Pro是一种非常出色的声音编辑器, 其主要功能
操作如下所述 。
? ( 1) 波形文件的录制:录制及录制参数 ( 采样率, 量化
位数, 单双声道等 ) 的设定 。
? ( 2 ) 波 形 文 件 的 存 储, 存 储 的 文 件 格 式
(,wav,.au,.smp,.asf,.wma等 ) 的选择, 文件格式与
参数 ( 采样率, 量化位数, 单双声道 ) 的变换 。
? ( 3) 波形文件选定范围播放, 记录播放时间 。
? ( 4) 声音的编辑:剪切, 拷贝, 混合粘贴, 插入多轨工
程, 插入多轨播放列表, 删除静音, 零点定位, 确定节拍
等 。
? ( 5) 声音的变换与特殊效果:降噪, 扩音, 剪接, 添加
立体环绕, 淡入淡出, 3D回响等音效 。
3.5.2用 Cool Edit Pro编辑制作波形文件
3.6 声音文件格式的互换
1,选择声音文件格式的部分原则
1) Wav文件,不仅所有的 Windows的音效处理应用程序都可
以播放 WAVE文件, 而且常见的各种多媒体编辑制作软件的
音效播放都能直接使用 WAV文件 。 再者, WAV格式的音质效
果也不错 。
? 2) MP3文件, 如果通过适当的工具来截取 CD上的数字音
频并保存为 CD音质的 WAVE文件, 然后进行 MPEG Layer 3的
压缩编码形成 MP3文件, 再用合适的解码软件对 MP3解码 。
那么可以形成一个节约大量存储空间, 保持 CD音质的整体
解决方案 。
? 3) MIDI文件,是多媒体计算机产生音频 ( 特别是音乐 ) 的
另一种主要方式, 可以满足需要长时间音乐的场合 。
? 4) SWA文件,SWA格式的音乐文件,是 Authorware4.0以上
版本支持的特殊音乐格式,它的容量类似于流行的 MP3,也
非常小。在 Authorware4.0或 4.0以上版本中,自带
WAV→SWA 转换器,
3.6.2转换 CD音轨
下面以比较常用的 CDCopy为例来说明一下如何转换 CD音
轨。 CDCopy是一个常用的抓音轨工具,它对烂盘的纠错性
能非常好,还可以把 CD音轨转换为 WAV,AU,RA、
Yamaha VQF,AAC,MP3等多种声音格式,而且 CDCopy
是一个共享软件,我们可以从 http://cdcopy.actadivina.com下
载到它的最新版本。 抓取及转换音轨 步骤分以下 3步:
?1.选择文件格式
? 2.设置文件保存路径
?3.转换音轨
? 3.7.1语音识别的发展历史
? 可以将语音识别近六十年的发展历史划分为 4
个时期:
? ( 1) 初始发展期
? ( 2) 基础突破期
? ( 3) 综合发展期
? ( 4) 成熟期
3.7 语音识别技术及应用
3.7.2语音识别技术
? 语音识别以语音为研究对象,是语音信号处理的一
个重要研究方向,是模式识别的一个分支,其目的
就是要让机器具有人的听觉功能,在人机语音通讯
中, 听懂, 人类口述的语言。根据不同的需求,语
音识别的识别内容可分为狭义的语音识别和说话人
语音识别 。
1.语音识别技术的基础
一个完整的语音识别系统可大致分为三部分:
( 1)语音特征提取,其目的是从语音波形中提取出随时间变
化的语音特征序列。
( 2)声学模型与模式匹配(识别算法),声学模型通常将获
取的语音特征通过学习算法产生。在识别时将输入的语音特
征同声学模型(模式)进行匹配与比较,得到最佳的识别结
果。
( 3)语言模型与语言处理,语言模型包括由识别语音命令构
成的语法网络或由统计方法构成的语言模型,语言处理可以
进行语法、语义分析。对小词表语音识别系统,往往不需要
语言处理部分。
声学模型 是识别系统的底层模型,并且是语音识别系统中
最关键的一部分。声学模型的目的是提供一种有效的方法计算
语音的特征矢量序列和每个发音模板之间的距离。声学模型的
设计和语言发音特点密切相关。声学模型单元大小(字发音模
型、半音节模型或音素模型)对语音训练数据量大小、系统识
别率,以及灵活性有较大的影响。必须根据不同语言的特点、
识别系统词汇量的大小决定识别单元的大小。
语言模型 对中、大词汇量的语音识别系统特别重要。当
分类发生错误时可以根据 语言学模型、语法结构、语义学 进
行判断纠正,特别是一些同音字则必须通过上下文结构才能
确定词义。语言学理论包括语义结构、语法规则、语言的数
学描述模型等有关方面。目前比较成功的语言模型通常是采
用 统计语法的语言模型 与 基于规则语法结构命令语言模型 。
语法结构可以限定不同词之间的相互连接关系,减少了识别
系统的搜索空间,这有利于提高系统的识别。
2.语音识别的基本原理
预处理 包括语音信号采样、反混叠带通滤波、去除个体发音
差异和设备、环境引起的噪声影响等,并涉及到语音识别基元的
选取和端点检测问题:
特征提取部分 用于提取语音中反映本质特征的声学参数,如
平均能量、平均跨零率、共振峰等;
训练 在识别之前进行,通过让讲话者多次重复语音,从原始
语音样本中去除冗余信息,保留关键数据,再按照一定规则对数
据加以聚类,形成模式库;
模式匹配部分 是整个语音识别系统的核心,它是根据一定的
准则(如某种距离测度)以及专家知识(如构词规则、语法规则、
语义规则等),计算输入特征与库存模式之间的相似度,判断出
输入语音的语意信息。
3,处理的方法:
(1) 连续语音流的预处理
·波形硬件采样率的确定, 分帧大小与帧移策略的确定;
·剔除噪声的带通滤波, 高频预加重处理, 各种变换策略;
·波形的自动切分 (依赖于识别基元的选择方案 )。
(2) 特征参数提取
识别语音的过程,实际上是对语音特征参数模式的比较和匹配
的过程。语音特征参数的选取对系统识别结果起着重要的作用。
因此,必须寻找一个既能充分表达语音特征又能彼此区别的特征
参数,这是语音识别中的一个最重要基本问题。语音识别系统常
用的特征参数有线性预测系数、倒频谱系数、平均过零率、能量、
短时频谱、共振峰频率及带宽等。
? ( 3) 参数模板存储 。 在建立识别系统时, 首先进
行特征参数提取, 然后对系统进行训练和聚类 。
通过训练, 系统建立并存储一个该系统需识别字
( 或音节 ) 的参数模板库 。
? ( 4) 识别判决 。 识别时, 待识语音信号经过与训
练时相同的特征参数提取后, 与模式模板存储器
中的模式进行匹配计算和比较, 并根据一定的规
则进行识别判决, 最后输出识别结果 。
3.7.3 语音识别系统的类型
? 1.按可识别的词汇量多少
? 2.按照语音的输入方式
? 3.按发音者为特定 /非特定人
? 4.按发音者的声纹
3.7.4 语音识别的应用
? 1.在信息处理领域的应用
? ( 1)给计算机发送指令 。
? ( 2)听写系统 。
? ( 3)信息查询。
? ( 4)网上交谈。
? 2.教育与商务应用
? ( 1)语音教学软件。
? ( 2)电话查询。
? ( 3)电子商务。
? 3.消费电子产品应用
第三章小结
声音是携带信息的重要媒体,对音频信息的处
理是多媒体技术研究的一个重要方面。声音种类繁
多,且不同种类的声音之间既有共性也有自身的特
性。在本章的前 3节主要介绍了音频信息处理的基本
知识和音频信号压缩及编码等理论。在后 4节中先介
绍了常用音频处理软件及声音文件的制作、转换等
实际应用,最后介绍了一个目前较热门的应用领
域 — 语音识别技术 。
第 3章 讨论题
1.声音按其特性分为哪几类?举例说明。
分为规则和不规则两类。不规则指不含任何信息的噪音;规则
声音分为语音、音乐和音效。语音是指具有语言内涵和人类约
定俗成的特殊媒体,音乐是规范的、符号化的声音,音效是指
人类熟悉的其他声音,如雨声、雷声、机器轰鸣声。
2.声音具有哪 3个要素?举例说明。
音强、音调、音色。
3.声音数字化分为哪两个步骤?
采样 就是每隔一段时间就读一次声音信号的幅度,记录下来的
原始模拟声波在某一时刻的状态,称之为 样本 ;每秒钟抽取声
波幅度样本的次数,称为 采样频率,采样频率的高低由奈奎斯
特采样订立和声音信号本身的最 高频率决定 ;常用的有 8kHz,
11.025kHz,22.05,kHz 16kHz,44.1kHz,48kHz等。
量化,把采样得到的声波幅度转化为数字值,也就是把某一幅
度范围内的电压用用一个数字表示。量化位数 是每个采样点
能够表示的数据范围,有 8/12/16/32位。 量化级 的大小决定了
声音的动态范围,即被记录和重放的声音最高与最低之间的差
值。 量化有很多种方法,可归纳为两类,均匀量化和非均匀量
化。
4,从人机交互的角度看,音频信号有哪些
处理过程?
? 1.音频获取 (计算机接收音频信号):语音识别和理解。
? 2.音频合成 (计算机输出音频信号):语音合成和音乐合成;
? 3,声音定位,包括立体声模拟、音 /视频同步。
? 4.人通过网络与别人通信,语音采集、音频编码 /解码,音频
传输等。
5.声卡有哪些主要功能?
? 1.录制、编辑和回放声音文件;
? 2.控制各个音源的音量,混合后再数字化;
? 3.记录和回放声音文件;
? 4.文语转换和语音识别;
? 5.MIDI接口和音乐合成。
6.声卡有哪些主要技术指标?
1.采样率与量化位; 2.FM合成与波形表;
3.外围接口; 4.音频压缩;
5.DSP芯片; 6,软件支持。
实验题
1、清制作一段自己的录音文件,并配背景音乐,写出制
作步骤。
2、请叙述用 Cool Edit Pro取出某段录音文件中的环境噪音
的步骤。
3、请把某段正常速度录制的语音文件,在保持语调不变
的情况下把语速降低到正常语速的 70%。