第二章 媒体信息处理技术
2.1 音频处理技术
2.1.1 音频数字化处理
1.声音的基本描述
2.音频信号的数字化过程
3.数字音频的主要技术指标
2.1.2 MIDI音乐合成
1.数字音乐生成方法
2.MIDI音频处理过程
2.1.3 多媒体声音卡
2.1.4 音频文件格式
2.1 音频处理技术基本内容:音频数字化处理,MIDI音乐合成,
多媒体声音卡,音频文件格式
2.1.1 音频数字化处理
1.声音的基本描述
① 波形声音:基于振动波 ( 信号化 ) 描述的声音;
可形成数字波形文件
② 语音:人的声道发出的声音 — 语义化描述的语言形式
③ 音乐:通过乐谱规范表达的乐曲 — 符号化描述的声音;
可形成数字音乐文件
(1)声音的模拟信号表示方法
Sound = Bline + A× f(t)
① 基线 Bline:提供一个测量模拟信号的基准点
② 周期 T:两个相邻信号的波峰 ( 或波谷 ) 之间的时间间隔,
用于表示信号的快慢即声音发生的频率 f; f = 1/ T( Hz)
③ 振幅 A:波形峰点 ( 或谷点 ) 与基线之间的距离用于表示信号的强弱即声音的响度
(2)声音的质量特性
SQuality = (Tone,Volume,TQuality)
① 音调 (Tone):声音频度与音域宽窄程度,与频率 f有关,
音调可按频率分为:
·次声 ( f <20Hz)
·可听声 ( 20Hz≦f≦ 20KHz)
·超声 ( f>20KHz)
② 音量 ( Volume),声音响度亦或音强,与振幅 A成正比,
③ 音质 ( Tone Quality),声音在听觉上的优美程度,
亦称音色;
是振幅与频率的优化组合 ( 基音 + 谐音 )
声音的质量通常以音频信号的带宽来衡量音频 ( Audio),声音的同义词频率范围为,20Hz~ 20KHz
人的声带一般为,50~ 500 Hz
常见的音频带宽:
① 电话音频,200Hz~ 3.4KHz
② 无线电广播调幅 ( AM) 声,50Hz~ 7KHz
③ 无线电广播调频 ( FM) 声,20Hz~ 15KHz
④ 高保真 ( HiFi) 立体声,20Hz~ 20KHz
2.音频信号的数字化过程
① 放大:使信号幅度达到可采集与变换要求;
并滤除高频干扰和噪声
② 采样:模拟信号离散化以固定的采样周期 T对波形 Xa( t) 的幅值进行抽样,
得到一个离散的序列 X( n),采样值:
X( n) = Xa( nT) ;
N = 1,2,3,…… ( 离散点的个数 ),
T = 1/ f,f为采样频率
③ 量化:离散信号数字化把每个采样值 ( 模拟量 ) 转换成数字量,
并用 n个二进制数表示; n越大,量化精度越高量化值:
量化误差:
注意点,a,实现量化的过程称 A/ D变换
b,均匀量化后的信号称脉冲编码调制 ( PCM) 信号
c,A/ D变换一般是均匀量化;因而称 PCM量化
④ 编码:数字信号格式化把每个量化值表示成二进制存储位形式的字长
8位字长 ≡ 8bit ( 1个 Byte)
若要进行数据压缩编码时,需采用相关算法及数据格式表示
3.数字音频的主要技术指标
(1)采样频率 fc:单位时间间隔 ( 采样周期 ) 内所采集的样本数
fc越高,数字化后的信号质量就越高;但存储量也越大
(2)量化字长:用采样周期分割样本波形的振幅空间的等分数,
表示为采样值的二进制位数;因而称采样精度或样本字长,
量化字长 ( 位数 ) 与采样值的精度成正比,关系:
4bit16级 ( n=16),8bit256级,16bit65536级,
(3)声道数:一次采样所记录的声音波形个数单声道 — 产生一个声音波形;
双声道 — 产生两个声音波形 ( 立体声 )
声道数增加,将使存储容量及开销成倍增加,计算公式:
存储量 =( 采样频率 × 量化字长 × 声道数 ) / 8 ( Byte/ s)
采样定理,若 fc≧ 2fsmax ( fsmax为最大信号频率 ),
则可保证量化后的信号具有还原为模拟信号的能力,
例:人耳听觉的上限频率为 20KHz;则 fc≧ 40KHz
2.1.2 MIDI音乐合成音乐设备数字接口 MIDI的作用:
定义电子音乐设备连入计算机的电缆和端口标准 ;
定义计算机与 MIDI设备之间进行信息交换的一整套规则,
包括电子乐器之间传送数据的通信协议
1988年,MIDI正式成为数字式音乐的一个国际标准
1,数字音乐的生成方法
·波形声音数字化方法 生成数字波形文件
·MIDI方法 ( 电子音乐合成方法 ) 生成数字音乐文件
( 乐谱的数字式描述 — MIDI消息 )
2.MIDI音频处理过程
① MIDI键盘:用于声音数据采集 ( 演奏 —— 不发声,记录 )
和创建 MIDI消息
② MIDI接口:用于 MIDI文件 ( 消息 ) 管理,
包括接收,发送和转发
MIDI In端口,接收来自各种 MIDI设备的 MIDI消息
MIDI Out端口,发送本设备完成的 MIDI信息到其它设备
MIDI Thru端口:转发 In端口信息到另一台 MIDI设备上
③ 音序器 ( Sequencer),
用于记录 ( 捕获 ),编辑,存储和播放 MIDI文件;
包括硬件和软件两种形式,目前多以软件取代硬件通过播放产生声音,可送回原设备直接播放;也可送合成器
④ 合成器:用于把数字式声音转换成原来的模拟声音;
并可对 MIDI文件解释执行,产生原声效,或供扬声器播放合成器一般是硬件,装配在声卡上,常用合成器类型:
基础合成器:支持 3种乐器和 6音符复调扩展合成器:支持 9种乐器和 16音符复调
*.MIDI合成器声道划分,1— 10声道,用于扩展合成器
11— 12声道:未定义
13— 16声道:用于基本合成器
3.MIDI技术的主要优点
(1)大大节省存储空间,MIDI文件 — 乐符/程序指令集
( 数字波形文件 — 二进制代码集 )
(2)有利于语音与音乐的合成:
解说词 + 配乐 + 音乐 同时播放
( 波形声音文件:无法同时播放与合成 )
(3)有利于数据文件的编辑与修改
( 比波形声音文件的修改方便,灵活 )
2.1.3 多媒体声音卡声音卡:具有录音,播音和声音合成功能的计算机硬件插卡,
集成了各种音频电路,
使计算机具有良好的声音处理能力和音响效果
1.声音卡组成原理
(1)音频输入端口:录制话音和音乐,以对各种声源进行采集
(2)音频信号处理:
① A/ D转换器:完成对波形声音的采样,量化和编码功能,
把原始模拟音频转换成数字音频;以供计算机存储和传输
② D/ A转换器:把经计算机处理的数字音频转换成模拟音频;
以供扬声器,耳机或立体声音箱等设备播出
③ MIDI合成器:执行 MIDI文件,把数字音频转换成模拟音频;
支持多种电子乐器的音乐合成和演奏
④ 数字信号处理器:是一种具有可编程能力的独立芯片;
用于声音合成处理和数据压缩与解压
(3)音频输出端口:通过混合放大器完成各路信号的合成,
并提供选择 ( 开关 ) 输出,供扬声器等设备播放
2.声音卡的选择
① 音质好:采样频率 44.1KHz,量化字长 16位,双声道等
② 功能强:数据位 ( 8,12,16,32,64),具有 DSP,PnP
③ 家用附件齐全,CD_ROM接口,MIDI接口,立体声音箱等
④ 网络通信功能:配 Modem,可接 Fax,自动应答电话
⑤ 携带开发工具:如 Sound Blaster Windows DLL
⑥ 软件功能配量齐全
⑦ 产品兼容性强/可升级换代
⑧ 产品性能/价格比高声卡产品,·Sound Blaster 16 Pro/ 16 SE PnP
·Sound Blaster 32 SE PnP/ AWE 32
·Sound Blaster AWE64/ AWE64 黄金版
2.1.4 音频文件格式音频文件可分为数字波形文件和数字音乐文件两大类数字波形文件,Microsoft的 WAV文件,Creative的 VOC文件;
UNIX平台的语音文件 AUDIO( AU)
数字音乐文件,MIDI( MID) 文件,
RMID文件 ( 资源交换文件 RIFF格式的 MIDI)
(1) VOC文件格式,由文件头和数据块组成
VOC文件的文件头存储格式:
VOC文件的数据块,分为 9种类型的数据子块
① 块类型 0( 终址标志块 ),终止整个数据块声音输出一个字节 ( 00)
② 块类型 1( 声音数据块 ),包括块类型标识,块长度 BLKLEN,
时间常数 TC或采用频率 SR,块数据压缩方式 PACK,
声音数据 ( 数据长度 = 块长度 - 2)
PACK的内容与含义,0 8位原码 ( 未压缩 )
1 4位压缩 ( 2,1压缩 )
2 2.6位压缩 ( 3,1压缩 )
3 2位压缩 ( 4,1压缩 )
③ 块类型 2(声音持续块):表示上一个声音数据块的继续
④ 块类型 3( 静音数据块 ),定义声音数据中的一段静音,
静止时间长度以采样周期为单位,
其中应静止时间 Period的值总比静止时间小 1
⑤ 块类型 4( 特殊标记块 ),定义声音数据中的一个标记,
该标记 Marker可用声音卡的应用程序插入到声音数据中,
主要用于实现与声音输出过程的同步其中,MARKER值的范围为 1~ 0FFFEH
⑥ 块类型 5( ASCII文件块 ),定义以 NULL结束的 ASCII字符串该块仅在需要有关声音的信息时被定义,一般可忽略
⑦ 块类型 6( 声音重复块 ),确定数据块重复循环的开始,
循环次数 Count( 范围 1~ 0FFFEH),实际重复 Count + 1次
⑧ 块类型 7( 重复结束标志块 ),与类型 6配合使用,BLKLEN=0
⑨ 块类型 8( 功能扩展块 ),用于立体声或高速语音的属性描述,必须位于块类型 1之前,压缩方式 PACK一般为 0;
声道方式:单声道 ( Mode=0) ;双声道 ( Mode=1)
(2) MIDI文件格式
MIDI文件是 MIDI音序器使用的国际标准文件格式
MIDI文件包括一连串 MIDI消息,每个消息由若干个字节组成多媒体扩展中,为 MIDI音频文件定义了一种 RIFF文件格式,
其格式类型为 RMID( 扩展名为,rmi) ;
RMID文件是具有 RIFF数据块的 MIDI文件
2.1 音频处理技术
2.1.1 音频数字化处理
1.声音的基本描述
2.音频信号的数字化过程
3.数字音频的主要技术指标
2.1.2 MIDI音乐合成
1.数字音乐生成方法
2.MIDI音频处理过程
2.1.3 多媒体声音卡
2.1.4 音频文件格式
2.1 音频处理技术基本内容:音频数字化处理,MIDI音乐合成,
多媒体声音卡,音频文件格式
2.1.1 音频数字化处理
1.声音的基本描述
① 波形声音:基于振动波 ( 信号化 ) 描述的声音;
可形成数字波形文件
② 语音:人的声道发出的声音 — 语义化描述的语言形式
③ 音乐:通过乐谱规范表达的乐曲 — 符号化描述的声音;
可形成数字音乐文件
(1)声音的模拟信号表示方法
Sound = Bline + A× f(t)
① 基线 Bline:提供一个测量模拟信号的基准点
② 周期 T:两个相邻信号的波峰 ( 或波谷 ) 之间的时间间隔,
用于表示信号的快慢即声音发生的频率 f; f = 1/ T( Hz)
③ 振幅 A:波形峰点 ( 或谷点 ) 与基线之间的距离用于表示信号的强弱即声音的响度
(2)声音的质量特性
SQuality = (Tone,Volume,TQuality)
① 音调 (Tone):声音频度与音域宽窄程度,与频率 f有关,
音调可按频率分为:
·次声 ( f <20Hz)
·可听声 ( 20Hz≦f≦ 20KHz)
·超声 ( f>20KHz)
② 音量 ( Volume),声音响度亦或音强,与振幅 A成正比,
③ 音质 ( Tone Quality),声音在听觉上的优美程度,
亦称音色;
是振幅与频率的优化组合 ( 基音 + 谐音 )
声音的质量通常以音频信号的带宽来衡量音频 ( Audio),声音的同义词频率范围为,20Hz~ 20KHz
人的声带一般为,50~ 500 Hz
常见的音频带宽:
① 电话音频,200Hz~ 3.4KHz
② 无线电广播调幅 ( AM) 声,50Hz~ 7KHz
③ 无线电广播调频 ( FM) 声,20Hz~ 15KHz
④ 高保真 ( HiFi) 立体声,20Hz~ 20KHz
2.音频信号的数字化过程
① 放大:使信号幅度达到可采集与变换要求;
并滤除高频干扰和噪声
② 采样:模拟信号离散化以固定的采样周期 T对波形 Xa( t) 的幅值进行抽样,
得到一个离散的序列 X( n),采样值:
X( n) = Xa( nT) ;
N = 1,2,3,…… ( 离散点的个数 ),
T = 1/ f,f为采样频率
③ 量化:离散信号数字化把每个采样值 ( 模拟量 ) 转换成数字量,
并用 n个二进制数表示; n越大,量化精度越高量化值:
量化误差:
注意点,a,实现量化的过程称 A/ D变换
b,均匀量化后的信号称脉冲编码调制 ( PCM) 信号
c,A/ D变换一般是均匀量化;因而称 PCM量化
④ 编码:数字信号格式化把每个量化值表示成二进制存储位形式的字长
8位字长 ≡ 8bit ( 1个 Byte)
若要进行数据压缩编码时,需采用相关算法及数据格式表示
3.数字音频的主要技术指标
(1)采样频率 fc:单位时间间隔 ( 采样周期 ) 内所采集的样本数
fc越高,数字化后的信号质量就越高;但存储量也越大
(2)量化字长:用采样周期分割样本波形的振幅空间的等分数,
表示为采样值的二进制位数;因而称采样精度或样本字长,
量化字长 ( 位数 ) 与采样值的精度成正比,关系:
4bit16级 ( n=16),8bit256级,16bit65536级,
(3)声道数:一次采样所记录的声音波形个数单声道 — 产生一个声音波形;
双声道 — 产生两个声音波形 ( 立体声 )
声道数增加,将使存储容量及开销成倍增加,计算公式:
存储量 =( 采样频率 × 量化字长 × 声道数 ) / 8 ( Byte/ s)
采样定理,若 fc≧ 2fsmax ( fsmax为最大信号频率 ),
则可保证量化后的信号具有还原为模拟信号的能力,
例:人耳听觉的上限频率为 20KHz;则 fc≧ 40KHz
2.1.2 MIDI音乐合成音乐设备数字接口 MIDI的作用:
定义电子音乐设备连入计算机的电缆和端口标准 ;
定义计算机与 MIDI设备之间进行信息交换的一整套规则,
包括电子乐器之间传送数据的通信协议
1988年,MIDI正式成为数字式音乐的一个国际标准
1,数字音乐的生成方法
·波形声音数字化方法 生成数字波形文件
·MIDI方法 ( 电子音乐合成方法 ) 生成数字音乐文件
( 乐谱的数字式描述 — MIDI消息 )
2.MIDI音频处理过程
① MIDI键盘:用于声音数据采集 ( 演奏 —— 不发声,记录 )
和创建 MIDI消息
② MIDI接口:用于 MIDI文件 ( 消息 ) 管理,
包括接收,发送和转发
MIDI In端口,接收来自各种 MIDI设备的 MIDI消息
MIDI Out端口,发送本设备完成的 MIDI信息到其它设备
MIDI Thru端口:转发 In端口信息到另一台 MIDI设备上
③ 音序器 ( Sequencer),
用于记录 ( 捕获 ),编辑,存储和播放 MIDI文件;
包括硬件和软件两种形式,目前多以软件取代硬件通过播放产生声音,可送回原设备直接播放;也可送合成器
④ 合成器:用于把数字式声音转换成原来的模拟声音;
并可对 MIDI文件解释执行,产生原声效,或供扬声器播放合成器一般是硬件,装配在声卡上,常用合成器类型:
基础合成器:支持 3种乐器和 6音符复调扩展合成器:支持 9种乐器和 16音符复调
*.MIDI合成器声道划分,1— 10声道,用于扩展合成器
11— 12声道:未定义
13— 16声道:用于基本合成器
3.MIDI技术的主要优点
(1)大大节省存储空间,MIDI文件 — 乐符/程序指令集
( 数字波形文件 — 二进制代码集 )
(2)有利于语音与音乐的合成:
解说词 + 配乐 + 音乐 同时播放
( 波形声音文件:无法同时播放与合成 )
(3)有利于数据文件的编辑与修改
( 比波形声音文件的修改方便,灵活 )
2.1.3 多媒体声音卡声音卡:具有录音,播音和声音合成功能的计算机硬件插卡,
集成了各种音频电路,
使计算机具有良好的声音处理能力和音响效果
1.声音卡组成原理
(1)音频输入端口:录制话音和音乐,以对各种声源进行采集
(2)音频信号处理:
① A/ D转换器:完成对波形声音的采样,量化和编码功能,
把原始模拟音频转换成数字音频;以供计算机存储和传输
② D/ A转换器:把经计算机处理的数字音频转换成模拟音频;
以供扬声器,耳机或立体声音箱等设备播出
③ MIDI合成器:执行 MIDI文件,把数字音频转换成模拟音频;
支持多种电子乐器的音乐合成和演奏
④ 数字信号处理器:是一种具有可编程能力的独立芯片;
用于声音合成处理和数据压缩与解压
(3)音频输出端口:通过混合放大器完成各路信号的合成,
并提供选择 ( 开关 ) 输出,供扬声器等设备播放
2.声音卡的选择
① 音质好:采样频率 44.1KHz,量化字长 16位,双声道等
② 功能强:数据位 ( 8,12,16,32,64),具有 DSP,PnP
③ 家用附件齐全,CD_ROM接口,MIDI接口,立体声音箱等
④ 网络通信功能:配 Modem,可接 Fax,自动应答电话
⑤ 携带开发工具:如 Sound Blaster Windows DLL
⑥ 软件功能配量齐全
⑦ 产品兼容性强/可升级换代
⑧ 产品性能/价格比高声卡产品,·Sound Blaster 16 Pro/ 16 SE PnP
·Sound Blaster 32 SE PnP/ AWE 32
·Sound Blaster AWE64/ AWE64 黄金版
2.1.4 音频文件格式音频文件可分为数字波形文件和数字音乐文件两大类数字波形文件,Microsoft的 WAV文件,Creative的 VOC文件;
UNIX平台的语音文件 AUDIO( AU)
数字音乐文件,MIDI( MID) 文件,
RMID文件 ( 资源交换文件 RIFF格式的 MIDI)
(1) VOC文件格式,由文件头和数据块组成
VOC文件的文件头存储格式:
VOC文件的数据块,分为 9种类型的数据子块
① 块类型 0( 终址标志块 ),终止整个数据块声音输出一个字节 ( 00)
② 块类型 1( 声音数据块 ),包括块类型标识,块长度 BLKLEN,
时间常数 TC或采用频率 SR,块数据压缩方式 PACK,
声音数据 ( 数据长度 = 块长度 - 2)
PACK的内容与含义,0 8位原码 ( 未压缩 )
1 4位压缩 ( 2,1压缩 )
2 2.6位压缩 ( 3,1压缩 )
3 2位压缩 ( 4,1压缩 )
③ 块类型 2(声音持续块):表示上一个声音数据块的继续
④ 块类型 3( 静音数据块 ),定义声音数据中的一段静音,
静止时间长度以采样周期为单位,
其中应静止时间 Period的值总比静止时间小 1
⑤ 块类型 4( 特殊标记块 ),定义声音数据中的一个标记,
该标记 Marker可用声音卡的应用程序插入到声音数据中,
主要用于实现与声音输出过程的同步其中,MARKER值的范围为 1~ 0FFFEH
⑥ 块类型 5( ASCII文件块 ),定义以 NULL结束的 ASCII字符串该块仅在需要有关声音的信息时被定义,一般可忽略
⑦ 块类型 6( 声音重复块 ),确定数据块重复循环的开始,
循环次数 Count( 范围 1~ 0FFFEH),实际重复 Count + 1次
⑧ 块类型 7( 重复结束标志块 ),与类型 6配合使用,BLKLEN=0
⑨ 块类型 8( 功能扩展块 ),用于立体声或高速语音的属性描述,必须位于块类型 1之前,压缩方式 PACK一般为 0;
声道方式:单声道 ( Mode=0) ;双声道 ( Mode=1)
(2) MIDI文件格式
MIDI文件是 MIDI音序器使用的国际标准文件格式
MIDI文件包括一连串 MIDI消息,每个消息由若干个字节组成多媒体扩展中,为 MIDI音频文件定义了一种 RIFF文件格式,
其格式类型为 RMID( 扩展名为,rmi) ;
RMID文件是具有 RIFF数据块的 MIDI文件