XIDIAN
西安电子科技大学多媒体研究所
http://www.mti.xidian.edu.cn
数字声音及 MIDI简介声音是携带信息的极其重要的媒体,是多媒体技术研究中的一个重要内容。声音的种类繁多,如人的话音、乐器声、动物发出的声音、机器产生的声音以及自然界的声音等。
这些声音有许多共同的特性,也有它们各自的特性。在用计算机处理这些声音时,既要考虑它们的共性,又要利用它们的各自的特性。
我们将研究声音的基础知识,掌握声音数字化的两个最基本的概念;了解基本的音频信号编码技术。
音频处理技术声音是通过空气传播的一种连续的波,叫声波。
声音的强弱(音强)
音调的高低(频率)-示例声波的特性反射 (reflection)、折射 (refraction)和衍射 (diffraction)
声音与听觉器官音频处理技术声音信号由许多频率不同的信号组成。
带宽:它用来描述组成复合信号的频率范围。
20~ 20000 Hz (音频)
0~ 120 dB (音强)
声音与听觉器官音频处理技术
80~ 3400 Hz (话音)
音乐
以小提琴为例,当它的 A弦振动时,并不仅仅是整根弦在振动,这根弦的二分之一、三分之一、四分之一、五分之一 …… 处都在振动着。于是,整根弦的振动产生了最主要的频率,我们称之为 基音,而弦长的二分之一、三分之一、
四分之一等处的振动则产生了一些次要的频率,我们称之为 泛音 。
如果一个物体振动所发出的泛音为基音的整数倍,这个音就会具有清晰可辨的音高,我们称之为乐音,如钢琴,小提琴等发出的都是 乐音 ;如果泛音是基音的非整数倍,这个音就不具备清晰可辨的音高,我们称之为 噪音,如汽车发动机、计算机风扇等发出的都是噪音。
音强中分贝的定义定义示例声音质量的度量
声音的质量与声音的带宽有关,一般来说频率范围越宽,声音质量也就越高。
声音类型 带 宽电话语音 200Hz- 3.4kHz
调幅广播 50Hz- 7kHz
调频广播 20Hz- 15kHz
CD 20Hz- 20kHz
信噪比( SNR)、主观平均判分法( MOS)。
声音信号数字化
声音信号是典型的连续信号,不仅在时间上是连续的,而且在幅度上也是连续的。
声音进入计算机的第一步就是数字化,数字化过程中最重要的步骤就是 采样 和 量化 。
声音信号数字化
采样( sampling),将声音信号在时间上离散化,即每隔相等的一段时间抽取一个信号样本。
声音信号数字化
采样频率奈奎斯特理论指出:采样频率不应低于声音信号最高频率的两倍,这样就能把以数字表达的声音还原成原来的声音,
称为无损数字化。
fs >= 2fmax
话音信号最高频率约为 3.4kHz,所以采样频率取为 8kHz。
声音信号数字化
采样精度每个声音样本的数字化位数反映了声音波形幅度的采样精度。
质量 采样频率
( kHz)
样本精度 单道声 /
立体声数据率
( kb/s)
频率范围
( kHz)
电话 8 8 单道声 64 200~ 3400
AM 11.025 8 单道声 88 50~ 7000
FM 22.050 16 立体声 705.6 20~ 15000
CD 44.1 16 立体声 1411.2 20~ 20000
DAT 48 16 立体声 1536 20~ 20000
声音信号数字化
量化( quantization),将连续的信号幅度离散化。如果幅度的划分是等间隔的,称为线性量化,否则为非线性量化。
电压范围 量化 (dec) 编码
(bin)
0.5 ~ 0.7 3 011
0.3 ~ 0.5 2 010
0.1 ~ 0.3 1 001
-0.1 ~ 0.1 0 000
-0.3 ~ -0.1 -1 111
-0.5 ~ -0.3 -2 110
-0.7 ~ -0.5 -3 101
-0.9 ~ -0.7 -4 100
人-机通信,计算机接收音频信号。获取、语音识别与理解。
机-人通信,计算机输出音频。音频合成;声音重构、模拟。产生真实感声音。
人-机-人通信,人通过网络进行语音通信,需要的处理包括:语音采集,编码解码,传输、检索,识别。
音频处理技术音频处理技术
数字信号与模拟信号
离散时间信号和离散幅度信号
采样和量化
信号的时间域与频率域表示
奈奎斯特( Nyquist)理论与混迭效应( Aliasing)
信号的重构音频信号处理的流程原始声音信 号声电信号转 换低 通滤 波模拟数字转 换数字信号处 理传 输存 储声 音合 成功 率放 大数字模拟转 换电声信号转换数 据 总 线 驱 动器总 线 接口 控 制器数 字 声 音 处 理 器混 合 信 号处 理 器音 乐 合 成器功 率 放 大器
M I C 放 大器
P
C
总线麦 克 风 输 入扬 声 器地 址 总 线控 制 总 线声 卡 原 理 框 图音频卡工作原理
WAVE音效和 MIDI音乐
Wave音效合成与 MIDI音乐合成是声卡最主要的功能。
WAVE音效合成是由声卡的 ADC模数转换器和 DAC数模转换器来完成的。模拟音频信号经 ADC转换后为数字音频后,以文件形式存放在磁盘等介质上,
就成为声音文件。这类文件我们称之为 wave form
文件,通常以,wav为扩展名,因此也称为 wav文件。
WAVE音效可以逼真地模拟出自然界的各种声音效果,如风雨声、枪炮声、人声等等
WAVE音效合成
缺点,wav文件需要占用很大的贮存空间
16bit,44.1Khz采样精度录制的,My heart will
go on,为例,5分 10秒的长度需要占用近 55M的空间 。
为了节省存贮空间,人们使用各种算法对 wav文件进行压缩,时下极为流行 MPEG Leyer-3就是一种高压缩比低失真的压缩算法。同样以上述的歌曲为例,压缩为 MP3文件后,长度仅为 5M左右。
Musical instrument digital interface
MIDI,即乐器数字化接口,是一种用于计算机与电子乐器之间进行数据交换的通信标准。 MIDI文件(通常以,mid为文件扩展名)记录了用于合成 MIDI音乐的各种控制指令,包括发声乐器、所用通道、音量大小等。由于 MIDI文件本身不包含任何数字音频信号,因而所占的贮存空间比 wav文件要小得多。
MIDI小结
是一种在计算机和音乐合成器之间交换音乐信息的标准协议。
MIDI不是声音信号,在 MIDI电缆上传递的是指令
MIDI音乐常用作游戏音乐或背景音乐,典型应用就是手机音乐问题,如何生成
MIDI音乐?
MIDI音乐合成方法
合成的方式有 FM(调频)与 Wave table(波表)
两种 。
早期的声卡及目前大多数廉价的声卡都采用的 FM
合成方式。 FM合成是通过振荡器产生正弦波,然后再叠加成各种乐器的波形。由于振荡器成本较高,即使是 OPL3这类高档的 FM合成器也只提供了 4
个振荡器,仅能产生 20种复音。因此 MIDI音乐听起来生硬呆板,带有明显的人工合成色彩,即所谓的电子声。
乐音的波形用数字来表示,再通过数模转换器来生成乐音由以下五部分组成:
数字载波器
调制器
声音包络发生器
数字运算器
数模转换器频率调制( FM)合成法
FM声音合成器的工作原理图从理论上讲,FM合成方法可以产生 任何 乐音,但是,这种“物理课式”的合成方法合成出来的声音不够真实。
乐音样本合成法
乐音样本合成法是把真实乐器发出的声音以数字的形式记录下来,播放时再加以调整、修饰和放大,生成各种音阶的音符。
乐音样本通常放在 ROM芯片上,播放时以查表的方式给出,所以这种合成器又叫做波表
( wave table)合成器。
硬声卡,软声卡,集成声卡的区别如何评价一块声卡
采样位数与采样频率
波表容量
总线结构
复音数(同时发音的数目)
声道数什么是手机和弦
乐理上定义:按照一定音程关系结合起来的三个或三个以上的同时发音,叫做和弦。
手机 MIDI音乐中包含着音轨(单音音轨)。播放声音时,根据 MIDI指令去查询音色库中音效,然后合成播放。由于手机中音色库大小有限,所以和弦生成利用三个单轨音的合成来实现三和弦。
40和弦是指包括 40个单音音轨,可以合成 13种乐器 3和弦或者 8种乐器的 5和弦。
小结
自然界数据进入计算机包含两个过程,转换成电信号和转换成数字信号。
采样和量化是数字化过程中的基本过程。
声音的基本特性包括声强,音频,不同类别的声音具有不同的频率范围,具有不同的处理方法。
计算机可以处理的声音包括 wave音效和 MIDI音乐。
波表是重要的 MIDI音乐生成方式。
发展趋势
语音(话音)识别
语音检索
语音合成(自动朗诵)
自然声音合成
。。。