XIDIAN
西安电子科技大学多媒体研究所
http://www.mti.xidian.edu.cn
语音 (声音 )编码简介话音技术的研究热点
话音压缩编码( Speech Coding)
基于内容的音频检索技术 (Content-
based Audio Retrieval )
话音识别( Speech Recognition)
文本话音转换( Text To Speech)
衡量话音编码器的因素
音频质量
数据率
编 /解码延时
算法复杂度
价格因素话音编译码器的分类( 1)
波形编译码器( waveform coder),不利用生成话音的信号的任何知识,将话音视为一种普通的声音,直接对波形信号进行采样和量化。
例如 PCM,DPCM,ADPCM等。
音源编译码器( Source coder),也叫参数编译码器、声码器( vocoder)。它从话音波形信号中提取生成话音的参数,使用这些参数通过话音生成模型重构出话音。
混合编译码器( Hybrid coder),综合使用上述两种技术。使用的激励信号波形尽可能接近于原始话音信号的波形。例如 CELP。
基于音频数据的统计特性(波形编码)
基于音频声学参数的编码(线性预测编码)
基于人的听觉特性编码(掩蔽效应)
MPEG中高频编码
Dolby AC3
话音编译码器的分类( 2)
音质与数据率
2 4 8 16 32 64 kbits/S
5
4
3
2
1
PCM波形编码LPC
混合编码研究目标质量音频编码比较脉冲编码调制 (PCM)
波形编码技术
PCM的量化方式均匀量化与非均匀量化非均匀量化方式
话音信号的概率密度可以近似的用拉普拉斯
(高斯)函数来表示

2
1
2
e
x
e
P x e
均匀量化的优点是简单,但其信号量化噪声比随信号电平减小而明显下降。通常,希望误差保持恒定,为了达到此目的,量化电平必须以对数形式分布,即希望量化器是对输入信号的对数进行量化。
非均匀量化中两种压扩算法数字电话通信 G.711
m律 (m-Law)压扩
A律 (A-Law)压扩
0 <? |x| <? 1/A
1/A <? |x| <? 1
如何进行最佳量化
目标,量化误差最小
实现,Lloyd算法
在预先划定量化区间的情况下,每个量化值必须是相应量化区间的质量中心。
当量化值给定时,量化区间的端点值必须是对应量化值中两个邻近点的中点值。
波形编码中的增量调制
增量调制 (△ M)
自适应增量调制 (ADM)
自适应脉冲调制( APCM)
APCM是一种根据输入信号幅度大小自动改变量化阶大小的一种波形编码技术。
差分脉冲编码调制( DPCM)
DPCM是利用相邻样本之间冗余信息来进行编码的一种数据压缩技术。
自适应差分脉冲调制( ADPCM)
ADPCM
综合了
APCM的自适应特性和
DPCM系统的差分特性
SB-ADPCM编译码器
子带编码:采用带通滤波器将音频信号的频段分成若干个连续的频段,对每个频段中的信号单独编码子带编码优点
可以对每个子带进行子适应控制。调节量化阶大小,减少总的量化噪声
根据每个子带的重要性,分配不同的量化位数。
线性预测编码( LPC)
LPC属于音源编码方式,它使用过去的 P个样本值来预测现时刻的采样值。
AC3编码介绍
数字话音效编码,信噪比更高,提供 32K到
640K的数据传输率。
独立 6声道大功率输出(超重低音 <120hz),
声音定位能力更强。
使用自适应变换编码和心理声学特性,实现失真度极小的大幅度压缩。
CCITT和 ISO先后提出了一系列有关音频的编码建议。
分别应用于窄带话音信号、宽带话音信号、图像伴音信号、数字移动通信 GSM
信号等等。
音频编码标准介绍音频编码算法和标准一览音频编码小结
编码包含数字化的过程,还包括数据压缩。
压缩编码主要利用数据之间的冗余信息和人的生理感觉特性。
注意增量调制与差分调制之间的区别
不同的应用会采用不同的编码方法。
编码效率的改进仍然是热点(信号处理技术,计算机技术 … )
谢谢差分调制编码与线性预测编码有什么关系?