信源编码技术语音与图像压缩编码信源编码技术
信源编码:将模拟信源信号转换为二进制数字信号,在接收端再将收到的数字信号还原为模拟信号的方法
– 这是由模拟网?数字网至关重要的一步
类别
– 语音编解码
– 图像编解码
目前在移动通信系统中,语音信号还是主要业务,在今后多媒体移动系统中,
图像业务比重越来越大。
语音编码
概念:
– 把模拟语音信号变成数字语音信号,以便在信道中传输
意义
– 提高通话质量 (数字化+纠错码 )
– 提高频谱利用率 (低码率编码 )
– 提高系统容量 (低码率+话音激活技术 )
移动通信对语音编码要求
– 码率低、语音质量高
– 抗噪声和抗干扰能力强
– 编译码延时小,总延时在 65ms以内
– 编译码复杂度低,便于大规模集成化
– 功耗小,便于应用于手持台语音编码分类语音编码方法
波形编码:
– 将时间域信号直接变换成数字代码,目的是尽可能精确再现原始语音波形。基本原理是在时间轴上对模拟语音按一定速率 抽样,然后将幅度样本分层 量化,并用代码表示。
参量编码:
– 又称声源编码,是将信源信号在频域或其它正交变换域 提取特征参量,并 转换成数字代码 进行传输。基本原理是以发音机制的模型为基础,用一套模拟声带频谱特性的 滤波器系数和若干声源参数 来描述这个模型,从模拟语音信号中提取这些特征参量并量化编码
混合编码:
– 将波形编码和参量编码结合起来几种语音编码优缺点
波形编码
– 优点:对于比特速率较高的编码信号 (16~64kbit
s/s),波形编码技术能够提供相当好的话音质量
– 缺点:对低速语音编码 (低于 16kbits/s),波形编码的语音质量显著下降,所以不适合频谱资源紧张的移动通信系统
参量编码
– 优点:可实现低速语音编码,速率可达 2~4.8k
bits/s
– 缺点:语音质量只能达到中等
混合编码
– 吸收了上述两种编码的优点,是优选方向语音编码与压缩技术
要实现低速、高质量的语音编码,必须采用压缩技术;
波形技术处理:
– 削减语音波形冗余度,
包括线性预测分析、
频带分割、正交变换和分析合成等;
量化技术:
– 优化幅度量化,包括自适应量化、自适应比特分配和矢量量化语音评价
客观评定方法:
– 用客观测量的手段来评价语音编码的质量,常用信噪比、加权信噪比、平均分段信噪比等方法;特点有
建立在度量均方误差基础上;
计算简单;
对于低速语音编码,不能完全反映人对语音质量的感觉
主观评定方法:
– 主观评定等级或平均评定得分 (MOS)--由数十名试听者在相同信道环境中试听并给予评分,然后对评分进行统计处理,
求出平均得分。要求
试听者人数足够多;
语音材料足够丰富;
试听环境尽量相同
Mean Opinion Score
主观评定等级
试听者对语音质量的感觉往往是和注意力集中程度相联系的,因此对于主观评定等级,
还有一个收听注意力等级。
MOS分与语音质量
MOS分在 4.0~4.5分为高质量语音编码,
达到长途电话网的质量要求
MOS分为 3.5分左右称作通信质量,听者能感觉到语音质量有所下降,但不影响正常通话,可以满足多数通信系统使用要求
MOS分为 3分以下常称为合成语音质量,
只有足够高的可懂度,但自然度较差,
不容易识别讲话者语音编码现状
标准制定情况语音质量与比特速率语音波形编码
模拟语音信号?数字语音信号:时间和幅度离散化,即抽样与量化
– 抽样定理:采样率大于或等于信号带宽的 2倍,离散信号可以无失真恢复成原始模拟信号
– 幅度量化:用有限个幅值表示样值幅度,从而离散化信号幅度的过程
量化阶距:相邻两量化值之差
– 均匀量化:量化阶距为常量--小信号的“信号与量化噪声比”小,因此对小信号不利
– 非均匀量化:量化阶距可变--压缩量化,即在均匀量化前,对大信号进行压缩,对小信号进行放大压缩量化
压缩量化:
– 对输入信号的对数进行量化,以使量化信噪比与量化电平无关
律压缩:
A律压缩:
压缩量化特性
A与?的物理意义:最大量化阶距与最小量化阶距之比
PCM调制
PCM(脉冲编码调制 ):
– 直接将样值编码为信号,特点为
64kbit/s:量化成 128个正负各半的量值,用 7位二进制数表示,再加上一位符号共 8比特;采样率 8kHz
采用 A律或?律压缩参量编码原理
原理:
– 模型化人类语音产生机制,提取模型参数,并且只传送模型参数--低码率编码,导致合成的语音波形失去了自然度和音质
语音信号的产生模型
– 语音的产生:声带与声道
– 不同语音产生原因:声音激励源和声道不同
– 声音分类:清音和浊音
浊音:声带振动
– 基音周期
– 波形:三角形周期脉冲波,含丰富谐音
清音:声带不振动,类似白噪声
– 发声过程:口腔和鼻腔形成时变滤波器清音和浊音清浊音信号 清浊音频谱语音产生模型
语音模型的建立,1、产生激励; 2、响应
模型参数:基音、共振峰频率及强度、
清浊音判决特征提取参数
基于语音信号的短时准平稳特性- 10~20ms
提取技术
– 自相关函数法
– 平均幅度差函数法
– 线性预测
– 短时波形分析
短时处理技术
– 加窗技术:方窗和哈明窗
– 基音周期估计:
基于短时自相关函数
基于短时平均幅度差函数线性预测编码 (LPC)
线性预测:一个语音采样的现在值可以用若干个语音采样的过去值的加权线性组合来逼近。其中加权系数称为预测器系数。
线性预测语音编码机理:语音信源是相关信源,即使经过采样与量化,相邻样点仍有很强相关性。
线性预测编码:把线性预测用于语音编码。
– 预测模型一般为一个全极点模型
– 准则:最小均方误差
– 传输:预测系数、基音周期和增益、清浊音判决
LPC数学描述 1
1
1
()
1
( ) ( ) ( )
( ) ( )
( ) ( ) ( )
N
k
k
k
N
k
k
N
k
k
G
HZ
aZ
S n a S n k G u n
S n a S n k
e n S n S n



时变滤波器:
预测器:
误差:
LPC实现结构
(a)编码器 (b)译码器
LPC编码器缺陷
缺点:
– 损失了语音的音质
– 抗噪声能力差
– 谱包络估计可能产生较大失真
原因:
– 激励信号在浊音段采用周期脉冲,在清音段采用白噪声
– 没有将发端模型的误差信号传到收端混合编码
为克服 LPC的缺陷,采用混合编码器,即在产生模型参数的同时,激励信号从语音波形信号获得
方法
– 一条路径产生线性预测参数并传送出去
– 一条路径滤出信号的低频成分,并通过波形编码传送出去?接收端的激励信号
特点
– 不需要进行清浊音判决和基音周期提取
– 编码速率一般比 LPC高
– 音质比 LPC编码器好用于移动通信的语音编码
移动通信中实用的语音编码均为混合编码混合编码的共同特点
先进行线性预测分析去掉语音的短时相关性;
再分析出最佳激励信号;
对激励信号和线性预测参数进行编码传送;
GSM的语音编码
算法名称,(RPE-LTP)规则脉冲激励长时预测编码
特点:
– 是一种混合编码技术
– 采用间隔相等、相位和幅度优化的规则脉冲作为激励源,以使混合信号接近原信号
– 结合长时预测,消除信号冗余度,码率低
– 语音检测,分段处理,静寂描述( SID)帧
– 编码率 13kb/s
– 计算简单、计算量适中、易于硬件化
– 语音质量 MOS达 4.0
Regular Pulse Excited-Long Time Prediction
RPE-LTP算法方案
20ms为一帧,分成 4个子帧,每个子帧含 40
个样点 (采样率 8kHz)
每个子帧预测误差信号的样点按 3:1等间隔抽取,得到 13个样点 (共有 4种序列 )
在 4种序列中选择一种对语音波形贡献最大的序列
找到序列中的最大非零点,用 6比特编码
用最大非零点归一化整个序列,用 APCM编码,每个样值各用 3个比特编码
每 20ms共编 180bit
GSM语音编码框图
GSM语音解码框图
IS-95语音编码技术
算法名称,(Qualcomm CELP)Qualcomm
公司码激励线性预测编码
特点:
– 是一种混合编码技术
– 采用矢量量化技术
– 采用 CELP技术
– 采用话音激活技术 (VAD),速率可变
– 速率有四种,9.6kbps,4.8kbps,2.4kbps和
1.2kbps
矢量量化技术
矢量量化:
– 将若干个标量数据组成一个矢量,然后在矢量空间中给以整体量化,从而压缩了数据而不损失很多信息 ;
– 它是一种能接近率失真理论限的量化技术 ;
– 是一种延迟判决编码技术,把一个矢量映射为一个码本索引并传输到接收端,而码本是一个由有限个矢量组成的集合,并且这些矢量能组合得到所有可能的矢量矢量量化技术
示意
Y
1
Y
2
.
.
.
Y
M
Y
1
Y
2
.
.
.
Y
M
VQ编 码器 信道 VQ解 码器码本 码本
X V V Y
i
码激励线性预测技术 (CELP)
特点:
– 基于线性预测编码技术
– 激励源从码本中搜索并乘上最佳增益,代替 LP余量信号
编码过程:
– 原始语音被分成帧,帧长约为 10~30ms,
对每帧进行 LPC预测,求出 LP参数
– 在残留信号中进行长时预测
– 两次预测结束后,得到激励信号,并对激励信号进行矢量量化
QCELP框图
共 15个参数:滤波参数 a1,a2,…,a12;音调参数 L和 b;增益参数 G;码表参数 T
QCELP算法
算法方案:
– 把模拟语音按 8kHz采样
– 按 20ms一个语音帧,每帧 160个样本
– 用这 160个样本产生 3个参数子帧,这 3个参数子帧不断更新,并按一定帧结构送至接收端
滤波参数 a1,a2,…,a12,对任何速率每 20ms更新一次
音调参数,不同速率更新频率不同
码表参数,不同速率更新频率不同
QCELP不同速率的参数变化注,1/8速率不是从码表选择,而是伪随机激励
QCELP速率选择
根据每一帧中的能量与 3个门限值的比较
3个门限值的选择基于对背景噪声的估计
每一帧中的能量由自相关函数 R(0)的值决定,
与门限 T1(Bi),T2(Bi)和 T3(Bi)(Bi为背景噪声 )
的关系:
– 若 R(0)大于 3个门限,则选择速率‘ 1’
– 若 R(0)大于 2个门限,则选择速率‘ 1/2’
– 若 R(0)大于 1个门限,则选择速率‘ 1/4’
– 若 R(0)小于所有门限,则选择速率‘ 1/8’
每次只允许变化一级
半速率时,门限‘ 1’实际为门限‘ 1/2’
IS54语音编码
矢量和激励线性预测编码 (VSELP)
特点:
– 采用 CELP技术和矢量量化技术
– 对余数信号进行矢量量化,只传输码本序号,编码效率高;
– 有三个码本,一个为长时预测增益,另两个为矢量码本;
– 每一激励使用三个码本信号之;
– 在搜索最佳激励矢量方面有简化算法
– 码本为事先确定好的结构,不用全搜索
– 总延时比 GSM略大
WCDMA语音编码
算法名称,(AMR)自适应多速率编码
AMR概念:以更智能的方式解决信源编码和信道编码的速率匹配问题,实际的语音编码速率将取决于信道条件
原因:
– WCDMA支持多媒体业务,并支持分组交换与电路交换方式
– 移动信道是随机变化的,固定速率编码不能使系统工作在最佳的信源编码和信道编码速率上
信道质量差时,信道编码不足以纠正传输错误,此时应改进信道编码,减小信源编码速率,提高语音质量
信道质量好时,增加信源编码速率,提高语音质量
AMR语音编码原理
AMR是一种集成语音编码器,有 8种确定的信源速率模式,从 4.75kbps~12.2kbps
AMR编码框图
AMR解码框图图像压缩编码
图像信息量大,处理技术复杂
– 图像信息量远大于语音、文字、传真,所占用的传输频带也更宽
– 传输、处理、存储图像信息都比语音、文字等更复杂、更困难
图像包括:静止图像、可视电话、会议电视、
广播电视和高清晰度电视等不同等级
为节约传输带宽,根据图像信息中有大量的冗余信息,需要且能够对图像信息进行压缩编码图像压缩编码原理
根据各类图像的客观统计特性、以及接收者人眼的生理与心理特征,来制定综合匹配的压缩编码方式
– 通过图像的 帧间预测 来消除图像的时域相关性
– 通过图像的帧内 离散余弦变换 (DCT)来消除图像的空间域相关性
– 利用人眼视觉生理与心理特征进行 自适应量化编码
– 通过 熵编码 实现与信源的概率统计匹配
– 采用缓冲存储器实现输入变长与输出定长之间的匹配图像压缩编码标准
MPEG4综述
比前面的 MPEGx更加全面
– 目前标准已比较成熟
标准内容涵盖:
– 编码 (Coding):音频、视频和音像内容的表现部分
– 合成 (Composition):描述如何把这些对象 (Objects)
合成到一起,成组合媒体对象 (Media Objects)
– 复接 (Multiplex):媒体对象相关的数据复接与同步
– 互动 (Interaction):与用户间的互动系统综述
每一类媒体都有数个解码器
把各部分解码后的数据聚集到一起进行合成处理
合成思想与虚拟现实造型语言 (VRML)
类似
– 对象的场景图形
– 在链路中定义了合成信息
– 分层结构、无需静态
– 合成流包括 MPEG4的额外信息
空间关系和时间关系
MPEG4解码器框图
MPEG4的复接与同步
媒体的定时与同步
三层:
– 同步层:特定信息,用于已编码媒体的定时与同步
– 灵活复接层:把具有不同特征的媒体流复接起来
– 传输复接层:把复接媒体流加载到某特定网络上传输习题
移动通信对语音编码有哪些要求?
什么叫抽样、量化与编码? PCM的编码速率是多少?
线性预测原理是什么?通常用什么方法求得模型参数?
简述 RPE-LTP编码器各个部分的作用。
什么是矢量量化?简述 CELP的原理。
为什么会出现 AMR? AMR有几种速率?
图像压缩机理是什么?有哪些标准?