第 2章 多媒体信息编码
第 2章 多媒体信息编码
2.1 引言
2.2 基本编码方法
2.3 图像编码标准
2.4 语音编码标准
第 2章 多媒体信息编码
2.1 引 言
表 2.1 连续媒体数据类型特征举例
媒 体 类 型 数 据 速 率 说 明
CD
MPEG-2编码视频
NTSC
HDTV质量视频
64 kb/s
1.4 Mb/s
3.36 Mb/s
216 Mb/s
648 Mb/s
1个信道,8 kHz条样速率,8
2个信道,44.1 kHz条样速率,16
640*480像素 /帧,24位 /像素,30帧 /
640*480像素 /帧,24位 /像素,30帧 /
1280*720像素 /帧,24位 /像素,30帧 /秒
第 2章 多媒体信息编码
数据压缩处理一般由两个过程组成, 一是编码过程,即对原
始数据进行编码压缩,以便存储和传输 ; 二是解码过程,即对压缩
的数据进行解压,恢复成可用的数据 。 根据解压后数据的保真度,
数据压缩技术可分为无损压缩编码和有损压缩编码两大类 。
无损压缩编码是指解码后的数据与原始数据完全相同,无任
何偏差 。 这种编码通常基于信息熵原理,常用的编码有哈夫曼编
码, 算术编码, 行程编码等 。 它的压缩能力与所处理数据的类
型有关,压缩比通常比较低,一般在 2∶ 1~ 5∶ 1。 主要用于要求
数据无损压缩存储和传输的场合,如传真机, 文本文件传输等 。
第 2章 多媒体信息编码
有损压缩编码是指解码后的数据与原始数据相比有一定的
偏差,但仍可保持一定的视听质量和效果 。 它主要利用人的视,
听觉特性,在保持一定保真度下对数据进行压缩,其压缩比可达
100∶ 1。 压缩比愈高,其解压缩后的视, 音频质量就愈低 。 这
种编码方法有很多种,如基于线性预测原理的预测编码, 基于
正交变换原理的正交变换编码, 基于向量量化原理的向量量化
编码, 基于分层处理的分层编码以及基于频带分割原理的子带
编码等 。 主要用于对音频和视频数据的压缩 。
第 2章 多媒体信息编码
多媒体信息编码技术主要侧重于有损压缩编码的研究 。 经
过多年的研究与开发,已经出台了一系列有关的国际标准 。 其中,
最著名的是国际标准组织 ( ISO) 制定的 JPEG和 MPEG。 JPEG
是静止图像的压缩标准,其压缩比可达 40∶ 1。 MPEG( MPEG-1,
MPEG-2及 MPEG-4) 是动态图像的压缩标准,采用 MPEG-2标准
对 NTSC质量视频进行压缩后,网络带宽需求可降低到 3.36 Mb/s。
其它的标准还有国际电信联合会 ( ITU) 制定的用于可视电话,
会议电视的 H.261和 H.263; 用于音频的 G.711,G.721,G.728等 。
第 2章 多媒体信息编码
2.2 基本编码方法
2.2.1 行程编码
行程编码是一种简单的无损压缩编码方法,它通过压缩原始
数据中相同的字节序列实现数据压缩 。 在图像和声音数据中可能
包含大量的相同字节连续重复的序列,通过行程编码可以将这些
重复字节压缩掉,取而代之的是一个更加紧密的字节序列 。 例如,
一个原始数据字符串为 RTTTTTTTTABBCDGHJK,采用行程编码
后的字符串为 R# 8TABBCDGHJK,这里用# 8T替换掉 8个 T字符,
符号, #, 是特殊标识符,用于表示行程编码 。 如果原始数据字
符串也包含了, #, 符号,则必须用两个, #, 符号替换掉原始
数据字符串中的, #, 符号 。
第 2章 多媒体信息编码
2.2.2 哈夫曼编码
哈夫曼 (Huffman)编码是一种无损压缩编码方法,它根据信源
符号出现的概率大小进行排序,出现的概率大的符号分配短码,反
之分配长码 。 在分配代码过程中,需要建立一个 n阶二叉树,其编
码过程如下,
① 对信源符号按其出现的概率进行递减排序 ;
② 将两个最小的概率相加,其和作为新符号的概率 ;
③ 重复 ① 和 ②,直到概率之和达到 1为止 ;
④ 每次合并消息时,将被合并的消息赋予 1和 0或者 0和 1;
⑤ 寻找从每个信源符号到概率为 1处的路径,记录下路径上的 1和 0;
⑥ 从树根节点到叶子节点,对每个信源符号列出 0,1序列。
第 2章 多媒体信息编码
例如,A,B,C,D四个字符出现的概率分别为, P(A)=3/4;
P(B)=1/8; P(C)= 1/16; P(D)=1/16,按照上述编码过程将生成如
图 2.1所示的二叉树,获得的编码结果是, H(A)=1; H(B)=01;
H(C)=001; H(D)=000,该结果存放在哈夫曼表中 。
图 2.1 哈夫曼编码生成的二叉树
第 2章 多媒体信息编码
2.2.3 离散余弦变换编码
变换编码主要有离散傅立叶变换 (DFT)编码, 离散余弦变换
(DCT)编码等 。 其中,DCT编码方法被普遍使用,在 JPEG,
MPEG和 H.261等标准中都采用了 DCT编码 。 由于声音信号只有
一个时间维,因此音频信号压缩采用一维 DCT编码,而图像压缩
必须考虑水平和垂直两个方向,因此图像压缩则采用二维 DCT编
码 。
第 2章 多媒体信息编码
DCT编码方法是对一个 8× 8图像块灰度样本数据流进行
压缩,而彩色图像压缩可看成是压缩图像的多个分量 。 在编码
器中,首先将源图像 8× 8样本数据块 ( 像素块 ) 的取值范围由
[ 0,2p-1] ( 无符号 ) 转换成 [ -2p-1,2p-1-1] ( 有符号 ),其中 p
为样本定义的精度 。 然后对 8× 8样本数据块进行正向离散余弦
变换 ( FDCT) 。 在解码器中,利用逆向离散余弦变换 ( IDCT)
重建 8× 8样本数据块,恢复图像 。 FDCT和 IDCT的数学表达式
如 (1)式和 (2)式所示,
第 2章 多媒体信息编码
N
vy
N
ux
vuFvCuCyxF
N
vy
N
ux
yxfvCyCuF
N
i
N
j
N
i
N
j
2
)12(
c o s
2
)12(
c o s),()()(
4
1
),(
2
)12(
c o s
2
)12(
c o s),()()(
4
1
),(
1
1
1
1
1
1
1
1
??
??
?
??
?
??
?
? ?
? ?
?
?
?
?
?
?
?
?
式中,
?
?
?
?
?
?
0
2
1
)(
)(
vC
uC
u,v=0
0 其它
第 2章 多媒体信息编码
源图像 8× 8样本数据块实质上是 64点离散信号 ( 空间范围
x和 y的函数 ),FDCT将其变换成 64个正交基信号,FDCT的输
出是 64个 DCT系数 ( 即基信号振幅 ) 。 x,y 两个方向频
率都为零的系数叫直流系数 ( DC),其余 63个系数是交流系数
( AC) 。 由于图像帧上点与点之间的样本值变化比较缓慢,大
多数信号集中在低频区 。
第 2章 多媒体信息编码
2.2.4 差分脉冲编码调制
图 2.2 DPCM编解码器原理框图
( a) DPCM编码器 ; (b) DPCM解码器
第 2章 多媒体信息编码
2.2.5 运动补偿预测编码
运动补偿预测编码是一种主要用于动态图像的压缩的预测
编码 。 动态图像是由一系列视频帧组成,帧与帧之间可能存在
着瞬时冗余,这种瞬时冗余主要是由静态背景前的运动物体或
摄像机的移动引起的 。 运动补偿预测编码主要通过帧间编码来
压缩时间冗余信息 。 其基本原理如下,
① 在视频帧序列中设置参照帧,且第 1帧总是参照帧 。
② 对于当前的编码帧,首先在该帧的前帧和 /或后帧 ( 参照
帧 ) 中寻找与该帧的一个图像块相匹配的图像块 。
第 2章 多媒体信息编码
③ 如果找到这样的块,则进行下列计算,
·当前块的块亮度值与参照帧中对应块 ( 称参照块 ) 的块亮
度值之间的差值信号 ( DPCM码 ) ;
·当前块相对于参照块在 x和 y两个方向上的运动向量值,表
示该块在 x和 y方向上的平移 。 通过定义一个搜索域来限制 x和 y
方向上的搜索范围,以降低运动信息的开销 ;
·用差值信号和运动向量值来表示参照块与所预测块之间的
误差,称为预测误差 。
这时,只需对当前块的运动向量值和预测误差进行编码,不
必对当前块的图像进行编码,以压缩时间冗余信息 。
第 2章 多媒体信息编码
④ 如果找不到这样的块,则必须进行帧内编码,即对当前块
的图像进行编码 。
运动补偿预测编码可分成下列三种方式,
① 单向运动补偿预测, 只使用前参照帧或后参照帧之一进
行预测 。
② 双向运动补偿预测, 使用前, 后两个帧作为参照帧来计
算各块的运动向量,最后只
选择具有最小匹配误差的参照帧相关的运动向量值 。
③ 插值运动补偿预测, 使用前参照帧和后参照帧两者预测
值的平均值 。 这时,必须分别存储和传输这两个运动向量 。
第 2章 多媒体信息编码
2.3 图像编码标准
2.3.1 JPEG
JPEG( Joint Photographic Experts Group) 是 ISO为制定有关
静态图像压缩标准而成立的一个专家组,现已公布了 JPEG标准,
标准号为 ISO CD10918。 JPEG作为一种静态图像压缩编码的国
际标准,在实际中得到广泛的应用 。 JPEG图像压缩技术具有如
下特点,
① 能够大范围地调节图像压缩率及其相应的图像保真度,
解码器可参数化 。 使用户在具体应用时可以选择所期望的压缩
率 /质量比 。
第 2章 多媒体信息编码
② 能够应用于任何连续色调数字源图像 ( 实际应用中可能
遇到的图像有很多种,故不限制图像的尺寸, 色彩级差, 像素
长宽比等条件 ),不限制图像的景象内容 ( 如复杂性, 色彩范
围或统计特性 ) 。
③ 能够在具有一定能力的 CPU上实现所要求的功能,以利
于操纵复杂的计算软件,并用可接受的硬件成本实现具有高性
能要求的应用 。
第 2章 多媒体信息编码
④ 规定了 4种运行模式,以满足各种需要,
·顺序编码, 按从左到右, 从上到下的顺序对图像进行扫描
和编码 。 这种模式是基准模式,各种 JPEG实现都要支持这种模
式 。
·递增编码, 对于变换时间较长的扫描器,按由粗到细的过程,
以复合扫描顺序进行图像编码 。
·无损编码, 保证准确地恢复图像所有样本值的图像编码 。
与有损模式相比,其压缩比低 。
·分层编码, 以多种分辨率进行图像编码,可直接获得低分辨
率图像,重建复原全图 。
第 2章 多媒体信息编码
1,JPEG
JPEG标准采用一种通用的图像模型,能够适用大多数常用的
二维图像格式 。 这种图像模型是从各种图像格式和应用中抽象
出来的,而且只包括那些压缩和重构数字图像所必需的数据 。
JPEG压缩数据格式没有提供关于表示完整图像的编码信息 。 例
如,JPEG没有定义和编码任何有关像素尺寸比, 色彩间隔和图像
获取特点等信息 。
通常,JPEG的一帧源图像包含有 1~255个图像成分,称为颜色
平面或组元 。 每个组元是一个样本点矩阵,样本定义的精度为 p
位,取值范围是 [ 0,2p-1],所有成分的所有样本点精度都是同一
个 p。 对基于 DCT的 Codec,p取 8或 12; 对基于 DPCM的 Codec,p取
2~16。
第 2章 多媒体信息编码
每个平面沿水平和垂直方向的像素数可能是不同的,但必须
使用同样多的位数对所有平面的所有像素进行编码 。 例如,颜色
RGB ( 红, 绿, 蓝 ) 三色,也可以分配给
YUV( 一个亮度和两个色度 ),各种模型都定义自己的精度 。
灰度图一般由一个组元构成 ; GB 彩图有三个等分辨率
的组元 ; YUV 彩图通常对图的色度组元衰减采样,以减少存
储量 。 例如,采用 4∶ 1∶ 1形式,色度的水平和垂直分辨率组元
只是亮度的一半 。 这主要基于如下事实, 人的视觉对亮度组元
十分敏感,对色度组元的敏感性较低 。
第 2章 多媒体信息编码
图 2.3 像素块和, 之,
(a) 8× 8像素块; (b),之”字形顺序
第 2章 多媒体信息编码
2,JPEG
图 2.4 DCT
( a) DCT编码过程 ; ( b) DCT解码过程
第 2章 多媒体信息编码
在编码器中,首先由 FDCT对源图像 8× 8样本数据块进行正向
离散余弦变换,FDCT将输出 64个 DCT系数,其中 1个是直流系数
( DC),其余 63个是交流系数 ( AC) 。
量化器对 FDCT输出的每个 DCT系数进行量化处理 。 量化的
目的是去除那些无显著视觉意义的高频信息 。 在量化时,每个
DCT系数与量化表中的 64个元素进行舍取运算 。 量化表是由开发
者指定并输入到编码器中 。 量化计算公式如下,
),(
),(),(
vuS
vuFvuQ 取整?
第 2章 多媒体信息编码
经过量化处理后,DC系数从 63个 AC系数中分离出来进行单
独处理,因为 DC系数代表了相当一部分图像信息 。 所有的量化系
数按, 之, 字形顺序排列,低频系数将排在高频系数之前,以利于
实现熵编码 。
在熵编码处理之前,先对 DC系数进行 DPCM编码,对 AC系数
进行行程编码 。 由于大多数 AC系数都为零,只有少数不为零,行
程编码将压缩 AC系数中零值序列,对非零系数进行有效编码 。 行
程编码分为两步处理, 先将量化的 DCT系数转换成中间符号序列,
再向符号分配可变长代码 。
第 2章 多媒体信息编码
中间符号序列是一种双符号序列 。 对于 AC系数,符号 1表示
两部分信息, 行程和位长,行程取值为 0~15,位长取值 0~10; 符号 2
表示振幅信息,即非零系数大小 。 对于 DC系数,符号 1表示位长信
息,符号 2表示振幅信息 。 由于 DC系数有别于 AC系数,故它的符
号 1取值范围是 1~11。 为其分配的代码是可变长的,以便于使用熵
编码进行压缩处理 。
熵编码是按 DCT系数的统计特征对量化系数进一步编码,实
现无损压缩 。 JPEG规定了两种熵编码方法, 哈夫曼编码和算术编
码 。 对于哈夫曼编码所需的哈夫曼表,JPEG标准没有作具体规定,
这由开发者根据应用需要来决定 。
第 2章 多媒体信息编码
JPEG还要对成分所用的表进行控制,以保证将适当的表用于
适当的成分 。 对一个成分中所有样本进行编码时,必须使用同一
个量化表和同一套熵编码表 。 JPEG解码器同时存放 4个不同的
量化表和 4套不同的熵编码表 ( 顺序扫描解码器例外,它只能存
放 2套熵编码表 ),这对解码时为多成分图像切换不同的适用表
来说是必要的 。
与上述编码过程相反,在解码处理过程中首先是熵解码过程,
然后是解量化过程,它是将量化函数值乘以步长,其结果作为
IDCT的输入量,最后执行 IDCT,重建 8× 8样本数据块,形成重建
图像 。
第 2章 多媒体信息编码
JPEG标准对数据压缩和图像质量的关系进行了详细说明 。
对于具有中度复杂景象的彩色图像,所有 DCT运行模式都可生成
以下几种图像质量水平 ( 按图压缩率表示 ),
·0.25 ~ 0.5位 /像素, 图像质量中等,可满足一般的应用需求 ;
·0.5 ~ 0.75位 /像素, 图像质量好,可满足有一定图像质量要
求的应用需求 ;
·0.75 ~ 1.5位 /像素, 图像质量很好,可满足有较高图像质量
要求的应用需求 ;
·1.5 ~ 2.0位 /像素, 图像质量极好,已难以分辨重建图像与
源图像间的差别,可满足有更高图像质量要求的应用需求 。
第 2章 多媒体信息编码
3,JPEG
(1)
它也是由 FDCT和量化过程构成的 。 所不同的是,图像分量是
多次扫描编码,第一次扫描编码产生的图像是粗糙的,然后可再组
织后续的扫描,对图像逐步求精,直到达到量化表所规定的图像质
量水平 。 这种运行模式的优点是可生成预显示的图像,而无需对
该图像完全解码,可以迅速地传输和显示图像 。
这里有两种对量化 DCT系数进行编码的方法, 一是在一次扫
描中,只对, 之, 字形顺序中一个特定, 波段, 的系数进行编码,
这一过程叫, 频谱选择, ; 二是在当前波段中,无需在一次扫描中
对全部系数进行准确编码,可首先指定 N个最有意义的位先编码,
在后面的扫描中,再对其次有意义位进行编码,这个过程叫连续逼
近 。 上述两种方法可分别使用,也可灵活组合使用 。
第 2章 多媒体信息编码
(2)
它与源编码过程不同,不是采用变换编码和量化器相结合的
方式进行编码,而是采用 DPCM技术进行无损压缩编码,但压缩
率较低 。 这种运行模式主要用于无损地存储和传输图像 ( 如 X
光照片 ) 的场合 。 对基于 DPCM的无损压缩模式,JPEG没有严
格规定 。 对于中等复杂程序的彩图,其压缩比为 2∶ 1。
第 2章 多媒体信息编码
(3)
它提供一种, 金字塔, 式分辨率图像编码,即相邻两次编码,
分辨率在水平或垂直, 或者两个方向上相差二倍 。 其过程是, 先
降低源图的分辨率,对其采样编码,再复原重建 ; 然后提高分辨率
再采样编码,作为源图的预测值,与低分辨率采样值进行比较,对
其差值分别进行编码 ; 重复上述步骤,直到实现图像的全分辨率
编码 。 这种运行模式很适合于用低分辨率设备处理高分辨率图
像的应用 。
第 2章 多媒体信息编码
2.3.2 H.261标准
为了满足在综合数字网络 ( ISDN) 上开展可视通信业务的需
要,ITU专门成立了一个可视电话编码规范小组来制定有关视频信
号传输编码标准,并先后完成了 H.261和 H.263标准的制定工作 。
H.261是, p× 64 kb/s视频编解码器, 标准,其中 p的取值范围在 1~
30之间,代表 ISDN的 B通道数量,各个通道的数码率为 64 kb/s。 由
于 H.261主要是为可视电话和电视会议制定的,因此,标准中所建议
的视频编码算法应具有实时处理能力,延时应控制到最小程度 。 当
p=1或 2时,由于数码率较低,仅能用于桌面上进行面对面直观通信 。
而当 p≥6时,由于提高了数码率,能够传输较复杂的图像,图像质量
也得到改善,因此更适合电视会议 。
第 2章 多媒体信息编码
H.261的目标是在世界范围内的数字电话通道上实现视频和音频
信号的传输,具体的目标是,
·视频源信号可以是 525线或 625线的电视信号 。 在实际应用中
必须将视频源信号转换成通用中间格式 ( CIF),使之不依赖于视频
源信号格式 。 这样便允许各个地区之间不同电视格式设备通过标准
的 Codec进行通信 。
·由标准编码器产生的位流可以和其它信号 ( 如音频 ) 一起传输 。
·视频传输速率在 40 kb/s~ 2 Mb/s之间,与电视会议和可视电话
的图像质量相对应 。
·支持单向或双向的可视通信 。 ·支持多点通信 。
·是否纠错由编码器决定 。
第 2章 多媒体信息编码
1,视频编码格式
图 2.5 H.261的亮度和色度样本分布
第 2章 多媒体信息编码
表 2.2 CIF和 QCIF编码格式参数举例
GIF QCIF
行数 /帧 像素数 /行 行数 /帧 像素数
亮度 Y 288 360(352) 144 180(176)
色度 Cb 144 180(176) 72 90(88)
色度 Cr 144 180(176) 72 90(88)
第 2章 多媒体信息编码
以 29.97 帧 /秒速率传送 CIF和 QCIF,未压缩数码率分别为
36.45 Mb/s和 9.113Mb/s。 在使用 ISDN通道 ( p× 64 kb/s,p=1,
2,…,30) 传送视频信号时,必须大幅度地降低数码率 。 至于选用
CIF和 QCIF中的哪一种,则取决于通道容量的大小 。 当 p=1或 2时,
在桌面可视电话应用中常选用 QCIF。 如果在 10帧 /秒速率下使用,
即使选用 QCIF也要将数码率减少 47.5倍才能使用 64 kb/s通道来
传送信号,这是很难实现的 。 当 p≥6时,可以使用 CIF,因为它有很
多可用于对图像编码的信息 。 由于 CIF的分辨率高,更适合于电
视会议方面的应用 。
第 2章 多媒体信息编码
图 2.6 CIF和 QCIF视频帧数据结构
第 2章 多媒体信息编码
它分为 4个层次, 画面, 块组 ( GOB), 宏块 ( MB) 和块 。
其中,每个 CIF画面有 12个 GOB,每个块组由 3× 11个宏块组成,每
个宏块由 4个 8× 8亮度块 ( Y) 和两个 8× 8色度块 ( Cb和 Cr各 1个 )
组成,一个块由 8× 8像素点 ( DCT编码单位 ) 组成 。 一个 QCIF图
像有 3个 GOB,是 CIF的四分之一 。 这种以块为单位的层次结构对
高压缩比视频编码算法来说是至关重要的 。
每个画面层的数据中都有一个图像标题,图像标题后是 GOB
的数据 。 图像标题包括一个 20位的图像起始码以及其它信息 。
例如,视频编码格式 ( CIF或 QCIF), 临时标记 ( 帧编号 ) 等 。
GOB层有一个块组标题,紧随其后的是宏块数据 。 块组标题包括
一个 16位的 GOB起始码以及其它信息 。 例如,GOB的位置, GOB
量化信息等 。
第 2章 多媒体信息编码
宏块层有一个宏块标题,宏块标题之后是块的数据 。 宏块标
题包括一个该宏块类型变长码 ( VLC) 。 其后是一个宏块变长
码,标明是帧内编码还是帧间编码,是否附带运动预测和循环滤
波器 。 根据宏块的具体类型,后面还可以跟有各种各样的附加信
息 。 当运动预测精确到某一给定的指标时,无需传送 DCT系数的
块数据 。 另外,在一个 GOB中,如果某一宏块中没有包含图像,则
相应部分的信息就不必传送 。
块层含有块的 DCT系数,其后是一个定长码 EOB,用以标识
块的结束 。 块的 DCT系数利用了二维 VLC编码 。 宏块中并不是
每一个块都需要传送 。
第 2章 多媒体信息编码
2,视频编码算法
图 2.7 H.261
(a) 视频编码器 ; (b)视频解码器
第 2章 多媒体信息编码
① 被传输图像的第 1帧总是按帧内编码方法编码 ( 该帧的
所有宏块 ),
·整个图像帧被分成互不重叠的 8× 8像素块 ;
·对这些块进行 FDCT变换 ;
·对所产生的 64个 DCT系数进行线性量化,并按, 之, 字形
重新排列 ;
·为帧间编码准备参照帧,即使用逆向量化器和 IDCT变换
在编码器内对该帧进行解码来恢复,生成与接收端解码器完全
一致的参照帧,并存放在图像存储器中供帧间编码使用 。
第 2章 多媒体信息编码
② 对后续需要编码的帧,要根据最新的参照帧进行运动补
偿预测,以决定该帧的每个宏块是否进行帧内编码或帧间编码 。
H.261采用单向运动补偿预测算法,即,
·每个宏块只使用 4个亮度块,针对当前被编码的宏块,在参
照帧中寻找最接近的匹配 。 H.261通过检查宏块计算运动补偿值,
运动向量的搜索范围在 ± 15个像素内 。
·如果找不到一个最接近的匹配,则在该宏块中使用与帧内
编码完全相同的编码方法 。 对运动向量进行差分编码,并以从左
边宏块的运动向量作为参考 。 标准规定,编码器不能用来确定运
动向量,H.261只考虑连续帧中同一位置上宏块之间的差异 。
·如果当前块与所预测块之间的误差小于某一阈值,则该块
可以略过不编码。
第 2章 多媒体信息编码
③ 必要时可以在源编码器和熵编码器之间使用循环滤波器,
以滤掉高频干扰,改善图像质量 。 这种方法特别适用于低数码率
的情况 。
④ H.261的量化器是一种线性量化器,并非 JPEG和 MPEG中
所使用的量化矩阵 。 它只是对 GOB使用了量化系数,并不区分高
频 DCT系数和低频 DCT系数 。
⑤ H.261的熵编码是可变长的,并对所有用到的哈夫曼表按
标准进行预定义,同时还定义了运动向量表和量化编码表等 。
第 2章 多媒体信息编码
2.3.3 H.263标准
H.263是一种低数码率下的运动图像编码标准,它在 H.261的
基础上进行适当的扩展,主要是用于支持低数码率下的视听信号
传输服务的 。 典型的应用有, 在 V.34 Modem的连接上采用 20
kb/s速率传输视频信号 ; 采用 6.5 kb/s速率传输音频信号 。 H.263
吸取了 MPEG的经验对 H.261进行改进,主要进行如下方面的扩展,
将图像格式由两种增加到五种, 对运动补偿预测进行改进和精
化以及支持双向运动补偿预测等 。
第 2章 多媒体信息编码
2.3.4 MPEG标准
MPEG( Moving Picture Experts Group) 是 ISO为制定有关
动态图像压缩标准而成立的一个专家组,现已经公布了多个版本
的 MPEG标准, MPEG-1,MPEG-2和 MPEG-4,其中 MPEG-1是
MPEG标准集的基础,MPEG-2和 MPEG-4都是在 MPEG-1基础上
所作的改进和扩展,以满足不同的应用要求和环境 。
MPEG标准是一个通用标准,既考虑了应用要求,又独立于
具体的应用 。 MPEG标准可用于下列数字存储媒体上, 光盘
( CD-ROM), 数字录音带 ( DAT), 磁盘, 可写光盘以及
通信网络 (综合业务数字网, 分组交换网以及局域网等 )。
第 2章 多媒体信息编码
MPEG标准不仅考虑了视频数据压缩,而且还考虑了音频数
据压缩以及二者之间的同步问题 。 作为 MPEG视频压缩算法,必
须具有与存储相适应的性质,即能够随机访问, 快进 /快退检索,
倒放, 音像同步, 容错能力, 延时限制, 可编辑性以及灵活的
视频窗口格式 。 实现这些特性对各种应用都是十分重要的,因而
也构成了 MPEG视频压缩算法的基本特征 。
第 2章 多媒体信息编码
2.3.4.1 MPEG-1 标准
1,MPEG-1
MPEG-1视频压缩算法所面临的一个矛盾是, 在保证图像质
量的前提下,仅靠帧内编码很难达到高压缩比 ; 而满足随机访问
条件的最好方法则是帧内编码 。 为使高压缩比和随机访问这两
方面要求都能得到满足,MPEG-1采取了预测和插值两种帧间编
码技术 。
第 2章 多媒体信息编码
为此,MPEG-1将图像编码帧分成三类,
·I帧 ( Introcoded frame,内帧 ), 它采用与 JPEG相类似的编码
方法进行编码,并且在编码时不必参照其它的帧,其压缩比是比较
低的 。 I帧可作为随机访问点以及其它图像编码帧的参照帧 。
·P帧 ( Predictively coded frame,预测帧 ), 它需要利用前面的 I
帧或 P帧信息进行编码和解码,同时又是后续 P帧的参照帧 。 它利
用了瞬时冗余特性,可获得较高的压缩比 。 然而只有对所参照的 I
帧和 P帧完成解码后才能访问 P帧 。
·B帧 ( Bidirectionally predictively coded frame,双向预测帧 ),
它需要利用前面和后面的 I帧, P帧信息进行编码和解码,但它本身
不可作为参照帧 。 由于 B帧使用了双向运动补偿预测技术,故它的
压缩比是最高的 。
第 2章 多媒体信息编码
图 2.8 MPEG-1视频帧编码及关系
第 2章 多媒体信息编码
图 2.9 MPEG视频流的数据层次
第 2章 多媒体信息编码
2,MPEG-1
MPEG-1视频压缩算法采用两种基本技术, 一是基于块的运
动补偿预测,以缩减时间冗余 ; 二是基于 DCT的变换编码,以缩
减空间冗余 。 运动补偿预测技术采用纯预测编码和插值预测编
码两种编码方法 。 剩余信号 ( 预测误差 ) 在缩减空间冗余时被
进一步压缩 。 与运动有关的信息包含在 16× 16块中,与空间信
息一起进行 DCT变换 。 为获得最大限度的编码效率,使用可变
长熵编码器来压缩运动信息 。
第 2章 多媒体信息编码
MPEG-1视频的编码与解码处理过程如下,
① 每个 GOP的第 1帧总是 I帧,它是按块顺序编码的,即使用
DCT变换, 量化过程和熵编码方法进行中度压缩,并作为参照
帧和随机访问点 。
② 当 GOP中出现 B帧或 P帧时,将启动运动补偿预测过程,以
获取最佳的压缩比 。
③ 对于 P帧的编码,运动补偿预测算法使用最近一个 I帧或 P
帧作为参照帧 。 如果在当前帧的宏块与参照帧的宏块之间找到
一个较好的匹配,则对当前帧的宏块的运动向量和所得到的预测
误差进行编码 ; 否则,只对该宏块进行帧内编码 。
第 2章 多媒体信息编码
④ 对于 B帧的编码,其处理过程比较复杂,因为必须考虑四
种可能性, 正向预测, 反向预测, 插值和宏块中的帧内编码
( 在前三者均不合适的情况下 ) 。 如果使用插值方法,则必须
使用前, 后两个最近的 I帧或 P帧作为参照帧,并产生两个运动
向量和一个预测误差块,并且应当首先传输 P帧和 B帧的参照帧 。
第 2章 多媒体信息编码
⑤ MPEG-1标准采用了两种结构的量化器,根据帧内编码和
帧间编码不同的 DCT系数性质采用不同的量化矩阵,通过 Q系数
来控制编码,以适应编码器的输出数码率 。 由于预测误差块主要
是高频信号,可以采用粗粒度的量化器,以降低数码率 ; 帧内编码
块的信号频率范围较宽,则应当采用细粒度的量化器进行精确编
码 ; 否则,对于那些光滑边界的块,很小的误差都会产生可察觉的
块边界 ( 即块效应现象 ) 。 因此,为了适应人的视觉特性,必须
对量化器进行修正,重点对图像中视觉效应敏感部分进行精确编
码,以消除块效应现象 。 这样,既可满足图像数码率的要求,又能
改善图像质量 。
第 2章 多媒体信息编码
⑥ MPEG-1的熵编码过程可分成两步, 首先,进行可变长行程
编码 ( 对出现概率较小的代码 ) 和定长行程编码 ( 对出现概率最
大的代码 ) ; 然后,使用带有预定义表的哈夫曼编码 。 通过熵编
码进一步提高了 DCT的压缩比,同时减少运动信息对总数码率的
影响 。 MPEG-1的 DCT系数的变长码是 H.261标准中所使用变长码
的一个超集 。 如果在一个处理器上同时实现这两个标准,则使用
一个变长码即可,以减小开销 。
在参照帧之间增加一定数量的 B帧,既可降低 B帧与参照帧之
间相关性,也可降低参照帧之间的相关性 。 B帧的数量是随视频
内容而变化的,但对大多数视频内容而言,以 1/10秒钟的间隔将 B
帧 插 入 到 参 照 帧 中 是 合 适 的 。 图 像 的 组 合 形 式 是,
IBBPBBPBB … IBBPBB。
第 2章 多媒体信息编码
3,MPEG-1视频约束参数集
表 2.3 MPEG-1视频约束参数集中的若干参数
水平尺寸 ≤720 pel(像素 )
垂直尺寸 ≤576 pel(像素 )
微块总数 /图像 ≤396
微块总数 /秒 ≤396× 25=330× 30
帧速率 ≤30帧 /秒
数码率 ≤1.86 Mb/s
解码缓冲区 ≤376 832位
第 2章 多媒体信息编码
2.3.4.2 MPEG-2标准
·支持 2~ 100 Mb/s速率的数字视频传输 。
·可用于支持高清晰度电视 ( HDTV) 格式 。
·定义一种层次可伸缩的规范,用于支持全球范围的
TV/HDTV,视频传输系统以及其它需要高级编码的应用 。
·向下兼容现存的 MPEG-1和 H.261标准 。
·扩展了 MPEG-1的运动补偿预测方法,并且允许其它的
DCT系数 。
·定义了可伸缩的, 层次化的编码算法,使普通 TV和
HDTV系统可以使用相同的数据流 。
第 2章 多媒体信息编码
MPEG-2标准主要由四部分组成, MPEG-2视频, MPEG-2
音频, MPEG-2系统和 MPEG-2一致性测试规范 。 从概念上讲,
MPEG-2和 MPEG-1很相似,只是 MPEG-2标准所覆盖的应用领域
更加广泛 。 最初制定 MPEG-2标准的目标是为了传输广播电视
质量级的全数字视频信号 。 后来 MPEG-2标准被扩展到其它领
域,并得到很好的应用,如传输速率更高的 HDTV系统 。
第 2章 多媒体信息编码
1,MPEG-2
MPEG-2视频标准主要为传输电视质量级的数字视频信号而制定的,同时
作为一种基于 MPEG-1的扩展标准完全兼容 MPEG-1视频标准,并且还提供了隔
行扫描视频编码格式和一些其它高级特性,支持 HDTV的视频传输 。
为了 MPEG-2标准适用于更广的应用领域,使之具有较高可伸缩性,MPEG-
2视频标准定义了四种配置 (Profile) 和四种级别 (Level)。 Profile有 Simple,
Main,Main+和 Next,主要定义了编码的语法和算法 ; Level有 Low,Main,
High 1440和 High,主要定义了编码的参数,如采样速率, 图像帧尺寸, 编码速
率等 。 Profile 和 Level的组合构成了处理不同位流的解码器模式 。 其中,Main
Profile和 Main Level组合起来可以解决 90%的应用问题 。
第 2章 多媒体信息编码
2,MPEG-2
MPEG-2音频标准用于支持低数码率多通道音频信号的编码,
它可以支持 5路全带宽的音频通道 (左, 右声道,中置和两路环绕声
道 ),还可以有一个低频增强信道,或者支持 7路解说 /多国语言通道 。
MPEG-2音频标准中的立体声和单声道的编码采样速率为 16 kHz,
22.05 kHz和 24 kHz,只是 MPEG-1音频采样速率的二分之一,目的
是使每个声音通道能够在低于 64 kb/s的速率下传送 。
MPEG-2音频标准除了保持左, 右声道与 MPEG-1标准相兼容
外,还增加了几个离散声道 (一个中置和两路环绕声道 ),明显地改
善了声音效果 。 对于新增加的声道,MPEG-2音频标准采用了新的
编码方法 。
第 2章 多媒体信息编码
3,MPEG-2
MPEG-2系统标准定义 MPEG-2视频和音频流的传输或存储
格式,以便于两者的同步 。 它定义了两种信息流格式, 传送流和
程序流 。 传送流格式适合在数据易丢失的的应用场合,如在各种
网络环境下进行数字电视和可视电话信号的传输,以及在各种存
储介质上存储视频和音频数据 。 程序流格式保持与 MPEG-1相兼
容,并且针对多媒体应用领域进行了优化,包括对支持新的应用
的扩展 。
传送流和程序流都是建立在一种公共的分组结构之上的,以
便于视频和音频解码的实现和类型转换 。 在这种分组结构中,每
个传送流分组的长度是固定的,共 188个字节,包括 4个字节的分
组头 。 这恰好是 ATM信元体长度 (48个字节 )的 4倍,因此,这种分
组结构特别适合在 ATM网络上传输 。 当然,它也适合在其它网络
环境和存储系统 。
第 2章 多媒体信息编码
2.3.4.3 MPEG-4标准
MPEG-4标准是数字超低数码率的视频编码标准 。 主要适
用于移动多媒体通信的场合,特别是 64kb/s速率下的视频通信 。
MPEG-4视频编码方法采用与 H.263标准相同的方法,并已
经开发出增强型的 H.263,在不降低清晰度的前提下消除块效应,
以提高低数码率下的视觉质量 。
第 2章 多媒体信息编码
2.3.5 图像质量评价
1,
表 2.4 图像质量主观评价
质量分数 妨 碍 尺 度 质 量 尺 度
5
4
3
2
1
图像质量对观看有严重妨碍
很好


很差
第 2章 多媒体信息编码
为了保证图像质量主观评价的客观性和准确性,可用一定数
量观察者的质量分数的平均值作为最终主观评价结果,其平均分
数定义为,
?
?
?
??
N
i
i
N
i
ii
K
KC
C
1
1
其中,Ci为属于第 i类图像的质量分数,Ki为判断该图像属于
第 i类图像的人数 。 观察者中应包括两类人员:一般人员和专业
人员,人数应多于 20,这样,得出的主观评价结果才具有统计意
义 。
第 2章 多媒体信息编码
2,
图像客观评价是用数学计算方法得到的 。 通常,采用计算
图像逼真度和可懂度来评价 。 所谓图像逼真度, 是指重建图像
与原始图像之间的偏差程度; 所谓图像可懂度, 是表示人或机
器能从图像中抽取有关信息的程度 。 下面主要讨论图像逼真度 。
通常,图像逼真度用峰值信噪比 PSNR来度量。 对于黑白图
像,PSNR计算公式为
?
?
?
?
?
?
?
?
?
?
? ?
? ?
N
i
N
j
jifjif
NM
A
P S N R
1 0
2
2
10
)],('),([
1
l o g10
第 2章 多媒体信息编码
式中,f (i,j)为原始图像,f′(i,j)为重建图像,图像尺寸为 N× M,A
为 f (i,j) 中的最大值,通常取 255。
此外,也可使用均方差方法来计算图像误差,其数学表达
式为,
? ?
?
?
?
?
??
1
0
1
0
2
2 })],('),({[
1 N
i
N
j
jifjifE
N
M S E
第 2章 多媒体信息编码
2.4 语音编码标准
音频编码技术可分成两大类, 一类是波形编码或称真迹编码 ;
另一类是参量编码或称变换域编码 。 前者是将时间域信号直接变
换成数字代码进行传输 。 其特点是重建信号的质量较高,即信号
的信噪比高 。 传输数码率为 16~ 64 kb/s,依所采用的编码方法而
异 。 后者是在信号源信号的频率域或其它正交域抽取其特征参
数变换成数字代码进行传输,接收端则从数字代码中恢复特征参
数,然后根据这些特征参数重建语音信号 。 其特点是重建信号的
质量较低,但数码率也比较低,一般为几百 b/s~ 9600 b/s,多用于窄
带信道传输 。 各种音频编码技术比较参见表 2.5。
第 2章 多媒体信息编码
表 2.5 各种音频编码技术比较
编 码 类 型 数码率 /(Kb/s) 复杂度 /( MI/s) 复杂度 /( MI/s)
波形编码,
PCM
ADPCM
自适应子频带
64
32
16
0.01
0.1
1
0
0
25
参量编码,
随机激励线性预测
线性预测声码器
8
4
2
10
100
1
35
35
35
第 2章 多媒体信息编码
2.4.1 PCM编码
脉冲编码调制 ( Pulse Code Modulation,PCM) 是一种在
现代通信系统中被广泛应用的语音编码技术,也是数字传输中
的标准接口信号 。 ITU 在 G.711建议书中定义了 PCM编码方法
及其标准 。 PCM编码的主要优点是,
① 编码方法简单,不需要用复杂的信号处理技术就可实现
数据压缩,而无任何信号延迟 ;
② 基于对话音信号波形采样的瞬时处理,具有较高的信噪
比。
第 2章 多媒体信息编码
图 2.10 PCM组成原理框图
第 2章 多媒体信息编码
对于电话信号编码,由于其信号带宽为 300~ 3400 Hz,通常
采用 8 kHz频率进行采样,而每一个采样脉冲用 8位二进制码表
示 。 这样,每个话音通道的数码率为,
f = 8000× 8= 64 kb/s
对于采用 8位编码的正弦波信号,其最大信噪比按下式计算,
SNR(dB)= 6.02× L+ 1.76= 6.02× 8+ 1.76= 49.92 dB
式中,L为二进制编码位数 。
第 2章 多媒体信息编码
如果要求信噪比至少保持在 34 dB以上,则信号的动态范围
应当为 49.92- 34= 15.92 dB,显然这一动态范围远不能满足要求 。
为了扩大信号的动态范围,通常采用瞬时压扩特性 。
瞬时压扩的目的是使信号在大的动态范围内具有均匀一致
的信噪比 。 瞬时压扩的方法主要采用对数压扩特性,即用一条通
过原点正负对称的曲线逼近对数函数,以实现对正负对称信号的
对数压缩 。 在 ITU G.711建议中,定义了两种对数压扩特性,一种
是 15段折线近似是 μ律 ; 另一种是以 13段折线近似是 A律,美国,
日本等国家在数字通信中采用 μ律压扩特性,中国和欧洲一些国
家采用 A律压扩特性 。
第 2章 多媒体信息编码
PCM编码 /解码器通常采用单片集成电路 ( IC) 芯片实现,
它将滤波, 放大, 量化, 压扩, 编码以及解码等功能集成一
体,具有处理速度快, 体积小, 成本低, 便于开发等特点 。
例如,美国 Motorola公司的 MC 14403就是这种单片 PCM编码 /解
码器 。
第 2章 多媒体信息编码
2.4.2 ADPCM编码
通常,把低于 64 kb/s数码率的的语音编码方法称为语音压缩
编码,其中自适应差分脉冲编码调制 ( ADPCM) 是语音压缩编码
中复杂度较低的一种方法 。 ADPCM能在 32 kb/s数码率上达到符
合 64 kb/s数码率的语音质量要求,即符合长途电话的语音质量要
求 。 ADPCM 编码的国家标准是 ITU G.721。
在电话通信网中,32 kb/s ADPCM主要用于扩充现有的 PCM
信道传输容量,把两个 30路 PCM信号合并成一个 2 Mb/s的 60路
ADPCM信号 。 通常,在信道所传输的信号中,既有话音信号,又有
Modem信号或音频信令信号 。 对于话音信号,其信号电平动态范
围比较大 ; 对于 Modem信号或音频信令信号,其信号电平变化的范
围远小于话音信号 。 因此,对这两类不同的信号,要求自适应量化
器能够自动调节自适应的速度 。
第 2章 多媒体信息编码
图 2.11 一种简化的 ADPCM
( a) ADPCM编码器 ; (b) ADPCM解码器