第 2章 多媒体数据压缩技术
? 信息表示与编码
? 常用的数据压缩技术
? 静态图像压缩标准 JPEG
? 运动图像压缩编码标准 MPEG
? 视听通信编码解码标准 H.26X
? 声音压缩技术
2.1 信息表示与编码
? 数字化表示
? 彩色空间
? 多媒体数据转换
2.1.1 概述
? 传统上用模拟方式表示声音和图像信息。
易出故障,常产生噪音和信号丢失,且拷贝过程中
噪音和误差逐步积累;
模拟信号不适合数字计算机加工处理 。
? 数字化处理:巨大的数据量。
? 采样定理,
仅当采样频率 ≥ 2倍的原始信号频率时, 才能
保证采样后信号可被保真地恢复为原始信号 。
? 采用 8bit数字化, 从而 1秒钟电视信号的数据量
约为 99.2Mbits。
即约为 100Mbps。 650MB的 CD-ROM仅能存约 1
分钟的原始电视数据 。 若 HDTV(1.2Gbps),一
张 CD-ROM还存不下 6秒钟的 HDTV图像 。
? 人说话的音频一般在 20Hz~4kHz,即人类语音
的带宽为 4kHz。 依据采样定理, 设数字化精度
为 8b,则 1秒钟信号量为 64kbits。
因此,人讲 1分钟话的数据量为 480kB。
? 数字化处理的关键问题-数据压缩
压缩的基础-数据冗余
? 空间冗余
? 时间冗余
? 信息熵冗余
? 结构冗余
? 知识冗余
? 视觉冗余
? 其他冗余
空间冗余
? 这是图像数据中经常存在的一种冗余。
? 在同一幅图像中,规则物体和规则背景的表
面物理特性具有相关性,这些相关性的光成
象结构在数字化其他中就表现为数据冗余。
时间冗余
? 这是序列图像和语音数据中所经常包含的冗余。
? 图像序列中的两幅相邻的图像之间有较大的相关
性,这反映为时间冗余。
? 在语言中, 由于人在说话时发音的音频是一连续
的渐变过程,而不是一个完全时间上独立的过程,
因而存在时间冗余。
信息熵冗余
? 信息熵是指一组数据所携带的信息量, 它定义为,
H=-∑i=0N-1Pilog2Pi
N为数据类数或码元个数, Pi为码元 yi发生的概率,
? 为使信息编码单位数据量 d接近于或等于 H,应设,
d=∑i=0N-1Pib(yi)
其中 b(yi)是分配给码元 yi的比特数,理论上应取
b(yi)=-log2Pi,实际一般取 b(y0)=b(y1)=…=b(yK-1),
? 例如,英文字母编码码元长为 7bit,即
b(y0)=b(y1)= … =b(yK-1)=7,这样 d必然大于 H,由
此带来的冗余称为信息熵冗余或编码冗余。
结构冗余
? 有些图像从大域上看存着非常强的纹理结构,
我们称它们在结构上存在有冗余。
? 例如,布纹图像和草席图像。
知识冗余
? 有许多图像的理解与某些基础知识有相当
大的相关性 。
? 例如, 人脸的图像有固定的结构 。 比如说
嘴的上方有鼻子, 鼻子的上方有眼睛,
鼻子位于正脸图像的中线上等 。
? 这类规律性的结构可由先验知识和背景知
识得到, 我们称此类冗余为知识冗余 。
视觉冗余
? 人类视觉系统对于图像场的任何变化,并不是都
能感知的。
? 例如,对于图像的编码处理时,由于压缩或量化
截断引入了噪声而使图像发生了一些变化,如果
这些变化不能为视觉所感知,仍认为图像足够好。
? 事实上人类视觉系统一般 分辨能力约为 26灰度等
级,而一般图像量化采用 28灰度等级,这类冗余
我们称为视觉冗余。
其他冗余
? 例如,由图像的空间非定常特性所带来的
冗余。
2.1.2 数字图像编码技术
1.彩色空间
? 常见模型,
? RGB彩色空间
? HSI彩色空间
? YUV彩色空间
? YIQ彩色空间
RGB彩色空间
? R,G,B是彩色最基本表示模型,也是计算机
系统中所使用的彩色模型 。
? RGB5,5,5方式 用 2个字节表示一个像
素,具体位分配见图 2.1。
图 2.1 RGB5,5,5方式
? RGB8,8,8方式 R,G,B三个分量各占
一个字节。
T(1b) R(5b) G(5b) B(5b)
HSI彩色空间
? 这种模型中, 用 H(Hue,色调 ),S(Saturation,
饱和度 ),I(Intensity,光强度 )3个分量来表示一
种颜色, 这种表示更适合人的视觉特性 。
YUV彩色空间
? Y为亮度信号, U,V是色差信号 (B-Y,R-Y)。
PAL制式彩色空间即为 YUV。 优点是亮度和色差信号分
离, 容易使彩色电视系统与黑白电视信号兼容 。
? 国际无线电咨询委员会根据实验认为采用双倍
度采样 4,2,2方案效果较好,提出 CCIR601标
准。
? 变换公式( YUV<--->RGB)
Y = 0.299*R + 0.587*G+ 0.114*B;
U =-0.169*R - 0.332*G+ 0.500*B;
V = 0.500*R + 0.419*G - 0.081*B
YIQ彩色空间
? 广播电视系统另一种常用的亮度与色差分离的
模型。 NTSC制式彩色空间即为 YIQ。 这里 Y是
亮度,I和 Q共同描述图像的色调和饱和度。
? 变换公式 (YIQ<--->RGB)
Y =0.299*R+ 0.587*G+ 0.114*B
I =0.211*R - 0.523*G+ 0.312*B
Q =0.596*R - 0.275*G - 0.322*B
2.数字图像文件格式
? TIF
? PCX
? GIF,TGA,BMP,DVI,JPEG等
TIF文件格式
? 由美国 Aldus Developer’s Desk和 Microsoft制定
? 结构
? 文件头 (8B)
? 参数指针表
? 参数数据表
? 图像数据
? 文件头
含字节顺序 (2B,表示存储格式, II-Intel格式;
MM— Motorola格式 );
标记号 (2B,版本信息 );
指向第一个参数指针表的编码 (4B)。
? 参数指针表
由每个长为 12B参数块构成,描述压缩种类、长
宽、彩色数、扫描密度等参数。
较长参数 (如调色板 )只给出指针,参数放在参数
数据表中。其结构定义如下,
typedef struct {
int tag-type;
int number-size;
long length;
long offset;
}TIF-FIELD;
? 图像数据 按参数表中描述的形式按行排列
PCX文件格式
? 由 Z Soft公司最初制定
? 结构
? 文件头 (128字节 )
? 数据部分 (采用行程长度编码 )
? 文件头结构定义
typedef struct{
char manufacture; /*always 0xa0*/
char version;
char encoding; /*always 1*/
char bits-per-pixel; /*color bits */
int Xmin,Ymin; /* image origin */
int Xmax,Ymax; /* image dimension */
int hres; /* resolution values */
int vres;
char palette[48]; /* color palette */
char reserved;
char color-planes; /* color planes */
int bytes-per-line; /* line buffer size */
int palette-type; /* grey or color palette */
char filler[58];
} PCXHEAD;
其中 Version若为 5,文件内有个 256色调色板,数据 768字节,在文件
最后。
? 文件体 对像素数据采用行程长度编码, 由包含
Keybyte和 Databyte的包组成。分 2种情况,
(1) 若 Keybyte最高位为 11,则低 6位为重复次数 (Index),
即后一个字节重复使用 Index次。但最多重复 63次,若再
长重建一个包。如图 2.2。
图 2.2 PCX数据包的结构
(2) 若 Keybyte最高位不是 11,那么该 Databyte按原样写入图
像文件 。 对一个字符的表示用长度为 1的包 。
11 Index
Databyte
11 1
Databyte
2.1.3 多媒体数据转换
? 不同媒体表示不同的信息表示方式。研究媒体
之间转换十分有意义。
? 有些媒体之间的转换是非常困难的事情,需要
研究人类本身对各种媒体理解原理和解释过程。
? 有些媒体之间的转换则相对容易,几乎不用做
什么工作。
表 2.1 部分媒体的转换关系
转换 位图图像 图形 语音 音乐 文本 视频 数值
位图图像 - *
映射
?? *
映射
*
冻结
?
图形 ***
轮廓或理解
-
*
波形
*
乐谱
**
矢量化
? *
可视化
语音?? - *
波形
**
语音合成
? *
合成
音乐?? ***
识别
-
*
音乐合成
??
文本 ***
文字识别
**
识别
**
语音识别
*
转换
-? *
符号化
视频 **
序列化
**
序列化
??? -?
数值? **
计算
***
识别
? *
转换
? -
2.2 常用的数据压缩技术
2.2.1 概述
? 根据解码后数据与原始数据是否完全一致,
数据压缩方法划分为两类,
? 可逆编码 (无失真编码 ) 解码图像与原始
图像严格相同,压缩大约在 2,1到 5,1之间。
如 Huffman编码、算术编码、行程长度编码等 。
? 不可逆编码 (有失真编码 ) 还原图像与原始
图像存在一定的误差,但视觉效果一般可以接
受,压缩比可以从几倍到上百倍来调节。常用
的有变换编码和预测编码
? 根据压缩的原理可以有以下分类,
? 预测编码 利用空间中相邻数据的相关性来预测
未来点的数据。差分脉冲编码调制 (DPCM)和自适
应差分脉冲编码调制 (ADPCM)。
? 变换编码 将图像时域信号变换到频域空间上处
理。时域空间有强相关的信号,反映在频域上是某
些特定的区域内能量常被集中在一起,从而实现压
缩, 正交变换如离散余弦变换,离散付立叶变换和
Walsh-Hadamard变换,
? 量化与向量量化编码 为了使整体量化失真最小,
就必须依照统计的概率分布设计最优的量化器。已
知最优量化器是 Max量化器。对象元点进行量化时,
也可以考虑一次量化多个点的向量量化。
? 信息熵编码 根据信息熵原理,让出现概率大的用
短的码字表达,反之用长的码字表示。最常见的方法如
Huffman编码,Shannon编码以及算术编码 。
? 子带 编码 将图像数据变换到频域后,按频域分带,
然后用不同的量化器进行量化,从而达到最优的组合。
或者分步渐近编码,随着解码数据的增加,图像逐渐清
晰。
? 模型编码 编码时首先将图像中边界、轮廓、纹理等
结构特征找出来,保存这些参数信息。解码时根据结构
和参数信息进行合成,恢复出原图像。具体方法有轮廓
编码、域分割编码、分析合成编码、识别合成编码、基
于知识的编码、分形编码等。
2.2.2 预测编码
? 线性预测 -DPCM
基本原理是基于图像中相邻像素之间具有较强的
相关性。每个像素可根据已知的前几个像素来作
预测。因此在预测编码中,编码和传输的并不是
像素采样值本身,而是这个采样值的预测值与其
实际值之间的差值
? 非线性预测(不讨论)
图 2.3 DPCM系统原理框图
预测器
量化器 编码器
解码器
预测器
信
道
接收端
输出
XN’
+
+
+
XN
e’N
XN
eN e’N
XN’
+ +
输入
^
XN ^
发送端
+
-
? XN为 tN时刻的亮度采样值 ; XN为根据 tN时刻以前已
知 X1,X2,…,XN-1对 XN所作的预测值 ; eN=XN-XN为
差值信号 ; eN’为量化器输出信号 ; XN’为接收端输
出,XN’ =XN+eN’ 。
? 因为,XN-XN’ = XN-(XN+eN’)
= (XN-XN)-eN’
= eN-eN’
? 所以,DPCM系统中的误差来源是发送端的量化器,
而与接收端无关,若去掉量化器使 eN=eN’,则 XN=XN’,
即实现信息保持编码。事实上,这种量化误差是不
可避免的。
^
^
^
^
^
2.2.3 变换编码
? 输入图像 G经正交变换 U变换到频域空间,像素
之间相关性下降,能量集中在变换域中少数变换
系数上,已经达到了数据压缩的效果。
? 对变换系数 A中那些幅度大元素予以保留,其他
数量多的幅度小的变换系数,全部当作零不予编
码,再辅以非线性量化,进一步压缩图像数据。
? 由于量化器存在,量化后变换系数 A′ 和 A间必
然存在量化误差,从而引起输入图像 G和输出图
像 G′ 间存在误差。图 2.4中 U′ 是 U的逆变换。
图 2.4 变换编码原理框图
变换 量化 编码器
解码器 逆变换
信
道
输入 发送端
接收端
输出
G
G’ U’
U
A’ A
? 变换编码 数据压缩主要是去除信源的相关性。
? 设信源序列为 X={X0,X1,…,XN-1},表征相关性
的统计特性就是协方差矩阵,
ΦX=
其中 σi,j=E{(Xi-EXi)(Xj-EXj)}.当协方差矩阵 Φx 除对角线上元
素之外各元素均为 0时,就等效于相关性为 0。
? 为了有效压缩,希望变换后的协方差矩阵为对角矩阵, 并希望主对角线元素随 i,j增加尽快衰减。
σ0,02 σ0,12 σ0,N-12
σ1,02 σ1,12
σN-1,02
σ1,N-12
σN-1,12 σN-1,N-12
…
…
…
…
…
…
…
? 已知 X的条件下, 根据它的协方差矩阵去寻找一
种正交变换 T,使变换后的协方差矩阵满足或接
近为一对角阵 。
? Karhunen-Loeve变换即是这样一种变换, 又称为
最佳变换, 它能使变换后协方差矩阵为对角阵,
并且有最小均方误差 。 它的计算比较复杂 。
? 实际应用中采用了一些准最佳变换如 DCT,DFT
和 WHT等, 使用这些变换后的协方差矩阵一般
都接近一对角阵 。
2.2.4 信息熵编码
? 又称为统计编码,它是根据信源符号出现概率
的分布特性而进行的压缩编码。
? 基本思想,在信源符号和码字之间建立明确
的一一对应关系,以便在恢复时能准确地再现
原信号, 同时要使平均码长或码率尽量小。
? 如 Huffman编码、算术编码 。
1,Huffman编码
? 定理 在变长编码中, 对出现概率大的信源符号赋
于短码字, 而对于出现概率小的信源符号赋于长
码字。如果码字长度严格按照所对应符号出现概
率大小逆序排列, 则编码结果平均码字长度一定
小于任何其他排列方式 。
? Huffman定理是 Huffman编码的理论基础
实现步骤
(1) 将信源符号按概率递减顺序排列;
(2) 把二个最小概率相加作为新符号的概率,并按 (1) 重排;
(3) 重复 (1),(2),直到概率为 1;
(4) 在每次合并信源时,将合并的信源分别赋,0”和
,1” (如概率大的赋,0”,概率小的赋,1” );
(5) 寻找从每一信源符号到概率为 1处的路径,记录下路径上
的,1”和,0”;
(6)写出每一符号的,1”、,0”序列 (从树根到信源符号节
点 )。
图 2.5 Huffman编码
信源符号 概率 编码过程 码字 码长 (βi)
x1
x2
x3
x4
x5
x6
x7
x8
0.40
0.18
0.10
0.10
0.07
0.06
0.05
0.04
1
001
011
0000
0100
0101
00010
00011
1
3
3
4
4
4
5
5
0
1
0
1
0 1
0.09
0.13
0.19
0.23
0.37 0.60
1 0 1 0
0 1 1
? 上述编码的平均码字长度,
R=∑Piβi=0.40× 1+0.18× 3+0.10× 3+0.10× 4+
0.07× 4+0.06× 4+0.05× 5+0.04× 5
=2.61
2.算术编码
? 20世纪 60年代初,Elias提出了算术编码概念。
? 1976年,Rissanen和 Pasco首次介绍了它的实用技
术。其基本原理是将编码的信息表示成实数 0和 1
之间的一个间隔 (Interval),信息越长,编码表示
它的间隔就越小,表示这一间隔所需的二进制位
就越多。
算术编码举例
? 采用固定模式符号概率分配如下,
字符, a e i o u
概率, 0.2 0.3 0.1 0.2 0.2
范围, [ 0,0.2) [ 0.2,0.5) [ 0.5,0.6)[ 0.6,0.8)
[ 0.8,1.0)
? 编码数据串为 eai。 令 high间隔的高端,low为低
端,range为间隔的长度,rangelow为编码字符
分配的间隔低端,rangehigh为编码字符分配的
间隔高端。
? 初始 high=1,low=0,range=high-low,
一个字符编码后新的 low和 high按下式计算,
low=low+range× rangelow;
high=low+range× rangehigh。
(1) 在第一个字符 e被编码时,e的 rangelow=0.2,
rangehigh=0.5,因此,
low=0+1× 0.2=0.2
high=0+1× 0.5=0.5
range=high-low=0.5-0.2=0.3
此时分配给 e的范围为[ 0.2,0.5)
(2) 第二个字符 a编码时使用新生成范围 [0.2,0.5),
a的 rangelow=0,rangehigh=0.2,因此,
low=0.2+0.3× 0=0.2
high=0.2+0.3× 0.2=0.26
range=0.06
范围变成 [0.2,0.26)
(3) 对下一个字符 i编号,i的 rangelow=0.5,
rangehigh=0.6,range=0.06,则,
low=0.2+0.06× 0.5=0.23
high=0.2+0.06× 0.6=0.236
? 结果,用 [0.23,0.236)表示数据串 eai,如果解码
器知道最后范围是 [0.23,0.236),它马上可解得
一个字符为 e,然后依次得到惟一解 a,i,最终
得到 eai。
图 2.6 算术编码过程表示
1 e 0.5
ea 0.26 0.236
0.8
0.6
0.5
0.2
0
u
o
i
e
a
u
o
i
e
a
u
o
i
e
a
u
o
i
e
a
0.2 0.2 0.23
eai
算术编码的特点
? 不必预先定义概率模型,自适应模式具有独特
的优点 ;
? 信源符号概率接近时,建议使用算术编码,这
种情况下其效率高于 Huffman编码 (约 5%)。
JPEG扩展系统采用。
2.3 静态图像压缩标
准 JPEG
2.3.1 JPEG标准的主要内容
? ISO/IEC 10918号标准“多灰度连续色调静态图像压
缩编码”即 JPEG标准,选定 ADCT作为静态图像压
缩的标准化算法。
? 该标准为保证通用性,包含以下两种方式,
? 空间方式 可逆编码
空间方式对于基本系统和扩展系统来说,被称为独立功能 。
? DCT方式 非可逆编码,包含基本系统 (必须保证
的功能 )和扩展系统 (扩充功能 )
? 基本系统 是实现 DCT编码与解码所需的最小功
能集,大多数的应用系统只要用此标准,就
能基本上满足要求。
? 扩展系统是为了满足更为广阔领域的应用要求
而设置的。
2.3.2 JPEG静态图像压缩算法
1,基于 DPCM的无失真编码
预测器 熵编码器
表说明
无失真编码器
源图像数据 压缩图像数据
图 2.7 无失真编码简化框图
? 基于 DPCM的无失真编码优点是硬件易实现,
重建图像质量好。
? 缺点是压缩比太低, 大约为 2,1。
? 工作原理是对 X的预测值 X’,将 X-X’进行无失真
熵编码。对 X’的求法见图给出的 预测方式 。
c b
a x
选择值 预测 选择值 预测
0
1
2
3
非预测
a
b
c
4
5
6
7
a+b-c
a+(b-c)/2
b+(a-c)/2
(a+b)/2
(a) X邻域 (b) 预测方式
图 2.8 预测器
2,基于 DCT的有失真压缩编码
? 离散余弦变换
? 量化处理
? DC系数的编码和 AC系数的行程编码
? 熵编码
图 2.9 基于 DCT编码过程
FDCT 熵编码器
表说明
无失真编码器
源图像数据 压缩图像数据
量化器
表说明
8?8块
( YUV每个分量)
图 2.10 解码过程
熵解码器 IDCT
表说明
解码器
逆量化器
表说明
8?8块
压缩图像数据 恢复的图像数据
离散余弦变换
(1)首先把原始图像顺序分割成 8× 8子块;
(2)采样精度为 P位 (二进制 ),把 [0,2P-1]范围的
无符号数变换成 [-2P-1,2P-1]范围的有符号数,
作为离散余弦正变换 (FDCT)的输入;
(3)在输出端经离散余弦逆变换 (IDCT)后又得到一
系列 8× 8子块,需将数值范围 [-2P-1,2P-1]变换
回 [0,2P-1]来重构图像。
? 这里用的 8× 8 FDCT的数学定义为,
F(u,v)=(1/4)C(u) C(v) [∑x=07∑y=07 f(x,y)·
cos((2x+1)u?/16)·cos((2y+1)v?/16)]
? 8× 8 IDCT的数学定义为,
f(x,y)= (1/4)[∑u=07∑v=07 C(u)C(v)F(u,v)·
cos((2x+1)u?/16)·cos((2y+1)v?/16)]
其中 C(u),C(v)= 1/√2 当 u,v=0
C(u),C(v)=1 其他
? 下面的编码针对 FDCT输出的 64个基信号的幅值
(F(0,0),…, F(7,7)称作 DCT系数 )来进行
量化处理
? 量化是一个“多到一”的过程,失真原因
? 关键是找最小量化失真的量化器,JPEG采用线性
均匀量化器,定义为对 64个 DCT系数除以量化步
长,然后四舍五入取整,
FQ(u,v)=Integer Round[F(u,v)/Q(u,v)]
? Q(u,v)是量化器步长,它是量化表的元素。量化
表元素随 DCT系数的位置和彩色分量不同有不同
的值,量化表尺寸为 8× 8与 64个变换系数一一对
应。
? 这个量化表应由用户规定 (JPEG给出参考值 -见表
2.2,2.3),并作为编码器的一个输入。
16 11 10 16 24 40 51 61
12 12 14 19 26 58 60 55
14 13 16 24 40 57 69 56
14 17 22 29 51 87 80 62
18 22 37 56 68 109 103 77
24 35 55 64 81 104 113 92
49 64 78 87 103 121 120 101
72 92 95 98 112 100 103 99
表 2.2 亮度量化表
17 18 24 47 99 99 99 99
18 21 26 66 99 99 99 99
24 26 56 99 99 99 99 99
47 66 99 99 99 99 99 99
99 99 99 99 99 99 99 99
99 99 99 99 99 99 99 99
99 99 99 99 99 99 99 99
99 99 99 99 99 99 99 99
表 2.3 色度量化表
? 量化的作用是在一定主观保真度图像质量前提
下,丢掉那些对视觉影响不大的信息,通过量
化可调节数据压缩比。
DC系数的编码
? 64个变换系数经量化后,坐标 u=v=0的 F(0,0)
称 DC系数 (直流分量 ),它即 64个空域图像采
样值的平均值。
? 相邻 8× 8块之间 DC系数有强相关性。 JPEG对
量化后的 DC系数采用 DPCM 编码,即对
DIFF= DCi-DCi-1编码。
… blocki-1 blocki
DCi-1 DCi
图 2.11 DC系数差分编码
AC系数的行程编码
? 其余 63个交流系数 (AC)采
用行程编码。
? 从左上方 AC0,1开始沿对
角线方向,Z”字形扫描直
到 AC7,7扫描结束,这样
可增加行程中连续 0的个
数。
? AC系数 编码的码字用两个
字节表示,如图所示,
图 2.12 Z字形扫描
图 2.13 AC系数行程编码码字
两个非 0值间
连续 0的个数
表示下一个
非 0值需要的 bit数
下一个非 0实际值
7 4 3 0
字节 1
字节 2
例子,对, …, 3,0,0,0,0,0,12,0,0,…,编
码
…, (5,4),(12),…,
熵编码
? 为了进一步压缩数据,需对 DC码和 AC行程编码
的码字再做基于统计特性的熵编码。
? JPEG建议的熵编码是 Huffman编码和自适应二进
制算术编码。
? 熵编码可分成两步进行,
? 把 DC码和 AC行程码转换为中间符号序列
? 给这些符号赋以 变长码字
AC系数 熵编码的中间格式
? 熵编码的中间格式由两个符号组成,
? 符号 1,(行程,尺寸 )
? 符号 2,(幅值 )
? 第一个信息参数“行程”表示前后两个非
0的 AC系数之间连续 0的个数。
? 第二个信息参数“尺寸”是后一个非 0的
AC系数幅值编码所需比特数。
? 行程取值范围为 1~ 15,超过 15时用扩展符号 1
(15,0)来扩充,63个 AC系数最多增加 3个扩展符
号 1。编码结束时用 (0,0)表示。
?,尺寸”取值范围为 0~ 10。
?,幅值”用以表示非 0的 AC系数的值,范围为[ -
210,210-1] (最长 10bit),结构形式如表 2-4所示。
1 -1,1
2 -3..-2,2..3
3 -7..-4,4..7
4 -15..-8,8..15
6
7 ……
8
9 -511..-256,256…511
10 -1023..-512,512…1023
表 2.4 符号 2结构
DC系数的熵编码
? 对于直流分量 DC也有类似于 AC系数的编码格式
? 符号 1,(尺寸 )
? 符号 2,(幅值 )
?,尺寸”表示 DC差值的幅值编码所需的比特数,而
“幅值”表示 DC差值的幅值,范围为[ -211,211-
1] 。可在表 2.4中多加一级,幅值尺寸以 1到 11比特
表示。
? 将 63个 AC系数表示成为符号 1和符号 2序列,其中连
续 0的长度超过 15时,有多个符号 1; 块结束 (EOB)
时仅有一个符号 1(0,0)。
, …4, 0,0,0,0,0,0,0,……0, 3,0”, 4,
3之间有 31个 0,
(15,0),(15,0),(1,2),(3)
? 可变长度熵编码就是对上述序列进行变长编码。
? 对 DC系数,AC系数中的符号 1采用 Huffman表中
的变长码编码 (VLC),这里 Huffman变长码表必须
作为 JPEG编码器输入。
? 符号 2用码字长度在表 2.4中给出的变长整数 VLI码
编码。 VLI是变长码,但不是 Huffman码。 VLI的
长度存放在 VLC中,JPEG提供 VLI码字表供用户
使用
? JPEG提供 2套 Huffman码表,亮度和色度。每套又
有 DC表和 AC表各 1个。共有 4个表。
? 表定义(亮度 DC系数码表)
16B说 明码字长度,
X’00 01 05 01 01 01 01 01 01 00 00 00 00 00 00 00’
第 i个 (1-16)元素值表示长度为 i的 Huffman码个数 。
紧跟一组值说明亮度表分类,
X’00 01 02 03 04 05 06 07 08 09 0A 0B’
表 2.5 亮度 DC系数表
分类 码长 码字 分类 码长 码字
0 2 00 6 4 1110
1 3 010 7 5 11110
2 3 011 8 6 111110
3 3 100 9 7 1111110
4 3 101 10 8 11111110
5 3 110 11 9 111111110
表 2.6 色度 DC系数表
分类 码长 码字 分类 码长 码字
0 2 00 6 6 111110
1 2 01 7 7 1111110
2 2 10 8 8 11111110
3 3 110 9 9 111111110
4 4 1110 10 10 1111111110
5 5 11110 11 11 11111111110
表 2.7 JPEG压缩效果评价
压缩效果 (比特 /像素 ) 质 量
0.25~0.50 中 ~好
0.50~0.75 好 ~很好
0.75~1.5 极好
1.2~2.0 与原始图像分不出来
3,基于 DCT的累进操作方式编码
? 顺序方式,每个图像分量的编码一次扫描完成的 ;
累进方式,图像分量编码要经过多次扫描才完成 。
? 累进方式
第一次扫描只进行一次粗糙图像的扫描压缩,以
相对于总的传输时间快得多的时间传输粗糙图像,
并重建一帧质量较低的可识别图像; 在随后的扫
描中再对图像作较细的压缩,这时只传递增加的
信息,可重建一幅质量提高一些的图像。这样不
断累进,直到满意的图像为止。
? 需在量化器的输出与熵编码的输入之间,增加一个足
以存储量化后 DCT系数的缓冲区,对缓冲区中存储的
DCT系数多次扫描,分批编码。
? 有以下两种累进方式,
? 频谱选择法 扫描中只对 64个 DCT变换系数中某些
频带的系数进行编码、传送,随后对其他频带编码、
传送, 直到全部系数传送完毕为止。
? 按位逼近法 沿着 DCT量化系数有效位 (表示系数精
度的位数 )方向分段累进编码 。 如第一次扫描只取最
高有效位的 n位编码, 传送, 然后对其余位进行编
码, 传送 。
4,基于 DCT的分层操作方式
? 分层方式是对一幅原始图像的空间分辨率,分成
多个分辨率进行“锥形”的编码方法,水平 (垂
直 )方向分辨率的下降以 2的倍数因子改变。
图 2.14 分层操作方式
分层操作方式的过程
(1)把原始图像空间分辨率降低。
(2)对已降低分辨率的图像采用基于 DCT的顺序方式, 累进方
式或无失真预测编码中的任何一种编码方法进行编码 。
(3)对低分辨率的图像解码, 重建图像, 使用插值滤波器, 对
它插值, 恢复图像的水平和垂直分辨率 。
(4)把分辨率已升高的图像作为原始图像的预测值, 对它们的
差值采用基于 DCT的顺序方式, 累进方式或用无失真方式
进行编码 。
(5)重复 (3),(4)直到图像达到完整的分辨率编码。
2.3.3 JPEG2000简介
? 基于 Internet网络的多媒体应用,给图像编码提出
了新的要求, 2000年 12月公布的新的 JPEG 2000标
准 (ISO 15444),其目标是在高压缩率的情况下,
如何保证图像传输的质量。
? JPEG中采用 DCT变换考察整个时域过程的频域特
征或整个频域过程的时域特征 。 JPEG2000采用以
小波变换为主的多分辨率编码方式 。
? JPEG2000统一了面向静态图像和二值图像的编码
方式, 是既支持低比率压缩又支持高比率压缩的
通用编码方式 。
? 该算法主要特点如下,
(1)高压缩率 。 与 JPEG相比, 可修复约 30% 的速率失真特性 。
JPEG和 JPEG2000在压缩率相同时, JPEG2000的信噪比将
提高 30% 左右 ;
(2)无损压缩 。 预测编码作为对图像进行无损编码的成熟方法
被集成在 JPEG2000中;
(3)渐进传输 。 JPEG2000可实现以空间清晰度和信噪比为首
的各种可调节性, 从而实现渐进传输, 即具有, 渐现, 特
性,
(4)感兴趣区域压缩。 JPEG2000 支持所谓的“感兴趣区域”。
2.4 运动图像压缩标准 MPEG
2.4.1 MPEG标准简介
? MPEG标准是面向运动图像压缩的一个系列标准。
? 最初 MPEG专家组的工作项目是 3个,即在 1.5Mbps,
10Mbps,40Mbps传输速率下对图像编码,分别命
名为 MPEG-1,MPEG-2,MPEG-3。 MPEG-3后被
取消,
? 为了满足不同的应用要求,MPEG又将陆续增加其
他一些标准 MPEG-4,MPEG-7,MPEG-21。
? MPEG算法编码过程和解码过程是一种非镜象
对称算法 (不对称 ),解码过程要比编码过程相
对简单些。
? MPEG-1和 MPEG-2只规定了解码的方案,重
点将解码算法标准化。因而用硬件实现 MPEG
算法时,人们首先实现 MPEG的解码器,如 C-
Cube公司 CL450解码器系列。
? 最近几年,随着 MPC性能的提高,软件解压功
能也逐渐得到支持。
2.4.2 MPEG-1系统
?,用于数字存储媒体运动图像及其伴音速率为
1.5Mbps的压缩编码”简称 MPEG-1,作为 ISO/IEC
11172号建议于 1992年通过。
? 主要用于在 CD-ROM存储运动视频图像,它针对标准
分辨率 (NTSC制为 352× 240; PAL制为 352× 288)的图
像进行压缩,每秒 30帧画面,具备 CD音质。
? 它还用于数字电话网络上的视频传输,如非对称数字
用户线路 (ADSL),视频点播, 教育网络等。
? 使用 MPEG-1的压缩算法,可将一部 120分钟长的电影
压缩到 1.2GB左右。因此,它被广泛地应用于 VCD制
作。
MPEG-1分为 5个部分
(1)MPEG系统 (11172-1),定义音频、视频及有关数
据的同步;
(2)MPEG视频 (11172-2),定义视频数据的编码和重
建图像所需的解码过程,亮度信号分辨率为
360× 240,色度信号分辨率为 180× 120;
(3)MPEG音频 (11172-3),定义音频数据的编码和解
码;
(4)一致性测试 (11172-4);
(5) 软件模拟 (11172-5)。
图 2.15 MPEG-1解码器原型
MPEG-1编解码器原型,
? 多路复合而成的码流假设以介质特定格式存储在数
字存储介质 (DSM)或网络上,标准不规定介质特定
格式。
? 系统解码器从输入多路复合流中抽取定时信息,并
对输入流进行分流处理,输出两个基本流分别给
视频和音频解码器。
? 视频和音频解码器分别解码输出视频和声音信号。
? 系统、视频、音频和介质 4个解码器之间用定
时信息进行同步。
? 多路复合流构造为 2层,系统层和压缩层。系
统解码输入的是系统层; 而视频、音频解码器
输入的是压缩层 。
? 系统解码器执行两类操作,
? 一类是作用在整个多路复合流上的操作,称为复合流操作 ;
? 另一类是作用在单个基本流上的操作,称为特定流操作。
? 系统层分为两个子层,
? 一个子层称为包 (pack),是复合流操作对象 ;
? 另一个子层称为组 (packet),它用于特定流操作 。
MPEG音频标准的特点,
? 音频信号采样率可以是 32kHz,44.1kHz或 48kHz。
? 压缩后的比特流可以按以下 4种模式之一支持单声
道或双声道,
? 提供给单音频通道的单声道模式;
? 提供给两个独立的单音频通道的双 -单声道模式;
? 提供给立体声通道的立体声模式;
? 联合立体声模式,利用立体声通道之间的关联或通道之
间相位差的无关性,或者对两者同时利用。
? MPEG音频 标准提供 3个独立的压缩层次,用户可
在复杂性和压缩质量之间权衡选择。
? 层 1最简单,使用比特率 384kbps,主要用于 DCC;
? 层 2的复杂度中等,使用比特率 192kbps左右,主要应用
于数字广播的音频编码,CD-ROM上的音频信号以及
CD-I和 VCD。
? 层 3最为复杂,使用比特率 64kbps,尤其适用于 ISDN上
的音频传输,有损压缩但音质保持逼真效果。
MP3音乐 是利用 MPEG Audio Layer 3 的技术,声音采
用 1,10 甚至 1,12 的压缩率
? 压缩后的比特流具有预定义的比特率之一。 MPEG
音频标准也支持用户使用预定义的比特率之外的比
特率。
? 编码后的比特流支持循环冗余校验 (CRC)。
? MPEG音频标准还支持在比特流中载带附加信息。
2.4.3 MPEG视频数据流的结构
图 2.16 MPEG-1数据 体系结构
运动图像序列
图片组
图片
图片切片
宏块
块
8
像
素
? 运动序列
? 图像组
? 图像信号分 3个部分,
一个亮度信号 Y和两个色度信号 U,V。
图 2.17 色度和亮度的位置关系
? 亮度信号 Y由偶数个行和偶数个列组成,色度信号 U、
V分别取 Y信号在水平、垂直方向的 1/2。如图所示,
黑点代表色度 U,V位置, 亮度 Y位置用白圈表示。
? 块, 一个块由
? 一个 8× 8的亮度信息或色度信息组成。
? 宏块一个宏块由一个 16× 16的亮度信息和两个 8× 8色度信
息构成,如图所示。
图 2.18 宏块的组成
? 图像切片 由一个或多个连续的宏块构成 。
Y
U V
8X8 8X8
1 2
3 4
5 6
2.4.4 MPEG-1视频 编码技术
? 主要问题,一方面无法达到很高的压缩比,
另一方面用单一的静止帧内编码方法能最好
地满足随机存取的要求。
? 解决方法:对这两个方面做了折衷考虑。即
为了减少时间上冗余性的基于块的运动补偿
技术和基于 DCT变换的减少空间上冗余性的
ADCT技术
? 在 MPEG中将图像分为 3种类型,
? I图像 利用图像自身的相关性压缩,提供压缩
数据流中的随机存取的点。
? P图像 用最近的前一个 I图像 (或 P图像 )预测编码
得到 (前向预测 )。
? B图像 B图像在预测时,既可使用了前一个图
像作参照, 也可使用下一个图像做参照或同时
使用前后两个图像作为参照 图像 (双向预测 )。
图 2.19 帧间预测
1
I
2
B
3
B
4
B
5
P
6
B
7
B
8
B
1
I
前向预测
双向预测
运动序列流的组成
图 2.20 典型的图像类型的显示次序
1秒
参照帧间有 2个 B图像 每 0.5秒 1帧 I图像
I B B P B B P B B P B B P B B I B B P B B P B B P B B P B B
传输顺序
? MPEG编码器需对上述图像重新排序,以便解码
器高效工作,因为参照图像必须先于 B图像恢复
之前恢复。上述 1~ 7帧图像重排后图像组次序为,
4 2 1 3 7 5 6
I P B B P B B
运动补偿技术
? 运动补偿技术主要用于消除 P图像和 B图像在时间上的
冗余性提高压缩效率。在 MPEG方案中,运动补偿技
术工作在宏块一级。
? B图像宏块有 4种类型
帧内宏块, 简称 I块;
前向预测宏块, 简称 F块;
后向预测宏块, 简称 B块;
平均宏块, 简称 A块。
? 对于 P图像,其宏块只有 I块和 F块两种 。
? 无论 B图像和 P图像, I块处理技术都与 I图像中采用技术一
致即 ADCT技术。
? 对于 F块,B块和 A块, MPEG都采用基于块的运动补偿技
术。
? F块预测时其参照为前一个 I图像或 P图像
? B块预测时其参照为后一个 I图像或 P图像
? 对于 A块预测其参照为前后两个 I图像或 P图像
基于块的运动补偿技术
? 基于块的运动补偿技术, 就是在其参照帧中寻找符合一
定条件, 当前被预测块的最佳匹配块 。
? 找到匹配块后, 有两种处理方法,
? 一是在恢复被预测块时, 用匹配块代替;
? 二是对预测的误差采用 ADCT技术编码, 在恢复被预
测块时, 用匹配块加上预测误差 。
表 2.8 宏块的预测方式
宏块类型 预测器 预测误差
I块 I1(X)=128 I1(X)-I1(X)
F块 I1(X)= I0(X+ mv01) I1(X)-I1(X)
B块 I1(X)= I2(X+ mv21) I1(X)-I1(X)
A块 I1(X)= (I0(X+ mv01)+I2(X+ mv21))/2 I1(X)-I1(X)
4,MPEG-1视频系统
图 2.21 简化的视频编码框图
图 2.22 基本的视频解码器框图
2.4.5 MPEG-2标准
? MPEG-2(ISO/IEC 13818)标准制定于 1994年。它利用
网络提供的 3~ 100Mbps的数据传输率来支持具有更
高分辨率图像的压缩和更高的图像质量。
? MPEG-2可支持交迭图像序列,支持可调节性编码,
多种运动估计方式,提供一个较广的范围改变压缩
比,以适应不同画面质量、存储容量和带宽的要求。
? 它与 MPEG-1兼容的基础上实现了低码率和多声道扩
展,MPEG-2可以将一部 120分钟长的电影压缩到 4~
8GB(DVD质量 ),其音频编码可提供左右中及两个环
绕声道、一个加重低音声道和多达 7个伴音声道。
? 除了作为 DVD的指定标准外,MPEG-2还可用
于为广播、有线电视网、电缆网络等提供广播
级的数字视频。不过对普通用户来说,由于现
在电视机分辨率的限制,MPEG-2所带来的高
清晰度画面质量 (如 DVD画面 )在电视上效果并
不明显,倒是其音频特性 (如加重低音、多伴
音声道等 )得到了广泛的应用。
? MPEG-2 Video 定义了不同的功能档次 (Profiles)
? 每个档次又分为几个等级 (Levels),一个等级为
N的解码器能够对最高为该等级的数码流解码。
5个档次
? 简单型( Simple)
? 基本型( Main)
? 信噪比可调型( SNR Scalable)
? 空间可调型( Spatial Scalable)
? 增强型( High)
4个等级
? 低级( Low) 352?288?30,它面向 VCR并与
MPEG-1兼容;
? 基本级( Main) 720?460?30或 720?576?25,它
面向视频广播信号;
? 高 1440级( High-1440) 1440?1080?30或
1440?1152?25,它面向 HDTV;
? 高级( High) 1920?1080?30或 1920?1152?25,
它面向 HDTV。
11种规范
? 高级的基本型 MP@HL
? 高级的增强型 HP@HL
? 高 -1440级的基本型 MP@H1440
? 高 -1440级的空间可调型 SSP@H1440
? 高 -1440级的的增强型 HP@H1440
? 基本级的简单型 SP@ML
? 基本级基本型 MP@ML
? 基本级的信噪比可调型 SNP@ML
? 基本级的增强型 HP@ML
? 低级的基本型 MP@LL
? 低级的信噪比可调型 SNP@LL
MPEG-2音频
? 基本特性之一是向后与 MPEG-1音频兼容。
? 可以是 5.1也可以是 7.1通道的环绕立体声。
? 5.1也称为,3/2-立体声加 LFE”,其含义是播音现
场前面可有 3个喇叭通道 (左、中、右 ),后面可有 2
个环绕声喇叭通道。 LFE是低频音效的加强通道。
? 7.1通道环绕立体声与 5.1类似, 它另有中左、中右
2个喇叭通道。
MPEG-2编码方法
? MPEG-2的编码方法和 MPEG-1区别主要是在隔
行扫描制式下,DCT变换是在场内还是在帧内
进行由用户自行选择,亦可自适应选择。
? 一般情况下,对细节多、运动部分少的图像在
帧内进行 DCT,而细节少、运动分量多的图像
在场内进行 DCT。
? MPEG-2采用可调型和非可调型两种编码结构 。
还可以使用一个基本层加上多个增强型的多层编
码结构,这由用户按质量和压缩比要求选择使用,
? 图 2.23 MPEG-2亮度宏块结构
图 2.24 空间可调型 MPEG-2编码器原理框图
2.4.6 MPEG-4标准
? 国际标准 MPEG-4, 甚低速率视听编码, 于 1998年 11月
公布, 它针对低速率下的视频, 音频编码, 更加注重多
媒体系统的交互性和灵活性 。
? MPEG-4引入了 AV对象 (AVO),使得更多的交互操作成
为可能:, AV对象, 可以是一个孤立的人, 也可以是这
个人的语音或一段背景音乐等 。
? MPEG-4对 AV对象的操作主要有,
采用 AV对象来表示听觉, 视觉或者视听组合内容;
组合已有 AV对象来生成复合的 AV对象, 并生成 AV场景;
对 AV对象的数据灵活地多路合成与同步, 以便选择合适
的网络来传输这些 AV对象数据;
允许接收端用户在 AV场景中对 AV对象进行交互操作等 。
? MPEG-4标准主要构成部分,
(1)传输多媒体集成框架 (DMIF)。 主要用于解决交互网络中,
广播环境下以及光盘应用中多媒体应用的操作问题 。 它是
MPEG-4制订的会话协议, 用来管理多媒体数据流 。 通过传
输多路合成比特信息来建立客户端和服务器端的连接与传输 。
(2)场景描述 。 场景声音视频对象间的关系的描述体现在两个
层次,BIFS描述场景中对象的空间时间安排, 观察者可以
有与这些对象交互的可能性;在较低的层次上, 对象描述子
定义针对每个对象的基本流的关系, 并提供诸如访问基本流
需要的 URL地址, 译码器的特性, 知识产权等其他信息 。
MPEG-4具备与 Web3D X3D和 W3C SMIL的互操作性 。 XMT
格式可在 SMIL播放器, VRML 和 MPEG-4 播放器间互换 。
(3)音频编码 。 MPEG-4不仅支持自然声音, 而且支持合成声音 。
MPEG-4的音频部分将音频的合成编码和自然声音的编码相
结合, 并支持音频的对象特征 。 支持 MIDI和 TTS,
(4)视频编码 。 MPEG-4也支持对自然和合成的视觉对象的编码 。
合成的视觉对象包括 2D,3D动画和人面部表情动画等 。
(5)缓冲区管理和实时解码 。 MPEG-4定义了一个系统解码模式
(SDM),该解码模式描述了一种理想的处理比特流句法语义
的解码装置, 它要求特殊的缓冲区和实时模式 。 通过有效地
管理, 可以更好地利用有限的缓冲区空间 。
? 与 MPEG-1和 2相比, MPEG-4更适于交互 AV服务以及远
程监控, 其设计目标使它具有更广的适应性和可扩展性:
MPEG-4 传 输速率可 在 4, 8 - 64kbps 之间, 分辨 率为
176× 144,可以利用很窄的带宽通过帧重建技术压缩和
传输数据 。
? 它将应用在数字电视, 动态图像, 互联网, 实时多媒体监
控, 移动多媒体通信, Internet/Intranet上的视频流与可视
游戏, DVD上的交互多媒体等方面 。
? MPEG-4用 MPEG-4压缩算法的 ASF可以将 120分钟的电影
压缩为 300MB左右的视频流;采用 MPEG-4压缩算法的
DIVX编码技术可以将 120分钟的电影压缩 600MB左右,
也可以将一部 DVD影片压缩到 2 张 CD-ROM上,
? MPEG-4属于一种高比率有损压缩算法, 其图像质量始终
无法和 DVD的 MPEG-2相比, 毕竟 DVD的存储容量较大 。
? 要想保证高速运动的图像画面不失真, 必须有足够的码
率, 目前 MPEG-4的码率虽然可以调到和 DVD差不多,
但总体效果还有不小的差距 。 因此, 对图像质量要求较
高的专业视频领域暂时还不能采用 。
图 2.25 MPEG-4视频编码器的算法方框图
图 2.26 MPEG-4终端的构成 (接收端 )
? 背景全景图 +视频对象 (VO)=合成图像
图 2.27 MPEG-4应用实例
2.5 视听 通信编码解码标准 H.26X
2.5.1 H.261方案
? ITU推荐的 H.261方案标题, 64kbps视声服务用视
象编码方式,, 又称为 P× 64kbps视频编码标准 。
? P 取值 范 围为 1 - 30。 P=1 或 2 时, 仅能 支持
QCIF(176× 144)分辨率格式, 每秒帧数较低的可
视电话;当 P≥6时, 则可支持图像分辨率格式为
CIF(352× 288)的电视会议 。
2.5.2 P× 64kbps视频压缩编码算法
? P× 64kbps压缩算法采用基于 DCT的变换编码和
带有运动预测的 DPCM预测编码的混合方法 。
? P× 64kbps标准的压缩算法与 MPEG-1标准有许多
共同之处,只是传输速率 P× 64kbps覆盖较宽的
信道频带,而 MPEG-1是基于较窄的频带上传输。
图 2.28 H.261编码器
图 2.29 利用 CIF的优点
2.5.3 视频层次数据结构
? P× 64kbps标准采用层次块的视频数据结构形式,
使高压缩视频编码算法得以实现。
? P× 64kbps标准的视频编码 定义一个视频数据结
构 CIF保证解码器对接收到的比特流进行没有二
义性的正确解码。
? 利用 CIF格式,可使不同制式的各国电视信号变
换为统一的中间格式,然后输入给编码器,从
而使编码器本身不必意识信号是来自哪种制式的。
? H.261标准适合各种各样实时视觉应用,如位率
不同 (P不同 ),运动效果和图像质量不同,位率
提高、画面质量改善。
图 2.30 视频数据结构图
图像头
QCIF帧图
块组 1 块组 2 块组 3
块组 1头 宏块 1 宏块 2 宏块 33
宏块 1头 亮度块 1 亮度块 4 色度块 1 色度块 2
DCT
系数
…
…
DCT
系数
块
结束
…
图 2.31 图像数据层次结构
1 2
3 4
5 6
7 8
9 10
11 12
1
3
5
帧
QCIF
1 2 3 4 5 6 7 8 9 10 11
12 13 14 15 16 17 18 19 20 21 22
23 24 25 26 27 28 29 30 31 32 33
块组
1 2
3 4
5 6 宏块
8
CIF
块
8
? 为了适应 B-ISDN的 ATM传输需要,ITU与 MPEG联
合发布 ISO/IEC 13818,分别称为 H.262和 MPEG-2标
准,它与 H.261和 MPEG-1兼容。
? H.263是 ITU-T制定的适合于低速视频信号的压缩标
准。大多数用户相当一段时间内最方便的是公用电
话线,以 V.34为标准的调制解调器支持在电话线中
传输速率可达 28.8kbps或 33.6kbps,甚至 56kbps。
? H.263是在 H.261基础上扩展形成的,支持的图像格
式包括 Sub-QCIF(128?96),QCIF,CIF,4CIF,
16CIF (1408?1152)等。其中主要采用的改进技术有,
2.5.4 视听业务视频压缩标准发展
(1)半像素精度的运动补偿 在 H.261中,运动矢
量的精度为 1个像素,H.263运动矢量的估值精
度达到半个像素。精度的提高使运动补偿后的
帧间误差减少,从而降低了码率。
(2)不受限的运动矢量 当运动跨越图像边界时,
由运动矢量所确定的宏块位置可能有一部分落
在边界之外,此时可以用边界上的像素值表示
界外的像素值,从而降低预测误差。
(3) 用基于句法的算术编码代替 Huffman编码 (可选
项 ) 这是一种效率较高的自适应算术编码。
(4) 先进的预测模式 (可选项 ) 对宏块中的 4个亮
度块分别进行运动估值获得 4个运动矢量。虽
然此时传输运动矢量的比特数增加一些,但由
于预测误差的大幅度降低,仍然使总码率降低。
(5) PB帧模式 (可选项 ) 虽然使用双向预测的 B帧
可以降低码率,但是却要引入附加的编码延时
和解码延时。为了降低延时,H.263采用了 P帧
和 B帧作为一个单元来处理的方式,即将 P帧
和由该帧与上一个 P帧所共同预测的 B帧一起进
行编码。
2.6 声音压缩标准
2.6.1 声音编码
? 声音包括语音和音乐,是多媒体系统中两类重要
数据。
? 声音数据表征是一个一维时变系统,特别对于语
音数据,人们已经找到了较合理的声道模型, 因
此声音数据的压缩要比图像数据的压缩容易。
? 统计表明,语音过程是一个近似的短时平稳
随机过程, 短时是指在 10~ 30ms的范围。
? 由于语音信号的这一性质,使得我们有可能
将语音信号划分为一帧一帧进行处理,每一
帧内的信号近似地满足同一模型 — 这是本方
法假设的基本前提。
? 在实用中,一般一帧的宽度为 20ms。
? 语音的基本参数包括
? 基音周期
? 共振峰
? 语音谱
? 声强。
语音生成机构的模型
? 语音生成机构的模型由 3部分组成
? 声源
? 共鸣机构
? 放射机构
? 声源共有 3类, 元音、摩擦音、爆破音。
? 共鸣机构 也称声道,由鼻腔、口腔与舌头组成。
? 放射机构 由嘴唇和鼻孔组成,是功能是发出声
音并传播出去。
图 2.32 语音生成机构的数字模型
模型的描述
? 与此语音生成机构模型相对应的声源由基音
周期参数描述,声道由共振峰参数描述,放
射机构则由语音谱和声强描述。
? DPCM,ADPCM等波形预测技术是音乐和实
时语音数据压缩技术的主要方法。
? 虽然该方法与基于语音识别的方法和基于参
数分析合成的方法相比有压缩能力差的缺点,
但算法简单,容易实现,以及能够较好地保
持原有声音的特点等优点,因而在语音数据
压缩的标准化推荐方案中最先被考虑。
? 参数编码的压缩率很大,但计算量大,保真
度不高,适合语音信号的编码。
? 混合编码介于波形编码和参数编码之间,集中
了两者优点。
2.6.2 ITU语音标准化方案
? 16kbps ITU语音标准化方案 G.728
? 32kbps ITU语音标准化方案 G.721
? 64kbps ITU语音标准化方案 G.722
1,16kbps语音标准化方案 G.728
? 使用领域统一在包括可视电话、数字移动通信、
无绳电话、卫星通信,DCME,ISDN等范围内。
? 对于以上所提到的应用范围,约束条件是语音
质量在 32kbps ADPCM的同等或以上,且编码
延迟时间在 5ms以下。
? 1992年,CCITT制定了基于短延时码本激励线
性预测编码 (LD-CELP)的 G.728标准,这是一
种基于 AbS原理并考虑了听觉特性的编码方法,
它具有以下特征,
? 以块为单位的后向自适应高次线性预测,
? 后向自适应型增益量化;
? 以向量为单位的激励信号量化 。
? G.728用在 64kbps的 ISDN线路的可视电话,带
宽分配为语音 16kbps,图像 48kbps。 语音的多
重化传送装置和个人计算机用的编码也是有希
望的应用领域 。
图 2.33 LD-CELP分析器构成
图 2.34 LD-CELP合成器构成
2,32kbps标准化方案 G.721
? 1984年 10月 CCITT公布了使用 ADPCM的标准 G.721,
速率为 32kbps.目的是最终取代现有的 PCM电路传送
方式。
? 作为对象的信号包括在电话线中流通的所有的信号,
如语音、个人计算机通信的调制解码信号,按键电
话的信号等等。
? 本方案针对 PCM(8kHz采样,8比特样点 )规定 G.721
用 PCM的一半速率 (8kHz采样,每样点 4比特 )完成。
? G.721方案采用算法是编码符号延迟为 0的且对传送
通道的误码率要求不高的 ADPCM方式。
图 2.35 G.721 ADPCM块图
? ADPCM方式在算法上的特征
(1)为了提高预测精度 (特别对于性质相差很大的语音信号
和调制解调器对的信号 ),采用了动态对数量化器。
(2)ADPCM本身采用了按每个采样点进行自适应控制的鲁
棒自适应预测器。
(3)追加了 PCM和 ADPCM间不论进行多少次转换都不会引
起特性降低的同步功能。
? G.721方案的应用 最初是面向卫星通信,长距
离通信以及信道价格很高的语音传输。
? 目前的应用领域除了最初的目标外,还被使用
在包括电视会议的语音编码,为提高线路利用
率的多媒体多路复用装置,数字录音电话的数
字记录部件,以及高质量的语音合成器等等。
3,64kbps标准化方案 G.722
? 1983年开始,CCITT开始了 7kHz带宽以语音和
音乐为对象的标准化音响编码方案,1988年公
布为 G.722标准。
? G.722方案编码方法是使用在 64kbps位速率以内
工作的 SB-ADPCM方法音频编码, 它将 50Hz到
7kHz间的频带从 4kHz处分割为高频区和低频区,
各频带利用 A D P C M 算法进行分别编码 。
? 为了与速率相对应, 算法分为 3种基本工作模式,
即 64kbps,56kbps和 48kbps模式 。 56kbps和
48kbps两工作模式可以分别在总体 64kbps的位速
率中设置一个 8 k b ps或 14kbps的数据通道,
? 编码器的构成
(1) 将输入信号以 16kHz的速率采样后, 每个样点量化为 14
比特, 然后到进行发送的功能模块。
(2) 编码速率为 64kbps的 SB-ADPCM的编码器。
? 解码器的构成
(1) 与编码器操作完全相反的 (逆 )SB-ADPCM解码处理。
解码器的速率依工作模式的选择可以在 64kbps,56kbps
和 48kbps之间变化。
(2) 生成在 16kHz采样速度下与 14比特的线性量化精度的数
字信号相对应的模拟信号的接收功能模块。
? G.722的应用
主要应用对象是电视会议系统,这是多媒体通
信一个子领域。要解决的主要问题是高质量的
语音传送。语音通信会议一般涉及 3个或 3个以
上的不同地点,因此 64kbps音频编码标准必须
支持多地点间的会议系统。
本章小结
? 首先介绍媒体数据的表示方法,重点是表示图像
数据的彩色空间和文件格式,并介绍了常用的
数据压缩方法。
? 本章重点讨论多媒体系统中几个重要的图像压缩
标准,其中 JPEG标准,MPEG标准以及 H.26X标
准是最重要的得到广泛应用的图像压缩标准。
? 最后简要介绍了多媒体系统的几个重要的声音压
缩标准。
? 信息表示与编码
? 常用的数据压缩技术
? 静态图像压缩标准 JPEG
? 运动图像压缩编码标准 MPEG
? 视听通信编码解码标准 H.26X
? 声音压缩技术
2.1 信息表示与编码
? 数字化表示
? 彩色空间
? 多媒体数据转换
2.1.1 概述
? 传统上用模拟方式表示声音和图像信息。
易出故障,常产生噪音和信号丢失,且拷贝过程中
噪音和误差逐步积累;
模拟信号不适合数字计算机加工处理 。
? 数字化处理:巨大的数据量。
? 采样定理,
仅当采样频率 ≥ 2倍的原始信号频率时, 才能
保证采样后信号可被保真地恢复为原始信号 。
? 采用 8bit数字化, 从而 1秒钟电视信号的数据量
约为 99.2Mbits。
即约为 100Mbps。 650MB的 CD-ROM仅能存约 1
分钟的原始电视数据 。 若 HDTV(1.2Gbps),一
张 CD-ROM还存不下 6秒钟的 HDTV图像 。
? 人说话的音频一般在 20Hz~4kHz,即人类语音
的带宽为 4kHz。 依据采样定理, 设数字化精度
为 8b,则 1秒钟信号量为 64kbits。
因此,人讲 1分钟话的数据量为 480kB。
? 数字化处理的关键问题-数据压缩
压缩的基础-数据冗余
? 空间冗余
? 时间冗余
? 信息熵冗余
? 结构冗余
? 知识冗余
? 视觉冗余
? 其他冗余
空间冗余
? 这是图像数据中经常存在的一种冗余。
? 在同一幅图像中,规则物体和规则背景的表
面物理特性具有相关性,这些相关性的光成
象结构在数字化其他中就表现为数据冗余。
时间冗余
? 这是序列图像和语音数据中所经常包含的冗余。
? 图像序列中的两幅相邻的图像之间有较大的相关
性,这反映为时间冗余。
? 在语言中, 由于人在说话时发音的音频是一连续
的渐变过程,而不是一个完全时间上独立的过程,
因而存在时间冗余。
信息熵冗余
? 信息熵是指一组数据所携带的信息量, 它定义为,
H=-∑i=0N-1Pilog2Pi
N为数据类数或码元个数, Pi为码元 yi发生的概率,
? 为使信息编码单位数据量 d接近于或等于 H,应设,
d=∑i=0N-1Pib(yi)
其中 b(yi)是分配给码元 yi的比特数,理论上应取
b(yi)=-log2Pi,实际一般取 b(y0)=b(y1)=…=b(yK-1),
? 例如,英文字母编码码元长为 7bit,即
b(y0)=b(y1)= … =b(yK-1)=7,这样 d必然大于 H,由
此带来的冗余称为信息熵冗余或编码冗余。
结构冗余
? 有些图像从大域上看存着非常强的纹理结构,
我们称它们在结构上存在有冗余。
? 例如,布纹图像和草席图像。
知识冗余
? 有许多图像的理解与某些基础知识有相当
大的相关性 。
? 例如, 人脸的图像有固定的结构 。 比如说
嘴的上方有鼻子, 鼻子的上方有眼睛,
鼻子位于正脸图像的中线上等 。
? 这类规律性的结构可由先验知识和背景知
识得到, 我们称此类冗余为知识冗余 。
视觉冗余
? 人类视觉系统对于图像场的任何变化,并不是都
能感知的。
? 例如,对于图像的编码处理时,由于压缩或量化
截断引入了噪声而使图像发生了一些变化,如果
这些变化不能为视觉所感知,仍认为图像足够好。
? 事实上人类视觉系统一般 分辨能力约为 26灰度等
级,而一般图像量化采用 28灰度等级,这类冗余
我们称为视觉冗余。
其他冗余
? 例如,由图像的空间非定常特性所带来的
冗余。
2.1.2 数字图像编码技术
1.彩色空间
? 常见模型,
? RGB彩色空间
? HSI彩色空间
? YUV彩色空间
? YIQ彩色空间
RGB彩色空间
? R,G,B是彩色最基本表示模型,也是计算机
系统中所使用的彩色模型 。
? RGB5,5,5方式 用 2个字节表示一个像
素,具体位分配见图 2.1。
图 2.1 RGB5,5,5方式
? RGB8,8,8方式 R,G,B三个分量各占
一个字节。
T(1b) R(5b) G(5b) B(5b)
HSI彩色空间
? 这种模型中, 用 H(Hue,色调 ),S(Saturation,
饱和度 ),I(Intensity,光强度 )3个分量来表示一
种颜色, 这种表示更适合人的视觉特性 。
YUV彩色空间
? Y为亮度信号, U,V是色差信号 (B-Y,R-Y)。
PAL制式彩色空间即为 YUV。 优点是亮度和色差信号分
离, 容易使彩色电视系统与黑白电视信号兼容 。
? 国际无线电咨询委员会根据实验认为采用双倍
度采样 4,2,2方案效果较好,提出 CCIR601标
准。
? 变换公式( YUV<--->RGB)
Y = 0.299*R + 0.587*G+ 0.114*B;
U =-0.169*R - 0.332*G+ 0.500*B;
V = 0.500*R + 0.419*G - 0.081*B
YIQ彩色空间
? 广播电视系统另一种常用的亮度与色差分离的
模型。 NTSC制式彩色空间即为 YIQ。 这里 Y是
亮度,I和 Q共同描述图像的色调和饱和度。
? 变换公式 (YIQ<--->RGB)
Y =0.299*R+ 0.587*G+ 0.114*B
I =0.211*R - 0.523*G+ 0.312*B
Q =0.596*R - 0.275*G - 0.322*B
2.数字图像文件格式
? TIF
? PCX
? GIF,TGA,BMP,DVI,JPEG等
TIF文件格式
? 由美国 Aldus Developer’s Desk和 Microsoft制定
? 结构
? 文件头 (8B)
? 参数指针表
? 参数数据表
? 图像数据
? 文件头
含字节顺序 (2B,表示存储格式, II-Intel格式;
MM— Motorola格式 );
标记号 (2B,版本信息 );
指向第一个参数指针表的编码 (4B)。
? 参数指针表
由每个长为 12B参数块构成,描述压缩种类、长
宽、彩色数、扫描密度等参数。
较长参数 (如调色板 )只给出指针,参数放在参数
数据表中。其结构定义如下,
typedef struct {
int tag-type;
int number-size;
long length;
long offset;
}TIF-FIELD;
? 图像数据 按参数表中描述的形式按行排列
PCX文件格式
? 由 Z Soft公司最初制定
? 结构
? 文件头 (128字节 )
? 数据部分 (采用行程长度编码 )
? 文件头结构定义
typedef struct{
char manufacture; /*always 0xa0*/
char version;
char encoding; /*always 1*/
char bits-per-pixel; /*color bits */
int Xmin,Ymin; /* image origin */
int Xmax,Ymax; /* image dimension */
int hres; /* resolution values */
int vres;
char palette[48]; /* color palette */
char reserved;
char color-planes; /* color planes */
int bytes-per-line; /* line buffer size */
int palette-type; /* grey or color palette */
char filler[58];
} PCXHEAD;
其中 Version若为 5,文件内有个 256色调色板,数据 768字节,在文件
最后。
? 文件体 对像素数据采用行程长度编码, 由包含
Keybyte和 Databyte的包组成。分 2种情况,
(1) 若 Keybyte最高位为 11,则低 6位为重复次数 (Index),
即后一个字节重复使用 Index次。但最多重复 63次,若再
长重建一个包。如图 2.2。
图 2.2 PCX数据包的结构
(2) 若 Keybyte最高位不是 11,那么该 Databyte按原样写入图
像文件 。 对一个字符的表示用长度为 1的包 。
11 Index
Databyte
11 1
Databyte
2.1.3 多媒体数据转换
? 不同媒体表示不同的信息表示方式。研究媒体
之间转换十分有意义。
? 有些媒体之间的转换是非常困难的事情,需要
研究人类本身对各种媒体理解原理和解释过程。
? 有些媒体之间的转换则相对容易,几乎不用做
什么工作。
表 2.1 部分媒体的转换关系
转换 位图图像 图形 语音 音乐 文本 视频 数值
位图图像 - *
映射
?? *
映射
*
冻结
?
图形 ***
轮廓或理解
-
*
波形
*
乐谱
**
矢量化
? *
可视化
语音?? - *
波形
**
语音合成
? *
合成
音乐?? ***
识别
-
*
音乐合成
??
文本 ***
文字识别
**
识别
**
语音识别
*
转换
-? *
符号化
视频 **
序列化
**
序列化
??? -?
数值? **
计算
***
识别
? *
转换
? -
2.2 常用的数据压缩技术
2.2.1 概述
? 根据解码后数据与原始数据是否完全一致,
数据压缩方法划分为两类,
? 可逆编码 (无失真编码 ) 解码图像与原始
图像严格相同,压缩大约在 2,1到 5,1之间。
如 Huffman编码、算术编码、行程长度编码等 。
? 不可逆编码 (有失真编码 ) 还原图像与原始
图像存在一定的误差,但视觉效果一般可以接
受,压缩比可以从几倍到上百倍来调节。常用
的有变换编码和预测编码
? 根据压缩的原理可以有以下分类,
? 预测编码 利用空间中相邻数据的相关性来预测
未来点的数据。差分脉冲编码调制 (DPCM)和自适
应差分脉冲编码调制 (ADPCM)。
? 变换编码 将图像时域信号变换到频域空间上处
理。时域空间有强相关的信号,反映在频域上是某
些特定的区域内能量常被集中在一起,从而实现压
缩, 正交变换如离散余弦变换,离散付立叶变换和
Walsh-Hadamard变换,
? 量化与向量量化编码 为了使整体量化失真最小,
就必须依照统计的概率分布设计最优的量化器。已
知最优量化器是 Max量化器。对象元点进行量化时,
也可以考虑一次量化多个点的向量量化。
? 信息熵编码 根据信息熵原理,让出现概率大的用
短的码字表达,反之用长的码字表示。最常见的方法如
Huffman编码,Shannon编码以及算术编码 。
? 子带 编码 将图像数据变换到频域后,按频域分带,
然后用不同的量化器进行量化,从而达到最优的组合。
或者分步渐近编码,随着解码数据的增加,图像逐渐清
晰。
? 模型编码 编码时首先将图像中边界、轮廓、纹理等
结构特征找出来,保存这些参数信息。解码时根据结构
和参数信息进行合成,恢复出原图像。具体方法有轮廓
编码、域分割编码、分析合成编码、识别合成编码、基
于知识的编码、分形编码等。
2.2.2 预测编码
? 线性预测 -DPCM
基本原理是基于图像中相邻像素之间具有较强的
相关性。每个像素可根据已知的前几个像素来作
预测。因此在预测编码中,编码和传输的并不是
像素采样值本身,而是这个采样值的预测值与其
实际值之间的差值
? 非线性预测(不讨论)
图 2.3 DPCM系统原理框图
预测器
量化器 编码器
解码器
预测器
信
道
接收端
输出
XN’
+
+
+
XN
e’N
XN
eN e’N
XN’
+ +
输入
^
XN ^
发送端
+
-
? XN为 tN时刻的亮度采样值 ; XN为根据 tN时刻以前已
知 X1,X2,…,XN-1对 XN所作的预测值 ; eN=XN-XN为
差值信号 ; eN’为量化器输出信号 ; XN’为接收端输
出,XN’ =XN+eN’ 。
? 因为,XN-XN’ = XN-(XN+eN’)
= (XN-XN)-eN’
= eN-eN’
? 所以,DPCM系统中的误差来源是发送端的量化器,
而与接收端无关,若去掉量化器使 eN=eN’,则 XN=XN’,
即实现信息保持编码。事实上,这种量化误差是不
可避免的。
^
^
^
^
^
2.2.3 变换编码
? 输入图像 G经正交变换 U变换到频域空间,像素
之间相关性下降,能量集中在变换域中少数变换
系数上,已经达到了数据压缩的效果。
? 对变换系数 A中那些幅度大元素予以保留,其他
数量多的幅度小的变换系数,全部当作零不予编
码,再辅以非线性量化,进一步压缩图像数据。
? 由于量化器存在,量化后变换系数 A′ 和 A间必
然存在量化误差,从而引起输入图像 G和输出图
像 G′ 间存在误差。图 2.4中 U′ 是 U的逆变换。
图 2.4 变换编码原理框图
变换 量化 编码器
解码器 逆变换
信
道
输入 发送端
接收端
输出
G
G’ U’
U
A’ A
? 变换编码 数据压缩主要是去除信源的相关性。
? 设信源序列为 X={X0,X1,…,XN-1},表征相关性
的统计特性就是协方差矩阵,
ΦX=
其中 σi,j=E{(Xi-EXi)(Xj-EXj)}.当协方差矩阵 Φx 除对角线上元
素之外各元素均为 0时,就等效于相关性为 0。
? 为了有效压缩,希望变换后的协方差矩阵为对角矩阵, 并希望主对角线元素随 i,j增加尽快衰减。
σ0,02 σ0,12 σ0,N-12
σ1,02 σ1,12
σN-1,02
σ1,N-12
σN-1,12 σN-1,N-12
…
…
…
…
…
…
…
? 已知 X的条件下, 根据它的协方差矩阵去寻找一
种正交变换 T,使变换后的协方差矩阵满足或接
近为一对角阵 。
? Karhunen-Loeve变换即是这样一种变换, 又称为
最佳变换, 它能使变换后协方差矩阵为对角阵,
并且有最小均方误差 。 它的计算比较复杂 。
? 实际应用中采用了一些准最佳变换如 DCT,DFT
和 WHT等, 使用这些变换后的协方差矩阵一般
都接近一对角阵 。
2.2.4 信息熵编码
? 又称为统计编码,它是根据信源符号出现概率
的分布特性而进行的压缩编码。
? 基本思想,在信源符号和码字之间建立明确
的一一对应关系,以便在恢复时能准确地再现
原信号, 同时要使平均码长或码率尽量小。
? 如 Huffman编码、算术编码 。
1,Huffman编码
? 定理 在变长编码中, 对出现概率大的信源符号赋
于短码字, 而对于出现概率小的信源符号赋于长
码字。如果码字长度严格按照所对应符号出现概
率大小逆序排列, 则编码结果平均码字长度一定
小于任何其他排列方式 。
? Huffman定理是 Huffman编码的理论基础
实现步骤
(1) 将信源符号按概率递减顺序排列;
(2) 把二个最小概率相加作为新符号的概率,并按 (1) 重排;
(3) 重复 (1),(2),直到概率为 1;
(4) 在每次合并信源时,将合并的信源分别赋,0”和
,1” (如概率大的赋,0”,概率小的赋,1” );
(5) 寻找从每一信源符号到概率为 1处的路径,记录下路径上
的,1”和,0”;
(6)写出每一符号的,1”、,0”序列 (从树根到信源符号节
点 )。
图 2.5 Huffman编码
信源符号 概率 编码过程 码字 码长 (βi)
x1
x2
x3
x4
x5
x6
x7
x8
0.40
0.18
0.10
0.10
0.07
0.06
0.05
0.04
1
001
011
0000
0100
0101
00010
00011
1
3
3
4
4
4
5
5
0
1
0
1
0 1
0.09
0.13
0.19
0.23
0.37 0.60
1 0 1 0
0 1 1
? 上述编码的平均码字长度,
R=∑Piβi=0.40× 1+0.18× 3+0.10× 3+0.10× 4+
0.07× 4+0.06× 4+0.05× 5+0.04× 5
=2.61
2.算术编码
? 20世纪 60年代初,Elias提出了算术编码概念。
? 1976年,Rissanen和 Pasco首次介绍了它的实用技
术。其基本原理是将编码的信息表示成实数 0和 1
之间的一个间隔 (Interval),信息越长,编码表示
它的间隔就越小,表示这一间隔所需的二进制位
就越多。
算术编码举例
? 采用固定模式符号概率分配如下,
字符, a e i o u
概率, 0.2 0.3 0.1 0.2 0.2
范围, [ 0,0.2) [ 0.2,0.5) [ 0.5,0.6)[ 0.6,0.8)
[ 0.8,1.0)
? 编码数据串为 eai。 令 high间隔的高端,low为低
端,range为间隔的长度,rangelow为编码字符
分配的间隔低端,rangehigh为编码字符分配的
间隔高端。
? 初始 high=1,low=0,range=high-low,
一个字符编码后新的 low和 high按下式计算,
low=low+range× rangelow;
high=low+range× rangehigh。
(1) 在第一个字符 e被编码时,e的 rangelow=0.2,
rangehigh=0.5,因此,
low=0+1× 0.2=0.2
high=0+1× 0.5=0.5
range=high-low=0.5-0.2=0.3
此时分配给 e的范围为[ 0.2,0.5)
(2) 第二个字符 a编码时使用新生成范围 [0.2,0.5),
a的 rangelow=0,rangehigh=0.2,因此,
low=0.2+0.3× 0=0.2
high=0.2+0.3× 0.2=0.26
range=0.06
范围变成 [0.2,0.26)
(3) 对下一个字符 i编号,i的 rangelow=0.5,
rangehigh=0.6,range=0.06,则,
low=0.2+0.06× 0.5=0.23
high=0.2+0.06× 0.6=0.236
? 结果,用 [0.23,0.236)表示数据串 eai,如果解码
器知道最后范围是 [0.23,0.236),它马上可解得
一个字符为 e,然后依次得到惟一解 a,i,最终
得到 eai。
图 2.6 算术编码过程表示
1 e 0.5
ea 0.26 0.236
0.8
0.6
0.5
0.2
0
u
o
i
e
a
u
o
i
e
a
u
o
i
e
a
u
o
i
e
a
0.2 0.2 0.23
eai
算术编码的特点
? 不必预先定义概率模型,自适应模式具有独特
的优点 ;
? 信源符号概率接近时,建议使用算术编码,这
种情况下其效率高于 Huffman编码 (约 5%)。
JPEG扩展系统采用。
2.3 静态图像压缩标
准 JPEG
2.3.1 JPEG标准的主要内容
? ISO/IEC 10918号标准“多灰度连续色调静态图像压
缩编码”即 JPEG标准,选定 ADCT作为静态图像压
缩的标准化算法。
? 该标准为保证通用性,包含以下两种方式,
? 空间方式 可逆编码
空间方式对于基本系统和扩展系统来说,被称为独立功能 。
? DCT方式 非可逆编码,包含基本系统 (必须保证
的功能 )和扩展系统 (扩充功能 )
? 基本系统 是实现 DCT编码与解码所需的最小功
能集,大多数的应用系统只要用此标准,就
能基本上满足要求。
? 扩展系统是为了满足更为广阔领域的应用要求
而设置的。
2.3.2 JPEG静态图像压缩算法
1,基于 DPCM的无失真编码
预测器 熵编码器
表说明
无失真编码器
源图像数据 压缩图像数据
图 2.7 无失真编码简化框图
? 基于 DPCM的无失真编码优点是硬件易实现,
重建图像质量好。
? 缺点是压缩比太低, 大约为 2,1。
? 工作原理是对 X的预测值 X’,将 X-X’进行无失真
熵编码。对 X’的求法见图给出的 预测方式 。
c b
a x
选择值 预测 选择值 预测
0
1
2
3
非预测
a
b
c
4
5
6
7
a+b-c
a+(b-c)/2
b+(a-c)/2
(a+b)/2
(a) X邻域 (b) 预测方式
图 2.8 预测器
2,基于 DCT的有失真压缩编码
? 离散余弦变换
? 量化处理
? DC系数的编码和 AC系数的行程编码
? 熵编码
图 2.9 基于 DCT编码过程
FDCT 熵编码器
表说明
无失真编码器
源图像数据 压缩图像数据
量化器
表说明
8?8块
( YUV每个分量)
图 2.10 解码过程
熵解码器 IDCT
表说明
解码器
逆量化器
表说明
8?8块
压缩图像数据 恢复的图像数据
离散余弦变换
(1)首先把原始图像顺序分割成 8× 8子块;
(2)采样精度为 P位 (二进制 ),把 [0,2P-1]范围的
无符号数变换成 [-2P-1,2P-1]范围的有符号数,
作为离散余弦正变换 (FDCT)的输入;
(3)在输出端经离散余弦逆变换 (IDCT)后又得到一
系列 8× 8子块,需将数值范围 [-2P-1,2P-1]变换
回 [0,2P-1]来重构图像。
? 这里用的 8× 8 FDCT的数学定义为,
F(u,v)=(1/4)C(u) C(v) [∑x=07∑y=07 f(x,y)·
cos((2x+1)u?/16)·cos((2y+1)v?/16)]
? 8× 8 IDCT的数学定义为,
f(x,y)= (1/4)[∑u=07∑v=07 C(u)C(v)F(u,v)·
cos((2x+1)u?/16)·cos((2y+1)v?/16)]
其中 C(u),C(v)= 1/√2 当 u,v=0
C(u),C(v)=1 其他
? 下面的编码针对 FDCT输出的 64个基信号的幅值
(F(0,0),…, F(7,7)称作 DCT系数 )来进行
量化处理
? 量化是一个“多到一”的过程,失真原因
? 关键是找最小量化失真的量化器,JPEG采用线性
均匀量化器,定义为对 64个 DCT系数除以量化步
长,然后四舍五入取整,
FQ(u,v)=Integer Round[F(u,v)/Q(u,v)]
? Q(u,v)是量化器步长,它是量化表的元素。量化
表元素随 DCT系数的位置和彩色分量不同有不同
的值,量化表尺寸为 8× 8与 64个变换系数一一对
应。
? 这个量化表应由用户规定 (JPEG给出参考值 -见表
2.2,2.3),并作为编码器的一个输入。
16 11 10 16 24 40 51 61
12 12 14 19 26 58 60 55
14 13 16 24 40 57 69 56
14 17 22 29 51 87 80 62
18 22 37 56 68 109 103 77
24 35 55 64 81 104 113 92
49 64 78 87 103 121 120 101
72 92 95 98 112 100 103 99
表 2.2 亮度量化表
17 18 24 47 99 99 99 99
18 21 26 66 99 99 99 99
24 26 56 99 99 99 99 99
47 66 99 99 99 99 99 99
99 99 99 99 99 99 99 99
99 99 99 99 99 99 99 99
99 99 99 99 99 99 99 99
99 99 99 99 99 99 99 99
表 2.3 色度量化表
? 量化的作用是在一定主观保真度图像质量前提
下,丢掉那些对视觉影响不大的信息,通过量
化可调节数据压缩比。
DC系数的编码
? 64个变换系数经量化后,坐标 u=v=0的 F(0,0)
称 DC系数 (直流分量 ),它即 64个空域图像采
样值的平均值。
? 相邻 8× 8块之间 DC系数有强相关性。 JPEG对
量化后的 DC系数采用 DPCM 编码,即对
DIFF= DCi-DCi-1编码。
… blocki-1 blocki
DCi-1 DCi
图 2.11 DC系数差分编码
AC系数的行程编码
? 其余 63个交流系数 (AC)采
用行程编码。
? 从左上方 AC0,1开始沿对
角线方向,Z”字形扫描直
到 AC7,7扫描结束,这样
可增加行程中连续 0的个
数。
? AC系数 编码的码字用两个
字节表示,如图所示,
图 2.12 Z字形扫描
图 2.13 AC系数行程编码码字
两个非 0值间
连续 0的个数
表示下一个
非 0值需要的 bit数
下一个非 0实际值
7 4 3 0
字节 1
字节 2
例子,对, …, 3,0,0,0,0,0,12,0,0,…,编
码
…, (5,4),(12),…,
熵编码
? 为了进一步压缩数据,需对 DC码和 AC行程编码
的码字再做基于统计特性的熵编码。
? JPEG建议的熵编码是 Huffman编码和自适应二进
制算术编码。
? 熵编码可分成两步进行,
? 把 DC码和 AC行程码转换为中间符号序列
? 给这些符号赋以 变长码字
AC系数 熵编码的中间格式
? 熵编码的中间格式由两个符号组成,
? 符号 1,(行程,尺寸 )
? 符号 2,(幅值 )
? 第一个信息参数“行程”表示前后两个非
0的 AC系数之间连续 0的个数。
? 第二个信息参数“尺寸”是后一个非 0的
AC系数幅值编码所需比特数。
? 行程取值范围为 1~ 15,超过 15时用扩展符号 1
(15,0)来扩充,63个 AC系数最多增加 3个扩展符
号 1。编码结束时用 (0,0)表示。
?,尺寸”取值范围为 0~ 10。
?,幅值”用以表示非 0的 AC系数的值,范围为[ -
210,210-1] (最长 10bit),结构形式如表 2-4所示。
1 -1,1
2 -3..-2,2..3
3 -7..-4,4..7
4 -15..-8,8..15
6
7 ……
8
9 -511..-256,256…511
10 -1023..-512,512…1023
表 2.4 符号 2结构
DC系数的熵编码
? 对于直流分量 DC也有类似于 AC系数的编码格式
? 符号 1,(尺寸 )
? 符号 2,(幅值 )
?,尺寸”表示 DC差值的幅值编码所需的比特数,而
“幅值”表示 DC差值的幅值,范围为[ -211,211-
1] 。可在表 2.4中多加一级,幅值尺寸以 1到 11比特
表示。
? 将 63个 AC系数表示成为符号 1和符号 2序列,其中连
续 0的长度超过 15时,有多个符号 1; 块结束 (EOB)
时仅有一个符号 1(0,0)。
, …4, 0,0,0,0,0,0,0,……0, 3,0”, 4,
3之间有 31个 0,
(15,0),(15,0),(1,2),(3)
? 可变长度熵编码就是对上述序列进行变长编码。
? 对 DC系数,AC系数中的符号 1采用 Huffman表中
的变长码编码 (VLC),这里 Huffman变长码表必须
作为 JPEG编码器输入。
? 符号 2用码字长度在表 2.4中给出的变长整数 VLI码
编码。 VLI是变长码,但不是 Huffman码。 VLI的
长度存放在 VLC中,JPEG提供 VLI码字表供用户
使用
? JPEG提供 2套 Huffman码表,亮度和色度。每套又
有 DC表和 AC表各 1个。共有 4个表。
? 表定义(亮度 DC系数码表)
16B说 明码字长度,
X’00 01 05 01 01 01 01 01 01 00 00 00 00 00 00 00’
第 i个 (1-16)元素值表示长度为 i的 Huffman码个数 。
紧跟一组值说明亮度表分类,
X’00 01 02 03 04 05 06 07 08 09 0A 0B’
表 2.5 亮度 DC系数表
分类 码长 码字 分类 码长 码字
0 2 00 6 4 1110
1 3 010 7 5 11110
2 3 011 8 6 111110
3 3 100 9 7 1111110
4 3 101 10 8 11111110
5 3 110 11 9 111111110
表 2.6 色度 DC系数表
分类 码长 码字 分类 码长 码字
0 2 00 6 6 111110
1 2 01 7 7 1111110
2 2 10 8 8 11111110
3 3 110 9 9 111111110
4 4 1110 10 10 1111111110
5 5 11110 11 11 11111111110
表 2.7 JPEG压缩效果评价
压缩效果 (比特 /像素 ) 质 量
0.25~0.50 中 ~好
0.50~0.75 好 ~很好
0.75~1.5 极好
1.2~2.0 与原始图像分不出来
3,基于 DCT的累进操作方式编码
? 顺序方式,每个图像分量的编码一次扫描完成的 ;
累进方式,图像分量编码要经过多次扫描才完成 。
? 累进方式
第一次扫描只进行一次粗糙图像的扫描压缩,以
相对于总的传输时间快得多的时间传输粗糙图像,
并重建一帧质量较低的可识别图像; 在随后的扫
描中再对图像作较细的压缩,这时只传递增加的
信息,可重建一幅质量提高一些的图像。这样不
断累进,直到满意的图像为止。
? 需在量化器的输出与熵编码的输入之间,增加一个足
以存储量化后 DCT系数的缓冲区,对缓冲区中存储的
DCT系数多次扫描,分批编码。
? 有以下两种累进方式,
? 频谱选择法 扫描中只对 64个 DCT变换系数中某些
频带的系数进行编码、传送,随后对其他频带编码、
传送, 直到全部系数传送完毕为止。
? 按位逼近法 沿着 DCT量化系数有效位 (表示系数精
度的位数 )方向分段累进编码 。 如第一次扫描只取最
高有效位的 n位编码, 传送, 然后对其余位进行编
码, 传送 。
4,基于 DCT的分层操作方式
? 分层方式是对一幅原始图像的空间分辨率,分成
多个分辨率进行“锥形”的编码方法,水平 (垂
直 )方向分辨率的下降以 2的倍数因子改变。
图 2.14 分层操作方式
分层操作方式的过程
(1)把原始图像空间分辨率降低。
(2)对已降低分辨率的图像采用基于 DCT的顺序方式, 累进方
式或无失真预测编码中的任何一种编码方法进行编码 。
(3)对低分辨率的图像解码, 重建图像, 使用插值滤波器, 对
它插值, 恢复图像的水平和垂直分辨率 。
(4)把分辨率已升高的图像作为原始图像的预测值, 对它们的
差值采用基于 DCT的顺序方式, 累进方式或用无失真方式
进行编码 。
(5)重复 (3),(4)直到图像达到完整的分辨率编码。
2.3.3 JPEG2000简介
? 基于 Internet网络的多媒体应用,给图像编码提出
了新的要求, 2000年 12月公布的新的 JPEG 2000标
准 (ISO 15444),其目标是在高压缩率的情况下,
如何保证图像传输的质量。
? JPEG中采用 DCT变换考察整个时域过程的频域特
征或整个频域过程的时域特征 。 JPEG2000采用以
小波变换为主的多分辨率编码方式 。
? JPEG2000统一了面向静态图像和二值图像的编码
方式, 是既支持低比率压缩又支持高比率压缩的
通用编码方式 。
? 该算法主要特点如下,
(1)高压缩率 。 与 JPEG相比, 可修复约 30% 的速率失真特性 。
JPEG和 JPEG2000在压缩率相同时, JPEG2000的信噪比将
提高 30% 左右 ;
(2)无损压缩 。 预测编码作为对图像进行无损编码的成熟方法
被集成在 JPEG2000中;
(3)渐进传输 。 JPEG2000可实现以空间清晰度和信噪比为首
的各种可调节性, 从而实现渐进传输, 即具有, 渐现, 特
性,
(4)感兴趣区域压缩。 JPEG2000 支持所谓的“感兴趣区域”。
2.4 运动图像压缩标准 MPEG
2.4.1 MPEG标准简介
? MPEG标准是面向运动图像压缩的一个系列标准。
? 最初 MPEG专家组的工作项目是 3个,即在 1.5Mbps,
10Mbps,40Mbps传输速率下对图像编码,分别命
名为 MPEG-1,MPEG-2,MPEG-3。 MPEG-3后被
取消,
? 为了满足不同的应用要求,MPEG又将陆续增加其
他一些标准 MPEG-4,MPEG-7,MPEG-21。
? MPEG算法编码过程和解码过程是一种非镜象
对称算法 (不对称 ),解码过程要比编码过程相
对简单些。
? MPEG-1和 MPEG-2只规定了解码的方案,重
点将解码算法标准化。因而用硬件实现 MPEG
算法时,人们首先实现 MPEG的解码器,如 C-
Cube公司 CL450解码器系列。
? 最近几年,随着 MPC性能的提高,软件解压功
能也逐渐得到支持。
2.4.2 MPEG-1系统
?,用于数字存储媒体运动图像及其伴音速率为
1.5Mbps的压缩编码”简称 MPEG-1,作为 ISO/IEC
11172号建议于 1992年通过。
? 主要用于在 CD-ROM存储运动视频图像,它针对标准
分辨率 (NTSC制为 352× 240; PAL制为 352× 288)的图
像进行压缩,每秒 30帧画面,具备 CD音质。
? 它还用于数字电话网络上的视频传输,如非对称数字
用户线路 (ADSL),视频点播, 教育网络等。
? 使用 MPEG-1的压缩算法,可将一部 120分钟长的电影
压缩到 1.2GB左右。因此,它被广泛地应用于 VCD制
作。
MPEG-1分为 5个部分
(1)MPEG系统 (11172-1),定义音频、视频及有关数
据的同步;
(2)MPEG视频 (11172-2),定义视频数据的编码和重
建图像所需的解码过程,亮度信号分辨率为
360× 240,色度信号分辨率为 180× 120;
(3)MPEG音频 (11172-3),定义音频数据的编码和解
码;
(4)一致性测试 (11172-4);
(5) 软件模拟 (11172-5)。
图 2.15 MPEG-1解码器原型
MPEG-1编解码器原型,
? 多路复合而成的码流假设以介质特定格式存储在数
字存储介质 (DSM)或网络上,标准不规定介质特定
格式。
? 系统解码器从输入多路复合流中抽取定时信息,并
对输入流进行分流处理,输出两个基本流分别给
视频和音频解码器。
? 视频和音频解码器分别解码输出视频和声音信号。
? 系统、视频、音频和介质 4个解码器之间用定
时信息进行同步。
? 多路复合流构造为 2层,系统层和压缩层。系
统解码输入的是系统层; 而视频、音频解码器
输入的是压缩层 。
? 系统解码器执行两类操作,
? 一类是作用在整个多路复合流上的操作,称为复合流操作 ;
? 另一类是作用在单个基本流上的操作,称为特定流操作。
? 系统层分为两个子层,
? 一个子层称为包 (pack),是复合流操作对象 ;
? 另一个子层称为组 (packet),它用于特定流操作 。
MPEG音频标准的特点,
? 音频信号采样率可以是 32kHz,44.1kHz或 48kHz。
? 压缩后的比特流可以按以下 4种模式之一支持单声
道或双声道,
? 提供给单音频通道的单声道模式;
? 提供给两个独立的单音频通道的双 -单声道模式;
? 提供给立体声通道的立体声模式;
? 联合立体声模式,利用立体声通道之间的关联或通道之
间相位差的无关性,或者对两者同时利用。
? MPEG音频 标准提供 3个独立的压缩层次,用户可
在复杂性和压缩质量之间权衡选择。
? 层 1最简单,使用比特率 384kbps,主要用于 DCC;
? 层 2的复杂度中等,使用比特率 192kbps左右,主要应用
于数字广播的音频编码,CD-ROM上的音频信号以及
CD-I和 VCD。
? 层 3最为复杂,使用比特率 64kbps,尤其适用于 ISDN上
的音频传输,有损压缩但音质保持逼真效果。
MP3音乐 是利用 MPEG Audio Layer 3 的技术,声音采
用 1,10 甚至 1,12 的压缩率
? 压缩后的比特流具有预定义的比特率之一。 MPEG
音频标准也支持用户使用预定义的比特率之外的比
特率。
? 编码后的比特流支持循环冗余校验 (CRC)。
? MPEG音频标准还支持在比特流中载带附加信息。
2.4.3 MPEG视频数据流的结构
图 2.16 MPEG-1数据 体系结构
运动图像序列
图片组
图片
图片切片
宏块
块
8
像
素
? 运动序列
? 图像组
? 图像信号分 3个部分,
一个亮度信号 Y和两个色度信号 U,V。
图 2.17 色度和亮度的位置关系
? 亮度信号 Y由偶数个行和偶数个列组成,色度信号 U、
V分别取 Y信号在水平、垂直方向的 1/2。如图所示,
黑点代表色度 U,V位置, 亮度 Y位置用白圈表示。
? 块, 一个块由
? 一个 8× 8的亮度信息或色度信息组成。
? 宏块一个宏块由一个 16× 16的亮度信息和两个 8× 8色度信
息构成,如图所示。
图 2.18 宏块的组成
? 图像切片 由一个或多个连续的宏块构成 。
Y
U V
8X8 8X8
1 2
3 4
5 6
2.4.4 MPEG-1视频 编码技术
? 主要问题,一方面无法达到很高的压缩比,
另一方面用单一的静止帧内编码方法能最好
地满足随机存取的要求。
? 解决方法:对这两个方面做了折衷考虑。即
为了减少时间上冗余性的基于块的运动补偿
技术和基于 DCT变换的减少空间上冗余性的
ADCT技术
? 在 MPEG中将图像分为 3种类型,
? I图像 利用图像自身的相关性压缩,提供压缩
数据流中的随机存取的点。
? P图像 用最近的前一个 I图像 (或 P图像 )预测编码
得到 (前向预测 )。
? B图像 B图像在预测时,既可使用了前一个图
像作参照, 也可使用下一个图像做参照或同时
使用前后两个图像作为参照 图像 (双向预测 )。
图 2.19 帧间预测
1
I
2
B
3
B
4
B
5
P
6
B
7
B
8
B
1
I
前向预测
双向预测
运动序列流的组成
图 2.20 典型的图像类型的显示次序
1秒
参照帧间有 2个 B图像 每 0.5秒 1帧 I图像
I B B P B B P B B P B B P B B I B B P B B P B B P B B P B B
传输顺序
? MPEG编码器需对上述图像重新排序,以便解码
器高效工作,因为参照图像必须先于 B图像恢复
之前恢复。上述 1~ 7帧图像重排后图像组次序为,
4 2 1 3 7 5 6
I P B B P B B
运动补偿技术
? 运动补偿技术主要用于消除 P图像和 B图像在时间上的
冗余性提高压缩效率。在 MPEG方案中,运动补偿技
术工作在宏块一级。
? B图像宏块有 4种类型
帧内宏块, 简称 I块;
前向预测宏块, 简称 F块;
后向预测宏块, 简称 B块;
平均宏块, 简称 A块。
? 对于 P图像,其宏块只有 I块和 F块两种 。
? 无论 B图像和 P图像, I块处理技术都与 I图像中采用技术一
致即 ADCT技术。
? 对于 F块,B块和 A块, MPEG都采用基于块的运动补偿技
术。
? F块预测时其参照为前一个 I图像或 P图像
? B块预测时其参照为后一个 I图像或 P图像
? 对于 A块预测其参照为前后两个 I图像或 P图像
基于块的运动补偿技术
? 基于块的运动补偿技术, 就是在其参照帧中寻找符合一
定条件, 当前被预测块的最佳匹配块 。
? 找到匹配块后, 有两种处理方法,
? 一是在恢复被预测块时, 用匹配块代替;
? 二是对预测的误差采用 ADCT技术编码, 在恢复被预
测块时, 用匹配块加上预测误差 。
表 2.8 宏块的预测方式
宏块类型 预测器 预测误差
I块 I1(X)=128 I1(X)-I1(X)
F块 I1(X)= I0(X+ mv01) I1(X)-I1(X)
B块 I1(X)= I2(X+ mv21) I1(X)-I1(X)
A块 I1(X)= (I0(X+ mv01)+I2(X+ mv21))/2 I1(X)-I1(X)
4,MPEG-1视频系统
图 2.21 简化的视频编码框图
图 2.22 基本的视频解码器框图
2.4.5 MPEG-2标准
? MPEG-2(ISO/IEC 13818)标准制定于 1994年。它利用
网络提供的 3~ 100Mbps的数据传输率来支持具有更
高分辨率图像的压缩和更高的图像质量。
? MPEG-2可支持交迭图像序列,支持可调节性编码,
多种运动估计方式,提供一个较广的范围改变压缩
比,以适应不同画面质量、存储容量和带宽的要求。
? 它与 MPEG-1兼容的基础上实现了低码率和多声道扩
展,MPEG-2可以将一部 120分钟长的电影压缩到 4~
8GB(DVD质量 ),其音频编码可提供左右中及两个环
绕声道、一个加重低音声道和多达 7个伴音声道。
? 除了作为 DVD的指定标准外,MPEG-2还可用
于为广播、有线电视网、电缆网络等提供广播
级的数字视频。不过对普通用户来说,由于现
在电视机分辨率的限制,MPEG-2所带来的高
清晰度画面质量 (如 DVD画面 )在电视上效果并
不明显,倒是其音频特性 (如加重低音、多伴
音声道等 )得到了广泛的应用。
? MPEG-2 Video 定义了不同的功能档次 (Profiles)
? 每个档次又分为几个等级 (Levels),一个等级为
N的解码器能够对最高为该等级的数码流解码。
5个档次
? 简单型( Simple)
? 基本型( Main)
? 信噪比可调型( SNR Scalable)
? 空间可调型( Spatial Scalable)
? 增强型( High)
4个等级
? 低级( Low) 352?288?30,它面向 VCR并与
MPEG-1兼容;
? 基本级( Main) 720?460?30或 720?576?25,它
面向视频广播信号;
? 高 1440级( High-1440) 1440?1080?30或
1440?1152?25,它面向 HDTV;
? 高级( High) 1920?1080?30或 1920?1152?25,
它面向 HDTV。
11种规范
? 高级的基本型 MP@HL
? 高级的增强型 HP@HL
? 高 -1440级的基本型 MP@H1440
? 高 -1440级的空间可调型 SSP@H1440
? 高 -1440级的的增强型 HP@H1440
? 基本级的简单型 SP@ML
? 基本级基本型 MP@ML
? 基本级的信噪比可调型 SNP@ML
? 基本级的增强型 HP@ML
? 低级的基本型 MP@LL
? 低级的信噪比可调型 SNP@LL
MPEG-2音频
? 基本特性之一是向后与 MPEG-1音频兼容。
? 可以是 5.1也可以是 7.1通道的环绕立体声。
? 5.1也称为,3/2-立体声加 LFE”,其含义是播音现
场前面可有 3个喇叭通道 (左、中、右 ),后面可有 2
个环绕声喇叭通道。 LFE是低频音效的加强通道。
? 7.1通道环绕立体声与 5.1类似, 它另有中左、中右
2个喇叭通道。
MPEG-2编码方法
? MPEG-2的编码方法和 MPEG-1区别主要是在隔
行扫描制式下,DCT变换是在场内还是在帧内
进行由用户自行选择,亦可自适应选择。
? 一般情况下,对细节多、运动部分少的图像在
帧内进行 DCT,而细节少、运动分量多的图像
在场内进行 DCT。
? MPEG-2采用可调型和非可调型两种编码结构 。
还可以使用一个基本层加上多个增强型的多层编
码结构,这由用户按质量和压缩比要求选择使用,
? 图 2.23 MPEG-2亮度宏块结构
图 2.24 空间可调型 MPEG-2编码器原理框图
2.4.6 MPEG-4标准
? 国际标准 MPEG-4, 甚低速率视听编码, 于 1998年 11月
公布, 它针对低速率下的视频, 音频编码, 更加注重多
媒体系统的交互性和灵活性 。
? MPEG-4引入了 AV对象 (AVO),使得更多的交互操作成
为可能:, AV对象, 可以是一个孤立的人, 也可以是这
个人的语音或一段背景音乐等 。
? MPEG-4对 AV对象的操作主要有,
采用 AV对象来表示听觉, 视觉或者视听组合内容;
组合已有 AV对象来生成复合的 AV对象, 并生成 AV场景;
对 AV对象的数据灵活地多路合成与同步, 以便选择合适
的网络来传输这些 AV对象数据;
允许接收端用户在 AV场景中对 AV对象进行交互操作等 。
? MPEG-4标准主要构成部分,
(1)传输多媒体集成框架 (DMIF)。 主要用于解决交互网络中,
广播环境下以及光盘应用中多媒体应用的操作问题 。 它是
MPEG-4制订的会话协议, 用来管理多媒体数据流 。 通过传
输多路合成比特信息来建立客户端和服务器端的连接与传输 。
(2)场景描述 。 场景声音视频对象间的关系的描述体现在两个
层次,BIFS描述场景中对象的空间时间安排, 观察者可以
有与这些对象交互的可能性;在较低的层次上, 对象描述子
定义针对每个对象的基本流的关系, 并提供诸如访问基本流
需要的 URL地址, 译码器的特性, 知识产权等其他信息 。
MPEG-4具备与 Web3D X3D和 W3C SMIL的互操作性 。 XMT
格式可在 SMIL播放器, VRML 和 MPEG-4 播放器间互换 。
(3)音频编码 。 MPEG-4不仅支持自然声音, 而且支持合成声音 。
MPEG-4的音频部分将音频的合成编码和自然声音的编码相
结合, 并支持音频的对象特征 。 支持 MIDI和 TTS,
(4)视频编码 。 MPEG-4也支持对自然和合成的视觉对象的编码 。
合成的视觉对象包括 2D,3D动画和人面部表情动画等 。
(5)缓冲区管理和实时解码 。 MPEG-4定义了一个系统解码模式
(SDM),该解码模式描述了一种理想的处理比特流句法语义
的解码装置, 它要求特殊的缓冲区和实时模式 。 通过有效地
管理, 可以更好地利用有限的缓冲区空间 。
? 与 MPEG-1和 2相比, MPEG-4更适于交互 AV服务以及远
程监控, 其设计目标使它具有更广的适应性和可扩展性:
MPEG-4 传 输速率可 在 4, 8 - 64kbps 之间, 分辨 率为
176× 144,可以利用很窄的带宽通过帧重建技术压缩和
传输数据 。
? 它将应用在数字电视, 动态图像, 互联网, 实时多媒体监
控, 移动多媒体通信, Internet/Intranet上的视频流与可视
游戏, DVD上的交互多媒体等方面 。
? MPEG-4用 MPEG-4压缩算法的 ASF可以将 120分钟的电影
压缩为 300MB左右的视频流;采用 MPEG-4压缩算法的
DIVX编码技术可以将 120分钟的电影压缩 600MB左右,
也可以将一部 DVD影片压缩到 2 张 CD-ROM上,
? MPEG-4属于一种高比率有损压缩算法, 其图像质量始终
无法和 DVD的 MPEG-2相比, 毕竟 DVD的存储容量较大 。
? 要想保证高速运动的图像画面不失真, 必须有足够的码
率, 目前 MPEG-4的码率虽然可以调到和 DVD差不多,
但总体效果还有不小的差距 。 因此, 对图像质量要求较
高的专业视频领域暂时还不能采用 。
图 2.25 MPEG-4视频编码器的算法方框图
图 2.26 MPEG-4终端的构成 (接收端 )
? 背景全景图 +视频对象 (VO)=合成图像
图 2.27 MPEG-4应用实例
2.5 视听 通信编码解码标准 H.26X
2.5.1 H.261方案
? ITU推荐的 H.261方案标题, 64kbps视声服务用视
象编码方式,, 又称为 P× 64kbps视频编码标准 。
? P 取值 范 围为 1 - 30。 P=1 或 2 时, 仅能 支持
QCIF(176× 144)分辨率格式, 每秒帧数较低的可
视电话;当 P≥6时, 则可支持图像分辨率格式为
CIF(352× 288)的电视会议 。
2.5.2 P× 64kbps视频压缩编码算法
? P× 64kbps压缩算法采用基于 DCT的变换编码和
带有运动预测的 DPCM预测编码的混合方法 。
? P× 64kbps标准的压缩算法与 MPEG-1标准有许多
共同之处,只是传输速率 P× 64kbps覆盖较宽的
信道频带,而 MPEG-1是基于较窄的频带上传输。
图 2.28 H.261编码器
图 2.29 利用 CIF的优点
2.5.3 视频层次数据结构
? P× 64kbps标准采用层次块的视频数据结构形式,
使高压缩视频编码算法得以实现。
? P× 64kbps标准的视频编码 定义一个视频数据结
构 CIF保证解码器对接收到的比特流进行没有二
义性的正确解码。
? 利用 CIF格式,可使不同制式的各国电视信号变
换为统一的中间格式,然后输入给编码器,从
而使编码器本身不必意识信号是来自哪种制式的。
? H.261标准适合各种各样实时视觉应用,如位率
不同 (P不同 ),运动效果和图像质量不同,位率
提高、画面质量改善。
图 2.30 视频数据结构图
图像头
QCIF帧图
块组 1 块组 2 块组 3
块组 1头 宏块 1 宏块 2 宏块 33
宏块 1头 亮度块 1 亮度块 4 色度块 1 色度块 2
DCT
系数
…
…
DCT
系数
块
结束
…
图 2.31 图像数据层次结构
1 2
3 4
5 6
7 8
9 10
11 12
1
3
5
帧
QCIF
1 2 3 4 5 6 7 8 9 10 11
12 13 14 15 16 17 18 19 20 21 22
23 24 25 26 27 28 29 30 31 32 33
块组
1 2
3 4
5 6 宏块
8
CIF
块
8
? 为了适应 B-ISDN的 ATM传输需要,ITU与 MPEG联
合发布 ISO/IEC 13818,分别称为 H.262和 MPEG-2标
准,它与 H.261和 MPEG-1兼容。
? H.263是 ITU-T制定的适合于低速视频信号的压缩标
准。大多数用户相当一段时间内最方便的是公用电
话线,以 V.34为标准的调制解调器支持在电话线中
传输速率可达 28.8kbps或 33.6kbps,甚至 56kbps。
? H.263是在 H.261基础上扩展形成的,支持的图像格
式包括 Sub-QCIF(128?96),QCIF,CIF,4CIF,
16CIF (1408?1152)等。其中主要采用的改进技术有,
2.5.4 视听业务视频压缩标准发展
(1)半像素精度的运动补偿 在 H.261中,运动矢
量的精度为 1个像素,H.263运动矢量的估值精
度达到半个像素。精度的提高使运动补偿后的
帧间误差减少,从而降低了码率。
(2)不受限的运动矢量 当运动跨越图像边界时,
由运动矢量所确定的宏块位置可能有一部分落
在边界之外,此时可以用边界上的像素值表示
界外的像素值,从而降低预测误差。
(3) 用基于句法的算术编码代替 Huffman编码 (可选
项 ) 这是一种效率较高的自适应算术编码。
(4) 先进的预测模式 (可选项 ) 对宏块中的 4个亮
度块分别进行运动估值获得 4个运动矢量。虽
然此时传输运动矢量的比特数增加一些,但由
于预测误差的大幅度降低,仍然使总码率降低。
(5) PB帧模式 (可选项 ) 虽然使用双向预测的 B帧
可以降低码率,但是却要引入附加的编码延时
和解码延时。为了降低延时,H.263采用了 P帧
和 B帧作为一个单元来处理的方式,即将 P帧
和由该帧与上一个 P帧所共同预测的 B帧一起进
行编码。
2.6 声音压缩标准
2.6.1 声音编码
? 声音包括语音和音乐,是多媒体系统中两类重要
数据。
? 声音数据表征是一个一维时变系统,特别对于语
音数据,人们已经找到了较合理的声道模型, 因
此声音数据的压缩要比图像数据的压缩容易。
? 统计表明,语音过程是一个近似的短时平稳
随机过程, 短时是指在 10~ 30ms的范围。
? 由于语音信号的这一性质,使得我们有可能
将语音信号划分为一帧一帧进行处理,每一
帧内的信号近似地满足同一模型 — 这是本方
法假设的基本前提。
? 在实用中,一般一帧的宽度为 20ms。
? 语音的基本参数包括
? 基音周期
? 共振峰
? 语音谱
? 声强。
语音生成机构的模型
? 语音生成机构的模型由 3部分组成
? 声源
? 共鸣机构
? 放射机构
? 声源共有 3类, 元音、摩擦音、爆破音。
? 共鸣机构 也称声道,由鼻腔、口腔与舌头组成。
? 放射机构 由嘴唇和鼻孔组成,是功能是发出声
音并传播出去。
图 2.32 语音生成机构的数字模型
模型的描述
? 与此语音生成机构模型相对应的声源由基音
周期参数描述,声道由共振峰参数描述,放
射机构则由语音谱和声强描述。
? DPCM,ADPCM等波形预测技术是音乐和实
时语音数据压缩技术的主要方法。
? 虽然该方法与基于语音识别的方法和基于参
数分析合成的方法相比有压缩能力差的缺点,
但算法简单,容易实现,以及能够较好地保
持原有声音的特点等优点,因而在语音数据
压缩的标准化推荐方案中最先被考虑。
? 参数编码的压缩率很大,但计算量大,保真
度不高,适合语音信号的编码。
? 混合编码介于波形编码和参数编码之间,集中
了两者优点。
2.6.2 ITU语音标准化方案
? 16kbps ITU语音标准化方案 G.728
? 32kbps ITU语音标准化方案 G.721
? 64kbps ITU语音标准化方案 G.722
1,16kbps语音标准化方案 G.728
? 使用领域统一在包括可视电话、数字移动通信、
无绳电话、卫星通信,DCME,ISDN等范围内。
? 对于以上所提到的应用范围,约束条件是语音
质量在 32kbps ADPCM的同等或以上,且编码
延迟时间在 5ms以下。
? 1992年,CCITT制定了基于短延时码本激励线
性预测编码 (LD-CELP)的 G.728标准,这是一
种基于 AbS原理并考虑了听觉特性的编码方法,
它具有以下特征,
? 以块为单位的后向自适应高次线性预测,
? 后向自适应型增益量化;
? 以向量为单位的激励信号量化 。
? G.728用在 64kbps的 ISDN线路的可视电话,带
宽分配为语音 16kbps,图像 48kbps。 语音的多
重化传送装置和个人计算机用的编码也是有希
望的应用领域 。
图 2.33 LD-CELP分析器构成
图 2.34 LD-CELP合成器构成
2,32kbps标准化方案 G.721
? 1984年 10月 CCITT公布了使用 ADPCM的标准 G.721,
速率为 32kbps.目的是最终取代现有的 PCM电路传送
方式。
? 作为对象的信号包括在电话线中流通的所有的信号,
如语音、个人计算机通信的调制解码信号,按键电
话的信号等等。
? 本方案针对 PCM(8kHz采样,8比特样点 )规定 G.721
用 PCM的一半速率 (8kHz采样,每样点 4比特 )完成。
? G.721方案采用算法是编码符号延迟为 0的且对传送
通道的误码率要求不高的 ADPCM方式。
图 2.35 G.721 ADPCM块图
? ADPCM方式在算法上的特征
(1)为了提高预测精度 (特别对于性质相差很大的语音信号
和调制解调器对的信号 ),采用了动态对数量化器。
(2)ADPCM本身采用了按每个采样点进行自适应控制的鲁
棒自适应预测器。
(3)追加了 PCM和 ADPCM间不论进行多少次转换都不会引
起特性降低的同步功能。
? G.721方案的应用 最初是面向卫星通信,长距
离通信以及信道价格很高的语音传输。
? 目前的应用领域除了最初的目标外,还被使用
在包括电视会议的语音编码,为提高线路利用
率的多媒体多路复用装置,数字录音电话的数
字记录部件,以及高质量的语音合成器等等。
3,64kbps标准化方案 G.722
? 1983年开始,CCITT开始了 7kHz带宽以语音和
音乐为对象的标准化音响编码方案,1988年公
布为 G.722标准。
? G.722方案编码方法是使用在 64kbps位速率以内
工作的 SB-ADPCM方法音频编码, 它将 50Hz到
7kHz间的频带从 4kHz处分割为高频区和低频区,
各频带利用 A D P C M 算法进行分别编码 。
? 为了与速率相对应, 算法分为 3种基本工作模式,
即 64kbps,56kbps和 48kbps模式 。 56kbps和
48kbps两工作模式可以分别在总体 64kbps的位速
率中设置一个 8 k b ps或 14kbps的数据通道,
? 编码器的构成
(1) 将输入信号以 16kHz的速率采样后, 每个样点量化为 14
比特, 然后到进行发送的功能模块。
(2) 编码速率为 64kbps的 SB-ADPCM的编码器。
? 解码器的构成
(1) 与编码器操作完全相反的 (逆 )SB-ADPCM解码处理。
解码器的速率依工作模式的选择可以在 64kbps,56kbps
和 48kbps之间变化。
(2) 生成在 16kHz采样速度下与 14比特的线性量化精度的数
字信号相对应的模拟信号的接收功能模块。
? G.722的应用
主要应用对象是电视会议系统,这是多媒体通
信一个子领域。要解决的主要问题是高质量的
语音传送。语音通信会议一般涉及 3个或 3个以
上的不同地点,因此 64kbps音频编码标准必须
支持多地点间的会议系统。
本章小结
? 首先介绍媒体数据的表示方法,重点是表示图像
数据的彩色空间和文件格式,并介绍了常用的
数据压缩方法。
? 本章重点讨论多媒体系统中几个重要的图像压缩
标准,其中 JPEG标准,MPEG标准以及 H.26X标
准是最重要的得到广泛应用的图像压缩标准。
? 最后简要介绍了多媒体系统的几个重要的声音压
缩标准。