第13章 MPEG电视
***************************************************************************
13.1 电视图像的数据率
13.1.1 ITU-R BT.601标准数据率
13.1.2 VCD电视图像数据率的估算
13.1.3 DVD电视图像数据率的估算
13.2 数据压缩算法
13.2.1 简介
13.2.2 帧内图像I的压缩编码算法
13.2.3 预测图像P的压缩编码算法
13.2.4 双向预测图像B的压缩编码算法
13.2.5 电视图像的结构
13.3 MPEG-2的配置和等级
13.4 MPEG-4电视图像编码
13.4.1 电视图像对象区的概念
13.4.2 电视图像编码方案
13.4.3 电视图像分辨率可变编码
13.5 HDTV格式练习与思考题参考文献和站点
***************************************************************************
MPEG-1和-2 Video标准有许多共同之处,基本概念类似,数据压缩编码方法基本相同,都采用以图像块作为基本单元进行变换、量化和移动补偿等技术来获得高压缩比。MPEG4 Video部分采用内容基编码技术,它除与MPEG-1和-2 Video向后兼容外,还引入了电视图像对象(VO)的概念,在某些应用场合下,对场景中的图像分别进行编码可以获得很高的压缩比而服务质量也能满足要求。下面将简要介绍这些标准中压缩电视图像数据的基本方法。
13.1 电视图像的数据率
13.1.1 ITU-R BT.601标准数据率按照奈奎斯特(Nyquist)采样理论,模拟电视信号经过采样(把连续的时间信号变成离散的时间信号)和量化(把连续的幅度变成离散的幅度信号)之后,数字电视信号的数据量大得惊人,当前的存储器和网络都还没有足够的能力支持这种数据传输率,因此就要对数字电视信号进行压缩。
为了在PAL、NTSC和SECAM彩色电视制之间确定一个共同的数字化参数,早在1982年国际无线电咨询委员会(CCIR)就制定了演播室质量的数字电视编码标准,这就是非常有名的ITU-R BT.601标准。按照这个标准,使用4:2:2的采样格式,亮度信号Y的采样频率选择为13.5 MHz/s,而色差信号Cr和Cb的采样频率选择为6.75 MHz/s,在传输数字电视信号通道上的数据传输率就达到为270 Mb/s(兆位/秒)!,即亮度(Y),
858样本/行×525行/帧×30帧/秒×10位/样本 ( 135兆位/秒(NTSC)
864样本/行×625行/帧×25帧/秒×10位/样本 ( 135兆位/秒(PAL)
Cr (R-Y):
429样本/行×525行/帧×30帧/秒×10位/样本 ( 68兆位/秒(NTSC)
429样本/行×625行/帧×25帧/秒×10位/样本 ( 68兆位/秒(PAL)
Cb (B-Y):
429样本/行×525行/帧×30帧/秒×10位/样本 ( 68兆位/秒(NTSC)
429样本/行×625行/帧×25帧/秒×10位/样本 ( 68兆位/秒(PAL)
总计, 27兆样本/秒×10位/样本 = 270兆位/秒实际上,在荧光屏上显示出来的有效图像的数据传输率并没有那么高,
亮度(Y), 720×480×30×10 (104 Mb/s (NTSC)
720×576×25×10 (104 Mb/s (PAL)
色差(Cr,Cb): 2×360×480×30×10 (104 Mb/s (NTSC)
2×360×576×25×10 (104 Mb/s (PAL)
总计, ~ 207 Mb/s
如果每个样本的采样精度由10位降为8位,彩色数字电视信号的数据传输率就降为166 Mb/s。
13.1.2 电视图像数据率的估算如果考虑使用Video-CD存储器来存储数字电视,由于它的数据传输率可达到1.4112 Mb/s,分配给电视信号的数据传输率为1.15 Mb/s,这就意味MPEG电视编码器的输出数据率要达到1.15 Mb/s。显而易见,如果存储166 Mb/s的数字电视信号就需要对它进行高度压缩,压缩比高达166/1.15 ( 144:1。
MPEG-1电视图像压缩技术不能达到这样高的压缩比。为此首先把NTSC和PAL数字电视转换成公用中分辨率格式CIF(Common Intermediate Format)的数字电视,这种格式相当于VHS(Video Home System)的质量,于是彩色数字电视的数据传输率就减小到
352×240×30×8×1.5 ( 30 Mb/s (NTSC)
352×288×25×8×1.5 ( 30 Mb/s (PAL)。
把这种彩色电视信号存储到CD盘上所需要的压缩比为:30/1.15 ( 26:1。这就是MPEG-1技术所能获得的压缩比。
13.1.3 电视图像数据率的估算根据当前成熟的压缩技术,电视图像的数据率压缩成平均为3.5 Mb/s ~ 4.7 Mb/s时非专家难于区分电视图像在压缩前后的之间差别。如果使用DVD-Video存储器来存储数字电视,它的数据传输率虽然可以达到10.08 Mb/s,但一张4.7 GB的单面单层DVD盘要存放133分钟的电视节目,按照数字电视信号的平均数据传输率为4.1 Mb/s来计算,压缩比要达到:166/4.10 ( 40:1。
如果电视图像的子采样使用4:2:0格式,每个样本的精度为8位,数字电视信号的数据传输率就减小到124 Mb/s,即
720×480×30×8×1.5 ( 124 Mb/s (NTSC)
720×576×25×8×1.5 ( 124 Mb/s (PAL)
使用DVD-Video来存储720×480×30或者720×576×25的数字电视图像所需要的压缩比为:124/4.1 ( 30:1。
13.2 数据压缩算法
13.2.1 简介电视图像数据压缩利用的各种特性和采用的方法归纳在表13-1中。从表中可以看到,电视图像本身在时间上和空间上都含有许多冗余信息,图像自身的构造也有冗余性。此外,正如前面所介绍的,利用人的视觉特性也可对图像进行压缩,这叫做视觉冗余。
表13-1 电视图像压缩利用的各种冗余信息种类
内容
目前用的主要方法
统计
空间冗余
像素间的相关性
变换编码,预测编码
特性
时间冗余
时间方向上的相关性
帧间预测,移动补偿
图像构造冗余
图像本身的构造
轮廓编码,区域分割
知识冗余
收发两端对人物的共有认识
基于知识的编码
视觉冗余
人的视觉特性
非线性量化,位分配
其他
不确定性因素
MPEG-Video图像压缩技术基本方法和方法可以归纳成两个要点:① 在空间方向上,图像数据压缩采用JPEG(Joint Photographic Experts Group)压缩算法来去掉冗余信息。② 在时间方向上,图像数据压缩采用移动补偿(motion compensation)算法来去掉冗余信息。
为了在保证图像质量基本不降低而又能够获得高的压缩比,MPEG专家组定义了三种图像:帧内图像I(intra),预测图像P(predicted )和双向预测图像B(bidirectionally interpolated ),典型的排列如图13-01所示。这三种图像将采用三种不同的算法进行压缩。
图13-01 MPEG专家组定义的三种图像
13.2.2 帧内图像I的压缩编码算法帧内图像I不参照任何过去的或者将来的其他图像帧,压缩编码采用类似JPEG压缩算法,它的框图如图13-02所示。如果电视图像是用RGB空间表示的,则首先把它转换成YCrCb空间表示的图像。每个图像平面分成8×8的图块,对每个图块进行离散余弦变换DCT(discrete Cosine Transform)。DCT变换后经过量化的交流分量系数按照Zig-zag的形状排序,然后再使用无损压缩技术进行编码。DCT变换后经过量化的直流分量系数用差分脉冲编码DPCM(Differential Pulse Code Modulation),交流分量系数用行程长度编码RLE(run-length encoding),然后再用赫夫曼(Huffman)编码或者用算术编码。它的编码框图如图13-2所示。
图13-02 帧内图像I的压缩编码算法框图
(引自Simon Fraser University School of Computing Science,Dr,Ze-Nian Li,
http://fas.sfu.ca/cs/undergrad/CourseMaterials/CMPT365/material/notes/contents.html)
13.2.3 预测图像P的压缩编码算法预测图像的编码也是以图像宏块(macroblock)为基本编码单元,一个宏块定义为I×J像素的图像块,一般取16×16。预测图像P使用两种类型的参数来表示:一种参数是当前要编码的图像宏块与参考图像的宏块之间的差值,另一种参数是宏块的移动矢量。移动矢量的概念可用图13-03表示。
图13-03 移动矢量的概念
求解差值的方法如图13-04所示。假设编码图像宏块MPI是参考图像宏块MRJ的最佳匹配块,它们的差值就是这两个宏块中相应像素值之差。对所求得的差值进行彩色空间转换,并作4:1:1的子采样得到Y,Cr和Cb分量值,然后仿照JPEG压缩算法对差值进行编码,计算出的移动矢量也要进行赫夫曼编码。
图13-04 预测图像P的压缩编码算法框图[2]
求解移动矢量的方法定义在图13-05中。在求两个宏块差值之前,需要找出编码图像中的预测图像编码宏块MPI相对于参考图像中的参考宏块MRJ所移动的距离和方向,这就是移动矢量(motion vector)。
图13-5 移动矢量的算法框图
要使预测图像更精度,就要求找到与参考宏块MRJ最佳匹配的预测图像编码宏块MPI。所谓最佳匹配是指这两个宏块之间的差值最小。通常以绝对值AE(absolute difference)最小作为匹配判据,
,
有些学者提出了以均方误差MSE(mean-square error)最小作为匹配判据,
,
也有些学者提出以平均绝对帧差MAD(mean of the absolute frame difference)最小作为匹配判据,
,
其中,dx和dy分别是参考宏块MRJ的移动矢量d(dx,dy)在X和Y方向上的矢量。
从以上分析可知,对预测图像的编码实际上就是寻找最佳匹配图像宏块,找到最佳宏块之后就找到了最佳移动矢量d(dx,dy)。
为减少搜索次数,现在已开发出许多简化算法用来寻找最佳宏块,下面介绍其中的三种。
1,二维对数搜索法(2D-logarithmic search)
这种方法采用的匹配判据是MSE为最小。它的搜索策略是沿着最小失真方向搜索。二维对数搜索方法如图13-06所示。在搜索时,每移动一次就检查5个搜索点。如果最小失真在中央或在边界,就减少搜索点之间的距离。在这个例子中,步骤1,2,…,5得到的近似移动矢量d为(i,j-2)、(i,j-4)、(i+2,j-4)、(i+2,j-5)和(i+2,j-6),最后得到的移动矢量为d(i+2,j-6)。
图13-06 二维对数搜索法
2,三步搜索法(three-step search)
这种搜索法与二维对数搜索法很接近。不过在开始搜索时,搜索点离(i,j)这个中心点很远,第一步就测试8个搜索点,如图13-07所示。在这个例子中,点(i+3,j-3)作为第一个近似的移动矢量d1;第二步,搜索点偏离(i+3,j-3)较近,找到的点假定为(i+3,j-5);第三步给出了最后的移动矢量为d(i+2,j-6)。本例采用MAD作为匹配判据。
图13-07 三步搜索法
3,对偶搜索法(conjugate search)
这是一个很有效的搜索方法,该法使用MAD作为匹配判据,示于图13-08。在第一次搜索时,通过计算点(i-1,j)、(i,j)和(i+1,j)处的MAD值来决定i方向上的最小失真。如果计算结果表明点(i+1,j)处的MAD为最小,就计算点(i+2,j)处的MAD,并从(i,j),(i+1,j)和(i+2,j)的MAD中找出最小值。按这种方法一直进行下去,直到在i方向上找到最小MAD值及其对应的点。
在这个例子中,假定在i方向上找到的点为(i+2,j)。在i方向上找到最小MAD值对应的点之后,就沿j方向去找最小MAD值对应的点,方法与i方向的搜索方法相同。最后得到的移动矢量为d(i+2,j-6)。
图13-08 对偶搜索法
在整个MPEG图像压缩过程中,寻找最佳匹配宏块要占据相当多的计算时间,匹配得越好,重构的图像质量越高。
13.2.4 双向预测图像B的压缩编码算法双向预测图像B的压缩编码框图如图13-09所示。具体计算方法与预测图像P的算法类似,这里不再重复。
图13-09 双向预测图像B的压缩编码算法框图[2]
13.2.5 电视图像的结构
MPEG编码器算法允许选择I图像的频率和位置。I图像的频率是指每秒钟出现I图像的次数,位置是指时间方向上帧所在的位置。一般情况下,I图像的频率为2。MPEG编码器也允许在一对I图像或者P图像之间选择B图像的数目。I图像、P图像和B图像数目的选择依据主要是根节目的内容。例如,对于快速运动的图像,I图像的频率可以选择高一些,B图像的数目可以选择少一点;对于慢速运动的图像I图像的频率可以低一些,而B图像的数目可以选择多一点。此外,在实际应用中还要考虑媒体的速率。
一个典型的I、P和B图像的安排如图13-10所示。编码参数为:帧内图像I的距离为N=15,预测图像(P)的距离为M=3。
图13-10 MPEG电视帧编排
I、P和B图像压缩后的大小如表13-02所示,单位为位。从表中可以看到,I帧图像的数据量最大,而B帧图像的数据量最小。
表13-2 MPEG三种图像的压缩后的典型值(位)
图像类型
I
P
B
平均数据/帧
MPEG-1 CIF 格式(1.15 Mb/s)
150 000
50 000
20 000
38 000
MPEG-2 601 格式(4.00 Mb/s)
400 000
200 000
80 000
130 000
13.3 MPEG-2的配置和等级在MPEG2标准化阶段,考虑到要适应不同数据速率设备的应用,MPEG专家组定义了三种质量不同的编码方式:信噪比可变性(Signal-to-Noise Scalability),空间分辨率可变性(Spatial Scalability)和时间分辨率可变性(Temporal Scalability)。
信噪比可变性SNR(Signal-to-Noise scalability)是指图像质量的折中,对于数据率比较低的解码器使用比较低的信噪比,而对数据率比较高的解码器则使用比较高的信噪比;空间分辨率可变性(Spatial scalability)是指图像的空间分辨率的折中,对于低速率的接受器使用比较低的图像分辨率,而对于数据率比较高的接受器使用比较高的图像分辨率;时间分辨率可变性(Temporal Scalability)是指图像在时间方向上分辨率的折中,与空间分辨率类似。
MPEG2为此引入了“配置(Profiles)”和参数“等级(Levels)”的概念。每种配置定义一套新的算法,而每一个等级指定一套参数范围(如图像大小、帧速率和位速率)。MPEG-2规定的配置规格如表13-03所示,等级规格如表13-04所示。
表13-03 MPEG-2的配置配置(Profile)
算法(Algorithms)
High
(高档)
支持由空间分辨率可变配置(Spatial Scalable Profile)提供的所有功能和其他规定功能子采样各种:YUV 4:2:2 用于进一步提高图像质量
Spatial scalable
(空间分辨率可变)
支持信噪比可变配置(SNR Scalable Profile)提供的所有功能和空间分辨率可变(Spatial scalable coding)算法(2层)
子采样格式:YUV:4:2:0
SNR scalable
(信噪比可变)
支持基本配置(Main Profile)提供的所有功能和信噪比可变编码(SNR scalable coding)算法(2层)
子采样格式:YUV:4:2:0
Main
(基本)
非可变速率编码算法支持随机存取,B图像预测方式子采样格式:YUV:4:2:0
Simple
(简化)
除不支持基本配置(Main Profile)提供的B图像预测功能外,基本配置的其他所有功能都支持子采样格式:YUV:4:2:0
表13-04 MPEG-2的等级等级(Level)
参数(Parameters)
说明
1920 samples/line
1920 样本/行
HIGH
1152 lines/frame
1152 行/帧
(高级)
60 frames/s
60 帧/秒
80 Mb/s
80 兆位/秒
1440 samples/line
1440 样本/行
HIGH 1440
1152 lines/frame
1152 行/帧
(高级1440)
60 frames/s
60 帧/秒
60 Mb/s
60 兆位/秒
720 samples/line
720 样本/行
MAIN
576 lines/frame
576 行/帧
(基本级)
30 frames/s
30 帧/秒
15 Mb/s
15 兆位/秒
352 samples/line
352 样本/行
LOW
288 lines/frame
288 行/帧
(低级)
30 frames/s
30 帧/秒
4 Mb/s
4 兆位/秒
由配置(profile)和参数等级(level)组合起来的MPEG-2所支持的各种电视规格如表13-05所示。前者定义质量的可变性(scalability)和彩色空间分辨率的句法子集,后者定义图像分辨率和每种配置的最大位速率的参数集。例如,当前使用得最普遍的描述符是MP@ML (Main Profile,Main Level),可译成“基本配置@基本级电视”或者“基本句法子集@基本参数级”,它指的是具有这种特性的电视:帧速率为30帧/秒,分辨率为720×576×30,子采样格式为4:2:0,位速率达15 Mb/s。MPEG2标准期待大多数MPEG2设备都能够支持这种电视。又如,MP@HL (Main Profile,High Level)描述符指的是帧速率为60帧/秒、分辨率为1920×1152×60、子采样格式为4:2:0、位速率达80 Mb/s的HDTV制电视。
表13-05 MPEG-2配置等级和参数级
Level\Profile
(等级\配置)
Simple
(简化型)
Main
(基本型)
SRN Scalability
(信噪比可变型)
Spatial Scalability
(空间分辨率可变型)
High
(高档型)
High
(高级)
4:2:0
1920×1152×60
80 Mb/s
I,P,B
4:2:0,4:2:2
1920×1152×60
80 Mb/s
I,P,B
High-1440
(高级1440)
4:2:0
1440×1152×60
60 Mb/s
I,P,B
4:2:0
1440×1152×60
60 Mb/s
I,P,B
4:2:0,4:2:2
1440×1152×60
60 Mb/s
I,P,B
Main
(基本级)
4:2:0
720×576×30
15 Mb/s
I,P
4:2:0
720×576×30
15 Mb/s
I,P,B
4:2:0
720×576×30
15 Mb/s
I,P,B
4:2:0
720×576×30
20 Mb/s
I,P,B
Low
(低级)
4:2:0
352×288×30
4 Mb/s
I,P,B
4:2:0
352×288×30
4 Mb/s
I,P,B
13.4 MPEG-4电视图像编码
MPEG Video专家组建立了一个用来开发图像和电视图像编码技术的模型,叫做“试验模型(Test Model)”或者叫做“验证模型(VM—Verification Model)”。这个模型描述了一个核心的编码算法平台,包括编码器、解码器以及位流(bitstream)的语法和语义。本节就电视图像的编码和解码的基本方法作一个简单介绍,其他内容请看本章所附的参考文献和站点。
13.4.1 电视图像对象区的概念
MPEG-4 Video编码算法支持由MPEG1和MPEG2提供的所有功能,包括对各种输入格式下的标准矩形图像、帧速率、位速率和隔行扫描图像源的支持。MPEG4 Video算法的核心是支持内容基(content-based)的编码和解码功能,也就是对场景中使用分割算法抽取的单独的物理对象进行编码和解码。MPEG-4 Video还提供管理这些电视内容的最基本方法。
为了实现预想的内容基交互等功能,MPEG-4 Video验证模型引进了一个叫做“电视图像对象区(Video Object Plane,VOP)”的概念。如图1311所示,上图表示支持MPEG1和MPEG2的普通的MPEG4编码器,下图表示MPEG4的甚低速率电视图像(Very Low Bitrate Video,VLBV)的核心编码器。MPEG4 Video验证模型不像MPEG1/2 Video那样把电视图像都认为是一个矩形区,而是假设每帧图像被分割成许多任意形状的图像区,每个区都有可能覆盖描述场景中感兴趣的物理对象或者内容,这种区被定义为图像对象区VOP。
图1311 普通MPEG4编码器和MPEG4 VLBV核心编码器[3]
编码器输入的是任意形状的图像区,图像区的形状和位置也可随帧的变化而改变。属于相同物理对象的连续的电视图像对象区(VOP)组成电视图像对象(Video Objects,VO)。例如,一个没有背景图像的正在演讲的人,如图1311所示。MPEG4可单独对属于相同电视图像对象(VO)的电视图像区(VOP)的形状、移动(motion)和纹理(texture)信息进编码和传送,或者把它们编码成一个单独的电视图像对象层(Video Object Layer,VOL)。此外,需要标识每个电视图像对象层(VOL)的信息也包含在编码后的位流(bitstream)中,这些信息包括各种电视图像对象层(VOL)的电视图像在接收端应该如何进行组合,以便重构完整的原始图像序列。这样就可以对每个电视图像对象区(VOP)进行单独解码,提供了管理电视图像序列的灵活性。
13.4.2 电视图像编码方案
MPEG-4 Video验证模型对每个电视图像对象(VO)的形状、移动和纹理信息进行编码形成单独的VOL层,以便能够单独对电视图像对象(VO)进行解码。如果输入图像序列只包含标准的矩形图像,就不需要形状编码,在这种情况下,MPEG-4 Video使用的编码算法结构也就与MPEG1和MPEG2使用的算法结构相同。
MPEG-4 Video验证模型对每个电视图像对象区(VOP)进行编码使用的压缩算法是在MPEG1和MPEG2 Video标准的基础上开发的,它也是以图像块为基础的混合DPCM和变换编码技术(hybrid DPCM/Transform coding)。MPEG4编码算法也定义了帧内电视图像对象区(Intra-Frame VOP,I-VOP)编码方式和帧间电视图像对象区预测(Inter-frame VOP prediction,简写为P-VOP)编码方式,它也支持双向预测电视图像对象区(B-directionally predicted VOP,B-VOP)方式。在对电视图像对象区(VOP)的形状编码之后,颜色图像序列分割成宏块进行编码,如图1312所示。图中的Y1、Y2、Y3和Y4表示亮度宏块,U、V分别表示红色差和蓝色差宏块。
图13-12 电视图像序列中的I-VOP和P-VOP编码方式和宏块结构
图1313描绘了MPEG4 Video的编码算法,用来对矩形和任意形状的输入图像序列进行编码。这个基本编码算法结构图包含了移动矢量(motion vector)的编码,以及以离散余弦变换为基础的纹理编码。
图1313 MPEG-4 Video编码器的算法方框图[3]
MPEG4采用内容基编码方法的一个重要优点是,使用合适的和专门的对象基移动预测工具(object-based motion prediction tools)可以明显提高场景中某些电视图像对象的压缩效率。
图1314表示MPEG4对电视图像序列进行编码的一个实际例子。左上角的图是背景全景图。右上角的图是一个没有背景的子图像全景图,可以把网球运动员当作是一个电视图像对象(VO),经常把这种可以独立移动的小图像称为子图像(sprite)。下面的图是接收端合成的全景图。在编码之前这个子图像全景图从背景全背景图序列中抽出来,然后分别对它们进行编码、传送和解码,最后再合成。
图1314 MPEG4电视序列编码举例[3]
13.4.3 电视图像分辨率可变编码
“电视图像分辨率”是指电视图像空间分辨率(spatial resolution)和时间分辨率(temporal resolution)。空间分辨率是指一帧图像包含的行数与每行显示的像素数之乘积,而时间分辨率是指每秒种显示或者传输的图像帧数。设置电视图像分辨率可变编码功能的一个重要目的是为了能够灵活支持性能不同(例如不同带宽)的各种电视接收或显示设备,或者支持要求浏览电视数据库等方面的应用。另一个目的是提供分层次的电视图像数据位流,这样可按应用所要求的先后次序进行传输。
MPEG2也有电视图像分辨率可变编码功能,但它是以图像的帧为基础进行编码。而MPEG4电视图像分辨率可变编码是以任意形状的电视图像对象区(VOP)为基础进行编码。对那些没有能力或者不愿意接收高分辨率图像的接收器,它可以接收分辨率比较低的电视图像,降低空间分辨率或者时间分辨率意味降低图像的质量。
空间分辨率可变性(Spatial Scalability)和时间分辨率可变性(Temporal Scalability)的实现方法类似。图1315描述了多种分辨率电视图像编码(multiscale video coding)方案。该方案提供三个层次的编码/解码,每一层都支持在不同空间分辨率下进行编码/解码。从图中可以看到,多种空间分辨率的实现是通过降低输入电视信号的采样率来获得的。
图1315 VOP空间分辨率可变编码方法[1]
13.5 HDTV格式现在我们使用的电视格式再加上新制定的电视格式归纳在图13-16中。图中,K=1024。px表示像素(pixel)。美国把1280×720格式称为高级电视ATV(advanced television),把1920×1035称为高清晰度电视HDTV(high definition television)。
图13-16 数字电视格式
1995年11月28日美国高级电视委员会(Advanced Television Systems Committee,ATSC)向FCC咨询委员会(FCC Advisory Committee)提交了数字电视标准(Digital Television Standard),并推荐作为高级电视广播标准。该标准的电视扫描格式如表13-06所示。
表13-06 电视扫描格式垂直方向行数
水平方向像素
长宽比
图像速率
1035
1920
16:9
60I* 30P* 24P*
720
1280
16:9
60P 30P 24P
480
704
16:9和4:3
60I 60P 30P 24P
480
640
4:3
60I 60P 30P 24P
* I表示隔行扫描;P表示非隔行扫描
** HDTV的长宽比为16:9; NTSC,PAL和SECAM为4:3
*** 支持整数和非整数帧速率(60.00,59.94;30.00,29.97;24.00,23.98)
电视图像压缩以MPEG-2 Video标准为基础,采样基本型配置(Main Profile),等级从基本级(Main Level)到高级(High Level)。声音压缩以AC-3系统为基础,采样频率为48 kHz,支持5个环绕声和1个超低频声道。该规格是1996年介绍的,由于近年来MPEG电视和声音标准的研究已有新的进展,因此该规格有可能在实行过程中会作修改。
练习与思考题
电视图像数据压缩的依据是什么?
MPEG-1编码器输出的电视图像的数据率大约是多少?
MPEG专家组在制定MPEG1/2 Video标准时定义了哪几种图像?哪种图像的压缩率最高?哪种图像的压缩率最低?
有人认为“图像压缩比越高越好”。你对这种说法有何看法?
有人说“MPEG1编码器的压缩比大约是200:1”。这种说法对不对?为什么?
说明电视规格MP@ML和HP@HL各自的含义。
电视图像的空间分辨率和时间分辨率是什么意思?
参考文献和站点
http://wwwam.hhi.de/mpeg-video/(重访日期:2001年12月)
http://www.cs.sfu.ca/CourseCentral/365/li/index_prev.html (重访日期:2001年12月)
ISO/IEC JTC1/SC29/WG11 N2459,MPEG-4 Overview - (Atlantic City Version),October 1998/Atlantic City
Ming Liou,Overview of the p×64 Kbps Video Coding Standard,Communication of the ACM,Vol.34,No.4,Apr.1991
ISO/IEC,CD 11172,Coding of Moving Pictures and Associated Audio For Digital Storage Media at up to about 1.5 M b/s,12/6/1991
Didier Le Gall,MPEG,A Video Compression Standard for Multimedia Applications,Communications of the ACM,Vol.34,No.4,Apr.1991
CCITT Recommendation,H.261,Video Codec for Audiovisual Service at p×64 Kb/s,Aug.1990
***************************************************************************
13.1 电视图像的数据率
13.1.1 ITU-R BT.601标准数据率
13.1.2 VCD电视图像数据率的估算
13.1.3 DVD电视图像数据率的估算
13.2 数据压缩算法
13.2.1 简介
13.2.2 帧内图像I的压缩编码算法
13.2.3 预测图像P的压缩编码算法
13.2.4 双向预测图像B的压缩编码算法
13.2.5 电视图像的结构
13.3 MPEG-2的配置和等级
13.4 MPEG-4电视图像编码
13.4.1 电视图像对象区的概念
13.4.2 电视图像编码方案
13.4.3 电视图像分辨率可变编码
13.5 HDTV格式练习与思考题参考文献和站点
***************************************************************************
MPEG-1和-2 Video标准有许多共同之处,基本概念类似,数据压缩编码方法基本相同,都采用以图像块作为基本单元进行变换、量化和移动补偿等技术来获得高压缩比。MPEG4 Video部分采用内容基编码技术,它除与MPEG-1和-2 Video向后兼容外,还引入了电视图像对象(VO)的概念,在某些应用场合下,对场景中的图像分别进行编码可以获得很高的压缩比而服务质量也能满足要求。下面将简要介绍这些标准中压缩电视图像数据的基本方法。
13.1 电视图像的数据率
13.1.1 ITU-R BT.601标准数据率按照奈奎斯特(Nyquist)采样理论,模拟电视信号经过采样(把连续的时间信号变成离散的时间信号)和量化(把连续的幅度变成离散的幅度信号)之后,数字电视信号的数据量大得惊人,当前的存储器和网络都还没有足够的能力支持这种数据传输率,因此就要对数字电视信号进行压缩。
为了在PAL、NTSC和SECAM彩色电视制之间确定一个共同的数字化参数,早在1982年国际无线电咨询委员会(CCIR)就制定了演播室质量的数字电视编码标准,这就是非常有名的ITU-R BT.601标准。按照这个标准,使用4:2:2的采样格式,亮度信号Y的采样频率选择为13.5 MHz/s,而色差信号Cr和Cb的采样频率选择为6.75 MHz/s,在传输数字电视信号通道上的数据传输率就达到为270 Mb/s(兆位/秒)!,即亮度(Y),
858样本/行×525行/帧×30帧/秒×10位/样本 ( 135兆位/秒(NTSC)
864样本/行×625行/帧×25帧/秒×10位/样本 ( 135兆位/秒(PAL)
Cr (R-Y):
429样本/行×525行/帧×30帧/秒×10位/样本 ( 68兆位/秒(NTSC)
429样本/行×625行/帧×25帧/秒×10位/样本 ( 68兆位/秒(PAL)
Cb (B-Y):
429样本/行×525行/帧×30帧/秒×10位/样本 ( 68兆位/秒(NTSC)
429样本/行×625行/帧×25帧/秒×10位/样本 ( 68兆位/秒(PAL)
总计, 27兆样本/秒×10位/样本 = 270兆位/秒实际上,在荧光屏上显示出来的有效图像的数据传输率并没有那么高,
亮度(Y), 720×480×30×10 (104 Mb/s (NTSC)
720×576×25×10 (104 Mb/s (PAL)
色差(Cr,Cb): 2×360×480×30×10 (104 Mb/s (NTSC)
2×360×576×25×10 (104 Mb/s (PAL)
总计, ~ 207 Mb/s
如果每个样本的采样精度由10位降为8位,彩色数字电视信号的数据传输率就降为166 Mb/s。
13.1.2 电视图像数据率的估算如果考虑使用Video-CD存储器来存储数字电视,由于它的数据传输率可达到1.4112 Mb/s,分配给电视信号的数据传输率为1.15 Mb/s,这就意味MPEG电视编码器的输出数据率要达到1.15 Mb/s。显而易见,如果存储166 Mb/s的数字电视信号就需要对它进行高度压缩,压缩比高达166/1.15 ( 144:1。
MPEG-1电视图像压缩技术不能达到这样高的压缩比。为此首先把NTSC和PAL数字电视转换成公用中分辨率格式CIF(Common Intermediate Format)的数字电视,这种格式相当于VHS(Video Home System)的质量,于是彩色数字电视的数据传输率就减小到
352×240×30×8×1.5 ( 30 Mb/s (NTSC)
352×288×25×8×1.5 ( 30 Mb/s (PAL)。
把这种彩色电视信号存储到CD盘上所需要的压缩比为:30/1.15 ( 26:1。这就是MPEG-1技术所能获得的压缩比。
13.1.3 电视图像数据率的估算根据当前成熟的压缩技术,电视图像的数据率压缩成平均为3.5 Mb/s ~ 4.7 Mb/s时非专家难于区分电视图像在压缩前后的之间差别。如果使用DVD-Video存储器来存储数字电视,它的数据传输率虽然可以达到10.08 Mb/s,但一张4.7 GB的单面单层DVD盘要存放133分钟的电视节目,按照数字电视信号的平均数据传输率为4.1 Mb/s来计算,压缩比要达到:166/4.10 ( 40:1。
如果电视图像的子采样使用4:2:0格式,每个样本的精度为8位,数字电视信号的数据传输率就减小到124 Mb/s,即
720×480×30×8×1.5 ( 124 Mb/s (NTSC)
720×576×25×8×1.5 ( 124 Mb/s (PAL)
使用DVD-Video来存储720×480×30或者720×576×25的数字电视图像所需要的压缩比为:124/4.1 ( 30:1。
13.2 数据压缩算法
13.2.1 简介电视图像数据压缩利用的各种特性和采用的方法归纳在表13-1中。从表中可以看到,电视图像本身在时间上和空间上都含有许多冗余信息,图像自身的构造也有冗余性。此外,正如前面所介绍的,利用人的视觉特性也可对图像进行压缩,这叫做视觉冗余。
表13-1 电视图像压缩利用的各种冗余信息种类
内容
目前用的主要方法
统计
空间冗余
像素间的相关性
变换编码,预测编码
特性
时间冗余
时间方向上的相关性
帧间预测,移动补偿
图像构造冗余
图像本身的构造
轮廓编码,区域分割
知识冗余
收发两端对人物的共有认识
基于知识的编码
视觉冗余
人的视觉特性
非线性量化,位分配
其他
不确定性因素
MPEG-Video图像压缩技术基本方法和方法可以归纳成两个要点:① 在空间方向上,图像数据压缩采用JPEG(Joint Photographic Experts Group)压缩算法来去掉冗余信息。② 在时间方向上,图像数据压缩采用移动补偿(motion compensation)算法来去掉冗余信息。
为了在保证图像质量基本不降低而又能够获得高的压缩比,MPEG专家组定义了三种图像:帧内图像I(intra),预测图像P(predicted )和双向预测图像B(bidirectionally interpolated ),典型的排列如图13-01所示。这三种图像将采用三种不同的算法进行压缩。
图13-01 MPEG专家组定义的三种图像
13.2.2 帧内图像I的压缩编码算法帧内图像I不参照任何过去的或者将来的其他图像帧,压缩编码采用类似JPEG压缩算法,它的框图如图13-02所示。如果电视图像是用RGB空间表示的,则首先把它转换成YCrCb空间表示的图像。每个图像平面分成8×8的图块,对每个图块进行离散余弦变换DCT(discrete Cosine Transform)。DCT变换后经过量化的交流分量系数按照Zig-zag的形状排序,然后再使用无损压缩技术进行编码。DCT变换后经过量化的直流分量系数用差分脉冲编码DPCM(Differential Pulse Code Modulation),交流分量系数用行程长度编码RLE(run-length encoding),然后再用赫夫曼(Huffman)编码或者用算术编码。它的编码框图如图13-2所示。
图13-02 帧内图像I的压缩编码算法框图
(引自Simon Fraser University School of Computing Science,Dr,Ze-Nian Li,
http://fas.sfu.ca/cs/undergrad/CourseMaterials/CMPT365/material/notes/contents.html)
13.2.3 预测图像P的压缩编码算法预测图像的编码也是以图像宏块(macroblock)为基本编码单元,一个宏块定义为I×J像素的图像块,一般取16×16。预测图像P使用两种类型的参数来表示:一种参数是当前要编码的图像宏块与参考图像的宏块之间的差值,另一种参数是宏块的移动矢量。移动矢量的概念可用图13-03表示。
图13-03 移动矢量的概念
求解差值的方法如图13-04所示。假设编码图像宏块MPI是参考图像宏块MRJ的最佳匹配块,它们的差值就是这两个宏块中相应像素值之差。对所求得的差值进行彩色空间转换,并作4:1:1的子采样得到Y,Cr和Cb分量值,然后仿照JPEG压缩算法对差值进行编码,计算出的移动矢量也要进行赫夫曼编码。
图13-04 预测图像P的压缩编码算法框图[2]
求解移动矢量的方法定义在图13-05中。在求两个宏块差值之前,需要找出编码图像中的预测图像编码宏块MPI相对于参考图像中的参考宏块MRJ所移动的距离和方向,这就是移动矢量(motion vector)。
图13-5 移动矢量的算法框图
要使预测图像更精度,就要求找到与参考宏块MRJ最佳匹配的预测图像编码宏块MPI。所谓最佳匹配是指这两个宏块之间的差值最小。通常以绝对值AE(absolute difference)最小作为匹配判据,
,
有些学者提出了以均方误差MSE(mean-square error)最小作为匹配判据,
,
也有些学者提出以平均绝对帧差MAD(mean of the absolute frame difference)最小作为匹配判据,
,
其中,dx和dy分别是参考宏块MRJ的移动矢量d(dx,dy)在X和Y方向上的矢量。
从以上分析可知,对预测图像的编码实际上就是寻找最佳匹配图像宏块,找到最佳宏块之后就找到了最佳移动矢量d(dx,dy)。
为减少搜索次数,现在已开发出许多简化算法用来寻找最佳宏块,下面介绍其中的三种。
1,二维对数搜索法(2D-logarithmic search)
这种方法采用的匹配判据是MSE为最小。它的搜索策略是沿着最小失真方向搜索。二维对数搜索方法如图13-06所示。在搜索时,每移动一次就检查5个搜索点。如果最小失真在中央或在边界,就减少搜索点之间的距离。在这个例子中,步骤1,2,…,5得到的近似移动矢量d为(i,j-2)、(i,j-4)、(i+2,j-4)、(i+2,j-5)和(i+2,j-6),最后得到的移动矢量为d(i+2,j-6)。
图13-06 二维对数搜索法
2,三步搜索法(three-step search)
这种搜索法与二维对数搜索法很接近。不过在开始搜索时,搜索点离(i,j)这个中心点很远,第一步就测试8个搜索点,如图13-07所示。在这个例子中,点(i+3,j-3)作为第一个近似的移动矢量d1;第二步,搜索点偏离(i+3,j-3)较近,找到的点假定为(i+3,j-5);第三步给出了最后的移动矢量为d(i+2,j-6)。本例采用MAD作为匹配判据。
图13-07 三步搜索法
3,对偶搜索法(conjugate search)
这是一个很有效的搜索方法,该法使用MAD作为匹配判据,示于图13-08。在第一次搜索时,通过计算点(i-1,j)、(i,j)和(i+1,j)处的MAD值来决定i方向上的最小失真。如果计算结果表明点(i+1,j)处的MAD为最小,就计算点(i+2,j)处的MAD,并从(i,j),(i+1,j)和(i+2,j)的MAD中找出最小值。按这种方法一直进行下去,直到在i方向上找到最小MAD值及其对应的点。
在这个例子中,假定在i方向上找到的点为(i+2,j)。在i方向上找到最小MAD值对应的点之后,就沿j方向去找最小MAD值对应的点,方法与i方向的搜索方法相同。最后得到的移动矢量为d(i+2,j-6)。
图13-08 对偶搜索法
在整个MPEG图像压缩过程中,寻找最佳匹配宏块要占据相当多的计算时间,匹配得越好,重构的图像质量越高。
13.2.4 双向预测图像B的压缩编码算法双向预测图像B的压缩编码框图如图13-09所示。具体计算方法与预测图像P的算法类似,这里不再重复。
图13-09 双向预测图像B的压缩编码算法框图[2]
13.2.5 电视图像的结构
MPEG编码器算法允许选择I图像的频率和位置。I图像的频率是指每秒钟出现I图像的次数,位置是指时间方向上帧所在的位置。一般情况下,I图像的频率为2。MPEG编码器也允许在一对I图像或者P图像之间选择B图像的数目。I图像、P图像和B图像数目的选择依据主要是根节目的内容。例如,对于快速运动的图像,I图像的频率可以选择高一些,B图像的数目可以选择少一点;对于慢速运动的图像I图像的频率可以低一些,而B图像的数目可以选择多一点。此外,在实际应用中还要考虑媒体的速率。
一个典型的I、P和B图像的安排如图13-10所示。编码参数为:帧内图像I的距离为N=15,预测图像(P)的距离为M=3。
图13-10 MPEG电视帧编排
I、P和B图像压缩后的大小如表13-02所示,单位为位。从表中可以看到,I帧图像的数据量最大,而B帧图像的数据量最小。
表13-2 MPEG三种图像的压缩后的典型值(位)
图像类型
I
P
B
平均数据/帧
MPEG-1 CIF 格式(1.15 Mb/s)
150 000
50 000
20 000
38 000
MPEG-2 601 格式(4.00 Mb/s)
400 000
200 000
80 000
130 000
13.3 MPEG-2的配置和等级在MPEG2标准化阶段,考虑到要适应不同数据速率设备的应用,MPEG专家组定义了三种质量不同的编码方式:信噪比可变性(Signal-to-Noise Scalability),空间分辨率可变性(Spatial Scalability)和时间分辨率可变性(Temporal Scalability)。
信噪比可变性SNR(Signal-to-Noise scalability)是指图像质量的折中,对于数据率比较低的解码器使用比较低的信噪比,而对数据率比较高的解码器则使用比较高的信噪比;空间分辨率可变性(Spatial scalability)是指图像的空间分辨率的折中,对于低速率的接受器使用比较低的图像分辨率,而对于数据率比较高的接受器使用比较高的图像分辨率;时间分辨率可变性(Temporal Scalability)是指图像在时间方向上分辨率的折中,与空间分辨率类似。
MPEG2为此引入了“配置(Profiles)”和参数“等级(Levels)”的概念。每种配置定义一套新的算法,而每一个等级指定一套参数范围(如图像大小、帧速率和位速率)。MPEG-2规定的配置规格如表13-03所示,等级规格如表13-04所示。
表13-03 MPEG-2的配置配置(Profile)
算法(Algorithms)
High
(高档)
支持由空间分辨率可变配置(Spatial Scalable Profile)提供的所有功能和其他规定功能子采样各种:YUV 4:2:2 用于进一步提高图像质量
Spatial scalable
(空间分辨率可变)
支持信噪比可变配置(SNR Scalable Profile)提供的所有功能和空间分辨率可变(Spatial scalable coding)算法(2层)
子采样格式:YUV:4:2:0
SNR scalable
(信噪比可变)
支持基本配置(Main Profile)提供的所有功能和信噪比可变编码(SNR scalable coding)算法(2层)
子采样格式:YUV:4:2:0
Main
(基本)
非可变速率编码算法支持随机存取,B图像预测方式子采样格式:YUV:4:2:0
Simple
(简化)
除不支持基本配置(Main Profile)提供的B图像预测功能外,基本配置的其他所有功能都支持子采样格式:YUV:4:2:0
表13-04 MPEG-2的等级等级(Level)
参数(Parameters)
说明
1920 samples/line
1920 样本/行
HIGH
1152 lines/frame
1152 行/帧
(高级)
60 frames/s
60 帧/秒
80 Mb/s
80 兆位/秒
1440 samples/line
1440 样本/行
HIGH 1440
1152 lines/frame
1152 行/帧
(高级1440)
60 frames/s
60 帧/秒
60 Mb/s
60 兆位/秒
720 samples/line
720 样本/行
MAIN
576 lines/frame
576 行/帧
(基本级)
30 frames/s
30 帧/秒
15 Mb/s
15 兆位/秒
352 samples/line
352 样本/行
LOW
288 lines/frame
288 行/帧
(低级)
30 frames/s
30 帧/秒
4 Mb/s
4 兆位/秒
由配置(profile)和参数等级(level)组合起来的MPEG-2所支持的各种电视规格如表13-05所示。前者定义质量的可变性(scalability)和彩色空间分辨率的句法子集,后者定义图像分辨率和每种配置的最大位速率的参数集。例如,当前使用得最普遍的描述符是MP@ML (Main Profile,Main Level),可译成“基本配置@基本级电视”或者“基本句法子集@基本参数级”,它指的是具有这种特性的电视:帧速率为30帧/秒,分辨率为720×576×30,子采样格式为4:2:0,位速率达15 Mb/s。MPEG2标准期待大多数MPEG2设备都能够支持这种电视。又如,MP@HL (Main Profile,High Level)描述符指的是帧速率为60帧/秒、分辨率为1920×1152×60、子采样格式为4:2:0、位速率达80 Mb/s的HDTV制电视。
表13-05 MPEG-2配置等级和参数级
Level\Profile
(等级\配置)
Simple
(简化型)
Main
(基本型)
SRN Scalability
(信噪比可变型)
Spatial Scalability
(空间分辨率可变型)
High
(高档型)
High
(高级)
4:2:0
1920×1152×60
80 Mb/s
I,P,B
4:2:0,4:2:2
1920×1152×60
80 Mb/s
I,P,B
High-1440
(高级1440)
4:2:0
1440×1152×60
60 Mb/s
I,P,B
4:2:0
1440×1152×60
60 Mb/s
I,P,B
4:2:0,4:2:2
1440×1152×60
60 Mb/s
I,P,B
Main
(基本级)
4:2:0
720×576×30
15 Mb/s
I,P
4:2:0
720×576×30
15 Mb/s
I,P,B
4:2:0
720×576×30
15 Mb/s
I,P,B
4:2:0
720×576×30
20 Mb/s
I,P,B
Low
(低级)
4:2:0
352×288×30
4 Mb/s
I,P,B
4:2:0
352×288×30
4 Mb/s
I,P,B
13.4 MPEG-4电视图像编码
MPEG Video专家组建立了一个用来开发图像和电视图像编码技术的模型,叫做“试验模型(Test Model)”或者叫做“验证模型(VM—Verification Model)”。这个模型描述了一个核心的编码算法平台,包括编码器、解码器以及位流(bitstream)的语法和语义。本节就电视图像的编码和解码的基本方法作一个简单介绍,其他内容请看本章所附的参考文献和站点。
13.4.1 电视图像对象区的概念
MPEG-4 Video编码算法支持由MPEG1和MPEG2提供的所有功能,包括对各种输入格式下的标准矩形图像、帧速率、位速率和隔行扫描图像源的支持。MPEG4 Video算法的核心是支持内容基(content-based)的编码和解码功能,也就是对场景中使用分割算法抽取的单独的物理对象进行编码和解码。MPEG-4 Video还提供管理这些电视内容的最基本方法。
为了实现预想的内容基交互等功能,MPEG-4 Video验证模型引进了一个叫做“电视图像对象区(Video Object Plane,VOP)”的概念。如图1311所示,上图表示支持MPEG1和MPEG2的普通的MPEG4编码器,下图表示MPEG4的甚低速率电视图像(Very Low Bitrate Video,VLBV)的核心编码器。MPEG4 Video验证模型不像MPEG1/2 Video那样把电视图像都认为是一个矩形区,而是假设每帧图像被分割成许多任意形状的图像区,每个区都有可能覆盖描述场景中感兴趣的物理对象或者内容,这种区被定义为图像对象区VOP。
图1311 普通MPEG4编码器和MPEG4 VLBV核心编码器[3]
编码器输入的是任意形状的图像区,图像区的形状和位置也可随帧的变化而改变。属于相同物理对象的连续的电视图像对象区(VOP)组成电视图像对象(Video Objects,VO)。例如,一个没有背景图像的正在演讲的人,如图1311所示。MPEG4可单独对属于相同电视图像对象(VO)的电视图像区(VOP)的形状、移动(motion)和纹理(texture)信息进编码和传送,或者把它们编码成一个单独的电视图像对象层(Video Object Layer,VOL)。此外,需要标识每个电视图像对象层(VOL)的信息也包含在编码后的位流(bitstream)中,这些信息包括各种电视图像对象层(VOL)的电视图像在接收端应该如何进行组合,以便重构完整的原始图像序列。这样就可以对每个电视图像对象区(VOP)进行单独解码,提供了管理电视图像序列的灵活性。
13.4.2 电视图像编码方案
MPEG-4 Video验证模型对每个电视图像对象(VO)的形状、移动和纹理信息进行编码形成单独的VOL层,以便能够单独对电视图像对象(VO)进行解码。如果输入图像序列只包含标准的矩形图像,就不需要形状编码,在这种情况下,MPEG-4 Video使用的编码算法结构也就与MPEG1和MPEG2使用的算法结构相同。
MPEG-4 Video验证模型对每个电视图像对象区(VOP)进行编码使用的压缩算法是在MPEG1和MPEG2 Video标准的基础上开发的,它也是以图像块为基础的混合DPCM和变换编码技术(hybrid DPCM/Transform coding)。MPEG4编码算法也定义了帧内电视图像对象区(Intra-Frame VOP,I-VOP)编码方式和帧间电视图像对象区预测(Inter-frame VOP prediction,简写为P-VOP)编码方式,它也支持双向预测电视图像对象区(B-directionally predicted VOP,B-VOP)方式。在对电视图像对象区(VOP)的形状编码之后,颜色图像序列分割成宏块进行编码,如图1312所示。图中的Y1、Y2、Y3和Y4表示亮度宏块,U、V分别表示红色差和蓝色差宏块。
图13-12 电视图像序列中的I-VOP和P-VOP编码方式和宏块结构
图1313描绘了MPEG4 Video的编码算法,用来对矩形和任意形状的输入图像序列进行编码。这个基本编码算法结构图包含了移动矢量(motion vector)的编码,以及以离散余弦变换为基础的纹理编码。
图1313 MPEG-4 Video编码器的算法方框图[3]
MPEG4采用内容基编码方法的一个重要优点是,使用合适的和专门的对象基移动预测工具(object-based motion prediction tools)可以明显提高场景中某些电视图像对象的压缩效率。
图1314表示MPEG4对电视图像序列进行编码的一个实际例子。左上角的图是背景全景图。右上角的图是一个没有背景的子图像全景图,可以把网球运动员当作是一个电视图像对象(VO),经常把这种可以独立移动的小图像称为子图像(sprite)。下面的图是接收端合成的全景图。在编码之前这个子图像全景图从背景全背景图序列中抽出来,然后分别对它们进行编码、传送和解码,最后再合成。
图1314 MPEG4电视序列编码举例[3]
13.4.3 电视图像分辨率可变编码
“电视图像分辨率”是指电视图像空间分辨率(spatial resolution)和时间分辨率(temporal resolution)。空间分辨率是指一帧图像包含的行数与每行显示的像素数之乘积,而时间分辨率是指每秒种显示或者传输的图像帧数。设置电视图像分辨率可变编码功能的一个重要目的是为了能够灵活支持性能不同(例如不同带宽)的各种电视接收或显示设备,或者支持要求浏览电视数据库等方面的应用。另一个目的是提供分层次的电视图像数据位流,这样可按应用所要求的先后次序进行传输。
MPEG2也有电视图像分辨率可变编码功能,但它是以图像的帧为基础进行编码。而MPEG4电视图像分辨率可变编码是以任意形状的电视图像对象区(VOP)为基础进行编码。对那些没有能力或者不愿意接收高分辨率图像的接收器,它可以接收分辨率比较低的电视图像,降低空间分辨率或者时间分辨率意味降低图像的质量。
空间分辨率可变性(Spatial Scalability)和时间分辨率可变性(Temporal Scalability)的实现方法类似。图1315描述了多种分辨率电视图像编码(multiscale video coding)方案。该方案提供三个层次的编码/解码,每一层都支持在不同空间分辨率下进行编码/解码。从图中可以看到,多种空间分辨率的实现是通过降低输入电视信号的采样率来获得的。
图1315 VOP空间分辨率可变编码方法[1]
13.5 HDTV格式现在我们使用的电视格式再加上新制定的电视格式归纳在图13-16中。图中,K=1024。px表示像素(pixel)。美国把1280×720格式称为高级电视ATV(advanced television),把1920×1035称为高清晰度电视HDTV(high definition television)。
图13-16 数字电视格式
1995年11月28日美国高级电视委员会(Advanced Television Systems Committee,ATSC)向FCC咨询委员会(FCC Advisory Committee)提交了数字电视标准(Digital Television Standard),并推荐作为高级电视广播标准。该标准的电视扫描格式如表13-06所示。
表13-06 电视扫描格式垂直方向行数
水平方向像素
长宽比
图像速率
1035
1920
16:9
60I* 30P* 24P*
720
1280
16:9
60P 30P 24P
480
704
16:9和4:3
60I 60P 30P 24P
480
640
4:3
60I 60P 30P 24P
* I表示隔行扫描;P表示非隔行扫描
** HDTV的长宽比为16:9; NTSC,PAL和SECAM为4:3
*** 支持整数和非整数帧速率(60.00,59.94;30.00,29.97;24.00,23.98)
电视图像压缩以MPEG-2 Video标准为基础,采样基本型配置(Main Profile),等级从基本级(Main Level)到高级(High Level)。声音压缩以AC-3系统为基础,采样频率为48 kHz,支持5个环绕声和1个超低频声道。该规格是1996年介绍的,由于近年来MPEG电视和声音标准的研究已有新的进展,因此该规格有可能在实行过程中会作修改。
练习与思考题
电视图像数据压缩的依据是什么?
MPEG-1编码器输出的电视图像的数据率大约是多少?
MPEG专家组在制定MPEG1/2 Video标准时定义了哪几种图像?哪种图像的压缩率最高?哪种图像的压缩率最低?
有人认为“图像压缩比越高越好”。你对这种说法有何看法?
有人说“MPEG1编码器的压缩比大约是200:1”。这种说法对不对?为什么?
说明电视规格MP@ML和HP@HL各自的含义。
电视图像的空间分辨率和时间分辨率是什么意思?
参考文献和站点
http://wwwam.hhi.de/mpeg-video/(重访日期:2001年12月)
http://www.cs.sfu.ca/CourseCentral/365/li/index_prev.html (重访日期:2001年12月)
ISO/IEC JTC1/SC29/WG11 N2459,MPEG-4 Overview - (Atlantic City Version),October 1998/Atlantic City
Ming Liou,Overview of the p×64 Kbps Video Coding Standard,Communication of the ACM,Vol.34,No.4,Apr.1991
ISO/IEC,CD 11172,Coding of Moving Pictures and Associated Audio For Digital Storage Media at up to about 1.5 M b/s,12/6/1991
Didier Le Gall,MPEG,A Video Compression Standard for Multimedia Applications,Communications of the ACM,Vol.34,No.4,Apr.1991
CCITT Recommendation,H.261,Video Codec for Audiovisual Service at p×64 Kb/s,Aug.1990