Digital Compression and Coding for Multimedia 3- 1
多 媒 体 技 术
—— 计算、通信及应用吴产乐
wuchl@whu.edu.cn
Digital Compression and Coding for Multimedia 3- 2
第三章 多媒体数据压缩编码
推荐教材
多媒体技术 (高级 ) 钟玉琢 著
多媒体技术教程 胡晓峰 著
多媒体数字压缩原理与标准,Digital Compression for Multimedia
Principles and Standards.
Gibson,J.D,等 Morgom Kaufmamn Publishers,Inc,
李煜辉 1998年 电子工业出版社;
High-Speed Networks and Internets,Performance and Quality of
Service,2nd Edition
William Stallings,Prentice Hall
高速网络与互联网--性能与服务质量 (第二版 ) 电子工业出版社
本章内容
多媒体数据压缩编码的必要性和编码方法
多媒体数据压缩编码的国际标准
Digital Compression and Coding for Multimedia 3- 3
3.1.1多媒体数据压缩编码的必要性
3.1 压缩编码的必要性和重要性
3.1.1 压缩编码的必要性和重要性
1,多媒体系统技术,
面向三维图形、立体声、彩色全屏幕运动画面的处理技术;
多种媒体承载的由模拟量转化成数字量信息的获取、表示、存储、
传输、表现。
2,未压缩的数字化信息量
1页 B5文件数据量约为 6.61MB/P
180× 255mm2× 122像素
/mm2× 8bit÷ 1B/8bit=6.61MB/P
650MB的 CDROM存放 98Pages
Digital Compression and Coding for Multimedia 3- 4
3.1.1 多媒体数据压缩编码的必要性
CD-A激光唱盘每秒采样位为 1.41Mbps
44kHz× 16bit/Hz·样本 × 2(声道 )= 1.41Mbps
650MB的 CDROM存放 1小时音乐
数字音频磁带 (DAT)每秒采样位为 768kbps
48kHz× 16bit/Hz·样本 =768kbps
650MB的 CDROM存放 2小时节目
数字电视图像
① SIF(Source input format)格式,NFSC制、彩色、
4:4:4采样每帧,352× 240× 3B=253KB
每秒,253KB× 30=7.603MBps
每片 CDROM:650MB÷ 253kB=2569帧 /片
(650MB÷ 7.603MB)÷ 60=1.42分 /片
Digital Compression and Coding for Multimedia 3- 5
3.1.1 多媒体数据压缩编码的必要性
2,未压缩的数字化信息量
数字电视图像
② ICCR (International Consultative Committee for
Radio)格式,PAC制,4:4:4采样每帧,720× 576× 3B=1.24MB
每秒,1.24MB× 25=31.1MBps
每片 CDROM:650MB÷ 1.24MB= 524帧 /片
650MB÷ 31.1MB=20.9秒 /片
陆地卫星 (LandSat-3) 分辨率 2340× 3240,4波段,7位采样精度每幅,2340× 3240× 7× 4=212Mb
每天,212Mb× 30=6.36Gbit
每年,6.36Gbit× 365=2321.4Gbit=290GB
Digital Compression and Coding for Multimedia 3- 6
3.1.2 多媒体数据压缩的可能性
3.1.2 多媒体数据压缩的可能性
( 1)图像数据表示中大量冗余
( 2)图像数据压缩技术,利用图像数据冗余性减少数据量方法
1,空间冗余
静态图像存在的主要冗余 ;
采样点颜色之间的空间连贯性,区域中各点光强、色彩、饱和度同 ;
离散像素采样表示颜色没有利用这种空间连贯性 ;
改变颜色的像素存储方式,利用空间连贯性,减少数据量,
2,时间冗余
序列图像 (电视、运动图像 )表示常包含的冗余 ;
相邻帧记录了相邻时刻的同一场景画面,移动物位置稍不同,
Digital Compression and Coding for Multimedia 3- 7
3.1.2 多媒体数据压缩的可能性
3.1.2 多媒体数据压缩的可能性
3,结构冗余
图像纹理区的像素值存在着分布模式,如方格状地板图案 ;
已知分布模式,可通过某一过程生成图像,
4,知识冗余
有些图像的理解与某些知识有相当大的相关性,如人脸的图像有固定结构 ;
规律性结构可由先验知识和背景知识获得 —— 知识冗余 ;
由已有知识,对图像中物体构造其基本模型,创建对应各种特征的图像库,存储时只需保存图像的一些特征参数 ;
知识冗余是模型编码主要利用的特征,
Digital Compression and Coding for Multimedia 3- 8
3.1.2 多媒体数据压缩的可能性
5,视觉冗余
(1).人类视觉系统对图像场的敏感性是非均匀的和非线性的 ;
(2).记录图像时假定视觉系统是均匀和线性的,对不同敏感区同样对待,产生了视觉冗余,应对不同敏感部分分开编码 ;
(3).视觉的非均匀性,
视觉系统对图像的亮度和色彩度的敏感性相差很大,RGB→NTSC 的
yIQ后发现,视觉系统的亮度 y的敏感度远高于色度 (I,Q)的敏感度 ——
可对 IQ允许误差大于 y的允许误差 ;
亮度增加时,视觉系统对量化误差的敏感度降低,人眼辨别能力与物体周围的背景亮度成反比,—— 在高亮度区,灰度值的量化可粗糙一些 ;
Digital Compression and Coding for Multimedia 3- 9
3.1.2 多媒体数据压缩的可能性
人眼的视觉系统能把图像的边缘和非边缘区域分开处理 —— 边缘区和非边缘区分别编码的依据 ;
人眼的视觉系统是把视网膜上的图像分解成若干个空间有向的视频通道后再进行处理 —— 编码时把图像分解成符合这一规律 (视觉内在特性 )的频率通道,可获大的压缩比 ;小波编码的特性,
6,图像区域的相同性冗余
图像中多个区域所对应的像素值相同或者相近,产生重复性存储 ;
向量量化 (Vector quantization)是针对这种冗余的压缩编码方法,
7,纹理的统计冗余
某些图像纹理在统计意义上服从某些分布规律 ;
利用分布规律减少图像数据量,
Digital Compression and Coding for Multimedia 3- 10
3.1.3 多媒体数据压缩编码方法
PCM
固定自适应自适应预测编码固定
DPCM
△ M
ADPCM
运动补偿变换编码傅立叶 (DFT)
离散余弦 (DIT)
离散正弦 (DST)
沃尔什 -哈达马哈 尔斜变换卡胡南 -苏夫
(K——L)
小波变换子带编码统计编码
(熵编码 )(无损 )
哈夫曼算术编码费 诺香 农游程 (RLC)
LZW
静图像编码方块逐渐浮现逐层内插位平面抖动电视图像编码帧内预测帧间编码运动估计运动补偿条件补充内 插帧间预测基于重要性矢量量化滤 波子 采 样模型编码分形编码混合编码
H.261
JPEG
MPEG
图 3-1 多媒体数据压缩编码方法
Digital Compression and Coding for Multimedia 3- 11
3.1.3 压缩编码方法 -PCM
1,脉码调制 PCM(Pulse Code Modulation)
连续模拟信号的数字采样表示 ;
Nyquist采样速率,c=2H·log2L(b/s)
Shannon公式,c=2H·log2(1+S/N)(b/s);
N级量化器,N=2b,每个采样用 b位代码表示 ;
PCM的编码 /解码器 (codec)是图像编码系统的起 /终点,
即 A/DC和 D/AC;
其他编码方法是在模拟信号经 PCM编码后的压缩编码方法,
Digital Compression and Coding for Multimedia 3- 12
3.1.3 压缩编码方法 -预测编码
2,预测编码
DPCM(differential pulse code modulation)和 ADPCM(自适应 DPCM)编码器存储和传输的是样本值与预测值之差 ——
预测误差编码 ;
预测值由欲编码信号的过去信息决定 ;
线性预测,比例系数由统计特性估计 ;
预测可在相邻像素值之间,也可以在行之间 ;
空间相关性使差值变化范围小于真值范围,用较少位数表示 ;
利用人的视觉特性对差值进行非均匀量化,从而提高压缩比 ;
对差值编码时进行了量化,这是一种有损编码,
Digital Compression and Coding for Multimedia 3- 13
3.1.3 压缩编码方法 -变换编码
3,变换编码
利用图像块内像素值之间的相关性,把图像变换到一组新的基上,使能量集中到少数几个变换系数上,通过存储这些系数达到压缩的目的,如时域
→ 频域 (声音、图像时低频信号 ).分布集中,进行采样编码,压缩数据 ;
把整幅图分成许多矩形子图独立进行变换,变换域采样和量化 ;
最优 -KTL(Karhunen-Loeve Transform):消除相关性最有效,计算量大,
无快速算法,在均方差最小意义下导出的最优变换,其基向量是输入向量协方差矩阵的特征向量 ;
次优 -DCT(Discrete Consine Transform):与 KTL类似,有快速算法,对固定 (像素 )块进行变换成 DCT系数,空间频率为 0的系数为直流分量,是所有像素的平均值,其余 63个系数为交流系数,多数情况下高频系数为 0或趋近于 0.变换时将输入信号和 DCT正交矩阵相乘完成 DCT变换
准最佳变换 -DFT(Discrete Fourier Transform):近似最佳,但是运算次数多,需要复数运算,保留 FFT在 DFT中取实数部分进行 DCT快速运算 ;
WHT(Walsh-Hadamard Transform);
Digital Compression and Coding for Multimedia 3- 14
3.1.3 压缩编码方法 -统计编码
4,统计编码
Huffman编码
出现频率大的符号用较少的位数表示,出现频率小的符号用较多位数表示 ;
编码效率取决于编码符号出现的概率分布,越集中压缩比越高 ;
各码字长度严格按照所对应符号出现概率的大小逆序排列,
算术编码
每一符号对应 [0,1)上一子区间,区间长度为该符号出现的频率,把编码的符号串 (数值串 )表示成实数 0到 1之间的一区间,初值为整个区间
[0,1),出现新的编码符号,先把完整的 [0,1)区间映射到上一次形成的区间,然后新区间取为 [0,1)上新符号对应区间所映成的像,
可方便使用自适应编码,根据当前接收的数据不断更改概率模型 ;不需要传送像哈夫曼编码的表 ;
信号源概率比较接近时,算术编码比哈夫曼编码效率高 ;
Digital Compression and Coding for Multimedia 3- 19
3.1.3 压缩编码方法 -统计编码
4,统计编码
游程编码 (RLC)
一维信号的分段常数逼近,编码器不断比较一维的相邻元素值的变化幅度,一旦发现有明显变化,设一个游程 ;
游程两种信息,游程起始位置和该游程对应的信号值 ;
信息记录方式,游程是连续的,游程的位置信息和信号值都有 2种记录方式 —— 差分方式,较高效率 ; 绝对值方式 ;
主要技术,检测重复的位或字符序列,用它们出现的次数取而代之 ;
方法,计算信源符号出现的游程长度,并将其转换成代码,
Digital Compression and Coding for Multimedia 3- 20
3.1.3 压缩编码方法 -分析合成编码
5,分析 -合成编码
(1)量化编码
标量量化,逐个量化,以较小的量化均方误差进行量化,在 JPEG、
H.261和 MPEG中采用的都是基于视觉特性的标量量化 ;
矢量量化,语义编码,采用非线性量化器,对频率和能量分布较大的的系数分配较多比特数,即采用较小的量化步长 ;反之分配较少的位,即采用较大的量化步长 ;
矢量量化优于标量量化,有效利用矢量中各分量间的 4种相关性
(线性依赖性、非线性以依赖、概率密度函数的形状和矢量维数 )
来去除冗余度,
矢量量化的基本过程,将实际数据流分成矢量块 ;在压缩编码和解码端都有一个称为,码本,的表,可以预定义也可以动态改造 ;各矢量可参考码本表选择最佳匹配模式 ;一旦找到最佳匹配模式就将码本中的对应的索引进行传送,
Digital Compression and Coding for Multimedia 3- 21
3.1.3 压缩编码方法 -分析合成编码
5,分析 -合成编码
(2)小波变换编码 (Wavelet Transform)
非均匀分辨率对数据进行时间频带局部分析与综合。
线性变换,有效的时频域分析工具,静态图像的压缩 ;
将信号分解成对空间和时间、频率的独立贡献,不失原信息 ;
小波系数的时宽 -带宽积很小,变换后能量集中,不同分量进行不同处理,有较高的压缩比 ;
图像的小波变换可以理解为图像信号经过一系列带通过滤波器的结果,这组滤波器在对数意义下具有相同的带宽,从小波变换后不同分层定位中,提取图像特征,低频部分平滑表示背景 ;高频部分不平稳表示细节,利用不同层次对恢复图像的贡献大小和对人眼视觉系统的影响的大小,采用不同的编码方法,可以达到图像压缩的目的,
Digital Compression and Coding for Multimedia 3- 22
3.1.3 压缩编码方法 -分析合成编码
5,分析 -合成编码
(3)分形图像编码 (Fractal)
模型编码,用模型方法对图像进行参数估测,具有压缩比高、解码高速、不受图像分辨率的影响等优点 ;
分形是某种形状、结构的局部或片断,它有多种尺寸,但形状相似,其局部和整体有相似性,即自相似性体系 ;
方法,数字图像经过处理 (如颜色分割、边缘检测、频谱分析、纹理分析等 )分成子图像,在分形集中查找这样的子图像,但分形集中存储的是迭代函数,经反复迭代可恢复子图像,表示迭代函数只需少量数据,达到很高的压缩比,
将数据预分解为若干分形子图并提取其迭代函数代码,恢复时由该代码按规范迭代重构各子图。
Digital Compression and Coding for Multimedia 3- 23
3.1.3 压缩编码方法 -分析合成编码
5,分析 -合成编码
(4)子带编码 (Subband Coding,SBC)
利用带通滤波器组把信号频带分割成若干子频带,然后分别处理,通过等效于单边带调幅的调制过程,将各子带搬移到零频率附近以得到低通表示后,以 Nyquist速率对各子带输出取样,并对取样值进行通常的数字编码 ;
如果设想在 SBC的每一个子带输出都用 DPCM编码器来编码,那么
SBC就在时间域 (或空间域 )的预测编码和频域 (或变换域 )的变换编码之间架起了一座连接的桥梁,联系参数就是子带数目 M.如果 M=1就是
DPCM全带编码 ;如果 M>1就是 SBC;当 M大到等于块内的样本数,即每一子带只由一个样本 (一根谱线 )组成时,SBC便成为变换编码 (DFT).从这个观点上看,预测编码和变换编码只不过是子带编码的两个特例,
Digital Compression and Coding for Multimedia 3- 24
3.2 多媒体数据压缩编码的国际标准国际标准,(视频 )
国际标准化组织 ISO和 CCITT(ITU-T)联合组成专家组
JPEG( Joint Photographic Experts Group)
JBIG( Joint Bilevel Image Group)
国际电子学委员会 IEC和 ISO组成的 ISO/IEC
MPEG( Motion Picture Experts Group)
国际电信联盟 (ITU-T):
H.261,G3,G4
Digital Compression and Coding for Multimedia 3- 25
3.2.1 静态图像压缩编码国际标准 -JPEG
JPEG-联合图像专家组,CCITT与 ISO联合组成专家组 ;
JPEG算法,连续色调,多级灰度,静态图像的数字图像压缩编码方法 (彩色、灰度、静止图像 )
应用,a.静态图像压缩 ;
b.电视图像序列的帧内图像压缩
目的,a.达到或接近当前压缩比与图像保真度的技术水平 ;
b.能适用于任何种类的连续色调的图像;长宽、内容、复杂度、统计特性时不受限的;
c.计算复杂性是可控制的,软件可完成,硬件实现算法,
Digital Compression and Coding for Multimedia 3- 26
3.2.1 静态图像压缩编码国际标准 -JPEG
操作方式,
a.顺序编码,上下、左右一次扫描完成编码 (每一图像分量 );
b.累进编码,多次扫描,由粗糙到清晰的累进过程 ;按频段累进,
按位累进;
c.无损编码,解码后精确恢复源图像采样值,压缩比低 ;
d.分层编码,原始图像空间分辨率进行变换,使水平与垂直方向分辨率以 2的倍数因子下降,
图像在多个空间分辨率进行编码,用 JPEG进行,在信道慢,接收显示分辨率不高时,只需做低分辨率图像解码,用插值方法恢复图像分辨率,把分辨率已升高的图像作为原图像的预测值,并把它与原图像的差值采用基于 DCT的编码,重复上述步骤,可以达到完整的分辨率编码,
Digital Compression and Coding for Multimedia 3- 27
3.2.1 静态图像压缩编码国际标准 -JPEG
1,JPEG的无损预测编码算法
图 3-1是 JPEG的无失真预测编码的框图,预测编码具有硬件实现容易、重建图像质量好的优点,在此采用的是可以完全恢复的技术,无损压缩不使用 DCT
方法,而是采用一个简单的预测器,预测器可以采用不同的预测方法,不同的预测方法将决定有那些相邻的像素将被用于预测下一个像素,常用的预测方法如三领域预测法,
JPEG的无失真预测编码对于中等复杂程度的彩色图像,可以达到大约 2:1的压缩比,
源图像数据 压缩的图像数据熵编码器预测器表说明图 3-2 JPEG无损预测编码框图
Digital Compression and Coding for Multimedia 3- 28
3.2.1 静态图像压缩编码国际标准 -JPEG
2,JPEG的基于 DCT的有损编码算法
8× 8DC
T正变换 量化器 熵编码器量化表 编码表块准备熵解码器编码表量化器量化表
8× 8DC
T逆变换恢复块源图像数据 编码器 压缩的图像数据 解码器 恢复的图像数据图 3-3 基于 DCT的有损 JPEG编解码过程样值 DCT系数 量化 DCT系数 量化 DCT系数 反量化 DCT系数
Digital Compression and Coding for Multimedia 3- 29
① 离散余弦变换 DCT:8× 8大小子块的二维 DCT
块准备将一帧图像分成 8× 8的数据块 (三种分量,光亮度 Y和两个色差 U和 V,图像大小为 480行,每一行有 640个像素,色度分解为 4:1:1,则亮度分量就是一个 640× 480的数值矩阵,色差分量是一个 320× 240的矩阵,为了满足 DCT过程的要求,块准备必须划分出 4800个亮度块和两分 1200个色差块共 7200个数据块 );
采样精度为 p位无符号整数,采样数据在 [0,2p-1]内,则变成在 [-
2p-1,2p-1-1] 有符号整数内,以此作为 DCT正变换的输入 ;FDCT
解码器输出端经 IDCT逆变换后等到一系列 8× 8的图像数据块,需将其数值范围由 [-2p-1,2p-1-1]有符号整数变回到 [0,2p-1]
无符号整数范围内,才能获得重构图像,
Digital Compression and Coding for Multimedia 3- 30
3.2.1 静态图像压缩编码国际标准 -JPEG
二维 8× 8DCT正变换,
二维 8× 8DCT逆变换,
其中,C(u)=C(v)=,当 u,v=0
C(u)=C(v)=1,其他
② FDCT具有可分离的变换特性,
行向一维 DCT计算列向一维 DCT计算
2维快速余弦变换 (2-FDCT)
把 8× 8块不断快速分成更小的无交迭子块,直接对数据块进行运算,
组合运算
]16 )12(c o s16 )12(c o s),()[()(41),(
7
0
7
0
vyuxyxfvCuCvuF
x y
]16 )12(c o s16 )12(c o s),()()([41),(
7
0
7
0
vyuxvuFvCuCyxf
u v
21
Digital Compression and Coding for Multimedia 3- 31
3.2.1 静态图像压缩编码国际标准 -JPEG
③ 量化
对 DCT系数 F(u,v)进行量化处理 —— 压缩数据 ;
量化是多对一的映射 —— DCT编解码信息损失的根源 ;
JPEG采用线性均匀量化器 ;
64个 DCT系数除以量化步长,四舍五入取整,
FQ(u,v)=Integer { Round [ F(u,v) / Q(u,v) ] }
量化表量化器步长 Q(u,v)是量化表元素,随 DCT系数的位置和彩色分量的不同有不同的值,量化表的大小是 8× 8与 64个变换系数一一对应,
用户规定,JPEG给了参考值;元素值为 1~255之间任意整数,变换系数与量化表元素一起作为编码器的输入,
Digital Compression and Coding for Multimedia 3- 32
3.2.1 静态图像压缩编码国际标准 -JPEG
逆量化逆量化表达式为,FQ’(u,v)= FQ(u,v)Q(u,v)
量化作用在一定的主观保真度图像质量前提下丢掉对视觉影响不大的数据 ;
不同频率的余弦函数对视觉影响不同,可根据不同频率的视觉阈值选择量化表的元素大小 ;JPEG已作此工作。
根据心理视觉加权函数可得出亮度、色度分量量化矩阵 ;
亮度量化表 (8× 8),色度量化表 (8× 8),JPEG给出了参考值 ;
DCT变换系数 F(u,v)除以表中对应量化步长,幅值下降,高频系数零值数目增加,
Digital Compression and Coding for Multimedia 3- 33
3.2.1 静态图像压缩编码国际标准 -JPEG
④ DC系数编码和 AC系数的游程编码
DC系数编码
坐标 u=v=0的 DC系数是直流分量,是 64个空域图像采样值的平均值,
其余 63个均为 AC分量,量化后通常出现较多的零值 ;
相邻 8× 8块之间 DC系数有较强的相关性 ;
JPEG中 DC系数采用差分脉冲 DPCM,差值 DIFF=DCj-DCj-1编码块 j-1 块 j
…… ……
DCj-1 DCj
图 3-4 DC系数差分编码
Digital Compression and Coding for Multimedia 3- 34
3.2.1 静态图像压缩编码国际标准 -JPEG
AC系数编码
从 AC01开始,沿对角线方向,以” Z”字形游程扫描至 AC77结束,可增加游程中连续 0的个数,非零值系数集中在前部,零值在尾部 ;
量化后的 AC系数会有许多零值 ;
63个 AC系数游程编码的码字由 2个字节表示,
Byte1,7 6 5 4 3 2 1 0
N N N N S S S S
2个非零值间连 下一个非零值续 0的个数 要的比特数
Byte2,下一个非零值的实际值图 3-5,Z”字形排列
Digital Compression and Coding for Multimedia 3- 35
3.2.1 静态图像压缩编码国际标准 -JPEG
⑤ 熵编码
对 DC码和 AC游程编码的码字作基于统计特性的熵编码 ;
JPEG建议的两种方法,哈夫曼编码 和自适应二进制算术编码 ;
熵编码分两步,
DC码 /AC码 → 中间符号序列 → 赋以变长码字
(1)熵编码的中间格式符号 1 (游程、尺寸 ) 游程指连续 0个数 /尺寸指 AC系数幅值编码的比特数 ;
符号 2 (幅值 ) [-210,210-1]
符号 1 (尺寸 ) 高 4位为 0,DC差值的幅值编码所需的比特数 ;
符号 2 (幅值 ) DC差值的幅值,范围 [-211,211-1]
AC
DC
Digital Compression and Coding for Multimedia 3- 36
3.2.1 静态图像压缩编码国际标准 -JPEG
(2)可变长度熵编码
将系数表示成符号 1和符号 2的序列,对其进行编码,零游程长度超过 15,有多个符号 1,块结束 (EOB)用符号 1(0,0)表示 ;
DC和 AC系数中符号 1用哈夫曼表中变长码 VLC编码,哈夫曼变长码表作为 JPEG编码器的输入,但数据流中哈夫曼表的表示格式是间接说明,在解码时利用这间接说明重构真正的哈夫曼表,
符号 2用的码字长度,用变长整数 VLI码编码,VLI的码字固化在 JPEG中,VLI是变长码但不是哈夫曼码,VLI的长度存放在 VLC中,
Digital Compression and Coding for Multimedia 3- 37
3.2.1 静态图像压缩编码国际标准 -JPEG
基本 Huffman编码符号 1的结构表
交流系数 AC的亮度分量典型的 Huffman表
RunLength Size
0 EOB
,×
,×
,×
15 ZRL
1 2 3 4 5 6 7 8 9
Run.Size
Values
游程 /尺寸 码长 码字
0/0(EOB) 4 1010
0/1 2 00
0/2 2 01
0/3…0/A 3 100,…
1/1,1/2…1/A,2/1…2/A 5 11011,…
3/1…3/A,4/1…4/A,5/1…5/A 6 111010,…
6/1…7/1,8/1…9/1,E/1…E/A 7 1111011,…
F/0(ZRL)…F/A 11 11111111001,…
Digital Compression and Coding for Multimedia 3- 38
3.2.1 静态图像压缩编码国际标准 -JPEG
基本熵编码符号 2结构 亮度 DC系数表
Size Amplitude 分类 码长 码字
0 2 00
1 -1,1 1 3 010
2 -3,-2,2,3 2 3 011
3 -7… -4,4…7 3 3 100
4 -15… -8,8…15 4 3 101
5 -31… -16,16…31 5 3 110
6 -63… -32,32…63 6 4 1110
7 -127… -64,64…127 7 5 11110
8 -255… -128,128…255 8 6 111110
9 -511… -256,256…511 9 7 1111110
10 -1023… -512,512…1023 10 8 11111110
11 -2047… -1024,1024…2047 11 9 111111110
Digital Compression and Coding for Multimedia 3- 39
3.2.1 静态图像压缩编码国际标准 -JPEG
色度 DC系数表
Size Amplitude 分类 码长 码字
1 0 2 00
1 2 01
2 2 2 10
3 3 3 110
4 4 4 1110
5 5 5 11110
6 6 6 111110
7 7 7 1111110
8 8 8 11111110
9 9 9 111111110
10 10 10 1111111110
11 11 11 11111111110
Digital Compression and Coding for Multimedia 3- 40
3.2.1 静态图像压缩编码国际标准 -JPEG
⑥ 压缩比和图像质量
基于 DCT的 JPEG压缩算法,对中等复杂程度的彩色图像压缩比与恢复图像的质量列表,
⑦ 亮度子块 JPEG编码示例亮度子块按” Z”序列排列的系数,
K,0 1 2 3 4 5 6 7 8 9~30 31 32~63
系数,12 5 -2 0 2 0 0 0 1 0 -1 0
压缩效果 (比特 /像素 ) 质量
0.25~0.50 中 ~好,满足某些应用
0.50~0.75 好 ~很好,满足多数应用
0.75~1.50 极好,满足大多数应用
1.50~2.00 与原始图像分别不出来
Digital Compression and Coding for Multimedia 3- 41
3.2.1 静态图像压缩编码国际标准 -JPEG
DC系数 12在 (- 15---- 8,8----15)范围内,查表 Size=4,分类 4再查表,码字长 3,码字为 101.12>0,4位附加位 1100,ZZ(0)=12的编码为 1011100;
ZZ(1)=5,与 ZZ(0)之无 0系数,NNNN=0;系数 5在 (- 7---- 4,4---7)范围,查表
Size=3,SSSS=3,NNNN/SSSS=0/3 哈夫曼码查表亮度 AC系数编码为
100,
ZZ(1)=5的编码为 100101;
ZZ(2)=- 2,在 (- 3,- 2,2,3)范围,NNNN/SSSS=0/2,查表为” 01”,ZZ(2)-
1=-3,其码字低位二进制为 01,ZZ(2)=-2,编码为 0101;
ZZ(k)中非零值的实际值的编码规则如下,
若 ZZ(k)>0,附加位为 ZZ(k)的最低 B位 ;
若 ZZ(k)<0,附加位为 ZZ(k) - 1的最低 B位 ;
非零值排除了” 0”,ZZ(k)-1不可能为 -1,所以 -2为” 0”,-3为” 01”
Digital Compression and Coding for Multimedia 3- 42
3.2.1 静态图像压缩编码国际标准 -JPEG
ZZ(3)=0,ZZ(4)=2,NNNN/SSSS=1/2,查表为 11011,ZZ(3)~ZZ(4)的编码为
1101110;
ZZ(5)~ZZ(7)=0,ZZ(8)=1(-1,1),NNNN/SSSS=3/1,查表为
111010,ZZ(5)~ZZ(8)的编码为 1110101;
ZZ(9)~ZZ(30)=0,ZZ(31)=-1(-1,1),NNNN=30-9+1=22>15,选择 F/0,码字为 11111111001,NNNN=22-16=6<15,NNNN/SSSS=6/1,查表为 1111011,
而
-1-1=-2的编码为” 0”,ZZ(9)~ZZ(31)编码为 11111111001+11110110;
ZZ(32)~ZZ(63)=0,ZZ(63)=0,直接用” EOB(0/0)”结束本块,其编码为 1010.
子块编码位流,
1011100+100101+0101+1101110+1110101+11111111001+11110110
+1010 共 54bits;
原始图像子块,8× 8× 8=512bits
压缩比 512:54=9.48:1
Digital Compression and Coding for Multimedia 3- 43
3.2.1 静态图像压缩编码国际标准 -JPEG
⑧ JPEG2000-ISO15444
新一代彩色静态图像编码方式,1998开始,2000.3算法确定 ;2000.12标准出台,内容主要包括以下 6个部分,
JPEG2000图像编码系统 (核心部分 );
应用扩展 (在核心上扩展更多特性 );
运动 JPEG2000;
兼容性 (包容性和继承性 );
参考软件 (目前主要为 Java和 C程序 );
复合图像文件格式 (如传真式服务等 ).
Digital Compression and Coding for Multimedia 3- 44
静态图像编码 JPEG2000(一 )
JPEG2000的算法
JPEG:DCT算法为主的区块编码方式 (经典谱分析工具 );
考察整个时域过程的频域特征或整个频域过程的时域特征,对于非平稳过程,效率不高,
JPEG2000:DWT(Discrete Wavelet Transform,现代谱分析工具 )
对于时域或频域的考察都采用局部方式,子波在信号分析中对高频成分采用由粗到细渐进的时空域上的取样间隔,象自动调焦一样,并放大任意细节,是构造图像多分辨率的有力工具 ;对于非平稳过程十分有效,
对彩色静态画面采用 JPEG;
对 2值图像采用 JBIG(Joint Binary Image Group)编码 ;
低压缩率采用 JPEGLS编码 ;
Digital Compression and Coding for Multimedia 3- 45
静态图像编码 JPEG2000(二 )
JPEG2000的特点
高压缩率,比 JPEG高 20%-40%;压缩后图像细腻平滑 ;下载快,等待时间少,比
JPEG快 30%;
无损压缩,预测法引进继承,既支持无损压缩,也可支持有损压缩 ;
渐进传输,JPEG是按块传输下载,只能逐行显示 ;
JPEG2000渐进传输,先轮廓数据后逐步加入像素 ;
感兴趣区域压缩,
ROI (Region of Interest );
子波在空域和频域上有局域性 ;
兴趣区域用低压缩比获得好图像效果 ;
交互式压缩
色彩模式,JPEG:RGB;
JPEG2000:256个通道信息,可用单一文件格式来描述另一色彩模式如 CMYK模式 ;ICC,sRGB等
图像处理简单,基于 web方式多用途图像简单化,用户可以自由地缩放、平移、剪切,使用户能得到他们所需要的分辨率和细节,
为 JPEG文件加密版权信息,加密版权在图像处理过程中不损失,比水印技术更先进,
JPEG2000考虑了人的视觉特性,增加了视觉权重和掩模,在不损害视觉效果情况下可大大提高压缩比率,
Digital Compression and Coding for Multimedia 3- 46
3.2.2 运动图像压缩编码国际标准 -MPEG
ISO/IEC的 MPEG(运动图像专家组 )1988,1990提出 MPEG标准草案 ;
1991年底,ISO/IEC 11172号建议,数字存储媒体的位率约 1.5Mbps的运动图像及其伴音的压缩编码方案 ;
1992年,正式通过 11172号建议,成为 MPEG-1:1.5Mbps,TV质量,亮度分辨率
360x240,色度分辨率 180x120,30F/s;
1993.11,汉城会议 (ISO/IECJTIC/SC29/WG11)
ISO/IEC 13813号建议成为 MPEG-2;
1995.11~1998.11 MPEG-4;
1998.11~2000.11 MPEG-7;
MPEG-11 多媒体框架 (Multimedia Framework),将标准集成起来支持和谐的技术,以管理多媒体商务,
Digital Compression and Coding for Multimedia 3- 47
3.2.2 MPEG-1标准 (一 )
1,MPEG-1
运动图像的数据压缩技术,
帧内压缩和帧间压缩 ;
帧内图像数据压缩,减少空域冗余信息 ;
算法与 JPEG算法大致相同,DCT变换编码技术 ;
帧间图像数据压缩,减少时间轴方向的冗余信息,16× 16
子块的运动补偿算法,
运动补偿预测法,因果预测器运动补偿插补法,非因果预测器
(预测误差都经 DCT编码,进一步减少数据量 )
Digital Compression and Coding for Multimedia 3- 48
3.2.2 MPEG-1标准 (二 )
(1)时域冗余量减少
MPEG要求对 V(Video)信号做随机存取,对帧间运动补偿压缩数据位 ;
MPEG的三类图像,
帧内图 (Intrapictures,I):随机存取的位置,压缩比不大 ;
预测帧 (Predetected pictures,P):用先前帧,I或 P,本身参考预测 ;
插补帧即双向预测 (Bidirectional Prediction Pictures,B):压缩效果显著,
预测时,需要先前和后续的信息,B不能作其他帧的预测参考帧,
典型的三种帧序列,
IBBBPBBBI;IBBPBBPBBI(PAL&SECAM);IBBPBBPBBPBBI(NTSC)
1 2 3 4 5 6 7 8 1
I B B B P B B B I
双向预测前向预测图 3-6 典型的帧序列
Digital Compression and Coding for Multimedia 3- 49
3.2.2 MPEG-1标准 (三 )
(1)时域冗余量减少 —— 宏块运动补偿方法
减少帧序列冗余信息 (时域 ),采用 16× 16宏块的运动补偿 ;
基于 16× 16宏块的算法,每个宏块作为一个 2维运动矢量处理,宏块作为预测单元,当前宏块是先前宏块的位移,位移内容包括运动方向和运动幅度,
利用位移信息和先前的图像,可预测当前图像,16× 16的运动矢量块是预测误差,要编码,传送,供解码的恢复图像用 ;只对预测误差作有条件的传送 ;
运动补偿有因果预测和非因果预测 (双向预测编码、插补编码 );
运动补偿插补编码,基于时间轴上的多分辨率技术,可以以 1/10s或者
1/15s的时间间隔取出参考子图,然后对两个参考子图之间的图像,按运动规律得到 1/30s时间间隔的各个插补子图 ;
对时间轴 (帧序列 )方向低分辨率的子信号进行编码 ;
对 10F/S或 15F/S低分辨率图像编码,作图像插值和附加运动校正,把校正信息加到前向和后向参考图像组合成高分辨率的图像信号 30F/S;
Digital Compression and Coding for Multimedia 3- 50
3.2.2 MPEG-1标准 (四 )
电视图像帧序列
参考帧,I,P;B不能作参考帧 ;
插补帧,B;B的频度可选,B增加会减少 B与参考帧的相关性 ;
B与编码图像景物的依赖性,参考帧以 0.1s间隔
视频帧图序列例子,
帧编码器输出帧图顺序、帧解码器输人帧图顺序、帧图传输顺序帧编码器输入帧图顺序帧解码器输出帧图顺序视频序列帧图显示顺序
(2)运动表示
(3)运动估算
I P B B P B B P B B P B B I B B P B B P B B P B B P B B I B B
1 3 4 2 6 7 5 9 10 8 121311 151614181917212220242523272826303129
I B B P B B P B B P B B P B B I B B P B B P B B P B B P B B I
1 2 3 4 5 6 7 8 9 1011 1213141516171819202122232425262728293031
Digital Compression and Coding for Multimedia 3- 51
3.2.2 MPEG-1标准 (五 )
(2)空域冗余量减少
帧内图像与预测图像误差有很高的空域冗余信息 ;
优先采用基于块的技术,
(i)变换编码,DCT、视觉加权标量量化、游程编码和熵编码 ;
(ii)矢量量化编码,静止图像采用等宽量化,而对运动信息量化器设计需作特殊考虑 ;
DCT变换编码 —— 三个阶段,
DCT;
变换系数量化 (量化,Z字扫描,游程编码 )使大部分数据得以压缩,
要求通过量化器,编码器使之输出一个与信道传输速率匹配的比特流 ;
熵编码 ;
Digital Compression and Coding for Multimedia 3- 52
3.2.2 MPEG-1标准 (六 )
MPEG中,不仅帧内使用 DCT,且对帧间预测误差也作 DCT进一步压缩,
① DCT
8× 8块的图像采样数据预测误差数据
② DCT系数量化
量化器结合游程编码压缩数据和与给定位速率匹配 ;
自适应量化,JPEG帧内图的 DCT编码 ;H.261(CCITT)宏块预测误差的
DCT编码,达到视觉质量的关键手段之一,
a.视觉加权量化量化误差的主观感觉随 DCT系数的频率有很大变化,可对高频系数作比较粗的处理 ;精确的量化矩阵依赖许多外部参数,图像显示特性,观察距离,原图噪声数量,对某种应用或单独序列设计专用量化矩阵是合理的,并可与编码环境和压缩数据一起存储,
离散余弦正交变换
64个变换系数
Digital Compression and Coding for Multimedia 3- 53
3.2.2 MPEG-1标准 (七 )
b.帧内块与非帧内块量化的比较,
帧内块量化器 — 量化细 ;固定步长,没有死区 (量化为 0的区域比步长小 )
帧外块量化器 — 量化粗 ;固定步长,有死区 (量化为 0的区域比步长大 )
c.可调量化器适应块之间信号的不均匀性,可在块与块的量化上对量化器步长调节,
也可对特定的位率进行自适应调整 (速率控制 );
信号变化梯度平稳的块,小误差人眼会感觉到块的边界 (块效应或假轮廓 );
信号变化剧烈的子块,视觉对误差的敏感觉察被掩盖 ;
③ 熵编码对 DCT系数,使用一个类似哈夫曼的表,对相对于数对 (游程,幅值 )的符号进行编码,采用变长码编码,为了避免出现太长的符号,使用一个编码符后面跟随一个固定长度的码字,
Digital Compression and Coding for Multimedia 3- 54
3.2.2 MPEG-1标准 (八 )
(1)MPEG分层结构、语法和位流
① 目的
MPEG视频流是分层结构,把位流中逻辑上独立的实体分开,分层要求支持以下特性:
通用性,MPEG语法规定可满足不同的应用需求,随机存放,可编辑性 (对硬盘 上的视频信号编码单元是一组图 );
灵活性,视频序列头标定义的参数说明,
MPEG标准定义位率,1.5Mbps,分辨率 360像素 /行,更高也支持 ;
有效性,要对附加信息 (如,位移域、量化器步长、预测器或插值类型等 )提供有效的管理,
② MPEG位流语法分层
6层,每层支持一个确定的函数,或是信号处理函数 (DCT,运动补偿 ),或是逻辑函数 (同步,随机存放点 ):
MPEG视频位流语法的 6个层次,
层次名称 功能图像序列层 (Sequence layer) 随机存取单元,上下文图像组层 (Group of picture) 随机存取单元,视频编码图像层 (Picture layer) 基本编码单元宏块片层 (Slice layer) 重同步单元宏块层 (Macroblock layer) 运动补偿单元块层 (Block layer) DCT单元
Digital Compression and Coding for Multimedia 3- 55
3.2.2 MPEG-1标准 (九 )
③ 位流
MPEG位流,符合 MPEG语法的二进制数字序列,满足用一个合适大小的缓冲区进行解码的要求 ;
视频缓冲区校验器,对位流进行解码所必需的最小的缓冲区的尺寸,是解码的抽象模型,不让解码过程中出现下溢或上溢现象,也是接收编码位流模型和瞬时解码器 (一帧图像的数据可瞬时移出 );
MPEG定义解码过程 (非解码器 ):
⊕
缓冲区 (MUX)-1 Q-1
量化器步长
IDCT
重建波形
⊕
位流分解为附加信息,
运动矢量 ;
量化器步长 ;
宏块模型 ;
量化 DCT系数宏块模型量化的 DCT系数被量化运动矢量参考图参考图图 3-7 MPEG交叉解码过程图
Digital Compression and Coding for Multimedia 3- 56
3.2.2 MPEG-1标准 (十 )
MPEG视频压缩算法
0.5bit/pixel~1bit/pixel,位率为 1.2Mbps,VHS质量 ;
高压缩比和实时性 (压缩与解压可不对称 );
压缩编码,大型机、软件方法、一次完成 ;非实时、光盘作为存储介质解压缩,桌面系统,硬件解压卡或解码器,实时,多次重复,
MPEG-1:亮度信号分辨率为 360× 240,色度信号分辨率为
180× 120,每秒 30帧 ;
MPEG-2:亮度信号分辨率为 720× 572;
扩展模式 (作为 HDTV压缩编码 ):亮度信号分辨率为 1440× 1152.
Digital Compression and Coding for Multimedia 3- 57
3.2.2 MPEG-2标准 (一 )
(1) 简介视频压缩,音频压缩及多种压缩数据流的复合和同步问题,
MPEG-1:1.5Mbps,360× 240(亮度 );180× 120(色度 ),30F/s;
MPEG-2:运动图像及其伴音的通用压缩技术标准,解决多媒体技术、数字电视技术、多媒体分辨率与传输率
(2) MPEG-2系统
1个或多个音频、视频或其他基本数据流合成为多个数据流,便于存储和传送,它可在很宽的恢复和接收条件下同步解码 ;
5项基本功能,
a.解码时多压缩流的同步 ; b.多个压缩流交织成单个数据流 ;
c.解码时缓冲器初始化 ; d.缓冲区管理 ; e.时间识别
压缩编码系统,将视频和音频编码算法结合开发,有两种方法,其编码输出包括传送流和程序流两种定义流,
MPEG-1 MPEG-2
MPEG系统 ISO/IEC 11172-1 ISO/IEC 13813-1
MPEG视频 ISO/IEC 11172-2 ISO/IEC 13813-2
MPEG音频 ISO/IEC 11172-3 ISO/IEC 13813-3
测试和验证 ISO/IEC 11172-4
Digital Compression and Coding for Multimedia 3- 58
3.2.2 MPEG-2标准 (二 )
(3) MPEG-2视频 (ISO/IEC 13813-2)
数字存储媒体和数字视频通信中图像信息的编码描述和解码过程,主要应用于数字存储媒体,视频广播与通信 ;
存储媒体直接与 MPEG-2解码器相连,或通过 BUS,LAN通信线路连接 ;
固定 /可变比特率,随机访问,信道跨越,分级解码,位流编辑 ;
特殊功能,快进播放,快速播放,慢动作,暂停和画面凝固等,
MPEG-2视频的特色,
① 框架和级别,MPEG-2规范的语法与语义的子集的手段 ;
框架,MPEG-2中定义的语法的子集,包含 1个或多个级别 ;
Digital Compression and Coding for Multimedia 3- 59
---------------------------
3.2.2 MPEG-2标准 (三 )
② MPEG-2视频压缩编码的数据结构视频压缩编码的数据结构是分层的比特流数据,第一层为基本层,基本层可以独立解码,其他层为增强层,增强层的解码依赖基本层,
基本层的结构与 MPEG-1 ISO/IEC 11172-2相一致,由视频序列层、图像组块层、宏块层和块层 (基本层 )组成视频数据结果的编码比特流,
级别,MPEG-2规范中一个特定框架中参数取值的集合,是一个对比特流各参数进行限定的集合,
如比特率等级,帧宽 × 帧高 × 帧率 (水平像素 × 垂直像素 × 帧 /S)
低 级,352× 288× 29.79;
基本级,720× 480× 29.79/720× 480× 25
次高级,1440× 1080× 30/1440× 1080× 25
高 级,1920× 1080× 30/1920× 1080× 25
框架与级别的作用解码器的设计和解码校验在限定的框架和限定级别中进行,使不同应用领域之间的数据交换提供方便和可行,
Digital Compression and Coding for Multimedia 3- 60
3.2.2 MPEG-2标准 (四 )
视频序列层,最高层视频序列头,序列头函数 (与 ISO/IEC 11172-2一致 );
序列扩展函数 (只用于 ISO/IEC 13813-2);
编码扫描方式,逐行 /隔行,帧图 /场图,
帧类型,I:自身帧编码,解决随机访问,重播,快进,块退 ;
P:先前的 I或 P帧预测编码帧 ;
B:先前的 I或 P帧双向预测编码 ;
D:变换系数的直流分量 DC,代表能量分布,
重复序列头可出现在 I,P帧头,不能在 B帧之前,提供随机访问功能,I帧用于解决视频序列的随机访问,重播、快进、快退等问题,
图像组块层,宏块组成,一个组块可由多个宏块组成 ;
宏块层,宏块格式有以下三种,
Digital Compression and Coding for Multimedia 3- 61
3.2.2 MPEG-2标准 (五 )
4:2:0格式,一个宏块由 6个块组成,其中包括 4个亮度块 (Y),2个色差块 (Cb块和
Cr块 ),其排列顺序如图 3-8所示 ;
4:2:2格式,一个宏块由 8个块组成,其中包括 4个亮度块 (Y),4个色差块 (2个 Cb块和 2个 Cr块 ),其排列顺序如图 3-9所示 ;
4:4:4格式,一个宏块由 12个块组成,其中包括 4个亮度块 (Y),8个色差块 (4个 Cb
块和 4个 Cr块 ),其排列顺序如图 3-10所示 ;
0 1
2 3
4 5
Y Cb Cr
图 3-8 4:2:0宏块结构
0 1
2 3
4
6
5
7
Y Cb Cr
图 3-9 4:2:2宏块结构
0 1
2 3
5 9
7 11
4 8
6 10
图 3-10 4:2:2宏块结构
Y Cb Cr
Digital Compression and Coding for Multimedia 3- 62
3.2.2 MPEG-2标准 (六 )
对帧图使用 DCT编码的宏块结构和场图使用 DCT编码的宏块结构是不一样的,帧 DCT编码中,每个场由两场扫描行交替组成,场 DCT编码中,每个场仅由两场中之一的场扫描行组成,
块层,
组成宏块的块是 DCT变换的最基本单元,块尺寸为 8× 8(以图像像素为单位 ).每个像素携带有亮度信息 Y和色差信息 Cb和 Cr.
③ 视频比特流的语义规则
MPEG2 ISO/IEC13813-2,对视频比特流的语义规则做了具体规定,制定了更高层语法结构的语义规范 ;不带扩展功能的数据流与 ISO/IEC11172-2规范一致,
扩展功能,序列扩展函数和图像编码扩展函数,
Digital Compression and Coding for Multimedia 3- 63
3.2.2 MPEG-2标准 (七 )
④ 视频解码过程,
MPEG-2视频解码器所完成的视频解码过程是将符合 MPEG-2视频标准的比特流恢复为图像数据的过程,有许多 MPEG-2视频解码器芯片级产品,
编码数据变长码解码 反扫描 反量化 IDCT
运动补偿帧存储器
QFS[n] QF[u][v] F[u][v] f[x][y] d[x][y]
图 3-11 视频解码过程图解码的像素
Digital Compression and Coding for Multimedia 3- 64
3.2.3 MPEG-4标准 (一 )
(1)引言
① MPEG-4是基于内容的压缩编码方法,
内容切换,场景、物体 …… MPEG -1/2:矩形 /方块形物体从场景中截取、编码 无法提取感兴趣的对象子块尺寸,开头取决于物体形状与尺寸 固定尺寸、固定开头子块内容信息相关性强,高压缩比 不会有满意的压缩比
② 基于内容分级扩展,
空域分级 /时域分级 /基于内容的交互 —— 操作、编辑、访问等,
③ 基于内容方式表示的视频数据
VO (Video object) VOP (Video Object Plane)
低要求应用 VO:矩形帧,即 JPEG-1,H.263中矩形帧 ;
高要求应用 VO:场景中某一物体 /层面,二维三维图像 ;
VO有三类信息描述、三类信息的编码技术,
—— 运动信息、形状信息、纹理信息
Digital Compression and Coding for Multimedia 3- 65
3.2.3 MPEG-4标准 (二 )
④ 基于内容的视频编码过程
VO形成,先从原始视频流中分割出 VO;
编码,对各个 VO分别独立编码,即对不同 VO的运动信息、形状信息和纹理信息这三类信息分别编码、分配不同的码字 ;
复合,将各个 VO的码流复合成一个符合 MPEG-4标准的位流 ;
编码和复合阶段可加入用户的交互控制或智能化算法、控制标准,提供了灵活的框架和开放的工具集,句法描述语言 MSDL与工具集的不同组合,支持功能的不同组合,
(2) 基于 VOP (Video Object Plane)的编码
VO是场景中某一 (物体 )对象,由时间上连续的帧画面序列组成 ;
VOP是某一时刻某一帧画面 VO;
VOP编码,对某一时刻该帧画面 VO的形状、运动、纹理信息编码,
Digital Compression and Coding for Multimedia 3- 66
3.2.3 MPEG-4标准 (三 )
① 形状编码,
VOP表示,二值图 (0,1):
0:非 VOP区域 (背景 );
1:VOP区域灰度图 (0~255)灰度分层,
0:非 VOP区域 ;
1~255:灰度图表示形状边界轮廓比二值图柔和
编码方法,位图法、梯度图 ……
VOP用边框框住 ;边框长宽均为 16的整数倍,保证边框最小位图是边框矩阵,矩阵元素为 0~255(或 0,1);
矩阵被分割成 16× 16的形状块,边界信息包含在块中,
可用梯度图表示 ;
其他基于几何轮廓的编码技术,
边框形状块
VOP
Digital Compression and Coding for Multimedia 3- 67
3.2.3 MPEG-4标准 (四 )
② 运动估计和运动补偿,
同 MPEG-1,H.263等一样 ;
三种帧格式,表示运动补偿类型不同,
I-VOP 帧内图
P-VOP 预测图
V-VOP双向预测图
边框分成 16× 16的宏块,宏块由 8× 8的块构成 ;
运动估计和运动补偿可以基于宏块,也可以基于块 ;
采用技术,
H.263:半像素搜索技术 (Half pixel searching);重迭补偿技术 (Over
lapped motion compensation);
适用任意形状的 VOP区域,重复填充 (Repetitive Padding);修改的块匹配 (Modified Block Matching)
t
I-VOP
B-VOP P-VOP
Digital Compression and Coding for Multimedia 3- 68
3.2.3 MPEG-4标准 (五 )
③ 纹理编码,
纹理信息,
帧内编码的 I-VOP像素值 ;
帧间编码的 P-VOP,B-VOP的运动估计残差值 ;
VOP边框被分成 16× 16的宏块 ;
宏块由 8× 8的块组成,
DCT变换是基于 8× 8:
VOP外、边框内的块,不编码 ;
VOP内的块,DCT编码 ;
部分 VOP内、部分 VOP外的块,用”重复填充”方法填充 VOP外部分
(对于残差块只需填零 )再由 DCT编码 ;
对 DCT系数再进行量化,Z扫描、游程及 Huffman编码,
VOP 部分在 VOP内、部分在 VOP外的宏块
VOP内的宏块 VOP外的宏块
Digital Compression and Coding for Multimedia 3- 69
3.2.3 MPEG-4标准 (六 )
④ 分级 (数据 )扩展编码
视频序列
MPEG-4利用 VOL结构进行空域分级和时域分级的扩展,至少两个 VOL,一个基本层,一个增强层,
空域分级,用增强层来增加基本层的空域分辨率 ;
时域分级,用增强层来增加基本层中感兴趣区域的时域分辨率,
视频段 VS序列层视频对象 VO序列层视频对象层 VOL序列层视频对象平面 VOP序列层
VS0 VS1 ……
VO0 VO1 ……
VOL0 VOL1 … 基本层、增强层每层表示一 种分辨率
VOP0 VOP1 VOP0 VOP1 … 时间上的连续
Digital Compression and Coding for Multimedia 3- 70
3.2.3 MPEG-4标准 (七 )
(3) MPEG-4标准功能和压缩率
①基于内容的交互性
a.基于内容的多媒体数据访问工具
通过工具提供基于 AV内容的数据访问,
索引、超链接、查询、浏览、上载、下载、删除等
从在线的程序库和传输信息的数据库中进行基于内容的检索,
b.基于内容的处理和比特流编辑
MPEG-4句法描述语言和编码模式,支持基于内容的处理和比特流编辑,无需代码转换,MSDL是有高度灵活性和可扩展性的 ;
交互式家庭购物、家庭影院的制作和编辑、符号语言编译或标题的嵌入、数字特技。
Digital Compression and Coding for Multimedia 3- 71
3.2.3 MPEG-4标准 (八 )
c.混合自然和人工数据编码
人工画面 /对象与自然画面 /对象的组合 (为文本与图形覆盖 ),对自然和人工音频和视频数据进行编码和处理的能力 ;
解码器可控制方法,人工数据与原始 AV组合,便于交互,
游戏节目中动画与合成音响、自然 AV组合;观众可移动和传送覆盖在要查看的视频之上的图形,从不同的观察点描绘图形和声音,
d.改进的时间随机访问
在有限时间内,以较高的分辨率、随机访问视听序列的部分内容 (为帧或对象 ),包括甚低比特率的常规随机访问 ;
从远程终端通过有限容量的媒体随机访问 AV数据,在单一的 AV对象上进行”快进”,
Digital Compression and Coding for Multimedia 3- 72
3.2.3 MPEG-4标准 (九 )
② 压缩率
a.改进的编码效率
对 MPEG-4的特定应用,将提供类似比特率的较好的 AV质量 ;
低带宽信道上有效传送 AV数据 ;
在有限容量媒体上有效存储 AV数据,如磁盘
b.多重并行数据流的编码,
MPEG-4提供对画面的多视图 /声音进行有效编码的能力,在产生的基本流之间提供足够的同步信息。对立体声视频应用,MPEG-4将包括在相同画面的多视图或听点中冗余的能力 ;
多媒体表演、虚拟现实游戏、三维动画 ;
多媒体演示和教育,
Digital Compression and Coding for Multimedia 3- 73
3.2.4 MPEG-7标准
MPEG-7新一代 AV编码国际标准
(1)产生背景
基于关键字或文件名的检索方法,不适于数据量大、无天然结构特性的 AV数据查找 ;
AV数据的基于内容的检索 ;
定义一种描述 AV信息内容的格式,与其存储形式 (编码 )相关 ;
1998.11~2000.11制定支持多媒体信息基于内容检索编码,
(2)目标
正式名称,多媒体内容描述接口 ;
为各种类型的多媒体信息规定一种标准化的描述,它与信息内容一起支持用户对其感兴趣的资料进行快速、有效的检索 ;
信息资料,静态图像、图形、音频、动态视频、合成信息 ;
标准化描述可加载多媒体资料上 (不管压缩形式、表示格式 )就可被检索了,
(3)应用领域
数字化图书馆 (图像分类目录、音乐字典、图像分析 );
多媒体名录服务 (Yellow Page);
广播式媒体选择 (收音机频道、电视频道 );
多媒体编辑 (个人电子新闻服务,媒体著作 );
教育 ;
旅游信息引导 ;购物 ;
娱乐 (寻找游戏、卡拉 OK节目 ).
Digital Compression and Coding for Multimedia 3- 74
3.2.5 MPEG系列标准的原则 (一 )
不对编码方法做规定,只规定最后的数据格式,不管采用何种方法获得这些数据格式 ;
MPEG-7只规定了信息内容描述格式,不规定从原始多媒体信息抽取内容描述的方法,
多媒体数据内容的描述
①描述原则
全面的描述原则,相同资料可使用不同类型的特征描述,适应具体应用 ;
多重描述,支持对相同资料进行多重描述 ;
分层描述,基于多媒体资料的抽象级别描述多媒体内容,支持不同描述符的分层表示,支持音频、视频及其他在交叉模式下的查询,支持描述符的优先级 ;
Digital Compression and Coding for Multimedia 3- 75
3.2.5 MPEG系列标准的原则 (二 )
② 多媒体特征类型
各种类型的多媒体特征,N维时空、客观、主观、产品、合成信息以及概念 ;
除了内容描述外,还可描述其他信息,形式、存取条件、类别、链接上下文、交互等,
③ 视觉数据的描述
特征,
对象、颜色、纹理、轮廓、形状、体积、运动、变形、空间元素 ;
静止和动态图像,视觉对象的源和它的特性、模型等 ;
数据描述,允许被索引数据或多或少粗略可视化 ;
数据格式,模拟 /数字视频 /电影、静止图像、图形,3D模型与视频关联的编辑数据 ;
Digital Compression and Coding for Multimedia 3- 76
3.2.5 MPEG系列标准的原则 (三 )
数据类型,自然视频、静态图像、图形、动画、三维模型、编辑信息,
④ 听觉数据的描述
特征,
频率轮廓线、音频对象、音色、和声、频率特性、振幅、时间结构、
文本内容、声波近似值、原型声音、空间结构、声源和它的模型和特性 ;
数据描述,允许允许被索引数据或多或少粗略可听化 ;
数据格式,模拟 /数字音频,MIDI、基于模型的音频、产品数据等 ;
数据类型,声音轨迹、音乐、原子声音效果、语音、符号音频表示、
混合信息等,
多 媒 体 技 术
—— 计算、通信及应用吴产乐
wuchl@whu.edu.cn
Digital Compression and Coding for Multimedia 3- 2
第三章 多媒体数据压缩编码
推荐教材
多媒体技术 (高级 ) 钟玉琢 著
多媒体技术教程 胡晓峰 著
多媒体数字压缩原理与标准,Digital Compression for Multimedia
Principles and Standards.
Gibson,J.D,等 Morgom Kaufmamn Publishers,Inc,
李煜辉 1998年 电子工业出版社;
High-Speed Networks and Internets,Performance and Quality of
Service,2nd Edition
William Stallings,Prentice Hall
高速网络与互联网--性能与服务质量 (第二版 ) 电子工业出版社
本章内容
多媒体数据压缩编码的必要性和编码方法
多媒体数据压缩编码的国际标准
Digital Compression and Coding for Multimedia 3- 3
3.1.1多媒体数据压缩编码的必要性
3.1 压缩编码的必要性和重要性
3.1.1 压缩编码的必要性和重要性
1,多媒体系统技术,
面向三维图形、立体声、彩色全屏幕运动画面的处理技术;
多种媒体承载的由模拟量转化成数字量信息的获取、表示、存储、
传输、表现。
2,未压缩的数字化信息量
1页 B5文件数据量约为 6.61MB/P
180× 255mm2× 122像素
/mm2× 8bit÷ 1B/8bit=6.61MB/P
650MB的 CDROM存放 98Pages
Digital Compression and Coding for Multimedia 3- 4
3.1.1 多媒体数据压缩编码的必要性
CD-A激光唱盘每秒采样位为 1.41Mbps
44kHz× 16bit/Hz·样本 × 2(声道 )= 1.41Mbps
650MB的 CDROM存放 1小时音乐
数字音频磁带 (DAT)每秒采样位为 768kbps
48kHz× 16bit/Hz·样本 =768kbps
650MB的 CDROM存放 2小时节目
数字电视图像
① SIF(Source input format)格式,NFSC制、彩色、
4:4:4采样每帧,352× 240× 3B=253KB
每秒,253KB× 30=7.603MBps
每片 CDROM:650MB÷ 253kB=2569帧 /片
(650MB÷ 7.603MB)÷ 60=1.42分 /片
Digital Compression and Coding for Multimedia 3- 5
3.1.1 多媒体数据压缩编码的必要性
2,未压缩的数字化信息量
数字电视图像
② ICCR (International Consultative Committee for
Radio)格式,PAC制,4:4:4采样每帧,720× 576× 3B=1.24MB
每秒,1.24MB× 25=31.1MBps
每片 CDROM:650MB÷ 1.24MB= 524帧 /片
650MB÷ 31.1MB=20.9秒 /片
陆地卫星 (LandSat-3) 分辨率 2340× 3240,4波段,7位采样精度每幅,2340× 3240× 7× 4=212Mb
每天,212Mb× 30=6.36Gbit
每年,6.36Gbit× 365=2321.4Gbit=290GB
Digital Compression and Coding for Multimedia 3- 6
3.1.2 多媒体数据压缩的可能性
3.1.2 多媒体数据压缩的可能性
( 1)图像数据表示中大量冗余
( 2)图像数据压缩技术,利用图像数据冗余性减少数据量方法
1,空间冗余
静态图像存在的主要冗余 ;
采样点颜色之间的空间连贯性,区域中各点光强、色彩、饱和度同 ;
离散像素采样表示颜色没有利用这种空间连贯性 ;
改变颜色的像素存储方式,利用空间连贯性,减少数据量,
2,时间冗余
序列图像 (电视、运动图像 )表示常包含的冗余 ;
相邻帧记录了相邻时刻的同一场景画面,移动物位置稍不同,
Digital Compression and Coding for Multimedia 3- 7
3.1.2 多媒体数据压缩的可能性
3.1.2 多媒体数据压缩的可能性
3,结构冗余
图像纹理区的像素值存在着分布模式,如方格状地板图案 ;
已知分布模式,可通过某一过程生成图像,
4,知识冗余
有些图像的理解与某些知识有相当大的相关性,如人脸的图像有固定结构 ;
规律性结构可由先验知识和背景知识获得 —— 知识冗余 ;
由已有知识,对图像中物体构造其基本模型,创建对应各种特征的图像库,存储时只需保存图像的一些特征参数 ;
知识冗余是模型编码主要利用的特征,
Digital Compression and Coding for Multimedia 3- 8
3.1.2 多媒体数据压缩的可能性
5,视觉冗余
(1).人类视觉系统对图像场的敏感性是非均匀的和非线性的 ;
(2).记录图像时假定视觉系统是均匀和线性的,对不同敏感区同样对待,产生了视觉冗余,应对不同敏感部分分开编码 ;
(3).视觉的非均匀性,
视觉系统对图像的亮度和色彩度的敏感性相差很大,RGB→NTSC 的
yIQ后发现,视觉系统的亮度 y的敏感度远高于色度 (I,Q)的敏感度 ——
可对 IQ允许误差大于 y的允许误差 ;
亮度增加时,视觉系统对量化误差的敏感度降低,人眼辨别能力与物体周围的背景亮度成反比,—— 在高亮度区,灰度值的量化可粗糙一些 ;
Digital Compression and Coding for Multimedia 3- 9
3.1.2 多媒体数据压缩的可能性
人眼的视觉系统能把图像的边缘和非边缘区域分开处理 —— 边缘区和非边缘区分别编码的依据 ;
人眼的视觉系统是把视网膜上的图像分解成若干个空间有向的视频通道后再进行处理 —— 编码时把图像分解成符合这一规律 (视觉内在特性 )的频率通道,可获大的压缩比 ;小波编码的特性,
6,图像区域的相同性冗余
图像中多个区域所对应的像素值相同或者相近,产生重复性存储 ;
向量量化 (Vector quantization)是针对这种冗余的压缩编码方法,
7,纹理的统计冗余
某些图像纹理在统计意义上服从某些分布规律 ;
利用分布规律减少图像数据量,
Digital Compression and Coding for Multimedia 3- 10
3.1.3 多媒体数据压缩编码方法
PCM
固定自适应自适应预测编码固定
DPCM
△ M
ADPCM
运动补偿变换编码傅立叶 (DFT)
离散余弦 (DIT)
离散正弦 (DST)
沃尔什 -哈达马哈 尔斜变换卡胡南 -苏夫
(K——L)
小波变换子带编码统计编码
(熵编码 )(无损 )
哈夫曼算术编码费 诺香 农游程 (RLC)
LZW
静图像编码方块逐渐浮现逐层内插位平面抖动电视图像编码帧内预测帧间编码运动估计运动补偿条件补充内 插帧间预测基于重要性矢量量化滤 波子 采 样模型编码分形编码混合编码
H.261
JPEG
MPEG
图 3-1 多媒体数据压缩编码方法
Digital Compression and Coding for Multimedia 3- 11
3.1.3 压缩编码方法 -PCM
1,脉码调制 PCM(Pulse Code Modulation)
连续模拟信号的数字采样表示 ;
Nyquist采样速率,c=2H·log2L(b/s)
Shannon公式,c=2H·log2(1+S/N)(b/s);
N级量化器,N=2b,每个采样用 b位代码表示 ;
PCM的编码 /解码器 (codec)是图像编码系统的起 /终点,
即 A/DC和 D/AC;
其他编码方法是在模拟信号经 PCM编码后的压缩编码方法,
Digital Compression and Coding for Multimedia 3- 12
3.1.3 压缩编码方法 -预测编码
2,预测编码
DPCM(differential pulse code modulation)和 ADPCM(自适应 DPCM)编码器存储和传输的是样本值与预测值之差 ——
预测误差编码 ;
预测值由欲编码信号的过去信息决定 ;
线性预测,比例系数由统计特性估计 ;
预测可在相邻像素值之间,也可以在行之间 ;
空间相关性使差值变化范围小于真值范围,用较少位数表示 ;
利用人的视觉特性对差值进行非均匀量化,从而提高压缩比 ;
对差值编码时进行了量化,这是一种有损编码,
Digital Compression and Coding for Multimedia 3- 13
3.1.3 压缩编码方法 -变换编码
3,变换编码
利用图像块内像素值之间的相关性,把图像变换到一组新的基上,使能量集中到少数几个变换系数上,通过存储这些系数达到压缩的目的,如时域
→ 频域 (声音、图像时低频信号 ).分布集中,进行采样编码,压缩数据 ;
把整幅图分成许多矩形子图独立进行变换,变换域采样和量化 ;
最优 -KTL(Karhunen-Loeve Transform):消除相关性最有效,计算量大,
无快速算法,在均方差最小意义下导出的最优变换,其基向量是输入向量协方差矩阵的特征向量 ;
次优 -DCT(Discrete Consine Transform):与 KTL类似,有快速算法,对固定 (像素 )块进行变换成 DCT系数,空间频率为 0的系数为直流分量,是所有像素的平均值,其余 63个系数为交流系数,多数情况下高频系数为 0或趋近于 0.变换时将输入信号和 DCT正交矩阵相乘完成 DCT变换
准最佳变换 -DFT(Discrete Fourier Transform):近似最佳,但是运算次数多,需要复数运算,保留 FFT在 DFT中取实数部分进行 DCT快速运算 ;
WHT(Walsh-Hadamard Transform);
Digital Compression and Coding for Multimedia 3- 14
3.1.3 压缩编码方法 -统计编码
4,统计编码
Huffman编码
出现频率大的符号用较少的位数表示,出现频率小的符号用较多位数表示 ;
编码效率取决于编码符号出现的概率分布,越集中压缩比越高 ;
各码字长度严格按照所对应符号出现概率的大小逆序排列,
算术编码
每一符号对应 [0,1)上一子区间,区间长度为该符号出现的频率,把编码的符号串 (数值串 )表示成实数 0到 1之间的一区间,初值为整个区间
[0,1),出现新的编码符号,先把完整的 [0,1)区间映射到上一次形成的区间,然后新区间取为 [0,1)上新符号对应区间所映成的像,
可方便使用自适应编码,根据当前接收的数据不断更改概率模型 ;不需要传送像哈夫曼编码的表 ;
信号源概率比较接近时,算术编码比哈夫曼编码效率高 ;
Digital Compression and Coding for Multimedia 3- 19
3.1.3 压缩编码方法 -统计编码
4,统计编码
游程编码 (RLC)
一维信号的分段常数逼近,编码器不断比较一维的相邻元素值的变化幅度,一旦发现有明显变化,设一个游程 ;
游程两种信息,游程起始位置和该游程对应的信号值 ;
信息记录方式,游程是连续的,游程的位置信息和信号值都有 2种记录方式 —— 差分方式,较高效率 ; 绝对值方式 ;
主要技术,检测重复的位或字符序列,用它们出现的次数取而代之 ;
方法,计算信源符号出现的游程长度,并将其转换成代码,
Digital Compression and Coding for Multimedia 3- 20
3.1.3 压缩编码方法 -分析合成编码
5,分析 -合成编码
(1)量化编码
标量量化,逐个量化,以较小的量化均方误差进行量化,在 JPEG、
H.261和 MPEG中采用的都是基于视觉特性的标量量化 ;
矢量量化,语义编码,采用非线性量化器,对频率和能量分布较大的的系数分配较多比特数,即采用较小的量化步长 ;反之分配较少的位,即采用较大的量化步长 ;
矢量量化优于标量量化,有效利用矢量中各分量间的 4种相关性
(线性依赖性、非线性以依赖、概率密度函数的形状和矢量维数 )
来去除冗余度,
矢量量化的基本过程,将实际数据流分成矢量块 ;在压缩编码和解码端都有一个称为,码本,的表,可以预定义也可以动态改造 ;各矢量可参考码本表选择最佳匹配模式 ;一旦找到最佳匹配模式就将码本中的对应的索引进行传送,
Digital Compression and Coding for Multimedia 3- 21
3.1.3 压缩编码方法 -分析合成编码
5,分析 -合成编码
(2)小波变换编码 (Wavelet Transform)
非均匀分辨率对数据进行时间频带局部分析与综合。
线性变换,有效的时频域分析工具,静态图像的压缩 ;
将信号分解成对空间和时间、频率的独立贡献,不失原信息 ;
小波系数的时宽 -带宽积很小,变换后能量集中,不同分量进行不同处理,有较高的压缩比 ;
图像的小波变换可以理解为图像信号经过一系列带通过滤波器的结果,这组滤波器在对数意义下具有相同的带宽,从小波变换后不同分层定位中,提取图像特征,低频部分平滑表示背景 ;高频部分不平稳表示细节,利用不同层次对恢复图像的贡献大小和对人眼视觉系统的影响的大小,采用不同的编码方法,可以达到图像压缩的目的,
Digital Compression and Coding for Multimedia 3- 22
3.1.3 压缩编码方法 -分析合成编码
5,分析 -合成编码
(3)分形图像编码 (Fractal)
模型编码,用模型方法对图像进行参数估测,具有压缩比高、解码高速、不受图像分辨率的影响等优点 ;
分形是某种形状、结构的局部或片断,它有多种尺寸,但形状相似,其局部和整体有相似性,即自相似性体系 ;
方法,数字图像经过处理 (如颜色分割、边缘检测、频谱分析、纹理分析等 )分成子图像,在分形集中查找这样的子图像,但分形集中存储的是迭代函数,经反复迭代可恢复子图像,表示迭代函数只需少量数据,达到很高的压缩比,
将数据预分解为若干分形子图并提取其迭代函数代码,恢复时由该代码按规范迭代重构各子图。
Digital Compression and Coding for Multimedia 3- 23
3.1.3 压缩编码方法 -分析合成编码
5,分析 -合成编码
(4)子带编码 (Subband Coding,SBC)
利用带通滤波器组把信号频带分割成若干子频带,然后分别处理,通过等效于单边带调幅的调制过程,将各子带搬移到零频率附近以得到低通表示后,以 Nyquist速率对各子带输出取样,并对取样值进行通常的数字编码 ;
如果设想在 SBC的每一个子带输出都用 DPCM编码器来编码,那么
SBC就在时间域 (或空间域 )的预测编码和频域 (或变换域 )的变换编码之间架起了一座连接的桥梁,联系参数就是子带数目 M.如果 M=1就是
DPCM全带编码 ;如果 M>1就是 SBC;当 M大到等于块内的样本数,即每一子带只由一个样本 (一根谱线 )组成时,SBC便成为变换编码 (DFT).从这个观点上看,预测编码和变换编码只不过是子带编码的两个特例,
Digital Compression and Coding for Multimedia 3- 24
3.2 多媒体数据压缩编码的国际标准国际标准,(视频 )
国际标准化组织 ISO和 CCITT(ITU-T)联合组成专家组
JPEG( Joint Photographic Experts Group)
JBIG( Joint Bilevel Image Group)
国际电子学委员会 IEC和 ISO组成的 ISO/IEC
MPEG( Motion Picture Experts Group)
国际电信联盟 (ITU-T):
H.261,G3,G4
Digital Compression and Coding for Multimedia 3- 25
3.2.1 静态图像压缩编码国际标准 -JPEG
JPEG-联合图像专家组,CCITT与 ISO联合组成专家组 ;
JPEG算法,连续色调,多级灰度,静态图像的数字图像压缩编码方法 (彩色、灰度、静止图像 )
应用,a.静态图像压缩 ;
b.电视图像序列的帧内图像压缩
目的,a.达到或接近当前压缩比与图像保真度的技术水平 ;
b.能适用于任何种类的连续色调的图像;长宽、内容、复杂度、统计特性时不受限的;
c.计算复杂性是可控制的,软件可完成,硬件实现算法,
Digital Compression and Coding for Multimedia 3- 26
3.2.1 静态图像压缩编码国际标准 -JPEG
操作方式,
a.顺序编码,上下、左右一次扫描完成编码 (每一图像分量 );
b.累进编码,多次扫描,由粗糙到清晰的累进过程 ;按频段累进,
按位累进;
c.无损编码,解码后精确恢复源图像采样值,压缩比低 ;
d.分层编码,原始图像空间分辨率进行变换,使水平与垂直方向分辨率以 2的倍数因子下降,
图像在多个空间分辨率进行编码,用 JPEG进行,在信道慢,接收显示分辨率不高时,只需做低分辨率图像解码,用插值方法恢复图像分辨率,把分辨率已升高的图像作为原图像的预测值,并把它与原图像的差值采用基于 DCT的编码,重复上述步骤,可以达到完整的分辨率编码,
Digital Compression and Coding for Multimedia 3- 27
3.2.1 静态图像压缩编码国际标准 -JPEG
1,JPEG的无损预测编码算法
图 3-1是 JPEG的无失真预测编码的框图,预测编码具有硬件实现容易、重建图像质量好的优点,在此采用的是可以完全恢复的技术,无损压缩不使用 DCT
方法,而是采用一个简单的预测器,预测器可以采用不同的预测方法,不同的预测方法将决定有那些相邻的像素将被用于预测下一个像素,常用的预测方法如三领域预测法,
JPEG的无失真预测编码对于中等复杂程度的彩色图像,可以达到大约 2:1的压缩比,
源图像数据 压缩的图像数据熵编码器预测器表说明图 3-2 JPEG无损预测编码框图
Digital Compression and Coding for Multimedia 3- 28
3.2.1 静态图像压缩编码国际标准 -JPEG
2,JPEG的基于 DCT的有损编码算法
8× 8DC
T正变换 量化器 熵编码器量化表 编码表块准备熵解码器编码表量化器量化表
8× 8DC
T逆变换恢复块源图像数据 编码器 压缩的图像数据 解码器 恢复的图像数据图 3-3 基于 DCT的有损 JPEG编解码过程样值 DCT系数 量化 DCT系数 量化 DCT系数 反量化 DCT系数
Digital Compression and Coding for Multimedia 3- 29
① 离散余弦变换 DCT:8× 8大小子块的二维 DCT
块准备将一帧图像分成 8× 8的数据块 (三种分量,光亮度 Y和两个色差 U和 V,图像大小为 480行,每一行有 640个像素,色度分解为 4:1:1,则亮度分量就是一个 640× 480的数值矩阵,色差分量是一个 320× 240的矩阵,为了满足 DCT过程的要求,块准备必须划分出 4800个亮度块和两分 1200个色差块共 7200个数据块 );
采样精度为 p位无符号整数,采样数据在 [0,2p-1]内,则变成在 [-
2p-1,2p-1-1] 有符号整数内,以此作为 DCT正变换的输入 ;FDCT
解码器输出端经 IDCT逆变换后等到一系列 8× 8的图像数据块,需将其数值范围由 [-2p-1,2p-1-1]有符号整数变回到 [0,2p-1]
无符号整数范围内,才能获得重构图像,
Digital Compression and Coding for Multimedia 3- 30
3.2.1 静态图像压缩编码国际标准 -JPEG
二维 8× 8DCT正变换,
二维 8× 8DCT逆变换,
其中,C(u)=C(v)=,当 u,v=0
C(u)=C(v)=1,其他
② FDCT具有可分离的变换特性,
行向一维 DCT计算列向一维 DCT计算
2维快速余弦变换 (2-FDCT)
把 8× 8块不断快速分成更小的无交迭子块,直接对数据块进行运算,
组合运算
]16 )12(c o s16 )12(c o s),()[()(41),(
7
0
7
0
vyuxyxfvCuCvuF
x y
]16 )12(c o s16 )12(c o s),()()([41),(
7
0
7
0
vyuxvuFvCuCyxf
u v
21
Digital Compression and Coding for Multimedia 3- 31
3.2.1 静态图像压缩编码国际标准 -JPEG
③ 量化
对 DCT系数 F(u,v)进行量化处理 —— 压缩数据 ;
量化是多对一的映射 —— DCT编解码信息损失的根源 ;
JPEG采用线性均匀量化器 ;
64个 DCT系数除以量化步长,四舍五入取整,
FQ(u,v)=Integer { Round [ F(u,v) / Q(u,v) ] }
量化表量化器步长 Q(u,v)是量化表元素,随 DCT系数的位置和彩色分量的不同有不同的值,量化表的大小是 8× 8与 64个变换系数一一对应,
用户规定,JPEG给了参考值;元素值为 1~255之间任意整数,变换系数与量化表元素一起作为编码器的输入,
Digital Compression and Coding for Multimedia 3- 32
3.2.1 静态图像压缩编码国际标准 -JPEG
逆量化逆量化表达式为,FQ’(u,v)= FQ(u,v)Q(u,v)
量化作用在一定的主观保真度图像质量前提下丢掉对视觉影响不大的数据 ;
不同频率的余弦函数对视觉影响不同,可根据不同频率的视觉阈值选择量化表的元素大小 ;JPEG已作此工作。
根据心理视觉加权函数可得出亮度、色度分量量化矩阵 ;
亮度量化表 (8× 8),色度量化表 (8× 8),JPEG给出了参考值 ;
DCT变换系数 F(u,v)除以表中对应量化步长,幅值下降,高频系数零值数目增加,
Digital Compression and Coding for Multimedia 3- 33
3.2.1 静态图像压缩编码国际标准 -JPEG
④ DC系数编码和 AC系数的游程编码
DC系数编码
坐标 u=v=0的 DC系数是直流分量,是 64个空域图像采样值的平均值,
其余 63个均为 AC分量,量化后通常出现较多的零值 ;
相邻 8× 8块之间 DC系数有较强的相关性 ;
JPEG中 DC系数采用差分脉冲 DPCM,差值 DIFF=DCj-DCj-1编码块 j-1 块 j
…… ……
DCj-1 DCj
图 3-4 DC系数差分编码
Digital Compression and Coding for Multimedia 3- 34
3.2.1 静态图像压缩编码国际标准 -JPEG
AC系数编码
从 AC01开始,沿对角线方向,以” Z”字形游程扫描至 AC77结束,可增加游程中连续 0的个数,非零值系数集中在前部,零值在尾部 ;
量化后的 AC系数会有许多零值 ;
63个 AC系数游程编码的码字由 2个字节表示,
Byte1,7 6 5 4 3 2 1 0
N N N N S S S S
2个非零值间连 下一个非零值续 0的个数 要的比特数
Byte2,下一个非零值的实际值图 3-5,Z”字形排列
Digital Compression and Coding for Multimedia 3- 35
3.2.1 静态图像压缩编码国际标准 -JPEG
⑤ 熵编码
对 DC码和 AC游程编码的码字作基于统计特性的熵编码 ;
JPEG建议的两种方法,哈夫曼编码 和自适应二进制算术编码 ;
熵编码分两步,
DC码 /AC码 → 中间符号序列 → 赋以变长码字
(1)熵编码的中间格式符号 1 (游程、尺寸 ) 游程指连续 0个数 /尺寸指 AC系数幅值编码的比特数 ;
符号 2 (幅值 ) [-210,210-1]
符号 1 (尺寸 ) 高 4位为 0,DC差值的幅值编码所需的比特数 ;
符号 2 (幅值 ) DC差值的幅值,范围 [-211,211-1]
AC
DC
Digital Compression and Coding for Multimedia 3- 36
3.2.1 静态图像压缩编码国际标准 -JPEG
(2)可变长度熵编码
将系数表示成符号 1和符号 2的序列,对其进行编码,零游程长度超过 15,有多个符号 1,块结束 (EOB)用符号 1(0,0)表示 ;
DC和 AC系数中符号 1用哈夫曼表中变长码 VLC编码,哈夫曼变长码表作为 JPEG编码器的输入,但数据流中哈夫曼表的表示格式是间接说明,在解码时利用这间接说明重构真正的哈夫曼表,
符号 2用的码字长度,用变长整数 VLI码编码,VLI的码字固化在 JPEG中,VLI是变长码但不是哈夫曼码,VLI的长度存放在 VLC中,
Digital Compression and Coding for Multimedia 3- 37
3.2.1 静态图像压缩编码国际标准 -JPEG
基本 Huffman编码符号 1的结构表
交流系数 AC的亮度分量典型的 Huffman表
RunLength Size
0 EOB
,×
,×
,×
15 ZRL
1 2 3 4 5 6 7 8 9
Run.Size
Values
游程 /尺寸 码长 码字
0/0(EOB) 4 1010
0/1 2 00
0/2 2 01
0/3…0/A 3 100,…
1/1,1/2…1/A,2/1…2/A 5 11011,…
3/1…3/A,4/1…4/A,5/1…5/A 6 111010,…
6/1…7/1,8/1…9/1,E/1…E/A 7 1111011,…
F/0(ZRL)…F/A 11 11111111001,…
Digital Compression and Coding for Multimedia 3- 38
3.2.1 静态图像压缩编码国际标准 -JPEG
基本熵编码符号 2结构 亮度 DC系数表
Size Amplitude 分类 码长 码字
0 2 00
1 -1,1 1 3 010
2 -3,-2,2,3 2 3 011
3 -7… -4,4…7 3 3 100
4 -15… -8,8…15 4 3 101
5 -31… -16,16…31 5 3 110
6 -63… -32,32…63 6 4 1110
7 -127… -64,64…127 7 5 11110
8 -255… -128,128…255 8 6 111110
9 -511… -256,256…511 9 7 1111110
10 -1023… -512,512…1023 10 8 11111110
11 -2047… -1024,1024…2047 11 9 111111110
Digital Compression and Coding for Multimedia 3- 39
3.2.1 静态图像压缩编码国际标准 -JPEG
色度 DC系数表
Size Amplitude 分类 码长 码字
1 0 2 00
1 2 01
2 2 2 10
3 3 3 110
4 4 4 1110
5 5 5 11110
6 6 6 111110
7 7 7 1111110
8 8 8 11111110
9 9 9 111111110
10 10 10 1111111110
11 11 11 11111111110
Digital Compression and Coding for Multimedia 3- 40
3.2.1 静态图像压缩编码国际标准 -JPEG
⑥ 压缩比和图像质量
基于 DCT的 JPEG压缩算法,对中等复杂程度的彩色图像压缩比与恢复图像的质量列表,
⑦ 亮度子块 JPEG编码示例亮度子块按” Z”序列排列的系数,
K,0 1 2 3 4 5 6 7 8 9~30 31 32~63
系数,12 5 -2 0 2 0 0 0 1 0 -1 0
压缩效果 (比特 /像素 ) 质量
0.25~0.50 中 ~好,满足某些应用
0.50~0.75 好 ~很好,满足多数应用
0.75~1.50 极好,满足大多数应用
1.50~2.00 与原始图像分别不出来
Digital Compression and Coding for Multimedia 3- 41
3.2.1 静态图像压缩编码国际标准 -JPEG
DC系数 12在 (- 15---- 8,8----15)范围内,查表 Size=4,分类 4再查表,码字长 3,码字为 101.12>0,4位附加位 1100,ZZ(0)=12的编码为 1011100;
ZZ(1)=5,与 ZZ(0)之无 0系数,NNNN=0;系数 5在 (- 7---- 4,4---7)范围,查表
Size=3,SSSS=3,NNNN/SSSS=0/3 哈夫曼码查表亮度 AC系数编码为
100,
ZZ(1)=5的编码为 100101;
ZZ(2)=- 2,在 (- 3,- 2,2,3)范围,NNNN/SSSS=0/2,查表为” 01”,ZZ(2)-
1=-3,其码字低位二进制为 01,ZZ(2)=-2,编码为 0101;
ZZ(k)中非零值的实际值的编码规则如下,
若 ZZ(k)>0,附加位为 ZZ(k)的最低 B位 ;
若 ZZ(k)<0,附加位为 ZZ(k) - 1的最低 B位 ;
非零值排除了” 0”,ZZ(k)-1不可能为 -1,所以 -2为” 0”,-3为” 01”
Digital Compression and Coding for Multimedia 3- 42
3.2.1 静态图像压缩编码国际标准 -JPEG
ZZ(3)=0,ZZ(4)=2,NNNN/SSSS=1/2,查表为 11011,ZZ(3)~ZZ(4)的编码为
1101110;
ZZ(5)~ZZ(7)=0,ZZ(8)=1(-1,1),NNNN/SSSS=3/1,查表为
111010,ZZ(5)~ZZ(8)的编码为 1110101;
ZZ(9)~ZZ(30)=0,ZZ(31)=-1(-1,1),NNNN=30-9+1=22>15,选择 F/0,码字为 11111111001,NNNN=22-16=6<15,NNNN/SSSS=6/1,查表为 1111011,
而
-1-1=-2的编码为” 0”,ZZ(9)~ZZ(31)编码为 11111111001+11110110;
ZZ(32)~ZZ(63)=0,ZZ(63)=0,直接用” EOB(0/0)”结束本块,其编码为 1010.
子块编码位流,
1011100+100101+0101+1101110+1110101+11111111001+11110110
+1010 共 54bits;
原始图像子块,8× 8× 8=512bits
压缩比 512:54=9.48:1
Digital Compression and Coding for Multimedia 3- 43
3.2.1 静态图像压缩编码国际标准 -JPEG
⑧ JPEG2000-ISO15444
新一代彩色静态图像编码方式,1998开始,2000.3算法确定 ;2000.12标准出台,内容主要包括以下 6个部分,
JPEG2000图像编码系统 (核心部分 );
应用扩展 (在核心上扩展更多特性 );
运动 JPEG2000;
兼容性 (包容性和继承性 );
参考软件 (目前主要为 Java和 C程序 );
复合图像文件格式 (如传真式服务等 ).
Digital Compression and Coding for Multimedia 3- 44
静态图像编码 JPEG2000(一 )
JPEG2000的算法
JPEG:DCT算法为主的区块编码方式 (经典谱分析工具 );
考察整个时域过程的频域特征或整个频域过程的时域特征,对于非平稳过程,效率不高,
JPEG2000:DWT(Discrete Wavelet Transform,现代谱分析工具 )
对于时域或频域的考察都采用局部方式,子波在信号分析中对高频成分采用由粗到细渐进的时空域上的取样间隔,象自动调焦一样,并放大任意细节,是构造图像多分辨率的有力工具 ;对于非平稳过程十分有效,
对彩色静态画面采用 JPEG;
对 2值图像采用 JBIG(Joint Binary Image Group)编码 ;
低压缩率采用 JPEGLS编码 ;
Digital Compression and Coding for Multimedia 3- 45
静态图像编码 JPEG2000(二 )
JPEG2000的特点
高压缩率,比 JPEG高 20%-40%;压缩后图像细腻平滑 ;下载快,等待时间少,比
JPEG快 30%;
无损压缩,预测法引进继承,既支持无损压缩,也可支持有损压缩 ;
渐进传输,JPEG是按块传输下载,只能逐行显示 ;
JPEG2000渐进传输,先轮廓数据后逐步加入像素 ;
感兴趣区域压缩,
ROI (Region of Interest );
子波在空域和频域上有局域性 ;
兴趣区域用低压缩比获得好图像效果 ;
交互式压缩
色彩模式,JPEG:RGB;
JPEG2000:256个通道信息,可用单一文件格式来描述另一色彩模式如 CMYK模式 ;ICC,sRGB等
图像处理简单,基于 web方式多用途图像简单化,用户可以自由地缩放、平移、剪切,使用户能得到他们所需要的分辨率和细节,
为 JPEG文件加密版权信息,加密版权在图像处理过程中不损失,比水印技术更先进,
JPEG2000考虑了人的视觉特性,增加了视觉权重和掩模,在不损害视觉效果情况下可大大提高压缩比率,
Digital Compression and Coding for Multimedia 3- 46
3.2.2 运动图像压缩编码国际标准 -MPEG
ISO/IEC的 MPEG(运动图像专家组 )1988,1990提出 MPEG标准草案 ;
1991年底,ISO/IEC 11172号建议,数字存储媒体的位率约 1.5Mbps的运动图像及其伴音的压缩编码方案 ;
1992年,正式通过 11172号建议,成为 MPEG-1:1.5Mbps,TV质量,亮度分辨率
360x240,色度分辨率 180x120,30F/s;
1993.11,汉城会议 (ISO/IECJTIC/SC29/WG11)
ISO/IEC 13813号建议成为 MPEG-2;
1995.11~1998.11 MPEG-4;
1998.11~2000.11 MPEG-7;
MPEG-11 多媒体框架 (Multimedia Framework),将标准集成起来支持和谐的技术,以管理多媒体商务,
Digital Compression and Coding for Multimedia 3- 47
3.2.2 MPEG-1标准 (一 )
1,MPEG-1
运动图像的数据压缩技术,
帧内压缩和帧间压缩 ;
帧内图像数据压缩,减少空域冗余信息 ;
算法与 JPEG算法大致相同,DCT变换编码技术 ;
帧间图像数据压缩,减少时间轴方向的冗余信息,16× 16
子块的运动补偿算法,
运动补偿预测法,因果预测器运动补偿插补法,非因果预测器
(预测误差都经 DCT编码,进一步减少数据量 )
Digital Compression and Coding for Multimedia 3- 48
3.2.2 MPEG-1标准 (二 )
(1)时域冗余量减少
MPEG要求对 V(Video)信号做随机存取,对帧间运动补偿压缩数据位 ;
MPEG的三类图像,
帧内图 (Intrapictures,I):随机存取的位置,压缩比不大 ;
预测帧 (Predetected pictures,P):用先前帧,I或 P,本身参考预测 ;
插补帧即双向预测 (Bidirectional Prediction Pictures,B):压缩效果显著,
预测时,需要先前和后续的信息,B不能作其他帧的预测参考帧,
典型的三种帧序列,
IBBBPBBBI;IBBPBBPBBI(PAL&SECAM);IBBPBBPBBPBBI(NTSC)
1 2 3 4 5 6 7 8 1
I B B B P B B B I
双向预测前向预测图 3-6 典型的帧序列
Digital Compression and Coding for Multimedia 3- 49
3.2.2 MPEG-1标准 (三 )
(1)时域冗余量减少 —— 宏块运动补偿方法
减少帧序列冗余信息 (时域 ),采用 16× 16宏块的运动补偿 ;
基于 16× 16宏块的算法,每个宏块作为一个 2维运动矢量处理,宏块作为预测单元,当前宏块是先前宏块的位移,位移内容包括运动方向和运动幅度,
利用位移信息和先前的图像,可预测当前图像,16× 16的运动矢量块是预测误差,要编码,传送,供解码的恢复图像用 ;只对预测误差作有条件的传送 ;
运动补偿有因果预测和非因果预测 (双向预测编码、插补编码 );
运动补偿插补编码,基于时间轴上的多分辨率技术,可以以 1/10s或者
1/15s的时间间隔取出参考子图,然后对两个参考子图之间的图像,按运动规律得到 1/30s时间间隔的各个插补子图 ;
对时间轴 (帧序列 )方向低分辨率的子信号进行编码 ;
对 10F/S或 15F/S低分辨率图像编码,作图像插值和附加运动校正,把校正信息加到前向和后向参考图像组合成高分辨率的图像信号 30F/S;
Digital Compression and Coding for Multimedia 3- 50
3.2.2 MPEG-1标准 (四 )
电视图像帧序列
参考帧,I,P;B不能作参考帧 ;
插补帧,B;B的频度可选,B增加会减少 B与参考帧的相关性 ;
B与编码图像景物的依赖性,参考帧以 0.1s间隔
视频帧图序列例子,
帧编码器输出帧图顺序、帧解码器输人帧图顺序、帧图传输顺序帧编码器输入帧图顺序帧解码器输出帧图顺序视频序列帧图显示顺序
(2)运动表示
(3)运动估算
I P B B P B B P B B P B B I B B P B B P B B P B B P B B I B B
1 3 4 2 6 7 5 9 10 8 121311 151614181917212220242523272826303129
I B B P B B P B B P B B P B B I B B P B B P B B P B B P B B I
1 2 3 4 5 6 7 8 9 1011 1213141516171819202122232425262728293031
Digital Compression and Coding for Multimedia 3- 51
3.2.2 MPEG-1标准 (五 )
(2)空域冗余量减少
帧内图像与预测图像误差有很高的空域冗余信息 ;
优先采用基于块的技术,
(i)变换编码,DCT、视觉加权标量量化、游程编码和熵编码 ;
(ii)矢量量化编码,静止图像采用等宽量化,而对运动信息量化器设计需作特殊考虑 ;
DCT变换编码 —— 三个阶段,
DCT;
变换系数量化 (量化,Z字扫描,游程编码 )使大部分数据得以压缩,
要求通过量化器,编码器使之输出一个与信道传输速率匹配的比特流 ;
熵编码 ;
Digital Compression and Coding for Multimedia 3- 52
3.2.2 MPEG-1标准 (六 )
MPEG中,不仅帧内使用 DCT,且对帧间预测误差也作 DCT进一步压缩,
① DCT
8× 8块的图像采样数据预测误差数据
② DCT系数量化
量化器结合游程编码压缩数据和与给定位速率匹配 ;
自适应量化,JPEG帧内图的 DCT编码 ;H.261(CCITT)宏块预测误差的
DCT编码,达到视觉质量的关键手段之一,
a.视觉加权量化量化误差的主观感觉随 DCT系数的频率有很大变化,可对高频系数作比较粗的处理 ;精确的量化矩阵依赖许多外部参数,图像显示特性,观察距离,原图噪声数量,对某种应用或单独序列设计专用量化矩阵是合理的,并可与编码环境和压缩数据一起存储,
离散余弦正交变换
64个变换系数
Digital Compression and Coding for Multimedia 3- 53
3.2.2 MPEG-1标准 (七 )
b.帧内块与非帧内块量化的比较,
帧内块量化器 — 量化细 ;固定步长,没有死区 (量化为 0的区域比步长小 )
帧外块量化器 — 量化粗 ;固定步长,有死区 (量化为 0的区域比步长大 )
c.可调量化器适应块之间信号的不均匀性,可在块与块的量化上对量化器步长调节,
也可对特定的位率进行自适应调整 (速率控制 );
信号变化梯度平稳的块,小误差人眼会感觉到块的边界 (块效应或假轮廓 );
信号变化剧烈的子块,视觉对误差的敏感觉察被掩盖 ;
③ 熵编码对 DCT系数,使用一个类似哈夫曼的表,对相对于数对 (游程,幅值 )的符号进行编码,采用变长码编码,为了避免出现太长的符号,使用一个编码符后面跟随一个固定长度的码字,
Digital Compression and Coding for Multimedia 3- 54
3.2.2 MPEG-1标准 (八 )
(1)MPEG分层结构、语法和位流
① 目的
MPEG视频流是分层结构,把位流中逻辑上独立的实体分开,分层要求支持以下特性:
通用性,MPEG语法规定可满足不同的应用需求,随机存放,可编辑性 (对硬盘 上的视频信号编码单元是一组图 );
灵活性,视频序列头标定义的参数说明,
MPEG标准定义位率,1.5Mbps,分辨率 360像素 /行,更高也支持 ;
有效性,要对附加信息 (如,位移域、量化器步长、预测器或插值类型等 )提供有效的管理,
② MPEG位流语法分层
6层,每层支持一个确定的函数,或是信号处理函数 (DCT,运动补偿 ),或是逻辑函数 (同步,随机存放点 ):
MPEG视频位流语法的 6个层次,
层次名称 功能图像序列层 (Sequence layer) 随机存取单元,上下文图像组层 (Group of picture) 随机存取单元,视频编码图像层 (Picture layer) 基本编码单元宏块片层 (Slice layer) 重同步单元宏块层 (Macroblock layer) 运动补偿单元块层 (Block layer) DCT单元
Digital Compression and Coding for Multimedia 3- 55
3.2.2 MPEG-1标准 (九 )
③ 位流
MPEG位流,符合 MPEG语法的二进制数字序列,满足用一个合适大小的缓冲区进行解码的要求 ;
视频缓冲区校验器,对位流进行解码所必需的最小的缓冲区的尺寸,是解码的抽象模型,不让解码过程中出现下溢或上溢现象,也是接收编码位流模型和瞬时解码器 (一帧图像的数据可瞬时移出 );
MPEG定义解码过程 (非解码器 ):
⊕
缓冲区 (MUX)-1 Q-1
量化器步长
IDCT
重建波形
⊕
位流分解为附加信息,
运动矢量 ;
量化器步长 ;
宏块模型 ;
量化 DCT系数宏块模型量化的 DCT系数被量化运动矢量参考图参考图图 3-7 MPEG交叉解码过程图
Digital Compression and Coding for Multimedia 3- 56
3.2.2 MPEG-1标准 (十 )
MPEG视频压缩算法
0.5bit/pixel~1bit/pixel,位率为 1.2Mbps,VHS质量 ;
高压缩比和实时性 (压缩与解压可不对称 );
压缩编码,大型机、软件方法、一次完成 ;非实时、光盘作为存储介质解压缩,桌面系统,硬件解压卡或解码器,实时,多次重复,
MPEG-1:亮度信号分辨率为 360× 240,色度信号分辨率为
180× 120,每秒 30帧 ;
MPEG-2:亮度信号分辨率为 720× 572;
扩展模式 (作为 HDTV压缩编码 ):亮度信号分辨率为 1440× 1152.
Digital Compression and Coding for Multimedia 3- 57
3.2.2 MPEG-2标准 (一 )
(1) 简介视频压缩,音频压缩及多种压缩数据流的复合和同步问题,
MPEG-1:1.5Mbps,360× 240(亮度 );180× 120(色度 ),30F/s;
MPEG-2:运动图像及其伴音的通用压缩技术标准,解决多媒体技术、数字电视技术、多媒体分辨率与传输率
(2) MPEG-2系统
1个或多个音频、视频或其他基本数据流合成为多个数据流,便于存储和传送,它可在很宽的恢复和接收条件下同步解码 ;
5项基本功能,
a.解码时多压缩流的同步 ; b.多个压缩流交织成单个数据流 ;
c.解码时缓冲器初始化 ; d.缓冲区管理 ; e.时间识别
压缩编码系统,将视频和音频编码算法结合开发,有两种方法,其编码输出包括传送流和程序流两种定义流,
MPEG-1 MPEG-2
MPEG系统 ISO/IEC 11172-1 ISO/IEC 13813-1
MPEG视频 ISO/IEC 11172-2 ISO/IEC 13813-2
MPEG音频 ISO/IEC 11172-3 ISO/IEC 13813-3
测试和验证 ISO/IEC 11172-4
Digital Compression and Coding for Multimedia 3- 58
3.2.2 MPEG-2标准 (二 )
(3) MPEG-2视频 (ISO/IEC 13813-2)
数字存储媒体和数字视频通信中图像信息的编码描述和解码过程,主要应用于数字存储媒体,视频广播与通信 ;
存储媒体直接与 MPEG-2解码器相连,或通过 BUS,LAN通信线路连接 ;
固定 /可变比特率,随机访问,信道跨越,分级解码,位流编辑 ;
特殊功能,快进播放,快速播放,慢动作,暂停和画面凝固等,
MPEG-2视频的特色,
① 框架和级别,MPEG-2规范的语法与语义的子集的手段 ;
框架,MPEG-2中定义的语法的子集,包含 1个或多个级别 ;
Digital Compression and Coding for Multimedia 3- 59
---------------------------
3.2.2 MPEG-2标准 (三 )
② MPEG-2视频压缩编码的数据结构视频压缩编码的数据结构是分层的比特流数据,第一层为基本层,基本层可以独立解码,其他层为增强层,增强层的解码依赖基本层,
基本层的结构与 MPEG-1 ISO/IEC 11172-2相一致,由视频序列层、图像组块层、宏块层和块层 (基本层 )组成视频数据结果的编码比特流,
级别,MPEG-2规范中一个特定框架中参数取值的集合,是一个对比特流各参数进行限定的集合,
如比特率等级,帧宽 × 帧高 × 帧率 (水平像素 × 垂直像素 × 帧 /S)
低 级,352× 288× 29.79;
基本级,720× 480× 29.79/720× 480× 25
次高级,1440× 1080× 30/1440× 1080× 25
高 级,1920× 1080× 30/1920× 1080× 25
框架与级别的作用解码器的设计和解码校验在限定的框架和限定级别中进行,使不同应用领域之间的数据交换提供方便和可行,
Digital Compression and Coding for Multimedia 3- 60
3.2.2 MPEG-2标准 (四 )
视频序列层,最高层视频序列头,序列头函数 (与 ISO/IEC 11172-2一致 );
序列扩展函数 (只用于 ISO/IEC 13813-2);
编码扫描方式,逐行 /隔行,帧图 /场图,
帧类型,I:自身帧编码,解决随机访问,重播,快进,块退 ;
P:先前的 I或 P帧预测编码帧 ;
B:先前的 I或 P帧双向预测编码 ;
D:变换系数的直流分量 DC,代表能量分布,
重复序列头可出现在 I,P帧头,不能在 B帧之前,提供随机访问功能,I帧用于解决视频序列的随机访问,重播、快进、快退等问题,
图像组块层,宏块组成,一个组块可由多个宏块组成 ;
宏块层,宏块格式有以下三种,
Digital Compression and Coding for Multimedia 3- 61
3.2.2 MPEG-2标准 (五 )
4:2:0格式,一个宏块由 6个块组成,其中包括 4个亮度块 (Y),2个色差块 (Cb块和
Cr块 ),其排列顺序如图 3-8所示 ;
4:2:2格式,一个宏块由 8个块组成,其中包括 4个亮度块 (Y),4个色差块 (2个 Cb块和 2个 Cr块 ),其排列顺序如图 3-9所示 ;
4:4:4格式,一个宏块由 12个块组成,其中包括 4个亮度块 (Y),8个色差块 (4个 Cb
块和 4个 Cr块 ),其排列顺序如图 3-10所示 ;
0 1
2 3
4 5
Y Cb Cr
图 3-8 4:2:0宏块结构
0 1
2 3
4
6
5
7
Y Cb Cr
图 3-9 4:2:2宏块结构
0 1
2 3
5 9
7 11
4 8
6 10
图 3-10 4:2:2宏块结构
Y Cb Cr
Digital Compression and Coding for Multimedia 3- 62
3.2.2 MPEG-2标准 (六 )
对帧图使用 DCT编码的宏块结构和场图使用 DCT编码的宏块结构是不一样的,帧 DCT编码中,每个场由两场扫描行交替组成,场 DCT编码中,每个场仅由两场中之一的场扫描行组成,
块层,
组成宏块的块是 DCT变换的最基本单元,块尺寸为 8× 8(以图像像素为单位 ).每个像素携带有亮度信息 Y和色差信息 Cb和 Cr.
③ 视频比特流的语义规则
MPEG2 ISO/IEC13813-2,对视频比特流的语义规则做了具体规定,制定了更高层语法结构的语义规范 ;不带扩展功能的数据流与 ISO/IEC11172-2规范一致,
扩展功能,序列扩展函数和图像编码扩展函数,
Digital Compression and Coding for Multimedia 3- 63
3.2.2 MPEG-2标准 (七 )
④ 视频解码过程,
MPEG-2视频解码器所完成的视频解码过程是将符合 MPEG-2视频标准的比特流恢复为图像数据的过程,有许多 MPEG-2视频解码器芯片级产品,
编码数据变长码解码 反扫描 反量化 IDCT
运动补偿帧存储器
QFS[n] QF[u][v] F[u][v] f[x][y] d[x][y]
图 3-11 视频解码过程图解码的像素
Digital Compression and Coding for Multimedia 3- 64
3.2.3 MPEG-4标准 (一 )
(1)引言
① MPEG-4是基于内容的压缩编码方法,
内容切换,场景、物体 …… MPEG -1/2:矩形 /方块形物体从场景中截取、编码 无法提取感兴趣的对象子块尺寸,开头取决于物体形状与尺寸 固定尺寸、固定开头子块内容信息相关性强,高压缩比 不会有满意的压缩比
② 基于内容分级扩展,
空域分级 /时域分级 /基于内容的交互 —— 操作、编辑、访问等,
③ 基于内容方式表示的视频数据
VO (Video object) VOP (Video Object Plane)
低要求应用 VO:矩形帧,即 JPEG-1,H.263中矩形帧 ;
高要求应用 VO:场景中某一物体 /层面,二维三维图像 ;
VO有三类信息描述、三类信息的编码技术,
—— 运动信息、形状信息、纹理信息
Digital Compression and Coding for Multimedia 3- 65
3.2.3 MPEG-4标准 (二 )
④ 基于内容的视频编码过程
VO形成,先从原始视频流中分割出 VO;
编码,对各个 VO分别独立编码,即对不同 VO的运动信息、形状信息和纹理信息这三类信息分别编码、分配不同的码字 ;
复合,将各个 VO的码流复合成一个符合 MPEG-4标准的位流 ;
编码和复合阶段可加入用户的交互控制或智能化算法、控制标准,提供了灵活的框架和开放的工具集,句法描述语言 MSDL与工具集的不同组合,支持功能的不同组合,
(2) 基于 VOP (Video Object Plane)的编码
VO是场景中某一 (物体 )对象,由时间上连续的帧画面序列组成 ;
VOP是某一时刻某一帧画面 VO;
VOP编码,对某一时刻该帧画面 VO的形状、运动、纹理信息编码,
Digital Compression and Coding for Multimedia 3- 66
3.2.3 MPEG-4标准 (三 )
① 形状编码,
VOP表示,二值图 (0,1):
0:非 VOP区域 (背景 );
1:VOP区域灰度图 (0~255)灰度分层,
0:非 VOP区域 ;
1~255:灰度图表示形状边界轮廓比二值图柔和
编码方法,位图法、梯度图 ……
VOP用边框框住 ;边框长宽均为 16的整数倍,保证边框最小位图是边框矩阵,矩阵元素为 0~255(或 0,1);
矩阵被分割成 16× 16的形状块,边界信息包含在块中,
可用梯度图表示 ;
其他基于几何轮廓的编码技术,
边框形状块
VOP
Digital Compression and Coding for Multimedia 3- 67
3.2.3 MPEG-4标准 (四 )
② 运动估计和运动补偿,
同 MPEG-1,H.263等一样 ;
三种帧格式,表示运动补偿类型不同,
I-VOP 帧内图
P-VOP 预测图
V-VOP双向预测图
边框分成 16× 16的宏块,宏块由 8× 8的块构成 ;
运动估计和运动补偿可以基于宏块,也可以基于块 ;
采用技术,
H.263:半像素搜索技术 (Half pixel searching);重迭补偿技术 (Over
lapped motion compensation);
适用任意形状的 VOP区域,重复填充 (Repetitive Padding);修改的块匹配 (Modified Block Matching)
t
I-VOP
B-VOP P-VOP
Digital Compression and Coding for Multimedia 3- 68
3.2.3 MPEG-4标准 (五 )
③ 纹理编码,
纹理信息,
帧内编码的 I-VOP像素值 ;
帧间编码的 P-VOP,B-VOP的运动估计残差值 ;
VOP边框被分成 16× 16的宏块 ;
宏块由 8× 8的块组成,
DCT变换是基于 8× 8:
VOP外、边框内的块,不编码 ;
VOP内的块,DCT编码 ;
部分 VOP内、部分 VOP外的块,用”重复填充”方法填充 VOP外部分
(对于残差块只需填零 )再由 DCT编码 ;
对 DCT系数再进行量化,Z扫描、游程及 Huffman编码,
VOP 部分在 VOP内、部分在 VOP外的宏块
VOP内的宏块 VOP外的宏块
Digital Compression and Coding for Multimedia 3- 69
3.2.3 MPEG-4标准 (六 )
④ 分级 (数据 )扩展编码
视频序列
MPEG-4利用 VOL结构进行空域分级和时域分级的扩展,至少两个 VOL,一个基本层,一个增强层,
空域分级,用增强层来增加基本层的空域分辨率 ;
时域分级,用增强层来增加基本层中感兴趣区域的时域分辨率,
视频段 VS序列层视频对象 VO序列层视频对象层 VOL序列层视频对象平面 VOP序列层
VS0 VS1 ……
VO0 VO1 ……
VOL0 VOL1 … 基本层、增强层每层表示一 种分辨率
VOP0 VOP1 VOP0 VOP1 … 时间上的连续
Digital Compression and Coding for Multimedia 3- 70
3.2.3 MPEG-4标准 (七 )
(3) MPEG-4标准功能和压缩率
①基于内容的交互性
a.基于内容的多媒体数据访问工具
通过工具提供基于 AV内容的数据访问,
索引、超链接、查询、浏览、上载、下载、删除等
从在线的程序库和传输信息的数据库中进行基于内容的检索,
b.基于内容的处理和比特流编辑
MPEG-4句法描述语言和编码模式,支持基于内容的处理和比特流编辑,无需代码转换,MSDL是有高度灵活性和可扩展性的 ;
交互式家庭购物、家庭影院的制作和编辑、符号语言编译或标题的嵌入、数字特技。
Digital Compression and Coding for Multimedia 3- 71
3.2.3 MPEG-4标准 (八 )
c.混合自然和人工数据编码
人工画面 /对象与自然画面 /对象的组合 (为文本与图形覆盖 ),对自然和人工音频和视频数据进行编码和处理的能力 ;
解码器可控制方法,人工数据与原始 AV组合,便于交互,
游戏节目中动画与合成音响、自然 AV组合;观众可移动和传送覆盖在要查看的视频之上的图形,从不同的观察点描绘图形和声音,
d.改进的时间随机访问
在有限时间内,以较高的分辨率、随机访问视听序列的部分内容 (为帧或对象 ),包括甚低比特率的常规随机访问 ;
从远程终端通过有限容量的媒体随机访问 AV数据,在单一的 AV对象上进行”快进”,
Digital Compression and Coding for Multimedia 3- 72
3.2.3 MPEG-4标准 (九 )
② 压缩率
a.改进的编码效率
对 MPEG-4的特定应用,将提供类似比特率的较好的 AV质量 ;
低带宽信道上有效传送 AV数据 ;
在有限容量媒体上有效存储 AV数据,如磁盘
b.多重并行数据流的编码,
MPEG-4提供对画面的多视图 /声音进行有效编码的能力,在产生的基本流之间提供足够的同步信息。对立体声视频应用,MPEG-4将包括在相同画面的多视图或听点中冗余的能力 ;
多媒体表演、虚拟现实游戏、三维动画 ;
多媒体演示和教育,
Digital Compression and Coding for Multimedia 3- 73
3.2.4 MPEG-7标准
MPEG-7新一代 AV编码国际标准
(1)产生背景
基于关键字或文件名的检索方法,不适于数据量大、无天然结构特性的 AV数据查找 ;
AV数据的基于内容的检索 ;
定义一种描述 AV信息内容的格式,与其存储形式 (编码 )相关 ;
1998.11~2000.11制定支持多媒体信息基于内容检索编码,
(2)目标
正式名称,多媒体内容描述接口 ;
为各种类型的多媒体信息规定一种标准化的描述,它与信息内容一起支持用户对其感兴趣的资料进行快速、有效的检索 ;
信息资料,静态图像、图形、音频、动态视频、合成信息 ;
标准化描述可加载多媒体资料上 (不管压缩形式、表示格式 )就可被检索了,
(3)应用领域
数字化图书馆 (图像分类目录、音乐字典、图像分析 );
多媒体名录服务 (Yellow Page);
广播式媒体选择 (收音机频道、电视频道 );
多媒体编辑 (个人电子新闻服务,媒体著作 );
教育 ;
旅游信息引导 ;购物 ;
娱乐 (寻找游戏、卡拉 OK节目 ).
Digital Compression and Coding for Multimedia 3- 74
3.2.5 MPEG系列标准的原则 (一 )
不对编码方法做规定,只规定最后的数据格式,不管采用何种方法获得这些数据格式 ;
MPEG-7只规定了信息内容描述格式,不规定从原始多媒体信息抽取内容描述的方法,
多媒体数据内容的描述
①描述原则
全面的描述原则,相同资料可使用不同类型的特征描述,适应具体应用 ;
多重描述,支持对相同资料进行多重描述 ;
分层描述,基于多媒体资料的抽象级别描述多媒体内容,支持不同描述符的分层表示,支持音频、视频及其他在交叉模式下的查询,支持描述符的优先级 ;
Digital Compression and Coding for Multimedia 3- 75
3.2.5 MPEG系列标准的原则 (二 )
② 多媒体特征类型
各种类型的多媒体特征,N维时空、客观、主观、产品、合成信息以及概念 ;
除了内容描述外,还可描述其他信息,形式、存取条件、类别、链接上下文、交互等,
③ 视觉数据的描述
特征,
对象、颜色、纹理、轮廓、形状、体积、运动、变形、空间元素 ;
静止和动态图像,视觉对象的源和它的特性、模型等 ;
数据描述,允许被索引数据或多或少粗略可视化 ;
数据格式,模拟 /数字视频 /电影、静止图像、图形,3D模型与视频关联的编辑数据 ;
Digital Compression and Coding for Multimedia 3- 76
3.2.5 MPEG系列标准的原则 (三 )
数据类型,自然视频、静态图像、图形、动画、三维模型、编辑信息,
④ 听觉数据的描述
特征,
频率轮廓线、音频对象、音色、和声、频率特性、振幅、时间结构、
文本内容、声波近似值、原型声音、空间结构、声源和它的模型和特性 ;
数据描述,允许允许被索引数据或多或少粗略可听化 ;
数据格式,模拟 /数字音频,MIDI、基于模型的音频、产品数据等 ;
数据类型,声音轨迹、音乐、原子声音效果、语音、符号音频表示、
混合信息等,