XIDIAN
西安电子科技大学多媒体研究所
http://www.mti.xidian.edu.cn
视频编码综述数字视频处理
模拟视频
真空管摄像机(电子束进行扫描)
CCD摄像机(单传感器,三传感器)
光盘,磁带
数字视频
分量数字化和复合信号数字化
数字视频有利于进行视频处理数字视频处理
二维(三维)运动估算
运动分割
图像恢复与复原
压缩编码
基于对象的应用数字视频应用
数字电视技术
视频会议
交互式音视频
可视电话
低比特率视频应用视频编码(信源)标准
水平标准(数字音视频编解码标准)
MPEG系列
H.26X系列
AVS(中国标准 )
垂直标准(应用标准)
流媒体( ISMA)
数字广播( DVB)
激光视盘( DVD联盟)
视频压缩编码发展历程多媒体数据压缩发展前景
目前情况:
JPEG 25-30倍
DVD 50倍
高清晰电视 75倍
H.263电信标准 70- 80倍
将来:
H.264,MPEG4 目标 250倍
日本数字电视 2030年达到 300倍视频压缩的框架结构
颜色空间变换
变换编码与量化
熵编码
运动补偿
基于对象的编码方式视频压缩要求
随机存取
快速正向(逆向)搜索
逆向重播
视听同步
编 /解码延迟视频数据压缩原理
空间冗余性
变换编码
帧内预测编码
时间冗余性
帧间预测
运动补偿
视觉冗余性
非线性量化
对象编码等去除空间冗余
图像分块
帧内预测
DCT变换(近似整数变换)
图像分块
分块
进行 DCT变换
8× 8
4× 4 ( H.264)
宏块 ( 16× 16)
图像子采样
16× 16 luma (亮度 )
8× 8 Cb和 Cr (色差 )
帧内预测( intra prediction)
相邻象素(块)经过编解码过程,
A~M是真实象素值,如何预测 a~p
帧内预测( intra prediction)
9种不同的预测模式帧内预测
( intra
prediction)
帧内预测示例原始帧帧内预测示例帧内预测图像变换与量化
( transform and quantisation)
DCT变换
DWT变换 (复杂度高,不适合视频编码)
整数变换(近似 DCT变换)
对预测后的系数进行变换对每个单独的彩色图像分量,把整个分量图像分成 8× 8的图像块,如图所示,并作为两维离散余弦变换 DCT的输入。通过 DCT变换,把能量集中在少数几个系数上。
DCT变换使用下式计算逆变换使用下式计算
DCT变换
DCT的矩阵变换形式
X是一个 N× N的矩阵,经过 DCT变换后生成矩阵 Y,A是正交变换矩阵正向变换逆向变换
DCT的矩阵变换形式正交变换矩阵
DCT的变换缺点
采用浮点数运算,硬件实现较复杂
目前没有一种较好的工具可以较高精度的计算变换系数,变换前后结果存在误差
(舍入误差)
如何寻找一种类似 DCT的更好变换方式?
整数变换的优点
系数变换采用定点运算,避免复杂的浮点运算,提高运算速度
只采用加法和移位运算,使操作简单
采用 4*4的整数运算,避免了小数系数造成的运算偏差,使反变换严格匹配
4× 4的变换块一定程度上减轻了图像的块失真效应变换矩阵分析变换矩阵形式变换变换矩阵形式变换逆变换变换后处理为进一步利用图像各块之间的相关性,对 16× 16的帧内预测残差进一步进行 Hadamard运算。
Hadamard变换
1
11
11
H
1
nn
n
nn
HH
H
HH?
哈达码变换不是正交变换,但变换前后的能量成倍数关系整数变换中的量化
如何避免浮点数运算?
整数变换后采用均匀量化的方式,Y是变换后的系数,Z是量化后的系数,Qstep是量化步距整数变换中的量化
PF是变换后产生的的浮点数,QP在标准中定义的量化表,通过移位运算可以完成上述操作整数变换中的量化量化表 QP
量化系数每隔 6个便加倍,可以控制量化质量和码流速率整数变换中的量化系数 MF取值表帧间预测如何去除时间上的冗余
运动估计 (Motion Estimation)
Motion estimation of a macroblock involves find a 16*16-
sample region in a reference frame that closely mathes the
current macroblock
运动补偿 (Motion Compensation)
The selected ‘best’ matching region in the reference
is subtracted from the current macroblock to
produce a residual macroblock that is encoded and
transmitted together with a motion vector
describing the position of the best matching region
运动估计示意图运动估计示意图宏块大小对运动补偿的影响宏块大小对运动补偿的影响无补偿 16× 16
8× 8 4× 4
亚象素以及 1/4象素估计原图像 亚象素插值图像不同象素运动矢量估计不同象素运动矢量估计
Tree structured motion compensation
Tree structured motion compensation
MPEG1视频编码器框架
MPEG1视频压缩算法运动图像序列图片组( GOP)
I B B P B B P …
图片条( Slice)
宏块
Macro Block
16
16
块( Block)
8
8
分割:
GOP中三类图像帧内图像 I
预测图像 P
双向预测图像 B
MPEG1视频压缩算法视频类型 I P B 平均
MPEG-1 CIF 150000b 50000b 20000b 38000b
MPEG-2 601 400000b 200000b 80000b 130000b
为了在图像质量和数据速率之间作出调整,
MPEG编码器允许( 1)选择内帧 I的频率和位置,
( 2)选择 I和 P之间双向预测帧 B的数目。
I帧图像编码算法
P帧图像的编码运动矢量算法框图双向预测编码框图
H.261概述
H.261也称 P× 64,这是 ITU-T( 前身为
CCITT) 最早制定的关于视频编码的国际标准。考虑到 ISDN的传输码率以 64kbps为单位,因此以 p× 64kbps( p= 1~ 30) 作为为 H.261的标准码率。 H.261标准主要用于电视电话和电视会议。它支持 QCIF
( p=1,2),CIF( p>2) 两种图像输入格式。
H.26标准系列
ITU-T 于 1990年成立了,ATM视频编码专家组,,负责制定适用于 B-ISDN信道 ATM编码传输标准。该专家组于 1993年 11月与 ISO的 MPEG
专家组联合提出了 H.262建议草案( MPEG-2),
用于数字存储介质和数字视频通信中图像信息的编码表示和解码规定。该标准向下兼容,能够在很宽的范围内对不同分辨率和不同输出比特的图像信号有效的进行压缩。
H.263是 ITU制定的低比特率视频信号压缩标准,
可以应用于 PSTN和移动通信网。( 30Kb/s)
MPEG标准概述
MPEG(Moving Picture Expert Group)是在 1988年由国际标准化组织 (ISO)和国际电工委员会 (IEC)联合成立的专家组,负责开发电视图像数据和声音数据的编码、解码和它们的同步等标准。这个专家组开发的标准称为 MPEG标准。
MPEG技术是近 10年国际图像压缩编码技术的结晶,
也是伴随信息时代应运而生的热门技术。 MPEG主要包括 MPEG视频,MPEG音频和 MPEG系统(视音频同步)三个部分。 MPEG压缩标准是针对运动图像而设计的,其平均压缩比可达 50,1,压缩率比较高,且又有统一的格式,兼容性好。
MPEG标准概述
MPEG- 1,数字电视标准,1992年正式发布。
是针对具有 1.5Mbps以下数据传输率的数字存储或传输媒体的视频及其伴音编码、解码的国际标准。
MPEG- 1主要用于在 CD- ROM上存储视频和音频信号。视频编码采用标准交换格式( SIF,
类似于 CIF 352× 288),4∶ 1∶ 1的采样方式,
压缩率约 26∶ 1,图像质量接近于家用录像系统
( VHS)。
MPEG音频编码器的输入为线性 PCM信号,双声道,采样频率为 32kHz,44.1kHz或者 48kHz,
输出为 32kb/s~384kb/s,可以达到 CD质量。
MPEG标准概述
MPEG- 2,数字电视标准,1994年制定 。 制定
MPEG2的初衷是得到一个针对广播电视质量
( CCIR601格式,720× 576)的视频信号的压缩标准。但实际上得到是一个通用的标准,它能够在很宽范围内对不同分辨率和不同输出比特率的图像信号进行压缩。
MPEG- 2针对广播电视质量的视频的输出速率为 4~ 9Mb/s,最高达 15Mb/s。
MPGE- 2音频标准与 MPEG- 1兼容,但支持更多的声道( 5.1,7.1),多样化的采样频率,更宽的数据输出速率范围 ( 8~ 640kb/s)。
MPGE- 2主要用于高画质的动画,DVD,数字卫星通信及数字电视广播。
MPEG标准概述
MPEG- 4,多媒体应用标准,1999年正式发布。
MPEG- 4的第一个目标是制定一个通用的低码率( 64kb/s以下)压缩标准,并采用第二代压缩算法,以有效的支持甚低码率( very low bit
rate) 应用,比如移动通信中的声像业务,和窄带多媒体通信等等。
MPEG- 4的第二个目标是实现基于内容的压缩编码,以提高可靠性,支持多媒体数据的集成,
和交互式多媒体业务等等。
MPEG4的音频标准不仅支持自然声音,而且支持合成声音。
西安电子科技大学多媒体研究所
http://www.mti.xidian.edu.cn
视频编码综述数字视频处理
模拟视频
真空管摄像机(电子束进行扫描)
CCD摄像机(单传感器,三传感器)
光盘,磁带
数字视频
分量数字化和复合信号数字化
数字视频有利于进行视频处理数字视频处理
二维(三维)运动估算
运动分割
图像恢复与复原
压缩编码
基于对象的应用数字视频应用
数字电视技术
视频会议
交互式音视频
可视电话
低比特率视频应用视频编码(信源)标准
水平标准(数字音视频编解码标准)
MPEG系列
H.26X系列
AVS(中国标准 )
垂直标准(应用标准)
流媒体( ISMA)
数字广播( DVB)
激光视盘( DVD联盟)
视频压缩编码发展历程多媒体数据压缩发展前景
目前情况:
JPEG 25-30倍
DVD 50倍
高清晰电视 75倍
H.263电信标准 70- 80倍
将来:
H.264,MPEG4 目标 250倍
日本数字电视 2030年达到 300倍视频压缩的框架结构
颜色空间变换
变换编码与量化
熵编码
运动补偿
基于对象的编码方式视频压缩要求
随机存取
快速正向(逆向)搜索
逆向重播
视听同步
编 /解码延迟视频数据压缩原理
空间冗余性
变换编码
帧内预测编码
时间冗余性
帧间预测
运动补偿
视觉冗余性
非线性量化
对象编码等去除空间冗余
图像分块
帧内预测
DCT变换(近似整数变换)
图像分块
分块
进行 DCT变换
8× 8
4× 4 ( H.264)
宏块 ( 16× 16)
图像子采样
16× 16 luma (亮度 )
8× 8 Cb和 Cr (色差 )
帧内预测( intra prediction)
相邻象素(块)经过编解码过程,
A~M是真实象素值,如何预测 a~p
帧内预测( intra prediction)
9种不同的预测模式帧内预测
( intra
prediction)
帧内预测示例原始帧帧内预测示例帧内预测图像变换与量化
( transform and quantisation)
DCT变换
DWT变换 (复杂度高,不适合视频编码)
整数变换(近似 DCT变换)
对预测后的系数进行变换对每个单独的彩色图像分量,把整个分量图像分成 8× 8的图像块,如图所示,并作为两维离散余弦变换 DCT的输入。通过 DCT变换,把能量集中在少数几个系数上。
DCT变换使用下式计算逆变换使用下式计算
DCT变换
DCT的矩阵变换形式
X是一个 N× N的矩阵,经过 DCT变换后生成矩阵 Y,A是正交变换矩阵正向变换逆向变换
DCT的矩阵变换形式正交变换矩阵
DCT的变换缺点
采用浮点数运算,硬件实现较复杂
目前没有一种较好的工具可以较高精度的计算变换系数,变换前后结果存在误差
(舍入误差)
如何寻找一种类似 DCT的更好变换方式?
整数变换的优点
系数变换采用定点运算,避免复杂的浮点运算,提高运算速度
只采用加法和移位运算,使操作简单
采用 4*4的整数运算,避免了小数系数造成的运算偏差,使反变换严格匹配
4× 4的变换块一定程度上减轻了图像的块失真效应变换矩阵分析变换矩阵形式变换变换矩阵形式变换逆变换变换后处理为进一步利用图像各块之间的相关性,对 16× 16的帧内预测残差进一步进行 Hadamard运算。
Hadamard变换
1
11
11
H
1
nn
n
nn
HH
H
HH?
哈达码变换不是正交变换,但变换前后的能量成倍数关系整数变换中的量化
如何避免浮点数运算?
整数变换后采用均匀量化的方式,Y是变换后的系数,Z是量化后的系数,Qstep是量化步距整数变换中的量化
PF是变换后产生的的浮点数,QP在标准中定义的量化表,通过移位运算可以完成上述操作整数变换中的量化量化表 QP
量化系数每隔 6个便加倍,可以控制量化质量和码流速率整数变换中的量化系数 MF取值表帧间预测如何去除时间上的冗余
运动估计 (Motion Estimation)
Motion estimation of a macroblock involves find a 16*16-
sample region in a reference frame that closely mathes the
current macroblock
运动补偿 (Motion Compensation)
The selected ‘best’ matching region in the reference
is subtracted from the current macroblock to
produce a residual macroblock that is encoded and
transmitted together with a motion vector
describing the position of the best matching region
运动估计示意图运动估计示意图宏块大小对运动补偿的影响宏块大小对运动补偿的影响无补偿 16× 16
8× 8 4× 4
亚象素以及 1/4象素估计原图像 亚象素插值图像不同象素运动矢量估计不同象素运动矢量估计
Tree structured motion compensation
Tree structured motion compensation
MPEG1视频编码器框架
MPEG1视频压缩算法运动图像序列图片组( GOP)
I B B P B B P …
图片条( Slice)
宏块
Macro Block
16
16
块( Block)
8
8
分割:
GOP中三类图像帧内图像 I
预测图像 P
双向预测图像 B
MPEG1视频压缩算法视频类型 I P B 平均
MPEG-1 CIF 150000b 50000b 20000b 38000b
MPEG-2 601 400000b 200000b 80000b 130000b
为了在图像质量和数据速率之间作出调整,
MPEG编码器允许( 1)选择内帧 I的频率和位置,
( 2)选择 I和 P之间双向预测帧 B的数目。
I帧图像编码算法
P帧图像的编码运动矢量算法框图双向预测编码框图
H.261概述
H.261也称 P× 64,这是 ITU-T( 前身为
CCITT) 最早制定的关于视频编码的国际标准。考虑到 ISDN的传输码率以 64kbps为单位,因此以 p× 64kbps( p= 1~ 30) 作为为 H.261的标准码率。 H.261标准主要用于电视电话和电视会议。它支持 QCIF
( p=1,2),CIF( p>2) 两种图像输入格式。
H.26标准系列
ITU-T 于 1990年成立了,ATM视频编码专家组,,负责制定适用于 B-ISDN信道 ATM编码传输标准。该专家组于 1993年 11月与 ISO的 MPEG
专家组联合提出了 H.262建议草案( MPEG-2),
用于数字存储介质和数字视频通信中图像信息的编码表示和解码规定。该标准向下兼容,能够在很宽的范围内对不同分辨率和不同输出比特的图像信号有效的进行压缩。
H.263是 ITU制定的低比特率视频信号压缩标准,
可以应用于 PSTN和移动通信网。( 30Kb/s)
MPEG标准概述
MPEG(Moving Picture Expert Group)是在 1988年由国际标准化组织 (ISO)和国际电工委员会 (IEC)联合成立的专家组,负责开发电视图像数据和声音数据的编码、解码和它们的同步等标准。这个专家组开发的标准称为 MPEG标准。
MPEG技术是近 10年国际图像压缩编码技术的结晶,
也是伴随信息时代应运而生的热门技术。 MPEG主要包括 MPEG视频,MPEG音频和 MPEG系统(视音频同步)三个部分。 MPEG压缩标准是针对运动图像而设计的,其平均压缩比可达 50,1,压缩率比较高,且又有统一的格式,兼容性好。
MPEG标准概述
MPEG- 1,数字电视标准,1992年正式发布。
是针对具有 1.5Mbps以下数据传输率的数字存储或传输媒体的视频及其伴音编码、解码的国际标准。
MPEG- 1主要用于在 CD- ROM上存储视频和音频信号。视频编码采用标准交换格式( SIF,
类似于 CIF 352× 288),4∶ 1∶ 1的采样方式,
压缩率约 26∶ 1,图像质量接近于家用录像系统
( VHS)。
MPEG音频编码器的输入为线性 PCM信号,双声道,采样频率为 32kHz,44.1kHz或者 48kHz,
输出为 32kb/s~384kb/s,可以达到 CD质量。
MPEG标准概述
MPEG- 2,数字电视标准,1994年制定 。 制定
MPEG2的初衷是得到一个针对广播电视质量
( CCIR601格式,720× 576)的视频信号的压缩标准。但实际上得到是一个通用的标准,它能够在很宽范围内对不同分辨率和不同输出比特率的图像信号进行压缩。
MPEG- 2针对广播电视质量的视频的输出速率为 4~ 9Mb/s,最高达 15Mb/s。
MPGE- 2音频标准与 MPEG- 1兼容,但支持更多的声道( 5.1,7.1),多样化的采样频率,更宽的数据输出速率范围 ( 8~ 640kb/s)。
MPGE- 2主要用于高画质的动画,DVD,数字卫星通信及数字电视广播。
MPEG标准概述
MPEG- 4,多媒体应用标准,1999年正式发布。
MPEG- 4的第一个目标是制定一个通用的低码率( 64kb/s以下)压缩标准,并采用第二代压缩算法,以有效的支持甚低码率( very low bit
rate) 应用,比如移动通信中的声像业务,和窄带多媒体通信等等。
MPEG- 4的第二个目标是实现基于内容的压缩编码,以提高可靠性,支持多媒体数据的集成,
和交互式多媒体业务等等。
MPEG4的音频标准不仅支持自然声音,而且支持合成声音。