第11章 MPEG简介
***************************************************************************
11.1 MPEG是什么
11.1.1 MPEG是什么
11.1.2 MPEG文件的创建过程
11.2 MPEG-1数字电视标准
11.3 MPEG-2数字电视标准
11.4 MPEG-4多媒体应用标准
11.5 MPEG-7多媒体内容描述接口练习与思考题参考文献和站点
***************************************************************************
MPEG标准一直是许多科研机构和大学的科研热点,也是工业界产品开发的热点。MPEG标准阐明了声音和电视图像的编码和解码过程,严格规定了声音和图像数据编码后组成比特数据流的句法,提供了解码器的测试方法等,但没有对所有内容都作严格规定,尤其是对压缩和解压缩的算法,这样既保证了解码器能对符合MPEG标准的声音数据和电视图像数据进行正确解码,又给MPEG标准的具体实现留有很大余地。人们可以不断改进编码和解码算法,提高声音和电视图像的质量以及编码效率。
本章介绍MPEG标准的概貌,为读者比较深入地了解MPEG提供最基本的背景材料。如果读者感兴趣可参考本章提供的参考文献[1]~[3]。
11.1 MPEG是什么
11.1.1 MPEG是什么
MPEG(Moving Picture Expert Group)是在1988年由国际标准化组织(International Organization for Standardization,ISO)和国际电工委员会(International Electrotechnical Commission,IEC)联合成立的专家组,负责开发电视图像数据和声音数据的编码、解码和它们的同步等标准。这个专家组开发的标准称为MPEG标准,到目前为止,已经开发和正在开发的MPEG标准有:
MPEG-1:数字电视标准,1992年正式发布。
MPEG-2:数字电视标准。
MPEG-3:已于1992年7月合并到高清晰度电视(High-Definition TV,HDTV)工作组。
MPEG-4:多媒体应用标准(1999年发布)。
MPEG-5:直至1998年9月还没有见到定义。
MPEG-6:直至1998年9月还没有见到定义。
MPEG-7:多媒体内容描述接口标准(正在研究)。
MPEG-1和-2标准已经正式发布,并且得到广泛应用。例如,CD-交互系统,在网络上的数字声音广播、数字电视广播和影视点播等。表11-01是MPEG1和2的典型编码参数。
表1101 MPEG1和2典型的编码参数
MPEG-1
MPEG-2 (基本型)
标准化时间
1992年
1994年(DIS)
主要应用
CDROM上的数字电视,VCD
数字TV,DVD
空间分辨率
CIF格式(1/4 TV),288 × 360像素
TV,576 × 720像素
时间分辨率
25 - 30 帧/秒
50-60 场/秒
位速率
1.5 Mbit/s
15 Mbit/s
质量
相当于VHS
相当于NTSC/PAL电视
压缩率
20 ~ 30
30 ~ 40
11.1.2 MPEG文件的创建过程与其他ISO标准文件一样,MPEG标准文件的创建过程分成4个阶段:
工作文件(Working Draft,WD):工作组(Working Group,WG)准备的工作文件委员会草案(Committee Draft,CD):从工作组WG准备好的工作文件WD提升上来的文件。这是ISO文档的最初形式,它由ISO内部正式调查研究和投票表决。
国际标准草案(Draft International Standard,DIS):投票成员国对CD的内容和说明满意之后由委员会草案CD提升上来的文件。
国际标准(International Standard,IS):由投票成员国、ISO的其他部门和其他委员会投票通过之后出版发布的文件。
11.2 MPEG-1数字电视标准
MPEG-1处理的是标准图像交换格式(Standard Interchange format,SIF)或者称为源输入格式(Source Input Format,SIF)的电视,即NTSC制为352像素(240行/帧(30帧/秒,PAL制为352像素(288行/帧(25帧/秒,压缩的输出速率定义在1.5 Mbit/s以下。这个标准主要是针对当时具有这种数据传输率的CD-ROM和网络而开发的,用于在CD-ROM上存储数字影视和在网络上传输数字影视。
MPEG-1的标准号为ISO/IEC 11172,标准名称为“信息技术——用于数据速率高达大约1.5 Mbit/s的数字存储媒体的电视图像和伴音编码”Information technology — Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s)。它已于1991年底被ISO/IEC采纳,由五个部分组成:
① MPEG-1系统,写成MPEG-1 Systems,规定电视图像数据、声音数据及其他相关数据的同步,标准名是ISO/IEC 11172-1:1993 Information technology — Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s — Part 1:Systems。
② MPEG-1电视图像,写成MPEG-1 Video,规定电视数据的编码和解码,标准名是ISO/IEC 11172-2:1993 Information technology — Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s — Part 2:Video。
③ MPEG-1声音,写成MPEG-1 Audio,规定声音数据的编码和解码,标准名是ISO/IEC 11172-3:1993 Information technology — Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s — Part 3:Audio。
图11-01表示了MPEG-1译码器的方框图。

图11-01 MPEG-1译码器方框图
④ MPEG-1一致性测试,写成MPEG-1 Conformance testing,标准名是ISO/IEC 11172-4:1995 Information technology — Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s — Part 4:Conformance testing。这个标准详细说明如何测试比特数据流(bitstreams)和解码器是否满足MPEG-1前3个部分(Part1,2和3)中所规定的要求。这些测试可由厂商和用户实施。
⑤ MPEG-1软件模拟,写成MPEG-1 Software simulation,标准名是ISO/IEC TR 11172-5 Information technology —Coding of moving pictures and associated audio for digital storage media up to about 1.5 Mbit/s— Part 5:Software simulation。实际上,这部分的内容不是一个标准,而是一个技术报告,给出了用软件执行MPEG-1标准前3个部分的结果。
11.3 MPEG-2数字电视标准
MPEG-2标准从1990年开始研究,1994发布DIS。它是一个直接与数字电视广播有关的高质量图像和声音编码标准。MPEG2可以说是MPEG1的扩充,因为它们的基本编码算法都相同。但MPEG2增加了许多MPEG1所没有的功能,例如增加了隔行扫描电视的编码,提供了位速率的可变性能(scalability)功能。MPEG-2要达到的最基本目标是:位速率为4~9 Mbit/s,最高达15 Mbit/s。
MPEG-2的标准号为ISO/IEC 13818,标准名称为“信息技术—电视图像和伴音信息的通用编码(Information technology — Generic coding of moving pictures and associated audio information )”。MPEG-2包含9个部分:
① MPEG-2系统,写成MPEG-2 Systems,规定电视图像数据、声音数据及其他相关数据的同步,标准名是ISO/IEC 13818-1:1996 Information technology — Generic coding of moving pictures and associated audio information,Systems。
MPEG-2的系统模型如图11-02所示。这个标准主要是用来定义电视图像数据、声音数据和其他数据的组合,把这些数据组合成一个或者多个适合于存储或者传输的基本数据流。数据流有两种形式,一种称为程序数据流(Program Stream,PS),另一种称为传输数据流(Transport Stream,TS)。程序数据流是组合一个或者多个规格化的即包化基本数据流(Packetised Elementary Streams,PES)而生成的一种数据流,用在出现错误相对比较少的环境下,适合使用软件处理的应用;传输数据流也是组合一个或者多个PES而生成的一种数据流,它用在出现错误相对比较多的环境下,例如在有损失或者有噪声的传输系统中。

图11-02 MPEG-2的系统模型
② MPEG-2电视图像,写成MPEG-2 Video,规定电视数据的编码和解码,标准名是ISO/IEC 13818-2:1996 Information technology — Generic coding of moving pictures and associated audio information,Video。
为了适应各种应用,这个标准定义了电视图像的各种规格,称为配置(profile),如表11-02所示。表中的“X”符号表示MPEG-2支持的配置。各种配置的详细解释请参看10.3。
表11-02 MPEG-2电视图像配置配置
等级
Simple
(简化型)
Main
(基本型)
SNR scalable
(信噪比可变型)
Spatial scalable
(空间分辨率可变型)
High
(高级型)
Multiview
(多视角型)
4:2:2
High level (高级)

X

X

High-1440 level
(高级1440)

X

X
X

Main level (基本级)
X
X
X

X
X
X
Low level (低级)

X
X

有些人认为使用4:2:0子采样格式的图像质量还不够好,因此在1996年的标准中增加了4:2:2子采样格式的图像。多视角配置(Multiview Profile,MVP)是附加的配置。
③ MPEG-2声音,写成MPEG-2 Audio,规定声音数据的编码和解码,是MPEG-1 Audio的扩充,支持多个声道,标准名是ISO/IEC 13818-3:1998 Information technology — Generic coding of moving pictures and associated audio information — Part 3:Audio。
④ MPEG-2一致性测试,写成MPEG-2 Conformance testing,标准名是ISO/IEC DIS 13818-4 Information technology — Generic coding of moving pictures and associated audio information — Part 4:Conformance testing。
⑤ MPEG-2软件模拟,写成MPEG-2 Software simulation,标准名是ISO/IEC TR 13818-5:1997 Information technology — Generic coding of moving pictures and associated audio information — Part 5:Software simulation。
⑥ MPEG-2数字存储媒体命令和控制扩展协议,写成MPEG-2 Extensions for DSM-CC,标准名是ISO/IEC DIS 13818-6 Information technology — Generic coding of moving pictures and associated audio information — Part 6:Extensions for DSM-CC。
这是一个数字存储媒体命令和控制(Digital Storage Media Command and Control,DSM-CC)扩展协议,用于管理MPEG1和MPEG2的数据流,使数据流既可在单机上运行,又可在异构网络(即用类似设备构造但运行不同协议的网络)环境下运行。在DSM-CC模型中,服务器(server)和客户器(client)都被认为是DSM-CC网络的用户(user),DSMCC定义了一个称为会话和资源管理(Session and Resource Manager,SRM)的实体,用来集中管理网络中的会话和资源,如图11-03所示。

图11-03 DSM-CC参考模型[3]
⑦MPEG-2先进声音编码,写成MPEG-2 AAC,是多声道声音编码算法标准。这个标准除后向兼容MPEG-1 Audio标准之外,还有非后向兼容的声音标准。标准名是ISO/IEC 13818-7:1997 Information technology — Generic coding of moving pictures and associated audio information — Part 7:Advanced Audio Coding (AAC)。
⑧ MPEG-2系统解码器实时接口扩展标准,标准名是ISO/IEC 13818-9:1996 Information technology — Generic coding of moving pictures and associated audio information — Part 9:Extension for real time interface for systems decoders。
这是与传输数据流(Transport Stream)的实时接口(real-time interface,RTI)标准,它可以用来适应来自网络的传输数据流,如图11-04所示。

图11-04 实时接口参考模型
⑨ MPEG-2 DSM-CC一致性扩展测试,标准名是ISO/IEC DIS 13818-10 Information technology — Generic coding of moving pictures and associated audio information — Part 10:Conformance extensions for Digital Storage Media Command and Control (DSM-CC)。
( MPEG-2先进声音编码标准修正版,标准名是Amendment 1 to ISO/IEC TR 13818-5:1997 Amendment 1 to ISO/IEC TR 13818-5:1997 Advanced Audio Coding (AAA)。
最后要说明的是,MPEG-2的Part 8原计划用于采样精度为10比特的电视图像编码,但由于目前工业界对此兴趣不大,因此该标准已暂停开发。
11.4 MPEG-4多媒体应用标准
11.4.1 标准概要
MPEG-4从1994年开始工作,它是为视听(audio-visual)数据的编码和交互播放开发算法和工具,是一个数据速率很低的多媒体通信标准。MPEG-4的目标是要在异构网络环境下能够高度可靠地工作,并且具有很强的交互功能。
为了达到这个目标,MPEG-4引入了对象基表达(object-based representation)的概念,用来表达视听对象(audio/visual objects,AVO);MPEG-4扩充了编码的数据类型,由自然数据对象扩展到计算机生成的合成数据对象,采用合成对象/自然对象混合编码(Synthetic/Natural Hybrid Coding,SNHC)算法;在实现交互功能和重用对象中引入了组合、合成和编排等重要概念。MPEG-4系统构造如图11-05所示,接收端的构造部件如图11-06所示。

图11-05 MPEG-4系统示意图

图11-06 MPEG-4接收端的主要部件[4]
MPEG-4中制定了一个称为传输多媒体集成框架(Delivery Multimedia Integration Framework,DMIF)的会话协议,它用来管理多媒体数据流。该协议在原则上与文件传输协议FTP(File Transfer Protocol)类似,其差别是:FTP返回的是数据,而DMIF返回的是指向到何处获取数据流的指针。DMIF覆盖了三种主要技术:广播技术,交互网络技术和光盘技术,如图11-07所示。

图11-07 DMIF覆盖的三种主要技术[4]
MPEG-4将应用在移动通信和公用电话交换网(public switched telephone network,PSTN)上,并支持可视电话(videophone)、电视邮件(video mail)、电子报纸(electronic newspapers)和其他低数据传输速率场合下的应用。
MPEG-4的标准名是Very-low bitrate audio-visual coding (甚低速率视听编码)。截止到1998年9月,已作为国际标准草案(Draft International Standard,DIS)的MPEG-4文件有6个部分,它们是:
① MPEG-4系统标准,标准名是ISO/IEC DIS 14496-1 Very-low bitrate audio-visual coding — Part 1,Systems。
② MPEG-4电视图像标准,标准名是ISO/IEC DIS 14496-2 Very low bitrate audio-visual coding — Part 2,Video。
③ MPEG-4声音标准,标准名是ISO/IEC DIS 14496-3 Very low bitrate audio-visual coding — Part 3,Audio。
④ MPEG-4一致性测试标准,标准名是ISO/IEC DIS 14496-4 Very-low bitrate audio-visual coding — Part 4,Conformance Testing。
⑤ MPEG-4参考软件,标准名是ISO/IEC DIS 14496-5 Very-low bitrate audio-visual coding — Part 5,Reference software
⑥ MPEG-4传输多媒体集成框架,标准名是ISO/IEC DIS 14496-6 Very-low bitrate audio-visual coding — Part 6,Delivery Multimedia Integration Framework (DMIF)。
11.5 MPEG-7多媒体内容描述接口
MPEG-7的工作于1996年启动,名称叫做多媒体内容描述接口(Multimedia Content Description Interface),目的是制定一套描述符标准,用来描述各种类型的多媒体信息及它们之间的关系,以便更快更有效地检索信息。这些媒体材料可包括静态图像、图形、3D模型、声音、话音、电视以及在多媒体演示中它们之间的组合关系。在某些情况下,数据类型还可包括面部特性和个人特性的表达。
与其他的MPEG标准一样,MPEG-7是为满足特定需求而制定的视听信息标准。MPEG-7标准也是建筑在其他的标准之上的,例如,PCM,MPEG-1,MPEG-2和MPEG-4等等。在MPEG-7中,例如MPEG-4中使用的形状描述符、MPEG-1和MPEG-2中使用的移动矢量(motion vector)等都可能在MPEG-7中用到。
图11-08表示了MPEG-7的处理链(processing chain),这是高度抽象的方框图。在这个处理链中包含有三个方框:特征抽取(feature extraction)、标准描述(standard description)和检索工具(search engine)。特征的自动分析和抽取对MPEG-7是至关重要的,抽象程度越高,自动抽取也越困难,而且不是都能够自动抽取的,因此开发自动的和交互式半自动抽取的算法和工具都是很有用的。尽管如此,特征抽取和检索工具都不包含在MPEG-7标准中,而是留给大家去竞争,以便得到最好的算法和工具。

图11-08 MPEG-7的范围[4]
MPEG-7的应用领域包括:数字图书馆(Digital library),例如图像目录、音乐词典等;多媒体目录服务(multimedia directory services),例如黄页(yellow pages);广播媒体的选择,例如无线电频道,TV频道等;多媒体编辑,例如个人电子新闻服务,多媒体创作等等。潜在应用的应用领域包括:教育、娱乐、新闻、旅游、医疗、购物等等。
练习与思考题回顾制定MPEG标准的4个阶段和各阶段的提交的文件类型。
MPEG-1,-2,-4和-7的目标是什么?
参考文献和站点
http://www.cselt.it/mpeg/standards/mpeg-4/mpeg-4.htm(重访日期:2001年12月)
http://mpeg.telecomitalialab.com/standards/mpeg-7/mpeg-7.htm(重访日期:2001年12月)
http://mpeg.telecomitalialab.com/standards/mpeg-2/mpeg-2.htm(重访日期:2001年12月)
ISO/IEC JTC1/SC29/WG11 N2323 July 1998