多媒体技术基础第一章 绪论第二章 媒体与媒体技术第三章 多媒体数据压缩技术第四章 多媒体硬件基础第五章 多媒体软件平台第六章 多媒体编程技术第七章 多媒体通信网络技术第八章 多媒体信息管理技术第九章 多模态人机交互技术第十章 分布式多媒体处理技术第十一章 多媒体应用第一章 绪论本章内容
多媒体的含义;(重点)
多媒体技术的主要特征;
多媒体技术的产生和发展;
多媒体技术的应用;
多媒体技术研究的主要内容。(重点)
1.1多媒体的基本概念一、多媒体和多媒体技术的含义(理解)
媒体在计算机领域有两种含义:
一是指存储信息的实体,如磁盘等,中文常译为煤质;二是指传递信息的载体,如数字、文字、声音、图形、图像等,中文常译为媒介。
多媒体技术中的媒体指后者。
通常,媒体被分为以下五种类型感觉媒体:指直接作用于人们的感觉器官,从而能使人产生直接感觉的媒体。
如:语言、音乐、自然界的各种声音、
各种图形、动画或文本等。
表示媒体:指为了传送感觉媒体而人为研究出来的媒体。借助这种媒体能更有效的存储感觉媒体或将感觉媒体从一个地方传送到遥远的另一个地方。
如语言编码、电报码、条形码等。
显示媒体:指用于通信中使电信号和感觉媒体之间产生转换的媒体,
如:输入输出设备、键盘、鼠标器、
显示器、打印机等。
存储媒体:指用于存放某种媒体的媒体,如纸张、磁盘、光盘等。
传输媒体:指用于传输某种媒体的媒体。如电话线、电缆、光纤等。
多媒体就是多种媒体的综合?
多媒体是指能够同时获取、处理、编辑、
存储和展示两种以上不同信息媒体的技术,
这些信息包括文字、声音、图形、图像、
动画与视频等。从这个意义中可以看到,
我们常说的多媒体最终归结为一种技术。
不是指媒体本身,而主要是指处理和应用它的一整套技术。因此,多媒体实际上常被当作多媒体技术的同一语。
多媒体技术的定义:
计算机综合处理文本、图形、图象、
音频与视频等多种媒体信息,使多种信息建立逻辑连接,集成为一个系统并且具有交互性。
二、多媒体技术的特性(了解)
多媒体技术的特性主要包括信息载体的多样化、集成性和交互性三个方面,这是多媒体的主要特征。此外还有非循序性、
非纸张输出等。
信息载体的多样化信息载体的多样化是相对于计算机而言的,指的就是信息媒体的多样化。把计算机所能处理的信息空间范围扩展和放大,
而不再局限于数值、文本或特定的图形或图像多媒体的集成性多媒体的集成性应该说是在系统级的一次飞跃。早期多媒体中的各项技术都可单一使用,但很难有大的作为,因为他们是单一、零散的。多媒体的集成性主要表现在两个方面,几多媒体信息媒体的集成和处理这些媒体的设备的集成。
多媒体的交互性多媒体的交互性将向用户提供更加有效的控制和使用信息的手段,同时也为应用开辟了更加广阔的领域。
总之,多媒体最显著的特点是具有媒体的多样性、集成性和交互性。从这个角度就可判断什么是多媒体。如电视等不具备交互性所以不是多媒体。
1.2多媒体技术的产生与发展计算机中信息的表达最初只能用二进制数 0,1表示,它的目的纯粹为了计算。
后来引入 ASCII码等,计算机的功能才逐渐增强。
起源于 20世纪 80年代初期
90年代得到了迅猛的发展
1.3多媒体技术的应用多媒体技术的应用极为广泛。
教育与培训、办公自动化、电子出版、影视创作、旅游与地图、家庭应用、
商业、新闻出版、电视会议、广告宣传等
1.4 多媒体技术研究的内容多媒体的研究一般分为两个主要的方面一是多媒体技术,主要关心基本技术层面的内容;二是多媒体系统,主要重心在多媒体系统的构成与实现。还有专门研究多媒体创作与表现的,则更多的属于艺术的范畴。我们这门课主要强调第一点。
一、多媒体技术的基础媒体是传播信息的载体,需要研究媒体的性质与相应的处理方法,对于每种媒体的采集、存储、传输和处理就是多媒体技术的首要工作。
多媒体的另一个技术基础是数据压缩。
基于时间的媒体,特别是高质量的视频数据媒体,其数据量非常大,不压缩难以在计算机上实现。
本书的第 2章第 3章分别介绍媒体的基本特性和多媒体数据压缩编码的基本方法二、多媒体硬件平台技术大容量的光盘,声音卡,图形显示卡等。计算机 CPU也加入了多媒体与通信的指令体系,扫描仪、彩色打印机、数码相机等。
第 4章将介绍多媒体的基本硬件设备。
三、多媒体软件技术操作系统:基于时间媒体的处理就是最关键的环节。对连续性的媒体来说,多媒体操作系统必须支持时间上的实现要求等,支持系统资源的合理分配等。
多媒体的素材采集和制作技术多媒体创作工具或编辑软件第 5章和第 6章将介绍多媒体软件技术和多媒体编程技术。
四、多媒体信息管理技术信息机数据管理式信息系统的核心问题之一。第 8章将介绍多媒体软件技术和多媒体编程技术。
五、多媒体界面设计与人 -机交互技术第 9章介绍多媒体界面设计和人机交互技术六、多媒体通信与分布应用技术第 7章、第 10章和第 11章介绍第二章 媒体与媒体技术本章内容媒体的种类及特点(重点)
视觉媒体技术(重点)
听觉媒体技术(重点)
触觉媒体技术
2.1媒体的种类和特点一、媒体的种类媒体有感觉媒体、表示媒体、显示媒体、存储媒体、传输媒体。在多媒体技术中研究的媒体主要指的是表示媒体。
(指为了传送感觉媒体而人为研究出来的媒体。借助这种媒体能更有效的存储感觉媒体或将感觉媒体从一个地方传送到遥远的另一个地方。 )
主要的表示媒体有以下三种:
视觉类媒体听觉类媒体触觉类媒体
1、视觉类媒体
(1)位图图像( bitmap)
(2)图形( graphics)
(3)符号(也包括文字和文本)由于符号是人类创造出来表示某种含义的,所以它与使用者的知识有关,是比图形更高级的抽象
(4)视频 (video)
(5)动画( animation)
(6)其他(如用图形表示的某种数据曲线)
2、听觉类媒体
(1)波形声音( wave) 自然界的所有声音的拷贝,是声音数字化的基础。
(2)语音( voice) 也表现为波形声音,有内在的含义。
(3)音乐( music) 更规范,是符号化的声音。
3、触觉类媒体
(1)指点
(2)位置跟踪(为了与系统交互,系统必须了解参与者的身体动作,包括头、眼、手、
肢体等部位的位置与运动方向。)
(3)力反馈与运动反馈(这与跟踪正好相反,
是系统向参与者反馈的运动及力的信息,)
二、媒体的性质和特点
1、各种媒体具有不同的性质和特点从信息表达考虑,媒体数据具有以下四个性质:
(1)媒体是有格式的(按格式解释才有确定的含义)
(2)不同的媒体表达信息的特点和程度不同
(越接近原始媒体,信息量越大;越是抽象,信息量越小但越精确)
(3)媒体之间可以相互转换(但可能丢失部分原始信息,或增加一些伪信息)
(4)媒体之间的关系也具有丰富的信息
2、媒体具有空间性质两种解释:第一种空间意义是指表现空间,
尤其是指显示空间的安排,其中包括每种可视媒体在显示器上的显示位置,显示形式,先后关系等。对于声音媒体则安排在听觉空间中表现,并确定与那些可视媒体同步。第二种空间意义是把环境中各种表达信息的媒体按相互的空间关系进行组织,
全面整体的反映信息的空间结构,而不仅仅是零散的信息片断。这种空间实际上是由系统通过显示器和其他设备给出一个观察世界的窗口。且将环境的媒体信息进行空间组织,反映出媒体信息的空间结构。
3、媒体的时间性质两种含义,一是表现所需的时间,这是所有媒体都需要的。对于图像、文字等静态媒体来说,它至少需要一定的表现时间,
接收者也需要一定的接收时间去接收理解他。对于声音来说没有时间也就没有声音。
声音总是完全依赖于时间的变化。二是时间关系,与媒体的空间关系一样,媒体的时间也可包含媒体在时间坐标上的相互关系。还有同步、实时等许多方面。
4、媒体的语义在获得媒体的语义的过程中,抽象起着十分重要的作用。这种抽象是复杂的,而且与任务有关,通常包含若干抽象层,每个抽象层都包含与具体的任务和问题与相关的模型。从接近具体感官的信息表示层到接近符号的信息表示层,信息的抽象程度递增,而数据量则递减。语义就是在从感官数据到符号数据的抽象过程中逐步形成的。例如:对文本来说,文本的语义关键是人对语言的理解。
5、媒体结合的影响多媒体的作用很大程度上是媒体之间结合产生的影响。虚拟空间。
从信息理解的角度来讲,多媒体的结合是有利于信息接收和理解的。例如:
理解 视觉 听觉 触觉
83% 11% 3%
记忆驻留 2小时后 72小时后谈话方式 70% 10%
观看方式 72% 20
结合 85% 65%
2.2听觉媒体技术一、声音的性质可听声也叫音频( 20HZ~ 20KHZ)
( 1)随时间变化的连续媒体也称连续性时基类媒体。
( 2)声音有三个要素,音调、音强和音色。音调与声波的频率有关,频率高则音调高;音强又称响度,与声波的振幅成正比;音色与波形的形状有关,它是由混入基因的泛音所决定的
( 3)声音具有连续谱特性在一定时间内,声音信号可以分成周期信号和非周期信号两类,离散谱和连续谱。
( 4)声音有方向感声音是以声波的形式进行传播的,由于人能够判别出声音到达左右耳的时差和强度
,所以可以判别声音的来源方向。
( 5)音色与失真特性不同的人和不同的乐器在发出相同的基频和音高的声音时听者对他的感觉并不完全相同,即音色不同,其原因是组成这些声音的其他频率分量大小不同。
二、数字音频的主要技术参数分为:波形声音、语音和音乐三种波形声音:包含所有的声音形式
,相应的文件格式是 WAV或 VOC。
语音:也是一种波形。
音乐:是符号化的声音,格式是
MID,MP3或 CMF文件。
音频信息增强了人们对其他媒体所表达的信息的理解。
通常,声音用一种模拟的连续波形表示。波形描述了空气的振动,波形的最高点与基线间的距离为振幅,波形中两个连续波峰间的距离称为周期,
波形频率由 1秒内出现的周期数决定,
若每秒 1000个周期,则频率为 1kHz。
通过采样可将声音的模拟信号数字化
,采样值可重新生成原始波形。
计算机音频技术主要包括声音的采集,数字化,压缩 /解压缩以及声音的播放。影响数字声音波形质量的主要因素有三个:
( 1) 采样频率。波形被等分的份数,
份数越多,质量越好。
( 2) 采样精度。 8位 A/D转换器,可把采样信号分为 256等份,16位 A/D转换器,则可分为 65536份。
( 3) 通道数。单声道、立体声。
三、音频的数字化与再现对音频信号的处理,首先应考虑他对时序性要求很高。其次最好是立体声最后,语音还带有情感和意愿。
音频处理应考虑以下三点:
( 1)人与计算机通信,也就是计算机接收音频信号,包括饮品获取、语音的识别和理解。
( 2)计算机与人通信,也就是计算机输出音频,包括音乐合成、语音合成
、声音的定位以及音频视频的同步。
( 3)人 -计算机 -人通信,也就是人通过网络与异地的人通信,相关的音频处理有语音采集、音频的编码和解码
、音频的存储、音频的传输等。
在计算机中声音信号是用一系列的数字表示的,称为 数字音频 。
声音在时间和幅度上是连续的;
而数字表示声音是一个数据序列,在时间上是断续的。把模拟声音变成数字声音时,需要每隔一个时间间隔在模拟声音波形上取一个幅度值,称为采样,这个时间间隔称为采样周期。
某一幅度内的电压用一个数字表示,
称为 量化 。把声音数据写成计算机的数据格式成为 编码 。
输出声音时,将离散的数字转变成连续的波形,只要采样频率足够高恢复出来的声音就与原始声音没有什么差别。标准的采样频率有 11.025kHz,
22.05kHz,44.1kHz。
每个采样点的比特数量就是采样点的测量的精度。一般有 8位和 16位两种双声道(立体声)。
声音的数据量 =(采样频率 *每个采样为数 *声道数) /8 ( B/s)
四、声音的符号化对声音的抽象化(即符号化)表示包括两种类型,一种是音乐、一种是语音。
音乐可以完全符号化。
语音与文字其实是一一对应的,
波形声音也可表现和记录语音,他是否是语音取决于听者的理解。对语音的符号化表示实际上就是对语音的识别,将语音转变为字符。反之,就是将文字合成为语音。
五、数字音乐国际标准 MIDI和 MP3
1、电子乐器数字接口,MIDI
MIDI音频与波形音频完全不同,他不对声波进行采样、量化与编码,而是将电子乐器键盘的演奏信息(包括键名、力度、时间长度等)记录下来。
这些信息称为 MIDI消息,是乐谱的一种数字式描述。对应与一段音乐的
MIDI文件不记录人和声音信息,而只是包含一系列产生音乐的 MIDI消息。
播放时只需从中读出 MIDI消息,产生所需的声音波形,经放大处理即可。
半小时的立体声 16位高品质音乐,
不压缩需 300M; 若用 MIDI只需 200k。
对 MIDI的编辑也很灵活,用户可以自由的改变音调、音色等属性,直到找到自己想要的效果。
1988年 MIDI制造商协会正式颁布
MIDI技术规范,作为数字式音乐的国际标准。规定每种 MIDI装置由一个接收器和一个发送器组成。规定 MIDI键盘为 128键。在 MIDI接收器中有 16个通道,它可以向声音合成器传送 16路不同的声音等。
2,MP3数码音乐
MP3的全称是 MPEG-1 Layer3音频文件压缩比是,10,1~12,1
一分钟的 CD音质音乐,未经压缩需要
10M的存储空间,压缩后只需 1M左右。
2.3 视觉媒体技术视觉媒体包括文本、图形、图像与动画等,人们用眼睛来感受这些媒体信息。
2.3.1视觉媒体元素一、文本( text)
是文字处理程序的基础,
非格式化文本文件(纯文本),
格式化文本文件(包含格式信息)。
字的格式( style),字的定位( align),字体( font)、
字的大小( size)。
二、图形( Graphic)
图形一般指用计算机绘制的画面,如直线、圆、矩形、任意曲线和图表等。图形的格式是一组描述点、线、面等几何图形的大小和形状及其位置、维数的指令集合。
例如,line(x1,y1,x2,y2,color),
circle(x,y,r,color)等,就分别是画线、画圆的指令。
在图形文件中只记录生成图的算法和特征点,因此也称矢量图。
绝大多数 CAD和 3D造型软件都使用矢量图形作为基本图形存储格式。
对图形来说,数据的记录格式是很关键的内容。记录格式的好坏,
直接影响图形数据的操作方便与否。
微机上常用的图形文件有,,3DS”
( 用于 3D造型),”,DXF”( 用于
CAD),”.WMF”( 用于桌面出版)
图形技术的关键是图形的制作和再现,图形只保存算法和特征点,
所以相对于图像来说,它占用的存储空间也较小,但在屏幕每次显示时,它需要重新计算;在打印输出放大时,图形的质量较高。
三、图像( image)
图像是指由输入设备捕捉的实际场景画面,或以数字化形式存储的任意画面。
静止的图像是一个矩阵,有一些排成行列的点组成,这些点称为像素点( pixel),这种图像称为位图
( bitmap)。 1位,4位,8位。存储格式有多种,BMP,PCX,TIF,
TGA,GIF与 JPG等。
图像的关键技术是图像的扫描、
编辑、压缩,快速解压和色彩一致性再现等。图像处理是一般考虑如下三个因素。
1 分辨率屏幕分辨率、图像分辨率和像素分辨率
2 图像的灰度图像的最大颜色数,8位,24位
3 图像文件的大小用 B为单位表示(宽 *高 *灰度位数) /8
如,640*480*8/8=307200B
图形和图像在用户看来是一样的,而从技术上来说则完全不同。
随之计算机技术的发展,图形图像之间的界限已经越来越小,他们互相融会贯通。
四、视频( Video)
若干有联系的图像数据连续播放便形成了视频。计算机的视频是数字的,
电视主要有三大制式,即
NTSC(525/60),PAL(625/50)和
SECAM(625/50)三种视频文件的存储格式有 AVI,
MPG与 MOV等动态视频对于颜色空间的表示有多种情况,最常见的是 R,G,B
三维彩色空间。还有其他彩色空间表示,如 Y,U,V,( Y为亮度,U,
V为色差)与 H,S,I( 色调、饱和度、强度)可以通过坐标变换相互转换。视频中有如下几个重要的技术参数。
1 桢速视频利用快速变换桢达到运动的效果。
2 数据量如果不计压缩,数据量应是桢速乘以每幅图像的数据量。
3 视频画面质量五、动画动画是运动的图画,实质是一幅幅静态图像的连续播放。动画压缩和快速播放也是动画技术需要解决的重要问题。
计算机动画有两种:一种是造型动画,一种是桢动画。格式有 FLC,MMM等。
2.3.2彩色空间的表示与转换彩色的三要素:亮度、色调和饱和度。
计算机中常用 RGB,彩色电视系统中一般采用 YUV和 YIQ。 Q,I为相互正交的坐标轴,他与 U,V正交轴之间有
33度的夹角。
I=Vcos33-Usin33
Q=Vsin33+Ucos33
HIS中三元素分别为色调、饱和度和亮度。彩色空间的表示可互相转换。
Y 0.3 0.59 0.11 R
U = 0.15 –0.29 –0.44 G
V 0.61 –0.52 0.096 B
2.3.3视觉媒体数字化一、位图图像与数字视频通过对每个像素点进行采样且按颜色或灰度进行量化就可以得到图像的数字化结果,结果放在显示缓冲区中,与显示器上的点一一对应,这就是位图图像。对视频按时间进行数字化所得到的图像序列,
构成数字视频序列。
二、图形图形是一种抽象化的图像,是对图像依据某个标准进行分析而产生的结果。他不直接描述每个点,
而是描述产生这些点的过程及方法。
因此他被称为矢量图形一般也称图形。
三、符号与文字符号媒体需要知识的辅助才可使用。这些都很容易数字化。
2.4触觉媒体技术一、触觉媒体概述即使不通过视觉,仍然可以接收和传递信息。人们不仅仅是被动的接受,也可以主动的探测获取。例如,去推一扇门,这门给与推门的手的反作用力,就传递了门是开或关的状态信息。目前,对触觉媒体的研究还在初级阶段。
二、简单指点设备与技术指点设备实际上是最简单的位置跟踪设备,主要是输入设备。
1.任务选择、定位、定向、路径、数量和操作。
2.指点设备直接指点设备和间接指点设备两类。光笔,触摸屏及输入笔,鼠标跟踪球控制板和图形板。
三、位置跟踪三维空间中有六个自由度
( DOF),三个确定位置( X,Y,Z)
和三个确定的方向(欧拉角),必须要对人的手、偷、躯干等部位的动作进行跟踪,才可能对动作进行解释。
1.手指动作测量和数字化数据手套,4B可以表示 16种状态。
2.空间位置跟踪数据手套上有个定位的装置,
可跟踪手在空中的位置,
四、力反馈与触觉反馈
1.力反馈包括对重量的感知,对阻力的感知与吸引力等
2.触觉反馈需要让人体区别不同物体的质感和纹理结构。例如抚摸小猫的皮肤和乌龟壳的感觉肯定是不一样的。
3.热觉反馈第三章 多媒体数据压缩技术多媒体数据压缩的基本原理和方法;
声音压缩标准;
图像压缩标准;
视频压缩标准;
1 数字压缩的必要性数字信号有很多优点,但当模拟信号数字化后其频带大大加宽,一路 6MHz
的普通电视信号数字化后,其数码率将高达 167Mbps,对储存器容量要求很大,
占有的带宽将达 80MHz左右,这 样将使数字信号失去实用价值。数字压缩技术很好地解决了上述困难,压缩后信号所占用的频带大大低于原模拟信号的频带。
因此说,数字压缩编码技术是使数字信号走向实用化的关键技术之一,
2 图像压缩编码的可能性从信息论观点来看,图像作为一个信源,描述信源的数据 是信息量 (信源熵 )和信息冗余量之和。信息冗余量有许多种,如空间冗余,时间冗余,结构冗余,知识冗余,视觉冗余等,数据压缩实质上是减少这些冗余量。可见冗余量减少可以减少数据量而不减少信源的信息量。
从数学上讲,图像可以看作一个多维函数,压缩描述这个 函数的数据量实质是减少其相关性。另外在一些情况下,允许图像有一定的失真,而并不妨碍图像的实际应用,那么数据量压缩的可能性就更大了。
一、冗余的类型
1.空间冗余同一幅图像中,规则物体和规则背景的表面物体特性具有相关性,例如:
很多像素点完全一样活十分接近,这些都可以压缩。
2.时间冗余时间冗余反映在视频帧序列中,相邻帧图像之间有较大的相关性。
3.信息熵冗余所携带的信息量少于数据本身而反映出来的冗余。
4.视觉冗余人类的视觉系统由于受生理特性的限制,对于图像场的注意是非均匀的。
一般只能分辨 26灰度等级,而一般都采用 28灰度等级。
5.听觉冗余人耳对不同频率的声音的敏感性是不同的,不能察觉所有频率的变化,对某些频率不必特别关注,因此存在听觉冗余。
6.结构冗余数字化图像中物体表面纹理等结构往往存在着数据冗余。称结构冗余。
7.知识冗余由图像的记录方式与人对图像的知识之间的差别所产生的冗余称为知识冗余。例如:人脸的图像有固定的结构,
鼻子位于脸的中线上,上方是眼睛,下方是嘴等。人具有这些规律性的知识,
但计算机还是把图像一个一个像素的存起来。这就形成了知识冗余。
二、数据压缩编码方法的分类编码压缩方法有许多种,从不同的角度出发有不同的分类方法。
1.按照压缩方法是否产生失真分类压缩方法可被分为有失真编码和无失真编码两大类。
无失真编码压缩比较低,一般大都在 2,1~5,1之间,如 LZW编码、行程编码、霍夫曼编码。
1.按照压缩方法的原理分类预测编码、变换编码、统计编码、
分析合成编码、混合编码等。
预测编码利用像素的相关性,可进一步减小差值。
从前面的分析可以看出,如果差值编码中小幅度出现的机会增加,由于其对应的码长较短,总数码率会进一步减小。如果能猜出下一个样值,那么差值就会是零,当然这种情况是没有 意义的,因为若预先知道下一样值,就不需要进行通信了。但可以肯定,如果我们不仅利用 前后样值的相关性,同时也利用其它行、其它帧的像素的相关性
,用更接近当前样值的预测 值与当前样值相减,小幅度差值就会增加,总数码率就会减小,这就是预测编码的方法变换编码也是针对空间冗余和时间冗余的压缩方法。其基本思想是将图像的光强矩阵变换到系数空间上,然后对系数进行编码压缩。
分析合成编码是指都是通过对源数据的分析,将其分解成一系列更适合于表示的,基元,或从中提取若干更为本质意义的参数,编码仅对这些基本单元或特征参数进行。
译码时则借助于一定的规则或模型,
按一定的算法将这些基元或参数综合成源数据的一个逼近。这种压缩方法可能得到极高的压缩比。
统计编码属于无失真编码。他是根据信息出现的概率进行压缩编码。
编码时某种比特或字节模式的出现概率大,用较短码字表示;概率小用较长的码字表示。
衡量一个压缩编码方法优劣的重要指标是:
(1)压缩比要高,有几倍、几十倍,
也有几百乃至几千倍;一般用每个像素的比特数,既 bpp表示,例如,2bpp
(2)解压缩的图像质量要好。
主观评测:非常好、好、一般、差和非常差。
客观尺度通常有以下三种:均方误差、信噪比和峰值信噪比
(3)压缩与解压缩要快,算法要简单,
硬件实现容易;
全动态视频要求达到 25帧或 30帧。
最少 5帧以上
4.8 霍夫曼编码霍夫曼编码是可变字长编码 (VLC)的一种。 Huffman于 1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长 度最短的码字,
有时称之为最佳编码,一般就叫作
Huffman编码。下面引证一个定理,该定 理保证了按字符出现概率分配码长,
可使平均码长最短。
大小顺序排列为,
U:
(a b c d e f g)
50 30 12 8 6 3 1
0 10 110 1110 11110 111110 111111
50*1+30*2+12*3+8*4+6*5+3+6+1*7=223
100*3=300
例如,01110000101011000010111111
预测编码预测编码利用像素的相关性,可进一步减小差值。
从前面的分析可以看出,如果差值编码中小幅度出现的机会增加,由于其对应的码长较短,总数码率会进一步减小。如果能猜出下一个样值,那么差值就会是零,当然这种情况是没有 意义的,因为若预先知道下一样值,就不需要进行通信了。
但可以肯定,如果我们不仅利用前后样值的相关性,同时也利用其它行、
其它帧的像素的相关性,用更接近当前样值的预测 值与当前样值相减,小幅度差值就会增加,总数码率就会减小,
这就是预测编码的方法。预 测编码的电路与差值编码类似,或者说差值编码就是以前一样值为预测值的预测编码,
又称为一维预测。如果用到以前行的像素或以前帧的像素,则称为二维或三维预测。
在美国国际 电话电报公司 (ITT)生产的数字电视机芯片中有一个视频存储控制器芯片 VMC2260就用了二维 预测编码,
预测器用了三个像素作为下一个像素的预测值,即预测值等于 1/2前一像素加
1/4 上一行相应像素再加上 1/4上一行相应的前一像素。这样不仅利用了前一像素的相关性,也 利用了上一行相应像素的相关性,这样做要比差值编码有更大的码率压缩。如果再用上前一 帧的像素会进一步降低数码率。
但为了得到前一帧的像素必须要使用帧存储器,造价比较高 。只用到帧内像素的处理称为帧编码 (Intraframe
Coding),用到前后帧像素的处理称为帧 间编码 (Interframe Coding)。 要得到较大的码率压缩就必须使用帧间编码
。 JPEG是典型的帧内编码方案,而 MPEG
是帧间编码方法。前者大多用于静止图像处理,而后者主要用于对运 动图像的处理。
3.3变换编码离散傅里叶变换 DFT,离散余弦变换等。
多媒体的含义;(重点)
多媒体技术的主要特征;
多媒体技术的产生和发展;
多媒体技术的应用;
多媒体技术研究的主要内容。(重点)
1.1多媒体的基本概念一、多媒体和多媒体技术的含义(理解)
媒体在计算机领域有两种含义:
一是指存储信息的实体,如磁盘等,中文常译为煤质;二是指传递信息的载体,如数字、文字、声音、图形、图像等,中文常译为媒介。
多媒体技术中的媒体指后者。
通常,媒体被分为以下五种类型感觉媒体:指直接作用于人们的感觉器官,从而能使人产生直接感觉的媒体。
如:语言、音乐、自然界的各种声音、
各种图形、动画或文本等。
表示媒体:指为了传送感觉媒体而人为研究出来的媒体。借助这种媒体能更有效的存储感觉媒体或将感觉媒体从一个地方传送到遥远的另一个地方。
如语言编码、电报码、条形码等。
显示媒体:指用于通信中使电信号和感觉媒体之间产生转换的媒体,
如:输入输出设备、键盘、鼠标器、
显示器、打印机等。
存储媒体:指用于存放某种媒体的媒体,如纸张、磁盘、光盘等。
传输媒体:指用于传输某种媒体的媒体。如电话线、电缆、光纤等。
多媒体就是多种媒体的综合?
多媒体是指能够同时获取、处理、编辑、
存储和展示两种以上不同信息媒体的技术,
这些信息包括文字、声音、图形、图像、
动画与视频等。从这个意义中可以看到,
我们常说的多媒体最终归结为一种技术。
不是指媒体本身,而主要是指处理和应用它的一整套技术。因此,多媒体实际上常被当作多媒体技术的同一语。
多媒体技术的定义:
计算机综合处理文本、图形、图象、
音频与视频等多种媒体信息,使多种信息建立逻辑连接,集成为一个系统并且具有交互性。
二、多媒体技术的特性(了解)
多媒体技术的特性主要包括信息载体的多样化、集成性和交互性三个方面,这是多媒体的主要特征。此外还有非循序性、
非纸张输出等。
信息载体的多样化信息载体的多样化是相对于计算机而言的,指的就是信息媒体的多样化。把计算机所能处理的信息空间范围扩展和放大,
而不再局限于数值、文本或特定的图形或图像多媒体的集成性多媒体的集成性应该说是在系统级的一次飞跃。早期多媒体中的各项技术都可单一使用,但很难有大的作为,因为他们是单一、零散的。多媒体的集成性主要表现在两个方面,几多媒体信息媒体的集成和处理这些媒体的设备的集成。
多媒体的交互性多媒体的交互性将向用户提供更加有效的控制和使用信息的手段,同时也为应用开辟了更加广阔的领域。
总之,多媒体最显著的特点是具有媒体的多样性、集成性和交互性。从这个角度就可判断什么是多媒体。如电视等不具备交互性所以不是多媒体。
1.2多媒体技术的产生与发展计算机中信息的表达最初只能用二进制数 0,1表示,它的目的纯粹为了计算。
后来引入 ASCII码等,计算机的功能才逐渐增强。
起源于 20世纪 80年代初期
90年代得到了迅猛的发展
1.3多媒体技术的应用多媒体技术的应用极为广泛。
教育与培训、办公自动化、电子出版、影视创作、旅游与地图、家庭应用、
商业、新闻出版、电视会议、广告宣传等
1.4 多媒体技术研究的内容多媒体的研究一般分为两个主要的方面一是多媒体技术,主要关心基本技术层面的内容;二是多媒体系统,主要重心在多媒体系统的构成与实现。还有专门研究多媒体创作与表现的,则更多的属于艺术的范畴。我们这门课主要强调第一点。
一、多媒体技术的基础媒体是传播信息的载体,需要研究媒体的性质与相应的处理方法,对于每种媒体的采集、存储、传输和处理就是多媒体技术的首要工作。
多媒体的另一个技术基础是数据压缩。
基于时间的媒体,特别是高质量的视频数据媒体,其数据量非常大,不压缩难以在计算机上实现。
本书的第 2章第 3章分别介绍媒体的基本特性和多媒体数据压缩编码的基本方法二、多媒体硬件平台技术大容量的光盘,声音卡,图形显示卡等。计算机 CPU也加入了多媒体与通信的指令体系,扫描仪、彩色打印机、数码相机等。
第 4章将介绍多媒体的基本硬件设备。
三、多媒体软件技术操作系统:基于时间媒体的处理就是最关键的环节。对连续性的媒体来说,多媒体操作系统必须支持时间上的实现要求等,支持系统资源的合理分配等。
多媒体的素材采集和制作技术多媒体创作工具或编辑软件第 5章和第 6章将介绍多媒体软件技术和多媒体编程技术。
四、多媒体信息管理技术信息机数据管理式信息系统的核心问题之一。第 8章将介绍多媒体软件技术和多媒体编程技术。
五、多媒体界面设计与人 -机交互技术第 9章介绍多媒体界面设计和人机交互技术六、多媒体通信与分布应用技术第 7章、第 10章和第 11章介绍第二章 媒体与媒体技术本章内容媒体的种类及特点(重点)
视觉媒体技术(重点)
听觉媒体技术(重点)
触觉媒体技术
2.1媒体的种类和特点一、媒体的种类媒体有感觉媒体、表示媒体、显示媒体、存储媒体、传输媒体。在多媒体技术中研究的媒体主要指的是表示媒体。
(指为了传送感觉媒体而人为研究出来的媒体。借助这种媒体能更有效的存储感觉媒体或将感觉媒体从一个地方传送到遥远的另一个地方。 )
主要的表示媒体有以下三种:
视觉类媒体听觉类媒体触觉类媒体
1、视觉类媒体
(1)位图图像( bitmap)
(2)图形( graphics)
(3)符号(也包括文字和文本)由于符号是人类创造出来表示某种含义的,所以它与使用者的知识有关,是比图形更高级的抽象
(4)视频 (video)
(5)动画( animation)
(6)其他(如用图形表示的某种数据曲线)
2、听觉类媒体
(1)波形声音( wave) 自然界的所有声音的拷贝,是声音数字化的基础。
(2)语音( voice) 也表现为波形声音,有内在的含义。
(3)音乐( music) 更规范,是符号化的声音。
3、触觉类媒体
(1)指点
(2)位置跟踪(为了与系统交互,系统必须了解参与者的身体动作,包括头、眼、手、
肢体等部位的位置与运动方向。)
(3)力反馈与运动反馈(这与跟踪正好相反,
是系统向参与者反馈的运动及力的信息,)
二、媒体的性质和特点
1、各种媒体具有不同的性质和特点从信息表达考虑,媒体数据具有以下四个性质:
(1)媒体是有格式的(按格式解释才有确定的含义)
(2)不同的媒体表达信息的特点和程度不同
(越接近原始媒体,信息量越大;越是抽象,信息量越小但越精确)
(3)媒体之间可以相互转换(但可能丢失部分原始信息,或增加一些伪信息)
(4)媒体之间的关系也具有丰富的信息
2、媒体具有空间性质两种解释:第一种空间意义是指表现空间,
尤其是指显示空间的安排,其中包括每种可视媒体在显示器上的显示位置,显示形式,先后关系等。对于声音媒体则安排在听觉空间中表现,并确定与那些可视媒体同步。第二种空间意义是把环境中各种表达信息的媒体按相互的空间关系进行组织,
全面整体的反映信息的空间结构,而不仅仅是零散的信息片断。这种空间实际上是由系统通过显示器和其他设备给出一个观察世界的窗口。且将环境的媒体信息进行空间组织,反映出媒体信息的空间结构。
3、媒体的时间性质两种含义,一是表现所需的时间,这是所有媒体都需要的。对于图像、文字等静态媒体来说,它至少需要一定的表现时间,
接收者也需要一定的接收时间去接收理解他。对于声音来说没有时间也就没有声音。
声音总是完全依赖于时间的变化。二是时间关系,与媒体的空间关系一样,媒体的时间也可包含媒体在时间坐标上的相互关系。还有同步、实时等许多方面。
4、媒体的语义在获得媒体的语义的过程中,抽象起着十分重要的作用。这种抽象是复杂的,而且与任务有关,通常包含若干抽象层,每个抽象层都包含与具体的任务和问题与相关的模型。从接近具体感官的信息表示层到接近符号的信息表示层,信息的抽象程度递增,而数据量则递减。语义就是在从感官数据到符号数据的抽象过程中逐步形成的。例如:对文本来说,文本的语义关键是人对语言的理解。
5、媒体结合的影响多媒体的作用很大程度上是媒体之间结合产生的影响。虚拟空间。
从信息理解的角度来讲,多媒体的结合是有利于信息接收和理解的。例如:
理解 视觉 听觉 触觉
83% 11% 3%
记忆驻留 2小时后 72小时后谈话方式 70% 10%
观看方式 72% 20
结合 85% 65%
2.2听觉媒体技术一、声音的性质可听声也叫音频( 20HZ~ 20KHZ)
( 1)随时间变化的连续媒体也称连续性时基类媒体。
( 2)声音有三个要素,音调、音强和音色。音调与声波的频率有关,频率高则音调高;音强又称响度,与声波的振幅成正比;音色与波形的形状有关,它是由混入基因的泛音所决定的
( 3)声音具有连续谱特性在一定时间内,声音信号可以分成周期信号和非周期信号两类,离散谱和连续谱。
( 4)声音有方向感声音是以声波的形式进行传播的,由于人能够判别出声音到达左右耳的时差和强度
,所以可以判别声音的来源方向。
( 5)音色与失真特性不同的人和不同的乐器在发出相同的基频和音高的声音时听者对他的感觉并不完全相同,即音色不同,其原因是组成这些声音的其他频率分量大小不同。
二、数字音频的主要技术参数分为:波形声音、语音和音乐三种波形声音:包含所有的声音形式
,相应的文件格式是 WAV或 VOC。
语音:也是一种波形。
音乐:是符号化的声音,格式是
MID,MP3或 CMF文件。
音频信息增强了人们对其他媒体所表达的信息的理解。
通常,声音用一种模拟的连续波形表示。波形描述了空气的振动,波形的最高点与基线间的距离为振幅,波形中两个连续波峰间的距离称为周期,
波形频率由 1秒内出现的周期数决定,
若每秒 1000个周期,则频率为 1kHz。
通过采样可将声音的模拟信号数字化
,采样值可重新生成原始波形。
计算机音频技术主要包括声音的采集,数字化,压缩 /解压缩以及声音的播放。影响数字声音波形质量的主要因素有三个:
( 1) 采样频率。波形被等分的份数,
份数越多,质量越好。
( 2) 采样精度。 8位 A/D转换器,可把采样信号分为 256等份,16位 A/D转换器,则可分为 65536份。
( 3) 通道数。单声道、立体声。
三、音频的数字化与再现对音频信号的处理,首先应考虑他对时序性要求很高。其次最好是立体声最后,语音还带有情感和意愿。
音频处理应考虑以下三点:
( 1)人与计算机通信,也就是计算机接收音频信号,包括饮品获取、语音的识别和理解。
( 2)计算机与人通信,也就是计算机输出音频,包括音乐合成、语音合成
、声音的定位以及音频视频的同步。
( 3)人 -计算机 -人通信,也就是人通过网络与异地的人通信,相关的音频处理有语音采集、音频的编码和解码
、音频的存储、音频的传输等。
在计算机中声音信号是用一系列的数字表示的,称为 数字音频 。
声音在时间和幅度上是连续的;
而数字表示声音是一个数据序列,在时间上是断续的。把模拟声音变成数字声音时,需要每隔一个时间间隔在模拟声音波形上取一个幅度值,称为采样,这个时间间隔称为采样周期。
某一幅度内的电压用一个数字表示,
称为 量化 。把声音数据写成计算机的数据格式成为 编码 。
输出声音时,将离散的数字转变成连续的波形,只要采样频率足够高恢复出来的声音就与原始声音没有什么差别。标准的采样频率有 11.025kHz,
22.05kHz,44.1kHz。
每个采样点的比特数量就是采样点的测量的精度。一般有 8位和 16位两种双声道(立体声)。
声音的数据量 =(采样频率 *每个采样为数 *声道数) /8 ( B/s)
四、声音的符号化对声音的抽象化(即符号化)表示包括两种类型,一种是音乐、一种是语音。
音乐可以完全符号化。
语音与文字其实是一一对应的,
波形声音也可表现和记录语音,他是否是语音取决于听者的理解。对语音的符号化表示实际上就是对语音的识别,将语音转变为字符。反之,就是将文字合成为语音。
五、数字音乐国际标准 MIDI和 MP3
1、电子乐器数字接口,MIDI
MIDI音频与波形音频完全不同,他不对声波进行采样、量化与编码,而是将电子乐器键盘的演奏信息(包括键名、力度、时间长度等)记录下来。
这些信息称为 MIDI消息,是乐谱的一种数字式描述。对应与一段音乐的
MIDI文件不记录人和声音信息,而只是包含一系列产生音乐的 MIDI消息。
播放时只需从中读出 MIDI消息,产生所需的声音波形,经放大处理即可。
半小时的立体声 16位高品质音乐,
不压缩需 300M; 若用 MIDI只需 200k。
对 MIDI的编辑也很灵活,用户可以自由的改变音调、音色等属性,直到找到自己想要的效果。
1988年 MIDI制造商协会正式颁布
MIDI技术规范,作为数字式音乐的国际标准。规定每种 MIDI装置由一个接收器和一个发送器组成。规定 MIDI键盘为 128键。在 MIDI接收器中有 16个通道,它可以向声音合成器传送 16路不同的声音等。
2,MP3数码音乐
MP3的全称是 MPEG-1 Layer3音频文件压缩比是,10,1~12,1
一分钟的 CD音质音乐,未经压缩需要
10M的存储空间,压缩后只需 1M左右。
2.3 视觉媒体技术视觉媒体包括文本、图形、图像与动画等,人们用眼睛来感受这些媒体信息。
2.3.1视觉媒体元素一、文本( text)
是文字处理程序的基础,
非格式化文本文件(纯文本),
格式化文本文件(包含格式信息)。
字的格式( style),字的定位( align),字体( font)、
字的大小( size)。
二、图形( Graphic)
图形一般指用计算机绘制的画面,如直线、圆、矩形、任意曲线和图表等。图形的格式是一组描述点、线、面等几何图形的大小和形状及其位置、维数的指令集合。
例如,line(x1,y1,x2,y2,color),
circle(x,y,r,color)等,就分别是画线、画圆的指令。
在图形文件中只记录生成图的算法和特征点,因此也称矢量图。
绝大多数 CAD和 3D造型软件都使用矢量图形作为基本图形存储格式。
对图形来说,数据的记录格式是很关键的内容。记录格式的好坏,
直接影响图形数据的操作方便与否。
微机上常用的图形文件有,,3DS”
( 用于 3D造型),”,DXF”( 用于
CAD),”.WMF”( 用于桌面出版)
图形技术的关键是图形的制作和再现,图形只保存算法和特征点,
所以相对于图像来说,它占用的存储空间也较小,但在屏幕每次显示时,它需要重新计算;在打印输出放大时,图形的质量较高。
三、图像( image)
图像是指由输入设备捕捉的实际场景画面,或以数字化形式存储的任意画面。
静止的图像是一个矩阵,有一些排成行列的点组成,这些点称为像素点( pixel),这种图像称为位图
( bitmap)。 1位,4位,8位。存储格式有多种,BMP,PCX,TIF,
TGA,GIF与 JPG等。
图像的关键技术是图像的扫描、
编辑、压缩,快速解压和色彩一致性再现等。图像处理是一般考虑如下三个因素。
1 分辨率屏幕分辨率、图像分辨率和像素分辨率
2 图像的灰度图像的最大颜色数,8位,24位
3 图像文件的大小用 B为单位表示(宽 *高 *灰度位数) /8
如,640*480*8/8=307200B
图形和图像在用户看来是一样的,而从技术上来说则完全不同。
随之计算机技术的发展,图形图像之间的界限已经越来越小,他们互相融会贯通。
四、视频( Video)
若干有联系的图像数据连续播放便形成了视频。计算机的视频是数字的,
电视主要有三大制式,即
NTSC(525/60),PAL(625/50)和
SECAM(625/50)三种视频文件的存储格式有 AVI,
MPG与 MOV等动态视频对于颜色空间的表示有多种情况,最常见的是 R,G,B
三维彩色空间。还有其他彩色空间表示,如 Y,U,V,( Y为亮度,U,
V为色差)与 H,S,I( 色调、饱和度、强度)可以通过坐标变换相互转换。视频中有如下几个重要的技术参数。
1 桢速视频利用快速变换桢达到运动的效果。
2 数据量如果不计压缩,数据量应是桢速乘以每幅图像的数据量。
3 视频画面质量五、动画动画是运动的图画,实质是一幅幅静态图像的连续播放。动画压缩和快速播放也是动画技术需要解决的重要问题。
计算机动画有两种:一种是造型动画,一种是桢动画。格式有 FLC,MMM等。
2.3.2彩色空间的表示与转换彩色的三要素:亮度、色调和饱和度。
计算机中常用 RGB,彩色电视系统中一般采用 YUV和 YIQ。 Q,I为相互正交的坐标轴,他与 U,V正交轴之间有
33度的夹角。
I=Vcos33-Usin33
Q=Vsin33+Ucos33
HIS中三元素分别为色调、饱和度和亮度。彩色空间的表示可互相转换。
Y 0.3 0.59 0.11 R
U = 0.15 –0.29 –0.44 G
V 0.61 –0.52 0.096 B
2.3.3视觉媒体数字化一、位图图像与数字视频通过对每个像素点进行采样且按颜色或灰度进行量化就可以得到图像的数字化结果,结果放在显示缓冲区中,与显示器上的点一一对应,这就是位图图像。对视频按时间进行数字化所得到的图像序列,
构成数字视频序列。
二、图形图形是一种抽象化的图像,是对图像依据某个标准进行分析而产生的结果。他不直接描述每个点,
而是描述产生这些点的过程及方法。
因此他被称为矢量图形一般也称图形。
三、符号与文字符号媒体需要知识的辅助才可使用。这些都很容易数字化。
2.4触觉媒体技术一、触觉媒体概述即使不通过视觉,仍然可以接收和传递信息。人们不仅仅是被动的接受,也可以主动的探测获取。例如,去推一扇门,这门给与推门的手的反作用力,就传递了门是开或关的状态信息。目前,对触觉媒体的研究还在初级阶段。
二、简单指点设备与技术指点设备实际上是最简单的位置跟踪设备,主要是输入设备。
1.任务选择、定位、定向、路径、数量和操作。
2.指点设备直接指点设备和间接指点设备两类。光笔,触摸屏及输入笔,鼠标跟踪球控制板和图形板。
三、位置跟踪三维空间中有六个自由度
( DOF),三个确定位置( X,Y,Z)
和三个确定的方向(欧拉角),必须要对人的手、偷、躯干等部位的动作进行跟踪,才可能对动作进行解释。
1.手指动作测量和数字化数据手套,4B可以表示 16种状态。
2.空间位置跟踪数据手套上有个定位的装置,
可跟踪手在空中的位置,
四、力反馈与触觉反馈
1.力反馈包括对重量的感知,对阻力的感知与吸引力等
2.触觉反馈需要让人体区别不同物体的质感和纹理结构。例如抚摸小猫的皮肤和乌龟壳的感觉肯定是不一样的。
3.热觉反馈第三章 多媒体数据压缩技术多媒体数据压缩的基本原理和方法;
声音压缩标准;
图像压缩标准;
视频压缩标准;
1 数字压缩的必要性数字信号有很多优点,但当模拟信号数字化后其频带大大加宽,一路 6MHz
的普通电视信号数字化后,其数码率将高达 167Mbps,对储存器容量要求很大,
占有的带宽将达 80MHz左右,这 样将使数字信号失去实用价值。数字压缩技术很好地解决了上述困难,压缩后信号所占用的频带大大低于原模拟信号的频带。
因此说,数字压缩编码技术是使数字信号走向实用化的关键技术之一,
2 图像压缩编码的可能性从信息论观点来看,图像作为一个信源,描述信源的数据 是信息量 (信源熵 )和信息冗余量之和。信息冗余量有许多种,如空间冗余,时间冗余,结构冗余,知识冗余,视觉冗余等,数据压缩实质上是减少这些冗余量。可见冗余量减少可以减少数据量而不减少信源的信息量。
从数学上讲,图像可以看作一个多维函数,压缩描述这个 函数的数据量实质是减少其相关性。另外在一些情况下,允许图像有一定的失真,而并不妨碍图像的实际应用,那么数据量压缩的可能性就更大了。
一、冗余的类型
1.空间冗余同一幅图像中,规则物体和规则背景的表面物体特性具有相关性,例如:
很多像素点完全一样活十分接近,这些都可以压缩。
2.时间冗余时间冗余反映在视频帧序列中,相邻帧图像之间有较大的相关性。
3.信息熵冗余所携带的信息量少于数据本身而反映出来的冗余。
4.视觉冗余人类的视觉系统由于受生理特性的限制,对于图像场的注意是非均匀的。
一般只能分辨 26灰度等级,而一般都采用 28灰度等级。
5.听觉冗余人耳对不同频率的声音的敏感性是不同的,不能察觉所有频率的变化,对某些频率不必特别关注,因此存在听觉冗余。
6.结构冗余数字化图像中物体表面纹理等结构往往存在着数据冗余。称结构冗余。
7.知识冗余由图像的记录方式与人对图像的知识之间的差别所产生的冗余称为知识冗余。例如:人脸的图像有固定的结构,
鼻子位于脸的中线上,上方是眼睛,下方是嘴等。人具有这些规律性的知识,
但计算机还是把图像一个一个像素的存起来。这就形成了知识冗余。
二、数据压缩编码方法的分类编码压缩方法有许多种,从不同的角度出发有不同的分类方法。
1.按照压缩方法是否产生失真分类压缩方法可被分为有失真编码和无失真编码两大类。
无失真编码压缩比较低,一般大都在 2,1~5,1之间,如 LZW编码、行程编码、霍夫曼编码。
1.按照压缩方法的原理分类预测编码、变换编码、统计编码、
分析合成编码、混合编码等。
预测编码利用像素的相关性,可进一步减小差值。
从前面的分析可以看出,如果差值编码中小幅度出现的机会增加,由于其对应的码长较短,总数码率会进一步减小。如果能猜出下一个样值,那么差值就会是零,当然这种情况是没有 意义的,因为若预先知道下一样值,就不需要进行通信了。但可以肯定,如果我们不仅利用 前后样值的相关性,同时也利用其它行、其它帧的像素的相关性
,用更接近当前样值的预测 值与当前样值相减,小幅度差值就会增加,总数码率就会减小,这就是预测编码的方法变换编码也是针对空间冗余和时间冗余的压缩方法。其基本思想是将图像的光强矩阵变换到系数空间上,然后对系数进行编码压缩。
分析合成编码是指都是通过对源数据的分析,将其分解成一系列更适合于表示的,基元,或从中提取若干更为本质意义的参数,编码仅对这些基本单元或特征参数进行。
译码时则借助于一定的规则或模型,
按一定的算法将这些基元或参数综合成源数据的一个逼近。这种压缩方法可能得到极高的压缩比。
统计编码属于无失真编码。他是根据信息出现的概率进行压缩编码。
编码时某种比特或字节模式的出现概率大,用较短码字表示;概率小用较长的码字表示。
衡量一个压缩编码方法优劣的重要指标是:
(1)压缩比要高,有几倍、几十倍,
也有几百乃至几千倍;一般用每个像素的比特数,既 bpp表示,例如,2bpp
(2)解压缩的图像质量要好。
主观评测:非常好、好、一般、差和非常差。
客观尺度通常有以下三种:均方误差、信噪比和峰值信噪比
(3)压缩与解压缩要快,算法要简单,
硬件实现容易;
全动态视频要求达到 25帧或 30帧。
最少 5帧以上
4.8 霍夫曼编码霍夫曼编码是可变字长编码 (VLC)的一种。 Huffman于 1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长 度最短的码字,
有时称之为最佳编码,一般就叫作
Huffman编码。下面引证一个定理,该定 理保证了按字符出现概率分配码长,
可使平均码长最短。
大小顺序排列为,
U:
(a b c d e f g)
50 30 12 8 6 3 1
0 10 110 1110 11110 111110 111111
50*1+30*2+12*3+8*4+6*5+3+6+1*7=223
100*3=300
例如,01110000101011000010111111
预测编码预测编码利用像素的相关性,可进一步减小差值。
从前面的分析可以看出,如果差值编码中小幅度出现的机会增加,由于其对应的码长较短,总数码率会进一步减小。如果能猜出下一个样值,那么差值就会是零,当然这种情况是没有 意义的,因为若预先知道下一样值,就不需要进行通信了。
但可以肯定,如果我们不仅利用前后样值的相关性,同时也利用其它行、
其它帧的像素的相关性,用更接近当前样值的预测 值与当前样值相减,小幅度差值就会增加,总数码率就会减小,
这就是预测编码的方法。预 测编码的电路与差值编码类似,或者说差值编码就是以前一样值为预测值的预测编码,
又称为一维预测。如果用到以前行的像素或以前帧的像素,则称为二维或三维预测。
在美国国际 电话电报公司 (ITT)生产的数字电视机芯片中有一个视频存储控制器芯片 VMC2260就用了二维 预测编码,
预测器用了三个像素作为下一个像素的预测值,即预测值等于 1/2前一像素加
1/4 上一行相应像素再加上 1/4上一行相应的前一像素。这样不仅利用了前一像素的相关性,也 利用了上一行相应像素的相关性,这样做要比差值编码有更大的码率压缩。如果再用上前一 帧的像素会进一步降低数码率。
但为了得到前一帧的像素必须要使用帧存储器,造价比较高 。只用到帧内像素的处理称为帧编码 (Intraframe
Coding),用到前后帧像素的处理称为帧 间编码 (Interframe Coding)。 要得到较大的码率压缩就必须使用帧间编码
。 JPEG是典型的帧内编码方案,而 MPEG
是帧间编码方法。前者大多用于静止图像处理,而后者主要用于对运 动图像的处理。
3.3变换编码离散傅里叶变换 DFT,离散余弦变换等。