多媒体技术与应用中国水利水电出版社第一章多媒体技术基础多媒体技术与应用
1.1多媒体技术概要媒体是信息的载体,如报纸,电视,杂志,电影,广播等 。 它以声音,图像,文字,视频信号等方式向人们提供各种信息 。 在计算机技术领域中,媒体 (medium)指的是信息传递和存储的最基本的技术和手段 。
1.1.1 多媒体 的概念多媒体技术与应用
多媒体的定义是:综合表现音频、视频、图形、图像、动画和文本的信息组合。
多媒体技术是将文本、音频、图像、图像、动画和视频等多种媒体信息通过计算机进行数字化采集、
编码、存储、传输、处理和再现等,使多种媒体信息建立逻辑连接,并集成为一个具有交互性的系统 。
多媒体技术与应用
感觉媒体 (Perception Media)
感觉媒体是指能够直接作用于人的感觉器官(听觉、视觉、触觉和嗅觉),并使人产生直接感觉的媒体。
表示媒体 (Representation Media)
表示媒体是指为了传播感觉媒体而人为研究和创建的媒体。
显示媒体 (Presentation Media)
显示媒体指用于电信号和感觉媒体之间转换的媒体。
存储媒体 (Storage Media)
存储媒体是指存放媒体的介质。如磁带、磁盘、光盘等。
传输媒体 (Transmission Media)
传输媒体是指传输媒体的介质。是将表示媒体从一地传输到另一地的物理实体。
多媒体技术与应用感觉媒体存放 处理加工输入 输出显示媒体存储媒体表示媒体显示媒体图 1-1 五种媒体的转换多媒体技术与应用
1.1.2 多媒体技术的特征
多样性,综合处理多种媒体信息
集成性,多种媒体信息及与系统集成
交互性,机器与人之间的交互沟通能力
实时性,对媒体信息的实时处理
数字化,媒体信息的数字化多媒体技术与应用
1.1.3 多媒体系统的关键技术
信息处理技术和信息压缩技术
多媒体计算机系统技术
多媒体存储技术
多媒体计算机专用芯片技术
多媒体数据库管理和检索技术
多媒体网络通信技术
超文本和超媒体技术多媒体技术与应用
1.1.4多媒体系统的应用
娱乐和教育
视频制作和信息咨询
电子商务和网络
虚拟现实多媒体技术与应用
1.1.5多媒体技术的展望
1、多媒体技术的发展史
2、多媒体技术的发展趋势
多媒体技术将与相邻技术结合以提供更加完善的人 —— 机交互环境。
利用已较成熟的图像理解、语音识别,全文检索等技术,研究多媒体基于内容的处理模式。
多媒体通信网络环境及其设备的研究。
多媒体标准仍是研究的重点
虚拟现实技术的研究将继续深入多媒体技术与应用
1.2多媒体数据的采集与处理
文本是多媒体中不可缺少的基本元素。文本以文字或特定的符号来表达信息。
计算机对字符的识别与转换是通过 ASCII码(美国标准信息交换码)进行的。
文字的采集可以通过键盘输入、语音输入、手写输入和文字识别( OCR)软件扫描输入等。
1.2.1 文本的采集与处理多媒体技术与应用文本文件的格式
DOC,DOC是 Microsoft Word字处理软件所使用的文件格式。
TXT,TXT文本是纯 ASCII码文本文件,纯文本文件是无格式的,
即文件里没有任何有关字体、大小、颜色、位置等格式化信息。
Windows系统的“记事本”就是支持 TXT文本的编辑和存储工具。
所有的文字编辑软件和多媒体集成工具软件均可直接调用 TXT文本格式文件。
WPS,WPS是 WPS Office中文字处理软件的格式,其中包含特有的换行和排版信息,称为格式化文本,只能在特定 WPS编辑软件中使用。
多媒体技术与应用
1.2.2 图形、图像的采集和处理矢量图与位图
矢量图通过一组指令集来描述图形。这些指令描述了一幅图的所有直线、圆、圆弧、矩形、曲线等图元的位置、维数、大小和形状。
位图的基本元素是像素。是用摄像机或扫描仪等输入设备捕捉实际场景画面产生的数字图像。图像的显示过程是按照位图中所安排的像素顺序进行的,与图像内容无关。
多媒体技术与应用图形与图像的采集和处理
图形的获取方法是用一组指令来绘制画面。 由于图形只保存算法和特征点,因此占用的存储空间很小。但显示时需经过重新计算,
因而显示速度相对慢些。
图像是由许多点阵(像素)而构成的点位图。 黑白线条图常用 1
位值表示,灰度图常用 4位( 16种灰度等级)或 8位( 256种灰度等级)表示该点的亮度,而彩色图像则用更多的位数( 8,16,24,
32位)来描述像素点的颜色层次。
多媒体技术与应用对图像的处理有几个重要的技术指标:
屏幕分辨率,屏幕分辨率是显示器屏幕上的最大显示区域,即水平与垂直方向的像素个数。 图像分辨率,图像分辨率是数字化图像的大小,即该图像的水平与垂直方向的像素个数 。
多媒体技术与应用常用图形、图像制作软件
CorelDRAW
Freehand
Photoshop
PhotoImpact
HyperSnap-DX
多媒体技术与应用图形与图像的文件格式
.BMP 是 Microsoft公司为其 Windows环境设置的标准图像格式。
.JPG/JPEG 是 24位的图像文件格式,采用 JPEG国际标准对图像进行压缩。
.EPS 是用 PostScript语言描述的矢量图形文件。
.WMF 是 Windows图元文件格式,
.PNG 是 90年代中期开始开发的能存储 32位信息的位图文件格式。
.PSD 是 Photoshop中使用的一种标准图形文件格式。
.TGA 是 True Vision公司为其显卡开发的一种图像文件格式。
多媒体技术与应用
1,2,3 动画的采集和处理动画的采集和处理动画是对事物运动、变化过程的模拟。动画的制作需要借助专门的工具软件,有二维的,也有三维的。在这类工具软件中,制作者需要借助对事物变化运动、变化过程分析的结果,构建事物运动的环境与类型。
动画的制作的基本步骤是:
输入过程:
合成阶段:
中间画面的生成:
多媒体技术与应用常用动画制作软件
绘制和编辑动画软件 。 这类具有丰富的图形绘制和上色功能,并具备自动动画生成功能,是原创动画的重要工具 。 具有代表性的软件有:
Animator Pro—— 平面动画制作软件 。
3D Studio MAX—— 三维动画设计软件 。
COOL 3D—— 三维文字动画软件 。
Poser—— 人体三维动画制作软件 。
动画处理软件 。 这类软件对动画素材进行后期合成,加工,剪辑和整理,添加特殊效果,对动画具有强大的加工处理能力 。 典型的软件有:
Animator Studio— --动画处理软件 。
Premiere--电影影像,动画处理软件 。
GIF Construction Set--网页动画处理软件 。
After Effects— 电影影像,动画后期合成软件 。
Authorware一多媒体平台软件 。
多媒体技术与应用动画文件格式
.FLC Flash源文件存放格式。
.SWF Flash动画文件格式
.GIF GIF格式是常见的二维动画格式。主要用于图像文件的网络传输,文件数据量小。
.AVI 严格说来,AVI格式并不是一种动画格式,而是一种视频格式,它不但包含画面信息,亦包含声音效果。
多媒体技术与应用
1.2.4 声音的采集和处理声音的采集和处理音频( Audio)指的是人耳可以听到、频率大约在 20Hz~ 20kHz范围的声音。
习惯上把 300 Hz以下的声音称为低音,300 Hz~ 1kHz称为中音,4kHz以上称为高音。人对声音频率的感觉表现为音调的高低,且当声音的频率按指数规律上升时,音调的感觉线性升高。几种常见的声音频宽如图 1-2所示。
数字电话调幅广播 AM
调频广播 FM
数字激光 CD
10 20 50 200 3400 7000 15000
20000 f( Hz)图 1-2不同质量声音的频带对比示意图多媒体技术与应用声音具有音调、音强、音色三要素。音调与频率有关,音强与幅度有关,
音色由混入基音的泛音所决定。
音频数字化是通过采样和量化两个过程把模拟量表示的音频信号转换成由二进制数 1和 0组成的数字音频文件。如图 1-3所示。
采样 量化模拟音频信号 数字音频信号图 1-3模拟音频到数字音频信号的转换多媒体技术与应用采样的目的是在时间轴上对信号数字化。量化的目的是在幅度轴上对信号数字化。
采样频率,采样频率是每秒钟采取声音信号振幅数值的次数,单位是
Hz。采样频率越高,数字化后的声音越接近原始声音,但需要的存储空间也越大。
量化精度,表示采样数值所使用的二进制位数。二进制位数越多,表示的数值范围越大,量化后振幅的精度越高。量化位数一般取 8~ 64位。
数字化后声音文件的大小,
数据量(字节 /秒)=(采样频率 × 量化位数 × 声道数) /8
多媒体技术与应用常用声音编辑软件
声音数字化转换软件,把声音转换成数字化音频文件 。 代表性的软件有:
Esay CD-DA Extractor―― 把光盘音轨转换成 wav格式的数字画音频文件 。
Exact Audio Copy―― 把多种格式的光盘音轨转换成 wav 格式的数字化音频文件 。
R ealJukebox―― 在 Internet互联网上录制,编辑,播放数字音频信号 。
声音编辑处理软件 。 可对数字化声音进行剪辑,编辑,合成和处理,还可以对声音进行声道模式变换,频率范围调整,生成各种特殊效果,采样频率变换,文件格式转换等 。 典型的软件有:
Goldwave―― 带有数字录音,编辑,合成等功能的声音处理软件 。
Cool Edit Pro―― 编辑功能众多,系统庞大的声音处理软件 。
Acid WAV―― 声音编辑与合成器 。
声音压缩软件 。 通过某种压缩算法,把普通的数字化声音进行压缩,在音质变化不大的前提下,大幅度减少数据量,以利于网络传输和保存 。 常见的软件有:
L3Enc―― 将 wav格式的普通音频文件转换成 mp3格式的文件 。
Xingmp3 Encoder―― 把 wav格式的音频文件转换成 mp3格式的文件 。
WinDAC32―― 把光盘音轨直接转换并压缩成 mp3格式的文件。
多媒体技术与应用
MIDI音频
MIDI( Musical Instrument Digital Interface)是乐器数字接口的英文缩写
,是一个电子音乐设备和计算机的通讯标准。任何电子乐器,只要有处理 MIDI指令的微处理器,并有合适的硬件接口,都可以成为一个 MIDI设备。
声音的文件格式
.WAV 波形声音文件格式 。 直接来源于对声音模拟波形的采样,没有经过压缩,
数据量大,但音质最好 。
.MID MIDI文件记录的不是声音本身,而是将每个音符记录为一个数字,比较节省空间,可以满足长时间音乐的需要 。
.MP3 MP3是以 MPEG Layer 3标准压缩编码的一种音频文件格式。压缩率高达
12∶ 1且具有较好的音质 。
.CDA 光盘数字音频文件,也就是我们俗称的 CD音乐,是一种高质量的声音文件 。
.VOC 是 Creative公司声霸卡波形音频文件格式,是一种数字声音文件。
.RA 是 RealNetworks公司开发的主要适用于网络实时数字音频流技术的文件格式。它的面向目标是实时的网上传播,音质较差。
.ASF/ASX/WMA/WAX 是微软公司开发的新一代网上流式数字音频压缩技术。
这种压缩技术的特点是同时兼顾了保真度和网络传输需求。
多媒体技术与应用
1.2.5 视频的采集和处理
视频的采集和处理视频动态图像是由多幅连续的单帧图像序列构成的。当每一帧图像为实时获取的自然景物或活动对象时,称之为动态影像视频,
简称动态视频或视频( Video)。视频同动画媒体相比,视频是对现实世界的真实记录。借助计算机对多媒体的控制能力,可以实现视频的播放、暂停、快速播放、反序播放、单帧播放等功能。
多媒体技术与应用视频卡是视频信号采集中的重要设备,是 PC机上用于处理视频信息的设备卡。其主要功能是将模拟视频信号转换成数字化视频信号或将数字信号转换成模拟信号。 视频卡根据功能不同可分为多种类型。
视频采集卡,用于将摄像机、录像机等设备播放的模拟视频信号经过数字化采集到计算机中。
压缩 /解压缩卡,用于将静止和动态的图像按照 JPEG/MPEG标准进行压缩或还原。
视频输出卡,用于将计算机中加工处理的视频信息转换编码,并输出到电视机等设备上。
电视接收卡,用于将电视机中的节目通过该设备卡的转换处理,在计算机的显示器上播放。
多媒体技术与应用
常用的视频制作软件
Premiere 是 Adobe公司推出的产品,它是非常优秀的视频编辑软件,能对视频、
声音、动画、图片、文本进行编辑加工,并最终生成电影文件。
Video Studio 是著名的多媒体软件公司友利资讯股份有限公司推出的一款面向普通家庭用户,简单易学的数码声像编辑软件。
Power VCR 该软件继承了 CyberLink系列软件的一贯风格,界面华丽,操作简洁。
除了可以编辑 MPEG文件,还能实时采集通过显卡或视频卡影象,并实时压缩成
MPEG文件。
超级解霸 豪杰超级解霸是一款非常好的 VCD播放器,它也提供了音频解霸、音频压缩,CD压缩这三款制作和播放 MP3的工具。利用这些工具,可以方便地把 VCD、
录音和 CD转成 MP3。
HyperCam 是一个影像截取工具软件。它不仅截取方便,而且能将截获的影像自动转换为 AVI动画文件格式。
多媒体技术与应用
视频文件的格式
.AVI Microsoft公司开发的一种伴音与视频交又记录的视频文件格式 。
.MOV Apple公司为在 Macintosh微机上应用视频而推出的文件格式。
.VOB DVD视频文件存储格式。
.DAT VCD视频文件存储格式。
.MPE 采用 MPEG方法进行压缩的全运动视频图像文件格式。
.AVS Intel和 IBM公司共同研制的 DVI系统动态图像文件格式 。 AVS文件只能在 DVI系统硬件的支撑下才能读写 。 但它能提供较多的灵活性,能够支持多个数据流同时操作 。
多媒体技术与应用
1,3多媒体素材的基本知识人眼可以分辨的是可见光,可见光是由各种不同波长的彩色光谱组合而成,
波长范围在 350nm~ 750nm之间 。
1.3.1 色彩的基本知识图 1-6 可见光谱多媒体技术与应用
三基色和混色三基色是指红、绿、蓝三种基本颜色。色彩斑斓的视觉世界就是由这三种基本颜色来构造。红、绿、蓝三色光可以混合成自然界的全部色彩,而这三色光本身相互独立,所以人们常常将红、绿、蓝称为色光三原色。
红光+绿光+蓝光=白光红光+绿光=黄色光红光+蓝光=品色光绿光+蓝光=青色光红光+青光=白光绿光+品色光=白光蓝光+黄色光=白光红绿 蓝黄青品红白图 1-6 三基色和混色多媒体技术与应用
RGB色彩空间表示
RGB色彩空间通常用三维模型表示,如图 1-7所示。每种颜色用 RGB三个参数的三维坐标来描述,一幅彩色图像的每一个像素值用一个 RGB分量表示色彩,
每个分量占 8个二进制位。如黑色 (0,0,0),白色 (255,255,255);红色
(255,0,0)等。 RGB分量取不同的值,可混合出各种颜色。
图 1-7 RGB颜色空间的表示蓝 (0,0,255)
青 (0,255,255)
黑 (0,0,0)
绿 (0,255,0)
品红 (255,0,255) 白 (255,255,255)
红 (255,0,0)
黄 (255,255,0)
多媒体技术与应用
色彩的三要素人的视觉系统对彩色色度的感觉和亮度的敏感性是不同的 。 从人的视觉特性看,色彩可用色调,饱和度和亮度三个要素来描述 。
亮度,它是指彩色光作用于人眼时引起人眼视觉的明亮程度 。
色调,色调表示彩色的外观,用于区别颜色种类 。
色饱和度,色饱和度表示颜色的深浅程度 。
多媒体技术与应用
1.3.2 描述图像的主要指标分辨率,分辨率可分为显示分辨率和图像分辨率两种 。
显示分辨率,
图像分辨率,
颜色深度,也称为像素深度,是指存储每个像素所用的二进制位数 。
真彩色,伪彩色和直接色:
真彩色
伪彩色
直接色多媒体技术与应用颜色模式,
灰度模式:该模式只有灰度色 ( 图像的亮度 ),没有彩色 。
RGB模式:该模式是用红( R)、绿( G)、蓝( B)三基色来描述颜色。
HSB模式:该模式是利用颜色的三要素来表示颜色的,它与人眼观察颜色的方式最接近,是一种定义颜色的直观方式。
CMYK模式:该模式是一种基于四色印刷的印刷模式 。
Lab模式:该模式是由 3个通道组成,亮度 L; a通道,b通道多媒体技术与应用
1.3.3 动画与视频动画:
只要将若干幅稍有变化的静止图像顺序地快速播放,而且每两幅图像出现的时间小于人眼视觉惰性时间 (每秒钟传送 24幅图像 ),人眼就会产生连续动作的感觉 ( 动态图像 ),即实现动画和视频效果 。
动画可分为造型动画,帧动画和算法动画三类 。
造型动画,是对每一个活动物件的属性 ( 包括位置,形状,大小和颜色等 ) 分别进行动画设计,用这些活动的物件组成完整的动画画面 。
帧动画,帧动画属于二维动画
算法动画,采用计算机算法对物件或模拟摄像机的运动进行控制而产生动画 。
多媒体技术与应用视频视频是由一幅幅单独的画面(帧)序列组成的,这些画面以一定的速率
(帧率)连续地投射在屏幕上,使观众具有图像连续运动的感觉。
视频信号有模拟视频信号和数字视频信号两种:
NTSC,PAL和 SECAM制式的电视信号均是模拟视频信号,用普通摄像机摄制的视频信号也是模拟视频信号 。
HDTV制式的电视信号和用数字摄像机摄制的视频信号都是数字视频信号 。
数字视频信号也可以通过对模拟视频信号进行采样,模 /数转换,色彩空间变换等处理,转换为数字视频信号 。
多媒体技术与应用电视制式电视制式是一种电视的播放标准 。 不同的电视制式,对电视信号的编码,解码,扫描频率和画面的分辨率均不相同 。
普通彩色电视制式有以下三种 。
NTSC制式 ( 全国电视系统委员会制式 ),
PAL制式 (逐行倒相制式 ):
SECAM制式 (顺序与存储彩色电视系统 ):
HDTV制式 ( 高清晰度电视 ),
HDTV具有以下几个特点:
( 1) 分辨率:纵横像素数是传统的 2倍 。
( 2) 纵横比,W/H=16/9=1.777。
( 3) 观看距离:比传统距离近才能看到细节 。
( 4) 采用国际标准的压缩编码算法 MPEG-II。
( 5) 采用打包数据结构,图像和声音分成不同分量,数据包的大小随意,传输次序随机 。
( 6) 采用双层传输技术,保证 HDTV的可靠性和抗干扰性 。 将信息分开,重要数据在最高优先级载波上传输 。