第八章 多媒体技术基础 计算机技术、通信技术、大众传播技术的不断发展与融合,推动了多媒体技术的迅速发展和应用的日益广泛。多媒体技术使计算机具有综合处理文字、声音、图像、视频等信息的能力,其直观、简便的人机界面大大改善了计算机的操作方式,丰富了计算机的应用领域。多媒体技术的应用不仅渗透到了社会的各个领域,改变了人类获取、处理、使用信息的方式,还贴近大众生活,引领着社会时尚。本章将介绍多媒体技术的基本概念、多媒体设备、数字多媒体处理技术等内容。 8.1多媒体技术概述 “媒体”有多重含义,既可以看作存储信息的实体,又可当作表示信息的载体。 8.1.1媒体的分类 国际电信联盟将媒体分作五类,即感觉媒体、表示媒体、显示媒体、存储媒体、传输媒体。 1.感觉媒体。是指直接作用于人的感官而产生感觉的一类媒体。如视觉媒体,表现为文字、符号、图形、图像、动画、视频等形式;听觉媒体,表现为语音、声响、音乐;触觉媒体,表现为湿度、温度、压力、运动等;还有嗅觉媒体、味觉媒体。由视觉、听觉获取的信息,占据了人类信息来源的90%。目前对视觉、听觉媒体的研究与实现,技术相对完整和成熟,而对触觉等其他感觉媒体的研究与应用仍在不断探索中。 2.表示媒体。是为了加工、处理和传输感觉媒体而人为地研究、构造出来的一种媒体,表现为各种编码方式,如文本编码、语音编码、视频编码、条形码、图像编码等。 3.显示媒体。是用于输入和输出的媒体,它实现感觉媒体和用于通信的电信号之间的转换。如键盘、话筒、扫描仪、摄像机、数码照相机等输入设备和显示器、音箱、打印机等输出设备都属于显示媒体。 4.存储媒体。用于存放信息,以便计算机随时调用和处理信息。硬盘和光盘是最典型的存储媒体。 5.传输媒体。用来将信息从一个地方传送到另一个地方,主要指通信设施。 多媒体技术中的媒体主要指的是信息的表现形式,如文字、图形、图像、动画、声音、视频等。利用计算机技术将多种媒体信息集成在一起,形成一个具有交互能力和信息处理能力的系统的技术统称为多媒体技术。多媒体技术是多种学科交融的产物,是基于计算机技术的多种技术的融合,其中关系最密切的是电子技术、计算机技术、通信技术、大众传播技术。 8.1.2 多媒体技术的特点 多媒体技术是一门跨学科的综合技术,具有媒体多样性、集成性、交互性、实时性等多种显著的特点。 1.集成性 多媒体技术的集成性体现在多媒体应用系统的硬件集成、软件集成、信息媒体集成等各个方面。首先,多媒体系统是以计算机为中心的信息处理系统,需要将计算机硬件、通信设备、各种媒体的输入输出设备以及有关的智能控制设备集成在一起,形成一个有机的系统硬件平台;其次,由于媒体的多样性,需要有与之相应的多媒体操作系统、应用软件、开发工具等相互协作,必须将多种软件进行组合、协调,集成到应用系统中;另外,就多媒体信息的内容而言,各中媒体元素之间存在一定的逻辑联系,需要精心安排和组织,实际上是信息内容的集成。 2.交互性 早期,以广播、电影、电视为主的大众传播技术能将多种媒体信息快速地传播。这种单向的信息传播途径使人们只能被动地接受信息,很难做到自主地控制和干预信息的获取和处理过程。交互性不仅增强了人们有效地控制和管理多媒体信息的能力,同时也增加了人们对信息的注意力和理解力,延长信息保留时间。人机交互不仅能提高人对信息表现形式的选择和控制能力,同时也能提高信息表现形式与人的逻辑和创造能力结合的程度。借助交互活动,用户可参与信息的组织过程,甚至可控制信息的传播过程,从而可使用户学习、研究感兴趣的内容,并获得新的感受。 3.实时性 声音、图像、动画等媒体往往与时间密切相关。比如视频和动画都存在画面内容与音频的同步要求,实况转播中画面的连续、清晰与及时性等都是媒体信息实时性的体现。这就决定了多媒体计算机技术必须具备严格的时序要求和很高的速度要求。在网络环境下的多媒体应用需要对系统结构、媒体同步、多媒体操作系统和应用服务提出更高的实时性要求,当用户给出操作命令时,相应的多媒体信息都能够得到实时控制。 8.1.3 多媒体技术研究的主要内容 多媒体技术的研究内容不仅包括多媒体硬件设备,还包括软件技术、数据编码解码技术、应用系统开发工具以及集成技术。主要内容可概括为以下几个方面: 1.多媒体数据压缩和解压缩技术 声音、图像、视频等媒体数据量巨大。一幅分辨率为640×480的24位真彩色图像约占0.9MB的空间。如果在PAL制式下(25帧/秒)同样分辨率的动态视频,数据量将达到22.5MB/秒。该视频1秒钟的数据若用电话线的标准速率(2400bps)传输,需要花费约为21小时。视频与音频信号不仅数据量大,而且还有时间同步的要求。在通信网络上,最常用的电话网的传输速率只有1200~9600bps,这种通信带宽根本无法满足非压缩的动态视频音频在线播放的要求。尽管目前推出的快速网和宽带网传输速率已大大提高,但相对于多媒体数据通信的需要,仅靠增加存储空间和改变通信带宽是无法解决问题的。不断研究出优秀的压缩解压算法,对数据进行有效的压缩,一直是多媒体技术中必须要解决的关键技术。 2.多媒体信息的存储技术 经过压缩处理后的多媒体信息,仍需占用相当大的存储空间。从目前的技术来看,选用大容量的硬盘虽然能解决多媒体的存储问题,但硬盘容量有限且价格较高,还不便于交流多媒体软件产品。只读光盘(CD-ROM)由于其容量大(650MB)、价格低、数据保存寿命长而成为多媒体产品发布的主要存储体。DVD光盘具有更大的存储容量,单个盘片上单层存储的数据量已扩展到4.7GB,采用多层技术其容量能扩展到17GB。目前,三星公司的“蓝光盘”(尺寸与CD一样)存储容量已达到27GB,而超级光盘、全息光盘、多层存储技术的研发,将使存储容量不断增大。DVD光驱和刻录机价格越来越低,DVD光驱已成为PC机的标准配置。 使用刻录机刻录光盘保存多媒体数据,能够解决多媒体数据的扩展问题,但用DVD保存高清晰度电视影片,存储容量的矛盾又凸现出来,相对于快速膨胀的多媒体信息存储与交换的要求,目前的存储设备总是显得力不从心。因此,世界许多著名的公司都在研发新的存储技术,使硬盘、光盘的体积更小、容量更大、速度更快、功耗更低,以满足多媒体信息存储和发布的需要。 此外,数据存储管理技术也是多媒体技术研究的重要内容,如磁盘阵列、分布式存储管理等的研究和发展,能为多媒体数据的安全、稳定提供保障,并实现真正意义上的海量存储。 3.媒体输入输出技术 媒体输入输出技术包括媒体变换技术、识别技术、理解技术和综合技术。媒体变换技术是指改变媒体的表现形式,如视频卡、声卡等都属于变换设备。媒体识别技术是对信息进行一对一的映射。例如,语音识别是将语音映射为文本字符,而触摸屏是根据触摸屏上的位置来识别其操作要求。媒体理解技术是对信息作进一步的分析处理,以理解信息内涵。如自然语言理解、图像理解、模式识别等。媒体综合技术是把低维信息表示映射成高维的模式空间的过程。例如,语音合成器就可以把语音的内部表示综合为声音输出。媒体的变换技术和识别技术相对成熟,应用较为广泛。而媒体理解和综合技术目前还不成熟,只用在某些特定的场合。多媒体技术的发展需要不断推出新颖、便捷、直观的输入输出设备和智能识别与理解技术,使计算机操作更加人性化。 4.多媒体通信技术 无论哪一种网络下的多媒体应用系统,都需要有高传输速率、高稳定性和可靠性的多媒体通信网络提供支持。巨大数据量的多媒体系统要满足实时性要求,对网络带宽够成了巨大的压力;数据的突发性,网络数据流量的控制失当,节点或线路的故障等都容易造成网络拥塞甚至瘫痪,使多媒体应用系统失控。随着视频会议、视频点播、多媒体电子邮件、远程教学、远程医疗等网络多媒体应用不断增加和普及,多媒体通信的业务要求将急剧膨胀。需要不断研发新的多媒体通信设备和网络通信管理技术,满足网络多媒体应用系统的需要。 5.多媒体操作系统和多媒体数据库技术 多媒体操作系统能够象处理文本、图形文件一样方便灵活地处理动态音频和视频;能灵活方便地控制录像机、音响、MIDI、CD-ROM等多媒体设备,并具备多任务处理、多线程控制等功能;还提供多媒体应用系统开发的底层接口。如Windows就提供了对多媒体的支持,它提供了多媒体开发工具包MDK、底层应用程序接口(API)和媒体控制接口(MCI)。设计者只需直接用它进行多媒体的开发,不必再关心物理设备的驱动程序。目前用于微机的多媒体操作系统主要有Windows系列、OS/2、Macintosh OS等,开发功能更加强大、操作更加方便的多媒体操作系统,能为多媒体应用提供更广阔的前景。 多媒体数据不规则,没有一致的取值范围和相同的数据量级,也没有相似的属性集,是一种无结构类型。如何组织、处理和查询多媒体数据是多媒体数据库要解决的难题。目前的多媒体数据组织形式可使用数据库管理和超媒体链接形式实现。将原有的关系数据库扩展成支持多媒体数据存储和输入输出的系统,能够解决部分多媒体功能要求,但存在的问题仍很多。需要研究多媒体数据模型,开发出较为通用的多媒体数据库系统,方便多媒体数据的存储和检索。 6.多媒体信息检索技术 文本的检索通常采用关键词检索技术实现。但图形、图像、声音、视频等多媒体数据是非规格化数据,不能按关键词检索,需要采用基于内容的检索技术实现。各类媒体有较大的差异性,并且与组成媒体信息的相关领域专业知识密切相关,信息特征的提取方法以及匹配方法的研究要依赖相关领域的专业知识和经验。基于内容的检索技术研究,不仅是多媒体技术研究的重要领域,也是当今高新技术研究和发展的热点。 8.1.4 多媒体技术的发展与应用 1.多媒体技术的发展过程 计算机中信息的表示最初只能用二进制的0、1来替代,其目的纯粹是为了计算。这种0、1的形式使用起来非常不方便,因此便产生了ASCII码这一类的字符编码。将字符处理过程引入到计算机中,不仅方便了用户,也使计算机不再局限于计算范围,而进入了事务处理领域。随后计算机开始处理图形、图像、语音、音乐和影像视频,这个过程就是计算机的多媒体化过程。以此同时,在大众传播界,从印刷技术开始了电子数字化的过程,逐步发展了广播、电影、电视录像、有线电视、交互式光盘系统CD-I和高清晰度电视HDTV,从另外一个方面发展了信息的广泛传播技术,且逐渐地开始具有交互能力。在这个过程中,通信网络技术的发展,一方面不断地扩展了信息传递的范围和质量,另一方面又不断支持和促进了计算机信息处理和通信、大众信息处理和传播的发展。从信息的角度来看,在上世纪七十年代末(1978),计算机、通信和大众传播几乎是独立发展的三个领域,八十年代开始有部分重叠,2000年以来,这三个领域有90%以上的部分已重叠在一起。 多媒体系统不仅涉及到计算机的各个应用领域,也涉及到消费类电子产品(如小家电、电子游戏、手机等)、通信、传播、出版、商业广告及购物、文化娱乐、各种设计等领域或行业。多媒体在各行业、各领域中的应用又推动了多媒体技术与产品的发展,开创了多媒体技术发展的新时代。各种计算机应用软件都竞相加入多媒体元素,多媒体节目也渗入到各行各业中,并进入到人们的家庭生活和娱乐中。多媒体技术的发展历程与三个领域的不断融合密切相关,多媒体应用的普及也与这三者的社会化、大众化密不可分。如图8-1所示。 2.多媒体技术的应用 多媒体技术的发展为计算机应用开拓了更广阔的领域。如今,随着因特网的普及以及通信技术的发展,多媒体应用已覆盖了通信、传播、出版、广告、商业、文化娱乐、工程设计、购物消费等众多领域。 (1)教育与培训 以网络多媒体计算机为核心的现代教育技术,改变了传统的教学手段和教学模式,使教学手段更加直观、形象。多媒体教学系统极大地丰富了教学内容的呈现形式,增强了教学的直观性;交互式的学习环境具有更大的吸引力,增强了师生互动;为学生的学习营造了很好的情境,从而提高了学生的学习热情和学习效率。远程教育系统以及网络在线辅助学习打破了传统的班级教学模式,为实现自主学习、社会化学习、多元化学习提供了必要条件。多媒体远程教育系统,能使边远地区的学生同样享受到一流学校优秀教师的现场教学,使教学资源得到更好的利用和优化。 (2)电子出版物 电子出版物以数字方式将文字、图形、图像、声音、视频等信息存储在磁盘或光盘上,通过光盘发行或网络传播。电子出版物的内容包括电子图书、报刊杂志、资料文档、娱乐游戏、软件、音乐、数字影视作品等。多媒体电子出版物是计算机多媒体技术与文化、艺术、教育等多种学科结合的产物,是当今影响最大的信息技术之一,是信息内容产业的重要组成部分。 (3)多媒体通信 多媒体通信技术把计算机的交互性、通信的分布性和电视的真实性有机地融合在一起,成为当前信息社会的一个重要标志。目前主要应用于可视电话、视频会议、多媒体信息资源检索、多媒体邮件及知识传播等领域。网络上流行的语音视频聊天室、网络电影播放、网络现场直播等都是网络多媒体通信技术的具体应用。 (4)计算机支持的协同工作环境 计算机支持的协同工作环境的英文缩写为CSCW。CSCW是指在基于计算机支持的网络共享环境中,一个群体协同工作完成某项共同的任务。多媒体技术的应用将使CSCW更加完善,以更好地实现信息共享,提高工作效率。CSCW在办公自动化、产品设计、商业经营等行业和领域都有成功的应用。 (5)过程模拟 在设备运行、天气预报、航天模拟、军事训练等很多方面,采用多媒体技术模拟其发生、发展过程,使人们能够形象地了解事物发展变化的原理和过程,使复杂、抽象的事物变得简单生动。多媒体的过程模拟不仅在工业、航天、军事等领域有广泛的应用,在农业、交通、旅游、商业、影视、生产管理等领域的应用也越来越广泛。 (6)虚拟现实 虚拟现实就是由多媒体计算机系统模拟生成一个逼真的“现实”场景,使人有身临其境的感觉,并可以直接进行实体操控。虚拟现实是多媒体技术发展的更高境界,具有更高层次的集成性和交互性,需要通过多种输入输出设备充分调动人类的视觉、听觉、触觉,甚至嗅觉和味觉的直接参与。可见,虚拟现实需要多学科技术的共同推动,研究难度非常大。虚拟现实最早的应用是飞行员培训,将虚拟现实技术应用到人员培训和游戏娱乐等领域,将开辟出一个前景广阔的市场。 8.2计算机中的多媒体设备 多媒体计算机除了基本的计算机配置之外,需要扩充有关声音、图像、视频等获取和转换的设备。最主要的有声音输入输出设备、图形图像输入输出设备、视频输入输出设备、人机交互设备、通信及存储设备。图8-2示意了常见的多媒体设备。 图8-2 常见多媒体设备 8.2.1 数字音频接口 音频卡也称为声卡,用于处理音频信息。它可以把家电产品中的非数字音响设备,如录音机、CD唱机、功放、话筒等连接到计算机系统中,实现语音和音乐的输入输出;通过声卡上的MIDI接口,还可以将MIDI键盘、电钢琴、电吉他等电子乐器连接到计算机中,组成个人音乐创作系统。MP3等数字设备通过USB接口可以直接连接到计算机中。 1.声卡的功能 声卡将输入的模拟声音信号进行模数转换(A/D)、压缩编码,变成二进制的数字声音信号;也可以把经过计算机处理的数字化的声音信号通过解压缩、数模转换(D/A)后用音箱播放出来,或者用录音设备记录下来。声卡是电脑实现音频信号输入输出及其处理的硬件设备,也是与音箱、话筒等外设连接的接口。其主要功能有录制和回放声音文件;音频数据编码压缩与解码;混音处理;MIDI接口和声音合成功能,实现电子乐器与计算机之间的MIDI信息传送和控制;语音合成功能,在相应软件的支持下实现文语转换。 2.MIDI MIDI(Musical Instrument Digital Interface)是乐器数字接口的英文缩写,泛指数字音乐的国际标准,用于处理电子乐器之间数据的发送和接收。从20世纪80年代初期开始,MIDI已经逐步被音乐家和作曲家广泛接受和使用。MIDI是乐器和计算机使用的标准规范,它规定了各相连硬件接口规范和通信协议,告知MIDI设备要做什么和怎么做,如演奏音符、加大音量、生成音响效果等。 任何电子乐器,只要有处理MIDI消息的处理器和适当的硬件接口,都能成为MIDI装置。MIDI装置之间通过接口传递消息,使彼此之间进行通信连接,这些消息就是乐谱的数字描述。乐谱由音符序列、定时和合成音色的乐器定义等组成,当一组MIDI消息通过乐器合成芯片演奏时,合成器解释这些符号,并产生音乐。 MIDI标准具有以下优点:生成的文件短小,MIDI文件存储的是乐谱而不是声音波形;容易编辑,编辑乐谱比编辑声音波形要容易得多;用作背景音乐。MIDI音乐可以和其它的媒体,如数字电视、图形、动画、话音等一起播放,这样可以加强演示效果。但MIDI播放的音质不如波形声音的音质好。 3.合成器 声卡中一般采用两种不同的方法还原MIDI声音,FM (Frequency Modulation,频率调制)合成和波表(Wave table)合成。FM合成利用调频技术产生多种正弦波叠加波形来模拟实际乐器的声音。由于乐器的音色可以分解出无穷多种正弦波,而一般声卡上集成的FM合成器仅由几种波形叠加来模拟声音,不足以还原逼真的音色,所以,一般的声卡播放的MIDI音乐都不够逼真。 波表合成采用波表查找技术来产生MIDI音乐。这种技术是将录制的各种乐器的数字化声音存储在只读存储器中,形成波表存储器。播放MIDI音乐时,根据乐谱所指示的乐器到波表中查询该乐器的对应波形,经过数模转换器转换为声音信号,可以达到令人满意的音乐效果。波表合成器播放的是自然音的重现,产生的音响效果比FM合成器合成的MIDI音乐质量高,音色好。 8.2.1 数字视频接口 1. 图形加速卡。个人电脑中常说的显卡,目前已具备快速生成图形的功能,可以很好地满足游戏动画和图像处理的要求。显卡的主要组成部件是图形处理器芯片、显存、BIOS、RAMDAC、接口电路及其它芯片。图形加速卡本身自带图形函数加速器和显存,专门用来执行生成图形的相关运算,大大减少了CPU处理图形函数的负担。加速卡的性能取决于芯片组所提供图形函数运算的能力。按芯片组数据传输带宽可分为64位、128位、256位芯片,目前的芯片多为64位,一些新的显示卡甚至达到了256位。更大的带宽可以带来更高的图像分辨率和颜色深度。 显存用于存储要显示的图形数据。屏幕上所显示的每个像素都由若干位数据来控制颜色和亮度,加速芯片和CPU对这些数据进行控制,RAMDCA读入这些数据并把它们输出到显示器。现在的大多数显卡不仅将图形数据存储在显存中,还利用显存进行计算,尤其是具有3D加速功能的显卡,还需要用显存进行3D函数运算。显存对3D加速卡的性能影响越来越大,如果3D加速卡芯片功能很强大,而显存无法将处理好的数据即时传送,同样无法得到满意的显示效果。 2.视频卡。现有的家电及其视频设备大多使用模拟信号,要将它们连接到计算机系统中必须有相应的接口进行模拟信号与数字信号的转换,视频卡就是二者之间连接的桥梁。由于视频设备种类繁多,视频信号存在差异,功能要求也不尽相同,因此视频卡种类繁多,主要包括:视频压缩解压卡、视频转换卡、视频采集卡、视频叠加卡等,目前的视频卡正朝着专业视频卡和多功能集成卡方向发展。 (1)视频转换卡。视频转换卡分为VGA-TV卡和TV-VGA卡两类。VGA-TV卡的功能是将计算机显示器的VGA信号转换为标准视频信号传送到电视机、大屏幕投影机上,或通过录像机录制在磁带上。将视频转换功能集成在显卡上,就可在电视机上显示计算机的内容。VGA-TV卡广泛应用于以电视或大屏幕投影来展示计算机信息的场所,如大型商业展示会、大型广告、证券交易所等,通过软件可以控制所要显示的信息。这些卡应支持PAL和NTSC两种制式,带有视频输出端子,有些卡还带有VGA、RGB和S-Video输出端子,以利于连接不同的输出设备。 TV-VGA卡卡的核心部件是一个与电视机或录像机功能类似的高频头,用来选择电视频道。该卡的视频输入端子连接到有线电视线上,通过软件操作就可控制电视频道的选择,将接收到的电视信号转换成VGA格式的数字信号传送到显示器上。此时,计算机具有电视机的所有功能,可以选台收看所有电视节目。 有的厂商将TV-VGA卡、VGA-TV卡以及视频叠加卡功能集成在一块卡上,实现电视节目收看、计算机信息(字幕)叠加、视频转播等应用要求。由于视频卡的应用领域十分广阔,厂家很难满足方方面面的要求,所以视频卡除了含有为一般用户所配的软件外,还有专为进行二次开发所配套的软件开发工具。 (2)视频采集卡。视频采集卡能将电视信号转换成计算机的数字信号,便于对转换后的数字信号进行剪辑、加工和色彩控制,还可将处理后的数字信号输出到录像带中。通常在采集过程,对数字视频信息还进行一定形式的实时压缩处理。较高档的采集卡依靠特殊的处理芯片进行硬件实时数据压缩处理,而那些没实时硬件压缩功能的卡,也可通过电脑上的CPU进行软件压缩的处理。另外,对于数码摄像机这类数字视频源,通过IEEE 1394接口,不必再添加任何采集卡就可以将拍摄的数字视频传输到计算机中。视频采集卡的数字化一般都要求支持24位真彩色,它不仅能实现对视频中的单画面捕获,还能对实时动态画面连续捕获,其帧率应达到25fps以上。如果捕获帧率在20fps以下,影像还原时就会闪烁甚至停顿。 8.2.3 外部存储设备接口 1.USB接口 USB的中文含义是“通用串行总线”。它使用4针插头(2根电源线和2根信号线)作为标准插头,采用菊花链形式把所有的外部设备连接起来,能将各种不同的外设接口统一起来。USB接口具有自动配置能力,外设连接到USB接口后,计算机就能自动识别和配置USB设备,实现“即插即用”和热插拔。 USB总线标准由1.1版升级到2.0版后,传输速度由12Mb/s增加到480Mb/s,更换介质后连线距离由原来的5米增加到近百米。目前满足USB接口要求的设备越来越多,从鼠标、键盘、光盘、刻录机、扫描仪、打印机到数码相机、MP3播放器、U盘等一应俱全,数字设备使用USB接口与计算机连接已成为潮流。 2. IEEE1394接口 IEEE1394接口俗称“火线”,是一种数据传输的开放式技术标准。该接口可以同时传送数字视频以及音频信号,并且在视频采集和回录过程中没有任何信号的损失。IEEE1394接口提供6针槽口和4针槽口,4针槽口专门用来直接连到DV或D8摄像机。 8.2.4 视频输入输出设备 1. 图像扫描仪。是一种将静态图像输入到计算机里的图像采集设备。扫描仪内主要由光源、光学透镜、光电耦合器(CCD)、模数转换器等组成。CCD排成一行,每一个单元对应着一行里的一个像素。如果一行上每英寸长度有300个CCD的话,称为光学水平分辨率有300dpi,它是衡量扫描仪质量的一个重要物理指标。光学垂直分辨率取决于步进电机的精密程度,一般是水平分辨率的2倍。通常所说的扫面分辨率往往是指对扫描的图像用软件插值后的图像分辨率。 当扫描一幅图像时,光源照射到图像上反射后穿过透镜到达CCD,每个CCD把这个光信号转换成模拟信号,表示出该像素的色彩或亮度。模/数转换器再把模拟光信号转换成数字颜色分量。可以采用24位或36位来表示颜色分量的值,更高的位数意味着图像的层次和像素深度更丰富,输出的数字信号经过内建的硬件或软件插值修正之后以图像形式显示出来。 现在的扫描仪甚至可以扫描立体图像。扫描仪如果配上文字识别软件,还可以快速方便地把各种扫入的文稿图像转换成文本字符存储到计算机内,大大加快了计算机文字录入过程。扫描仪的主要性能指标有分辨率(单位为dpi,即每英寸像素点数)、色彩深度(像素的颜色量化位数,确定了扫描仪支持的色彩范围)、速度、幅面(采用国际标准,如A4、A3、A2)。 扫描仪有手持式、滚筒式、平板式等多种方式,接口类型有SCSI(需要配一块SCSI卡,数据传输速率能达到20MB/s)、EPP(数据传输率只有0.5~2MB/s)、USB(数据传输率可达到12MB/s)。普通的平板式扫描仪是通过反射光来扫描图像,若要扫描相片底片(透明的负片)需要使用透射式扫描仪。有些反射式扫描仪可以选配一个透射架,加载上透射架后就可以扫描透明胶片。 2.数码照相机 数码照相机在外观和使用方法上与普通的全自动照相机很相似,两者之间最大的区别在于前者将拍摄的图像直接以数字图像文件保存在存储器中,后者通过胶片暴光来保存图像。将数码照相机与计算机连接,就可将图像文件从照相机里下载下来。 数码相机也是通过光电耦合器CCD进行图像传感的。它将CCD做成阵列,每一个CCD识别一个像素的色彩,将光信号转换成电信号记录下来,然后借助计算机对图像资料进行修改、筛选等处理。除了CCD图像传感器外,还有一种CMOS图像传感器,它消耗的电能比CCD传感器少得多,但抗噪声能力差,信号传向传感器时会产生歧变,影响图像质量。由于CMOS传感器集成度高、价格低,常用于低端得数码相机。 数码相机拍摄图像的清晰度和色彩饱和度都取决于CCD上所采集的像素数,像素数越多图像越清晰。CCD的面积太小就意味着需要性能更高的镜头,才能在狭小的面积上构成色彩鲜明清晰的图像。一般中档数码相机的CCD面积为1/3平方英寸,而高档数码相机多为2/3平方英寸,是中档数码相机的4倍。 数码相机中的图像文件一般都采用JPEG格式,压缩比为1:4~1:20,有多种级别可选。采用24位像素深度,根据分辨率不同图像可以分成超优质模式(1280×1024)、优质模式(1280×960)、标准模式(640×480)、全景模式(1280×480)。数码相机内部都装有1~4MB的存储器,用来保存图像。用4MB的存储器可保存36张标准模式的图片。另外还可使用外插的存储卡保存更多的图片。图像可以通过USB口或IEEE1394接口传送到计算机中,也可使用视频线传送到电视机、录像机等设备上。 数码相机的性能指标可分为两部分,一部分是传统相机使用的指标,如镜头形式、快门速度、光圈大小等涉及光学系统的指标;另一部分是数码相机数字化特有的指标,如分辨率(象素数量)、颜色深度、存储介质、数据输出接口、连续拍摄的时间间隔等。数码相机在拍完一张照片后需要将数据保存好后才能拍摄下一张照片,两张照片之间的间隔时间是衡量相机质量的一个重要指标,间隔时间越短,相机质量越高。 3.数码摄像机 数码摄像机(英文缩写为DV)也是使用CCD实现影像的采集和数字化的。它采用只有6.3mm宽的磁带作记录媒体,体积小,图像质量高。数码摄像机的优点是动态拍摄效果好,DV带可以支持长时间拍摄,其拍摄、采集、编辑、播放自成一体,相应的硬件支持与软件配合都很和谐,另外还配有存储卡,一机两用非常方便。 数码摄像机上通常有S-Video、AV、DV In/Out等接口,可连接到多种视频设备上。DV In/Out接口使用4针的IEEE1394接口,可直接连接到带有IEEE1394接口的计算机中。当数码摄像机与计算机连接好后,打开数码相机电源,并调到VCR状态,计算机的操作系统会自动识别数码摄像机,使用采编软件就可将存储在DV带上的视频影像输入到计算机中。 4.触摸屏 触摸屏已广泛应用于工业控制、通信、交通以及服务行业等众多领域,尤其是在这些领域的信息查询系统中应用更为普及。触摸屏系统由三个主要部分组成,即传感器、控制器、驱动程序。传感器探测用户的触摸动作,控制器把触摸动作转换为数字信号传到计算机里, 驱动程序帮助应用程序与触摸屏打交道。触摸屏可以通过键盘端口、RS-232串行接口及专用控制器与计算机连接。目前广泛使用的触摸屏类型有: (1)红外式触摸屏。红外式触摸屏在显示器的四周放置红外线发射器和对应的红外线接收装置,用户的手指或其他物体隔断了红外交叉光束,从而检测出触摸位置。触摸屏通常由RS-232端口或键盘端口与计算机连接。红外式触摸屏由于其寿命长且易于安装、不影响屏幕清晰度、价格较低,因此广泛应用于公共信息查询和工业控制系统中。由于红外线与屏幕有一定的距离,不接触屏幕也可遮挡红外线造成假触摸,甚至灰尘、烟雾等都可能造成假触摸。 (2)电阻式触摸屏。屏幕上涂有由两层导电的高透明度氧化金属物制作的薄膜涂层,两个涂层间有很小的间距。当手指接触屏幕时,就会在接触点产生一个电接触,使该处的电阻发生变化。在屏幕的水平和垂直方向上分别测得电阻的改变就能确定触摸的位置。电阻式触摸屏分辨率高,对触觉的反应灵敏,防尘防潮性能较好,并可带手套触摸,但电阻式触摸屏透光度稍差,对图像显示质量有一定影响。 (3)电容式触摸屏。用一个接近透明的金属涂层覆盖在屏幕表面上,当有电容物资(手指)接触到这个涂层时,改变了极板间的距离,引起电容量的改变。由于电容的改变使连接在一角的振荡器频率发生变化,测量出频率改变的大小即可确定触摸的位置。电容式触摸屏的特点与电阻式触摸屏类似,由于对涂层的均匀性和测量精度要求较高,通常投资较大,价格较高。另外,屏幕上的尘埃、污秽等都会引起错误,用带手套的手指触摸都可能失效。 (4)表面声波触摸屏:靠反射器和接收器产生的声波来确定触摸位置。 (5)应力计触摸屏:将压力转换为电压或电阻,根据电压的变化来确定触摸位置。 8.2.5 其它输入输出设备 1.IC卡 由于磁卡有存储量小、功能弱、安全性差等缺点,从上世纪80年代开始,IC卡的应用得到了飞速发展,正逐步取代磁卡。IC卡的主要技术包括三个部分:硬件技术、软件技术和业务知识。按功能可分为存储卡、智能卡和超智能卡。存储卡由一个或多个集成电路组成,具有记忆功能;智能卡由一个或多个集成电路芯片组成,具有微电脑和存储器,并封装成便于人们携带的卡片。智能卡芯片具有暂时或永久的数据存储能力,其内容可供外部读取、内部处理和判断,并具有逻辑处理能力。超级智能卡除具有智能卡的功能之外,还具有自己的键盘、液晶显示器和电源,实际上就是一台卡式微机。 2.条形码设备 条形码识别技术是集光电技术、通信技术、计算机技术和印刷技术为一体的自动识别技术。条形码识别设备广泛应用于金融、商业、外贸、海关、医院等领域。 条形码由一组宽度不同、平行相邻的黑条和白条并按规定的编码规则组合起来,用来表示某种数据的符号,这些数据可以是数字、字母或某些符号。条形码是人们为了自动识别和采集数据人为制造的中间符号,供机器识别,从而提高数据采集的速度和准确度。 条形码中的黑条代表1,白条代表0,它们可以通过光来识别。当一束光扫过条形码时,只有白光会将光反射回来,反射的光用光探测器来接收,当探测器探测到反射光时就产生电脉冲,这样就把黑白条形码转换成为以二进制表示的电脉冲,再通过译码器将电信号转换成计算机可读的数据。 除了以上介绍的常用辅助设备外,多媒体计算机中还用到如光笔、写字板、游戏杆、绘图仪、数据手套、数字头盔等设备。 8.3数字声音基础 8.3.1声音的特点 1.声音的本质 声音是由机械振动产生的物理波,它由频率和振幅两个基本参数决定。频率描述了振动的快慢,频率越高声音越尖锐;振幅描述了振动的强弱,振动越强,引起的声压变化越大,声音就越大。但人耳是一个非常复杂的系统,对声音的强弱感觉并不是成线性的,大体上与声压的对数成比例。为了适应人类听觉的特性和计量的方便,一般都用声压的有效值或音强值取对数来表示声音的强弱,单位为分贝(dB)。人耳的听觉受到声音频率范围和声压级范围的限制。对声音频率的听觉范围为20Hz~20kHz之间,而音强的范围一般在0~120dB。 2.声音分类 按声波的频率范围划分,可将声波分为次音波(频率小于20Hz)、音频波(频率在20Hz~20kHz之间)和超音波(频率大于20kHz)。公认的声音质量分为四个等级,音质从高到低依次为数字激光唱盘质量、调频无线电广播质量、调幅无线电广播质量、电话质量。见表8-1。 语音是由人的发声器官产生的声音,频率范围在主要集中在300Hz~3kHz之间。语音用可懂度、清晰度、自然度来衡量。一般而言,男性语音频率在100Hz~9KHz之间;女性语音频率在150Hz~10KHz之间。在语音研究与应用中,低于200Hz的低频信号用来增强话音的自然度和说话风度;高于7000Hz的高频信号用于提高话音的可懂度和话音的区分能力。 表8-1 声音分类 名 称 英文简称 频率范围  数字激光唱盘 CD-DA(Compact Disc Digital Audio) 10Hz~20kHz  调频无线电广播 FM(Frequency Modulation) 20Hz~15kHz  调幅无线电广播 AM(Amplitude Modulation) 50Hz~7kHz  电 话 Telephone 200Hz~3.4kHz   8.3.2音频数字化 1.模拟音频 声音用电压或电流表示时,声音信号在时间和幅度上都是连续的模拟信号。描述一个随时间变化的模拟信号有三个基本要素,即基准线、频率、振幅,它们是测量一个模拟信号的基本物理量。对声音信号的分析表明,声音信号并不是单一频率的信号,而是由许多频率不同的信号组成的复合信号。图8-3为音乐中截取的一段波形图及其部分放大后的波形。  图8-3 声音波形 通过麦克风可以将声波转换成模拟电信号,用连续的电压变化来描述声波,由此得到了模拟音频。扬声器又可以根据电信号的变化控制纸盆振动,还原出原来的声波。模拟音频的录制是将代表声音波形的电信号转换到磁带、唱片等媒体上,播放时将记录在媒体上的信号还原为声音波形。模拟音频具抗干扰能力差,复制转储信号会衰减,不易进行特效处理等缺点。 2.数字音频 普通计算机中所有的信息均以二进制数字表示,不能直接控制和存储模拟音频信号。用一系列数字编码来表示音频信号就称为数字音频信号。数字音频的特点是保真度好,动态范围大,可无限次复制而不会损失信息,便于编辑和特效处理。 3.模拟音频数字化 模拟声音在时间和幅度上都是连续的,而数字音频是一个数据序列,在时间和幅度值上都是离散的。将模拟音频进行采样、量化的过程称为音频数字化。 (1) 采样 把模拟声音变成数字声音时,需要每隔一个时间间隔就在模拟声波上取一个幅度值,这一过程称为采样。采样就是在时间上将连续信号离散化,将时间上连续的声波信号转换成离散的时间序列信号,称为脉冲幅度调制(PAM)信号。采样频率越高,得到的幅度值越多,越容易恢复模拟信号的本来面目。要保证从部分的离散值中恢复成原来的连续值,采样频率必须满足采样定理(奈魁斯特定理),即采样频率超过信号本身频率的两倍。常用的采样频率有:8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz。对于不同的声音质量可采用不同的采样频率。 (2) 量化 采样得到的幅度值是一个幅度上的连续数。要将幅度值离散化,就需要将无穷多的值限定在有限个取值范围内,把落在同一范围附近的幅度值近似地看作同样的值。这样用有限个小幅度(量化阶距)来表示无限个幅度值的过程称为量化。量化过程中量化阶距的大小和划分方法至关重要。量化阶距越小,量化精度就越高。常见的量化位有8位、16位、24位。8位量化只能得到256个阶距,满足电话音质的基本要求,16位量化可得到65536个阶距,满足立体声CD-DA音质的要求,更专业的音频处理设备才需要使用24位以上的量化。图8-4示意了音频数字化的方法。连续的音频信号通过采样变成了脉冲幅度调制信号(曲线上的小黑点),假定音频的电压浮动范围是-0.7V~0.7V,将电压范围划分成15等份,每一等份给一个4位编码,用编码来表示幅度的数量关系,由此得到的整数序列就是数字化后的声音。  图8-4音频数字化 量化总会带来信息的丢失和量化噪声的增加。要真正从数字音频中完全恢复原始音频信号,理论上必须要有无穷多位数据。在通常的数字系统中,无论量化阶距取多小,每个采样点都可能产生舍入误差,并且存在与这种误差相应的失真和噪声,将它们统称为量化噪声。量化阶距的划分可按照等距划分,称为线性量化或均匀量化。此外也可选择非均匀量化,如公用电话编码中的PCM编码就采用非均匀量化方法。 直接数字化后的音频数据量非常大,其数据量与采样频率、量化位数成正比。即: 音频数据量=采样频率×量化位数÷8×声道数×时间(秒) 8.3.3音频压缩编码与文件格式 1.多媒体数据压缩编码 多媒体数据中存在多种数据冗余,如空间冗余、时间冗余、结构冗余、知识冗余、视觉冗余等,完全可以在减少冗余数据的情况下获得满意的音频、视频效果。多媒体数据的压缩方法根据压缩质量有无损失分为无损压缩和有损压缩;根据编码算法分为脉冲编码调制、预测编码、统计编码、变换编码、模型编码、混合编码等。 无损压缩是指压缩后的数据进行还原后,能与原来的数据完全相同。无损压缩用于要求还原的信号与原始信号完全一致的场合。比如对磁盘文件的压缩,文件中存储的是程序或数据,必须保证数据解压后能与压缩前完全一致。目前的技术水平,无损压缩算法对普通文件的数据压缩比可达到2:1~5:1。如WinRAR、WinZap等都是使用的无损压缩。 有损压缩解压后的数据与压缩前的原始数据有一定程度的偏差或失真,但不会让人对原始资料表达的信息造成误解。有损压缩适用于还原信号不一定非要和原始信号完全相同的场合,如图像和声音的压缩就可以采用有损压缩,因为其中包含的数据往往多于视觉系统和听觉系统所能接收的信息,丢掉一些数据并不会对声音或图像所表达的意思产生误解,但可大大提高压缩比。对于声音、图像、影像等连续媒体一般都采用有损压缩方法,以最大限度地减少数据量。常见的有损压缩算法有量化方法、离散余弦变换、小波变换、JPEG压缩编码、MPEG压缩编码等。如MP3编码中对电话音质的语音可达到96:1的压缩比,JPEG编码可将静态图像数据压缩到50:1,动态视频图像的压缩比可高达100:1~200:1。 2.音频编码标准 音频编码的目的在于压缩数据。通常数据压缩会造成音质下降以及计算量的增加,因此在实际应用中要在音频质量、数据量、计算复杂程度三方面进行综合考虑。根据不同的需要产生了很多音频编码方法及国际标准,主要的有用于通信的ITU-T G系列标准和用于高保真立体声的MPEG标准。 (1)ITU-T G系列音频编码标准 当前国际上对语言信号压缩编码的审议,由ITU(International Telecommunication Union,国际电信联盟)下设的第十五研究组进行,相应的建议为G系列。表8.2中列出了G系列音频编码标准。 表8.2 ITU-T G系列音频编码标准 标准 比特速率 编码技术 应用 制定日期  G.711 64kbps PCM μ律A律 公共电话网 1972  G.721 32kbps ADPCM 公共电话网 1984  G.722 64kbps SBC+ADPCM 视听多媒体和会议电话 1988.11  G.723 5.3kbps或6.3kbps MP-MLQ 视频电话及IP电话等 1996.3  G.728 16kbps LD-CELP 公共电话网 1992.9  G.729 8kbps CS-ACELP 无线移动网、计算机通信系统等 1996.3  (2)高保真立体声标准 MPEG是运动图像专家组(Motion Picture Experts Group)的缩写,是国际标准化组织中的一个工作组,它制定出了一系列音频和视频的压缩标准。MPEG在音频上的压缩可以分为MPEG Layer1(压缩比为4:1)、MPEG Layer2(压缩比为6:1~8:1)和MPEG Layer3(压缩比为10:1~12:1),并根据不同的用途,使用不同层次的编码。 在CD音质中,声音最高频率为20KHz,采样频率为44.1 KHz、16位量化。要获得CD音质的立体声,每秒钟的非压缩数据量将超过1.4Mbit。采用MP3压缩,数据量可以缩小到1/12,音质却没有损失。MP3对音频信号采用的是有损压缩方式,为了降低声音失真度,它采取了“感官编码技术”,即编码时先对音频文件进行频谱分析,然后用过滤器滤掉噪音电平,接着通过量化的方式将剩下的每一位打散排列,最后形成具有较高压缩比的MP3文件,并使压缩后的文件在回放时能够达到比较接近原音的声音效果。在Internet网上,有许多可供下载MP3音乐文件的站点。有越来越多的艺术家把以MP3文件格式发布他们的音乐作品当作了时尚,新的MP3编解码软件和硬件设备也不断产生。 3.音频文件格式 在因特网上以及各种机器上运行的声音文件格式很多,但目前比较流行的有以下几类:波形文件如wav、voc、au、aiff等,压缩音频文件如mp2、mp3等,流式音频文件如rm、ra等,MIDI文件如mid、cmf、mct、wrk等。 (1)波形文件(.wav、.voc)。wav是微软公司的音频文件格式,是Windows所用的标准数字音频波形文件。wav记录了对实际音频采样量化后的数据(PCM编码数据)。通过声卡及其它硬件设备,可以使波形文件重现各种声音,包括CD音质的音乐和系统噪声。由于波形文件记录的是数字化音频信号,可由计算机对其进行分析和处理,如将声音重新组合或抽取出一些片段单独处理、调整播放速度等等。wav数据未经过压缩处理,音质相对最好,但产生的文件太大,不适合记录长时间的音频。 voc文件与wav文件相似,是创新公司定义的波形文件,主要用于DOS程序,特别是游戏中,它可以与wav文件相互转换。从网站上可以下载有关的转换程序。 (2)MIDI文件(.mid、.cmf)。MIDI文件记录的不是声音信号,而是乐谱,是音符与演奏命令的数字形式。MIDI标准规定了各种乐器、音调的混合和发音规则,通过声卡可以将这些演奏命令重新合成成音乐。与波形文件相比,MIDI文件要小得多。 MIDI由于是通过电子合成器产生音乐的,其缺点在于缺乏重现真实自然声音的能力,不能用在需要语音的场合。MIDI只记录标准所规定的有限种乐器的组合,且回放质量受声卡上合成芯片的限制,难以产生真实的音乐演奏效果。mid是Windows的MIDI文件格式,cmf是创新科技公司的声霸(SB)卡带的MIDI文件存储格式。 (3)MP3文件(.mp3)。MP3是基于MPEG压缩标准的一种音频文件格式。MP3压缩比根据采样频率、压缩位率和声音模式等参数的不同而有所不同。在通常的参数配置下(采样44.1kHz、压缩位率192kbit/s、立体声模式),压缩比在10:1~12:1左右,10MB的wav转换成MP3后约占1MB空间,由此一张光盘上可存约600分钟以上的音乐。 MP3文件虽然是经过压缩得到的,但音质并未受到太大的影响,可以用来保存高品质的数字音频,被广泛应用于音乐的网上发布和传输以及随身听中。MP3已成为事实上的音频压缩标准,有众多可供下载MP3音乐文件的站点,大量的音乐人以MP3文件格式发布作品。 (4)流式波形文件(.ra、.wma)。为适应网络音频播放的需要,流媒体技术应运而生。流媒体技术能让连续的视频和音频信息经过压缩处理后放到网络服务器上,让浏览者一边下载一边收听观看,而不要等到整个媒体文件下载完成就可以观看、收听节目。.ra文件是Real Networks的音频文件格式,是经过压缩和特殊编码的音频文件,在编码中还加入了一些诸如计时、版权等信息,以适应边下载边收听的需要。 .wma是微软公司的流式音频文件,可方便地在因特网上传输和在线播放,是Windows Media Player支持的一种压缩比高、音质好的音频文件格式。 8.3.4数字音频处理 对数字音频文件可以使用软件进行编辑处理。常用的音频处理软件有CoolEdit、Sound Forge等。Cool Edit Pro是一款功能强大、效果出色的多轨录音和音频处理软件。它可以在普通声卡上同时处理多达128轨的音频信号,具有极其丰富的音频处理效果。它能进行实时不限长度的音频预听和多轨音频的混缩合成。Sound Forge是另一款音频录制、处理软件,它几乎成了PC机上单轨音频处理的代名词。对数字音频的处理,主要有一下几个方面: 1.获取数字音频 数字音频可来自音乐CD、VCD等碟片;也可由软件自动产生一些特殊的声音,模拟出一些电子设备或特殊场景的噪声;更多的是通过录制语音或转录家电音响播放的声音获得。Cool Edit Pro 2.0获取音频的途径很多,能从碟片中抓取乐曲或其中的片段,录制来自麦克风、线性输入、声卡自身播放的音频;甚至可以在多轨窗口中插入并播放MIDI乐曲,再录制成波形文件。 2.编辑音频文件 对录制的声音一般要进行裁减、去噪声、调整音量等操作。对音频波形做复制、删除、移动、拼接、混叠、静音、调整音量的操作非常简单直观。Cool Edit Pro中只要拖动鼠标选中要操作的波形,再选择相应的菜单功能即可完成操作。另外,还可对声道进行编辑,如将单声道变成立体声,将左右声道交替,在一个声道放置伴奏另一声道放置演唱等。 3.声音特效 所谓音频特效,就是通过对音频波形的功率强度、时间上的延时、左右声道的混叠平衡等进行调整,达到特殊音响效果。对波形做上下倒转、首尾反向、淡入淡出、延时、回声、混响、变调等处理,可以产生很多奇特的效果。一般的音乐节目开始或结束时为了产生自然的过渡效果,都使用了淡入淡出效果;使用延时功能可使独唱产生合唱效果;变调处理能将女声变男声;回声和混响处理能产生演奏厅、山谷等特殊场景的声响效果。 4.均衡、混响和滤波 调节均衡可使高、中、低几个频段听起来更加悦耳,通过调整声音不同频段的音量来产生清脆、低沉、柔和等效果。混响是乐器或话音以及从物体表面反射回来的声音的混合效果。混响时间的长短可以改变音色,混响时间短,声音变得干涩;混响时间长,声音圆润,具有空旷感。 滤波就是将音频中的某些指定频段进行变换,以增强或抑制这些频率的音频,达到特殊的效果。比如低通滤波可以将某一设定频率以下的音频得到增强,而高出该频率的音频被消弱甚至屏蔽掉。使用滤波器可以产生加重低音、突出高音等效果。对录制的音频做频段过滤,可以去除该频段的噪声。 5.多轨合成 一般的音乐创作或节目制作,都要用到多种声音,比如有节拍、背景音乐、旁白、伴奏、演唱等。可以将各种声音放置在各个独立的音轨中单独编辑,调整音量、相位、平衡、包络线等,可使用链通道将多种动态效果作用到音轨上,修饰美化音频。最后将所有音轨混叠在一起,合成为一个立体声音乐作品,以wav、mp3等多种格式保存。 8.4数字图像基础 颜色是人的视觉系统对可见光的感知结果,感知到的颜色由光波的频率决定。光波是一种具有一定频率范围的电磁辐射,其波长覆盖的范围很广。电磁辐射中只有一小部分能够引起眼睛的兴奋而被感觉,其波长在380~780 nm的范围之间。纯颜色(光谱色)通常使用光的波长来定义。研究表明,用不同波长的光进行组合时可以产生相同的颜色感觉。国际照明委员会(CIE) 对颜色的感觉作出了定义,用颜色的三个特性(色调、饱和度和明度)来区分颜色,它们是颜色所固有的并且是截然不同的特性。 8.4.1颜色的表示 1.颜色的特性 颜色可由色调、饱和度、亮度来描述。色调(色相)是视觉系统对一个区域呈现的颜色的感觉。色调取决于可见光谱中的光波的频率,它是最容易把颜色区分开的一种属性。饱和度是相对于明度的一个区域的色彩,是指颜色的纯度。当一种颜色渗入其他光成分愈多时,就说颜色愈不饱和。亮度是视觉系统对可见物体发光多少的感知属性,它和人的感知有关。由于明度很难度量,因此国际照明委员会定义了一个比较容易度量的物理量,称为亮度。在CIE XYZ系统中,亮度用Y表示。亮度的值是可度量的,它用单位面积上反射或者发射的光的强度表示。 2.颜色的表示 颜色度量体系是人们组织和表示颜色的方法。至今组织和表示颜色的方法主要有两类:一类叫做颜色模型,另一类叫做编目系统。颜色模型是用简单方法描述所有颜色的一套规则和定义。颜色空间是颜色模型最普通的例子,如RGB、 HSB、 CMYK、CIE XYZ、CIE L*A*B和颜色的光谱描述方法都是颜色模型。编目系统是给每一种颜色分配一个唯一的名称或者号码。Pantone是在图形艺术和印刷技术中一种较为流行的颜色匹配系统,它含有500多种印墨颜色,每种颜色都指定了一个号码。 (1) RGB颜色空间 从理论上讲,任何一种颜色都可用红、绿、蓝三种基本颜色按不同的比例混合得到。表示为: 颜色=R(红色的百分比)+G(绿色的百分比)+B(蓝色的百分比) 三种颜色的光强越强,到达眼睛的光就越多;它们的比例不同,看到的颜色也就不同;没有光到达眼睛,就是一片漆黑。当三基色按不同强度相加时,总的光强增强,并可得到任何一种颜色。三基色等量相加时得到白色,等量的红、绿色相加而蓝为0值时得到黄色,等量的红、蓝色相加而绿为0时得到品红色,等量的绿、蓝色相加而红为0时得到青色。RGB空间为加色模式。 (2) CMYK颜色空间 理论上任何一种颜色也可以用青色(Cyan)、品红(Magenta)和黄色(Yellow)三种基本颜料按一定比例混合得到,三基色通常写成CMY,称为CMY颜色空间。用这种方法产生的颜色之所以称为相减色,是因为它减少了为视觉系统识别颜色所需要的反射光。用彩色墨水或颜料进行混合,使用的就是相减色。 在相减混色中,当三基色等量相减时得到黑色;等量黄色和品红相减而青色为0时,得到红色;等量青色和品红相减而黄色为0时,得到蓝色;等量黄色和青色相减而品红为0时,得到绿色。彩色打印机使用的就是这种原理,印刷彩色图片也是采用这种原理。由于彩色墨水和颜料的化学特性,用等量的三基色得到的黑色不是真正的黑色,因此在印刷术中常加一种真正的黑色,所以CMY又写成CMYK。 (3) HSB颜色空间 HSB(Hue, Saturation,Brightness)颜色空间是使用色调、饱和度和明度构造的。色调用角度来标定,通常红色标为0o,青色标为180o;在径向方向上饱和度的深浅用离开中心线的距离表示;明度用垂直轴表示。由于在美工设计与制作中一直使用色调、饱和度、明度的模式来辨识颜色,并按照该理论调色,因此演变出与HSB类似的颜色空间HSL(Hue,Saturation,Lightness)。在HSL模型中,H(色调)定义颜色的波长;S(饱和度)定义颜色的强度,表示颜色的深浅程度;L(亮度)定义掺入的白光量。若把S和L的值设置为1,当改变H时就是选择不同的纯颜色;减小饱和度S时,就可体现掺入白光的效果;降低亮度时,颜色就暗,相当于掺入黑色。 (4) YUV和YIQ颜色空间 电视系统是先有黑白电视再发展到彩色电视的,现今的彩色电视信号必须兼容黑白电视信号;另外,目前存在的两种最主要的电视制式(PAL、NTSC),在对电视信号的处理上存在差异。针对电视视频系统的需要,推出了YUV和YIQ颜色空间。我国的电视制式使用的是PAL制式,其颜色空间使用的是YUV;而美国、日本等用的NTSC制式使用的是YIQ颜色空间。 8.4.2图像数字化 图像与图形有着本质的不同,图形是由计算机生成的,以矢量方式描述为主;图像可通过计算机绘图软件绘制或从实物、照片数字化得到,它以光栅(位图)方式描述,当然也可以用矢量方式描述。 1.图像数字化 与声音的数字化十分相似,对所要处理的一幅平面图像,由于在画面和色彩上都是连续的,必须对其画面离散化成足够小的点阵,形成一个像素阵列,然后再对每一个像素的颜色分量(R、G、B分量)或亮度值(黑白图像,又称灰度图)进行量化。图像离散化的阶距越小,单位距离内的像素点越多,图像越精细,用图像分辨率来描述像素点的大小;颜色量化的位数越多,颜色的色阶就越多,颜色就越逼真,用像素深度(也称为颜色深度)来描述量化值。图像数字化后成了像素点的颜色量化数字阵列,这些数据的前后顺序构成了图像的位置关系和颜色成分,称为数字图像。将这些数据以一定的格式存储在文件中,形成了图像文件。  图 8-5数字化图像 位图也可用扫描仪、数码相机等数字设备获取,或者用摄像机、录相机、激光视盘与视频采集卡这类设备,把模拟的图像信号变成数字图像数据。 位图文件占据的存储器空间非常大。影响位图文件大小的因素主要有图像分辨率和像素深度。分辨率越高,组成一幅图的像素越多,图像就越精细,图像文件也越大;像素深度越深,就是表达单个像素的颜色和亮度的位数越多,图像文件就越大。图像数据量与图像的分辨率、像素深度成正比例关系,而矢量图文件的大小则主要取决图的复杂程度。 位图数据量=水平象素×垂直象素×象素深度÷8 比如一幅真彩色的Windows桌面墙纸位图图像,其分辨率为800×600,像素深度为24位,则图像的数据量为800×600×24÷8=1440000(B)=1.37(MB),而一幅同样分辨率的二值位图,由于像素深度为1位,数据量仅有59KB。 2.图像属性 图像的属性包含分辨率、像素深度、真/伪彩色、图像的表示法和种类等。 (1)分辨率 图像分辨率是指组成一幅图像的像素密度。对同样大小(相同的长度和宽度尺寸)的一幅图,如果组成该图的像素数目越多,则说明图像的分辨率越高,看起来就越精细逼真。显示分辨率是指显示屏上能够显示出的像素数目。例如,显示分辨率为800×600表示显示屏分成600行,每行显示800个像素。屏幕能够显示的像素越多,说明显示设备的分辨率越高,显示的图像质量也就越高。显示设备的分辨率可用每英寸的像素点数来度量,称为ppi。一般屏幕显示分辨率为72ppi或 96ppi。当图像在打印机或绘图仪上输出时,与输出设备有关的是打印分辨率,它描述输出设备成像的精细程度,用每英寸点数(dpi)来度量。一般激光或喷墨打印机输出分辨率若在150dpi以下,图像质量是非常糟糕的,达到300dip以上后,图像质量较为精细。如此,在进行图像设计时,图像分辨率、显示分辨率、打印分辨率之间的变化,会引起图像显示的尺寸与打印出来的尺寸有较大的差距。 比如,一张3×4英寸的彩照,若用200dpi的分辨率扫描,则图像的数据量为: 3×200×4×200×24÷8 ≈1.37(MB) 此图像的分辨率为200pdi(实际为600×800像素),若在72dpi的显示器上显示,则图像大小约为8.3×11.1英寸(600÷72≈8.3);若以400dpi的分辨率打印该图,则图像大小为1.5×2英寸(600÷400=1.5)。 (2)像素深度 像素深度是指存储每个像素的颜色所用的二进制位数。像素深度决定彩色图像的每个像素可能有的颜色数,或者确定灰度图像的每个像素可能有的灰度级数。例如,一幅彩色图像的每个像素用R、G、B三个分量表示,若每个分量用8位量化,那么一个像素共用24位表示,就说像素的深度为24,每个像素可以是224=16777216种颜色中的一种。像素深度越深,所占用的存储空间越大;像素深度太浅,影响图像的质量。由于设备和人眼分辨率的限制,一般用于显示的图像使用8位或16位的像素深度即可,用于打印照片需要达到24位的颜色深度。 (3)真彩色与伪彩色 真彩色是指图像的每个像素值中,R、G、B三个基色分量直接决定显示设备的基色强度,即图像中各像素点的颜色值由RGB三个分量同时确定。例如对R、G、B各用5位量化真实的原图彩色,得到了RGB 5:5:5表示的真彩色图像。每个彩色分量占5个位,再加1位显示属性控制位共2个字节,生成的真颜色数目为215 = 32K。已经完全能够满足人眼对颜色辨识的需要了。 如果R、G、B都用8位来表示一幅彩色图像,每个基色分量占一个字节,共3个字节,每个像素的颜色就是由这3个字节中的数值直接决定,可生成的颜色数达到16 777 216种。这种真彩色又称为全彩色。用3个字节表示的真彩色图像像素深度是24位,所需要的存储空间很大,而人的眼睛是很难分辨出这么多种颜色的,因此在许多场合往往用RGB 5:5:5来表示。 伪彩色图像是指每个像素的颜色不是由三个基色分量的数值直接决定,而是把像素值当作颜色索引,到颜色调色板中查找对应颜色的R、G、B值,用查找出的R、G、B值产生的彩色称为伪彩色。颜色索引表是事先定义调色板时就做好的。彩色图像本身的像素数值和颜色索引表的索引号存在映射关系,这个关系可以使用Windows 95/98定义的变换关系,也可以使用自己定义的变换关系。使用查找得到的数值显示的彩色是真的,但不是图像本身真正的颜色,它没有完全反映原图的彩色,所以称为伪彩色。 3.灰度图与彩色图 灰度图按照灰度等级的数目来划分。只有黑白两中颜色的图像称为单色图像(二值图),其每个像素的颜色用1位存储,它的值只有“0”或者“1”。二值图没有中间灰度过渡,只能保存诸如笔迹、图案拓片、黑白线条之类的图案。用1字节来保存量度信息能形成256级灰度过渡的黑白照片效果。彩色图像可按照颜色的数目来划分,例如16色、256色和真彩色图像等。彩色图像的每个像素的颜色信息可以用RGB三基色量化得到真彩色,也可对三基色分别建立索引变换得到直接色,或者对彩色信息构造调色板,使用颜色索引来产生伪彩色。不同的颜色生成方法可以得到不同质量的彩色图像,以满足不同应用的要求,它们由此带来的数据量也有很大的差别。 8.4.3图像压缩编码与文件格式 在多媒体系统中,对图像、视频数据的压缩主要是消除图像在空间、时间上的强相关性而引起的冗余数据。对于这些冗余数据进行压缩同样可以分为有损压缩和无损压缩两大类。无损压缩利用数据统计特性来编码,典型的编码有Huffman编码、算术编码和LZ编码,这类无失真压缩的压缩比较小,一般在2:1~5:1之间。有损压缩利用人的视觉特性和视觉心理压缩图像数据,主要的压缩方法有变换编码、子带编码、分形编码、基于重要性的滤波方法、矢量量化、混合编码、运动补偿编码、帧内预测、帧间预测、插值等等。有损压缩的压缩比较高,如对动态视频的压缩比可达到100:1~200:1。 1.图像压缩标准 (1)JPEG JPEG是国际标准化组织(ISO)和国际电报电话咨询委员会(CCITT)关于静止图像编码的联合专家组(Joint Photographie Group)名称的缩写。该专家组的任务是开发一种用于连续色调的(黒白的或真彩色的)静止图像压缩编码的通用算法的国际标准。JPEG标准可用于自然景象或任何连续色调图像的数字数据的压缩编码和解码,但不适用于二值图像。 (2)JPEG 2000 为了解决JPEG存在的问题,即:无法只下载图片的一部分、JPEG格式的图像文件体积仍然嫌大、JPEG是有损压缩且不能满足高质量图像的要求, 2000年3月推出了彩色静态图像的新一代编码方式“JPEG 2000”的编码算法的最终协议草案。JPEG 2000用以离散小波变换算法为主的多解析编码方式。 JPEG 2000统一了面向静态图像和二值图像的编码方式,是既支持低比率压缩又支持高比率压缩的通用编码方式。它与JPEG相比,具有高压缩率、无损压缩、渐进传输、感兴趣区域压缩几方面的优势。它将在数码相机、扫描仪、网络传输、无线通信、医疗影像等领域得到广泛应用。 2.图形、图像文件 (1) BMP文件(.bmp)。位图文件(Bitmap-File,BMP)格式是Windows采用的图像文件存储格式,在Windows环境下运行的所有图像处理软件都支持这种格式。图像色彩逼真,但数据量大。 (2) GIF文件(.gif)。GIF是CompuServe公司开发的图像文件存储格式,称为图形交换格式。1987年开发的GIF文件格式版本号是GIF87a,1989年进行了扩充,扩充后的版本号定义为GIF89a。GIF为256色图像,在显示器上其显示效果可以和普通的电视画面媲美,但不能保存照片效果图像。由于其图像数据量较小、可设置透明背景,实现多幅图像切换等优点,被大量用在网页中来显示艺术文字图片和动画图图片。GIF文件格式采用了LZW(Lempel-Ziv Walch)压缩算法来存储图像数据,定义了允许用户为图像设置背景的透明属性。 (3) JPEG文件(.jpg)。JPEG文件使用真彩色保存照片效果图像。由于采用高效的压缩算法,图像数据量被大大压缩但图像质量仍然很好。可以调整参数得到不同的压缩比,是最为流行的图像文件格式。 (4) PNG格式(.png)。PNG(Portable Network Graphic Format,便携式网络图像格式)是20世纪90年代中期开始开发的图像文件存储格式,其目的是替代GIF和TIFF文件格式,同时增加一些GIF文件格式所不具备的特性。PNG用来存储灰度图像时,灰度图像的深度可多到16位,存储彩色图像时,彩色图像的深度可多到48位,并且还可存储多到16位的α通道数据。PNG使用从LZ77派生的无损数据压缩算法。 PNG文件具有很多有利于图像在网络上浏览和传播的特性,如可选择使用调色板支持256种颜色或真彩色图像;具有流式读写性能,允许连续读出和写入图像数据;逐次逼近显示,使在通信链路上传输图像文件的同时就在终端上显示图像;透明性;辅助信息,这个特性可用来在图像文件中存储一些文本注释信息;独立于计算机软硬件环境。与GIF和JPEG文件相比,PNG文件具有以下优点: ① 兼有GIF和JPEG的彩色模式。GIF采用256色索引颜色模式,JPEG采用24位真彩色模式。PNG不仅能存储256色以下的索引彩色图像,也能存储24位真彩色图像,甚至能存储高达48位的超强彩色图像。 ② PNG能把图像文件压缩到极限以利于网络图像传输,但又能保留所有与图像品质有关的信息。对于文字、线条为主的图像,PNG会用类似GIF的压缩方法得到较好的压缩率,而不破坏原始图像的任何细节;对于照片品质的图像PNG会选用类似JPEG的压缩算法,使图像压缩后不产生失真。 ③ 更优化的传输显示。GIF的交错显示模式使图像在网络传输中,浏览者能先看到图像的大致轮廓,然后再慢慢变清晰。PNG也采用了交错技术,让图像可以水平及垂直方式显像在屏幕上。 ④ 透明属性。透明图像在网页中用途很广,透明还能较少文件数据量,提高传输速度。JPEG不支持透明特性,GIF的透明属性只有两种,不存在过渡透明设置。PNG提供了8位的透明属性控制,可产生256级的透明过渡,使图像的透明区域出现深度不同的层次。PNG图像可以让图像覆盖在任何背景上都看不到接缝,改善了GIF透明图像描边不佳的问题。 ⑤ GIF图像在不同系统上显示的画面会发生变化,PNG可以保持不同硬件环境下图像的显示的稳定性。 但是PNG只能存储单张图片,不能产生GIF类似的动画效果;PNG采用的是无损压缩算法,对照片的压缩比不及JPEG;PNG不支CMKY模式。 8.4.4数字图像处理方法 1.数字图像处理 对数字图像作处理,实质上是对图像的数字矩阵作数学运算。在测绘、地理信息系统、计算机视觉等众多领域,数字图像处理技术是其核心技术之一。数字图像处理技术涵盖了从数字图像获取、图像数字化和编码、图像增强、图像复原、图像分割和几何特征分析、图像分类和识别、图像重建等过程。下面简单叙述数字图像处理的几个主要方面。 (1)图像增强 数字化的原始图像常常包含着各种噪声和失真,通过图像增强处理能有效地去处噪声和失真,使图像变得容易辨识和观看。内容包括灰度直方图处理、同态增晰、坐标变换、去噪声、二值化、色彩变换、平滑、锐化、几何校正等。 (2)图像特征提取 是为区分对象物和非对象物而进行的图像固有特征取得。如文字识别中要提取文字轮廓线及笔画的位置、方向、交点等几何特征。采用纹理分割、界限检测、阈值限制、跟踪法、匹配法等方法对图像进行分割,然后对几何特征分析进行分析,提取出需要的图像特征信息。特征提取包括边缘提取、膨胀与收缩、面积和周长等。 (3)图像识别 这是图像处理的最高级别,是利用提取的景物特征来自动识别是何景物。如文字识别、影像识别等。通常采取模式匹配方法,通过相似度来判读。 2.图像制作软件Photoshop简介 常用的图形图像制作软件有Photoshop、Fireworks、CorelDraw、Freehand等。它们的特长在于制作、修饰图像,而不是分析、识别图像。Photoshop用来处理相片和做平面设计,是一个非常好的选择。下面简单介绍Photoshop软件的使用。 在多媒体图形、图像创作中可以用Photoshop解决造型、版式设计、色彩色调处理、文字艺术特效等问题。制作图像之前,需要根据图像的用途确定图像的尺寸、分辨率和图像模式,由这三者确定了整个图像的数据量。Photoshop最终的成果是位图形式,图像太大或太小都是不合适的,若最后来调整图像尺寸,会影响图像效果。图像的尺寸和分辨率确定了图像的象素数量,图像模式确定色彩方式。 (1)图像模式和混色模式 Photoshop7.0提供了8种颜色模式,常用的颜色模式包括Grayscale模式、RGB模式、CMYK式、Lab模式。Grayscale模式是灰度图模式,用来处理黑白图像。RGB模式提供了24位的色彩范围,是显示器默认的颜色模式,常用于显示和编辑彩色图像,但RGB模式所提供的色彩超出了打印范围,会损失一部分亮度和色彩,鲜明的色彩打印输出会失真。打印用的是CMYK模式,它定义的色彩要比RGB少,打印时系统会自动进行RGB到CMYK的模式转换,这样就会损失一部分亮度和色彩。 RGB模式是一种发光的计算机屏幕加色模式,CMYK模式是一种颜料反光的印刷用减色模式。而 Lab模式既不依赖于光线,又不依赖于化学颜料。它是CIE组织确定的一个理论上包括了人眼可见的所有色彩的色彩模式。Lab模式弥补了RGB与CMYK两种彩色模式的不足。 Lab模式所定义的色彩最多,且与光线及设备无关,并且处理速度与RGB模式同样快,比CMYK快数倍,可以在图像编辑中使用Lab模式。将Lab模式转换成CMYK模式,色彩没有丢失或被替代。因此,避免色彩损失的最佳方法是用Lab模式编辑图像,再转换成CMYK模式打印。 在对选择的图像做绘制、填充等上色操作时,添加的颜色与原有的颜色相混合的方式成为混色模式。Photoshop7.0提供了24种混色模式。使用不同的混色模式会得到不同的效果。 (2)选取图像 除非对整个图像操作,若要对图像的部分进行操作,首先要选取该部分图像。工具箱中所提供的矩形、椭圆和套索工具,可以选取画面中需要的尺寸不同、形状各异的对象;魔术棒工具可以根据点击图像区域的相邻颜色来自动选取所要部分;应用路径、通道和遮罩等高级技术可以精确地选取图像。利用选区的存储、载入功能,可实现多个选区的保存和载入,以及利用已有选区进行相加、相减、交叉和反选等产生新的选区。使用羽化功能可以将选区的边缘形成柔化效果,使其与周围的其它图像过渡自然。 (3)基本编辑 对图像或选取的区域可实现移动、复制、粘贴、剪切、清除等各种编辑操作,可以对图像选取进行任意的旋转、变形、拉伸、倾斜、扭曲甚至做出透视效果等。可对图像的局部或整体作对比度、色调、亮度等的调整,图像模糊处理、锐化处理,几何形状、位置移动、旋转、缩放、镜像等。 (4) 色调和色彩调整。可以对图像进行色相、饱和度、明度、对比度的调整,以达到期望的色彩效果。菜单“图像/调整”的下拉菜单中有集结了所有调整色调和色彩的功能,如用“色阶”和“曲线”命令可以分别对图像的高光、暗部和过度色进行调整。 (5)绘画功能。如铅笔工具、喷枪工具、笔刷工具、路径等工具可以绘制所需的各种图形。文字工具、矩形工具、自定义形状工具等可以绘制文字和几何图形等矢量形状。渐变工具所产生多种渐变效果。 (6) 图层、通道和蒙版功能是Photoshop软件精髓的部分。图层可以看作透明的、叠放在一起的透明电子“胶片”,将绘制的图像放置在不同的图层上,可以对各个图层自由编辑而不影像其它图层上的对象,还可以利用图层的叠放顺序形成图像的前后次序。一幅图像具有多个通道,可以将图像颜色分离放置在不同的通道中。通道也可用来保存选区和蒙版,可在通道里实现美妙绝伦的艺术效果。用蒙版来隔离和保护正在被编辑的图像区域以外的区域。 (7) 使用滤镜。百余款精品滤镜(Filter)为我们的设计增光添彩。滤镜是 Photoshop 7.0 的重要功能之一,它本身就有百余款非常使用的滤镜,基本上已经可以满足常用图像特效处理的需求。 8.5数字视频基础 电视采用光栅扫描的方法在屏幕上成像,快速的扫描线从顶部一行一行地向下扫描直到底部,然后再回到顶部的起点重新开始扫描。这个过程产生的一个有序的图像集合就组成了电视的一幅画面,称为一帧图像,连续不断的图像序列就形成和动态视频图像。可将视频看作是一系列静态图像按照时序排列组成的。当帧率达到12fps(帧/秒)以上时,由于人的视觉暂留效应,就产生了连续运动的效果。 8.5.1 彩色电视制式 目前彩色电视制式主要有三种:NTSC制、PAL制和SECAM制。数字彩色电视是从模拟彩色电视基础上发展而来的,目前正在逐步推广使用的高清晰度彩色电视HDTV (High-Definition television)是彩电的发展方向。 1.NTSC制 NTSC彩色电视制是1952年美国国家电视标准委员会定义的彩色电视广播标准,称为正交平衡调幅制。美国、加拿大等大部分西半球国家,以及日本、韩国、菲律宾等国采用这种制式。NTSC制的扫描参数为 525行/帧、30帧/秒隔行扫描,2场/帧、场频60Hz。在每场的开始部分保留20扫描线作为控制信息,因此只有485条线的可视数据,高宽比电视为4:3,电影为3:2,高清晰度电视为16:9。彩色模型为YIQ,6 MHz电视信号带宽,总带宽8 MHz。 2.PAL制 由于NTSC制存在相位敏感造成彩色失真的缺点,前西德于1962年制定了PAL制彩色电视广播标准,称为逐行倒相正交平衡调幅制。德国、英国、中国、朝鲜等国家采用这种制式。PAL制的扫描参数为625行(扫描线)/帧、25帧/秒隔行扫描,2场/帧、场频50Hz,高宽比4:3。彩色模型为YUV,6 MHz电视信号带宽,总带宽8 MHz。 3.SECAM制 法国制定了SECAM彩色电视广播标准,称为顺序传送彩色与存储制。法国、前苏联及东欧、中东等约有65个地区和国家使用这种制式。其扫描参数与PAL制类似,其差别是SECAM中的色度信号是频率调制(FM),而且它的两个色差信号红色差和蓝色差是按行的顺序传输的。三钟制式都是兼容制式,能兼容黑白与彩色两类电视信号。 8.5.2 视频数字化 目前国内的电视信号几乎全是模拟视频方式传播,而CVD、DVD、SVCD、数码摄像机采用的是数字视频,今后逐步推广的高清晰度电视将采用数字视频方式。数字视频便于非线性编辑和特效处理,可以无限次复制而不会损失信息,并且数字视频能很方便地与信息系统集成在一起,使电视图像的检索变得很方便。 借用图像数字化的原理来描述视频数字化的过程,只需要将每帧画面进行数字化,再将分离的同步音频数字化就可以得到数字视频。但视频多半有实时性和声音同步等要求,其数字化过程远比图像数字化复杂。大多数电视信号源都是彩色全电视信号。一种方法是首先把模拟的彩色全电视信号分离成YUV或YIQ彩色空间中的分量信号,然后用三个A/D转换器分别对它们数字化。另一种做法是首先用一个高速A/D转换器对彩色全电视信号进行数字化,然后在数字域中进行分离,以获得所希望的YUV或RGB分量数据。 电视信号采样时,对亮度信号和色差信号可以使用不同的采样频率。由于人眼对彩色细节的分辨能力远比对亮度细节的分辨能力低,因此降低彩色分量的分辨率不会明显影响图像质量。电视技术中常把几个相邻像素不同的彩色值当作相同的彩色值来处理,从而减少数据量,有效地压缩信号带宽。一般量化时,Y:U:V的位数比可以选择8:4:4或8:2:2。要达到彩色电视与黑白电视信号兼容,彩色电视信号中必须有独立的亮度信号,以供黑白电视机接受灰度图像;另外,彩色电视信号必须与黑白电视信号占用完全相同的频带。根据PAL制式的视频要求(高宽比为4:3、以帧625行、每秒25帧)可计算出图像信号要占用6MHz的带宽。若彩色电视要输出红、绿、蓝三种信号的话,需要占用18MHz的带宽,这不符合兼容的要求,需要将彩色信号压缩到与黑白信号相同的6MHz带宽中。 在数字化后,非压缩状态下视频的数据量由每帧图像的数据量乘以帧率来确定。如全屏幕状态下的全动态非压缩彩色数字视频1分钟的数据量为: 640×480×24÷8×30×60≈1.55GB 8.5.3 数字视频标准与文件格式 MPEG是国际标准化组织中的一个小组。MPEG下分3个小组:视频组的任务是研究压缩传输速度上限为1.5Mbps的视频信号;音频组的任务是研究压缩每信道64kbps、128kbps、192kbps的数字音频信号;系统组则解决多道压缩视频、音频位流的同步合成问题。最初MPEG专家组的工作项目是3个,即在1.5Mbps、10Mbps、40Mbps传输速率下对图像编码,分别命名为MPEG-1、MPEG-2、MPEG-3。1992年MPEG-2的适用范围扩大到高清晰度电视(HDTV),能支持MPEG-3的所有功能,因而MPEG-3被取消。后来,为了同时满足不同的应用要求,MPEG又陆续增加其他一些标准,如MPEG-4、MPEG-7等。 1.数字视频标准 (1)MPEG-1标准 MPEG-1标准称做“运动图像和伴随声音的编码——用于速率约在1.5Mbps以下的数字存储媒体”,主要用于多媒体存储与再现,如VCD等。MPEG-1采用CIF视频格式(分辨率为352×288),帧速率为25帧/秒或30帧/秒,码率为1.5Mbps(其中视频约1.2Mbps,音频约0.3Mbps)。MPEG-1为了追求更高的压缩率,同时满足多媒体等应用所需的随机存取要求,将视频图像序列划分为I帧(内帧)、P帧(预测帧)和B帧(内插帧),根据不同的图像类型而不同对待。 (2)MPEG-2标准称做“运动图像及其伴音信息的通用编码”,它能适用于更广的应用领域,主要包括数字存储媒体、广播电视和通信,MPEG-2适用于高于2Mbps的视频压缩。DVD技术采用了该标准。 (3)MPEG-4标准称做“甚低速率视听编码”,针对一定传输速率下的视频、音频编码,更注重多媒体系统的交互性和灵活性。主要应用于可视电话、可视邮件等对传输速率较低(4.8~64kbps)、分辨率为176×144的应用系统。 (4)MPEG-7用来为不同类型的多媒体信息描述定义一个新标准。虽然计算机能很容易查找文字,但查找音频和视频内容则很困难。MPEG-7描述能通过数据如静止图画、图形、三维模型、音频、演讲、视频来定位,或远程地用该数据描述的双向指针来定位。 (5)H.261协议和H.263协议 CCITT于1990年、1995年分别制定的,用于ISDN(综合业务数字网络)和PSTN(公共交换电话网络)的视频编码标准。这些标准的出现不仅使低带宽网络上的视频传输成为可能,而且解决了不同软硬件厂商产品之间的互通性,因而对多媒体通信技术的发展起到了非常重要的作用。 H.261标准是CCITT制定的国际上第一个视频压缩标准,主要用于可视电话和视频会议,以满足ISDN日益发展的需要。H.261标准的名称为“视听业务速率为P×64Kbps的视频编译码”,又称为P×64Kbps视频编码标准(P=1,2,…,30)。P=1或2 时,仅能支持QCIF(176×144)分辨率格式、每秒帧数较低的可视电话;当P≥6 时,则可支持图像分辨率格式为CIF(352×288)的视频会议。 H.263建议草案于1995年11月完成,是ITU-T的关于低于64Kbps比特率的窄带通道视频编码建议,其目的是能在现有的电话网上传输活动图像。由于H.263是面向低速信道的,所以必须在帧频和图像失真之间做出选择。 (6)T.120 进入20世纪90年代以来,因特网的开放型以及电信业务的不断扩展使人们对电话线路的使用方式发生了明显的变化,人们越来越多地使用电话线路传输数据,进行多媒体通信。为了能将传统的线路交换网络和现代的信息包交换网络紧密地融合在一起,满足多媒体数据通信业务急剧增长的需要,国际电信联盟制定了许多相关标准。其中,T.120、H.320、H.323和H.324标准组成了多媒体通信的核心技术标准。T.120是实时数据会议标准;H.320是综合业务数字网(ISDN)视频会议标准;H.323是局域网上的多媒体通信标准;H.324是公众交换电话网络上的多媒体通信标准。 2.视频文件 视频文件可以分为动画文件和影像文件两大类。动画文件是由动画制作软件,如Flash、3D MAX、Director等设计生成的文件;影像文件主要指包含了实时音频、图像序列的多媒体文件,通常由视频设备输入。常见的影像文件有AVI文件、QuickTime文件、MPEG文件Real Video文件等 (1)AVI文件(.avi)。AVI是Microsoft公司开发的数字音频与视频文件格式,它允许视频和音频交错在一起同步播放,支持256色彩色,数据量巨大。AVI文件主要用在多媒体光盘上保存电影、影视等各种影像信息。它提供无硬件视频回放功能,开放的AVI数字视频结构,实现同步控制和实时播放,可方便地对文件进行再编辑处理。 (2)MPEG文件(.dat、.mpg)。MPEG是运动图像压缩算法的国际标准,采用有损压缩方法减少运动图像中的冗余信息。MPEG标准包括MPEG视频、MPEG音频和MPEG系统3个部分MP3文件就是MPEG音频的一个典型应用,而VCD、DVD、SVCD则全面采用MPEG标准所产生。VCD采用MPEG-1标准,DVD采用MPEG-2标准。 (3)QuickTime文件(.mov)。QuickTime是苹果公司开发的音频视频文件格式,具有先进的视频和音频功能,支持多种主流的计算机平台,使用25位彩色,提供150多种视频效果,并提供200多种MIDI兼容音响和设备的声音装置。该文件还包含了基于因特网应用的关键特性,能通过因特网提供实时的数字化信息流、工作流与文件回放功能。QuickTime还采用了一种称为QuickTime VR的虚拟现实技术,用户可通过键盘和鼠标交互式控制景物。目前,国际标准化组织已经将QuickTime文件格式作为开发MPEG 4规范的统一数字媒体存储格式。 (4)Real Video文件(.rm、.rf)。是Real Networks公司开发的流式视频文件格式。主要用于低速的广域网上实时传输视频影像,可根据网络传输速率的不同而采用不同的压缩比,实现影像数据的实时传送播放。该文件不仅可以普通的视频文件形式播放,还可以与Real Server服务器相配合,在数据传输中一边下载一边播放。 (5)ASF文件(.asf)。是微软公司开发的流媒体文件格式,用来在因特网上实时播放音频和视频。它使用MPEG-4压缩标准,具有很高的压缩比。 (6)WMV文件(.wmv)。微软公司开发的与MP3齐名的视频格式文件,比MPEG-2有更高的压缩比。 (7)DV格式。是一种国际通用的数字视频标准,是数码摄像机在它的MiniDV磁带傻瓜记录影像的文件结构。 8.5.3数字视频处理方法 采集到的数字视频文件一般要经过编辑加工后,才能在多媒体系统中使用。常见的视频编辑软件有Premiere、Video For Windows、Digital Video Productor等。Adobe公司开发的Premiere是视频编辑软件中功能较强的一种,其主要功能包括: 编辑和组接各种视频片段,各种特技处理,各种字幕、图标和其它视频效果,配音并对音频片段进行编辑调整,改变视频特性参数(帧率、图像深度、音频采样频率等),设置音频、视频编码及压缩参数,输出生成AVI或MOV格式的数字视频文件,转换成NTSC或PAL的兼容色彩,以便转换成模拟视频信号。 1.基本编辑 视频的基本编辑主要是针对选取的视频片段进行编排、剪切、复制等操作。在时间轴上将视频片段从头到尾排列,形成从头到尾连续播放的视频节目。 2.过渡特技 视频是一组连续播放的画面。剪辑时如果画面间的连接不当,会造成跳动、画面拖沓等感觉。使用过渡特技能是画面连接自然流畅。 3.视频特技 视频特技是指对片段本身做的处理,如透明处理、运动处理、速度处理、色彩处理等。透明效果可以将两个片段的画面内容叠加在一起,常用在表示回忆的场景中。运动处理可以使静止的画面移动。 4.字幕 视频上叠加的文字称为字幕。在电视节目、广告、卡拉OK等视频中常常使用字幕显示相关的文字信息。视频中出现的文字在画面变化的情况下要保持一段时间,不同的画面内容要配合显示不同的文字说明。字幕可以选用不同的出现方式,如移入、溶解、放大、缩小、旋转、变色等,以产生不同的视觉效果。 5.配音 视频节目制作中除了音乐之外,往往还需要添加适当的配音进行旁白。在录制节目的同时录下当时的环境声音称为同期声,编辑时可以单独处理,进行剪辑或添加效果,也可以为语音解说配上背景音乐。 8.6多媒体应用 8.6.1视频会议系统 信息产业是当今世界上发展最快的产业,电子信息产业不仅成为世界新的经济增长点,而且带动了传统产业的升级改造,促进了其它高新技术产业的发展,成为企业竞争力的增强国家综合实力的关键所在。随着人们对视频和音频信息的需求愈来愈强烈,追求远距离的视音频的同步交互成为新的时尚。近些年来,依托计算机技术、通信技术和网络条件的发展,集音频、视频、图像、文字、数据为一体的多媒体信息,使越来越多的人开始通过互联网享受到网上生活、远程医疗、远程通讯的乐趣,缩短了时区和地域的距离。 视频会议系统是一种在位于两个或多个地点的一群用户之间,提供语音和运动彩色画面的双向实时传送的视听会话型电信业务。多媒体视频会议运行的网络类型是多样化的,包括LAN、WAN、ISDN、Internet以及B-ISDN等,每种网络的带宽和传输协议是不同的,而视频会议系统不同种类的信号数据有不同的传输特性和要求。视频会议系统在军事、政府、商贸、医疗等部门有广泛的应用。 早期的视频会议系统,由于专用芯片等器件价格昂贵,同时又要占用很大的通信频带带宽,所以其推广受到极大限制。1980年以后,新的数字压缩技术允许在低于768kbps的数据速率下取得好的视频图像质量,1986年底又进一步降到224kbps。1988年Picture Tel的视频压缩技术有新的突破,它在112kbps数据速率下取得很好的图像质量。同时CCITT为视频会议系统制定了P×64kbps标准,解决了不同厂商产品的兼容问题,为其普及打下良好的基础。 1.视频会议系统的类型 (1)高档会议室型。在会议室型视频会议系统的支持下,一群与会者集中在一间特殊装备的会议室中,这种会议室作为视频会议的一个收发中心,能与远地的另外一套类似的会议室进行交互通信,完成两点间的视频会议功能。由于会议室与会者较多,对视听效果要求较高,一套典型的系统一般应配有高档摄像、高级音响与大屏幕显示设备、控制设备及其它可选设备,以提供高质量的多点控制会议服务,保证高质量的多媒体效果和不同用户的要求。 (2)桌面会议系统。利用用户现有的台式机以及网络通信设备和异地另一台装备了同样或兼容设备的台式机通过网络进行通信,这种系统仅限于两个用户或两个小组用户使用。桌面会议系统较高档的通常在DDN与ISDN环境中运行,在112~768kbps速率下,可提供每秒25~30帧CIF或QCIF图像;低档的通常在LAN/WAN环境中运行,在384kbps速率下,提供每秒15~20帧图像质量。 (3)可视电话型。可视电话是在现有公用电话网上使用的具有全双工视频传送功能的电话设备。由于电话网带宽的限制,可视电话只能使用较小的屏幕和较低的视频帧率。如使用3.3英寸的液晶屏幕,每秒钟可传送2~10帧画面。使用Microsoft公司的NetMeeting,就可构成直接面向千家万户的简便的多媒体视频会议系统。该类系统运行在Internet和普通公共电话网(PSTN)上,在28.8kbps或33.6kbps等到速率下,一般可提供5~10帧QCIF格式的图像。 2.视频会议系统的组成 1990年12月,ITU-T批准了在窄带ISDN上进行视听业务的标准H.320建议,它描述了整个系统,与之相关的一系列建议则定义构成系统各个部件。以此建议为基础的多点视频会议系统结构如图8-6所示。 图8-6 多点视频会议系统 视频会议系统结构上主要由视频会议终端、多点控制设备、信道(网络)及控制管理软件组成。H.320系列标准是会议系统中应用最早,最为成熟的协议,支持ISDN,E1,T1,带宽从64Kbps到2Mbps,几乎所有的会议系统厂家都支持。甚至许多LAN会议系统的产品也支持H.320。它包括视频、音频的压缩和解压缩、静止图像、多点会议、加密等特性。H.320可分为五个部分,即通用系统、音频、多点会议、加密、数据传送等。该标准涵盖了有关音频编码解码、视频编码解码、通信传输、系统控制等多个方面的标准。 H.320系统在N-ISDN的64kbps(B信道)、384kbps(H0信道)和1536/1920kbps(H11/H12信道)上提供视听业务,是ITU最早批准的视频会议系统标准,因而应用较广泛。 3.视频会议系统的基本功能 视频会议系统工作时,各个会议点的多媒体终端将反映各个会场的主要场景、人物及有关资料的图像、图片以及发言者的声音等同时进行数字化压缩;根据视频会议的控制模式,经过数字通信系统,沿指定方向进行传输;同时在各个会议点的多媒体计算机上,通过数字通信系统实时接收解压缩多媒体会议信息,并在其监视器上实时显示出指定会议参加方的会议场景、人物图像、图片和语音。 视频显示的转换控制有以下3种模式: (1)语音激活模式。会议的视频源根据与会者的发言情况(如声音的大小)来转换,可自动地将“主发言人”的视频图像传播到各个会议点。 (2)主席控制模式。与会的任意一方均可能作为会议的主席,可以控制会议的视频源指定为某个与会方。 (3)讲课模式。所有分会场均可观看主会场的情况,而主会场则可以有选择地观看分会场的情况。 4.视频会议系统的发展趋势 1997年3月ITU-T发布了用于局域网上的视频会议标准协议——H.323,为那些与Internet和Intranet相连的视频会议系统提供了互通的标准。此前用于ISDN上的群视频会议标准协议——H.320一直主导着视频会议领域的技术和产品发展。 H.323是为在局域网、广域网上运行多媒体系统而设计的。它描述了将实时的语音、图像数据传输到PC机和视频电话中所需要提供的设备和服务。H.323提供多层次的多媒体通信,包括局域网上声音、视频以及数据通信,可以建立点播型、交互式多媒体会议,在共享数据的同时,用户可互相听到和看到对方。H.323是一个伞式标准,它参考了其他ITU-T标准,提供了系统和组件描述,呼叫模型描述以及呼叫信号处理。H.323 系列包括:视频标准H.261(P×64kbps下音频视频业务的视频编码解码器)、H.263(低速率通信的视频编码解码器),音频标准G.711、G.722、G.728、G.723(5.3kbps和6.3kbps多媒体通信的双速率语音编码,将改名G.723.1)。 随着因特网的普及和网络带宽的扩展,基于H.323协议的视频会议系统会逐渐超过H.320的系统。由于网络条件、技术水平、生产工艺等因素的变化,视频会议系统已经从高价位专用市场向低价位普通用户市场转移。流媒体广播技术越来越多的应用于视频会议系统中,大部分广播会议如网上路演、采访、现场会等,主要为用户传输多媒体信息,相互之间的很少交互,这种技术的应用是对传统视频会议功能的扩展。 8.6.2 流媒体技术 流媒体在网站中几乎无处不在,如网上的电台广播、电影播放、远程教学、网上音乐商店,以及在线新闻网站都是流媒体技术的应用成果。 1.流媒体技术实现原理 在窄带网络中下载数据量巨大的视频文件,一直是一件非常痛苦的事情,受到下载速度和掉线的困扰,要在网上观看影视节目需要极大的耐心和勇气。流媒体技术以及ADSL技术的应用改变了这一历史。1995年,RealNetwork公司推出了第一个流媒体产品,其著名的播放器为Realplayer,从此,在互联网上播放音频视频节目不再局限于下载模式。流媒体技术就是把连续的影像和声音信息经过压缩编码处理后放到网络服务器上,让浏览者一边下载一边播放,而不需要等到整个多媒体文件下载完成就可以即时观看的技术。该技术先在使用者端的计算机中创建一个数据缓冲区,在播放前先下载一段数据作为缓冲,当网络实际连线速度小于播放耗用数据的速度时,播放器会取用缓冲区中的数据,避免播放的中断。流媒体技术是网络音频、视频技术发展到一定阶段后的产物,是一种解决多媒体播放时网络带宽问题的“软技术”。 流媒体技术涉及到流媒体数据的采集、压缩、存储、传输以及网络通信等多项技术,需要完成流媒体的制作、发布、传输、播放四个环节。普通的多媒体文件数据量大,不支持流式传输,经过专用的流式压缩软件采用高效的压缩算法减小文件尺寸,再向文件中加入流式控制代码就将普通的多媒体文件制作成了流式多媒体文件;流式文件存储到流服务器上,通过控制软件进行数据流的分发;在Internet网络上,使用建立在UDP协议(用户数据报,TCP/IP协议中的一种协议)之上的RTP/RTSP协议(实时传输/实时流协议)传输流式数据包,同时使用缓冲技术来弥补数据的延迟,并重新对数据包进行排序,保证多媒体数据连续输出,不会因网络的阻塞导致播放出现停顿;浏览器端对接收的数据做解码再播放。 数据缓冲的目的是在某一段时间内存储需要使用的数据,数据缓冲中的时间是暂时的,播放完的数据即刻被清除,新的数据又可存入缓存中。在播放流媒体文件时不需要太大的磁盘空间,也不会保留文件的备份,有利于保护著作版权。 2.流媒体技术的特点 流媒体是实时的。通过数据缓存,可以一边下载一边播放,播放完的数据立即被丢弃,可以合理保护版权;流媒体的服务器端管理程序支持用户对流媒体的控制,用户可以自由地拖拉来控制播放位置。 3.流媒体技术解决方案 流媒体是由各种不同的软件控制实现的,这些软件在不同的层面上相互作用,主要包括三个方面的组件:编码器用来将原始的多媒体数据转换成流格式数据;服务器用来向用户发送流媒体;播放器用来观看或收听流媒体。 (1)编码器在尽可能保证文件原有声音图像质量的情况下,重新编码以降低文件的数据量,并按照容错格式将转换后的文件打包,以避免数据传输时发生丢失。转换后的文件成为流格式,可存放到流媒体服务器上,便于因特网上传播。 (2)流媒体服务器响应客户端的请求,并保持同客户端播放器之间的双向通信;播放器上对音频视频的播放控制如暂停、播放、前进、后退、拖动等操作,服务器都要作相应的控制,以调整数据流。这种对传送数据的控制能力大大高于Web服务器的要求,Web服务器仅按客户端的URL地址将网页文件发送到浏览器上就结束与浏览器的通信。流媒体服务器可以同时处理多个任务,一边要处理多个新接收的实时广播数据,将其编码;一边还可以响应多个观众的播放器请求,同时还要处理服务器硬盘的备份数据流。流媒体服务器起到了分发控制数据流的作用。 (3)流媒体播放器能够播放和丢弃接收到的数据流,并提供对流的交互操作,如暂停、播放、快进等,有些播放器还提供一些额外的功能,如录制、调整音频视频,甚至系统文件记录等。 目前在流式技术领域竞争的公司主要有Microsoft、RealNetwoks、Apple三家,它们相应的产品是Windows Media、Real Media、QuickTime。其三种组件产品见表8-3。 表 8-3 流媒体技术相关产品 编码器软件 服务器软件 播放器软件  RealNetwoks RealProducer Plus 8 RealServer Basic 7 RealPlayer Plus 8  Microsoft Mirosoft Windows Media Encoder 7 Mirosoft Windows Media Services 7 Mirosoft Windows Media Player 7  Apple QuickTime Pro QuickTime Streaming Server 2.01 QuickTime 4.1.2  RealNetwoks是最早的流媒体专业公司,其产品齐全,覆盖了创作、传送、伺服、后端下载的整个过程,而且每个产品都有两种版本。Basic版具备有限的基本功能,可免费下载;Plus版为专业人士提供了完整的功能,需要购买且价格高昂。Microsoft的产品也较完整,从制作端的Windows Media Author、Windows Media ASF Indexer到编码器、服务器、播放器,产品一应俱全,且全部免费提供,只是相对于RealNetwoks各个产品的功能深度都稍有不足。 4. 流媒体技术的应用和发展前景 (1)远程教育 远程教育中最基本的要求是将多媒体信息从教师端传递到远程的学生端。受限于网络带宽,流媒体成为最佳的解决方案。目前能够在Internet网上进行多媒体交互教学的技术多为流媒体,像Real System、Flash Shockwave等技术经常应用到网络教学中。使用流媒体中的VOD(视频点播)技术,更可以达到因材施教、交互式教学的目的。远程教学给员工培训和交流也提供了更直观、经济的手段。 (2)宽带视频点播 随着宽带网和信息家电的发展,流媒体技术越来越广泛地应用于视频点播系统。使用户可以在家中欣赏到与电视节目相当的流式视频节目。目前,很多大型的新闻娱乐媒体都在Internet网上提供基于流式技术的音频、视频节目,如中央电视台、国外的CNN、CBS等都提供了视听在线栏目。 (3)互联网直播 从互联网上直接收看实时新闻、体育赛事、重大庆典、商贸展览已经成为越来越多的网民的选择,很多厂商也希望借助网上直播将自己的产品和活动在第一时间传遍全球,这些需求都促成了互联网直播的形成。 流媒体技术在互联网直播中起着重要的作用,保证了在低带宽的环境下提供高质量影音。RealNetwork公司的SureStream这样的智能技术可以保证不同连接速率下的用户可以得到不同质量的影音效果,流媒体的多地址广播技术可以大大减少服务器端的负荷,同时最大限度地节省带宽。 (4)视频会议 流媒体技术的出现为视频会议的发展起了很重要的作用。用流媒体格式传送影音,可以达到及时的效果而不必等待整个影音传送完毕。视频会议是流媒体的一个商业用途,如用于点对点通信的可视电话,只要用一台已经接入Internet网的电脑和一个摄像头,就可以与世界任何一个地方的人进行音视频通信。大型企业利用基于流技术的视频会议系统来组织跨地区的会议和讨论,节省了大量的开支和时间。 流媒体应用将来将向Web3D应用及无线应用方向发展。计算机三维动画能够模拟出真实感场景,其应用早已为人们熟知。在互联网上实现三维动画目前困难重重,首要问题还是巨大的数据量与网络带宽限制的矛盾。尽管VRML技术能带来一些Web3D的效果,但其进展远没有达到预期效果。流媒体的应用为网络上传送三维实体提供了新的途径,最典型的例子就是由Intel公司和Metacreations公司共同开发的Viewpoint技术。Viewpoint将3D技术和流式技术结合在一起,让用户在窄带网中实现照片效果的真是3D影像,传送3D动画、全景图像以及2D动画,并可传送Flash等多种文件格式。 用户只要使用Viewpoint提供的Viewpoint Scene Builder软件制作出具有交互能力的三维实体,再嵌入到网页中,客户端事先下载播放插件(Viewpoint Media Player),使用浏览器就能观看三维动画。 8.7多媒体作品创作 一个完整的多媒体应用系统包含多媒体硬件系统和软件系统两大部分。硬件系统由基本计算机硬件加上必需的多媒体输入输出设备组成;软件系统包括多媒体设备驱动程序、多媒体设备接口程序、多媒体操作系统、媒体素材制作软件、多媒体创作工具、多媒体数据及多媒体应用软件。多媒体应用软件是在多媒体平台上设计开发的面向应用领域的软件,按照其复杂程度和集成方式可分为多媒体应用集成系统和多媒体作品两大类型。 应用集成系统的开发设计较为复杂,需要专业知识和软件开发技术做支撑。而多媒体作品主要是以多种媒体形式呈现信息,并具有交互能力。多媒体教学软件、多媒体电子出版物、多媒体信息查询系统、多媒体展示、3W网页等都可以看作多媒体作品。 8.7.1多媒体创作工具 多媒体创作工具种类繁多,按照用途可归纳为以下三类: 1.多媒体素材准备工具。 用于完成各类媒体信息的收集、编辑、特效处理的软件。主要有字处理软件、声音编辑软件、绘图软件、图像处理软件、动画制作软件、视频编辑软件。下列是目前流行的媒体编辑软件。 (1)文字处理软件:记事本、写字板、Word。 (2)图形图像处理:PhotoShop、Fireworks、CorelDraw、Freehand。 (3)动画制作:AutoDesk Animator Pro、3DS MAX、Maya、Flash。 (4)声音处理:Ulead Media Studio、Sound Forge、Cool Edit、Wave Edit。 (5)视频处理:Ulead Media Studio、Adobe Premiere。 2.多媒体集成工具。 用于将各类媒体素材集成在一起,形成一个具有交互能力的作品的软件。目前最流行的有以下几类: (1)基于流程控制的多媒体创作软件。最典型的是Micromedia公司开发的Authorwave。它是一种可视化的编程开发工具,设计者只要按照多媒体事件的逻辑流程,通过从图标窗口中拖出相应的图标来编排顺序,该软件就会将逻辑流程转换成设计窗口的图标流程。它不要求设计者有很强的程序设计能力,只需要掌握一些流程图和图标的概念及程序设计的基础知识就能使用。它具有多种外部接口,可把多种媒体素材有效地集成在一起,并有丰富的函数和系统变量供编程使用。 (2)基于时间轴的多媒体创作工具。最典型的是Micromedia公司开发的Flash和Director。基于时间轴的创作工具提供一条时间线,所有的多媒体元素或事件都按照时间线来展开和组织。由时间线能方便地控制每个多媒体元素在什么时候呈现以及呈现的速度和方式,能较精确地控制各元素时间上的同步。另外,通过脚本编程以及与数据库的集成,能够设计出功能强大的多媒体应用系统。 (3)基于书页的多媒体创作工具。如Asymetrix公司的Tool Book.类似于书本的组织形式来将多媒体元素组织成“书页”,并通过链接实现页面之间自由的跳转。 (4)基于网页的多媒体创作工具。如Micromedia公司的Dreamwave。WWW技术的发展满足了多媒体数据的非线性组织形式要求,是目前解决多媒体数据库技术的一种简便易行的方案。使用超文本标记语言编排多媒体元素,通过超链接将各种媒体元素(媒体元素可以在同一文件中,也可以独立文件保存在网络中的任意位置)组织起来,形成多媒体网页。 3.编程开发工具 Visual Basic、Visual C++、Delphi、Java、ASP技术等都是目前流行的多媒体开发工具软件。它们都是面向对象的可视化编程环境,提供丰富的有关多媒体操作的控件(组件)、类,设计者只需在程序中进行调用即可。但编程方法对制作人员的程序设计能力要求较高。 8.7.2多媒体作品制作过程 1.确定多媒体作品的内容、结构 首先应确定作品主题、基本内容以及大致的结构,明确作品的用途和发布形式。要根据内容的需要确定作品的类型,选择恰当的表现手法;明确各阶段的目标、实现手段和步骤,再选择合适的创作工具。只有在明确了主体和总体结构之后,拟订出大纲,才能把握整个作品的方向。然后再根据大纲编写脚本,组织创作人员。 2.编写和修改脚本 编写脚本是多媒体作品成功的关键。脚本有如编导影片时的剧本,是整个创作的灵魂。需要深刻理解作品的内容,熟悉媒体的表现手法和特色,再进行创意,才能编写出好的脚本。在脚本中仔细安排媒体信息的结构(层次、网状、驱动方式)、各种媒体信息的呈现形式、相互关系,使设计人员通过脚本就能明白设计意图和表现方法。 3.收集整理素材 作品中的素材包括文字资料、图片、图案、动画、视频、背景音乐、旁白、讲解录音、音乐等等。按照脚本的要求,使用媒体编辑工具收集、加工、整理各种素材,为系统集成做好准备。素材准备工作量大,一定要按照脚本的需要,明确素材的内容、尺寸、数据量、表现形式,将素材以文件形式分门别类保存好。 4.作品设计 作品设计的目的是要确定整个作品的框架结构,对主要界面和交互方式进行设计,构造一个结构清晰、操作简便、功能完整的多媒体应用系统。同时还要兼顾美工效果,提升作品的感染力和艺术品味。 5.系统集成 使用多媒体集成工具,按照作品设计的框架和结构以及脚本要求,将媒体素材组织起来,形成一个交互式的应用系统。系统集成的交互式过程往往需要用脚本语言或高级语言编写程序,由事件驱动对象运行。 6.调试与测试 对编写的程序进行调试和测试,保证程序运行正确。另外还要对整个作品进行反复的测试和运行,以发现和修改其中的错误。 7.发布作品 产品可以以CD-ROM方式包装发行,也可以通过网站或网页发布。 习题八 简答题 1. 简述媒体和多媒体技术的概念。 2. 根为什么说利用多媒体是计算机技术发展的必然趋势? 3. 多媒体技术中的主要媒体元素应该有哪些? 4.简述对多媒体数据进行压缩的必要性和可能性? 5.简述图像分辨率、扫描分辨率、显示分辨率的联系和区别。 6. WAV文件和MIDI文件有何区别? 7.目前常用的多媒体创作工具有那些? 8.简述多媒体作品的创作过程。