第 4章 多媒体视频信息处理
1。视频基础知识
2。电视信号及其标准
3。视频的数字化过程
4。基于多媒体计算机的视频处理系统
5。其他功能的视频卡
6。视频文件的类型
7。非线性编辑系统
8。视频信息的检索
4.1 视频基础知识
4.1.1 视频的定义视频( Video) 就其本质而言,实际上就是其内容随时间变化的一组动态图像 (25
或 30帧 /秒 ),所以视频又叫作运动图像或活动图像。
图像与视频是两个既有联系又有区别的概念:静止的图片称为图像( Image),
运动的图像称为视频( Video)。
视频信号具有以下特点:
内容随时间而变化
伴随有与画面动作同步的声音 (伴音 )
4.1.2 视频的分类按照处理方式的不同,视频分为模拟视频和数字视频。
模拟视频( Analog Video)
模拟视频是一种用于传输 (存储 )图像和声音的并且随时间连续变化的电信号。
传统的模拟信号处理设备 直接广播卫星( DBS)
)
模拟视频具有以下特点:
以模拟电信号的形式来记录
依靠模拟调幅的手段在空间传播
使用盒式磁带录象机将视频作为模拟信号存放在磁带上传统上,视频都以模拟方式进行存贮和传送,然而模拟视频不适合网络传输,在传输效率方面先天不足,而且图像随时间和频道的衰减较大,不便于分类、检索和编辑。
数字视频( Digital Video-DV)
要使计算机能够对视频进行处理,必须把视频源 --即来自与电视机、模拟摄像机、录像机、影碟机等设备的模拟视频信号,转换成计算机要求的数字视频形式并存放在磁盘上,这个过程称为视频的数字化过程(包括采样、量化和编码)。
4.1.3 数字化视频的优点视频信号数字化后,就能做到模拟视频信号所无法实现的事情。它的主要优点有:
适合于网络应用在网络环境中,视频信息可以很方便地实现资源的共享,通过网络线、光纤,数字信号可以很方便地从资源中心传到办公室和家中。视频数字信号可以长距离传输而不会产生任何不良影响,
而模拟信号在传输过程中会有信号损失。
再现性好模拟信号由于是连续变化的,所以不管复制时采用的精确度多高,失真总是不可避免的,经过多次复制以后,误差就很大。数字视频可以不失真地进行无限次拷贝,其抗干扰能力是模拟图像无法比拟的。它不会因存储、传输和复制而产生图像质量的退化,从而能够准确地再现图像。
便于计算机编辑处理模拟信号只能简单调整亮度、对比度和颜色等,极大地限制了处理手段和应用范围。而数字视频信号可以传送到计算机内进行存储、处理,很容易进行创造性地编辑与合成,并进行动态交互。
数字视频的缺陷是处理速度慢,所需的数据存储空间大,从而使数字图像的处理成本增高。
4.1.4 视频的应用领域
广播电视
地面、卫星电视广播
有线电视( CATV:Community Antenna TV )
数字视频广播 (Digital Video Broadcast)
交互式电视( ITV:Interactive TV )
高清晰度电视( HDTV)
通信
可视电话( Videophone )
视频会议( Videoconferencing )
视频点播( VOD:Video On Demand )
视频数据库
个人娱乐
录象节目
VCD( Video Compact Disk)
DVD( Digital Versatile Disk)
电视购物
家庭摄象
视频游戏
4.2 电视信号及其标准
4.2.1 彩色电视信号制式电视信号是视频处理的重要信息源。
电视信号的标准也称为电视的制式。目前各国的电视制式不尽相同,不同制式之间的主要区别在于不同的刷新速度、
颜色编码系统和传送频率等。目前世界上常用的电视制式有中国、欧洲使用的
PAL制,美国、日本使用的 NTSC制及法国等国所使用的 SECAM制。
NTSC制
PAL制
SECAM
不同制式的电视机只能接收和处理其对应制式的电视信号。也有多制式或全制式的电视机,这为处理和转换不同制式的电视信号提供了极大的方便。全制式电视机可在各国各地区使用,而多制式电视机一般为指定范围的国家生产。
表 4-1 三种彩色电视制式的主要技术指标
TV制式 NTSC PAL SECAM
帧频 (Hz) 30 25 25
行 /帧 525 625 625
亮度带宽
(MHz)
4.2 6.0 6.0
彩色幅载波 (Hz)
3.58 4.43 4.25
声音载波
(MHz)
4.5 6.5 6.5
4.2.2 电视视频信号的扫描方式扫描方式主要有逐行扫描和隔行扫描两种 。
奇数场 偶数场 一帧
4.2.3 YUV与 RGB彩色模型彩色的基本概念:
颜色与光的波长有关,不同波长的光呈现不同颜色。颜色具有三个特征:色调、亮度、
饱和度。
色调,表示颜色的种类,如红、黄、蓝等。色彩取决于光的波长,是决定颜色的基本特征。
饱和度,是表示颜色的纯净程度,即色彩含有某中单色光的纯净程度。它是按单色光中混入其它色的比例来表示的。
亮度,是指色彩所引起的人眼对明暗程度的感觉同一种色调的亮度会因光源的强弱产生不同的变化,同一色调如加上不同比例的黑或白色混合后亮度也会发生变化。
YUV模型在 PAL彩色电视制式中采用 YUV模型来表示彩色图像。其是 Y表示亮度,U,V用来表示色差,
是构成彩色的两个分量。与此类似,在 NTSC彩色电视制式中使用 YIQ模型,其中的 Y表示亮度,
I,Q是两个彩色分量。 YUV表示法的重要性是它的亮度信号 (Y)和色度信号 (U,V)是相互独立的,
也就是 Y信号分量构成的黑白灰度图与用 U,V信号构成的另外两幅单色图是相互独立的。
PAL彩色电视制式中采用 YUV模型来表示彩色图像
Y
U
V
RGB模型
RGB分别代表红,绿,蓝三种基本颜色。
电视机和计算机显示器使用的阴极射线管是一个有源物体。 CRT使用 3个电子枪分别产生红、绿和蓝三种波长的光,分别产生并以相对强度轰击 CRT的荧光涂层屏幕以产生颜色。并以各种不同的相对强度综合起来产生颜色。组合这三种光波以产生特定颜色称为相加混色,或称为 RGB相加模型。
相加混色是计算机应用中定义颜色的基本方法。
CRT显示器采用 RGB彩色模型
A-阴极 B-导电涂层 C-阳极 D-荧光屏
E-电子束 F-荫罩板
YUV与 RGB彩色空间变换由于所有的显示器都采用 RGB值来驱动,
这就要求在显示每个像素之前,需要把 YUV
彩色分量值转换成 RGB值。
在考虑人的视觉系统和阴极射线管 (CRT)
的非线性特性之后,RGB和 YUV的对应关系可以近似地用下面的方程式表示:
Y = 0.299R + 0.587G + 0.114B
U = (B – Y ) * 0.493
V = (R – Y ) * 0.877
在转换时,可以把它化简为:
Y = 0.299R + 0.587G + 0.114B
U = - 0.169R - 0.331G + 0.5B
V = 0.500R - 0.419G - 0.081B
或者写成矩阵的形式,
B
G
R
V
U
Y
081.0419.05.0
5.0332.0169.0
114.0587.0299.0
4.2.4 彩色电视的信号类型电视频道传送的电视信号主要包括亮度信号、色度信号、复合同步信号和伴音信号,这些信号或者可通过频率域,或者可通过时间域相互分离出来。
根据不同的信号源,电视接收机的输入、
输出信号有三种类型:
高频或射频信号为了能够在空中传播电视信号,必须把视频全电视信号调制成高频或射频( RF- Radio
Frequency) 信号,每个信号占用一个频道,这样才能在空中同时传播多路电视节目而不会导致混乱。 PAL制每个频道占用 8MHz的带宽; NTSC制每个频道的带宽为 4MHz。 有线电视 CATV( Cable
Television) 的工作方式类似,只是它通过电缆而不是通过空中传播电视信号。
复合视频信号为便于电视信号远距传输,必须把三个分量信号以及同步信号复合成一个信号,
然后才进行传输。复合视频信号定义为包括亮度和色度的单路模拟信号,也即从全电视信号中分离出伴音后的视频信号,这时的色度信号是间插在亮度信号的高端。
由于复合视频的亮度和色度是间插在一起的,在信号重放时很难恢复完全一致的色彩。这种信号一般可通过电缆输入或输出到家用录像机上,其信号带宽较窄,一般只有 240线左右的水平分解率。
分量视频信号与 S- Video
为保证视频信号质量,近距离时可用分量视频信号 (component video signal)传输,分量信号是指每个基色分量 ( R,G,B 或 Y,U,V )作为独立的电视信号传输。计算机输出的 VGA视频信号,
即为分量形式的视频信号。
S- Video 是一种两分量的视频信号,它把亮度和色度信号分成两路独立的模拟信号,用两路导线分别传输并可以分别记录在模拟磁带的两路磁轨上。这种信号不仅其亮度和色度都具有较宽的带宽,而且由于亮度和色度分开传输,可以减少其互相干扰,水平分解率可达 420线。与复合视频信号相比,S- Video可以更好地重现色彩。
4.3 视频的数字化过程要让计算机处理视频信息,首先要解决的是视频数字化的问题。视频数字化是将模拟视频信号经模数转换和彩色空间变换转为计算机可处理的数字信号,与音频信号数字化类似,计算机也要对输入的模拟视频信息进行采样与量化,并经编码使其变成数字化图像。
4.3.1 视频信号的采样
对视频采样的基本要求对视频信号进行采样时必须满足三个方面的要求。
要满足采样定理。对于 PAL制电视信号。视频带宽为 6MHz,按照 CCIR601建议,亮度信号的采样频率为 13.5MHz,色度信号为 6.75MHz。
采样频率必须是行频的整数倍。这样可以保证每行有整数个取样点,同时要使得每行取样点数目一样多,具有正交结构,便于数据处理。
要满足两种扫描制式。
数字视频信号的采样频率和格式现行的扫描制式主要有 625行 /50场和 525行 /60场两种,它们的行频分别为 15625Hz和
15734.265Hz。 ITU(国际电信联盟)建议的分量编码标准的亮度抽样频率为 13.5兆赫,这恰好是上述两种行频的整数倍。按照国际现行电视制式,亮度信号最大带宽是 6MHz。 根据奈奎斯特抽样定理,抽样频率至少要大于
2× 6= 12MHz,因此取 13.5MHz也是合适的。
数字视频的采样格式根据电视信号的特征,亮度信号的带宽是色度信号带宽的两倍。因此其数字化时对信号的色差分量的采样率低于对亮度分量的采样率。如果用 Y,U,V来表示 YUV三分量的采样比例,则数字视频的采样格式分别有 4:1:1,4:2:0,4:2:2和 4:4:4四种。
4:2:2采样格式
4.3.2 量化采样过程是把模拟信号变成了时间上离散的脉冲信号,量化过程则是进行幅度上的离散化处理。因此在时间轴的任意一点上量化后的信号电平与原模拟信号电平之间在大多数情况下总是存在有一定的误差,
量化所引入的误差是不可避免的同时也是不可逆的,由于信号的随机性这种误差大小也是随机的,这种表现类似于随机噪声效果,具有相当宽度的频谱,因此我们又把量化误差称为量化噪声。但量化误差与噪声是有本质的区别的。
如果视频信号量化比特率为 8Bit,信号就有个量化值。若最大信号正好用足8比特的话,小于 1/256的信号就只能当零处理了。而且每二个相邻数字的差距也必需大于 1/256才能分得开,当二个原来不同的数值用同一个二进制值来表示时,实际数值与记录数值之差就成为量化噪声。所以,
比特率已决定了整个系统的理想状态下的最小噪声、动态范围和信噪比,模拟信号在理想状态是没有这种限制的。亮度信号用8比特量化,灰度等级最多只有 256个,
如果 RGB三个色度信号都用8比特量化,就可以获得 256× 256× 256= 16777216,即近
17万种色彩。
5比特量化有 32个灰度等级
8比特量化有 256个灰度等级
4.3.3 视频信号的压缩与编码抽样、量化后的信号转换成数字符号才能进行传输,这一过程称为编码。视频压缩编码的理论基础是信息论。信息压缩就是从时间域、空间域两方面去除冗余信息,将可推知的确定信息去掉。
在通信理论中,编码分为信源编码和信道编码两大类。所谓信源编码是指将信号源中多余的信息除去,形成一个适合用来传输的信号。为了抑制信道噪声对信号的干扰,往往还需要对信号进行再编码,使接收端能够检测或纠正数据在信道传输过程引起的错误,这称为信道编码。
4.3.4 数字视频 DV格式数字视频( Digital Video-DV) 是定义压缩图像和声音数据记录及回放过程的标准。 DV格式是一种国际通用的数字视频标准,是由 10余家公司共同制定的标准。
DV格式具有如下视频特点:
高清晰度,水平分辨率可达 500线;
宽色度带宽,还原色彩绚丽的图像;
4.4基于多媒体计算机的视频处理系统在多媒体计算机系统中,视频处理一般是借助于一些相关的硬件和软件,在计算机上对输入的视频信号进行接收、采集、传输、压缩、
存储、编辑、显示、回放等多种处理。视频信号主要是指来自电视机、录 /放像机、摄像机等视频设备的信号,也可以是来自影碟机的影视节目。
4.4.1 数字视频系统的组成从硬件平台的角度分析,一个视频采集系统要包括视频采集设备、视频信号源设备、大容量存储设备、以及配置有相应视频处理软件的高性能计算机系统。
提供模拟视频输出的设备有录像机、电视机,
影碟机等;对模拟视频信号进行采集、量化和编码的设备由视频采集卡来完成;最后,由计算机接收和记录编码后的数字视频数据。在这一过程中起主要作用的是视频采集卡,它不仅提供接口以连接模拟视频设备和计算机,而且具有把模拟信号转换成数字数据的功能。
4.4.2 视频采集卡的工作原理视频采集卡是一个安装在计算机扩展槽上的一个硬卡。它可以汇集多种视频源的信息,如电视、影碟、录像机和摄像机的视频信息,对被捕捉和采集到的画面进行数字化、冻结、存储、输出及其他处理操作,如编辑、修整、裁剪、按比例绘制、像素显示调整、缩放功能等。视频卡为多媒体视频处理提供了强有力的硬件支持。
视频采集卡的工作原理如图 4-1所示 。视频卡一般具有多种视频接口,可接收来自摄像机,
录像机,VCD机等多种视频信号,通过视频软件可选择所需的视频源。
从彩色摄像机、录像机或其他视频信号源得到的彩色电视信号,经视频接口送入视频采集卡,信号首先经过 A/D转换,然后送到多制式数字解码器进行解码 。模数转换器( ADC) 又是一个视频解码器,其任务是对视频信号解码和数字化 。采用不同的颜色空间可选择不同的视频输入解码器芯片。 图 5-1 视频卡的工作原理框图经 ADC解码后得到的 YUV信号格式。当以 4,2:
2格式采样时,每 4个连续的采样点中取 4个亮度 Y、
2个色差 U,2个色差 V的样本值,共 8个样本值。
YUV信号经过转换可变成 RGB信号。
RGB信号然后被送入视频处理芯片,对其进行剪裁,变化等处理。视频处理芯片是用于视频捕获、播放、显示用的专用控制芯片,主要功能可分为 PC总线接口、视频输入剪裁、变化比例、与
VGA信号同步,色键控制以及对帧存储器 VRAM的读写和刷新控制。
视频信息可实时地存到 VRAM中,计算机可以通过视频处理器对帧存储器的内容进行读写操作,
帧存储器的视频像素信息读到计算机后,通过编程可以实现各种算法,完成视频图像的编辑与处理。
由于视频信息量巨大,如果直接存储,
会占用大量的存储空间 。以电视图像为例,
电视上一秒钟的画面,其实是由几十幅连续所组成的,如果直接将这些视频信息存储起来,至少也要十几 MB的容量 。所以视频卡又提供了对视频数字信号的压缩功能,
并以压缩的图像文件格式进行存储 。当在计算机上播放视频图像时还得经过解压缩过程,使其还原成图像信息才能播放。
4.4.3 视频采集卡的性能指标根据不同的应用、不同的适用环境和不同的技术指标,目前有多种规格的视频采集卡。可以归纳出以 PC机为硬件环境的视频采集卡的主要功能和技术指标:
接口视频采集卡的接口包括视频与 PC机的接口和与模拟视频设备的接口。 目前 PC 视频采集卡通常采用 32位的
PCI总线接口,它插到 PC机主板的扩展槽中,以实现采集卡与 PC机的通信与数据传输。
视频采集卡至少要具有一个复合视频接口( Video In)
以便与模拟视频设备相连。高性能的采集卡一般具有一个复合视频接口和一个 S- Video接口。一般的采集卡都支持 PAL和 NTSC两种电视制式。
视频采集卡如果不具备电视天线接口和音频输入接口,就不能用视频采集卡直接采集电视射频信号,同时也不能直接采集到模拟视频中的伴音信号。要采集伴音,PC机上必需要装有声卡,
视频采集卡通过 PC机上的声卡获取数字化的伴音并把伴音与采集到的数字视频同步到一起。
一般而言,视频采集卡有单工卡和双工卡两种。单工卡只提供视频输入接口,双工卡还提供输出接口。如果只需在 PC机上编辑数字化视频,单工卡就可以了。若想把数字化编辑过后的影像拷贝到录像带上,就需要双工卡。
具有多种接口的视频采集卡与视频源的连接
实时压缩功能由于模拟视频输入端可以提供不间断的信息源,视频采集卡要采集模拟视频序列中的每帧图像,并在采集下一帧图像之前把这些数据传入 PC
系统。因此,实现实时采集的关键是每一帧所需的处理时间。如果每帧视频图像的处理时间超过相邻两帧之间的相隔时间,则要出现数据的丢失,
也即丢帧现象。采集卡都是把获取的视频序列先进行压缩处理,然后再存入硬盘,也就是说视频序列的获取和压缩是在一起完成的,免除了再次进行压缩处理的不便。不同档次的采集卡具有不同质量的采集压缩性能。
大多数视频采集卡都具备硬件压缩的功能,
在采集视频信号时首先在卡上对视频信号进行压缩,然后再通过接口把压缩的视频数据传送到主机上。视频采集卡采用帧内压缩的算法把数字化的视频存储成 AVI文件,高性能的视频采集卡还能直接把采集到的数字视频数据实时压缩成 MPEG格式的文件。
视频捕获卡一般都采用专业级的专用芯片来处理视频的压缩,例如,intel的 i750。 同时由于图像采集要处理大量数据(1分钟的 AVI文件大约占 30MB空间),所以对计算机硬件平台的要求也较高。如果用软件的方式进行数据压缩,则对计算机的性能有很高的要求,否则抓取的画面及播放画面的速度便会受到相应的影响。
采集分辨率及帧频视频采集卡按照其用途可以分为广播级视频采集卡,专业级视频采集卡,民用级视频采集卡。
他们的区别主要是采集的图像指标不同。
广播级视频采集卡属高档设备,主要用于电视台制作节目。广播级视频采集卡的最高采集分辨率一般 720?576(CCIR推荐值 ),PAL制,每秒 25帧 ;
或分辨率为 640?480,NTSC制,每秒 30帧。最小压缩比一般在 4:1以内。这一类产品的特点是采集的图像分辨率高,视频信噪比高,缺点是视频文件庞大,每分钟数据量至少为 200MB。
专业级视频采集卡比广播级视频采集卡的性能稍微低一些,分辨率两者是相同的,
但压缩比稍微大一些,其最小压缩比一般在 6:1以内,输入输出接口为 AV复合端子与
S端子,此类产品适用于广告、多媒体节目制作及多媒体软件开发。
民用级 的 视频采集卡的动态分辨率一般最大为 384?288,PAL制式,帧频为每秒 25
帧。
驱动和应用程序视频采集卡一般都配有硬件驱动程序以实现 PC机对采集卡的控制和数据通信。根据不同的采集卡所要求的操作系统环境,
各有不同的驱动程序。采集卡只有在正确安装了驱动程序以后才能正常工作。也可以采用通用的软件,例如数字视频编辑软件 Adobe Premiere。
4.4.4 视频设备及其连接
视频信号源及设备由于视频采集卡提供复合视频输入和分量视频输入口,因此只要具有复合视频输出或 S- Video输出端口的设备都可以为采集卡提供视频信号源。
视频的质量在很大程度上取决于模拟视频信号源的质量及视频采集卡的性能。
根据不同的模拟视频信号源应分别选择相应的设备。
视频设备与 PC的连接模拟设备与采集卡的连接包括模拟设备视频输出端口与采集卡视频输入端口的连接,以及模拟设备的音频输出端口与 MPC声卡的音频输入端口的连接。
视频采集卡有两种视频输入接口,要注意它们之间的区别,一种是具有标准复合视频输入接口 (RCA,俗称莲花接口 ),标准视频信号在输出时要进行编码,将信号压缩后输出,接收时还要进行解码。这样会损失一些信号。还有一种是 S视频输入接口 (S-Video)。 由于 S视频信号不需要进行编码、解码,所以没有信号损失,因此使用 S-
Video端口可以获取更好的图像质量。
兼有复合视频接口和 S-Video接口的视频卡
S-video电缆线及接口 复合视频插头
视频采集的过程采集视频的过程主要包括如下几个步骤:
设置音频和视频源。
准备好 MPC系统环境。
启动采集程序,预览采集信号,设置采集参数。
启动信号源,然后进行采集。
播放采集的数据。
对采集的原始数据进行简单的编辑。
4.4.4 数字视频的输出数字视频的输出是数字视频采集的逆过程,
也即把数字视频文件转换成模拟视频信号输出到电视机上进行显示,或输出到录像机记录到磁带上,这需要专门的设备来完成数字数据到模拟信号之间的转换。根据不同的应用和需要,这种转换设备也有多种。目前已有集模拟视频采集与输出于一体的视频卡,可以与录像机等设备相连,
提供高质量的模拟视频信号采集和输出。这种设备可以用于专业级的视频采集、编辑及输出。
4.5 其他功能的视频卡
4.5.1 视频输出卡 -TV Coder
经过计算机加工处理的视频数据以视频文件的格式进行存储和交流,但不能以录像带的形式进行传播或者直接在电视机上收看。
视频输出卡的功能是将计算机显示卡输出的
VGA信号转换为标准的视频信号,以 PAL和
NTSC两种制式输出,从而可在电视上观看计算机显示器上的画面,或将其通过录像机录制到录像带上 。
对计算机的 VGA显示卡输出的以 RGB形式表示的视频数据进行编码,将其转换成可供录象机和电视机输入和显示的复合视频信号的接口卡叫视频输出卡或编码卡
( TVCoder)。
TVCoder 的功能是把计算机显示器上显示的内容实时地转换为模拟视频信号并输出到电视机或录像机上,还可以把多媒体演示的内容记录到磁带上。
TVCoder具有以下几种接口:
VGA输入端口,TVCoder的输入信号取自于 PC机的 VGA显示输出端。
输出制式开关,TVCoder支持 NTSC和 PAL制式输出,由制式选择开关可选择所需的输出信号的制式。
模拟输出端口,TVCoder 可提供复合视频输出,两分量的 S- Video输出以及三分量 RGB输出。 Video和 S-
Video输出可与具有相应视频输入端口的电视或录像机相连; RGB输出可以与 RGB显示器或其他具有 RGB输入端口的设备,如投影仪等相接。
VGA输出:由于 TVCoder要占用计算机主机的 VGA输出端口,因此它还提供一个 VGA输出端口以便与计算机的显示器连接。
4.5.2 MPEG卡
MPEG是能将大量视频信息进行压缩的国际标准。
MPEG卡实际上分为两类,MPEG压缩卡和解压卡。
MPEG压缩卡用于将视频影像压缩成
MPEG的格式。它首先将模拟音视频信号数字化,然后按 MPEG标准的压缩算法分别对数字音视频信号进行压缩编码,产生一个码率约为 1.5m bit/s的 MPEG复合音视频码流,最后再转变为,mpg格式的文件储存在硬盘上。
MPEG解压卡是采用硬件方式将压缩后的
VCD影碟数据解压后进行回放。当计算机将
CD-ROM内的数据传送到 MPEG卡上时,通过卡上的 MPEG解码器,将已压缩的数据进行解压。品质较好的 MPEG卡可播放每秒 30帧的电影画面,速度和 NTSC制式一样。有些
MPEG卡还提供了视频输出端口( Video Out)
和音频输出端口( Audio Out),可以将 VCD
画面播放到大屏幕彩色电视机上或其他录象设备上,具备了视频输出卡的功能。
MPEG编码卡
4.5.3 电视接收卡电视卡( TV TUNER)从工作原理上看相当于一台数字式电视机。它首先将从天线接收下来的射频信号变换成视频信号,然后经 A/D转换器变为数字信号,再经变换电路变为 RGB模拟信号,最后通过 D/A转换变为模拟 RGB信号送显示器上显示。
外置式 (左 )与内置式(右)电视卡
4.5.4 视频卡的发展趋势系统集成是现代技术的主要趋势,多媒体本身就是技术集成的产物。近年来,多媒 体视频硬件主要在两个领域发展。
第一是与网络通信技术结合,由视频采集卡附加网络 通信卡构成的多媒体视频会议、可视电话、视频邮件、多媒体通信终端等。基于宽带多媒体通信网络的交互式电视( ITV),点播电视
( VOD) 以及远程教育系统、远程医疗诊断系统、
远程电子图书馆等新技术正在普及实施,通过交互电视的机顶盒( STB) 实现网络浏览、电视购物、
收看 VOD节目等,最终走向电视、电脑与电信的三电合一的目的。
第二方面是与影视制作技术结合,构成集压缩 /解压缩、合成输出、特技效果为一体的影视制作非线形编辑系统。视频处理硬件最终将从高档系统的选件转变为标准系统的组件。
从技术上看,电子器件的集成度越来越高;从应用角度看,综合处理多媒体功能的需求越来越普遍,因此,集成到芯片中,设计在主板上,将会是新一代视频 /图像处理硬件的发展趋势。
4.6 视频文件的类型
4.6.1 AVI文件
AVI( Audio Video Interleave) 是一种音频视像交插记录的数字视频文件格式。 1992年初微软公司推出了 AVI技术及其应用软件 VFW( Video
for Windows)。 在 AVI文件中,运动图像和伴音数据是以交织的方式存储,并独立于硬件设备。
这种按交替方式组织音频和视像数据,可使得读取视频数据流时能更有效地从存储媒介得到连续的信息。
AVI文件结构不仅解决了音频和视频的同步问题,而且具有通用和开放的特点 。它可以在任何 Windows环境下工作,而且还具有扩展环境的功能。用户可以开发自己的 AVI视频文件,在
Windows环境下可随时调用。
4.6.2 MOV文件
Apple公司在其生产的 Macintosh机也推出了相应的视频格式,即 Movie digital video 的文件格式,其文件以 MOV为后缀,相应的视频应用软件为 Apple's QuickTime for Macintosh。 随着大量原本运行在 Macintosh上的多媒体软件向
PC/Windows环境的移植,导致了 QuickTime视频文件的流行。同时 Apple公司也推出了适用于 PC机的视频应用软件 Apple's QuickTime for Windows,
因此在 MPC机上也可以播放 MOV视频文件。
MOV格式的视频文件可以采用不压缩或压缩的方式,其压缩算法包括 Cinepak,Intel Indeo
Video R3.2 和 Video编码。其中 Cinepak和 Intel
Indeo Video R3.2算法的应用和效果与 AVI格式中的应用和效果类似。而 Video格式编码适合于采集和压缩模拟视频,支持 16位图像深度的帧内压缩和帧间压缩,帧率可达每秒 10帧以上。
QuickTime还采用了一种称为 QuickTime VR的虚拟现实( VR,Virtual Reality) 技术,用户只需通过鼠标或键盘,就可以观察某一地点周围
360度的景象,或者从空间任何角度观察某一物体。
4.6.3 MEPG文件 -MPEG/MPG/DAT格式将 MPEG算法用于压缩全运动视频图像,就可以生成全屏幕活动视频标准文件,MPG文件。 MPG
格式文件在 1024?786的分辩率下可以用每秒 25帧
(或 30帧)的速率同步播放全运动视频图像和 CD
音乐伴音,并且其文件大小仅为 AVI文件的六分之一。 MPEG-2压缩技术采用可变速率技术,能够根据动态画面的复杂程度,适时改变数据传输率获得较好的编码效果。
MPEG的平均压缩比为 50∶1,最高可达
200∶1 。同时图像和音响的质量也非常好。 MPEG
标准包括 MPEG视频,MPEG音频和 MPEG系统 (视频、
音频同步 )三个部分,MP3音频文件就是 MPEG音频的一个典型应用,而 VCD,DVD则是全面采用 MPEG
技术所产生出来的新型消费类电子产品。
4.6.4 RAM格式目前,很多视频数据要求通过 Internet来进行实时传输,视频文件的体积往往比较大,而现有的网络带宽却往往比较,狭窄,,客观因素限制了视频数据的实时传输和实时播放,于是一种新型的流式视频 (Streaming Video)格式应运而生了。这种流式视频采用一种,边传边播,的方法,
即先从服务器上下载一部分视频文件,形成视频流缓冲区后实时播放,同时继续下载,为接下来的播放做好准备。这种,边传边播,的方法避免了用户必须等待整个文件从 Internet上全部下载完毕才能观看的缺点。
整个 Real系统由三个部分组成:服务器、
编码器和播放器。编码器负责将已有的音频和视频文件或者现场的音频和视频信号实时转换成 RM格式,服务器负责广播 RM格式的音频或视频,而播放器则负责将传输过来的 RM格式的音频或视频数据流实时播放出来。目前,Internet上已有不少网站利用 RealVideo技术进行重大事件的实况转播。
4.7 非线性编辑系统非线性编辑系统是随着多媒体技术的飞速发展而产生的,它以计算机为平台,配以专用板卡和高速硬盘,由相应软件控制完成视音频节目制作。由于非线性编辑具有传统线性编辑无法比拟的优点,因此,使用视音频非线性编辑系统已经成为电视节目后期制作、电子出版物和多媒体课件制作的发展方向。
4.7.1 线性编辑与非线性编辑线性编辑 (Linear Editing)指的是传统方式下的声像编辑技术。不管是录像带还是录音带,它存储的信息是以时间顺序记录的。当使用者要选取不同的视频素材或某一片段,需要频繁地倒带,
从录像带的一部分找到另外一部分,甚至更换录像带。完成一个编辑经常需要反复按顺序寻找需要的片段,其过程费时费力,效率较低。
传统的线性编辑非线性编辑是将传统视频编辑系统要完成的工作全部或部分放在计算机上实现的技术,是传统设备同计算机技术结合的产物。计算机数字化地记录所有视频片段并将它们存储在硬盘上。由于计算机对媒体的交互性,人们可以对存储的数字文件反复地更新或编辑。从本质上讲,非线性技术提供了一种分别存储许多单独素材的方法,使得任何片段都可以立即观看并随时任意修改。它利用了计算机软件提供的多种灵活的过渡和特殊效果,可高效地完成,原始编辑,,如剪辑、切换、
动画处理等,再由计算机完成数字视频的生成与计算,并将生成的完整视频回放到视频监视设备或转移到录像带上。由于计算机交互性及资源的数字化特性突破了传统线性编辑的局限,使视频编辑工作更加随心所欲和富有创造性。
非线性编辑系统与传统方式的在实际应用中有许多明显的优点。
编辑制作方便。传统线性编辑中剪辑与增加特技要交替顺序进行,非线性编辑可以先编好镜头的顺序,然后根据要求在需要的编辑点添加特技。
有利于反复编辑和修改。在实际工作中,发现不理想或出现错误可以恢复到若干操作步骤之前。可在任意编辑点插入一段素材,切入点以后的素材可被自动向后推,同样删除一段素材,切出点以后的素材可以自动向前递补,重组素材段。所有这些操作可以在几秒钟内完成。
制作图像画面的层次多。每一段素材都相当于传统编辑系统中一台放机播放的视频信号,而素材数量是无限的,这使得节目编辑中的连续特技可一次完成无限多个,它不仅提高了编辑效率而且丰富了画面的效果 。
图像与声音的同步对位准确方便。图像通过加帧减帧可拉长或缩短镜头片断,随意改变镜头的长度。声音可不变音调而改变音长(即保持声音频率不变,延长或缩短时间节奏)。因此,在实际制作过程中,在一段音乐与一段图像相配时,很容易把它们的长度编成一致。这在传统的线性编辑方式中是不太容易做到的。
非线性编辑系统是一个计算机多媒体技术为依托的开放式结构,用户可以任选硬件和软件搭建适合各自专业需求和资金条件的系统。只要选用好的多媒体硬件,满意的图像质量与实时特性都是可以实现的。但要让系统稳定高效地运行,真正发挥出系统的最高效能,软件系统也起着重要的作用。所以说,软件系统是非线性编辑系统的灵魂。
4.7.2 非线性编辑系统技术特性随着计算机技术和电视数字技术的发展,
非线性编辑系统不仅能够完成视音频的非线性编辑,而且在编辑过程中可同时完成多通道特技、字幕叠加、配音、配乐等电视制作手法。能够集数字特技切换器、字幕机、编辑机、编辑控制器及功能较完备的调音台为一体。
非线性编辑系统技术的技术特性表现在以下几个方面,
有联机线性编辑和脱机非线性编辑两种方式。其中,
联机线性编辑功能较强,图像质量可满足广播级的要求,适合于采用非线性粗编辑(即压缩比在 100:1以上非线性编辑,又称草稿编辑)与线性精编辑相结合的工作方式。
采用了 MPEG,JPEG压缩技术和合理的压缩比及完善的视频电路,具有两路实时非线性通道,一个实时图文层,两个以上键层,实时双通道数字特技。另外,DSP
技术的应用和图形图像硬件处理技术设计的特技加速卡的出现,使软件数字特技时间加快了近 20倍,可调整压缩比,从无损失压缩到预览压缩,从而提供多种分辨率的图像质量,可适用于电视节目制作过程中粗编与精编两个不同的场合。
可兼容 Windows平台下所有的音频、视频及多媒体制作软件。例如 Premiere,Studio MAX等。
音频系统有多轨实时音频通道,真正做到了在回放视频的同时完成录音功能(即实时配音)。
视频有模拟复合信号,S—视频,RGB和模拟分量信号的接口。上述这些接口都为配制编辑系统提供了非常灵活的选择性。
可实现多机联网,在部分终端分别进行非线性粗编辑及字幕动画制作的同时,主终端进行联机实时线性编辑。
非线性编辑系统目前正处于不断发展阶段,许多方面有待于改进、完善。例如,计算机的运算速度需要进一步提高,
增加实时处理多通道视频数据的能力,减少运算处理数据等待时间。图像数据压缩技术需要进一步提高,以求在广播级图像质量的标准下达到更大的数据压缩比。还要发展高速率、大容量、低成本的便携存储设备,使它将有利于提高非线性主机的使用效率和方便节目交换。
4.7.3 非线性视频编辑系统处理视频的过程非线性视频编辑系统是将传统视频编辑系统要完成的工作全部或部分在计算机上实现的技术,它需要相应的计算机硬件和软件来配合。在非编系统上处理视频的过程主要有以下几个步骤:
视频素材的准备和搜集视频素材可以来自于传统视频设备的原始视频资料,如摄像设备、录放像设备、影碟机等视频源,
当然也包括计算机本身获得或生成的图形、动画素材。但不管怎样,为了获得高质量的最终视频产品,高质量的原始素材非常重要的。
视频采集及数字化这一过程是非线性视频编辑系统关键的一环,其结果直接影响到最终产品的品质。
视频数字化是通过视频采集压缩卡及相应的软件实现的,主要工作是对视频信号进行动态捕获、压缩和存储,形成数据化视频文件 。不同的视频硬件卡的性能不同
(数据传输速率、视频压缩比、输入模块、
采集格式等),其采集视频后的品质也有所差别,用户可根据要求选择合适的硬件卡。
数字视频编辑比较典型的编辑过程大致是:首先创建一个编辑的过程平台,将数字化的视频素材用拖拽的的方式放入过程平台。这个平台可自由地设定视频展开的信息,可以逐帧展开也可以逐秒展开,间隔可以选择。调用编辑软件提供的各种手段,对各种素材进行剪辑、重新排和衔接,添加各种特殊效果,二维或三维特技划像,叠加活动中英文字幕、动画等。这些过程的各种参数可反复任意调整,使用户便于对过程的控制和对最终效果的把握。
预视过程预视是可随时为编辑人员提供确定最终结果的工具。大多数非线性视频编辑系统具有,所见即所得,的功能,可随时看到编辑的效果。同最终结果相比,预视只是尺寸较小、
播放速度较慢的视频。预视后如果对编辑的内容不满意,
即可在系统中进行修改,直至编辑满意为止。
生成影片当确定了最终效果之后,就要用非线性视频编辑系统生成最终的视频文件,即生成连续的视频影像。生成影片的过程实际上是计算机计算的过程,是一项耗时的工作。对于像切换、拼接过渡这样简单的编辑也许不需要太多的计算,
但对于大多数复杂的效果(如特技划象、叠加等)则需要计算机逐帧处理,并以所设定的清晰度和图像品质建立完整帧,这是比较费时的。所以性能优异的计算机生成影片的效率会比较高。
回放或录制影片生成后,可以将影片回放到视频显示设备上,或录制到录像带上,这时的视频已经是完整的视频图像了。其播放的效果除设备因素外,主要取决于编辑人员的经验或创意。
4.8 视频信息的检索文本查询工具和图像处理技术发展了几十年,目前已经到了比较成熟的阶段,但是如何将这两种技术结合起来,让人们方便地去检索录音和录像资料呢,这正是目前人们所关心的视频检索问题。
与静止图像相比,视频信号含有更丰富的信息 。随着视频、音频设备的普及,视频信息的应用越来越广泛,视频信息量也在迅速增加 。但与此同时,人们对视频数据的管理和控制手段及能力却非常原始,以帧甚至像素为对象的管理和操作已难以满足检索的需要,大量丰富的视频数据无法得到有效的应用。
视频检索就是在大量的视频数据中找到所需要的视频片断,其用途非常广泛,如各类新闻、文艺、体育节目的检索、
卫星云图变化情况的检索等。假设用户要查找一部电影中的某个镜头,如果需将整部影片看一遍,这显然是费时费力的事情,而如果用户指出其所想要的镜头的一些特点,如该镜头的画面内容、出现的人物、运动特点等,根据这些要求由计算机查找出相应的视频镜头,并反馈给用户做进一步的选择,则方便多了。这样的检索便是基于内容的视频检索。
视频检索的基本思想就是将完整的声像资料分解成小的片断,然后利用工具对这些片断做索引,以后只要查询那些索引就可以找到所需的资料了。
就多媒体视频信息而言,我们追求的是视频数据的从无序到有序,最终要解决的是视频内容的识别问题。但由于视频数据巨大的数据量和丰富的表现内容,不是几个关键词所能包含的,所以还有许多问题有待解决。例如在某段视频录像中,有一个非常著名的公众人物,即使这个人出现在不同的场合或穿着不同的衣服,我们人类的视觉和大脑依然可以准确地判断出来。但让计算机进行识别却很难作到。这是因为对于视频内容,很难用某种算法或语言准确地进行描述。原来的三维世界变成数字化图像后,变成二维世界,所有的目标在位置上和风格上都产生了变化,这些都为视频内容的识别带来困难。
从用户角度来说,进行基于内容的视频检索,只需说明其检索要求即可。而这种要求用户容易表达,
且能说明用户的目的。为了满足用户的要求,基于内容的视频检索系统必须对视频进行许多预处理。
从整个视频检索系统的角度来讲,基于内容的视频检索系统 (CBVRS)应该包含以下两个模块,
视频数据库生成模块主要完成视频源数据的生成、视频数据的预处理及视频特征库的生成等。对视频数据的预处理包括视频分割 (将整段的视频分割为一个个镜头 )、代表帧选取 (从每个镜头中选取几个能代表该镜头内容的帧 )以及视频特征提取等。
视频查询和检索模块该模块将根据用户需要完成用户指定的查询和检检索任务。主要包括用户查询接口、匹配过滤操作、结果反馈及表现等部分。
图 4-2 基于知识的视频检索模型视频数据是一种非结构化的线性数据流,这是造成检索困难的根源 。因此,在分析视频数据时,首先要对此数据流进行分割,以供分析和组织使用。
可以通过检测镜头切换的方法,从时间上把视频数据流分割成基本单元 ——镜头 。镜头分割的根据在于不同镜头的图像帧之间通常存在较大的视觉特性差异。分割的关键是选择合适的视觉特征度量和阈值。
1。视频基础知识
2。电视信号及其标准
3。视频的数字化过程
4。基于多媒体计算机的视频处理系统
5。其他功能的视频卡
6。视频文件的类型
7。非线性编辑系统
8。视频信息的检索
4.1 视频基础知识
4.1.1 视频的定义视频( Video) 就其本质而言,实际上就是其内容随时间变化的一组动态图像 (25
或 30帧 /秒 ),所以视频又叫作运动图像或活动图像。
图像与视频是两个既有联系又有区别的概念:静止的图片称为图像( Image),
运动的图像称为视频( Video)。
视频信号具有以下特点:
内容随时间而变化
伴随有与画面动作同步的声音 (伴音 )
4.1.2 视频的分类按照处理方式的不同,视频分为模拟视频和数字视频。
模拟视频( Analog Video)
模拟视频是一种用于传输 (存储 )图像和声音的并且随时间连续变化的电信号。
传统的模拟信号处理设备 直接广播卫星( DBS)
)
模拟视频具有以下特点:
以模拟电信号的形式来记录
依靠模拟调幅的手段在空间传播
使用盒式磁带录象机将视频作为模拟信号存放在磁带上传统上,视频都以模拟方式进行存贮和传送,然而模拟视频不适合网络传输,在传输效率方面先天不足,而且图像随时间和频道的衰减较大,不便于分类、检索和编辑。
数字视频( Digital Video-DV)
要使计算机能够对视频进行处理,必须把视频源 --即来自与电视机、模拟摄像机、录像机、影碟机等设备的模拟视频信号,转换成计算机要求的数字视频形式并存放在磁盘上,这个过程称为视频的数字化过程(包括采样、量化和编码)。
4.1.3 数字化视频的优点视频信号数字化后,就能做到模拟视频信号所无法实现的事情。它的主要优点有:
适合于网络应用在网络环境中,视频信息可以很方便地实现资源的共享,通过网络线、光纤,数字信号可以很方便地从资源中心传到办公室和家中。视频数字信号可以长距离传输而不会产生任何不良影响,
而模拟信号在传输过程中会有信号损失。
再现性好模拟信号由于是连续变化的,所以不管复制时采用的精确度多高,失真总是不可避免的,经过多次复制以后,误差就很大。数字视频可以不失真地进行无限次拷贝,其抗干扰能力是模拟图像无法比拟的。它不会因存储、传输和复制而产生图像质量的退化,从而能够准确地再现图像。
便于计算机编辑处理模拟信号只能简单调整亮度、对比度和颜色等,极大地限制了处理手段和应用范围。而数字视频信号可以传送到计算机内进行存储、处理,很容易进行创造性地编辑与合成,并进行动态交互。
数字视频的缺陷是处理速度慢,所需的数据存储空间大,从而使数字图像的处理成本增高。
4.1.4 视频的应用领域
广播电视
地面、卫星电视广播
有线电视( CATV:Community Antenna TV )
数字视频广播 (Digital Video Broadcast)
交互式电视( ITV:Interactive TV )
高清晰度电视( HDTV)
通信
可视电话( Videophone )
视频会议( Videoconferencing )
视频点播( VOD:Video On Demand )
视频数据库
个人娱乐
录象节目
VCD( Video Compact Disk)
DVD( Digital Versatile Disk)
电视购物
家庭摄象
视频游戏
4.2 电视信号及其标准
4.2.1 彩色电视信号制式电视信号是视频处理的重要信息源。
电视信号的标准也称为电视的制式。目前各国的电视制式不尽相同,不同制式之间的主要区别在于不同的刷新速度、
颜色编码系统和传送频率等。目前世界上常用的电视制式有中国、欧洲使用的
PAL制,美国、日本使用的 NTSC制及法国等国所使用的 SECAM制。
NTSC制
PAL制
SECAM
不同制式的电视机只能接收和处理其对应制式的电视信号。也有多制式或全制式的电视机,这为处理和转换不同制式的电视信号提供了极大的方便。全制式电视机可在各国各地区使用,而多制式电视机一般为指定范围的国家生产。
表 4-1 三种彩色电视制式的主要技术指标
TV制式 NTSC PAL SECAM
帧频 (Hz) 30 25 25
行 /帧 525 625 625
亮度带宽
(MHz)
4.2 6.0 6.0
彩色幅载波 (Hz)
3.58 4.43 4.25
声音载波
(MHz)
4.5 6.5 6.5
4.2.2 电视视频信号的扫描方式扫描方式主要有逐行扫描和隔行扫描两种 。
奇数场 偶数场 一帧
4.2.3 YUV与 RGB彩色模型彩色的基本概念:
颜色与光的波长有关,不同波长的光呈现不同颜色。颜色具有三个特征:色调、亮度、
饱和度。
色调,表示颜色的种类,如红、黄、蓝等。色彩取决于光的波长,是决定颜色的基本特征。
饱和度,是表示颜色的纯净程度,即色彩含有某中单色光的纯净程度。它是按单色光中混入其它色的比例来表示的。
亮度,是指色彩所引起的人眼对明暗程度的感觉同一种色调的亮度会因光源的强弱产生不同的变化,同一色调如加上不同比例的黑或白色混合后亮度也会发生变化。
YUV模型在 PAL彩色电视制式中采用 YUV模型来表示彩色图像。其是 Y表示亮度,U,V用来表示色差,
是构成彩色的两个分量。与此类似,在 NTSC彩色电视制式中使用 YIQ模型,其中的 Y表示亮度,
I,Q是两个彩色分量。 YUV表示法的重要性是它的亮度信号 (Y)和色度信号 (U,V)是相互独立的,
也就是 Y信号分量构成的黑白灰度图与用 U,V信号构成的另外两幅单色图是相互独立的。
PAL彩色电视制式中采用 YUV模型来表示彩色图像
Y
U
V
RGB模型
RGB分别代表红,绿,蓝三种基本颜色。
电视机和计算机显示器使用的阴极射线管是一个有源物体。 CRT使用 3个电子枪分别产生红、绿和蓝三种波长的光,分别产生并以相对强度轰击 CRT的荧光涂层屏幕以产生颜色。并以各种不同的相对强度综合起来产生颜色。组合这三种光波以产生特定颜色称为相加混色,或称为 RGB相加模型。
相加混色是计算机应用中定义颜色的基本方法。
CRT显示器采用 RGB彩色模型
A-阴极 B-导电涂层 C-阳极 D-荧光屏
E-电子束 F-荫罩板
YUV与 RGB彩色空间变换由于所有的显示器都采用 RGB值来驱动,
这就要求在显示每个像素之前,需要把 YUV
彩色分量值转换成 RGB值。
在考虑人的视觉系统和阴极射线管 (CRT)
的非线性特性之后,RGB和 YUV的对应关系可以近似地用下面的方程式表示:
Y = 0.299R + 0.587G + 0.114B
U = (B – Y ) * 0.493
V = (R – Y ) * 0.877
在转换时,可以把它化简为:
Y = 0.299R + 0.587G + 0.114B
U = - 0.169R - 0.331G + 0.5B
V = 0.500R - 0.419G - 0.081B
或者写成矩阵的形式,
B
G
R
V
U
Y
081.0419.05.0
5.0332.0169.0
114.0587.0299.0
4.2.4 彩色电视的信号类型电视频道传送的电视信号主要包括亮度信号、色度信号、复合同步信号和伴音信号,这些信号或者可通过频率域,或者可通过时间域相互分离出来。
根据不同的信号源,电视接收机的输入、
输出信号有三种类型:
高频或射频信号为了能够在空中传播电视信号,必须把视频全电视信号调制成高频或射频( RF- Radio
Frequency) 信号,每个信号占用一个频道,这样才能在空中同时传播多路电视节目而不会导致混乱。 PAL制每个频道占用 8MHz的带宽; NTSC制每个频道的带宽为 4MHz。 有线电视 CATV( Cable
Television) 的工作方式类似,只是它通过电缆而不是通过空中传播电视信号。
复合视频信号为便于电视信号远距传输,必须把三个分量信号以及同步信号复合成一个信号,
然后才进行传输。复合视频信号定义为包括亮度和色度的单路模拟信号,也即从全电视信号中分离出伴音后的视频信号,这时的色度信号是间插在亮度信号的高端。
由于复合视频的亮度和色度是间插在一起的,在信号重放时很难恢复完全一致的色彩。这种信号一般可通过电缆输入或输出到家用录像机上,其信号带宽较窄,一般只有 240线左右的水平分解率。
分量视频信号与 S- Video
为保证视频信号质量,近距离时可用分量视频信号 (component video signal)传输,分量信号是指每个基色分量 ( R,G,B 或 Y,U,V )作为独立的电视信号传输。计算机输出的 VGA视频信号,
即为分量形式的视频信号。
S- Video 是一种两分量的视频信号,它把亮度和色度信号分成两路独立的模拟信号,用两路导线分别传输并可以分别记录在模拟磁带的两路磁轨上。这种信号不仅其亮度和色度都具有较宽的带宽,而且由于亮度和色度分开传输,可以减少其互相干扰,水平分解率可达 420线。与复合视频信号相比,S- Video可以更好地重现色彩。
4.3 视频的数字化过程要让计算机处理视频信息,首先要解决的是视频数字化的问题。视频数字化是将模拟视频信号经模数转换和彩色空间变换转为计算机可处理的数字信号,与音频信号数字化类似,计算机也要对输入的模拟视频信息进行采样与量化,并经编码使其变成数字化图像。
4.3.1 视频信号的采样
对视频采样的基本要求对视频信号进行采样时必须满足三个方面的要求。
要满足采样定理。对于 PAL制电视信号。视频带宽为 6MHz,按照 CCIR601建议,亮度信号的采样频率为 13.5MHz,色度信号为 6.75MHz。
采样频率必须是行频的整数倍。这样可以保证每行有整数个取样点,同时要使得每行取样点数目一样多,具有正交结构,便于数据处理。
要满足两种扫描制式。
数字视频信号的采样频率和格式现行的扫描制式主要有 625行 /50场和 525行 /60场两种,它们的行频分别为 15625Hz和
15734.265Hz。 ITU(国际电信联盟)建议的分量编码标准的亮度抽样频率为 13.5兆赫,这恰好是上述两种行频的整数倍。按照国际现行电视制式,亮度信号最大带宽是 6MHz。 根据奈奎斯特抽样定理,抽样频率至少要大于
2× 6= 12MHz,因此取 13.5MHz也是合适的。
数字视频的采样格式根据电视信号的特征,亮度信号的带宽是色度信号带宽的两倍。因此其数字化时对信号的色差分量的采样率低于对亮度分量的采样率。如果用 Y,U,V来表示 YUV三分量的采样比例,则数字视频的采样格式分别有 4:1:1,4:2:0,4:2:2和 4:4:4四种。
4:2:2采样格式
4.3.2 量化采样过程是把模拟信号变成了时间上离散的脉冲信号,量化过程则是进行幅度上的离散化处理。因此在时间轴的任意一点上量化后的信号电平与原模拟信号电平之间在大多数情况下总是存在有一定的误差,
量化所引入的误差是不可避免的同时也是不可逆的,由于信号的随机性这种误差大小也是随机的,这种表现类似于随机噪声效果,具有相当宽度的频谱,因此我们又把量化误差称为量化噪声。但量化误差与噪声是有本质的区别的。
如果视频信号量化比特率为 8Bit,信号就有个量化值。若最大信号正好用足8比特的话,小于 1/256的信号就只能当零处理了。而且每二个相邻数字的差距也必需大于 1/256才能分得开,当二个原来不同的数值用同一个二进制值来表示时,实际数值与记录数值之差就成为量化噪声。所以,
比特率已决定了整个系统的理想状态下的最小噪声、动态范围和信噪比,模拟信号在理想状态是没有这种限制的。亮度信号用8比特量化,灰度等级最多只有 256个,
如果 RGB三个色度信号都用8比特量化,就可以获得 256× 256× 256= 16777216,即近
17万种色彩。
5比特量化有 32个灰度等级
8比特量化有 256个灰度等级
4.3.3 视频信号的压缩与编码抽样、量化后的信号转换成数字符号才能进行传输,这一过程称为编码。视频压缩编码的理论基础是信息论。信息压缩就是从时间域、空间域两方面去除冗余信息,将可推知的确定信息去掉。
在通信理论中,编码分为信源编码和信道编码两大类。所谓信源编码是指将信号源中多余的信息除去,形成一个适合用来传输的信号。为了抑制信道噪声对信号的干扰,往往还需要对信号进行再编码,使接收端能够检测或纠正数据在信道传输过程引起的错误,这称为信道编码。
4.3.4 数字视频 DV格式数字视频( Digital Video-DV) 是定义压缩图像和声音数据记录及回放过程的标准。 DV格式是一种国际通用的数字视频标准,是由 10余家公司共同制定的标准。
DV格式具有如下视频特点:
高清晰度,水平分辨率可达 500线;
宽色度带宽,还原色彩绚丽的图像;
4.4基于多媒体计算机的视频处理系统在多媒体计算机系统中,视频处理一般是借助于一些相关的硬件和软件,在计算机上对输入的视频信号进行接收、采集、传输、压缩、
存储、编辑、显示、回放等多种处理。视频信号主要是指来自电视机、录 /放像机、摄像机等视频设备的信号,也可以是来自影碟机的影视节目。
4.4.1 数字视频系统的组成从硬件平台的角度分析,一个视频采集系统要包括视频采集设备、视频信号源设备、大容量存储设备、以及配置有相应视频处理软件的高性能计算机系统。
提供模拟视频输出的设备有录像机、电视机,
影碟机等;对模拟视频信号进行采集、量化和编码的设备由视频采集卡来完成;最后,由计算机接收和记录编码后的数字视频数据。在这一过程中起主要作用的是视频采集卡,它不仅提供接口以连接模拟视频设备和计算机,而且具有把模拟信号转换成数字数据的功能。
4.4.2 视频采集卡的工作原理视频采集卡是一个安装在计算机扩展槽上的一个硬卡。它可以汇集多种视频源的信息,如电视、影碟、录像机和摄像机的视频信息,对被捕捉和采集到的画面进行数字化、冻结、存储、输出及其他处理操作,如编辑、修整、裁剪、按比例绘制、像素显示调整、缩放功能等。视频卡为多媒体视频处理提供了强有力的硬件支持。
视频采集卡的工作原理如图 4-1所示 。视频卡一般具有多种视频接口,可接收来自摄像机,
录像机,VCD机等多种视频信号,通过视频软件可选择所需的视频源。
从彩色摄像机、录像机或其他视频信号源得到的彩色电视信号,经视频接口送入视频采集卡,信号首先经过 A/D转换,然后送到多制式数字解码器进行解码 。模数转换器( ADC) 又是一个视频解码器,其任务是对视频信号解码和数字化 。采用不同的颜色空间可选择不同的视频输入解码器芯片。 图 5-1 视频卡的工作原理框图经 ADC解码后得到的 YUV信号格式。当以 4,2:
2格式采样时,每 4个连续的采样点中取 4个亮度 Y、
2个色差 U,2个色差 V的样本值,共 8个样本值。
YUV信号经过转换可变成 RGB信号。
RGB信号然后被送入视频处理芯片,对其进行剪裁,变化等处理。视频处理芯片是用于视频捕获、播放、显示用的专用控制芯片,主要功能可分为 PC总线接口、视频输入剪裁、变化比例、与
VGA信号同步,色键控制以及对帧存储器 VRAM的读写和刷新控制。
视频信息可实时地存到 VRAM中,计算机可以通过视频处理器对帧存储器的内容进行读写操作,
帧存储器的视频像素信息读到计算机后,通过编程可以实现各种算法,完成视频图像的编辑与处理。
由于视频信息量巨大,如果直接存储,
会占用大量的存储空间 。以电视图像为例,
电视上一秒钟的画面,其实是由几十幅连续所组成的,如果直接将这些视频信息存储起来,至少也要十几 MB的容量 。所以视频卡又提供了对视频数字信号的压缩功能,
并以压缩的图像文件格式进行存储 。当在计算机上播放视频图像时还得经过解压缩过程,使其还原成图像信息才能播放。
4.4.3 视频采集卡的性能指标根据不同的应用、不同的适用环境和不同的技术指标,目前有多种规格的视频采集卡。可以归纳出以 PC机为硬件环境的视频采集卡的主要功能和技术指标:
接口视频采集卡的接口包括视频与 PC机的接口和与模拟视频设备的接口。 目前 PC 视频采集卡通常采用 32位的
PCI总线接口,它插到 PC机主板的扩展槽中,以实现采集卡与 PC机的通信与数据传输。
视频采集卡至少要具有一个复合视频接口( Video In)
以便与模拟视频设备相连。高性能的采集卡一般具有一个复合视频接口和一个 S- Video接口。一般的采集卡都支持 PAL和 NTSC两种电视制式。
视频采集卡如果不具备电视天线接口和音频输入接口,就不能用视频采集卡直接采集电视射频信号,同时也不能直接采集到模拟视频中的伴音信号。要采集伴音,PC机上必需要装有声卡,
视频采集卡通过 PC机上的声卡获取数字化的伴音并把伴音与采集到的数字视频同步到一起。
一般而言,视频采集卡有单工卡和双工卡两种。单工卡只提供视频输入接口,双工卡还提供输出接口。如果只需在 PC机上编辑数字化视频,单工卡就可以了。若想把数字化编辑过后的影像拷贝到录像带上,就需要双工卡。
具有多种接口的视频采集卡与视频源的连接
实时压缩功能由于模拟视频输入端可以提供不间断的信息源,视频采集卡要采集模拟视频序列中的每帧图像,并在采集下一帧图像之前把这些数据传入 PC
系统。因此,实现实时采集的关键是每一帧所需的处理时间。如果每帧视频图像的处理时间超过相邻两帧之间的相隔时间,则要出现数据的丢失,
也即丢帧现象。采集卡都是把获取的视频序列先进行压缩处理,然后再存入硬盘,也就是说视频序列的获取和压缩是在一起完成的,免除了再次进行压缩处理的不便。不同档次的采集卡具有不同质量的采集压缩性能。
大多数视频采集卡都具备硬件压缩的功能,
在采集视频信号时首先在卡上对视频信号进行压缩,然后再通过接口把压缩的视频数据传送到主机上。视频采集卡采用帧内压缩的算法把数字化的视频存储成 AVI文件,高性能的视频采集卡还能直接把采集到的数字视频数据实时压缩成 MPEG格式的文件。
视频捕获卡一般都采用专业级的专用芯片来处理视频的压缩,例如,intel的 i750。 同时由于图像采集要处理大量数据(1分钟的 AVI文件大约占 30MB空间),所以对计算机硬件平台的要求也较高。如果用软件的方式进行数据压缩,则对计算机的性能有很高的要求,否则抓取的画面及播放画面的速度便会受到相应的影响。
采集分辨率及帧频视频采集卡按照其用途可以分为广播级视频采集卡,专业级视频采集卡,民用级视频采集卡。
他们的区别主要是采集的图像指标不同。
广播级视频采集卡属高档设备,主要用于电视台制作节目。广播级视频采集卡的最高采集分辨率一般 720?576(CCIR推荐值 ),PAL制,每秒 25帧 ;
或分辨率为 640?480,NTSC制,每秒 30帧。最小压缩比一般在 4:1以内。这一类产品的特点是采集的图像分辨率高,视频信噪比高,缺点是视频文件庞大,每分钟数据量至少为 200MB。
专业级视频采集卡比广播级视频采集卡的性能稍微低一些,分辨率两者是相同的,
但压缩比稍微大一些,其最小压缩比一般在 6:1以内,输入输出接口为 AV复合端子与
S端子,此类产品适用于广告、多媒体节目制作及多媒体软件开发。
民用级 的 视频采集卡的动态分辨率一般最大为 384?288,PAL制式,帧频为每秒 25
帧。
驱动和应用程序视频采集卡一般都配有硬件驱动程序以实现 PC机对采集卡的控制和数据通信。根据不同的采集卡所要求的操作系统环境,
各有不同的驱动程序。采集卡只有在正确安装了驱动程序以后才能正常工作。也可以采用通用的软件,例如数字视频编辑软件 Adobe Premiere。
4.4.4 视频设备及其连接
视频信号源及设备由于视频采集卡提供复合视频输入和分量视频输入口,因此只要具有复合视频输出或 S- Video输出端口的设备都可以为采集卡提供视频信号源。
视频的质量在很大程度上取决于模拟视频信号源的质量及视频采集卡的性能。
根据不同的模拟视频信号源应分别选择相应的设备。
视频设备与 PC的连接模拟设备与采集卡的连接包括模拟设备视频输出端口与采集卡视频输入端口的连接,以及模拟设备的音频输出端口与 MPC声卡的音频输入端口的连接。
视频采集卡有两种视频输入接口,要注意它们之间的区别,一种是具有标准复合视频输入接口 (RCA,俗称莲花接口 ),标准视频信号在输出时要进行编码,将信号压缩后输出,接收时还要进行解码。这样会损失一些信号。还有一种是 S视频输入接口 (S-Video)。 由于 S视频信号不需要进行编码、解码,所以没有信号损失,因此使用 S-
Video端口可以获取更好的图像质量。
兼有复合视频接口和 S-Video接口的视频卡
S-video电缆线及接口 复合视频插头
视频采集的过程采集视频的过程主要包括如下几个步骤:
设置音频和视频源。
准备好 MPC系统环境。
启动采集程序,预览采集信号,设置采集参数。
启动信号源,然后进行采集。
播放采集的数据。
对采集的原始数据进行简单的编辑。
4.4.4 数字视频的输出数字视频的输出是数字视频采集的逆过程,
也即把数字视频文件转换成模拟视频信号输出到电视机上进行显示,或输出到录像机记录到磁带上,这需要专门的设备来完成数字数据到模拟信号之间的转换。根据不同的应用和需要,这种转换设备也有多种。目前已有集模拟视频采集与输出于一体的视频卡,可以与录像机等设备相连,
提供高质量的模拟视频信号采集和输出。这种设备可以用于专业级的视频采集、编辑及输出。
4.5 其他功能的视频卡
4.5.1 视频输出卡 -TV Coder
经过计算机加工处理的视频数据以视频文件的格式进行存储和交流,但不能以录像带的形式进行传播或者直接在电视机上收看。
视频输出卡的功能是将计算机显示卡输出的
VGA信号转换为标准的视频信号,以 PAL和
NTSC两种制式输出,从而可在电视上观看计算机显示器上的画面,或将其通过录像机录制到录像带上 。
对计算机的 VGA显示卡输出的以 RGB形式表示的视频数据进行编码,将其转换成可供录象机和电视机输入和显示的复合视频信号的接口卡叫视频输出卡或编码卡
( TVCoder)。
TVCoder 的功能是把计算机显示器上显示的内容实时地转换为模拟视频信号并输出到电视机或录像机上,还可以把多媒体演示的内容记录到磁带上。
TVCoder具有以下几种接口:
VGA输入端口,TVCoder的输入信号取自于 PC机的 VGA显示输出端。
输出制式开关,TVCoder支持 NTSC和 PAL制式输出,由制式选择开关可选择所需的输出信号的制式。
模拟输出端口,TVCoder 可提供复合视频输出,两分量的 S- Video输出以及三分量 RGB输出。 Video和 S-
Video输出可与具有相应视频输入端口的电视或录像机相连; RGB输出可以与 RGB显示器或其他具有 RGB输入端口的设备,如投影仪等相接。
VGA输出:由于 TVCoder要占用计算机主机的 VGA输出端口,因此它还提供一个 VGA输出端口以便与计算机的显示器连接。
4.5.2 MPEG卡
MPEG是能将大量视频信息进行压缩的国际标准。
MPEG卡实际上分为两类,MPEG压缩卡和解压卡。
MPEG压缩卡用于将视频影像压缩成
MPEG的格式。它首先将模拟音视频信号数字化,然后按 MPEG标准的压缩算法分别对数字音视频信号进行压缩编码,产生一个码率约为 1.5m bit/s的 MPEG复合音视频码流,最后再转变为,mpg格式的文件储存在硬盘上。
MPEG解压卡是采用硬件方式将压缩后的
VCD影碟数据解压后进行回放。当计算机将
CD-ROM内的数据传送到 MPEG卡上时,通过卡上的 MPEG解码器,将已压缩的数据进行解压。品质较好的 MPEG卡可播放每秒 30帧的电影画面,速度和 NTSC制式一样。有些
MPEG卡还提供了视频输出端口( Video Out)
和音频输出端口( Audio Out),可以将 VCD
画面播放到大屏幕彩色电视机上或其他录象设备上,具备了视频输出卡的功能。
MPEG编码卡
4.5.3 电视接收卡电视卡( TV TUNER)从工作原理上看相当于一台数字式电视机。它首先将从天线接收下来的射频信号变换成视频信号,然后经 A/D转换器变为数字信号,再经变换电路变为 RGB模拟信号,最后通过 D/A转换变为模拟 RGB信号送显示器上显示。
外置式 (左 )与内置式(右)电视卡
4.5.4 视频卡的发展趋势系统集成是现代技术的主要趋势,多媒体本身就是技术集成的产物。近年来,多媒 体视频硬件主要在两个领域发展。
第一是与网络通信技术结合,由视频采集卡附加网络 通信卡构成的多媒体视频会议、可视电话、视频邮件、多媒体通信终端等。基于宽带多媒体通信网络的交互式电视( ITV),点播电视
( VOD) 以及远程教育系统、远程医疗诊断系统、
远程电子图书馆等新技术正在普及实施,通过交互电视的机顶盒( STB) 实现网络浏览、电视购物、
收看 VOD节目等,最终走向电视、电脑与电信的三电合一的目的。
第二方面是与影视制作技术结合,构成集压缩 /解压缩、合成输出、特技效果为一体的影视制作非线形编辑系统。视频处理硬件最终将从高档系统的选件转变为标准系统的组件。
从技术上看,电子器件的集成度越来越高;从应用角度看,综合处理多媒体功能的需求越来越普遍,因此,集成到芯片中,设计在主板上,将会是新一代视频 /图像处理硬件的发展趋势。
4.6 视频文件的类型
4.6.1 AVI文件
AVI( Audio Video Interleave) 是一种音频视像交插记录的数字视频文件格式。 1992年初微软公司推出了 AVI技术及其应用软件 VFW( Video
for Windows)。 在 AVI文件中,运动图像和伴音数据是以交织的方式存储,并独立于硬件设备。
这种按交替方式组织音频和视像数据,可使得读取视频数据流时能更有效地从存储媒介得到连续的信息。
AVI文件结构不仅解决了音频和视频的同步问题,而且具有通用和开放的特点 。它可以在任何 Windows环境下工作,而且还具有扩展环境的功能。用户可以开发自己的 AVI视频文件,在
Windows环境下可随时调用。
4.6.2 MOV文件
Apple公司在其生产的 Macintosh机也推出了相应的视频格式,即 Movie digital video 的文件格式,其文件以 MOV为后缀,相应的视频应用软件为 Apple's QuickTime for Macintosh。 随着大量原本运行在 Macintosh上的多媒体软件向
PC/Windows环境的移植,导致了 QuickTime视频文件的流行。同时 Apple公司也推出了适用于 PC机的视频应用软件 Apple's QuickTime for Windows,
因此在 MPC机上也可以播放 MOV视频文件。
MOV格式的视频文件可以采用不压缩或压缩的方式,其压缩算法包括 Cinepak,Intel Indeo
Video R3.2 和 Video编码。其中 Cinepak和 Intel
Indeo Video R3.2算法的应用和效果与 AVI格式中的应用和效果类似。而 Video格式编码适合于采集和压缩模拟视频,支持 16位图像深度的帧内压缩和帧间压缩,帧率可达每秒 10帧以上。
QuickTime还采用了一种称为 QuickTime VR的虚拟现实( VR,Virtual Reality) 技术,用户只需通过鼠标或键盘,就可以观察某一地点周围
360度的景象,或者从空间任何角度观察某一物体。
4.6.3 MEPG文件 -MPEG/MPG/DAT格式将 MPEG算法用于压缩全运动视频图像,就可以生成全屏幕活动视频标准文件,MPG文件。 MPG
格式文件在 1024?786的分辩率下可以用每秒 25帧
(或 30帧)的速率同步播放全运动视频图像和 CD
音乐伴音,并且其文件大小仅为 AVI文件的六分之一。 MPEG-2压缩技术采用可变速率技术,能够根据动态画面的复杂程度,适时改变数据传输率获得较好的编码效果。
MPEG的平均压缩比为 50∶1,最高可达
200∶1 。同时图像和音响的质量也非常好。 MPEG
标准包括 MPEG视频,MPEG音频和 MPEG系统 (视频、
音频同步 )三个部分,MP3音频文件就是 MPEG音频的一个典型应用,而 VCD,DVD则是全面采用 MPEG
技术所产生出来的新型消费类电子产品。
4.6.4 RAM格式目前,很多视频数据要求通过 Internet来进行实时传输,视频文件的体积往往比较大,而现有的网络带宽却往往比较,狭窄,,客观因素限制了视频数据的实时传输和实时播放,于是一种新型的流式视频 (Streaming Video)格式应运而生了。这种流式视频采用一种,边传边播,的方法,
即先从服务器上下载一部分视频文件,形成视频流缓冲区后实时播放,同时继续下载,为接下来的播放做好准备。这种,边传边播,的方法避免了用户必须等待整个文件从 Internet上全部下载完毕才能观看的缺点。
整个 Real系统由三个部分组成:服务器、
编码器和播放器。编码器负责将已有的音频和视频文件或者现场的音频和视频信号实时转换成 RM格式,服务器负责广播 RM格式的音频或视频,而播放器则负责将传输过来的 RM格式的音频或视频数据流实时播放出来。目前,Internet上已有不少网站利用 RealVideo技术进行重大事件的实况转播。
4.7 非线性编辑系统非线性编辑系统是随着多媒体技术的飞速发展而产生的,它以计算机为平台,配以专用板卡和高速硬盘,由相应软件控制完成视音频节目制作。由于非线性编辑具有传统线性编辑无法比拟的优点,因此,使用视音频非线性编辑系统已经成为电视节目后期制作、电子出版物和多媒体课件制作的发展方向。
4.7.1 线性编辑与非线性编辑线性编辑 (Linear Editing)指的是传统方式下的声像编辑技术。不管是录像带还是录音带,它存储的信息是以时间顺序记录的。当使用者要选取不同的视频素材或某一片段,需要频繁地倒带,
从录像带的一部分找到另外一部分,甚至更换录像带。完成一个编辑经常需要反复按顺序寻找需要的片段,其过程费时费力,效率较低。
传统的线性编辑非线性编辑是将传统视频编辑系统要完成的工作全部或部分放在计算机上实现的技术,是传统设备同计算机技术结合的产物。计算机数字化地记录所有视频片段并将它们存储在硬盘上。由于计算机对媒体的交互性,人们可以对存储的数字文件反复地更新或编辑。从本质上讲,非线性技术提供了一种分别存储许多单独素材的方法,使得任何片段都可以立即观看并随时任意修改。它利用了计算机软件提供的多种灵活的过渡和特殊效果,可高效地完成,原始编辑,,如剪辑、切换、
动画处理等,再由计算机完成数字视频的生成与计算,并将生成的完整视频回放到视频监视设备或转移到录像带上。由于计算机交互性及资源的数字化特性突破了传统线性编辑的局限,使视频编辑工作更加随心所欲和富有创造性。
非线性编辑系统与传统方式的在实际应用中有许多明显的优点。
编辑制作方便。传统线性编辑中剪辑与增加特技要交替顺序进行,非线性编辑可以先编好镜头的顺序,然后根据要求在需要的编辑点添加特技。
有利于反复编辑和修改。在实际工作中,发现不理想或出现错误可以恢复到若干操作步骤之前。可在任意编辑点插入一段素材,切入点以后的素材可被自动向后推,同样删除一段素材,切出点以后的素材可以自动向前递补,重组素材段。所有这些操作可以在几秒钟内完成。
制作图像画面的层次多。每一段素材都相当于传统编辑系统中一台放机播放的视频信号,而素材数量是无限的,这使得节目编辑中的连续特技可一次完成无限多个,它不仅提高了编辑效率而且丰富了画面的效果 。
图像与声音的同步对位准确方便。图像通过加帧减帧可拉长或缩短镜头片断,随意改变镜头的长度。声音可不变音调而改变音长(即保持声音频率不变,延长或缩短时间节奏)。因此,在实际制作过程中,在一段音乐与一段图像相配时,很容易把它们的长度编成一致。这在传统的线性编辑方式中是不太容易做到的。
非线性编辑系统是一个计算机多媒体技术为依托的开放式结构,用户可以任选硬件和软件搭建适合各自专业需求和资金条件的系统。只要选用好的多媒体硬件,满意的图像质量与实时特性都是可以实现的。但要让系统稳定高效地运行,真正发挥出系统的最高效能,软件系统也起着重要的作用。所以说,软件系统是非线性编辑系统的灵魂。
4.7.2 非线性编辑系统技术特性随着计算机技术和电视数字技术的发展,
非线性编辑系统不仅能够完成视音频的非线性编辑,而且在编辑过程中可同时完成多通道特技、字幕叠加、配音、配乐等电视制作手法。能够集数字特技切换器、字幕机、编辑机、编辑控制器及功能较完备的调音台为一体。
非线性编辑系统技术的技术特性表现在以下几个方面,
有联机线性编辑和脱机非线性编辑两种方式。其中,
联机线性编辑功能较强,图像质量可满足广播级的要求,适合于采用非线性粗编辑(即压缩比在 100:1以上非线性编辑,又称草稿编辑)与线性精编辑相结合的工作方式。
采用了 MPEG,JPEG压缩技术和合理的压缩比及完善的视频电路,具有两路实时非线性通道,一个实时图文层,两个以上键层,实时双通道数字特技。另外,DSP
技术的应用和图形图像硬件处理技术设计的特技加速卡的出现,使软件数字特技时间加快了近 20倍,可调整压缩比,从无损失压缩到预览压缩,从而提供多种分辨率的图像质量,可适用于电视节目制作过程中粗编与精编两个不同的场合。
可兼容 Windows平台下所有的音频、视频及多媒体制作软件。例如 Premiere,Studio MAX等。
音频系统有多轨实时音频通道,真正做到了在回放视频的同时完成录音功能(即实时配音)。
视频有模拟复合信号,S—视频,RGB和模拟分量信号的接口。上述这些接口都为配制编辑系统提供了非常灵活的选择性。
可实现多机联网,在部分终端分别进行非线性粗编辑及字幕动画制作的同时,主终端进行联机实时线性编辑。
非线性编辑系统目前正处于不断发展阶段,许多方面有待于改进、完善。例如,计算机的运算速度需要进一步提高,
增加实时处理多通道视频数据的能力,减少运算处理数据等待时间。图像数据压缩技术需要进一步提高,以求在广播级图像质量的标准下达到更大的数据压缩比。还要发展高速率、大容量、低成本的便携存储设备,使它将有利于提高非线性主机的使用效率和方便节目交换。
4.7.3 非线性视频编辑系统处理视频的过程非线性视频编辑系统是将传统视频编辑系统要完成的工作全部或部分在计算机上实现的技术,它需要相应的计算机硬件和软件来配合。在非编系统上处理视频的过程主要有以下几个步骤:
视频素材的准备和搜集视频素材可以来自于传统视频设备的原始视频资料,如摄像设备、录放像设备、影碟机等视频源,
当然也包括计算机本身获得或生成的图形、动画素材。但不管怎样,为了获得高质量的最终视频产品,高质量的原始素材非常重要的。
视频采集及数字化这一过程是非线性视频编辑系统关键的一环,其结果直接影响到最终产品的品质。
视频数字化是通过视频采集压缩卡及相应的软件实现的,主要工作是对视频信号进行动态捕获、压缩和存储,形成数据化视频文件 。不同的视频硬件卡的性能不同
(数据传输速率、视频压缩比、输入模块、
采集格式等),其采集视频后的品质也有所差别,用户可根据要求选择合适的硬件卡。
数字视频编辑比较典型的编辑过程大致是:首先创建一个编辑的过程平台,将数字化的视频素材用拖拽的的方式放入过程平台。这个平台可自由地设定视频展开的信息,可以逐帧展开也可以逐秒展开,间隔可以选择。调用编辑软件提供的各种手段,对各种素材进行剪辑、重新排和衔接,添加各种特殊效果,二维或三维特技划像,叠加活动中英文字幕、动画等。这些过程的各种参数可反复任意调整,使用户便于对过程的控制和对最终效果的把握。
预视过程预视是可随时为编辑人员提供确定最终结果的工具。大多数非线性视频编辑系统具有,所见即所得,的功能,可随时看到编辑的效果。同最终结果相比,预视只是尺寸较小、
播放速度较慢的视频。预视后如果对编辑的内容不满意,
即可在系统中进行修改,直至编辑满意为止。
生成影片当确定了最终效果之后,就要用非线性视频编辑系统生成最终的视频文件,即生成连续的视频影像。生成影片的过程实际上是计算机计算的过程,是一项耗时的工作。对于像切换、拼接过渡这样简单的编辑也许不需要太多的计算,
但对于大多数复杂的效果(如特技划象、叠加等)则需要计算机逐帧处理,并以所设定的清晰度和图像品质建立完整帧,这是比较费时的。所以性能优异的计算机生成影片的效率会比较高。
回放或录制影片生成后,可以将影片回放到视频显示设备上,或录制到录像带上,这时的视频已经是完整的视频图像了。其播放的效果除设备因素外,主要取决于编辑人员的经验或创意。
4.8 视频信息的检索文本查询工具和图像处理技术发展了几十年,目前已经到了比较成熟的阶段,但是如何将这两种技术结合起来,让人们方便地去检索录音和录像资料呢,这正是目前人们所关心的视频检索问题。
与静止图像相比,视频信号含有更丰富的信息 。随着视频、音频设备的普及,视频信息的应用越来越广泛,视频信息量也在迅速增加 。但与此同时,人们对视频数据的管理和控制手段及能力却非常原始,以帧甚至像素为对象的管理和操作已难以满足检索的需要,大量丰富的视频数据无法得到有效的应用。
视频检索就是在大量的视频数据中找到所需要的视频片断,其用途非常广泛,如各类新闻、文艺、体育节目的检索、
卫星云图变化情况的检索等。假设用户要查找一部电影中的某个镜头,如果需将整部影片看一遍,这显然是费时费力的事情,而如果用户指出其所想要的镜头的一些特点,如该镜头的画面内容、出现的人物、运动特点等,根据这些要求由计算机查找出相应的视频镜头,并反馈给用户做进一步的选择,则方便多了。这样的检索便是基于内容的视频检索。
视频检索的基本思想就是将完整的声像资料分解成小的片断,然后利用工具对这些片断做索引,以后只要查询那些索引就可以找到所需的资料了。
就多媒体视频信息而言,我们追求的是视频数据的从无序到有序,最终要解决的是视频内容的识别问题。但由于视频数据巨大的数据量和丰富的表现内容,不是几个关键词所能包含的,所以还有许多问题有待解决。例如在某段视频录像中,有一个非常著名的公众人物,即使这个人出现在不同的场合或穿着不同的衣服,我们人类的视觉和大脑依然可以准确地判断出来。但让计算机进行识别却很难作到。这是因为对于视频内容,很难用某种算法或语言准确地进行描述。原来的三维世界变成数字化图像后,变成二维世界,所有的目标在位置上和风格上都产生了变化,这些都为视频内容的识别带来困难。
从用户角度来说,进行基于内容的视频检索,只需说明其检索要求即可。而这种要求用户容易表达,
且能说明用户的目的。为了满足用户的要求,基于内容的视频检索系统必须对视频进行许多预处理。
从整个视频检索系统的角度来讲,基于内容的视频检索系统 (CBVRS)应该包含以下两个模块,
视频数据库生成模块主要完成视频源数据的生成、视频数据的预处理及视频特征库的生成等。对视频数据的预处理包括视频分割 (将整段的视频分割为一个个镜头 )、代表帧选取 (从每个镜头中选取几个能代表该镜头内容的帧 )以及视频特征提取等。
视频查询和检索模块该模块将根据用户需要完成用户指定的查询和检检索任务。主要包括用户查询接口、匹配过滤操作、结果反馈及表现等部分。
图 4-2 基于知识的视频检索模型视频数据是一种非结构化的线性数据流,这是造成检索困难的根源 。因此,在分析视频数据时,首先要对此数据流进行分割,以供分析和组织使用。
可以通过检测镜头切换的方法,从时间上把视频数据流分割成基本单元 ——镜头 。镜头分割的根据在于不同镜头的图像帧之间通常存在较大的视觉特性差异。分割的关键是选择合适的视觉特征度量和阈值。