第四章 多媒体同步
同步的概念
表现需求
多媒体同步的参考模型
同步规范
案例分析
4.1 同步的概念
多媒体系统
基本的同步问题
对象内和对象间的同步
实况同步和人工合成同步
4.1.1 多媒体系统
划分多媒体系统的三个标准
媒体的数量
文本和图形的文档处理应用不是多媒体系统
根据第二章定义:至少有一种时间依赖的连续媒体和一种时间无关的离散媒体
媒体的类型
时间依赖媒体:动画序列,音频流,视频流,一个表现单元序列;媒体流连续单元之间存在时间关系,单元持续时间相等为连续媒体
时间无关媒体:文本,图形,图像,一个表现单元;媒体各自内容的语义不依赖于时间
4.1.1 多媒体系统
划分多媒体系统的三个标准
媒体的集成度
不同类型的媒体保持独立
多种媒体可以一起处理和表现桌面印刷音频 /视频应用一体化数字系统文本编辑器视频服务器媒体数量媒体类型全部时间无关时间相关时间相关与时间无关
n 1
无媒体集成度图 4.1 多媒体系统中媒体使用的分类混合媒体
4.1.2 基本的同步问题
媒体的集成处理
原因:媒体对象编码信息固有相关性
包括:获取,存储,操作,通信,表现
同步:表示媒体对象的内容、空间和时间关系
4.1.2 基本的同步问题
内容关系
定义了媒体对象与一些数据的相关性
填满数据得电子表格和所列数据图形之间的相关性
基于相同数据的两个图形可显示不同的数据解释
实现:基于公用的数据结构用不同媒体表示不同对象的对象接口
4.1.2 基本的同步问题
空间关系
定义了多媒体表现中某个时间点在输出设备上表现媒体对象的空间
二维布局:监视器,纸张,桌面出版系统的版面帧,时间依赖媒体的视频帧等
三维布局:全息照片,三维投影,通用视窗系统中用视窗重叠来表达三维,立体声输出系统中多个音源的定位,视音频会议系统中出席者座次排序等
4.1.2 基本的同步问题
时间关系
定义:媒体对象间的时间相关性(如音乐会中录制的视音频对象间的时间关系)
时间同步:媒体对象表现过程中的时间关系必须符合它们在获取时的时间关系
多媒体系统中关键特征:时间依赖媒体对象集成的时间关系
4.1.3 对象内和对象间的同步
两种同步机制
对象内同步:时间依赖媒体对象内部表现单元之间的时间关系
视频帧序列中单帧间的时间关系,对 25帧 /s的视频,每帧间的延迟为 40ms
40ms
t
图 4.2 一个跳动的球视频序列的帧间同步
4.1.3 对象内和对象间的同步
两种同步机制
对象间同步:媒体对象间的同步图 4.3 对象间同步的示例,涉及的对象包括音频、视频、动画和图音频 1
视频音频 2
P1 P3P2
动画
t
4.1.3 对象内和对象间的同步
时间依赖的表现单元
组成:时间依赖媒体对象由一系列称为 LDU的信息单元组成
媒体对象中存在几种粒度级别的 LDU
交响曲,The Bear
乐章:活泼的快板,小快板,小步舞曲,终结曲音符:不同乐器的系列音符组成独立的乐章采样值:系列采样值组成音符
CD音质,PCM编码,双声道,分辨率为 16位,采样频率为
44.1KHz,LDU采样值组合为持续时间为 1/75s的块
4.1.3 对象内和对象间的同步
时间依赖的表现单元
使用的粒度级别依赖与应用
播放操作:交响曲、乐章可作为 LDU
播放处理:乐器处理音符作为 LDU
信号处理:采样值、采样值的组块
视频帧(未压缩)
16× 16像素像素:亮度和色度帧间采用 MPEG压缩编码的序列相关帧作为一个 LDU
LDU
4.1.3 对象内和对象间的同步
时间依赖的表现单元
粒度级别隐含了媒体对象的层级分解
内容级:媒体对象内容隐含的级(交响乐中的交响曲、乐章、
音符和采样值)
编码级:基于数据编码(乐章、音符和采样值块)
封闭和开放 LDU
封闭 LDU:它有一个可预测的持续时间连续媒体的存储媒体对象的一部分固定持续时间的存储媒体对象的一部分
开放 LDU:它的持续时间在表现执行前是不可预测的实况源的输入:摄像机,麦克风,包含用户交互媒体对象
4.1.3 对象内和对象间的同步
逻辑数据单元 (LDU) 的分类获取时定义的 LDU
持续时间用户定义的 LDU
持续时间固定 LDU持续时间 音频、视频 动画、定时器可变的 LDU持续时间 已记录好的用户交互 用户交互表 4.1 逻辑数据单元 LDU的类型
4.1.3 对象内和对象间的同步
举例
唇同步要求音频流和视频流的紧耦合,同步用两个媒体流之间预先定义好的最大偏差来说明相应的同步
配有语音解说的幻灯片的放映要求幻灯片的切换与语音解说在时间上同步
同步的例子
P1 P2 P3
RI
音频 1
交互音频 2
视频 动画
P4
图 4.4 同步的例子
t
4.1.4 实况同步和人工合成同步
实况同步(现场直播同步)
媒体表现时准确地再生获取过程中已存在的时间关系
无长期存储的实况同步
视频会议系统摄影话筒源端 接收端扬声器显示器连接数据通路图 4.5 无长期存储的实况同步可包括声、光传感器以及媒体转换单元将媒体单元展现给用户源端的公共环境在接收端要保持,使媒体再现操作与接收端可用资源相适配
4.1.4 实况同步和人工合成同步
实况同步(现场直播同步)
有长期存储的实况同步获取设备源端 接收端图 4.6 有长期存储的实况同步在获取过程中进行用户交互获取与表现非紧耦合:编码数据的存储对媒体表现进行操作:改变表现速度,进行随机访问接收端 源端表现设备存储设备
4.1.4 实况同步和人工合成同步
人工合成同步
时间关系是人工确定的,它被指派给各自独立生成的媒体对象,强调支持媒体间灵活的同步关系
媒体表现和带有存储数据对象的基于检索的系统
存储数据的重新安排,组合成新的多媒体对象
一个媒体对象可以是 N个多媒体对象的组成部分
一个多媒体对象包括的媒体对象存储 /定位在不同的服务器
人工合成同步的两个阶段
规范阶段:定义媒体对象间的时序关系,显示定义同步关系
表现阶段:系统在运行时以同步模式来展现媒体数据(独立表现、串行表现、并行表现媒体流)
4.1.4 实况同步和人工合成同步
人工合成同步
运行时的同步规范
如在铁路的时刻表信息系统中,用户说明要求,自动生成声音回答;在音频提示的同时,一个视频序列来显示如何去站台和如何到达终点的过程;在产生的音频和视频之间的同步是在运动时动态执行的
媒体对象延期表现时
改变表现的速度和方向,对媒体某些部分直接访问
调整表现质量,以适合用户的需求和系统资源的潜在容量
在改变和表现时进行用户交互(如浏览器)
第四章 多媒体同步
同步的概念
表现需求
多媒体同步的参考模型
同步规范
案例分析
4.2 表现需求
同步需求和阻塞需求
唇同步需求
指向同步需求
基本的媒体同步
4.2.1 同步需求和阻塞需求
同步需求
对于对象内同步:要求 LDU延迟的精度,应避免连续
LDU的时延抖动
对于对象间同步:要求媒体对象并行表现精度,用户感知对表现精度很重要
阻塞需求
阻塞:使时间无关媒体的 LDU数据流暂停,相互等待
受限阻塞:分别阻塞音频流和视频流
4.2.1 同步需求和阻塞需求
受限阻塞中实现同步的两种方法
重复表现前面一个样本(表现单元)
替换表现单元:彩色变为黑白,运动变为静止
媒体流的再采样:加速或减慢媒体流速达到同步
离线再采样:对单独获取的媒体流在执行前再采样达到相同的理论重放时间
在线再采样:对运行媒体流表现中出现间隙时,在表达过程中使用在线来采样
再采样方法:重新定义回放速率、复制、插入或跳过采样点,
或重新计算整个序列
4.2.2 唇同步需求
概念
唇同步:人类说话的音频流和视频流之间的时间关系
时滞:关联的音频和视频 LDU之间的时间差
察觉到,不同步,时滞
对表现质量的感觉
用户的容忍程度
时滞容限
4.2.2 唇同步需求
实验
新闻环境:电视播音员的头部、肩部和身体的姿势
时滞的偏差间隔,40ms(人类难以分辨更高分辨率的唇同步时滞;软硬件设备刷新运动视频数据的间隔一般为 33~40ms)
从三个不同视角发现同步错误的曲线图
4.2.2 唇同步需求
0
20
40
60
80
100
- 2 8 0 - 2 4 0 - 2 0 0 - 1 6 0 - 1 2 0 - 8 0 - 4 0 0 40 80 120 160 200 240 280
时滞 (m s )
检测到的误差
/%
头部 肩部 身体不同步区 过渡区 同步区 过渡区 不同步区
V在 A前 A在 V前图 4.7 同步错误的发现
4.2.2 唇同步需求
分析
不对称性:右边曲线比左边陡峭,说明人们较能容忍嘴唇运动比声音超前(光速比音速快)
宽窄不一:身体视像曲线比头部视像曲线宽,说明视像离被测试者越远,时滞小的同步错误就越不易发现
波动性:在时滞大和时滞小处都有一些周期性的波动,
说明判别同步错误有困难,受样本数量、媒体内容、
人的智力及情绪的影响
4.2.2 唇同步需求
分析
同步区(时滞为 -80ms~80ms):大多数人未发现同步错误,很少有人认为同步错误会影响他们对视频质量的看法,在有限范围内唇同步是可以容忍的
不同步区(时滞绝对值大于 160ms):绝大多数人都能发现同步错误,且,不同步,效应比内容本身更能吸引观众或听众,出现分心情况
过渡区
时滞为 80ms~160ms( A在 V前):说话者越近,清晰度越高,同步错误越容易发现,越易引起烦恼
时滞为 -160ms~-80ms( V在 A前):较前者易于容忍错误
4.2.3 指向同步需求
概念
指向同步,CSCW环境中,各自桌面系统视窗中有一共享指针用于讨论,发言者获取指针,指出相关图形的某一部分,这就要求声音与远程指针同步
时滞:唇同步错误的时滞范围 40ms~160ms;指向同步错误的时滞范围,250ms~1500ms
实验
解释一艘航行小船的技术部件,指针指向讨论区域,
解释越短则同步需求越严格
解释地图上的航线,这涉及到指针的连续移动
4.2.3 指向同步需求
分析
同步区,-500ms~750ms
不同步区:小于 -1000ms或大于 1250ms
过渡区,-1000ms~-500ms和 750ms~1250ms
被测人员对时滞较不敏感,同步区和过渡区均比唇同步情况下宽,更易于被容忍或被忽略
4.2.4 基本的媒体同步
音频同步
数字音频,CD音质的音频( 16位)中最大的不跳跃采样间隔是 200ps
立体声通道两个单频采样的偏差为 -11ms~11ms
扬声器与背景音乐可承受的时滞为 120ms~500ms
音频与动画,-80ms~80ms(与唇同步需求相同)
音频与图像,-1s~1s(放映幻灯加解释)
音频与文本:文档中声音注释、有声百科全书、音乐辞典、历史讲话重放、语言教学中字词的加亮,当短单词发音持续时间小于 500ms时可承受 240ms时滞
4.2.4 基本的媒体同步
视频同步
叠加方法:文本与视频同步,确保安放在正确位置,
时滞由最小必须时间导出
单词在屏幕上显示 1s,闪烁效果为 500ms,持续 240ms是可以接受的
非叠加方式:时滞不严重
视频播放建筑物,图像在单独视窗中显示楼层平面图,人类对简单平面图像的感知至少需要 1s
视频与图像和视频与文本:时滞为 500ms
第四章 多媒体同步
同步的概念
表现需求
多媒体同步的参考模型
同步规范
案例分析
4.3 多媒体同步的参考模型
必要性
需求的理解
确认和构造支持同步执行的运行机制
确认运行机制之间的接口和比较多媒体同步系统解决方案
现有的分类方法
同步参考模型
分布式环境下的同步
4.3.1 现有的分类方法
彼此相交,都只在一些特定方面起作用
[LG90b]:物理层、系统层和用户层
[LG90b]:流内细粒度的同步和流间粗粒度的同步
[SM92a]:实况(现场直播)同步和人工合成同步
[GBT93]:将同步的多媒体对象描绘成一个未被说明的字节流
[EFI94],基于协议的分布式控制、基于服务器的分布、没有服务器结构的节点机的同步
[MES93]:媒体层、流层和对象层
4.3.2 同步参考模型
四层参考模型
媒体层:时间依赖媒体的流内同步
媒体流层:媒体流间同步
对象层:时间有关媒体对象的表现(人机交互,基于起止点的同步)
规范层:创作复杂的多流多媒体应用
4.3.2 同步参考模型
四层参考模型媒体层流层对象层同步制定层多媒体应用低高抽象度图 4.8 四层参考模型
每一层典型的对象和操作之间的语义说明相应层的主要准则
每一层的接口提供同步机制:确定和执行时序关系
每一层的接口定义了服务:提供用户定义其需求的手段
每个接口由应用直接访问和通过高层间接访问
高层提供较高服务的程序编制和 QoS抽象
4.3.2 同步参考模型
媒体层
应用操作连续的单一媒体流( LDU序列)
本层抽象是与设备无关的带有 R/W操作的接口
应用利用抽象接口执行一个进程,建立一个连续的媒体流,以便使用媒体层提供的抽象
4.3.2 同步参考模型
媒体层
流内同步
应用本身使用媒体产生和消费设备间的流控制机制负责流内同步
多路流并行资源预留和管理系统保证流内同步
OS实时调度相应的进程在分布式系统中要把网络部件考虑在内
时间无关媒体与用户交互的同步关系由应用执行相关任务
时间相关媒体的流内同步
唇同步情况下,同时发生的音频和视频帧交替存在同一 LDU

4.3.2 同步参考模型
媒体层
媒体层实现
简单实现
提供交错媒体流访问的复杂实现文件头音频采样 视频帧 音频采样 视频帧
帧视频和音频数据交替存放在一个影像文件中,由音频采样段和视频帧组成的声音和图像保持严格同步关系,参考点与音频或视频构成同步元素,一帧构成一个同步点,帧与帧之间的分隔点是音频和视频媒体的参考点图 4.9 交错媒体流访问的实现
4.3.2 同步参考模型
媒体流层
媒体流的抽象:抽象封装接口是具有时间参数的流
操作在连续媒体流和成组媒体流,组中所有流通过流间同步机制并行表现
连续媒体流是隐含时间限制的数据流,LDU不可见
使用流层服务的应用在 NRTE环境下执行,多种处理由 OS调度策略控制
应用调度管理来自 NRTE的流和流组的操作
应用通过事件和连续媒体连接,与时间无关媒体交互,
与用户交互,导致了连续时间相关媒体应用程序接口与用户交互的用户界面不同
4.3.2 同步参考模型
媒体流层
媒体流层实现
分类:根据它们对分布式的支持,提供保证的类型、支持媒体的类型进行分类
应用:负责流的开始、停止和分组根据流层支持的定时参数定义需求的 QoS
负责时间无关媒体对象的同步
4.3.2 同步参考模型
对象层
对象层的抽象
给应用的抽象是一个完整的同步表现
把同步规范作为输入,并对全部表现进行正确调度
隐藏了离散与连续媒体的区别
功能
弥补了面向流的服务和同步关系表现的执行之间的断层
计算和执行完整的表现调度:包括非连续媒体对象的表现和对流层的服务的调度
初始化准备:对正确的同步表现是必须的
不处理流内和流间同步,只使用流层提供的服务
4.3.2 同步参考模型
对象层
对象层实现
分布式环境:区别实现是局部的、支持服务器结构的分布还是支持没有任何限制的完全分布
调度计算:实现能否计算一个调度;区别是表现前计算还是表现运行时的动态分布
应用使用对象层的任务是提供一个同步规范
与对象层接口的例子,MHEG说明书
MHEG标记:最终形式多媒体与超媒体信息对象的编码表示
4.3.2 同步参考模型
规范层
同步规范方式的主要种类
基于时间间隔的规范:对媒体对象表现的间隔之间的时间关系的规范说明
基于时间轴的规范:把表现事件同表现对象共享的时间轴联系起来
基于控制流的规范:规定在给定的同步点,表现流被同步
基于事件的规范:规定媒体表现中的事件触发表现活动
多媒体表现中各场景的安排与对象同步的描述
4.3.2 同步参考模型
同步参考模型的特性集合层 抽象封装接口 任务 方法和机制分类规范层
本层执行任务的工具有接口
本层自身没有高层接口
编辑
格式化
把面向用户的 QoS映射成对象层的 QoS抽象
同步规范方法(基于时间间隔、时间轴、控制流、
事件的同步)
工具类型(文本规范工具、图形规范工具、转换同步规范)
对象层
同步规范
对象隐藏了封闭媒体的类型
面向媒体的 QoS
(可接收的偏移和抖动)
计划和调协表现调度
由流层初始化时间依赖媒体对象的表现
初始化时间无关媒体对象的表现
初始化表现准备活动
分布类型(本地、基于服务器的分布、不用服务器的分布)
调节计算类型(不计算、
编译时计算、运行时计算)
表 4.2 同步参考模型的特性集合
4.3.2 同步参考模型
同步参考模型的特性集合层 抽象封装接口 任务 方法和机制分类媒体流层
流和流组
保证流内同步
保证一组流的流间同步
资源预留和 LDU处理调度
分布类型(本地、分布)
流 QoS保证类型(不保证 QoS尽力服务、由资源预留保证 QoS)
媒体层
不依赖设备对
LDU访问
保证单个 LDU处理
文本和设备的访问? 可访问的数据类型(单媒体数据、交替的复合数据)
表 4.2 同步参考模型的特性集合(续)
4.3.3 分布式环境下的同步
复杂性
同步信息分布式存储
表现中涉及媒体对象在不同位置
存储和表现场所间通信引起附加的时延和时延抖动
同步规范的传送
汇点在媒体表现时需要同步规范,有三种方式传送同步信息
4.3.3 分布式环境下的同步
同步规范的传送
表现开始前传送所有的同步信息:由对象层或更高层负责
适用:人工合成同步方式,汇点的应用把规范(或参考)作为参数访问对象层接口
优点:实现简单,对多源点情况下处理较高
缺点:表现前同步规范传送会引起延迟
4.3.3 分布式环境下的同步
同步规范的传送
用附加的同步通道传送:由对象层控制(如果定义为流,则由流层控制)
适用:实况同步方式,对一个源点情况下非常有用;同步通道中的信息需在各自对象表现时被解码,即各通道信息通信需遵循某种时间行为
优点:不会引起附加延迟
缺点:需要一个附加通道,且同步规范单元的延迟或丢失会引起错误视频同步音频 汇点源点 图 4.10 使用独立的同步通道的例子
4.3.3 分布式环境下的同步
同步规范的传送
多路复用的数据流:由媒体流层支持
适用,MPEG编码的位流,包含视频、音频和隐含的相关同步信息,此位流可看作是媒体流层上的一个媒体流;如需要同另一种媒体同步,可以选用其他的同步方式
优点:相关同步信息与媒体单元一起传送,无需附加通道和延迟
缺点:复用多种媒体和同步信息难以选择适当的 QoS使之满足所涉及的媒体的需要;难以使用在多源节点的情况汇点源点 图 4.11 多路复合数据流示例复合在一起的音频 视频和同步信息
4.3.3 分布式环境下的同步
同步操作的定位
有时可能把几个对象结合成新的媒体对象来实现媒体的同步
降低通信资源(如带宽的要求)
与时间无关媒体的混合需要对象层的支持
媒体流的混合需要媒体流层的支持
4.3.3 分布式环境下的同步
同步操作的定位源点 汇点带宽要求
a 在汇点同步源点 带宽要求 汇点
b 在源点同步图 4.12 通过对象组合来减少通信源的同步要求
4.3.3 分布式环境下的同步
时钟同步
是基于定时器的全局同步机制的基础,也是同步机制对分布的节点操作的时间协同基础
分布式环境中,源、汇点时钟同步的精度是同步方案的基础,保证传送的及时性和操作的协调性
流中 LDU及时传送和处理的时钟偏移量是流层的任务;
时间无关媒体对象的及时传送由对象层负责
4.3.3 分布式环境下的同步
时钟同步
对多源同步尤为重要源点 A 音频
Ta,Oa
Tv,Ov
源点 B 视频汇点 AV
Tav
Nla
Nlv
图 4.13 分布式环境中的时间偏差
Tav是音频在汇点表现开始的时间
Ta和 Tv分别是音频和视频在 A点和 V点开始传送的时间
Oa和 Ov分别是 A点和 V点的时钟相对于汇点时钟的偏移量
Nla和 Nlv分别是 A点和 V点到汇点的网络延迟
Oa和 Ov一般不知道,但如果知道它们的最大可能值,就可以限定汇点所需的缓冲区容量,可通过时钟同步协议实现
4.3.3 分布式环境下的同步
多路通信关系
可能的通信模式有 1:1,n:1,1:n,n:m
多汇点模式要求组播和广播机制降低资源需求
组播要求流层支持
不同模式操作执行的计划由对象层负责
4.3.3 分布式环境下的同步
多步同步
分布式环境下的同步是典型的多步过程,同步必须以一种方式来保持,以确保汇点执行最后的同步
多步同步的步骤
对象获取过程同步(数字化视频帧中的同步)
检索的同步(某一视频的帧的同步访问)
LDU发送上网构成同步(发送视频的帧到传输服务的接口)
传输过程中的同步(等时传输协议控制)
汇点处同步(同步发送媒体对象到输出设备)
在输出设备内同步
4.3.3 分布式环境下的同步
表现的操作
分布式环境中,由于一些必要的信息分布在整个环境中,使一些功能难以支持(暂停、不同表现速度的前进、后退、直接访问、停止和重复)
由于预先准备好的对象可能要删除,网络的连接可能改变或重建,因此在执行这些处理功能时难免要产生延迟
4.3.3 分布式环境下的同步
分布式环境中的同步小结
选择同步规范传输类型
决定同步操作的位置
时钟偏移量的处理,组播、广播机制的处理
同步过程中步骤的规划和运行时表现控制操作的规则
同步的分布式表现执行是一个复杂的规划问题,规划结果常被称为调度方案第四章 多媒体同步
同步的概念
表现需求
多媒体同步的参考模型
同步规范
案例分析
4.4 同步规范
基于时间间隔的同步规范
基于时间轴的同步规范
基于控制流的同步规范
基于事件的同步规范
4.4.1 基于时间间隔的同步规范
定义
时间间隔:媒体对象表现的持续时间
A
B
d1
A
B
d1
A
B
d1
A
B
d1
具有一个延迟参数的操作( d1≠0)
before (d1) beforeendof (d1) cobegin (d1) coend (d1)
图 4.14 基于间隔的增强方法中的操作
4.4.1 基于时间间隔的同步规范
定义
A
B
d1 d2
A
B
d1 d2
A
B
d1 d2
A
B
d1 d2
A
B
d1d2
A
B
d1 d2 d3
具有两个延迟参数的操作( d1,d2≠0)
while (d1,d2) delayed (d1,d2) startin (d1,d2) endin (d1,d2) cross (d1,d2)
overlaps (d1,d2,d3) 图 4.14 基于间隔的增强方法中的操作(续)
具有三个延迟参数的操作( d1,d2,d3≠0)
4.4.1 基于时间间隔的同步规范
举例
幻灯片放映
Slide1 cobegin( 0) Audio
Slidei before( 0) Slidei+1 ( 1≤i≤n-1)
唇同步
Audio while ( 0,0) Video
Video 开始,Audio0开始( d1= 0)
Audio 结束,Video1结束( d2= 0)
4.4.1 基于时间间隔的同步规范
举例
一个应用示例
Audio1 while( 0,0) Video
Audio1 before( 0,0) RecordedInteraction
RecordedIneraction before( 0) P1
P1 before( 0) P2
P2 before( 0) P3
P3 before( 0) Interaction
P3 before( 0) Animation
Animation while( 2,5) Audio2
Interaction before( 0) P4
4.4.1 基于时间间隔的同步规范
评估
优点
逻辑对象能保持
媒体内容易于抽象
容易集成时间无关的媒体对象
容易集成交互对象
支持不确定时间关系的规范
缺点
规范复杂
对于时滞 QoS需要另外的规范
媒体对象间的时间关系直接规范,但不能对对象子单元时间关系直接说明
解决运行时不确定因素时可能引起矛盾
4.4.2 基于时间轴的同步规范
定义
表现事件(开始和结束)能映射到表现对象共享的时间轴上
基于全局计时器的同步
所有单媒体都与一个代表实时时间的抽象时间轴相连来同步,移去一个对象不会影响其他对象的同步
可用于活动媒体
使用世界时,对所有媒体都适用
世界时可转化为局部时间,其间误差超过一定界限时需要再同步
4.4.2 基于时间轴的同步规范
基于全局计时器的同步
时间轴方式的同步对象允许一个来自单媒体对象和嵌套式多媒体对象的内部结构提供很好的抽象
同步可以基于固定时间点来定义,若对象中包含不可预知持续时间的 LDU则会出现问题
基于公共全局计时器的同步不能充分表达不同表现流间的同步关系,取决于流间相关性,可能会太弱或太强,解决方法是为每一对媒体流定义一个附加的 QoS
全局计时器要求媒体流自身与全局计时器同步,对于再采样困难的音频流,常作为全局计时器,但几个音频流之间的同步仍然存在困难
4.4.2 基于时间轴的同步规范
基于全局计时器的同步
举例交互动画P3P2P1音频 1
视频 音频 2
图 4.15 时间轴同步说明的例子
P4
记录,UI
4.4.2 基于时间轴的同步规范
基于全局计时器的同步
优点
易于理解
分层支持易于实现
由于媒体对象的相互独立性而易于维护
媒体内容能较好地抽象
时间无关媒体对象易于集成
缺点
未知持续时间的媒体对象不能集成,需要对模式进行扩展
时滞 QoS必须用公共时间轴间接指定,或必须给出附加的
QoS规范
4.4.2 基于时间轴的同步规范
基于虚拟时间轴的同步
定义
时间轴方法的通用化
由用户自定义的测量单位确定坐标系统
由几个虚拟轴来产生一个虚拟坐标空间
运行时,虚拟时间轴转化为真实时间轴
4.4.2 基于时间轴的同步规范
基于虚拟时间轴的同步
举例
音符描述乐曲音符在五线谱的位置:乐曲频率顺序及持续时间:节拍和时间音高为度量单位的虚拟轴节拍为度量单位的虚拟轴图 4.16 音符作虚拟抽说明的例子
4.4.2 基于时间轴的同步规范
基于虚拟时间轴的同步
举例
虚拟轴说明的例子
P4
交互时间轴动画P3P2P1
记录,UI
音频 1
视频 音频 2
交互轴时间轴图 4.17 虚拟轴说明的例子
4.4.2 基于时间轴的同步规范
基于虚拟时间轴的同步
优点
易于理解
根据问题求解空间制定规范
有可能构造层次结构
由于对象可作为单元以及某些对象是独立的,故易于维护
对媒体内容能够很好地抽象
易于集成时间无关媒体对象
使用特殊时间轴可包含交互对象
4.4.2 基于时间轴的同步规范
基于虚拟时间轴的同步
缺点
时滞 QoS仅能间接定义或通过附加的规范指定
多个轴使规范变得复杂
运行时,轴的映射可能比较复杂且耗时
4.4.3 基于控制流的同步规范
定义
并发表现的媒体流在表现的预定点被同步
基本的分层规范
定义:多媒体对象看成多节点的树,节点标记为并行和串行表现的子树
同步操作:串行同步活动和并行同步活动
基本活动:处理一个单媒体对象、用户输入或延迟表现
复合活动:同步操作和基本活动的组合
活动的同步:每种活动只在开始或结束时同步
分层结构不支持多媒体对象内部结构的完全抽象
4.4.3 基于控制流的同步规范
举例
R1 Pic.1 Pic.2 Pic.3
音频 1 视频
Ani.1 Ani.2 Aud.2 Ani.3 UI Pic.4
图 4.18 层次式说明方法的例子
RI= Recorded Interaction; Pic.= Picture; Aud.= Audio;
Ani.= Animation; UI= User Interaction
4.4.3 基于控制流的同步规范
基本的分层规范
优点
容易理解
天然支持分层
交互对象集成容易
缺点
对时滞 QoS需要附加描述
对于时间无关媒体对象的表现必须加上表现的持续时间
为了同步目的,需要分裂媒体对象
对媒体对象内容不能充分抽象
某些同步情景不能描述
4.4.3 基于控制流的同步规范
参考点同步规范
定义
时间依赖单媒体对象被看成封闭的 LDU序列
一个媒体对象表现的开始和停止时间以及时间依赖媒体对象子单元的开始时间称为参考点
一系列连接的媒体对象的参考点称为同步点
参与同步的子单元的表现在达到同步点时必须开始或停止
4.4.3 基于控制流的同步规范
参考点同步规范
举例
在参考点模型中带有音频序列的幻灯片的例子(在遇到音频表现中的特定 LDU时,将启动或终止幻灯片的操作)
幻灯片 1
适当的 LDU启动幻灯片 2 幻灯片 3 幻灯片 4
音 频 时间依赖媒体时间无关媒体图 4.19 在参考点模型中音频序列与幻灯的放映同步的例子
4.4.3 基于控制流的同步规范
参考点同步规范
举例
带有时间依赖媒体对象、时间无关媒体对象以及封闭和开放
LDU的参考点同步规范例子
P1 P3P2
交互音频 2 4P
视频音频 1 记录 UI
动画图 4.20 参考点同步说明的估计
4.4.3 基于控制流的同步规范
参考点同步规范
优点
允许后一个对象表现过程中任何时间同步
不可预知持续时间的对象表现可结合
流间相关性可通过确定流间一系列合适的同步点来描述,同步要求越精确,同步点设立越密
参考点同步方法的层次可通过把一些同步的对象看成一个对象来建立,把第一个对象的开始和最后一个对象的结束作为参考点
缺点
需要有发现矛盾的机制进行协调
没有考虑多媒体表现中的延迟规范(可利用计时器解决)
4.4.3 基于控制流的同步规范
计时 Petri网
定义
Petri网扩展:在 Petri网的各个库所都可以有持续时间信息的说明,同时保留了每个变迁瞬时激发的规则;令牌驻留在库所上,而不能驻留在变迁中
形式化定义为四元组 TPN = {P,T,A,D}
其中,P = {P1,P2,?,Pm},m > 0,表示库所的集合
T = {T1,T2,?,Tn},n > 0,表示变迁的集合
A,{T× P} U {P× T} → I,I为正整数集表示有向弧集合到正整数集合的映射
D,P → R,R为实数集表示库所集合到持续时间集合的映射
4.4.3 基于控制流的同步规范
计时 Petri网
TPN的规则
如果每个输入库所包含一个令牌没有锁定,则一个变迁立即启动
如果一个变迁启动,则把令牌从每个输入库所移走,且为每个输出库所加入一个令牌
一个加入到新库所的令牌在赋予该库所的持续时间内被加锁,
直到此段时间结束,令牌变为无锁定
4.4.3 基于控制流的同步规范
计时 Petri网
举例
幻灯片放映的 Petri网规范(把持续时间赋给库所)
P1 P2
3s 3s
图 4.21 幻灯放映的 Petri网说明的例子
4.4.3 基于控制流的同步规范
计时 Petri网
举例
Petri网唇同步(库所代表 LDU,通过传递关系将适当的 LDU
相连接,可建立唇同步模型)
F1 F2 F3 F4 F5
A1 A2
11ms 11ms 11ms 11ms 11ms
33ms 33ms
图 4.22 基于 Petri网的唇同步说明
4.4.3 基于控制流的同步规范
计时 Petri网
举例
TPN的层次结构一些 LDU与其他 LDU不存在对象间同步,则这些连续 LDU可结合到一个库所在一个库所上创建子网可以建立层次结构,网中最长路径的持续时间被赋予到相关的库所
4.4.3 基于控制流的同步规范
计时 Petri网
举例
F1 F2 F3
A1
D D
S
11ms 11ms 11ms
33ms
33ms
0ms 0ms
图 4.23 包含 A1与 F1到 F3同步的 Petri网层次
4.4.3 基于控制流的同步规范
计时 Petri网
举例
S PR
U1 P4
A1 A2 A3
Au
60s 20s 15s
动画子网 1 动画子网 2
动画子网 2和音频子网用户交互 关闭图像音频 -视频子网 记录,UI 图像子网图 4.24 Petri网说明例子
4.4.3 基于控制流的同步规范
计时 Petri网
优点
层次能够建立
容易集成时间无关媒体对象
容易集成交互对象
集成时滞 QoS
缺点
难于掌握
规范较复杂
媒体对象内容不能充分抽象,媒体对象需分割成子对象
4.4.3 基于控制流的同步规范
标记 Petri网
形式化定义为四元组 MPN = {P,T,A,M}
其中 P,T,A与计时 Petri网定义相同
M,P → I ′,I′为非负整数集
4.4.3 基于控制流的同步规范
对象合成网 OCPN
形式化定义为六元组 OCPN = {P,T,A,D,M,Re}
其中 P,T,A,D与计时 Petri网定义相同
M与标记 Petri网定义相同
Re,P → {r 1,r2,?,rk}
用库所代表进程,并假定变迁瞬时发生,因此库所具有相应状态,OPCN同 TPN启动规则相同,在 OCPN
中为每一个库所分配了要求再现的资源以及输出再现数据所要求的时间,变迁表示同步点和处理的位置
4.4.4 基于事件的同步规范
定义
表现活动中的同步事件启动
典型活动:开始、停止、准备一个表现
同步事件:外部的(如计时器)、内部的(如时间依赖媒体对象某一特定的 LDU到达)
4.4.4 基于事件的同步规范
举例
基于事件的同步的应用例子事件动作 启动间频 1,终止 定时器准备音频 1 启动视频 启动图像 1 启动 终止定时器 1 启动( 3)
图像 2 启动表 4.3 基于事件的同步说明的例子
4.4.4 基于事件的同步规范
评估
优点
容易集成交互对象
易于扩展新的事件
由于任何事件都能指定,
具有很好的伸缩性
缺点
难以掌握
规范较复杂
难以维护
要用附加的定时器才能集成时间依赖媒体对象
需要分别描述时滞 QoS
难于使用层次结构第四章 多媒体同步
同步的概念
表现需求
多媒体同步的参考模型
同步规范
案例分析
4.5.1 MHEG中的同步
MHEG (Multimedia and Hypermedia
Information Coding Expert Group)
同步方式
虚拟时间轴同步规范方式
虚拟坐标系:
时间轴,GTU转化为 PTU(默认方式为 1GTU = 1ms)
空间轴 X(宽)
空间轴 Y(长)
空间轴 Z(高)
内容对象的表现是基于传送给一个对象的活动对象的交换:
运行时启动一个表现过程;结束时停止一个表现过程
GSU,[-32768,32767]
虚拟空间转化为实际坐标空间
4.5.1 MHEG中的同步
同步方式
虚拟时间轴同步规范方式
活动对象可结合形成一个活动表
基于事件的同步规范方式
链接条件与事件相关联
链接条件满足时链接触发,分配给该链接的活动被执行延迟动作延迟动作图 4.25 动作的列表并行动作列表延迟的串行动作
4.5.1 MHEG中的同步
MHEG引擎
MHEG是对象层标准化交换格式,表示对象层的运行环境,它在对象层的实现是以媒体服务器为基础的
AV子系统是代表媒体流层的一个工具应用系统操作系统
MHEG引擎
对象管理器:在运行环境中管理 MHEG对象
解释器:处理活动对象和事件,初始化对象和表现
链接处理器:监控对象状态,触发链接通用表现服务
AV子系统:媒体流层工具表现连续媒体流用户接口服务:时间无关媒体表现用户交互处理图 4.26 MHEG机的体系结构
4.5.1 MHEG中的同步
MHEG部件分类使用 MHEG编码后的多媒体对象解释器 MHEG引擎对象管理器 链接处理器用户界面服务
AV子系统规约层对象层对象层界面流层流层界面媒体层媒体层界面对象管理器图 4.27 根据参考模型对 MHEG和 MHEG机的部件进行分类
4.5.2 MODE
MODE (Multimedia Objects in a
Distributed Environment)
MODE系统同步编辑器同步描述语言方式 优化器 服务器管理器 局部同步器表现的线程媒体的类规约层对象层对象层界面流层流层界面媒体层媒体层界面图 4.28 根据参考模型对 MODE系统的分类
4.5.2 MODE
MODE系统
对网络透明的同步规范和异种机分布式系统中调度的综合方案
分布式多媒体表现服务
与应用共享定制的多媒体对象模型、同步规范和 QoS需求
与运行环境共享有关网络和工作站信息
对应用申请的复合多媒体对象的表现,可实现同步调度
调整表现的 QoS与可采用资源、计费模式相适应
4.5.2 MODE
MODE系统
同步编辑器:为多媒体表现建立同步和布局规范
MODE服务管理器:协调表现服务调用的执行
本地同步器:按同步规范接受本地表现对象并初始化其表现
优化器:分布式同步的规划和表现形式,表现前执行表现调度的脱机计算
4.5.2 MODE
同步模型
使用基于参考点的同步模型,扩展后处理时间间隔、
不可预知持续时间的对象以及分布式多机种环境中的潜在问题
同步规范
同步编辑器建立
同步器使用
文本格式存储
在同步描述语言环境无关的语法中定义
当执行语言和环境无关,为所有 MODE构件使用
4.5.2 MODE
同步模型
基本对象
动态基本对象表现:由与 LDU流相对应的一系列表现对象组成,每一个表现对象的索引为一个参考点
静态基本对象表现:时间无关媒体和交互对象表现只有两个参考点(开始和结束)
同步元素:一个参考点的描述连同与之相联系的基本对象表示法,多个同步元素可以组合成一个同步点
对象间同步:所有同步点的列表定义
表现质量:由属性描述(属性名、初始值、值域)
4.5.2 MODE
本地同步器
执行同步表现
动态基本对象的对象内同步:建立具有不同优先级的表现线程
静态基本对象的同步:用单线程管理
同步由信令机制实现
到达同步点的表现线程给该同步点的其他表现线程发通信信号,其他线程加速活动,该线程执行等待操作,直到收到该同步点的其他线程发来的信号
4.5.2 MODE
分布式表现的计划和执行
优化器使用启发式查找算法
考虑分布式环境下同步多重步骤的特殊条件(缓冲、归并、
可用网络带宽,QoS、可用资源)
计划结果:按用户要求和可用资源决定每个表现属性可以达到的质量值
MODE流图:操作执行的时间和节点
分区流图:送到相关节点,由分布的 MODE服务管理器在运行时执行
4.5.2 MODE
分布式环境引发的异常
已到同步点的动态基本对象在该点等待的时间长于一个规定时间,则执行等待操作(冻结视频,暂停或注销同步点)
已到同步点的动态基本对象等待其他对象时,延迟的其他对象加速操作,在规定时间内移到该同步点(为提高表现速度或跳过表现中所有对象,直达同步点)
一个表现对象未按时到达同步点时,跳过它表现下一个对象