第 12章 多媒体新技术展望
介绍多媒体技术相关的几个研究热点
? 数据压缩新技术
? MPEG-21标准
? 智能交互设备
? 虚拟现实技术
12.1 数据压缩新技术
? 基于分形的压缩方法
? 小波变换在图像压缩中应用
1,基于分形的压缩方法
? 分形 (fractal):是那些局部和整体按某种方式相
似的集合。
? 分形的应用十分广泛:不规则几何造型、图像
处理等。基于分形的图像压缩主要是利用自相
似的特点通过迭代函数系统 (IFS)来实现,
? IFS的基本思想,认定几何对象的全貌与局部,
在仿射变换的意义下,具有自相似结构,
? 这样,几何对象的整体被定义之后,选择若干
仿射变换,将整体形态变换到局部。这一过程
可以迭代进行下去,直到得到满意的造型。
? IFS是收缩映射,每个 IFS都有自己的吸引子,
迭代到一定程度就基本收敛到吸引子上。
? 对 PIFS,图像被分成 8ⅹ 8或 4ⅹ 4的小块称为值
域块; IFS通过一些仿射变换在更大的定义域
块 (16ⅹ 16或 8ⅹ 8)上作用,以寻求某个标准下
匹配的值域块与定义域块。
? 为了加快速度,可以对值域块和定义域块进行
分类,如平滑块、简单边缘块、复杂边缘块等,
使得搜索只在相应的类别中进行,加快分形压
缩方法的速度是研究的热点。
2.小波变换在图像压缩中应用
? 简单地说,变换编码是将信号数据投影到一个
函数空间的基上,然后对变换系数进行编码 。
? 所选用的变换必须满足,
(1)能够接受图像信号的非平稳性;
(2)至少应该是双正交的;
(3)在空间域和频率域都具有良好的局部化特性;
(4)具有快速算法。
? 概括地说,小波是由一个满足条件 ∫Rφ(x)dx=0的函数
φ通过平移缩放而产生的一个函数族 φa,b,
φa,b(x)=|a|-1/2φ((x-b)/a),a,b?R,a≠0
? 小波变换是一种频率上伸缩自由的变换,不受带宽约
束的图像压缩方法。当信号带宽较窄时,它可以通过
缩小的方法对窄带信号的刻划较为精细。当信号带宽
较宽时,它可以通过放大的方式使描述能够满足精度
的需要。
? 另外,兼有时 /频分析优越性的小波分解算法,在克
服 DCT变换时产生的方块效应方面具有良好性能。
? 小波变换已用在 JPEG2000标准中。
12.2 MPEG-21标准化方案
? 信息技术的发展要求有统一的标准来规范交流行为, 使用
户能得到更多的信息提供源, 并扩大网络电子交易的机会 。
? MPEG组织在 1999年 10月墨尔本会议上提出了 MPEG-21(多
媒体框架 )的概念并试图用多媒体框架将各种服务综合在
一起并进行标准化 。
? MPEG-21的最终目标是 协调不同层次间的多媒体技术标
准, 建立一个交互式的多媒体框架, 此框架能够支持各
种不同的应用领域, 允许不同用户使用和传递不同类型的
数据, 并实现对知识产权的管理和数字媒体内容的保护 。
? 根据 2000年 3月的 MPEG会议报告, 最初希望 MPEG-21能
包含 6个方面,用户需求;内容之间的相互作用;内容的
描述;内容的认证;知识产权管理和保护相关技术;终
端和网络 。
? 随后的 2000年 6月会议中进一步定义了多媒体框架的范围,
将工作放在 10个主题,网络传输;服务质量和灵活性;
内容质量;使用方便;媒体物理格式的相互协调能力;
支持 /订阅模式;内容的查询、过滤、定位、恢复和存储;
消费内容的公布;消费者的使用权;消费者的隐私权。
? 2001年 1月在意大利召开的 MPEG第 55次会议中,
决定把多媒体框架暂时浓缩到以下几个方面,
(1)数字化条目声明。
(2)数字化条目认证和描述。
(3)内容处理和使用。
(4)知识产权管理和保护。
(5)终端和网络。
(6)内容描述。
(7)事件报告。
? MPEG专家组还就如下几个问题达成一致意见,
(1)MPEG-21中,对用户的定义取决于他们在交易过程中担当
的角色,无论是信息的提供方还是信息的接受方,或是传
递信息方都是用户。他们都是电子商务的主体之一,地位平
等,并可在不同的交易中担当不同的角色。
(2)MPEG-21中, 联系用户并使用户之间发生相互作用的称为
内容。对内容的使用包括对内容施加的操作,如内容的建立、
定位, 内容的传送、收集、发布、提交,内容的消费等。
(3)数字化条目声明部分已由需求阶段转移到规范阶段,等收
集到数字化条目认证和描述的相关建议和对版权数据字典、
版权描述语言的需求方面的建议之后, 在作进一步讨论。
(4)深入发展 MPEG-21工作计划, 包括研究多媒体框架组成部
分之间需要哪些认证, 是否遗漏掉了某些现有的认证技术等,
从而增强 MPEG-21的能力。
(5)调研其他标准化组织在多媒体处理方面的相关措施, 与这
些组织联系, 为 MPEG-21的进一步发展创造更多的机会。
MPEG-21与电子商务
? 无论从 MPEG-21的初衷还是它所包含的内容来看, 无一
不在为电子商务做铺垫 。 2001年 1月的会议上更进一步指
明 MPEG-21要和电子贸易紧密联系, 建立数字多媒体内
容交易的电子贸易环境 。
? 从电子商务的角度来看, 我们更容易理解 MPEG-21所涉
及的内容和应当解决的问题,
(1)网络方面的问题 。网络作为底层的传输媒体, 它的性能
直接关系到整个上层应用的效果。因此, 首先要保证 高
质量的传输网 。
(2)内容方面的要求 。 内容必须具有权威性, 健康性, 真实性和
完整性, 所标明的内容的价格应和内容本身的价值相匹配 。
用于交易的内容应能为用户提供详细的相关内容的介绍和查
找, 以便消费者决定是否购买 。
(3)相关服务 。所提供的服务是为了及时响应消费者需求。消费
者在网上购买商品时, 能快速地检索到商品的地点、价格、
提供方及其可靠性。同时消费者应知道自己对消费内容所享
有的权利, 如所有权、使用权、拷贝权、编辑权和传递权。
消费者购买商品后,应有凭据来证明消费者已经付费。
(4)安全性问题 。保证网络传输过程中内容不被破坏、修改和丢
失 ; 保证交易合法基础上, 交易双方都需要认证对方的身份。
上述问题与 MPEG-21正解决的内容不谋而合。
? 电子商务中的买方, 卖方, 中介方在 MPEG-21中统称为用
户 ; 买卖的商品在 MPEG-21中属于数字化条目的部分 ; 涉
及的买卖行为在 MPEG-21中被称为使用 。
用户 1
电子化 (交易物品, 身份,
交易过程等电子化 )
网络管理 (提供内容的数字化、查询、定位、传输、
交易,电子物品的实时传输、存储、交易 )
认证机构 (认证用户身份、交易物品、交易过程及
用户支付的电子货币 )
用户 2 用户 n
图 12.1 电子商务交易
MPEG-21对电子商务存在的问题
? 网络方面, MPEG-21决定由相关网络协议以及 MPEG-2、
MPEG-4中的成熟技术予以支持 。
? 内容方面,MPEG-21已做明确的要求, 具体实现正在探讨
中 。 相关问题主要集中两个方面,一是对 查询问题的研究,
考虑用 MPEG-7的特征描述来解决 。 另一方面是对版权保护
起关键作用的 信息隐藏技术的研究 。 专家们分歧较大, 但
认为身份验证和版权保护必不可少 。 因此, 认证问题应是
多媒体框架的重要部分 。
? MPEG-21标准正在探讨中,对 MPEG-21包含的内容方面意
见比较统一,内容划分和侧重点方面差异较大。随着研究
的深入,MPEG-21标准问题都会得到解决,在此基础上的
电子商务也会得到越来越广泛的应用。
12.3 智能交互设备
? 人机交互中文字的输入方法对使用计算机的效率有重
要影响。
? 文字输入技术大致可分为 3大类,
键盘输入法;
手写输入法;
语音识别输入法。
? 键盘输入是最早使用的文字输入方法,而且目前仍然
是主要使用的输入技术 。
1.光学字符识别 (OCR)
? OCR技术主要研究计算机自动识别文字的技术。
? OCR系统涉及数字图像处理、模式识别和人工智能、
认知心理学、体系结构等许多领域。
? 一个 OCR系统可分为 3个部分,
(1)预处理部分; (2)识别部分; (3)后处理部分
? 汉字 OCR的基本方法有以下 3类,
(1)像素统计法;
(2)结构分析法;
(3)智能识别法。
图 12.2 字符识别系统工作原理
预处理 模式表达 测度估计
字典
判决
图像输入
识别输出
2,语音交互技术
? 语音识别技术研究起步较晚,大规模的研究起
始于 70年代初期,近年来已取得长足的进展。
? 1997年秋季,IBM公司推出的中文语音识别系
统 Viavoice听写系统,Viavoice充分运用了在
语音识别、模糊处理和人工智能方面的最新成
果,能够把不同人的连续语音流自动识别、转
化为计算机文字信息 。
图 12.3 语音识别与合成系统原理
预处理 声学参数分析
语音库
测度估计
知识库
判决
语音单元 字典
语言规则 连接规则
语音输入 识别输出
文本输入 发音代码 语音输出
(a)语音识别系统原理
(b)语音合成系统原理
12.4 虚拟现实技术
1,虚拟现实的概念
? 虚拟现实 (VR) 或称虚拟环境 (VE)是由计算机生成具有
临场感觉的环境,它是一种全新人机交互系统 。
? 虚拟现实技术本质上说是一种高度逼真地模拟人在现
实生活中视觉、听觉、动作等行为的交互技术 。
? 1968年,Ivan Sutherland研制出头盔式显示器 (HMD)、
头部及手跟踪器,是用于虚拟环境技术的最早产品。
? 20世纪 80年代末以来随着计算机图形软硬件技术, 数
字信号处理技术, 传感技术和跟踪定位技术与数据手
套等三维交互设备的成熟, VE设备价格下降, 使 VE技
术普及成为可能 。
2.模型与系统构成
? 从 系统的角度来说是显示 /检测模型。显示指系统向用户
提供各种感官刺激; 监测指系统监视用户的各种动作,
即感知并辩识用户的视点变化及头、手、肢体的动作。
? 从用户角度来看是输入 /输出模型。用户接受系统提供的
各种感官刺激 (输入 );用户动作被系统检测 (输出 ) 。
? 当前 VE提供的感官刺激主要为视觉、听觉与部分触觉。
同时,VE中还提供了检测用户的各种动作的检测装置 。
? 典型的虚拟环境系统由头盔式立体显示器、数据手套和计
算机构成。
图 12.4 VR参考模型
用户 感觉器官
肌肉
虚拟环境
(感觉刺激 )
(用户动作 )
表 12.1 VR提供的各种感官刺激
感官刺激 说 明 显 示
视觉 感知可见光 图像生成系统,光学或显示屏
听觉 感知声波 计算机控制的声音合成器耳机喇叭
嗅觉 感知空气中化学成分 气味传递装置
味觉 感知液体中化学成分 尚未实现


触觉 皮肤感知的触摸,温度,
压力,纹理等
触觉传感显示器,弱力或温度变化
动觉 肌肉,关节,腱感知的力 中到强的力反馈装置
身体感觉 感知肢体或身驱的位置和
角度变化
数据衣服
前庭感觉 平衡感知,由内耳感知头
部线性加速度和角加速度
动平台
表 12.2 VR检测用户的各种动作与检测装置
用户动作 检测装置
头部运动
肢体或躯体运动
眼球转动
语言
使力
头部跟踪装置
跟踪器,力反馈装置,空间球
数据手套,按钮装置,操纵杆,键盘
眼球跟踪器
语言识别装置
带力传感器的力反馈装置
3,虚拟现实造型语言
? 虚拟现实造型语言 (VRML) 是一种用来描述 WWW页面
上三维交互环境的文件格式。 VRML同 HTM一样,是
运行于 WWW上的页面描述语言。
? 它与 HTML不同, 以 HTML为核心的 Web浏览器浏览
的是二维世界, 而以 VRML为核心的 Web浏览器浏览
的是三维世界, 用户可借助鼠标进入这个三维世界内
游览而不是像在二维世界里“一页一页”地显示。
? 体验三维世界需要能接收和再现 VRML文件的浏览器。
目前有两种类型, 一种是插入型, 把 VRML浏览软件
插入到 HTML浏览器 ; 另一种是单独的 VRML浏览器。
4,实现 VR的关键技术
(1)实时、限时三维动画技术;
(2)临场感技术 (包括宽视场立体显示技术,基于自然方式
的人机交互技术等 );
(3)快速、高精度三维跟踪技术;
(4)辩识技术;
(5)传感技术 。
? 虚拟现实技术结合了人工智能、多媒体、计算
机动画等多种技术,应用范围很广。
? 虚拟现实技术包括软件和硬件两部分的支持。
虚拟现实技术的软件支持,
(1)复杂的逻辑控制的实现;
(2)模拟实时的相互作用;
(3)模拟人脑所有的智能行为;
(4)模拟复杂的时空关系,涉及时间与空间的同步等问题;
(5)感觉的表达,包括人的听觉、视觉、触觉、味觉和嗅觉的
计算机表达;
(6)实时的数据采集、压缩、分析、解压缩;
(7)支持与虚拟环境交互的定位、操纵、导航等工具。
虚拟现实技术的硬件支持,
(1)数据存储设备要求,动画图像存储需要更大存储容量
的设备;
(2)显示设备大体可分平面的与立体的两大类,因为平面
的显示设备不能很好地模拟现实环境,所以主要是针
对立体显示设备而展开的,包括双筒全方位监视器,
工作室和头盔显示器
(3)数据采集与处理系统;
(4)虚拟环境技术的操作设备。
虚拟现实技术存在的障碍
? 从硬件上讲,数据存储设备的速度、容量还十分不足,
而显示设备的昂贵造价和它显示的清晰度等问题也没
能很好地解决。
? 从软件讲,由于硬件的诸多局限性,使得软件开发费
用十分惊人,而且软件所能实现的效果受到计算机时
间和空间的影响很大。
? 另外,人们对人脑和人类行为的认识还需进一步提高。
本章小结
本章讨论当前多媒体技术相关的热点。
? 数据压缩的 新技术;
? MPEG-21标准 ;
? 介绍了智能交互设备的研制结构、工作原理以
及面临的困难 ;
? 虚拟现实技术概念、实现模型和关键技术。
上述问题的解决能对 多媒体领域产生重大影响。