第20章 多媒体通信系统技术
***************************************************************************
20.1多媒体通信系统概要
20.1.1 体系结构
20.1.2 网关的功能和结构
20.1.3会务器的功能和结构
20.2 H.323电视会议
20.2.1 H.323的拓扑结构
20.2.2 H.323终端
20.2.3 H.323网关
20.2.4 H.323会务器
20.2.5 H.323多点控制单元
20.2.6 H.323多点电视会议
20.2.7 H.323协议堆
20.3 H.324可视电话
20.3.1 H.324系列标准
20.3.2 产品类型和预期质量
20.3.3 H.324多媒体系统
20.3.4 H.324多媒体电话终端
20.4 IP电话
20.4.1 IP电话的概念
20.4.2 IP电话与PSTN电话的技术差别
20.4.3 IP电话的通话方式
20.4.4 IP电话标准练习与思考题参考文献和站点
***************************************************************************
进入20世纪90年代以来,因特网对公众开放使人们使用电话线路的方式发生了明显的变化,这就是越来越多的人使用电话线路传输数据,而且增长的速度越来越快。公共网络正在将线路交换网络(circuit switched networks)和信息包交换网络(packet switched networks)紧密地融合在一起,这是当前的网络技术和信息工业的发展趋势。典型的线路交换网络是公众交换电话网络(PSTN),它可提供高质量的声音通信,但没有存储信息资源的能力;典型的信息包交换网络是IP网络(包括因特网和内联网等),它们存储有极其丰富的信息资源,但目前提供的声音通信质量还不如PSTN。至于电视图像的分辨率和质量,将由可利用的网络带宽来决定。
为了在这两种类型的网络上开发人们最喜欢和最自然的多媒体通信,国际电信联盟(ITU)制定了许多标准。其中,T.120,H.320,H.323和H.324标准组成了多媒体通信的核心技术标准。T.120是实时数据会议标准;H.320是综合业务数字网(ISDN)电视会议标准;H.323是局域网上的多媒体通信标准;H.324是公众交换电话网络上的多媒体通信标准。
本章主要介绍多媒体通信中的一些基本概念和两个最令人重视的标准:H.323和H.324。我们已经用PC机开发了一个采用H.324标准的可视电话模拟系统,深切感到在有国际标准或者有事实标准可用的情况下,要尽量采用国际标准,在没有标准可循的情况下要力争把科研成果变成标准。本章的侧重点是系统技术而不是单项技术。多媒体通信核心技术标准中用到的像声音、图像的核心算法已经在第2~10章中作了介绍,如果研究或者技术开发工作需要了解各种标准的细节,则建议阅读原文标准。
20.1多媒体通信系统概要
20.1.1 体系结构多媒体通信(multimedia communcations)是在位于不同地理位置的参与者之间召开的一种会议或者进行的交流,通过局域网(LAN)、广域网(WAN)、内联网(intranet)、因特网(Internet)或者电话网来传输压缩的数字图像和声音信号。像电视那样的多目标广播、录象机那样的流式播放、电话会议、电视会议、IP电话、可视电话和IP传真等等都是多媒体通信技术的一些具体的和各有特色的应用。多年来,国际电信联盟(ITU)为公共和私营电信组织制定了许多多媒体计算和通信系统的推荐标准,以促进各国之间的电信合作。ITU的26个(Series A~Z)系列推荐标准中,与多媒体通信关系最密切的7个系列标准如表20-01所示,三种类型的多媒体通信系统的核心技术标准集如表2002所示。
表20-01 ITU系列推荐标准系列名
主要内容
Series G
传输系统、媒体数字系统和网络
Series H
视听和多媒体系统
Series I
综合业务数字网(ISDN)
Series J
电视、声音节目和其他多媒体信号的传输
Series Q
电话交换和控制信号传输法
Series T
远程信息处理业务的终端设备
Series V
电话网上的数据通信
20世纪90年代初开发的电视会议标准是H.320,它定义通信的建立、数字电视图像和声音压缩编码算法,运行在综合业务数字网(Integrated Services Digital Network,ISDN)上,在56 kb/s传输率的通信信道上支持帧速率比较低的电视图像,而在1.544 Mb/s传输率的信道(即T1信道)上可以传输CIF格式的满帧速率电视图像;在局域网上的桌面电视会议(desktop video conferencing)采用H.323标准,这是基于信息包交换的多媒体通信系统;在公众交换电话网(public switched telephone network,PSTN)上的网桌面电视会议使用调制解调器,采用H.324标准。因特网上的电视会议目前大部分都趋向于采用H.323标准和正在开发的SIP标准(见20.4 IP电话),使用IP协议提供局域网上的电视会议,而全球的因特网电视会议目前还不能保证实时电视会议的服务质量。
表2002 3个主要的系列标准
H.320
H.323(V1/V2)
H.324
发布时间
1990
1996/1998
1996
应用范围
窄带ISDN
带宽无保证信息包交换网络
PSTN
图像编码
H.261,H.263
H.261,H.263
H.261,H.263
声音编码
G.711,G.722,G.728
G.711,G.722,G.728
G.723.1,G.729
G.723.1
多路复合控制
H.221,H.230/H.242
H.225.0,H.245
H.223,H.245
多点
H.231,H.243
H.323
数据
T.120
T.120
T.120
在多媒体通信标准中,电视图像的编码标准都采用H.261和H.263。H.261主要用来支持电视会议和可视电话,并于1992年开始应用于综合业务数字网络(ISDN)。该标准采用帧内压缩和帧间压缩技术,可使用硬件或者软件来执行。电视图像数据压缩后的数据速率为p×64 kb/s,其中P的变动范围为1~30,这取决于所使用的ISDN通道数。H.261支持CIF和QCIF的分辨率。H.263是在H.261的基础上开发的电视图像编码标准,用于低位速率通信的电视图像编码,目标是改善在调制解调器上传输的图像质量,并增加了对电视图像格式的支持。它们之间在电视图像格式方面的异同点见表20-03。
表20-03 电视图像编码器(H.261和H.263)
在多媒体通信标准中,采用的声音编码器的性能标准如表2004所示。上述三种主要的电视会议系统选择的声音编码标准是不同的,这主要是根据网络的带宽来选择。表中也列出了各种编码标准的速率、延时、要求的运算速度(MIPS)和声音质量(MOS)等性能。声音在当前的各种网络下的延时特性如图20-01所示。
表2004 声音编码器的性能
图20-01 声音在各种网络环境下的延时特性线路交换网络与信息包交换网络的融合是构造多媒体通信系统结构的出发点,因此我们使用图20-02所示的示意图来表示多媒体通信系统的结构。从图中可用看到,多媒体通信系统主要有下面几个部件组成:网关(gateway)、会务器(gatekeeper)和通信终端(terminal)。通信终端包括执行H.320、H.323或者H.324协议的计算机和执行H.324的电话机。此外,H.323还定义了一个叫做多点控制单元(Multipoint Control Unit,MCU)的部件,它是H.320和H.323的一个重要设备,可作为一个单独的设备接入到网络上,但现在开发的一些产品则把它要实现的功能集成到会务器中,因此图中未画出。在H.323协议中,把通信终端、网关、会务器或者MCU叫做端点(endpoint)。
图20-02 多媒体通信系统的整体结构示意图网关和会务器是多媒体通信系统的两个极其重要的组成部件。网关提供面向媒体的功能,例如,传送声音和电视图像数据和接收数据包等;会务器提供面向服务的功能,例如,身份验证、呼叫路由选择和地址转换等。网关和会务器密切配合完成多媒体通信的任务。
20.1.2 网关的功能和结构网关是一台功能强大的计算机或者工作站,它担负线路交换网络(如电话网络)和信息包交换网络(如因特网)之间进行实时的双向通信,提供异种网络之间的连通性,它是传统线路交换网络和现代IP网络之间的桥梁。
IP电话(见“17.4 IP电话”)的出现允许电话呼叫在信息包交换网络上进行,从而引发一场电信工业的革命。但IP电话在成为主流电话服务的道路上遇到了许多障碍。其中最大的一个问题是在IP电话网络和公众交换电话网络之间缺乏连通性。一个重要的原因是早期的网关存在对IP电话进入主流电话服务的限制。例如,通过网关建立呼叫比较困难,而且需要使用非常规的电话号码;不同的网关之间的兼容性妨碍呼叫的建立;声音的质量比较差、有回音以及延迟时间比较长等。这就促进了开发允许IP和PSTN客户能够相互通信的网关,其中的一个措施就是提高网关的处理能力。低档的网关有1~6个端口,典型地使用高档奔腾处理器的PC机方案,提供媒体处理、呼叫控制和信息包的处理等网关功能。高档网关把网关功能分散到几个处理器来实现,这叫做计算机基电话集成(computer-telephony integration,CTI)平台,可提供100多个端口。
网关的基本功能可归纳为三种:
(1) 转换协议(translating protocols):网关作为一个解释器,使不同的网络能够建立联系,例如,允许PSTN和H.323网络相互对话以建立和清除呼叫。
(2) 转换信息格式(converting information formats):不同的网络使用不同的编码方法,网关将对信息进行转换,使异种网络之间能够自由地交换信息,例如声音和电视。
(3) 传输信息(transferring information):负责在不同网络之间传输信息。
网关的主要部件包括:
(1) 线路交换网络(switched-circuit network,SCN)接口卡,这是一种典型的T1/E1或者叫做PRI ISDN线路接口卡,它们与线路交换网络进行通信。主速率接口(primary rate interface,PRI)由23个B通道和一个64 kb/s的D通道组成,叫做23B+D,相当于T1线的带宽。
(2) 数字信号处理器(digital signal processors,DSP)卡,它执行的任务包括声音信号的压缩和回音的取消等。
(3) 网络接口(network interfaces)卡,它用来与H.323网络进行通信,典型的网络卡包括10/100BaseT网络接口卡(network interface cards,NIC),或者把它们的功能集成到主机板上。
(4) 控制处理器(control processor),它协调其他网关部件的所有活动,这个部件通常是在系统的主机板上。
网关的主要软件包括:
(1) 执行所有网关基本功能和选择功能的网关软件。例如,H.323网关平台(Gateway Platform)执行转换协议、转换消息格式和传输信息等基本功能,支持声音压缩、协议转换、实时的传真解调/再调制以及执行H.323系列协议。
(2) 特定网关的应用软件,它执行自定义的功能以及管理和控制功能。
图20-03表示一种网关的基本结构以及网关如何使公共电话交换网络系统上的电话与现代的因特网电话之间进行会话。 图20-03中的时分多路复用(TDM)总线可以是MVIP总线或者SCSA总线。多厂商集成协议(MultiVendor Integration Protocol,MVIP)是由许多公司共同制定的一种用于PC机的声音总线和交换协议,是PC机中的通信总线,用于从一块声音卡到另一块声音卡的转接过程中复合多达256个全双工(full-duplex)的声音通道;信号计算系统结构(Signal Computing System Architecture,SCSA)是一种传输声音和电视图像信号的开放结构,用于设计和建造计算机电话服务机系统,它的总线叫做SCSA总线。这种结构是1993年由Dialogic Corporation公司(Parsippany,NJ,www.dialogic.com)发起并和其他70多个公司一起开发的。SCSA主要集中在信号计算、媒体(包括声音、图像和传真等的)管理、呼叫信号处理以及系统结构,它的模块化部件在大小、技术和性能上都提供灵活性,并可添加各种标准。
图20-03 网关的基本结构
20.1.3会务器的功能和结构会务器(gatekeepers)是用于连接IP网络上的H.323电视会议客户,是电视会议的关键部件之一,许多人把它当作电视会议的“大脑”。它提供授权和验证、保存和维护呼叫记录、执行地址转换而不需要你去记忆IP地址、监视网络、管理带宽以限制同时呼叫的数目从而保证电视会议的质量、以及提供与现存系统的接口。会务器的功能一般都是用软件来实现。会务器的功能分成两个部分:基本功能和选择功能。
1,会务器必须要提供的基本功能包括:
地址转换(Address Translation):使用一种可由注册消息(Registration messages)更新的转换表,把别名地址转换成传输地址(Transport Address)。这个功能在线路交换网络上的电话企图呼叫IP网络上的PC时显得尤其重要,在确定网关地址时也很重要。
准入控制(Admissions Control):使用准入请求/准入确认/准入拒绝ARQ/ARC/ARJ(Admission Request,Confirm and Reject)消息,对访问局域网进行授权。H323标准规定必须要有用来对网络服务进行授权的RAS消息(RAS messages),RAS是一个注册/准入/状态(Registration/Admission/Status)协议,但它不定义授权存取网络资源的规则或者政策,因此服务提供者需要会务器来干预现存的授权方法。此外,企业管理人员和服务提供者也许想使用他们自己的标准来授权,例如,根据订金、信用卡等。
带宽控制(Bandwidth Control):支持RAS带宽消息(RAS bandwidth messages),即带宽请求/带宽确认/带宽拒绝BRQ/BCF/BRJ(Request,Confirm and Reject)消息,以强制执行带宽控制。至于如何管理则要根据服务提供者或者企业管理人员的政策来确定。在许多情况下,如果在网络或者特定的网关不拥挤的的情况下,对任何带宽的请求都应该给予满足。
区域管理(Zone Management):用于管理所有已经注册的H.323端点(endpoint),为它们提供上面介绍的功能。至于确定哪个终端可以注册以及地理或者逻辑区域的组成(单个会务器管理的终端、网关和多点控制单元MCU)则由网络设计人员决定。
2,会务器提供的选择功能包括:
呼叫控制信号传输方法(Call Control Signalling):在H.323中有两种呼叫控制信号传输模型:会务器安排呼叫信号传输模型(Gatekeeper Routed Call Signaling Model)和直接端点呼叫信号传输模型(Direct Endpoint Call Signaling Model)。会务器可根据访问提供者的要求进行选择。
呼叫授权(Call Authorization):会务器可根据服务提供者指定的条件对一个给定的呼叫进行授权或者拒绝。其条件可包括会议时间、预定的服务类型、对受限网关的访问权限或者可用的带宽等。
带宽管理(Bandwidth Management):根据服务提供者指定的带宽分配确定是否有足够的带宽用于呼叫。
呼叫管理(Call Management):提供智能呼叫管理。会务器维护一种H.323呼叫表以指示被呼叫终端是否处于忙状态,并为带宽管理(Bandwidth Management)功能提供信息。
3,会务器的结构会务器通常设计成内外两层,如图20-04所示。会务器的内层叫做核心层,它由执行H.323协议堆的软件和实现多点控制单元MCU(multipoint control unit)功能的软件组成,有的软件开发公司把它叫做H.323会务器核心功能部件。MCU的主要功能是连接多条线路并自动或者在会议主持人的指导下手动交换电视信号。
会务器的外层由许多应用程序的接口组成,用于连接网络上现有的许多服务。外层软件可由下面的软件模块组成:
用户的授权和验证(user authentication & authorization):处理所有用户的授权,并使用现有的远程验证电话接入用户服务RADIUS (Remote Authentication Dial-In User Service)协议进行验证。
事务管理接口(administration interface):为管理人员提供会务器的管理界面;对享有设置/修改/删除配置的特权的用户提供服务权限;会务器的远程管理;显示网络状态、统计、报警等。
网络管理(network management):为简单网络管理协议SNMP(Simple Network Management Protocol)代理程序提供注册终端数目、正在工作的终端数目、呼叫数目、分配带宽、正在使用的带宽和保留的可用带宽、网关资源分配和可用的网关资源、MCU资源的分配和可用的MCU资源、内部资源信息和运行状态。
安全管理(security)
辅助功能(supplementary features):服务质量(QoS)等级的选择、呼叫者线路识别描述 (Caller Line Identification Presentation,CLIP)、呼叫者线路识别限定(Caller line Identification Restriction,CLIR )、呼叫等待(Call Waiting)、呼叫保持(Call Hold)、呼叫分机代接(Call Park/Pickup)、呼叫转移(Call Transfer)、呼叫遇忙/无答应转移(Call Forward on Busy/No answer)、缩位拨号(Abbreviated dialling)、优先线路(Priority lines)的服务管理以及对接收的传真的存储和转发(Incoming FAX store and forward)。
媒体资源服务(media resource services):报警服务(Alarm service)、声音邮件服务(Voice mail services)和使用交互声音应答的互相配合的服务(Interworking with Interactive Voice Response services)。
目录服务(directory services):与网络上执行简便目录存取协议LDAP (Lightweight Directory Access Protocol)的目录服务器联用,与域名服务器DNS(Domain Name Server)联用。
帐单管理模块(billing module)
支持的附加协议包括:H.225(在Q.931基础上开发的呼叫控制协议)、H.245(多媒体通信控制协议)、H.450(辅助服务协议)、H.235(安全)以及资源管理等协议。
图20-04 会务器的功能和基本结构[1]
20.2 H.323电视会议
20.2.1 H.323的拓扑结构
1996年批准的H.323是一个在局域网(LAN)上并且不保证服务质量(QoS)的多媒体通信标准。H.323允许声音、电视图像和数据任意组合之后进行传送。H.323指定包括H.261和H.263作为电视图像编码器,指定G.711,G.722,G.728,G.729和G.723.1作为声音编码器。此外,还包括网关(gateways)、会议服务器(gatekeeper)和多点控制设备(MCU)。H.323广泛支持因特网电话(Internet telephony)。
H.323是H.320的改进版本。H.320阐述的是在ISDN和其他线路交换网络上的电视会议和服务。自从1990年批准以来,许多公司已经在局域网(LAN)上开发了电视会议,并通过网关扩展到广域网(WAN),H.323就是在这种情况下对H.320作了必要的扩充。H.323使用因特网工程特别工作组(Internet Engineering Task Force,IETF)开发的实时传输/实时传输控制协议(Realtime Transport Protocol / Real-Time Transport Control Protocol,RTP/RTCP),以及国际标准化的声音和电视图像编译码器。1998年2月批准的H.323版本2也正在应用到因特网上的多点和点对点的多媒体通信中。
H.323要支持以前的多媒体通信标准和设备,因此扩充后比较详细的拓扑结构如图20-05所示。从图中可以看到,H.323不仅仅在局域网上通信,而且还可通过H.323网关在公众交换电话网 (PSTN)、窄带综合业务数字网(N-ISDN)上的终端和宽带综合业务数字网(B-ISDN)网上的终端进行通信;从图20-05中还可看得组成H.323多媒体通信系统的基本部件:H.323终端、H.323网关、H.323会务器和H.323 MCU。使用合适的代码转换器,H.323网关还可支持遵循V.70,H.324,H.322,H.320,H.321和H.310标准的终端。
图20-05 H.323拓扑结构[3]
20.2.2 H.323终端
H.323终端是局域网上的客户使用的设备,它提供实时的双向通信,它的组成部件如图20-06所示。在H.323终端中,可供选择的标准包括电视图像编码器(H.263/H.261)、声音编码器(G.71X/G.72X/G.723.1)、T120实时数据会议(real time data conferencing)和MCU的功能。但所有的H.323终端都必须具备声音通信的功能,而电视图像和数据通信是可选择的。H.323指定了在不同的声音、电视图像和数据终端在一起工作时所需要的运行方式,是新一代因特网电话、声音会议终端和电视会议终端技术的基础。
所有H.323终端必须支持H.245标准。H.245是1998年9月批准的多媒体通信控制协议,它定义流程控制、加密和抖动管理、启动呼叫信号、磋商要使用的终端的特性和终止呼叫等过程,它也确定那一方是发布各种命令的主控方。此外,H.323还需要支持的协议包括定义呼叫信令和呼叫建立的Q.931标准、与网关进行通信的注册/准入/状态(RAS)协议和实时传输/实时传输控制协议(RTP/RTCP)。
图20-06 H.323终端结构
20.2.3 H.323网关在H.323会议中,网关是一个可选择的部件,因为如果电视会议不与其他网络上的终端连接时,同一个网络上的终端之间就可以直接进行通信。网关可建立连接的终端包含PSTN终端、运行在ISDN网络上与H.320兼容的终端以及运行在PSTN上与H.324兼容的终端。终端与网关之间的通信使用H.245和Q.931。H.323网关提供许多服务,但最基本的服务是对在H.323会议终端与其他类型的终端之间传输的数字信号进行转换。这个功能包括传输格式之间的转换(例如,从H.225.0标准到H.221标准的格式转换)和通信过程之间的转换(例如,从H.245标准到H.242标准)。此外,H.323网关也要支持声音和电视图像编译码器之间的转换,执行呼叫建立和终止呼叫的功能。图20-07表示的是一个H.323/PSTN网关。
在H.323标准中,许多网关功能都没有作具体的限制。例如,能够通过网关进行通信的实际的H.323终端数目、SCN的连接数目、同时支持召开的电视会议数目、声音/电视图像/数据转换的功能等,这些功能的选择和设计都留给网关设计师。
图20-07 H.323网关[3]
20.2.4 H.323会务器会务器是H.323中最重要的部件,是它管辖区域里的所有呼叫的中心控制点,并且为注册的端点提供呼叫控制服务。从多方面看,H.323会务器就像是一台虚拟的交换机。
会务器执行两个重要的呼叫控制功能。一个是定义在RAS规范中的地址转换,即从终端别名和网关的LAN别名转换成IP或者网际信息包交换协议(Internetwork Packet Exchange,IPX)地址;另一个也是在RAS规范中定义的网络管理功能。例如,如果一个网络管理员已经设定在局域网上同时召开的会议数目,一旦超过这个设定值时会务器可拒绝更多的连接,以限制总的会议带宽,其余的带宽用于电子邮件、文件传输和网上的其他应用。由单个会务器管理的所有终端、网关和多点控制单元(MCU)的集合被称为H.323区域(H.323 Zone)。这个概念如图20-08示。
会务器的一个可供选择但有价值的特性是它可安排H.323的呼叫。这个特性便于服务提供者管理使用他们的网络进行呼叫的帐目,也可以在被呼叫端点不能使用的情况下把呼叫转接到另一个端点。此外,这个特性还可用来平衡多个路由器之间的呼叫负荷。
在H.323系统中,会务器不是必须的。但如果有会务器存在时,终端必须要使用会务器提供的服务功能。这些功能就是地址转换、准入控制、带宽管理和区域管理。
图20-08 会务器[3]
20.2.5 H.323多点控制单元多点控制单元(MCU)支持在3个或者3个以上的端点之间召开电视会议。在H.323电视会议中,一个MCU单元由多点控制器MC(Multipoint Controller)和个多点处理器MP(Multipoint Processors)组成。MC处理H.245推荐标准中指定的在所有终端之间进行协商的方法,以便确定在通信过程中共同使用的声音和电视图像的处理能力。MC也控制会议资源,确定哪些声音和电视数据流要向多个目标广播,但不直接处理任何媒体流。MP处理媒体的混合以及处理声音数据、电视图像数据和数据等。MC和MP可以作为单独的部件或者集成到其他的H.323部件。
20.2.6 H.323多点电视会议按照H.323标准,可以召开各种形式的多点电视会议,如图20-09所示。H.323标准可支持的会议形式包括:①由D、E和F终端参加的集中式电视会议,②由A、B和C终端参加的分散式电视会议,③声像集散混合式多点电视会议,④会议集散混合式多点电视会议。图中的多点控制单元(MCU)在这些会议中起一个桥梁的作用。
在集中式电视会议(centralized multipoint conference)中,需要一个MCU来管理多点会议,所有终端都要以点对点的方式向MCU发送声音、电视图像、数据和控制流。MCU中的MC集中管理使用H.245控制功能的电视会议,而MP处理声音混合、数据分发、电视图像切换/混合,并且把处理的结果返回给每个与会终端。MP也提供转换功能,用于在不同的编译码器和不同的位速率之间进行转换,并且可使用多目标广播方式发送经过加工的电视。
在分散式电视会议(decentralized multipoint conference)中,与会终端以多目标广播的方式向没有使用MCU的所有其他与会终端广播声音和电视图像。与会终端响应和显示综合接收到的声音以及选择一个或者多个接收到的电视图像,而多点数据的控制仍然由MCU集中处理,H.245控制信道(H.245 Control Channel)信息仍然以点对点的方式传送到MC。
声像集散混合式多点电视会议(hybrid multipoint conference)有两种形式:声音集中广播混合式多点电视会议(hybrid multipoint conference - centralized audio)和电视集中广播混合式多点电视会议(hybrid multipoint conference - centralized video)。在前一种形式中,终端以多目标广播形式向其他与会终端播放他们的电视,而以单目标广播形式把声音传送给多点控制单元(MCU)中的多点处理器(MP),然后由MP把声音流发送给每个终端;在后一种形式中,终端以多目标广播形式向其他与会终端播放他们的声音,而以单目标广播形式把电视图像传送给多点控制单元(MCU)中的多点处理器(MP)进行切换和混合,然后由MP把电视图像流发送给每个终端。混合式电视会议组合使用了集中式和分散式电视会议的特性。
会议集散混合式多点电视会议(mixed multipoint conferences)是由以集中方式召开的会议(如图20-09中的D、E和F参加)和以分散方式召开的会议(如图中的A、B和C参加)组合的一种会议形式。
图20-09 H.323 MCU[3]
20.2.7 H.323协议堆协议堆(protocol stack)是在不同网络层次上一起工作的协议集合。在协议堆中,中间层的协议使用其下层协议提供服务,并向其上层协议提供服务。H.323协议堆包罗了众多的协议,如图20-10所示。从图中可以看到,H.323协议堆旗号的控制和数据信息通过可靠的传输控制协议(TCP)协议进行传输,而声音数据、电视数据、声音/电视的控制信息以及部分会务控制信息则通过可靠性不保证的用户数据包协议(UDP)来传输。
这些协议可通过软件集成到信息包交换网络上的协议堆中,因此可在信息包交换网络上进行实时的多媒体通信。按照H.323标准构造的部件可在IP网络上建立呼叫、交换压缩的声音/电视数据和召开会议,并且还能够与非H.323端点进行通信。
图20-10 H.323协议堆结构
20.3 H.324可视电话
20.3.1 H.324系列标准可视电话这个术语早在20世纪60年代就已经出现,人们一直孜孜不倦地追求在模拟电话线路上实现视听通信。初期的可视电话产品需要使用ISDN电话线以高于普通模拟电话线的速率来传输电视图像和声音,这就使这种可视电话产品的推广应用受到限制。随着28.8 kb/s调制解调器的出现,世界上立即就开发出了许多在模拟电话线上使用的第一代可视电话产品。可是一个公司的可视电话产品与另一个公司的可视电话产品不能相互协同工作,这就妨碍了产品的推广。H.324就是为解决这个问题而开发的一个可视电话标准,现在已被国际电信联盟(ITU)采纳并作为世界可视电话标准。它指定了一种普通的方法,用来在用高速调制解调器连接的设备之间共享电视图像、声音和数据。H.324是第一个指定在公众交换电话网络上实现协同工作的标准。这就意味下一代的可视电话产品能够协同工作,并且为市场增长打下了基础。
H.324系列是一个低位速率多媒体通信终端标准,在它的旗号下的标准包括:
H.263:电视图像编码标准,压缩后的速率为20 kb/s。
G.723.1:声音编码标准,压缩后的速率为5.3 kb/s(用于声音+数据)或者6.3 kb/s。
H.223,低位速率多媒体通信的多路复合协议。
H.245:多媒体通信终端之间的控制协议。
T120:实时数据会议标准(可视电话应用中不一定是必须的)。
H.324使用28.8 kb/s调制解调器来实现可视电话呼叫者之间的连接,这与PC用户使用调制解调器和电话线连接因特网或者其他在线服务的通信方式类似。调制解调器的连接一旦建立,H.324终端就使用内置的压缩编码技术把声音和电视图像转换成数字信号,并且把这些信号压缩成适合于模拟电话线的数据速率和调制解调器连接速率的数据。在调制解调器的最大数据速率为28.8 kb/s的情况下,声音被压缩之后的数据率大约为6 kb/s,其余的带宽用于传输被压缩的电视图像。
20.3.2 产品类型和预期质量
H.324可支持各种类型的采用H.324标准的可视电话机。在今后若干年里将有可能看到各种各样的可视电话产品,其类型可归纳成下面几种:
标准型可视电话/单机型可视电话(standalone video phone):这种产品与我们现在使用的非移动型和移动电话类似,但在电话机上安装有摄象机和LCD显象器。
TV基可视电话(TV-based video phone):这种产品是一种放在电视机上的多媒体电话终端,它内置有摄象机,使用电视机作为可视电话的电视显示器。
PC基可视电话(PC-based video phone):这种产品实际是给PC机添加一种功能而已。利用PC机作为可视电话终端时,在PC机上需要安装执行H.324系列标准的可视电话软件,需要配置图像数字化卡和声音卡作为图像和声音的输入/输出设备,用彩色显示器显示电视图像,用计算机内部的处理器对电视图像和声音进行压缩解压缩,并且用28.8 kb/s或者56 K调制解调器连接其他的可视电话终端,具备以上条件就可把PC当作一个可视电话终端。
H.324可视电话的声音质量接近普通电话的质量。按H.324标准规定,电视图像的帧速率取决于显示的图像大小。例如,如果可视电话连接双方都使用QCIF(176×132)的图像分辨率,电视图像的帧速率可达到4~12 帧/秒,接近于普通电视图像帧速率的一半。但其实际的帧速率将与多媒体终端的计算速度、用户选择的显示窗口大小以及当地的线路质量有关。
H.324可视电话几乎不改变人们使用电话的习惯。与普通电话类似,把可视电话插入到办公室或者家庭的电话插座中,使用声音呼叫在先(voice call first)方式与使用可视电话的被呼叫方建立连接,这是最简单的连接方法。拨打可视电话与拨打普通电话相同,被呼叫方一旦响应呼叫,用户就可简单地在可视电话机上按一个“连接键”,或者在PC基可视电话机上按一个“连接”图标就可以选择可视电话方式,如何进行“面对面”的通话。
20.3.3 H.324多媒体系统
H.324定义的多媒体电话终端可运行在公众交换电话网络上,尽管线路的速率受到极大的限制,但在两个多媒体电话终端之间可提供实时的电视图像、声音、数据或者任意组合的媒体。如果在公用电话交换网络上安装单独的多点控制设备(MCU),在网络上的多个H.324多媒体电话终端之间就可进行多点通信。H.324定义的多媒体终端也可与综合业务数字网(ISDN)上的可视电话系统(定义在H.323系列标准中)和移动无线网络上的可视电话系统(定义在H.324/M系列标准草案中)联用。
H.324多媒体可视电话终端系统如图20-11所示。从图中可以看得,该系统由下面几个部件组成:H.324多媒体电话终端、PSTN网络、多点控制设备(MCU)和其他的输入/输出部件。
图20-11 H.324多媒体系统方框图[5]
20.3.4 H.324多媒体电话终端
H.324多媒体电话终端由两个部分组成:H.324本身定义的模块和非H.324定义的模块。H.324本身定义的模块包括:
电视编译码器:使用H.263或者H.261标准对电视图像进行编码和解码。
声音编译码器:使用G.723.1标准对来自麦克风的声音信号进行编码,然后传输到对方,并且对来自对方的声音进行译码,然后输出到喇叭。图中“接收通道延时”模块用于补偿电视信号的延时,以维持声音和电视的同步。
数据协议(V.14,LAPM等):支持的数据应用可包括电子白板(electronic whiteboards)、静态图像传输、数据库访问、声图远程会议(audiographics conferencing)、远程设备控制、网络协议等等。标准化的数据应用包括T.120(用于实时的数据加声音的声图远程会议)、T.80(用于简单的点对点静态图像文件传输)、T.434(用于简单的点对点文件传输)、H.224/H.281(用于远端摄象机控制)、ISO/IEC TR9577网络协议(包括PPP和IP协议)以及使用缓存的V.14或者LAPM/V.42的用户数据传输。LAPM/V.42是定义使用调制解调器链路访问协议(Link Access Protocol for Modems)的错误校正方法标准。支持的其他协议可通过H.245协商。
控制协议(H.245):提供H.324终端之间的通信控制。H.245是多媒体通信控制协议,它定义流程控制、加密、抖动管理以及用于启动呼叫、磋商双方要使用的特性和终止呼叫等信号。此外它也确定那一方是发布各种命令的主控方。
多路复合/多路分解(H.223):它提供两种功能。一种是把要传送的电视、声音、数据和控制流复合成单一的数据位流;另一种功能是把接收到的单一位流分解为各种媒体流。此外,它还执行逻辑分帧(logical framing)、顺序编号、错误检测、通过重传校正错误等。
调制解调器(V.34/V.8):它提供两种功能。一种是把来自“多路复合/多路分解(H.223)”模块的同步的多路复合输出数据位流转换成能够在PSTN网络上传输的模拟信号;另一种功能是把接收到的模拟信号转换成同步数据位流,然后送给“多路复合/多路分解(H.223)”进行分解。“调制解调器控制(V.25 ter)”用于自动应答设备和自动呼叫设备的通信过程,其中的ter表示第三版本。V.8是在PSTN网络上启动数据传输会话过程的协议。
在图20-11所示的多媒体系统中,下列系统模块虽不属于H.324标准定义的范围,但又是H.324所必须的。这些模块是:
电视输入/输出设备:包括摄象机、监视器、数字化器和它们的控制部件。
声音输入/输出设备:包括麦克风、喇叭和常规电话用到的部件数据应用设备(如计算机)、非标准化的数据应用协议和像电子白板那样的远程信息处理可视化辅助模块。
PSTN网络接口:支持国际标准定义的信号传输法、响铃功能和信号电压规范等。
用户系统控制、用户界面和操作等模块。
H.324标准定义的模块很多,有些模块在不同的应用环境中可以不选择,例如,“数据协议(V.14,LAPM等)”模块。但必不可少的模块是支持H.263、G.723.1、H.223和H.245协议的模块。
20.3.5 H.324多媒体电话终端参考设计由于多媒体电话终端有巨大的潜在市场,而且声音和图像数据压缩理论、制造技术和系统技术也日趋成熟,在国际电信联盟(ITU)制定H.324标准的同时就有许多公司开始开发H.324多媒体电话终端。Analog Devices公司就是其中的一个,图20-12表示的方案就是该公司的VidComTM H.324 VideoPhone可视电话参考设计方案。
VidComTM H.324可用作公众交换电话网络上的可视电话、电视会议和多媒体通信终端。该终端使用32位浮点数字信号处理器(DSP)执行电视图像压缩和解压缩以及系统控制功能,使用定点数字信号处理器执行声音的压缩和解压缩以及调制解调器的通信功能。按照该公司的文献介绍,该设计遵照H.324标准,可支持的功能包括:执行H.223多路复合/多路分解协议和H.245控制协议;执行G.723.1标准,包括回音取消(acoustic echo cancellation,AEC);执行H.263标准,支持的分辨率可达4CIF格式;内置V.34数据泵(datapump);数据端口可选择;编程功能可支持MPEG 1和MPEG 2的层1和层2的声音编译码、Dolby AC3数字声音和其他更高级的声音编译码,用于多媒体的各种应用。
图20-12 VidComTM H.324 VideoPhone参考设计
VidComTM H.324 VideoPhone参考设计是软硬件可升级的电路板,可用于机顶盒(set-top box)电视会议和多媒体电话应用。它使用数字信号处理器ADSST-VCxxxx SHARC( DSP执行电视图像的编译码和系统控制功能;使用两片数字信号处理器ADSST-2185 DSP分别用于执行声音的编译码和回音取消功能,以及V.34的数据泵(data pump)的功能。数据泵是调制解调器中根据调制解调器使用的技术来产生脉冲的芯片。
20.4 IP电话
20.4.1 IP电话的概念
IP电话(IP Telephony)、因特网电话(Internet telephony)和VoIP(Voice over IP)都是在IP网络即信息包交换网络上进行的呼叫和通话,而不是在传统的公众交换电话网络上进行的呼叫和通话。当前,IP电话用于长途通信时的价格比较PSNT电话的价格便宜得多些,但质量也比较低。尽管质量不尽人意,但IP电话仍然是最近几年来全球多媒体通信中的一个热点技术。
在信息包交换网络上传输声音的研究始于20世纪70年代末和80年代初,而真正开发IP电话市场始于1995年,VocalTec(www.vocaltec.com)公司率先使用PC软件在IP网络上的两台PC机之间实现通话。1996年科技人员在IP网络和PSTN网络之间的用户做了第一次通话尝试。1997年出现具有电话服务功能的网关,1998年出现具有电话会议服务功能的会务器,1999年是开始应用IP电话之年。千禧年开始IP电话将用在移动IP网络上,例如,通用信息包交换无线服务(General Packet Radio Service,GPRS)或者通用移动电话系统(Universal Mobile Telecommunications System,UMTS)。
IP电话允许在使用TCP/IP协议的因特网、内联网或者专用LAN和WAN上进行电话交谈。内联网和专用网络可提供比较好的通话质量,与公用交换电话网提供的声音质量可以媲美;在因特网上目前还不能提供与专用网络或者PSTN那样的通话质量,但支持保证服务质量(QoS)的协议有望改善这种状况。在因特网上的IP电话又叫做因特网电话(Internet telephony),它意味着只要收发双方使用同样的专有软件或者使用与H.323标准兼容的软件就可以进行自由通话。通过因特网电话服务提供者(Internet telephony service providers,ITSP),用户可以在PC机与普通电话(或可视电话)之间或者普通电话(或可视电话)之间通过IP网络进行通话。从技术上看,“VoIP”比较侧重于指声音媒体的压缩编码和网络协议,而“IP Telephony”比较侧重于指各种软件包、工具和服务。
20.4.2 IP电话与PSTN电话的技术差别为了解IP电话和PSTN电话在技术上的差别,首先看在IP网络上传送声音的基本过程。如图20–13所示,拨打IP电话和在IP网络上传送声音的过程可归纳如下,
来自麦克风的声音在声音输入装置中转换成数字信号,生成“编码声音样本”输出。
这些输出样本以帧为单位(例如30 ms为一帧)组成声音样本块,并拷贝到缓冲存储器。
IP电话应用程序估算样本块的能量。静音检测器根据估算的能量来确定:这个样本块是作为“静音样本块”来处理还是作为“说话样本块”来处理。
如果这个样本块是“说话样本块”,就选择一种算法对它进行压缩编码,算法可以是H.323中推荐的任何一种声音编码算法或者全球数字移动通信系统(Global System for Mobile Communications,GSM)中采用的算法。
在样本块中插入样本块头信息,然后封装到用户数据包协议(UDP)套接接口(socket interface)成为信息包。
信息包在物理网络上传送。在通话的另一方接收到信息包之后,去掉样本块头信息,使用与编码算法相反的解码算法重构声音数据,再写入到缓冲存储器。
从缓冲存储器中把声音拷贝到声音输出设备转换成模拟声音,完成一个声音样本块的传送。
图20–13 IP电话的通话过程从原理上说,IP电话和PSTN电话之间在技术上的主要差别是它们的交换结构。因特网使用的是动态路由技术,而PSTN使用的是静态交换技术。PSTN电话是在线路交换网络上进行,对每对通话都分配一个固定的带宽,因此通话质量有保证。在使用PSTN电话时,呼叫方拿起收/发话器,拨打被呼叫方的国家码、地区码和市区号码,通过中央局建立连接,然后双方就可进行通话。在使用IP电话时,用户输入的电话号码转发到位于专用小型交换机(private branch exchange,PBX)和TCP/IP网络之间最近的IP电话网关,IP电话网关查找通过因特网到达被呼叫号码的路径,然后建立呼叫。IP电话网关把声音数据装配成IP信息包,然后按照TCP/IP网络上查找到的路径把IP信息包发送出去。对方的IP电话网关接收到这种IP信息包之后,把信息包还原成原来的声音数据,并通过PBX转发给被呼叫方。
20.4.3 IP电话的通话方式
IP电话真正大量投入时,估计会有三种基本的通话方式:在IP终端(计算机)之间的通话,IP终端与普通电话(或可视电话)之间通过IP网络和PSTN网络的通话,以及普通电话(或可视电话)之间通过IP网络和PSTN网络的通话。
IP终端之间的通话方式如图20-14所示。在这种通话方式中,通话收发双方都要使用配置有相同类型的或者兼容的IP电话软件和相关部件,例如声卡、麦克风、喇叭等。声音的压缩和解压缩由PC机承担。
图20-14 IP终端与IP终端之间的通话
IP终端与电话终端之间的通话方式如图20-15所示。在这种通话方式中,通话的一方使用配置有IP电话软件和相关部件的计算机,另一方则使用PSTN/ISDN/GSM网络上的电话。在IP网络的边沿需要有一台配有IP电话交换功能的网关,用来控制信息的传输,并且把IP信息包转换成线路交换网络上传送的声音,或者相反。
图20-15 IP终端与电话终端之间的通话电话之间的通话方式如图20-16所示。在这种方式中,通话双方都使用普通电话、或者一方使用可视电话或者双方都使用可视电话。这种方式主要是用在长途通信中,在通话双方的IP网络边沿都需要配置有电话功能的网关,进行IP信息包和声音之间的转换及控制信息的传输。
图20-16 通过IP网络的电话之间的通话
20.4.4 IP电话标准开通IP电话服务需要使用的一个重要标准是信号传输协议(signalling protocol)。信号传输协议是用来建立和控制多媒体会话或者呼叫的一种协议,数据传输(data transmission)不属于信号传输协议。这些会话包括多媒体会议、电话、远距离学习和类似的应用。IP信号传输协议(IP signalling protocol)用来创建网络上客户的软件和硬件之间的连接。多媒体会话的呼叫建立和控制的主要功能包括用户地址查找、地址转换、连接建立、服务特性磋商、呼叫终止和呼叫参与者的管理等。附加的信号传输协议包括帐单管理、安全管理、目录服务等。
广泛使用IP电话的最关键问题之一是建立国际标准,这样可使不同厂商开发和生产的设备能够正确地在一起工作。当前开发ID电话标准的组织主要有ITU-T,IETF和欧洲电信标准学会(European Telecommunications Standards Institute,ETSI)等。人们认为两个比较值得注意的可用于IP电话信号传输的标准是ITU的H.323系列标准和IETF的入会协议(Session Initiation Protocol,SIP)。SIP是由IETF的MMUSIC(Multiparty Multimedia Session Control)工作组正在开发的协议,它是在HTML语言基础上开发的、并且比H.323简便的一种协议。该协议原来是为在因特网上召开多媒体会议开发的协议。H.323和SIP这两种协议代表解决相同问题(多媒体会议的信号传输和控制)的两种不同的解决方法。此外,还有两个信号传输协议被考虑为SIP结构的一部分。这两个协议是:会话说明协议(Session Description Protocol,SDP)和会话通告协议(Session Announcement Protocol,SAP)。iNOW!、因特网多媒体远程会议协会(International Multimedia Teleconferencing Consortium,IMTC)的VoIP forum和MIT因特网电话协会(MIT Internet Telephony Consortium)对不同标准和网络之间的协同工作比较感兴趣。
练习与思考题
ISDN网络和PSTN网络属于线路交换网络还是属于信息包交换网络?
目前的多媒体通信系统中的两个重要标准系列是什么?它们各自要达到什么目标?
分别列出H.323和H.324标准系列涉及的重要标准,并分别说明这些标准的用途。
什么叫做网关?网关的主要功能是什么?
什么叫做会务器?会务器的主要功能是什么?
H.323定义了哪几种形式的多点多媒体会议?
如果物质条件允许,上网调查可视电话的技术和发展趋势,然后写一篇调查报告。内容包括:①使用的标准,②各种标准的用途,③列表比较你比较喜欢的三种可视电话终端的外形图、性能指标和价格,④发表你对可视电话的评论。
如果物质条件允许,上网找一个IP电话试用软件,安装在两台多媒体计算机上,体验一下IP电话的质量,并分析有可能出现的问题,并发表你对IP电话的评论。
参考文献和站点
http://www.hssworld.com/products/voip/gatekeeper/gatekeeper_home.htm
http://www.imtc.org/h323.htm
ITU - Telecommunications Standardization Sector,Recommendation H.323,Visual Telephone Systems and Equipment For Local Area Networks Which Provide A Non-Guaranteed Quality Of Service,28 May,1996
Nicklas Beijar,Signaling Protocols for Internet Telephony,Architectures based on H.323 and SIP,Helsinki University of Technology,Laboratory of Telecommunications Technology,Otakaari 5 A,02150 ESPOO
ITU - Telecommunications Standardization Sector,Draft Revised Recommendation H.324 Version,Terminal for Low Bitrate Multimedia Communication,February,1998
http://www.dialogic.com/home.htm
http://www.videobridging.com/
***************************************************************************
20.1多媒体通信系统概要
20.1.1 体系结构
20.1.2 网关的功能和结构
20.1.3会务器的功能和结构
20.2 H.323电视会议
20.2.1 H.323的拓扑结构
20.2.2 H.323终端
20.2.3 H.323网关
20.2.4 H.323会务器
20.2.5 H.323多点控制单元
20.2.6 H.323多点电视会议
20.2.7 H.323协议堆
20.3 H.324可视电话
20.3.1 H.324系列标准
20.3.2 产品类型和预期质量
20.3.3 H.324多媒体系统
20.3.4 H.324多媒体电话终端
20.4 IP电话
20.4.1 IP电话的概念
20.4.2 IP电话与PSTN电话的技术差别
20.4.3 IP电话的通话方式
20.4.4 IP电话标准练习与思考题参考文献和站点
***************************************************************************
进入20世纪90年代以来,因特网对公众开放使人们使用电话线路的方式发生了明显的变化,这就是越来越多的人使用电话线路传输数据,而且增长的速度越来越快。公共网络正在将线路交换网络(circuit switched networks)和信息包交换网络(packet switched networks)紧密地融合在一起,这是当前的网络技术和信息工业的发展趋势。典型的线路交换网络是公众交换电话网络(PSTN),它可提供高质量的声音通信,但没有存储信息资源的能力;典型的信息包交换网络是IP网络(包括因特网和内联网等),它们存储有极其丰富的信息资源,但目前提供的声音通信质量还不如PSTN。至于电视图像的分辨率和质量,将由可利用的网络带宽来决定。
为了在这两种类型的网络上开发人们最喜欢和最自然的多媒体通信,国际电信联盟(ITU)制定了许多标准。其中,T.120,H.320,H.323和H.324标准组成了多媒体通信的核心技术标准。T.120是实时数据会议标准;H.320是综合业务数字网(ISDN)电视会议标准;H.323是局域网上的多媒体通信标准;H.324是公众交换电话网络上的多媒体通信标准。
本章主要介绍多媒体通信中的一些基本概念和两个最令人重视的标准:H.323和H.324。我们已经用PC机开发了一个采用H.324标准的可视电话模拟系统,深切感到在有国际标准或者有事实标准可用的情况下,要尽量采用国际标准,在没有标准可循的情况下要力争把科研成果变成标准。本章的侧重点是系统技术而不是单项技术。多媒体通信核心技术标准中用到的像声音、图像的核心算法已经在第2~10章中作了介绍,如果研究或者技术开发工作需要了解各种标准的细节,则建议阅读原文标准。
20.1多媒体通信系统概要
20.1.1 体系结构多媒体通信(multimedia communcations)是在位于不同地理位置的参与者之间召开的一种会议或者进行的交流,通过局域网(LAN)、广域网(WAN)、内联网(intranet)、因特网(Internet)或者电话网来传输压缩的数字图像和声音信号。像电视那样的多目标广播、录象机那样的流式播放、电话会议、电视会议、IP电话、可视电话和IP传真等等都是多媒体通信技术的一些具体的和各有特色的应用。多年来,国际电信联盟(ITU)为公共和私营电信组织制定了许多多媒体计算和通信系统的推荐标准,以促进各国之间的电信合作。ITU的26个(Series A~Z)系列推荐标准中,与多媒体通信关系最密切的7个系列标准如表20-01所示,三种类型的多媒体通信系统的核心技术标准集如表2002所示。
表20-01 ITU系列推荐标准系列名
主要内容
Series G
传输系统、媒体数字系统和网络
Series H
视听和多媒体系统
Series I
综合业务数字网(ISDN)
Series J
电视、声音节目和其他多媒体信号的传输
Series Q
电话交换和控制信号传输法
Series T
远程信息处理业务的终端设备
Series V
电话网上的数据通信
20世纪90年代初开发的电视会议标准是H.320,它定义通信的建立、数字电视图像和声音压缩编码算法,运行在综合业务数字网(Integrated Services Digital Network,ISDN)上,在56 kb/s传输率的通信信道上支持帧速率比较低的电视图像,而在1.544 Mb/s传输率的信道(即T1信道)上可以传输CIF格式的满帧速率电视图像;在局域网上的桌面电视会议(desktop video conferencing)采用H.323标准,这是基于信息包交换的多媒体通信系统;在公众交换电话网(public switched telephone network,PSTN)上的网桌面电视会议使用调制解调器,采用H.324标准。因特网上的电视会议目前大部分都趋向于采用H.323标准和正在开发的SIP标准(见20.4 IP电话),使用IP协议提供局域网上的电视会议,而全球的因特网电视会议目前还不能保证实时电视会议的服务质量。
表2002 3个主要的系列标准
H.320
H.323(V1/V2)
H.324
发布时间
1990
1996/1998
1996
应用范围
窄带ISDN
带宽无保证信息包交换网络
PSTN
图像编码
H.261,H.263
H.261,H.263
H.261,H.263
声音编码
G.711,G.722,G.728
G.711,G.722,G.728
G.723.1,G.729
G.723.1
多路复合控制
H.221,H.230/H.242
H.225.0,H.245
H.223,H.245
多点
H.231,H.243
H.323
数据
T.120
T.120
T.120
在多媒体通信标准中,电视图像的编码标准都采用H.261和H.263。H.261主要用来支持电视会议和可视电话,并于1992年开始应用于综合业务数字网络(ISDN)。该标准采用帧内压缩和帧间压缩技术,可使用硬件或者软件来执行。电视图像数据压缩后的数据速率为p×64 kb/s,其中P的变动范围为1~30,这取决于所使用的ISDN通道数。H.261支持CIF和QCIF的分辨率。H.263是在H.261的基础上开发的电视图像编码标准,用于低位速率通信的电视图像编码,目标是改善在调制解调器上传输的图像质量,并增加了对电视图像格式的支持。它们之间在电视图像格式方面的异同点见表20-03。
表20-03 电视图像编码器(H.261和H.263)
在多媒体通信标准中,采用的声音编码器的性能标准如表2004所示。上述三种主要的电视会议系统选择的声音编码标准是不同的,这主要是根据网络的带宽来选择。表中也列出了各种编码标准的速率、延时、要求的运算速度(MIPS)和声音质量(MOS)等性能。声音在当前的各种网络下的延时特性如图20-01所示。
表2004 声音编码器的性能
图20-01 声音在各种网络环境下的延时特性线路交换网络与信息包交换网络的融合是构造多媒体通信系统结构的出发点,因此我们使用图20-02所示的示意图来表示多媒体通信系统的结构。从图中可用看到,多媒体通信系统主要有下面几个部件组成:网关(gateway)、会务器(gatekeeper)和通信终端(terminal)。通信终端包括执行H.320、H.323或者H.324协议的计算机和执行H.324的电话机。此外,H.323还定义了一个叫做多点控制单元(Multipoint Control Unit,MCU)的部件,它是H.320和H.323的一个重要设备,可作为一个单独的设备接入到网络上,但现在开发的一些产品则把它要实现的功能集成到会务器中,因此图中未画出。在H.323协议中,把通信终端、网关、会务器或者MCU叫做端点(endpoint)。
图20-02 多媒体通信系统的整体结构示意图网关和会务器是多媒体通信系统的两个极其重要的组成部件。网关提供面向媒体的功能,例如,传送声音和电视图像数据和接收数据包等;会务器提供面向服务的功能,例如,身份验证、呼叫路由选择和地址转换等。网关和会务器密切配合完成多媒体通信的任务。
20.1.2 网关的功能和结构网关是一台功能强大的计算机或者工作站,它担负线路交换网络(如电话网络)和信息包交换网络(如因特网)之间进行实时的双向通信,提供异种网络之间的连通性,它是传统线路交换网络和现代IP网络之间的桥梁。
IP电话(见“17.4 IP电话”)的出现允许电话呼叫在信息包交换网络上进行,从而引发一场电信工业的革命。但IP电话在成为主流电话服务的道路上遇到了许多障碍。其中最大的一个问题是在IP电话网络和公众交换电话网络之间缺乏连通性。一个重要的原因是早期的网关存在对IP电话进入主流电话服务的限制。例如,通过网关建立呼叫比较困难,而且需要使用非常规的电话号码;不同的网关之间的兼容性妨碍呼叫的建立;声音的质量比较差、有回音以及延迟时间比较长等。这就促进了开发允许IP和PSTN客户能够相互通信的网关,其中的一个措施就是提高网关的处理能力。低档的网关有1~6个端口,典型地使用高档奔腾处理器的PC机方案,提供媒体处理、呼叫控制和信息包的处理等网关功能。高档网关把网关功能分散到几个处理器来实现,这叫做计算机基电话集成(computer-telephony integration,CTI)平台,可提供100多个端口。
网关的基本功能可归纳为三种:
(1) 转换协议(translating protocols):网关作为一个解释器,使不同的网络能够建立联系,例如,允许PSTN和H.323网络相互对话以建立和清除呼叫。
(2) 转换信息格式(converting information formats):不同的网络使用不同的编码方法,网关将对信息进行转换,使异种网络之间能够自由地交换信息,例如声音和电视。
(3) 传输信息(transferring information):负责在不同网络之间传输信息。
网关的主要部件包括:
(1) 线路交换网络(switched-circuit network,SCN)接口卡,这是一种典型的T1/E1或者叫做PRI ISDN线路接口卡,它们与线路交换网络进行通信。主速率接口(primary rate interface,PRI)由23个B通道和一个64 kb/s的D通道组成,叫做23B+D,相当于T1线的带宽。
(2) 数字信号处理器(digital signal processors,DSP)卡,它执行的任务包括声音信号的压缩和回音的取消等。
(3) 网络接口(network interfaces)卡,它用来与H.323网络进行通信,典型的网络卡包括10/100BaseT网络接口卡(network interface cards,NIC),或者把它们的功能集成到主机板上。
(4) 控制处理器(control processor),它协调其他网关部件的所有活动,这个部件通常是在系统的主机板上。
网关的主要软件包括:
(1) 执行所有网关基本功能和选择功能的网关软件。例如,H.323网关平台(Gateway Platform)执行转换协议、转换消息格式和传输信息等基本功能,支持声音压缩、协议转换、实时的传真解调/再调制以及执行H.323系列协议。
(2) 特定网关的应用软件,它执行自定义的功能以及管理和控制功能。
图20-03表示一种网关的基本结构以及网关如何使公共电话交换网络系统上的电话与现代的因特网电话之间进行会话。 图20-03中的时分多路复用(TDM)总线可以是MVIP总线或者SCSA总线。多厂商集成协议(MultiVendor Integration Protocol,MVIP)是由许多公司共同制定的一种用于PC机的声音总线和交换协议,是PC机中的通信总线,用于从一块声音卡到另一块声音卡的转接过程中复合多达256个全双工(full-duplex)的声音通道;信号计算系统结构(Signal Computing System Architecture,SCSA)是一种传输声音和电视图像信号的开放结构,用于设计和建造计算机电话服务机系统,它的总线叫做SCSA总线。这种结构是1993年由Dialogic Corporation公司(Parsippany,NJ,www.dialogic.com)发起并和其他70多个公司一起开发的。SCSA主要集中在信号计算、媒体(包括声音、图像和传真等的)管理、呼叫信号处理以及系统结构,它的模块化部件在大小、技术和性能上都提供灵活性,并可添加各种标准。
图20-03 网关的基本结构
20.1.3会务器的功能和结构会务器(gatekeepers)是用于连接IP网络上的H.323电视会议客户,是电视会议的关键部件之一,许多人把它当作电视会议的“大脑”。它提供授权和验证、保存和维护呼叫记录、执行地址转换而不需要你去记忆IP地址、监视网络、管理带宽以限制同时呼叫的数目从而保证电视会议的质量、以及提供与现存系统的接口。会务器的功能一般都是用软件来实现。会务器的功能分成两个部分:基本功能和选择功能。
1,会务器必须要提供的基本功能包括:
地址转换(Address Translation):使用一种可由注册消息(Registration messages)更新的转换表,把别名地址转换成传输地址(Transport Address)。这个功能在线路交换网络上的电话企图呼叫IP网络上的PC时显得尤其重要,在确定网关地址时也很重要。
准入控制(Admissions Control):使用准入请求/准入确认/准入拒绝ARQ/ARC/ARJ(Admission Request,Confirm and Reject)消息,对访问局域网进行授权。H323标准规定必须要有用来对网络服务进行授权的RAS消息(RAS messages),RAS是一个注册/准入/状态(Registration/Admission/Status)协议,但它不定义授权存取网络资源的规则或者政策,因此服务提供者需要会务器来干预现存的授权方法。此外,企业管理人员和服务提供者也许想使用他们自己的标准来授权,例如,根据订金、信用卡等。
带宽控制(Bandwidth Control):支持RAS带宽消息(RAS bandwidth messages),即带宽请求/带宽确认/带宽拒绝BRQ/BCF/BRJ(Request,Confirm and Reject)消息,以强制执行带宽控制。至于如何管理则要根据服务提供者或者企业管理人员的政策来确定。在许多情况下,如果在网络或者特定的网关不拥挤的的情况下,对任何带宽的请求都应该给予满足。
区域管理(Zone Management):用于管理所有已经注册的H.323端点(endpoint),为它们提供上面介绍的功能。至于确定哪个终端可以注册以及地理或者逻辑区域的组成(单个会务器管理的终端、网关和多点控制单元MCU)则由网络设计人员决定。
2,会务器提供的选择功能包括:
呼叫控制信号传输方法(Call Control Signalling):在H.323中有两种呼叫控制信号传输模型:会务器安排呼叫信号传输模型(Gatekeeper Routed Call Signaling Model)和直接端点呼叫信号传输模型(Direct Endpoint Call Signaling Model)。会务器可根据访问提供者的要求进行选择。
呼叫授权(Call Authorization):会务器可根据服务提供者指定的条件对一个给定的呼叫进行授权或者拒绝。其条件可包括会议时间、预定的服务类型、对受限网关的访问权限或者可用的带宽等。
带宽管理(Bandwidth Management):根据服务提供者指定的带宽分配确定是否有足够的带宽用于呼叫。
呼叫管理(Call Management):提供智能呼叫管理。会务器维护一种H.323呼叫表以指示被呼叫终端是否处于忙状态,并为带宽管理(Bandwidth Management)功能提供信息。
3,会务器的结构会务器通常设计成内外两层,如图20-04所示。会务器的内层叫做核心层,它由执行H.323协议堆的软件和实现多点控制单元MCU(multipoint control unit)功能的软件组成,有的软件开发公司把它叫做H.323会务器核心功能部件。MCU的主要功能是连接多条线路并自动或者在会议主持人的指导下手动交换电视信号。
会务器的外层由许多应用程序的接口组成,用于连接网络上现有的许多服务。外层软件可由下面的软件模块组成:
用户的授权和验证(user authentication & authorization):处理所有用户的授权,并使用现有的远程验证电话接入用户服务RADIUS (Remote Authentication Dial-In User Service)协议进行验证。
事务管理接口(administration interface):为管理人员提供会务器的管理界面;对享有设置/修改/删除配置的特权的用户提供服务权限;会务器的远程管理;显示网络状态、统计、报警等。
网络管理(network management):为简单网络管理协议SNMP(Simple Network Management Protocol)代理程序提供注册终端数目、正在工作的终端数目、呼叫数目、分配带宽、正在使用的带宽和保留的可用带宽、网关资源分配和可用的网关资源、MCU资源的分配和可用的MCU资源、内部资源信息和运行状态。
安全管理(security)
辅助功能(supplementary features):服务质量(QoS)等级的选择、呼叫者线路识别描述 (Caller Line Identification Presentation,CLIP)、呼叫者线路识别限定(Caller line Identification Restriction,CLIR )、呼叫等待(Call Waiting)、呼叫保持(Call Hold)、呼叫分机代接(Call Park/Pickup)、呼叫转移(Call Transfer)、呼叫遇忙/无答应转移(Call Forward on Busy/No answer)、缩位拨号(Abbreviated dialling)、优先线路(Priority lines)的服务管理以及对接收的传真的存储和转发(Incoming FAX store and forward)。
媒体资源服务(media resource services):报警服务(Alarm service)、声音邮件服务(Voice mail services)和使用交互声音应答的互相配合的服务(Interworking with Interactive Voice Response services)。
目录服务(directory services):与网络上执行简便目录存取协议LDAP (Lightweight Directory Access Protocol)的目录服务器联用,与域名服务器DNS(Domain Name Server)联用。
帐单管理模块(billing module)
支持的附加协议包括:H.225(在Q.931基础上开发的呼叫控制协议)、H.245(多媒体通信控制协议)、H.450(辅助服务协议)、H.235(安全)以及资源管理等协议。
图20-04 会务器的功能和基本结构[1]
20.2 H.323电视会议
20.2.1 H.323的拓扑结构
1996年批准的H.323是一个在局域网(LAN)上并且不保证服务质量(QoS)的多媒体通信标准。H.323允许声音、电视图像和数据任意组合之后进行传送。H.323指定包括H.261和H.263作为电视图像编码器,指定G.711,G.722,G.728,G.729和G.723.1作为声音编码器。此外,还包括网关(gateways)、会议服务器(gatekeeper)和多点控制设备(MCU)。H.323广泛支持因特网电话(Internet telephony)。
H.323是H.320的改进版本。H.320阐述的是在ISDN和其他线路交换网络上的电视会议和服务。自从1990年批准以来,许多公司已经在局域网(LAN)上开发了电视会议,并通过网关扩展到广域网(WAN),H.323就是在这种情况下对H.320作了必要的扩充。H.323使用因特网工程特别工作组(Internet Engineering Task Force,IETF)开发的实时传输/实时传输控制协议(Realtime Transport Protocol / Real-Time Transport Control Protocol,RTP/RTCP),以及国际标准化的声音和电视图像编译码器。1998年2月批准的H.323版本2也正在应用到因特网上的多点和点对点的多媒体通信中。
H.323要支持以前的多媒体通信标准和设备,因此扩充后比较详细的拓扑结构如图20-05所示。从图中可以看到,H.323不仅仅在局域网上通信,而且还可通过H.323网关在公众交换电话网 (PSTN)、窄带综合业务数字网(N-ISDN)上的终端和宽带综合业务数字网(B-ISDN)网上的终端进行通信;从图20-05中还可看得组成H.323多媒体通信系统的基本部件:H.323终端、H.323网关、H.323会务器和H.323 MCU。使用合适的代码转换器,H.323网关还可支持遵循V.70,H.324,H.322,H.320,H.321和H.310标准的终端。
图20-05 H.323拓扑结构[3]
20.2.2 H.323终端
H.323终端是局域网上的客户使用的设备,它提供实时的双向通信,它的组成部件如图20-06所示。在H.323终端中,可供选择的标准包括电视图像编码器(H.263/H.261)、声音编码器(G.71X/G.72X/G.723.1)、T120实时数据会议(real time data conferencing)和MCU的功能。但所有的H.323终端都必须具备声音通信的功能,而电视图像和数据通信是可选择的。H.323指定了在不同的声音、电视图像和数据终端在一起工作时所需要的运行方式,是新一代因特网电话、声音会议终端和电视会议终端技术的基础。
所有H.323终端必须支持H.245标准。H.245是1998年9月批准的多媒体通信控制协议,它定义流程控制、加密和抖动管理、启动呼叫信号、磋商要使用的终端的特性和终止呼叫等过程,它也确定那一方是发布各种命令的主控方。此外,H.323还需要支持的协议包括定义呼叫信令和呼叫建立的Q.931标准、与网关进行通信的注册/准入/状态(RAS)协议和实时传输/实时传输控制协议(RTP/RTCP)。
图20-06 H.323终端结构
20.2.3 H.323网关在H.323会议中,网关是一个可选择的部件,因为如果电视会议不与其他网络上的终端连接时,同一个网络上的终端之间就可以直接进行通信。网关可建立连接的终端包含PSTN终端、运行在ISDN网络上与H.320兼容的终端以及运行在PSTN上与H.324兼容的终端。终端与网关之间的通信使用H.245和Q.931。H.323网关提供许多服务,但最基本的服务是对在H.323会议终端与其他类型的终端之间传输的数字信号进行转换。这个功能包括传输格式之间的转换(例如,从H.225.0标准到H.221标准的格式转换)和通信过程之间的转换(例如,从H.245标准到H.242标准)。此外,H.323网关也要支持声音和电视图像编译码器之间的转换,执行呼叫建立和终止呼叫的功能。图20-07表示的是一个H.323/PSTN网关。
在H.323标准中,许多网关功能都没有作具体的限制。例如,能够通过网关进行通信的实际的H.323终端数目、SCN的连接数目、同时支持召开的电视会议数目、声音/电视图像/数据转换的功能等,这些功能的选择和设计都留给网关设计师。
图20-07 H.323网关[3]
20.2.4 H.323会务器会务器是H.323中最重要的部件,是它管辖区域里的所有呼叫的中心控制点,并且为注册的端点提供呼叫控制服务。从多方面看,H.323会务器就像是一台虚拟的交换机。
会务器执行两个重要的呼叫控制功能。一个是定义在RAS规范中的地址转换,即从终端别名和网关的LAN别名转换成IP或者网际信息包交换协议(Internetwork Packet Exchange,IPX)地址;另一个也是在RAS规范中定义的网络管理功能。例如,如果一个网络管理员已经设定在局域网上同时召开的会议数目,一旦超过这个设定值时会务器可拒绝更多的连接,以限制总的会议带宽,其余的带宽用于电子邮件、文件传输和网上的其他应用。由单个会务器管理的所有终端、网关和多点控制单元(MCU)的集合被称为H.323区域(H.323 Zone)。这个概念如图20-08示。
会务器的一个可供选择但有价值的特性是它可安排H.323的呼叫。这个特性便于服务提供者管理使用他们的网络进行呼叫的帐目,也可以在被呼叫端点不能使用的情况下把呼叫转接到另一个端点。此外,这个特性还可用来平衡多个路由器之间的呼叫负荷。
在H.323系统中,会务器不是必须的。但如果有会务器存在时,终端必须要使用会务器提供的服务功能。这些功能就是地址转换、准入控制、带宽管理和区域管理。
图20-08 会务器[3]
20.2.5 H.323多点控制单元多点控制单元(MCU)支持在3个或者3个以上的端点之间召开电视会议。在H.323电视会议中,一个MCU单元由多点控制器MC(Multipoint Controller)和个多点处理器MP(Multipoint Processors)组成。MC处理H.245推荐标准中指定的在所有终端之间进行协商的方法,以便确定在通信过程中共同使用的声音和电视图像的处理能力。MC也控制会议资源,确定哪些声音和电视数据流要向多个目标广播,但不直接处理任何媒体流。MP处理媒体的混合以及处理声音数据、电视图像数据和数据等。MC和MP可以作为单独的部件或者集成到其他的H.323部件。
20.2.6 H.323多点电视会议按照H.323标准,可以召开各种形式的多点电视会议,如图20-09所示。H.323标准可支持的会议形式包括:①由D、E和F终端参加的集中式电视会议,②由A、B和C终端参加的分散式电视会议,③声像集散混合式多点电视会议,④会议集散混合式多点电视会议。图中的多点控制单元(MCU)在这些会议中起一个桥梁的作用。
在集中式电视会议(centralized multipoint conference)中,需要一个MCU来管理多点会议,所有终端都要以点对点的方式向MCU发送声音、电视图像、数据和控制流。MCU中的MC集中管理使用H.245控制功能的电视会议,而MP处理声音混合、数据分发、电视图像切换/混合,并且把处理的结果返回给每个与会终端。MP也提供转换功能,用于在不同的编译码器和不同的位速率之间进行转换,并且可使用多目标广播方式发送经过加工的电视。
在分散式电视会议(decentralized multipoint conference)中,与会终端以多目标广播的方式向没有使用MCU的所有其他与会终端广播声音和电视图像。与会终端响应和显示综合接收到的声音以及选择一个或者多个接收到的电视图像,而多点数据的控制仍然由MCU集中处理,H.245控制信道(H.245 Control Channel)信息仍然以点对点的方式传送到MC。
声像集散混合式多点电视会议(hybrid multipoint conference)有两种形式:声音集中广播混合式多点电视会议(hybrid multipoint conference - centralized audio)和电视集中广播混合式多点电视会议(hybrid multipoint conference - centralized video)。在前一种形式中,终端以多目标广播形式向其他与会终端播放他们的电视,而以单目标广播形式把声音传送给多点控制单元(MCU)中的多点处理器(MP),然后由MP把声音流发送给每个终端;在后一种形式中,终端以多目标广播形式向其他与会终端播放他们的声音,而以单目标广播形式把电视图像传送给多点控制单元(MCU)中的多点处理器(MP)进行切换和混合,然后由MP把电视图像流发送给每个终端。混合式电视会议组合使用了集中式和分散式电视会议的特性。
会议集散混合式多点电视会议(mixed multipoint conferences)是由以集中方式召开的会议(如图20-09中的D、E和F参加)和以分散方式召开的会议(如图中的A、B和C参加)组合的一种会议形式。
图20-09 H.323 MCU[3]
20.2.7 H.323协议堆协议堆(protocol stack)是在不同网络层次上一起工作的协议集合。在协议堆中,中间层的协议使用其下层协议提供服务,并向其上层协议提供服务。H.323协议堆包罗了众多的协议,如图20-10所示。从图中可以看到,H.323协议堆旗号的控制和数据信息通过可靠的传输控制协议(TCP)协议进行传输,而声音数据、电视数据、声音/电视的控制信息以及部分会务控制信息则通过可靠性不保证的用户数据包协议(UDP)来传输。
这些协议可通过软件集成到信息包交换网络上的协议堆中,因此可在信息包交换网络上进行实时的多媒体通信。按照H.323标准构造的部件可在IP网络上建立呼叫、交换压缩的声音/电视数据和召开会议,并且还能够与非H.323端点进行通信。
图20-10 H.323协议堆结构
20.3 H.324可视电话
20.3.1 H.324系列标准可视电话这个术语早在20世纪60年代就已经出现,人们一直孜孜不倦地追求在模拟电话线路上实现视听通信。初期的可视电话产品需要使用ISDN电话线以高于普通模拟电话线的速率来传输电视图像和声音,这就使这种可视电话产品的推广应用受到限制。随着28.8 kb/s调制解调器的出现,世界上立即就开发出了许多在模拟电话线上使用的第一代可视电话产品。可是一个公司的可视电话产品与另一个公司的可视电话产品不能相互协同工作,这就妨碍了产品的推广。H.324就是为解决这个问题而开发的一个可视电话标准,现在已被国际电信联盟(ITU)采纳并作为世界可视电话标准。它指定了一种普通的方法,用来在用高速调制解调器连接的设备之间共享电视图像、声音和数据。H.324是第一个指定在公众交换电话网络上实现协同工作的标准。这就意味下一代的可视电话产品能够协同工作,并且为市场增长打下了基础。
H.324系列是一个低位速率多媒体通信终端标准,在它的旗号下的标准包括:
H.263:电视图像编码标准,压缩后的速率为20 kb/s。
G.723.1:声音编码标准,压缩后的速率为5.3 kb/s(用于声音+数据)或者6.3 kb/s。
H.223,低位速率多媒体通信的多路复合协议。
H.245:多媒体通信终端之间的控制协议。
T120:实时数据会议标准(可视电话应用中不一定是必须的)。
H.324使用28.8 kb/s调制解调器来实现可视电话呼叫者之间的连接,这与PC用户使用调制解调器和电话线连接因特网或者其他在线服务的通信方式类似。调制解调器的连接一旦建立,H.324终端就使用内置的压缩编码技术把声音和电视图像转换成数字信号,并且把这些信号压缩成适合于模拟电话线的数据速率和调制解调器连接速率的数据。在调制解调器的最大数据速率为28.8 kb/s的情况下,声音被压缩之后的数据率大约为6 kb/s,其余的带宽用于传输被压缩的电视图像。
20.3.2 产品类型和预期质量
H.324可支持各种类型的采用H.324标准的可视电话机。在今后若干年里将有可能看到各种各样的可视电话产品,其类型可归纳成下面几种:
标准型可视电话/单机型可视电话(standalone video phone):这种产品与我们现在使用的非移动型和移动电话类似,但在电话机上安装有摄象机和LCD显象器。
TV基可视电话(TV-based video phone):这种产品是一种放在电视机上的多媒体电话终端,它内置有摄象机,使用电视机作为可视电话的电视显示器。
PC基可视电话(PC-based video phone):这种产品实际是给PC机添加一种功能而已。利用PC机作为可视电话终端时,在PC机上需要安装执行H.324系列标准的可视电话软件,需要配置图像数字化卡和声音卡作为图像和声音的输入/输出设备,用彩色显示器显示电视图像,用计算机内部的处理器对电视图像和声音进行压缩解压缩,并且用28.8 kb/s或者56 K调制解调器连接其他的可视电话终端,具备以上条件就可把PC当作一个可视电话终端。
H.324可视电话的声音质量接近普通电话的质量。按H.324标准规定,电视图像的帧速率取决于显示的图像大小。例如,如果可视电话连接双方都使用QCIF(176×132)的图像分辨率,电视图像的帧速率可达到4~12 帧/秒,接近于普通电视图像帧速率的一半。但其实际的帧速率将与多媒体终端的计算速度、用户选择的显示窗口大小以及当地的线路质量有关。
H.324可视电话几乎不改变人们使用电话的习惯。与普通电话类似,把可视电话插入到办公室或者家庭的电话插座中,使用声音呼叫在先(voice call first)方式与使用可视电话的被呼叫方建立连接,这是最简单的连接方法。拨打可视电话与拨打普通电话相同,被呼叫方一旦响应呼叫,用户就可简单地在可视电话机上按一个“连接键”,或者在PC基可视电话机上按一个“连接”图标就可以选择可视电话方式,如何进行“面对面”的通话。
20.3.3 H.324多媒体系统
H.324定义的多媒体电话终端可运行在公众交换电话网络上,尽管线路的速率受到极大的限制,但在两个多媒体电话终端之间可提供实时的电视图像、声音、数据或者任意组合的媒体。如果在公用电话交换网络上安装单独的多点控制设备(MCU),在网络上的多个H.324多媒体电话终端之间就可进行多点通信。H.324定义的多媒体终端也可与综合业务数字网(ISDN)上的可视电话系统(定义在H.323系列标准中)和移动无线网络上的可视电话系统(定义在H.324/M系列标准草案中)联用。
H.324多媒体可视电话终端系统如图20-11所示。从图中可以看得,该系统由下面几个部件组成:H.324多媒体电话终端、PSTN网络、多点控制设备(MCU)和其他的输入/输出部件。
图20-11 H.324多媒体系统方框图[5]
20.3.4 H.324多媒体电话终端
H.324多媒体电话终端由两个部分组成:H.324本身定义的模块和非H.324定义的模块。H.324本身定义的模块包括:
电视编译码器:使用H.263或者H.261标准对电视图像进行编码和解码。
声音编译码器:使用G.723.1标准对来自麦克风的声音信号进行编码,然后传输到对方,并且对来自对方的声音进行译码,然后输出到喇叭。图中“接收通道延时”模块用于补偿电视信号的延时,以维持声音和电视的同步。
数据协议(V.14,LAPM等):支持的数据应用可包括电子白板(electronic whiteboards)、静态图像传输、数据库访问、声图远程会议(audiographics conferencing)、远程设备控制、网络协议等等。标准化的数据应用包括T.120(用于实时的数据加声音的声图远程会议)、T.80(用于简单的点对点静态图像文件传输)、T.434(用于简单的点对点文件传输)、H.224/H.281(用于远端摄象机控制)、ISO/IEC TR9577网络协议(包括PPP和IP协议)以及使用缓存的V.14或者LAPM/V.42的用户数据传输。LAPM/V.42是定义使用调制解调器链路访问协议(Link Access Protocol for Modems)的错误校正方法标准。支持的其他协议可通过H.245协商。
控制协议(H.245):提供H.324终端之间的通信控制。H.245是多媒体通信控制协议,它定义流程控制、加密、抖动管理以及用于启动呼叫、磋商双方要使用的特性和终止呼叫等信号。此外它也确定那一方是发布各种命令的主控方。
多路复合/多路分解(H.223):它提供两种功能。一种是把要传送的电视、声音、数据和控制流复合成单一的数据位流;另一种功能是把接收到的单一位流分解为各种媒体流。此外,它还执行逻辑分帧(logical framing)、顺序编号、错误检测、通过重传校正错误等。
调制解调器(V.34/V.8):它提供两种功能。一种是把来自“多路复合/多路分解(H.223)”模块的同步的多路复合输出数据位流转换成能够在PSTN网络上传输的模拟信号;另一种功能是把接收到的模拟信号转换成同步数据位流,然后送给“多路复合/多路分解(H.223)”进行分解。“调制解调器控制(V.25 ter)”用于自动应答设备和自动呼叫设备的通信过程,其中的ter表示第三版本。V.8是在PSTN网络上启动数据传输会话过程的协议。
在图20-11所示的多媒体系统中,下列系统模块虽不属于H.324标准定义的范围,但又是H.324所必须的。这些模块是:
电视输入/输出设备:包括摄象机、监视器、数字化器和它们的控制部件。
声音输入/输出设备:包括麦克风、喇叭和常规电话用到的部件数据应用设备(如计算机)、非标准化的数据应用协议和像电子白板那样的远程信息处理可视化辅助模块。
PSTN网络接口:支持国际标准定义的信号传输法、响铃功能和信号电压规范等。
用户系统控制、用户界面和操作等模块。
H.324标准定义的模块很多,有些模块在不同的应用环境中可以不选择,例如,“数据协议(V.14,LAPM等)”模块。但必不可少的模块是支持H.263、G.723.1、H.223和H.245协议的模块。
20.3.5 H.324多媒体电话终端参考设计由于多媒体电话终端有巨大的潜在市场,而且声音和图像数据压缩理论、制造技术和系统技术也日趋成熟,在国际电信联盟(ITU)制定H.324标准的同时就有许多公司开始开发H.324多媒体电话终端。Analog Devices公司就是其中的一个,图20-12表示的方案就是该公司的VidComTM H.324 VideoPhone可视电话参考设计方案。
VidComTM H.324可用作公众交换电话网络上的可视电话、电视会议和多媒体通信终端。该终端使用32位浮点数字信号处理器(DSP)执行电视图像压缩和解压缩以及系统控制功能,使用定点数字信号处理器执行声音的压缩和解压缩以及调制解调器的通信功能。按照该公司的文献介绍,该设计遵照H.324标准,可支持的功能包括:执行H.223多路复合/多路分解协议和H.245控制协议;执行G.723.1标准,包括回音取消(acoustic echo cancellation,AEC);执行H.263标准,支持的分辨率可达4CIF格式;内置V.34数据泵(datapump);数据端口可选择;编程功能可支持MPEG 1和MPEG 2的层1和层2的声音编译码、Dolby AC3数字声音和其他更高级的声音编译码,用于多媒体的各种应用。
图20-12 VidComTM H.324 VideoPhone参考设计
VidComTM H.324 VideoPhone参考设计是软硬件可升级的电路板,可用于机顶盒(set-top box)电视会议和多媒体电话应用。它使用数字信号处理器ADSST-VCxxxx SHARC( DSP执行电视图像的编译码和系统控制功能;使用两片数字信号处理器ADSST-2185 DSP分别用于执行声音的编译码和回音取消功能,以及V.34的数据泵(data pump)的功能。数据泵是调制解调器中根据调制解调器使用的技术来产生脉冲的芯片。
20.4 IP电话
20.4.1 IP电话的概念
IP电话(IP Telephony)、因特网电话(Internet telephony)和VoIP(Voice over IP)都是在IP网络即信息包交换网络上进行的呼叫和通话,而不是在传统的公众交换电话网络上进行的呼叫和通话。当前,IP电话用于长途通信时的价格比较PSNT电话的价格便宜得多些,但质量也比较低。尽管质量不尽人意,但IP电话仍然是最近几年来全球多媒体通信中的一个热点技术。
在信息包交换网络上传输声音的研究始于20世纪70年代末和80年代初,而真正开发IP电话市场始于1995年,VocalTec(www.vocaltec.com)公司率先使用PC软件在IP网络上的两台PC机之间实现通话。1996年科技人员在IP网络和PSTN网络之间的用户做了第一次通话尝试。1997年出现具有电话服务功能的网关,1998年出现具有电话会议服务功能的会务器,1999年是开始应用IP电话之年。千禧年开始IP电话将用在移动IP网络上,例如,通用信息包交换无线服务(General Packet Radio Service,GPRS)或者通用移动电话系统(Universal Mobile Telecommunications System,UMTS)。
IP电话允许在使用TCP/IP协议的因特网、内联网或者专用LAN和WAN上进行电话交谈。内联网和专用网络可提供比较好的通话质量,与公用交换电话网提供的声音质量可以媲美;在因特网上目前还不能提供与专用网络或者PSTN那样的通话质量,但支持保证服务质量(QoS)的协议有望改善这种状况。在因特网上的IP电话又叫做因特网电话(Internet telephony),它意味着只要收发双方使用同样的专有软件或者使用与H.323标准兼容的软件就可以进行自由通话。通过因特网电话服务提供者(Internet telephony service providers,ITSP),用户可以在PC机与普通电话(或可视电话)之间或者普通电话(或可视电话)之间通过IP网络进行通话。从技术上看,“VoIP”比较侧重于指声音媒体的压缩编码和网络协议,而“IP Telephony”比较侧重于指各种软件包、工具和服务。
20.4.2 IP电话与PSTN电话的技术差别为了解IP电话和PSTN电话在技术上的差别,首先看在IP网络上传送声音的基本过程。如图20–13所示,拨打IP电话和在IP网络上传送声音的过程可归纳如下,
来自麦克风的声音在声音输入装置中转换成数字信号,生成“编码声音样本”输出。
这些输出样本以帧为单位(例如30 ms为一帧)组成声音样本块,并拷贝到缓冲存储器。
IP电话应用程序估算样本块的能量。静音检测器根据估算的能量来确定:这个样本块是作为“静音样本块”来处理还是作为“说话样本块”来处理。
如果这个样本块是“说话样本块”,就选择一种算法对它进行压缩编码,算法可以是H.323中推荐的任何一种声音编码算法或者全球数字移动通信系统(Global System for Mobile Communications,GSM)中采用的算法。
在样本块中插入样本块头信息,然后封装到用户数据包协议(UDP)套接接口(socket interface)成为信息包。
信息包在物理网络上传送。在通话的另一方接收到信息包之后,去掉样本块头信息,使用与编码算法相反的解码算法重构声音数据,再写入到缓冲存储器。
从缓冲存储器中把声音拷贝到声音输出设备转换成模拟声音,完成一个声音样本块的传送。
图20–13 IP电话的通话过程从原理上说,IP电话和PSTN电话之间在技术上的主要差别是它们的交换结构。因特网使用的是动态路由技术,而PSTN使用的是静态交换技术。PSTN电话是在线路交换网络上进行,对每对通话都分配一个固定的带宽,因此通话质量有保证。在使用PSTN电话时,呼叫方拿起收/发话器,拨打被呼叫方的国家码、地区码和市区号码,通过中央局建立连接,然后双方就可进行通话。在使用IP电话时,用户输入的电话号码转发到位于专用小型交换机(private branch exchange,PBX)和TCP/IP网络之间最近的IP电话网关,IP电话网关查找通过因特网到达被呼叫号码的路径,然后建立呼叫。IP电话网关把声音数据装配成IP信息包,然后按照TCP/IP网络上查找到的路径把IP信息包发送出去。对方的IP电话网关接收到这种IP信息包之后,把信息包还原成原来的声音数据,并通过PBX转发给被呼叫方。
20.4.3 IP电话的通话方式
IP电话真正大量投入时,估计会有三种基本的通话方式:在IP终端(计算机)之间的通话,IP终端与普通电话(或可视电话)之间通过IP网络和PSTN网络的通话,以及普通电话(或可视电话)之间通过IP网络和PSTN网络的通话。
IP终端之间的通话方式如图20-14所示。在这种通话方式中,通话收发双方都要使用配置有相同类型的或者兼容的IP电话软件和相关部件,例如声卡、麦克风、喇叭等。声音的压缩和解压缩由PC机承担。
图20-14 IP终端与IP终端之间的通话
IP终端与电话终端之间的通话方式如图20-15所示。在这种通话方式中,通话的一方使用配置有IP电话软件和相关部件的计算机,另一方则使用PSTN/ISDN/GSM网络上的电话。在IP网络的边沿需要有一台配有IP电话交换功能的网关,用来控制信息的传输,并且把IP信息包转换成线路交换网络上传送的声音,或者相反。
图20-15 IP终端与电话终端之间的通话电话之间的通话方式如图20-16所示。在这种方式中,通话双方都使用普通电话、或者一方使用可视电话或者双方都使用可视电话。这种方式主要是用在长途通信中,在通话双方的IP网络边沿都需要配置有电话功能的网关,进行IP信息包和声音之间的转换及控制信息的传输。
图20-16 通过IP网络的电话之间的通话
20.4.4 IP电话标准开通IP电话服务需要使用的一个重要标准是信号传输协议(signalling protocol)。信号传输协议是用来建立和控制多媒体会话或者呼叫的一种协议,数据传输(data transmission)不属于信号传输协议。这些会话包括多媒体会议、电话、远距离学习和类似的应用。IP信号传输协议(IP signalling protocol)用来创建网络上客户的软件和硬件之间的连接。多媒体会话的呼叫建立和控制的主要功能包括用户地址查找、地址转换、连接建立、服务特性磋商、呼叫终止和呼叫参与者的管理等。附加的信号传输协议包括帐单管理、安全管理、目录服务等。
广泛使用IP电话的最关键问题之一是建立国际标准,这样可使不同厂商开发和生产的设备能够正确地在一起工作。当前开发ID电话标准的组织主要有ITU-T,IETF和欧洲电信标准学会(European Telecommunications Standards Institute,ETSI)等。人们认为两个比较值得注意的可用于IP电话信号传输的标准是ITU的H.323系列标准和IETF的入会协议(Session Initiation Protocol,SIP)。SIP是由IETF的MMUSIC(Multiparty Multimedia Session Control)工作组正在开发的协议,它是在HTML语言基础上开发的、并且比H.323简便的一种协议。该协议原来是为在因特网上召开多媒体会议开发的协议。H.323和SIP这两种协议代表解决相同问题(多媒体会议的信号传输和控制)的两种不同的解决方法。此外,还有两个信号传输协议被考虑为SIP结构的一部分。这两个协议是:会话说明协议(Session Description Protocol,SDP)和会话通告协议(Session Announcement Protocol,SAP)。iNOW!、因特网多媒体远程会议协会(International Multimedia Teleconferencing Consortium,IMTC)的VoIP forum和MIT因特网电话协会(MIT Internet Telephony Consortium)对不同标准和网络之间的协同工作比较感兴趣。
练习与思考题
ISDN网络和PSTN网络属于线路交换网络还是属于信息包交换网络?
目前的多媒体通信系统中的两个重要标准系列是什么?它们各自要达到什么目标?
分别列出H.323和H.324标准系列涉及的重要标准,并分别说明这些标准的用途。
什么叫做网关?网关的主要功能是什么?
什么叫做会务器?会务器的主要功能是什么?
H.323定义了哪几种形式的多点多媒体会议?
如果物质条件允许,上网调查可视电话的技术和发展趋势,然后写一篇调查报告。内容包括:①使用的标准,②各种标准的用途,③列表比较你比较喜欢的三种可视电话终端的外形图、性能指标和价格,④发表你对可视电话的评论。
如果物质条件允许,上网找一个IP电话试用软件,安装在两台多媒体计算机上,体验一下IP电话的质量,并分析有可能出现的问题,并发表你对IP电话的评论。
参考文献和站点
http://www.hssworld.com/products/voip/gatekeeper/gatekeeper_home.htm
http://www.imtc.org/h323.htm
ITU - Telecommunications Standardization Sector,Recommendation H.323,Visual Telephone Systems and Equipment For Local Area Networks Which Provide A Non-Guaranteed Quality Of Service,28 May,1996
Nicklas Beijar,Signaling Protocols for Internet Telephony,Architectures based on H.323 and SIP,Helsinki University of Technology,Laboratory of Telecommunications Technology,Otakaari 5 A,02150 ESPOO
ITU - Telecommunications Standardization Sector,Draft Revised Recommendation H.324 Version,Terminal for Low Bitrate Multimedia Communication,February,1998
http://www.dialogic.com/home.htm
http://www.videobridging.com/