第八章 主动视觉与融合 8.1 主动视觉 以往视觉方法特点: l 作为主体的视觉系统被动地接收外界的信息 l 处理过程复杂、难以实现而且没有充分考虑生物视觉的特点 以往视觉方法忽略的问题: l 中央凹 (Fovea)的高分辨能力和视网膜上其它部分 (不妨称之为外围视觉 )的相对较低的分辨 能力之间的差异。 l 眼动 (Eyemovement)功能,这里的眼动是一个广义的概念,实际上往往伴随有头部的追随 运动 )。 在人类的视觉中正是这两个特性的完美结合使得人类一方面具有宽广的视野同时又具有高 度的分辨能力。主动视觉 (Active Vision)在某种意义上就是对这些特征的模拟。 主动视觉的概念 l 主动视觉 ( Active Vision)是相对于被动视觉 (Passive Vision)而提出的概念 l 主动对纯视觉系统而言就是移动能力 这种能力对生物体表现为空间上的移动 ,而对人造的计算机视觉系统还可以表现为频率上 或不同光谱带上的移动。在广义上对机器人系统而言,这种主动还表现为可以去触摸、去拿对 象物等。 l 主动行为都是有目的的 (Purposive),并且与定性 (Qualitative)视觉的研究结合在一起。 在主动视觉系统中,由于主体的运动可以提供附加约束,这样就使得部分病态的问题变成良态 的。 8.1.1 从阴影恢复形状 由阴影恢复形状是视觉研究中的一个重要问题,其输入的是图象中每一点的亮 度,而所期望得到的输出是在可视表面上对应点的深度或表面法线方向。 理论上讲,深度图包含所有有关表面的信息并且表面法线也能从深度图中直接 计算出来。 实际上,计算法线是无法获得足够的精度。 采用主动视觉方法可以克服这些局限。 最简单的从阴影恢复形状的解决方法是只采用一幅物体表面图象,并在求解时 常采用下面的假设: (1)表面光滑; (2)表面的反射特性在整个表面上都相同,通常假定为 Lamber表面; (3)点光源的光线在整个表面都相同; (4)图象没有噪音。 在以上假设的基础上便可以写出表面与其法线的函数关系,这一关系在逼近 理想表面时达到最优。这个函数关系式在通常情况下是非线性的,其中包含有许 多未知数 (每点的深度和法线 ),因此实际上很难达到全局最优。基于上述这些假 设可以得到一些非常好的结果,但是实际上,这些假设并非特别有效,究其原因 在于这些假设和实际情况相去甚远。 采用同一表面的两幅图象可以改善这一情况。相对一幅图象而言,把两幅图 象的信息结合起来,为最优化 增加了额外的约束条件 ,使最小化问题的求解变得 容易。在这种情况下,只须考虑那些沿可能匹配方向上的点,即沿内极线方向上 的点,但这时必须首先解决两幅图象的对应问题。当两个摄像机相隔很近时,很 容易建立两幅图象之间点的对应关系,而且当两摄象机之间的距离很小时就允许 对所包含的函数进行一阶泰勒展开,从而可以将方程线性化。但是摄像机间短基 线对应使这种方法的精度极为有限。反过来如果多个摄像机间相距很远,并且能 够解决对应问题,所得的结果当然会很精确,但解决直接这个问题还存在很多困 难。 主动视觉为融合上述两种方法的优点,并克服其缺点提供了相应的解决途径。 首先,采用多观察点解决对应问题。实际上,对于 Lamber表面,正如前面第五章 表明的那样,采用三个摄象机就能解决大多数对应模糊的问题,稳定性和可靠性 也得到了改善,但多视点并没有使我们逃脱非线性最优化问题。对于这一类多变 量非线性问题,好的初始估计是最终收敛于全局最优的重要条件。采用主动方法 处理从阴影恢复形状问题的关键是将基于长、短基线的方法相融合,通过短基线 方法提供初始估计指导长基线方法的优化。 基于主动视觉的从阴影恢复形状包括以下两个阶段: 1. 短基线阶段。在这个阶段,可以取相邻的图象帧作为短基线图象对。由于 问题在这里可以近似是线性的,因而容易求解,为深度和表面方向提供了初始估计 值。 2. 长基线阶段。利用初始估计得到精确的结果。 从这种方法中可以看到,我们能独立地在单点上恢复可见物体的几何形状,而不需 要前面所提及的假设和基于整个物体上的优化,因此,尽管数据量巨大,但工作比 以前要容易得多,所有一切都是稳定的并且允许噪声的存在。 8.1.2 从运动恢复结构 在这一领域采用的方法基本上可以分为两大类即基于小位移值的和基于大位移 值的方法。前者主要是利用光流计算而后者则要考虑对应问题,尽管两类方法形式 不同,但结果是一致的。正如前面章节中讨论的那样这两个问题的解决都是不可靠 的,因而在被动视觉系统中从运动恢复结构也是难以彻底解决的。 在以往被动方法中存在的主要问题在于: 1. 二维和三维运动间的约束关系是非线性的,从 (6.49)式中我们可以看出 这一点; 2. 未知参数空间是高维的。 尽管已经有一些直接处理上述问题的方法,但由于涉及光流的高阶导数,考虑 到噪声的影响,因而其解往往是不可靠的。 在主动视觉系统中要求摄象机系统是可控的,即有一个伺服系统控制其运动, 这种控制的依据是图象的内容,并可以使其凝视在某一固定的目标上,由于凝视某 一目标要求能够确定凝视点,因此这又是一个重要的问题。这一问题的解决可以从 日常生活中的一个现象得到启发:当人们在高速行驶的列车上向窗外观察时,可以 发现物体是在绕某一 (远处的 )凝视点在旋转,因此如果将光轴指向某一目标,则其 光流为零,由此可以确定对目标的跟踪。 参考坐标系 ( , , )X Y Z 固定在摄象机上,另一个物体坐标系 ( , , )X Y ZS S S 固定在物体点 S上, 这两个坐标系保持平行,物体在坐标系 ( , , )X Y ZS S S 下的旋转速度为 ? = ( )α β γ t ,平移速度 为 T U V WS S S S t= ( ) ,物体上点 P 在参考坐标系下为 ( , , )X Y Z ,则相对于参考坐标系的速度 为 & & & X Y Z T R X X Y Y Z Z S S S ? ? ? ?? ? ? ? ?? = + ? ? ? ? ? ? ?? ? ? ? ?? (8.12) 考虑投影关系,类似于第六章,可以得到二维与三维速度场间的关系为: u fU xWZ xyf x YZ f f ZZ xf xXZ YZ f y v fV yWZ f f ZZ yf yYZ xyf y XZ XZ f x S S S S S S S S S S S S = ? ? ?? ?? ? ?? + ? + ?? ?? ? ?? + ???? ??? = ? ? ? + ?? ?? ? ?? + ?? ?? ? ?? ? ?? ?? ? ?? ? ? ?? ? ? ? a b g a b g 2 2 (8.13) 其中 f为焦距,为简化起见,在下面的讨论中取 f = 1 。 如果使参考坐标系 ( , , )X Y Z 与物体坐标系 ( , , )X Y ZS S S 重合,则 (8.12)式可简化为: [ ] [ ] u U xWZ xy x y v V yWZ y xy x = ? ? + + ? = ? ? + + + ? ?? ?? a b g a b g 1 1 2 2 (8.14) 上式中当 Z 与 U,V,W成比例变化时不影响其关系成立,因此不可能得到唯一解,最终将差 一个比例系数,由 (8.14)式中消去 Z 后有 x x y y u xy x y v y xy x 0 0 2 2 1 1 ? ? = + ? + + + + ? ? α β γ α β γ (8.15) 其中 x UW y VW0 0= =, 采用被动视觉方法处理从运动恢复结构最后都要处理类似于 (8.15)式的高维非线性问题,因而 是非常困难的。 下面我们考虑主动方法所能带来的好处。 考虑固定点 S在图象上投影 ( , )x yS S ,在视平面上的运动速度与空间运动速度的关系为: u U x WZ v V y WZ s S S S S s S S S S = ? = ? (8.16) 由 (8.13)及 (8.16)式有 [ ]u u x x WZ xy xx yZ xy x y v v y y WZ yy x y xZ y xy x S S S S S S S S S S S S = + ? ′′ + ? + +′ ? + + ? = + ? ′′ + + ? ?′ ? + + + ? ? ? ? ? ( ) ( ) ( ) ( ) ( ) a b g a b g a b g a b g 1 1 1 1 2 2 (8.17) 其中 ′ =W WZS S S , S S Z ZZ =′ 上面的分析表明只要能够准确地定位特征点,约束方程就可以降低一维。如果能够将光心始终 指向某一特征点,使其在视平面上的位置为 (0,0),同时光流值也为 (0,0),则问题将更为简化。 我们下面通过一个二维运动的例子加以说明。 设有一个移动式机器人,其上装有一个可以旋转的摄象机 C。设摄象机的平移和旋转速度分别 为 T U V W T= ( ) 和 R A B C T= ( ) 。 P X Y Z T= ( ) 为空间中一点 P的瞬时位置,则其瞬时 速度记为 ( )′ ′ ′ = ??? ???X Y Z dXdt dYdt dZdtT T 。 由此,在成象面上点 P的 y方向上的速度分量为: v fYZ fY ZZ f VZ A Cxf y WZ Bf x Af y= ′ + ′ = ? + ? + ? + ?2 ( ) ( ) (8.19) 其中, ( , )x y 是点 P在成象面 xoy上的投影。 由于地面移动式机器人通常是做二维平面上的运动,因此假定没有垂直方向的运动,这在室内 情况下完全可以满足。 在机器人的运动过程中需要使固定点 F 始终处于光轴上,这要求在没有 X 方向运动时, F 与摄 象机同高,同样我们也只关心那些与摄象机同高景物上的特征点,并对机器人的运动做以下限 制:机器人要么做直线运动,要么做以 F 为圆心的转动 当机器人做直线运动时,其俯视图如图 8.1所示。 O |OF| L | r | 固 定 点 成 象 面 机 器 人 路 径 D y 景 物 点 ? θ ? U0 S F 图 8.1 直线运动示意图 设机器人的移动速度为 U0 ,由于只有二维运动,故: R T= ( )ω 0 0 , T U U T= ( cos sin )0 0 0? ? 代入等式 (8.19),有: v U y fZ f yf= ? + + ?0 2( sin cos ) ( )? ? ω (8.20) 由于 F在光轴上,故而其投影座标为 ( , )0 0 ,光流也为零,于是: | | cosOF U= 0 ?ω 而对于景物点 S,有: | | ( sin cos )r U y f v f yf = + ? + ? 0 2 ? ? ω ω 记 β =| |/| |r OF ,并且设 U0 0≠ ,则: β ? ω = + ? + f y f v yf tan 2 由基本的几何关系有: θ β β= ??tan ( )1 1yf (8.21) L D= ?1 βθ ?cos cos (8.22) 8.1.3 主动跟踪 近年来主动跟踪方法受到了高度的重视,一些主动跟踪方法如 Snake技术、变形模板等技 术被广泛用于模型匹配、边缘跟踪等方面。我们这里重点讨论变形模板方法及其在人脸面部部 件检测中的应用。 在视觉系统中提取具有逻辑意义的边界特征是非常重要的,实际上这类边界可以是相当复 杂的,一些简单的技术往往难以胜任,变形模板就是可以用于这类研究的技术之一。 在计算机视觉研究中模板匹配是一种相当经典的技术。其基本的形式是采用相关计算。这 种方法对于某些领域是相当有效的,但却具有很多缺点,例如当物体存在变形或光照条件发生 变化时,这种经典的方法常常会失败,因此需要一种技术能够克服上述困难。变形模板就是一 种试图解决这类问题的方法。 变形模板由下列三个要素构成: ? 参数化的几何模型,在这个模型中应包括参数的先验概率,这个模型对应几何测量的 配准程度; ? 成象模型,这个模型用于表明变形模板将如何进行形变; ? 匹配算法,用于将几何和成象模型与图象相匹配。 将上述模型用概率的方式进行描述就是如下的关系: 假定对应模板参数 g 的模板 T g( )的先验概率为 P g( ) ,成象模型 P I T g( | ( )) 给定 了从模板 T g( )产生图象 I 的概率,这样一来可以用 P I T g P g( | ( )) ( ) 来合成特征,同 时通过 Bayes规则得到匹配的程度度量为: P T g I P I T g P T gP I( ( )| ) ( | ( )) ( ( ))( )= (8.23) 这样,变形模板问题归结为 { }arg max ( ( )| ) g P T g I 。 8.1.4.1 通过变形模板提取面部特征 面部特征提取是一个具有相当挑战性的问题,其原因在于面部的灰度阶跃很 少即使是对于眼睛或嘴也是如此,因此一般的边缘检测算法常常难以奏效。相比 之下面部灰度的峰谷特征及其相对位置关系却稳定得多。采用变形模板进行面部 特征提取通常会取得较好的效果,我们下面以眼睛和嘴巴特征的提取说明变形模 板的应用。 一 . 眼睛特征的提取 眼睛的变形模板模型如图 8.2所示。在眼睛的模型中包含 11个参数 g x x r a b c p pt c= ( , , , , , , , , )r r θ 1 2 (其 中 r a b c p p, , , , ,1 2 0≥ ) 。眼球模型化为半径为 r 圆心在 rxc 点的圆。定义两个方向向量 ( )re1 = ? sin ,cosq q , ( )re2 = cos ,sinq q ,眼睛由两条抛物线围成,抛物线的形状由参数 a,b,c 决定。写成参数方程形式有 r r r r r r r r x x te ab t a e x x te c cb t e t b e e = + + ???? ??? = + + ???? ??? ≤ 1 2 2 2 1 2 2 2 ( )| | (8.24) x y xexc a b cb p2 r p1θ 图 8.2 眼睛的变形模板模型 (一 ) 先验模型 考虑在一般的眼睛模型中具有以下特点: ? 眼球球心与眼轮廓中心尽可能靠近 ; ? 眼白最亮点间距离近似等于眼宽度与眼球直径和的一半 ; ? 眼睛宽度近似为眼球直径的两倍 ; ? 上轮廓的高度近似为下轮廓高度的两倍,眼睛宽度近似为上轮廓高度的四倍。 于是眼睛的先验模型可以表达为 E k x x k p p r b k b r k c a b aprior e c= ? + + ? + + ? + ? + ?1 2 2 1 2 2 3 2 4 2 22 2 2 2 2 2r r ( ) ( ) ( ) ( ) (8.25) (二 ) 成象模型 在眼睛模型的变化中,考虑到眼球 (谷值 )、眼白 (峰值 )以及边缘 (包括眼球和眼轮廓 )的作用,同 时由于在原图象中这些作用都反映同一幅图象中,必须采用不同的统计方法,为此先将原图象Φ I 进行变换,分别得到强调谷值、峰值和边缘的图象 Φ Φv p, 和 Φe ,这样可以采用简单的积分 进行计算。考虑变形能量: E cR x dAv c vR c = ? ∫1 Φ ( )r (8.26) E cR x ds cR x dse c eR w eR c w = ? ?∫ ∫2 3? ? ? ? Φ Φ( ) ( )r r (8.27) ∫∫ Φ?Φ= wc R I wR I c I dAxR cdAx R cE )()( 54 rr (8.28) { }E c x p e x p ep p e p e= + + ?6 1 1 2 1Φ Φ( ) ( )r r r r (8.29) 这里 R R R Rc w c w, , ,? ? 分别表示眼球和眼白的区域和边缘, | |,| |,| |,| |R R R Rc w c w? ? 表示眼球和眼白的 区域面积和边缘的周长, dA ds, 表示对面积和弧长积分。 (三 ) 匹配算法 这里的匹配算法最后转化为 { }min E E E E E Ev e I p prior= + + + + (8.30) 这里要处理的多变量的优化问题,一般情况下这是比较困难的,考虑到该问题的物理背景我们 采用分阶段优化的方法,在优化时采用梯度下降法,实验表明这种方法可以达到较好的效果。 优化过程具体分以下几个阶段进行: 1. 谷值引导的眼球球心定位。这时只有谷值能量作用,在眼球模板的作用下将眼球拖向 正确位置附近。 2. 眼球球心与半径的确定。增加眼球圆形区域和边缘能量的系数,这将使得眼球的位置 和半径逐渐趋于最优值。 3. 利用眼白能量的外轮廓旋转与平移。利用眼白峰值的能量使得眼外轮廓旋转并平移到 正确位置附近。 4. 利用眼轮廓和眼白的能量旋转与平移。利用眼轮廓和眼白的能量使得眼轮廓旋转并平 移到正确位置附近。 5. 参数细优化。利用所有能量项对各项系数进行细优化。 采用这一方法对眼睛图象定位的过程如图 8.3所示。 图 8.3 基于可变模板的主动眼轮廓跟踪 二 . 嘴部特征的提取 与前面眼睛模型相比,嘴的变化更为多样化,同时嘴的轮廓特别是下唇的外轮廓常常比较模糊, 因此就更需要采用变形模板这类技术。类似于前面,首先讨论嘴的变形模板模型,我们对张嘴 和闭嘴的模型分别进行讨论。 (一 ). 闭嘴特征提取 闭嘴的变形模板模型如图 8.4所示,由 10个参数 g x a b b c hm= ( , , , , , ,r 1 2 u u1 2, , )θ (其中 b b c h1 2 0, , , > ) 决定。不考虑旋转,上唇表达为如式 (8.31)的两条抛物线: y y h u u b x x u b y y h u u b x x u b u u u m m u m m 1 2 1 2 1 1 1 2 1 1 0 05 1 1 2 1 2 1 1 2 2 2 2 1 2 2 2 2 1 2 ? = ? ? ? ? +? ?? ? ?? ? = ? ? ? ? ?? ?? ? ?? ∈ ( ) ( ) ( ) ( ) , ( , . ) (8.31) a c h b1 u1 u2 b2 xm y x Pl Pu Pv 图 8.4 闭嘴的可变模板模型 参数 rx a b b c hm , , , , ,1 2 的意义是明显的, u u1 2, 体现对上抛物线最高点位置的度量。 下唇可以表达如 (8.32)式的开口向上的抛物线, y y a c b b x x b bl m m? = + ? + ? ? ???? ???? ? ? ? ? ? ? ? ( ) ( )1 4 2 1 2 2 1 2 (8.32) 类似地,中间的内唇可以表达为, ??? ? ??? ? ?????? ???+?=? 2 12 21 2)( 41 bbxx bbayy mmv (8.33) 1. 先验模型 考虑嘴的一般性特点: ? 上唇两条抛物线的最高点靠近嘴的中间,即 u u1 2, 相对较小 ; ? 关于中轴对称,即 b b1 2≈ ; ? 上下唇之间存在一定的比例关系; ? 唇的宽度大于下唇的厚度。 于是先验模型可以表达为 : 2 21 43 2 212 2 211 )()()( ??? ? ??? ? ++?+?++= bb hkhckbbkuukE prior l (8.34) 2.成象模型 在嘴模型的变化中,可以考虑嘴内唇的暗区域以及边缘的作用,类似于前面的处理方法将 原图象 ΦI 进行变换,分别得到强调谷值和边缘的图象 Φv 和 Φe ,这样可以采用简单的积分 进行计算。考虑变形能量: E cP x dsv v vP v = ? ∫1 Φ ( )r (8.35) E cP x ds cP x dse u eP l eP u l = ? ?∫ ∫2 3Φ Φ( ) ( )r r (8.36) P P Pv u l, , 分别表示内唇、上唇和下唇的抛物线。 3. 匹配算法 最后,匹配算法等价为 { }min E E E Ev e prior= + + (8.37) 对于 (8.37)的优化,仍然可以采用分阶段优化的方法。 (二 ) 张嘴特征提取 与闭嘴模型不同的是在张嘴模型中有上下两条内唇线,这两条内唇线所对应的的区域都是 暗区域,所有唇线都可模型化为抛物线,如图 8.5所示。类似于前面闭嘴模型可以写出这五 条唇线所对应的方程, a h h b1 u1 u2 b2 xm y x t ta b b P1 P 2 P3 P4 P5 图 8.5 张嘴的变形模板模型 P y y a hu u b x x u b u P y y a hu u b x x u b u P y y a b b x x b b m t t m m t t m m t m 1 1 1 2 1 2 1 1 2 1 2 2 2 2 1 2 2 2 2 2 3 1 2 2 1 1 2 1 1 0 05 1 2 1 1 0 0 5 1 4 2 : ( ) ( ) ( , . ) : ( ) ( ) ( , . ) : ( ) ? = +? ? ? ? +? ?? ? ?? ∈ ? = +? ? ? ? ?? ?? ? ?? ∈ ? = ? + ? ? ???? ? ?? ? ? ? ? ? ? ? ? ? = ? + ? ? ???? ???? ? ? ? ? ? ? ? ? = + ? + ? ? ???? ???? ? ? ? ? ? ? ? 2 4 1 2 2 1 2 5 1 2 2 1 2 1 4 2 1 4 2 P y y a b b x x b b P y y a h b b x x b b m b m m b b m : ( ) : ( ) ( ) (8.38) 在先验模型中除了在闭嘴模型中考虑的因素外,还应考虑上下内唇的张开程度应尽可能相近, 即 E k a ab t= ?5 。在成象模型中沿内唇对暗区域的积分应同时考虑上下唇的作用。类似前面的 过程可以得到优化的目标函数并可采用分阶段优化的方法进行优化。 8.2 视觉计算与融合技术 在视觉计算中,信息融合已开始受到广泛的重视。 融合技术特别是多传感器信息的融合在机器人系统中已日益受到重视,在视觉计算上融合 技术也得到了广泛的应用,例如将立体视与 Shape from Shading相结合计算三维形状等。 融合是指将从多个感知源得到的信息特征组合到一起成为一致的表达形式的处理过程。 融合技术的特点 是利用多种或 多个传感器 在时空上的 互补性 及信息上的 相关性 以期对景物进行更全面的描 述。这里所说的传感器是广义上的,甚至进行数据处理的算法过程也可以认为是一种传感器。 融合可以在不同的层次上进行,对于视觉信息而言可以在信号、象素、特征乃至符号推理级上 进行。不同级的多通道融合可提供用于不同目的的系统信息:信号级融合可用于实时应用,可 认为是整个信息处理过程中的一步;象素级融合可提高分割等方面的图象处理能力;特征级及 符号级融合可为物体识别系统提供额外的特征以提高识别能力。 信息融合的优点在于: ? 冗余性。 当多个感知通道感知的是对环境中的同一对象的相同侧面但又具有不同的 可信度或精度时,多通道提供的信息表现为冗余信息。对冗余信息的融合可以减少噪声等不确 定性因素的影响,提高感知的正确性,而且通过多个感知通道提供冗余信息,在某感知源失效 的情况下仍保证系统可用 (容错 ),增加了系统的可靠性。 ? 互补性。 如果把感知对象的特征数看成是特征空间的维数时,当每个感知源只能感 知特征的子集,即子空间,而且不同感知源感知的特征是相互独立时,则多通道提供的信息表 现为互补信息。互补信息可以提供对外部世界更加全面的认识。 ? 时效性。与单一通道相比,多信息的融合可以提供更为详细的信息,而且,单一通道 由于处理时间上的限制,无法在较短的时间间隔内提供足够的信息,多信息的融合恰恰可以弥 补这一点。 ? 信息的低成本。 8.2.1 融合处理中需考虑的问题 多传感信息的融合并不就是多个传感信息的简单相加,而是一个综合处理过程。 需要考虑的问题有如下几点: ? 融合的时空一致性。 在互补融合中由于融合的对象来源于不同的传感器或处理算法,因而必须考虑同时性,即 在时间上是同一时刻的对象,在空间上必须变换至同一坐标系下。 例:立体视觉中的对准。 ? 传感器模型与噪声抑制。 ? 融合的方法。 在信息融合时,由于不同信息源之间可能会产生各种不同的关系,如:相互成为佐证,彼 此无关或相抵融等等,如何使这些相容或不相容的内容融合在一起是融合技术中需要考虑的一 个重要方面,由于融合可以在不同层次上进行,不同层次上的融合其具体方法也不相同。 表 8.2 不同融合级的比较 信号级 象素级 特征级 符号级 传感信息类型 一维或多维信号 多幅图象 特征 符号表达 信息表达级别 低 低 →中 中 高 传感信息模型 受不相关噪声干扰 的随机变量 多维随机过程 几何形状、方向、 位置等特征 具有不确定性特征 的符号 空间配准程度要求 高 高 中 低 时间配准程度要求 高 中 中 低 空间配准方法 传感信号合并 传感信号合并或共 享光路 几何变换 符号空间属性 时间配准方法 同步或估计 同步 同步 符号时间属性 融合方法 信号估计 图象估计或象素属 性合并 几何和时间对应, 特征属性合并 逻辑或统计推断 融合的结果 减少噪声的方差 改善图象处理的性 能 提高特征的准确 性,增加特征数量 增加信度或提高概 率值 8.2.2不同级融合的一个例子 图 8.6提供了不同级多感知通道融合应用于自动目标识别的例子。在图中,五个通道的信 息被用来识别坦克:两个毫米波雷达,一个红外成象仪,一个提供视觉信息的可见光摄象机以 及一个无线电信号检测器。 两个雷达假定是时间及空间一致的,这样它们的数据可在信号级上进行融合。 信号级融合 一方面可提高目标的检测能力,另一方面又可产生目标的距离图象。 该距离图象又可与同一平台上的红外传感器提供的深度图象进行 象素级融合 ,融合后的图 象既可提高目标分割能力,又可作为特征提取过程的输入。 由象素级融合图象所提取的特征又可与摄像机视觉图象提供的相似特征进行 特征级融合 , 融合后的特征一方面可提高目标方向测量的准确性,同时又可作为物体识别过程的输入特征。 识别过程的输出是一符号,由此符号又可与无线电信号检测器提供的相似符号进行 符号级 融合 ,融合后的符号作为系统最终的坦克识别结果。 在图 8.6 所示的结构中,在最低级的表示中初始通道转换成信号级信息。经过几步融合,信号 转换成更高级的抽象数字及符号表示。这种 “信号-符号”的转换过程在计算机视觉的处理过 程中具有普遍的意义。 信 号 级 融 合 信 号 处 理 信 号 处 理 特 征 级 融 合 特 征 提 取 特 征 提 取 符 号 级 融 合 目 标 识 别 目 标 识 别 象 素 级 融 合 成 象 过 程 成 象 过 程 P (Tank) =0.7 P (Tank) =0.94 P (Tank) =0.8 红 外 成 象 仪 毫 米 波 雷 达 可 见 光 摄 象 机 无 线 电 信 号 检 测 检 测 分 割 测 量 识 别 系 统 8.2.3融合的一般方法 8.2.3.1信号级的融合方法 信号级融合是指为了提供与初始形式相同的信号,将一组通道的信号相结合从而提供质量 高的信号。 通道信号可用受到不相关噪声干扰的随机变量表示。融合过程可认为是估计过程。 特点 : ★信号级融合要求通道之间高度的一致。 ★ 用融合后信号的期望方差值来衡量信号级融合的质量 几种常用的信号级融合方法。 1.加权平均 这是一种最简单、最直接的信号融合方法,将多通道提供的冗余信息加权平均作为融合值,这 种方法能实时处理动态低层数据。对 n个传感器各自的测量值为 x i ni ( , , , )= 1 2 L ,权为 wi ,其加 权测量值为, x w xi i i N = = ∑ 1 (8.39) 其中 wi i N = ∑ = 1 1 2.Kalman滤波 与加权平均相比, Kalman滤波可以更好地用于实时融合动态低级冗余数据。它利用估 计模型的统计特点,迭代估计统计意义下的最优融合值。 3.一致性感知的 Bayes估计 这种方法的本质是首先剔除很可能有误差的传感信息,利用剩下的一致传感信息计算 融合值, 局 部 传 感 数 据 预 处 理Z1 Z2 Zn 信 度 距 离 度 量 ( 距 离 矩 阵 与 关 系 )矩 阵 关 系 矩 阵 局 部 传 感 数 据 预 处 理 局 部 传 感 数 据 预 处 理 距 离 图 表 (示 求 最 大 完 全 连 通 )子 图 Bayes基 于 模 型 的 全 局 估 计 最 优 融 合 传 感 数 据 传 感 数 据 检 测 (最 优 融 合 估 计 与 非 最 大 完 全 连 通 子 图 数 据 )间 距 离 X1 X Xn 2 Y1 Y Yn 2 X j X 原 始 数 据 归 一 化 数 据 格 式 一 致 性 传 感 数 据 其 它 需 校 验 的 传 感 数 据 误 差 校 正 图 8.7 一致性传感数据融合方法 8.2.3.2象素级的融合方法 象素级融合可通过多幅图象的结合来提高图象中每个象素的信度或增加每个象素的信息 量。例如距离图象与二维强度图象的融合可以增加图象中每个象素的深度信息。 特点 : l 用于融合的不同图象可来自一个图象通道 (如多光谱摄像机 )也可来自多个通道 (如立体 视 )。 l 在融合方法上可以是一个象素一个象素地进行融合,也可以是象素相关局部邻域的融 合。 l 一般情况下将融合的图象模型化为随机过程,从而将融合过程等价为估计过程。 l 若用于融合的图象分辨率不同,则图象对应区域需映射。 l 包含某些信号级融合方法 象素级的融合可以提高系统低层处理的能力。例如使分割更为可靠,特征更具可分性等。 象素级融合的主要方法有:逻辑滤波、形态学方法、图象代数等。 1.逻辑滤波 将逻辑算子作用于象素值是最简单的融合方法。例如若两个象素值都高于某一阈值,则 AND滤波的结果为真。 2.形态学方法 在图象分析中数学形态学是一种非常有代表性的方法,它通过对图象中的每个象 素应用一组形态算子来变换图象,这些算子是从基本的集合运算如并、交、差及其条 件组合等导出的。例如,膨胀和腐蚀算子可各自用于对图象中区域的膨胀与收缩。 3.图象代数方法 图象代数是一种描述图象处理算法的高层代数语言。 图象代数有四个基本类型的操作数:坐标集、值集、图象和模板。 坐标集可以定义为矩形、六边形,环形的离散阵列或矩形阵列的层数,它为表达 具有不同排列或分辨率的感知图象提供了一致的方法。 “值集”通常对应整数、实数和复数 集,或者是定长二进数集,并且其上定义有 通常的算术和逻辑操作。 “图象”是最基本的图象代数操作数,它被定义为从坐标集到值集的一个函数。 “模板”和模板操作是图象代数中的最强有力的工具,它用于统一数学实体如模 板、屏蔽、窗口以及数学形态学的结构基元或其它定义在象素相邻关系上的函数。 模板操作通常用于转换图象,并能用与实现无关或机器无关的方式定义某一图象处理 算法。 数据融合可以看作是从高维值集到某一低维值集的映射。 8.2.3.3特征级方法 特征级融合方法可以 ①提高由传感信息提取的特征准确性。 ②产生复合特征或新特征。 原始特征是通过对一些传感数据的时间段或空间段处理结果赋予语义获取的,而合成特 征是通过现存的特征组合构成的。 当多个传感器对提供环境中同一位置的特征相似时,则实际存在的特征的信度及所测数 据准确度将提高,不具有这样特性的特征则被作为伪特征而被删除。 融合过程或是产生特征组合 (例如,一个边界是由不同通道检测到的边缘段构成 )或是产 生一种新特征 (例如,三维边界是立体摄像机所提供图象对应边缘的合成 )。几何形式、朝向、 特征位置以及时间段是特征表示的核心,因此需要与与其它特征相融合。 特征级融合对于融合对象的配准需求不象信号级及象素级融合那么严格,因而传感器可 分布于不同平台上。 对特征级融合能力的考核可从以下几个方面衡量: l 在消除伪特征方面所需的处理代价; l 测量特征准确性的提高 l 融合特征对系统整体性能提高所带来的好处。 特征级融合的方法: 1.具有约束的 Gauss-Markov估计。 2. 广义 Kalman滤波 8.2.3.4符号级方法 符号级融合方法使得多通道信息在最高层得到有效的利用,特别是当多个传感通道数据不 相似或针对环境中的不同区域时。 符号: l 对传感器提供信息的处理结果。 l 系统外根据关于世界模型的先验知识推理的结果。 符号级融合方法主要为不同形式的逻辑和统计推理方法。在逻辑推理中,被融合的个体符 号表示为逻辑表达式中的项,不确定性度量表示项中的可信度。在统计推理中,被融合的个体 符号用条件概率表示,其不确定性度量对应于与表达式相关的概率测度。 符号级融合在本质上是通过推理过程改变对应符号的可信度或概率值。 1.Bayes估计 Bayes估计提供了一种多感知信息的融合方法,它是根据概率论规则进行信息组合,不确 定性用条件概率 P Y X( | ) 表示。若 X为常数,则 P Y P Y X( ) ( | )= 。 Bayes估计是基于下面 Bayes规 则进行的: P Y X P X Y P YP X( | ) ( | ) ( )( )= (8.40) 利用或然率或似然率以及 Bayes估计可以进行冗余信息的融合,从传感器 Si 所观测得 到与 Y有关的 Xi 的概率为 P X Yi( | ) ,同时记从传感器 Si 所观测得到与 Y无关的 Xi 的概率为 P X Yi( | ),由似然率有: L X Y P X Y P X Yi i i ( | ) ( | ) ( | ) = (8.41) 定义 Y的先验或然率为 : O Y P YP Y( ) ( )( )= (8.42) 假定系统中每个传感通路相互独立,给定 n个通道信息 X X X n1 2, , ,L , Y的后验或然率为: O Y X X O Y L X Yn i i n ( | , , ) ( ) ( | )1 1 L = = ∏ (8.43) 后验或然率与后验概率的关系为: P Y X X O Y X XO Y X Xn n n ( | , , ) ( | , , )( | , , )1 1 11 L LL= + (8.44) 若假定单个传感通路的序列信息所包含的不确定性是相互独立的,则上式也可用来融合 序列信息。 2.Dempster-Shafer证据推理 证据推理是在 Bayes估计基础上发展起来的, Bayes方法的一个缺点是对无先验信息的处 理,此时一般以等概率来处理,当获取信息的未知部分 (未知命题 )的数量大于已知部分时, Bayes 方法会使已知部分 (已知命题 )的概率变得不稳定。而在 Dempster-Shafer方法中对未知部分并不 分配先验概率 (未知部分被赋予 “忽略” ),从而避免了这一问题。通过对变为有效信息的部分 赋予概率以减少忽略的数量。 Garvey等人把 Dempster-Shafer推理的应用引入了多传感器融合,这使得不同的传感器提供 各自层内的细节信息,例如,一个传感器能提供用于区分单个对象的信息,而从另一个传感器 获取的信息只能提供区分对象类的信息。相对而言, Bayes方法就不能融合从两个不同传感器 获取的这类信息。 在 Dempster-Shafer证据推理中,命题集合为 Θ,由互斥互补的单个命题构成,给定含有 n个 单个命题集合 Θ,其幂集记为 2Θ ,包含 2n 个元素。设每个传感器 Si 对应的命题集 为{ } A Aj j| ∈2Θ ,表示它能够直接提供的信息,所对应的命题集的基本概率为: { } [ ]m A Ai j j: | ,∈ →2 0 1Θ (8.45) 考虑到概率的归一化,要求基本概率满足 mi( )φ = 0 和 m A i j Aj ( ) ∈ ∑ = 2 1 Θ 对于 Si ,其信度函数定义为: bel A m Ai i j A Aj ( ) ( )= ? ∑ (8.46) 以此来决定每个命题 A的最小似然度。类似地分别定义 “可疑程度”、 “似然度”和 “不 确定程度”为: dbt A bel Ai i( ) ( )= (8.47) pls A dbt Ai i( ) ( )= ?1 (8.48) u A pls A bel Ai i i( ) ( ) ( )= ? (8.49) Dempster组合规则可以用来融合来自两个传感器 Si 和 Sj 的命题 X和 Y,即, ∑ ∑ = = ?= fYX ji AYX ji ji YmXm YmXm Am I I )()(1 )()( )(, (8.50) 其中 A ≠ f, mi j, 表示直和 m mi j⊕ ,分母的作用是归一化,同时也体现 Si 和Sj 提供信息 的不一致性,如果分母为零则表示传感信息完全抵触同时直和无定义。 3.带信度因子的产生式规则系统 一般意义上的产生式系统是由形如 X Y→ 或 if then X Y 的规则构成的,其中假设 X由可以 是单个断言或由一组断言的合取、析取、否定所组成。推理可以是正向或逆向的。 融合不是一般意义上的简单推理,其目的是要消除融合对象的不确定性,因此必须引入对 不确定性的表达。 引入带信度因子的产生式系统以进行不确定性度量。融合过程中不确定性的改变可以通过 下面 “信度因子演算”实现。 在带信度因子的产生式系统中,每个命题 X都和其信度因子 CF(X)相联系,表示为, X cf X CF( [ ]) (8.51) 其中初始信度或者为已知值或者为零。对于一个基于规则的系统,设其规则集为 R,对规则 ri ∈R,如果与其相关联的信度为 CF,则可以表示为: r X Y cf X Yi i: ( [ , ])→ CF (8.52) ri 中前提 X的信度定义为: { } { }CF CF if = min CF CF if = max CF CF if = -CF other i n n n n X X X X X X X X X X X X X X X [ ] [ ] [ ], , [ ] [ ], , [ ] [ ] = ∧ ∧∨ ∨ ? ? ?? ? ? ? 1 1 1 1 1 L L L L (8.53) 其中 Xi 是 X 的前提, X 是 X 的否定,则规则 ri 中结论 Y的信度由下式决定: CF -CF CF if both CF' s 0CF CF otherwisei i i i i Y X X YX X Y[ ] [ ] [ , ][ ] [ , ]= ? <??? ? (8.54) 如果只有一条规则 rY ,未知命题 Y是其结论,则 CF CF[ ] [ ]Y YY= 。 设可以导出结论 Y的规则集为: { }R RY i ir x y x y Y= → ∈ ≠ =: | [ ]CF and 0 (8.55) 集合 RY 的基数为 N,融合的信度为 CF CF[ ] [ ]Y Y j N= = ,其计算过程如下, for ri ∈R { CF[ ]Y 0 0= for j=1 to N { } CF CF CF CF both CF > 0 CF CF CF both CF < 0 CF CF CF CF otherwise [ ] [ ] [ ]( [ ] ) [ ] [ ]( [ ] ) [ ] [ ] min [ ] , [ ] Y Y Y Y Y Y Y Y Y Y Y j j i j j i j j i j i = + ? + + + ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? 1 1 1 1 1 1 1 1 1 }