模块(组合)网络
1) 产生的背景
a) 更好的映射非线性函数
b) 模拟人类神经系统,分工
合作
c) 在控制中,克服“时间交叉”
(Temporal Crosstalk) 现象 。
模块网络的结构(见图)
学习方法
2cd ??? c
i
c
i
c ypE
输出线性和方法:
2c
i
cc
i
c
i
c
i
cc ydppydE ?????? ?
竞争学习方法:
—— 各专家网络有强的耦合
—— 强者为胜,一个网络参加学习。
个专家网络的贡献第为期望输出,ipd cic
时在情况 c
2
21 cic yd/
i
c
i
c eplogE ?????
? ?
? ?c
i
c
j
yd/
c
j
yd/
c
i
c
i
c
c
i
cc
ic
i
c
yd
ep
ep
y
E
ydp
y
E
c
i
c
c
i
c
?
?
?
?
?
?
?
?
?
?
?
??
?
?
???
?
?
?
??
??
2
2
21
21
2
进一步改进算法
比较
( 1)
( 2)
式( 1)表示最合适的专家网络以 最慢 的速度下降
式( 2)表示最合适的专家网络以 最快 的速度下降
加权项
如何确定门控网络输出 gi?
—— 给组合网络以概率解释。
训练样本 x为 p维,
目标输出,即期望输出,为 d, q维,
第 i个专家网络的输出 yi, 为 q维,
门控网络的第 i个输出为 gi,
整个组合网络的输出向量为:
i
k
i
i ygy ?
?
?
1
K 为专家网络 的个数
训练的方法
对 {x,d}训练样本的概率进行建模
1)随机从先验分布中选取输入向量 x
2) 以分布 P(i/x) 选择一个专家网络 ;
3) 期望 d由 所选择的规则确定,回归产生,
d =Fi(x) + ?I ?I的协方差为 ?i
i = 1,2,…,k
对给定的 x,第 i个专家最匹配期望输出 d 的条件概率分布,
? ?? ? ? ?
? ?? ? ? ? ? ?? ?
? ?? ? ? ?
22/
2/
12/
2/1e x p21/
2/1e x p21/
)()(2/1e x pd e t2/1),|(
i
q
i
T
i
q
iii
q
i
yd
ydyd
ydydixdf
???
????
??????
?
?
?
?
总的输出,由 k个多元高斯分布的线性组合,
? ? ? ?
? ?
? ?2
1
2/
1
2/1e x p
2
1
,|,|
i
k
i
iq
k
i
i
ydg
ixdfgixdf
???
?
?
?
?
?
?
此式为联想高斯混合模型
为门控网络第 i个输出神经元的激励
每个专家网络 yi 可以看成多元高斯分布的条件平均:
)(],|[ xFixdEuy iii ???
ig
门控网络(虚线部分为 Softmax函数)

1
10
k
1i
??
??
?
i
i
g
ig 对所有
? ?
? ???
?
k
j
j
i
i u
ug
1
e x p
e x p
?
?
这里把 F( x)看成线性函数
? ?
? ???
?
k
j
j
i
i u
ug
1
e x p
e x p
max s o ftg i 称为