第二章 信息量和熵
信息量和熵
? 2.1 离散变量的非平均信息量
? 2.2 离散集的平均自信息量-熵
? 2.3 离散集的平均互信息量
? 2.4 连续随机变量的互信息和熵
? 2.5 凸函数和互信息的凸性
2.1 离散变量的非平均信
息量
输入,输出空间定义
? 输入空间 X={xk,k=1,2,…,K },概率记为 q(xk)
? 输出空间 Y={yj,j=1,2,…,J},概率记为 ω (yj)
? 联合空间 XY={xkyj ;k=1,2,…,K ;j=1,2,…,J},概
率为 p(xkyj)
p(xkyj)= p(xk|yj)ω (yj)= p(yj|xk)q(xk)
非平均互信息量
? 例 2.1.1
输入消息 码字 p(xk) 收到 0 收到 01 收到 011
X1
X2
X3
X4
X5
X6
X7
x8
000
001
010
011
100
101
110
111
1/8
1/8
1/8
1/8
1/8
1/8
1/8
1/8
1/4
1/4
1/4
1/4
0
0
0
0
0
0
1/2
1/2
0
0
0
0
0
0
0
1
0
0
0
0
非平均互信息量
输入消息 码字 p(xk) 收到 0 收到 01 收到 011
X1
X2
X3
X4
X5
X6
X7
x8
000
001
010
011
100
101
110
111
1/8
1/4
1/8
1/4
1/16
1/16
1/16
1/16
1/6
1/3
1/6
1/3
0
0
0
0
0
0
1/3
2/3
0
0
0
0
0
0
0
1
0
0
0
0
非平均互信息量
? 例 2.1.2
输入消息 码字 p(xk) 收到 0 收到 01 收到 011
X1
X2
000
111
1/2
1/2
1-p
p
1/2
1/2
1-p
p
1-p
1-p
0 0
1 1
p
p
非平均互信息量
))|(),(();( jkkjk yxpxqfyxI ?
)|;(
)|;();();(
213
121
jjjk
jjkjkjk
yyyxI
yyxIyxIyxI
?
??
);(
)(
)|(
l o g
)(
)|(
l o g);(
kj
j
kj
a
k
jk
ajk
xyI
y
xyp
xq
yxp
yxI
??
?
?
条件互信息和联合事件互信息
? 三个事件集的条件互信息定义为
? 可以推广到任意有限多个空间情况
)|()|(
)|(lo g
)|(
)|(lo g)|;(
3231
321
31
321
321 uupuup
uuup
uup
uuupuuuI ??
互信息的可加性
系统
u1 u2 u3
系统
u1 u2
u3
)|;();(
)|;();();(
32131
23121321
uuuIuuI
uuuIuuIuuuI
??
??
离散变量的非平均自信息量
)(lo g
)(
1
lo g
)(
)|(
lo g);(
k
k
k
jk
jk
xq
xq
xq
yxp
yxI
???
?
)(l o g
)(
1l o g)(
k
k
k xqxqxI ???
非平均自信息的性质
? 非负
? 体现先验不确定性大小
)();(
)();(
jjk
kjk
yIyxI
xIyxI
?
?
条件自信息和联合自信息
)|(l o g)|( 2121 uupuuI ??
)(l o g)( jkjk yxpyxI ??
)|()(
)|()();(
kjj
jkkjk
xyIyI
yxIxIyxI
??
??
自信息、条件自信息和互信息
)()()();( jkjkjk yxIyIxIyxI ???
I(xk) I(yj)
I(xk ;yj)
2.2 离散集的平均自信
息量-熵

??? )(l o g)()( xqxqxH
集 X中事件出现的平均不确定性
例 2.2.1 H(p)
例 2.2.2
条件熵和联合熵
? ???
x y
yxpxypYXH )|(l o g)()|(
XY独立时有 H(X|Y)=H(X)
)|()(
)|()()(
)(l o g)()(
YXHYH
XYHXHXYH
xypxypXYH
x y
??
??
?? ? ?
熵的性质
? 对称性
? 非负性
? 确定性
? 扩展性
? 可加性
? 极值性
? 是 H(P)上凸函数
熵的性质-可加性
? H(p1q11,p1q12,…,p 4q44)=H(p
1…,p 4)+p1H(q11,…,q 14)+…+
p4H(q41,…,q 44)
p1 p2
p3 p4
q11 q12
q13 q14
熵的极值性
? 引理 1,lnx≤x-1
? 引理 2,
? H(X|Y) ≤H(X)
? H(U1…U N)
≤H(U1)+…+H(U N)
?
?
??
1
1 l o g),,(
k
kkK qpppH ?
熵的凸性
? H(P)是 P的上凸函数
)()1()())1(( 2121 PHPHPPH ???? ?????
2.3 离散集的平均互信息

平均互信息量
? ??
x y xq
yxp
xypYXI
)(
)|(
l o g)();(
1.非负性
2.对称性
3,
)|()()(
)|()(
)|()();(
YXHYHXH
XYHYH
YXHXHYXI
???
??
??
平均互信息量
4,I(X;Y)≤H(X),I(X;Y)≤H(Y)
H(X) H(Y)
I(X;Y) H(Y|X)
H(X|Y)
条件互信息
? ? ??
x y z zxp
zxypx y zpZYXI
)|(
)|(lo g)()|;(
)|()|()|;( YZXHZXHZYXI ??
)|;();(
)|;();();(
ZYXIZXI
YZXIYXIYZXI
??
??
信息处理定理
? Z出现情况下,X和 Y独立
系统 1 系统 2
X Y Z
)|()|(
0)|;(
)|()|()|(
ZHHYZXH
ZYXI
zypzxpzxyp
?
?
?
信息处理定理
);();(
)|()|(
YXIZXI
YXHZXH
?
?
2.4 连续随机变量的互信
息和相对熵
连续随机变量的互信息
? ?
?
??
?
??
? d x d y
ypxp
xypxypYXI
YX
XY
XY )()(
)(lo g)();(
)|;();();(
);();(
)|;()|;(
);();(
0);(
XZYIZXIZXYI
YXIZXI
ZXYIZYXI
XYIYXI
YXI
??
?
?
?
?
随机变量的相对熵
?
?
??
?? dxxpxpxH XXc )(l o g)()(
)(22
2
2
1
2ln
2
1
)(
XH
c
c
e
e
exH
?
?
??
?
?
熵功率
相对熵的极大化
? 1.峰值功率受限
? 均匀分布相对熵最大
? 2.平均功率受限
? 高斯分布相对熵最大
? 3.平均功率大于等于熵功率
2.5 凸函数与互信息的凸

凸函数
? 凸集 R,a,b属于 R,
?a?(1??)b也属于 R,其
中 0≤?≤1
? 概率矢量
矢量 a的所有分量和为 1
? 上凸函数
))1(()()1()( b??ab?a? ????? fff
凸函数的性质
1,f(a)是上凸的,- f(a)是下凸的
2,f1(a),…,f L(a)是 R上的上凸函数,c1,…,c L是正
数,c1f1(a)+…+c LfL(a)也是上凸函数
3,f(a)是上凸函数,E[f(a)]≤f[E(a)],E为求数学期

K-T条件
? f(a)是定义域 R上的上凸函数,a是概率矢量。偏导
数 存在且连续,f(a)在 R上为极大的
充分必要条件 ka
af
?
? )(
0
)(
0
)(
??
?
?
??
?
?
k
k
k
k
a
a
af
a
a
af
?
?
互信息的凸性
? ? ??
x y
i
ixypiQ
xyp
xypxqYXI
)|()(
)|(
lo g)|()();(
p(y|x)给定,I(X;Y)是 q(x)的上凸函数
Q(x)给定,I(X;Y)是 p(y|x)的下凸函数