上节课内容回顾信息、信息科学与信息论
信息、信息技术、信息科学、信息理论信息论研究的对象、目的和内容信息论发展简史与现状
信息论的形成与发展
信息论方法的应用及其取得的成果信息论的基本概念杨杰熵熵的引入香农熵与热力学熵的关系熵可以作为信息的度量熵函数的性质联合熵和条件熵
互信息
互信息的定义
多个随机变量下的互信息
互信息函数的性质
连续随机变量下的熵与互信息信息无处不在,但:
信息用什么表示?如何表示?
不确定性=携载的信息 可用随机变量的不确定性或随机性作为信息的表示非负性连续性可加性等概时与取值空间 N的关系(单调增)
与发生的概率 P的关系(单调减)
考察、分析信息的特征熵的引入一个离散随机变量 X,以不同的取值概率有 N个可能取值,
X
P( x)

a1 a2 … a N
p1 p2 … p N
信息论关心,X的 不确定性不确定性--大,获取的信息--多熵的引入不确定性分析:
随机变量 X,Y,Z
X
P( x)

a1 a2
0.01 0.99
Z
P( y)

a1 a2 a3 a4 a5
0.2 0.2 0.2 0.2 0.2
Y
P( z)

a1 a2
0.5 0.5
问题:能否度量、如何度量??
小大香农指出,存在 熵 函数满足 先验条件
1、连续性条件,是 的连续函数
2、等概时为单调增函数,是 N的增函数
)(),.,,,,( 111 Ngf NNN?
3、可加性条件:多次试验确定取值时,X在各次试验中的不确定性可加。
结论,唯一 的形式,
n
N
n
nn ppCpppf l o g),,,(
1
21?


N
n
nnN pppppH
1
21 l o g),...,,(
C=常数 >0,即:
),,,( 21 npppf? np
熵的单位信息熵 的单位与公式中的对数取 底 有关。
通信与信息中最常用的是以 2为底,这时单位为 比特 ( bit);理论推导中用以 e为底较方便,这时单位为 奈特 ( Nat);工程上用以 10
为底较方便,这时单位为 笛特 ( Det)。它们之间可以引用对数换底公式进行互换。比如:
1 bit = 0.693 Nat = 0.301 Det
香农熵与热力学中热熵的关系熵这个名词是仙农从物理学中的统计热力学借用过来的,在物理学中称它为 热熵 是表示分子混乱程度的一个物理量,这里,仙农引用它来描述信源的平均不确定性,含义是类似的。但是在热力学中已知任何孤立系统的演化,热熵只能增加不能减少;而在信息论中,信息熵正相反,只会减少,不会增加。
所以有人称信息熵为 负热熵 。
二者还有一个重大差别:热熵是有量纲的,而香农熵是无量纲的。
( 不确定性 )
熵可以作为信息的量度对于随机变量而言:
试验前--
试验后--
各取值的概率分布确切取值 ( 0)
(不确定性)
熵一定的确切性多次试验后--
通过试验--消除了不确定性--获得了信息--信息的数量=
对于单个消息随机变量 U,出现某个消息,对应概率为,
这时可获得的信息量为,则有:
解释,
小概率事件,一当出现必然使人感到意外,因此产生的信息量就大; 几乎不可能事件一旦出现,将是一条爆炸性的新闻,一鸣惊人。
大概率事件,是预料之中的,即使发生,也没什么信息量,特别是当 必然事件发生了,它不会给人以任何信息量。
的递降函数是 i
iiii
iiii
pI
pIppIp
pIppIp
0)(,1;)(,
)(,0;)(,


)( ipI
注,I--自信息例 1.1,
试验前:
试验后:
X
P( x)

1 2 3 4 5 6
1/6 1/6 1/6 1/6 1/6 1/6
H(x) = log6 = 2.58bits = 1.79nats
X1
P( x1)

1 2 3 4 5 6
0 1 0 0 0 0
H(x1) = 0
H(x) - H(x1) = log6
例 1.2:
试验前,H(x) = log8 = 3(bit/符号 )
H(x2) - H(x3) =1 -- 获得 1bit信息量
X
P( x) =
1 2 3 4 5 6 7 8
1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8
123
1 2 3 4 5 6 7 8
第一次测量后:
X1
P( x1) =
1 2 3 4 5 6 7 8
1/4 1/4 1/4 1/4 0 0 0 0
H(x1)
= log4 = 2(bit/符号 )
第二次测量后:
X2
P( x2) =
1 2 3 4 5 6 7 8
1/2 1/2 0 0 0 0 0 0
H(x2)
= log2 = 1(bit/符号 )
第三次测量后:
X3
P( x3) =
1 2 3 4 5 6 7 8
1 0 0 0 0 0 0 0
H(x3)
= log1 = 0(bit/符号 )
H(x) - H(x1) = 1-- 获得 1bit信息量
H(x1) - H(x2) =1 -- 获得 1bit信息量
H(X)表示在获知哪个灯泡是坏的情况前,关于哪个灯泡已损坏的平均不确定性,即要确定哪个灯泡是坏的,至少需要获得 3个 bit的信息量,才能完全消除不确定性。??必须测 3次吗??
熵的物理含义观察随机变量 X,Y,Z
X
P( x)

a1 a2
0.01 0.99
Z
P( y)

a1 a2 a3 a4 a5
0.2 0.2 0.2 0.2 0.2
Y
P( z)

a1 a2
0.5 0.5
H(X) =
-0.01log0.01-0.99log0.99
=0.08(比特 /符号)
H(Y) =
-0.5log0.5-0.5log0.5
=1(比特 /符号)
H(Z) =
5(-0.2log0.2)
=2.32(比特 /符号)
熵的物理含义熵是随机变量的随机性的描述。
变量 Y,Z等概,随机性大,变量 X不等概,则随机性小
等概情况下,可取值越多,随机性越大
H()是描述随机变量所需的比特数熵是随机变量 平均 不确定性的描述
X试验中发生 a1,获得的 自信息 为 -log0.01=6.64(bit)
Y试验中发生 a1,获得的 自信息 为 -log0.5=2.32(bit)
H()反映的是平均的不确定性熵函数的性质香农熵是概率矢量的非负的上凸函数
性质 1:非负性
性质 2:上凸性
性质 3:唯一性(连续性、可加性、等概单调增)
熵函数的性质--非负性证明一:

N
n
nnN pppppH
1
21 l o g),...,,(
而:
10 np
故,0lo g?
np
所以:
0)(?PH
熵函数的性质--非负性证明二:
0x
有:
1lo g xx
或:
xx 1lo g 1
所以:
0)1(l o g)(
1
1
1


n
N
n
np
N
n
n pppPH n
熵函数的性质--上凸性凸性的概念,若对区域 D中任意两点 和,均有:
则称:区域 D是凸域。

理解,若两点 和 在凸域 D内,则 和 之间的线段也整个在区域 D内。
DD,
10,)1( D
在 [a,b]上定义的下凸函数
])1([
)()1()(
qpf
qfpf




a p q bqp )1(
p
在 [a,b]上定义的上凸函数
)()1()(
])1([
qfpf
qpf




a
p
q b
qp )1(
p
熵函数的性质 — 上凸性上凸性:
熵函数具有凸性,即 H( P)是 P的上凸函数。
证明:作业一熵函数的性质定理 2.1
对于离散随机变量,当其可能的取值等概分布时,其熵达到最大值。即:
NXH lo g)(m a x?
其中,N为 X可能取值得个数。
例 1.3:二元熵函数是对 0- 1分布的随机变量所求的熵:
X
P( x) =
0 1
p 1-p
H(X) = -plogp-(1-p)log(1-p)=H(p)
H’(X) = -logp-p/p+log(1-p)+(1-p)/(1-p)=log(1-p)/p
则:
而:
可以证明,p= 1/2时,H(p)取最大值,为 log2=1。
而 p=0或 1时,H(p)= 0,故二元熵函数的曲线如图所示:
1.0
1.00.50 p
H(p)/bit
二元熵函数曲线等概时( p=0.5):
随机变量具有最大的不确定性,
p=0,1时:
随机变量的不确定性消失 。
定理 2.2 设离散随机变量的概密矩阵为函数 是随机变量不确定性的量度,若此函数满足条件
连续性
等概时单调增函数性
可加性则此函数必为熵函数的性质--唯一性
X
P( x) =
a1 a2 … a N
p1 p2 … p N
n
N
n
n ppC lo g
1

证明:作业二
),,,( 21 npppf?
),,,( 21 npppf?
熵函数的性质--唯一性唯一性--限制条件
D.A.Fadiev:
连续性可加性对称性
A.I.Khinchin:
连续性可加性极值条件:等概事件集合中零概率事件不影响确定性其它熵联合熵与条件熵物理含义,
已知一随机变量的情况下,对另一随机变量不确定性的量度观测 Y以后,仍保留的关于 X的不确定量。
一个随机变量 ----两个随机变量 ----多个随机变量条件熵:则联合熵与条件熵联合熵物理意义,二元随机变量不确定性的量度联合熵、条件熵的关系:
)/()()/()()( YXHYHXYHXHXYH
当 X,Y相互独立时,有:
)()(),( jkjk bpapbap?
)()|(
)()|(
jkj
kjk
bpabp
apbap
于是有:
)()|(
)()|(
)()()(
YHXYH
XHYXH
YHXHXYH

理解,当随机变量相互独立时,其联合熵等于单个随机变量的熵之和,而条件熵等于无条件熵 。
联合熵、条件熵的关系:
一般情况下
)()|(
)()|(
)()()(
YHXYH
XHYXH
YHXHXYH

理解,表明一般情形下:条件熵总是小于无条件熵。
注意,这是平均意义上的熵熵的引入香农熵与热力学熵的关系熵可以作为信息的度量熵函数的性质联合熵和条件熵
互信息
互信息的定义
多个随机变量下的互信息
互信息函数的性质
连续随机变量下的熵与互信息离散互信息定义:离散随机变量 X和 Y之间的互信息
)|()();( YXHXHYXI
);( YXI
)|()();( XYHYHXYI
离散互信息和 是 随机变量 X和 Y之间相互提供的信息量 --称为互信息是完全确切的
);( YXI );( XYI
);( YXI = );( XYI 证明略。
一般情况下,))(),(m i n ();(0 YHXHYXI
理解,了解一事物总对另一事物的了解有所帮助离散互信息当随机变量 X和 Y之间有确定的关系时
1,X可以唯一确定 Y,
此时,0)|(?XYH 故,)();( YHYXI?
2,Y 可以唯一确定 X,
此时:
0)|(?YXH 故,)();( XHYXI?
);( XYI 是 对 X和 Y之间统计依存程度的信息量度离散互信息
)(lo g)(
1
K
k
kk apap
)|()();( YXHXHYXI

)|(lo g),(
1 1


K
k
jkjk
J
j
bapbap+

)(lo g),(
1 1


K
k
kjk
J
j
apbap

K
k
bp
bap
jk
J
j j
jkbap
1
)(
),(
1
lo g),(




K
k
bpap
bap
jk
J
j jk
jkbap
1
)()(
),(
1
lo g),(
另一种定义:



K
k
jkj
J
j
jkk bapbpbapap
11
),()(;),()(这里:
)|()(),( kjkjk abqapbap?
)|()(
)|(
),(
)|(
)()(
)|()(
)()(
),(
11
kjk
K
k
kj
jk
K
k
kj
jk
kjk
jk
jk
abqap
abq
bap
abq
bpap
abqap
bpap
bap

);( YXI

K
k
bpap
bap
jk
J
j jk
jkbap
1
)()(
),(
1
lo g),(


K
k
kjk
J
j
abqap
1 1
)|()(
)|()(
)|(
1
kjk
K
k
kj
abqap
abq
变换 得到互信息的另一种表达式,I( X;Y)是随机变量 X的 概率 矢量 p
和 条件概率矩阵 Q的函数

);( QpI
互信息函数的性质互信息与 p(x)(信道输入概率分布 )的关系性质 1,I(p;Q)是 p(x)的上凸函数,
q
互信息函数的性质互信息与 Q矩阵( 信道转移概率 分布)的关系性质 2,I(p;Q)是 Q的下凹函数,
q
q
q
互信息函数的性质互信息与随机变量 X( 信道输入符号)的相关性 的关系性质 3,若概率矢量 p是离散无记忆的,
互信息函数的性质互信息与随机变量 Q( 信道)相关性 的关系性质 4,若条件概率矩阵 Q是离散无记忆的,
q
q q qq
互信息函数的性质互信息与 信道输入符号及信道相关性 的关系推论,若概率矢量 p和条件概率矩阵 Q都是离散无记忆的,
熵 VS 互信息信息熵是表征随机变量本身统计特性的一个物理量,它是随机变量平均不确定性的度量,是从总体统计特性上对随机变量的一个客观描述。
互信息 I(U;V),我们又称它信息量一般是针对观测到另一个随机变量时而言的,是一个相对量,是指观测者从随机变量 V
中所获得的关于随机变量 U的信息度量。在通信中,互信息是针对接收者而言的,是指接收者收到的关于信源的信息度量,当通信中无干扰时,接受者获得的信息量数量上就等于信源给出的信息熵,但是两者的概念不一样;当信道有干扰时,不仅概念上不一样,而且数量上也不相等。 信息熵也可理解为信源输出的信息量 。
熵熵的引入香农熵与热力学熵的关系熵可以作为信息的度量熵函数的性质联合熵和条件熵
互信息
互信息的定义
多个随机变量下的互信息
互信息函数的性质
连续随机变量下的熵与互信息连续随机变量下的熵实际中:离散随机变量、连续随机变量熵的引入:观察随机变量微积分中:某种函数问题的极限--连续问题存在问题:数学处理上、概念和含义上连续随机变量下的熵单个连续消息的随机变量连续随机变量可以看作是离散随机变量的极限,故可采用离散随机变量来逼近。下面,将采用这一观点讨论连续随机变量的信息熵与信息量。
首先类比概率 与概率密度 p(u):ip
连续随机变量下的熵
a a+(i-1) △ a+i △
第i个区间
u i
b u
p(u)
令 u∈ [ a,b],且 a<b,现将它均匀的划分为 n份,每份宽度为△=,则 u处于第 i个区间的概率为,

= (中值定理 )
即当 p(u)为 u的连续函数时,由中值定理,必存在一个 值,使上式成立。
n
ab?
连续随机变量下的熵
△△△ )()()1( iupduupia ia
ip
ip
iu
考虑离散随机变量熵的定义为:
H( X)=
则有:
Hn(u)=-
=-
=-
连续随机变量下的熵
i iup )( ])(lo g [ iup
i ii upup ]lo g)([ lo g)(
i ii pp log
N
n
nn pp
1
log
连续随机变量下的熵
i ini iinnn upupupUH ]) [ l o g(lim)]() [ l o g(lim)(lim

i
i
b
a
upduupup l o g))((lim)(l o g)( 0

b
a
duupup )(lo g)(
=
=
按照离散熵的概念,连续随机变量的熵应为无穷大,失去意义。
1948年,香农直接定义:
h( U)=
= -
其中 R1= 表示实轴。
即定义取有限值的项为连续信源的信息熵,也称 微分熵 。
b
a
duupup )(lo g)(
1 )(lo g)(R duupup
),(
连续随机变量下的熵连续分布随机变量的微分熵 VS离散随机变量的熵实际应用中,数据都只有有限精度,在有限精度下随机变量熵表达式中的第二项取值相同,因此微分熵可以作为连续随机变量不确定程度的 相对度量 。
应注意的是 h(U)是连续随机变量的 熵,而不是连续随机变量输出的 信息量,而连续随机变量输出的信息量是 Hn(U).
这就是说,在离散随机变量中随机变量输出信息量就是信源熵,两者是一个概念;但是在连续随机变量中则是两个概念,且不相等。连续随机变量输出信息量 Hn(U)是一个绝对值,他取值于 ∞,而连续随机变量的熵 Hc(U)则是一个 相对值,取值是有限的。
连续随机变量的熵 Hc(U)是一个过渡性的概念,它虽然也具有 可加性、凸状性和极值性,但不一定满足非负性,它可以不具有信息的全部特征。
均匀分布连续随机变量的熵例 1.4:对一个均匀分布的随机变量,按照定义,有显然,时,Hc(U)<0,
这说明它不具备非负性。但是连续随机变量输出的信息量由于有一个无限大量的存在,Hn(U)仍大于0。
)lo g (
1
lo g
1
)(
ab
du
abab
UH
b
a
c



1ab
均匀分布连续随机变量的微分熵高斯分布连续随机变量的熵例 1.5:高斯分布的连续随机变量的微分熵,按照定义,有
)(lo g)()( dxxpxpUH c?


)2 )(e x p (2 1)( 2 22 mxxp
dxmxxp )]2 )(e x p (2 1l o g [)( 2 22

edxmxxpdxxp l o g]2 )([)()2l o g()( 2 22



elo g212lo g 2 22log21e?
可见,高斯分布的连续随机变量的熵与数学期望(均值) m无关,只与方差 有关。2?
具有最大熵的连续随机变量
离散随机变量,等概分布时-?具有极值
连续随机变量,不同的约束条件,具有极值的连续随机变量的分布不同
峰值功率受限时:均匀分布随机变量具有最大熵
平均功率受限时:高斯分布随机变量具有最大熵连续随机变量下的互信息类似于离散随机变量,也可以引入连续随机变量的 互信息,
)()(
)()(),(
U
VHVH
V
UHUHVUI
cc
cc


可见,由于它是决定于熵的差值,所以连续随机变量的互信息与离散随机变量的互信息一样,它仍具有信息的一切特征。
2?
对信息论基本概念的若干评注信息论基本概念 熵,互信息 分别给出了随机变量不确定性的度量以及消除或减少这一不确定性时所获信息的度量。
香农定义的熵是随机变量不确定性最合理的度量。
减少或消除随机变量的不确定性的两条途径和信息的两种度量。
从统计数学的角度看:
熵是一个系统无序性的度量
互信息是两个随机变量之间统计依存性的度量二者关系
互信息?熵
性质相似,特别:均有 凸性,表达式中均有 对数函数
凸性:二者都特别适合作为优化问题中的目标函数
对数函数:实际应用有一定困难作业
1、令 X为掷钱币直至其正面第一次向上所需的次数,求 H( X)。
2、已知 12个球中有一个球的重量与其他球不同,其他球均等重,问如何用天平称 3次找出此球?
作业:
一、证明:熵函数具有凸性,即 H( P)是 P的上凸函数二、证明:满足条件连续性、等概时单调增函数性、
可加性的熵函数是唯一的三、已知随机变量 X和 Y地联合概率分布满足试求能使 H(XY)取最大值的联合概率分布。
),( jk bap
4132211 )()(,)( apapap
6132321 )()(,)( bpbpbp