第二章 离散信源及其信息测度
第一节 信源的数学模型及分类
第二节 离散信源的信息熵
第三节 信息熵的基本性质
第四节 离散无记忆的扩展信源
第五节 离散平稳信源
第六节 马尔可夫信源
第七节 信源剩余度与自然语言的熵
第一节 信源的数学模型及分类
在通信系统中,收信者在未收到信息以前,
对信源发出什么样的消息是不确定的,是随机的,
所以可以用随机变量、随机矢量或随机过程来描
述信源输出的消息,或者说用一个 样本空间 及其
概率测度 来描述信源。
不同的信源根据其输出消息的不同的随机性
质进行分类。
第一节 信源的数学模型及分类
1、离散信源
数学模型如下:
12
12
...
...
q
n
a a xX
p p pP
???? ?
?????? ??
1
1
q
i
i
p
?
??
集合 X中,包含该信源包含的所有可能输出
的消息,集合 P中包含对应消息的概率密度,各
个消息的输出概率总和应该为 1。
例:天气预报
第一节 信源的数学模型及分类
2、连续信源
数学,模型如下:
(,)
( ) ( )
X a b
p x p x
? ? ? ??
? ? ? ?? ? ? ? ( ) 1ba p x d x ??
每次只输出一个消息,但消息的可能数目是无穷
多个。
例:电压、温度等。
第二节 离散信源的信息熵
1、自信息
我们认为,一个字符它所携带的信息量是和该字符
出现的概率有关,概率可以表征自信息量的大小
( ) [ ( ) ]iiI a f P a?
根据客观事实和人们的习惯概念,应满足
以下条件,
第二节 离散信源的信息熵
( 2)当 ( ) 1iPa ? 时 ( ) 0ifP ?
()ifP ??( 3)当 时( ) 0iPa ?
( 4)两个独立事件的联合信息量应等于它们分别的信息量
之和。
(1) 应是先验概率的单调递减函数,
即当 时
()ifp
1 1 2 2( ) ( )P a P a?
12( ) ( )f P f P?
第二节 离散信源的信息熵
根据上述条件可以从数学上证明这种函数形式是
对数函数,即:
1( ) lo g
()i iIa Pa?
()iIa 有 两个含义,
1、当事件发生前,表示该事件发生的不确定性;
2、当事件发生后,标是该事件所提供的信息量.
自信息量的单位取决于对数所取的底,若以 2
为底,单位为 比特,以 e为底,单位为 奈特,以
10为底,单位为 哈特,通常取比特为单位
第二节 离散信源的信息熵
例:设天气预报有两种消息,晴天和雨天,出现的概率
分别为 1/4和 3/4,我们分别用 来表示晴天,以 来表
示雨天,则我们的信源模型如下:
1a 2a
1,2
() 1 / 4,3 / 4
aaX
px
???? ?
?????? ??
1( ) lo g 4 2Ia ??
2
4( ) l o g 0, 4 1 5
3
Ia ??
第二节 离散信源的信息熵
我们定义自信息的数学期望为信源的平均信息量
1
1( ) [ l og ] ( ) l og ( )
()
q
ii
ii
H X E P a P apa
?
? ? ? ?
信息熵具有以下两种物理含义:
1、表示信源输出前信源的平均不确定性
2、表示信源输出后,每个符号所携带的
平均信息量
2、信息熵
例:天气预报,有两个信源
1,21
() 1 / 4,3 / 4
aaX
px
????
? ????
?? ??
1,22
() 1 / 2,1 / 2
aaX
px
????
? ????
?? ??
1
1 3 4( ) l o g 4 l o g 0, 8 0 9
4 4 3HX ? ? ?
2
11( ) l o g 2 l o g 2 1
22HX ? ? ?
则:
说明第二个信源的平均不确定性更大一些
第二节 离散信源的信息熵
第三节 信息熵的基本性质
熵函数可以表示为:
H X H p p p p pn i i
i
n
( ) (,) l o g? ? ?
?
?1 2
1
?
p p i ni
i
n
i
?
? ? ? ?
1
1 0 1 2,(,,.,,,)
第三节 信息熵的基本性质
性质 1:非负性
H(X)≥0
由于 0≤pi≤1,所以 logpi≤0
logpi≥0,则总有 H(X)≥0。
性质 2:对称性
H p p p H p p p pn n n(,,.,, ) (,,,.,, )1 2 1 2 1? ?
根据加法交换律可以证明,当变量交换顺序时熵函数的
值不变。
信源的熵只与概率空间的总体结构有关,而与个概率分
量对应的状态顺序无关;
第三节 信息熵的基本性质
性质 3:确定性;
H H H(,) (,) (,,,.,, )1 0 0 1 1 0 0 0 0? ? ?
当信源 X的信源空间 [X,P]中。任一个概率分量等于 1,
根据完备空间特性,其它概率分量必为 0,这时信源为
一个确知信源,其熵为 0。
如果一个信源的输出符号几乎必然为某一状态,那么这
个信源没有不确定性,信源输出符号后不提供任何信息
量。
第三节 信息熵的基本性质
性质 4:扩展性
1 1 2 1 20l i m (,,.,,,,) (,,.,,,)q q q qH p p p H p p p? ???? ??
这说明信源空间中增加某些概率很小的符号,虽
然当发出这些符号时,提供很大的信息量,但由于其
概率接近于 0,在信源熵中占极小的比重,使信源熵
保持不变。
第三节 信息熵的基本性质
性质 5,极值性
12(,,...,) ( 1 /,1 /,...,1 / ) l ogqH p p p H q q q q??
上式表明,对于具有 q个符号的离散信源,只有在
q个信源符号等可能出现的情况下,信源熵才能达到
最大值,这也表明等概分布的信源的平均不确定性最
大,这是一个很重要得结论,称为 最大离散熵定理
例:对于一个二元信源
H(X)=H(1/2,1/2)=log2=1bit
第四节 离散无记忆的扩展信源
实际信源输出的消息往往是时间上或空间上的一
系列符号,如电报系统,序列中前后符号间一般是有
统计依赖关系的。
我们先讨论离散无记忆信源,此时,信源序列的
前后符号之间是统计独立的
如在二元系统中,我们可以把两个二元数字看成
一组,会出现四种可能情况,00,01,10和 11,我们
可以把这四种情况看成一个新的信源称为 二元无记忆
信源的二次扩展信源,相应的,如果把 N个二元数字看
成一组,则新的信源称为 二元无记忆信源的 N此扩展信
源。
第四节 离散无记忆的扩展信源
一般情况
设一个离散无记忆信源为:
pi
i
n
?
?
? 1
1
12
12
...
( ) ( ),,, ( )
N
N
N
q
q
X
p p pP
???
? ? ?
????
? ????
?? ??
则该信源的 N次扩展信源为:
12
12
...
...
q
n
a a xX
p p pP
???? ?
?????? ??
第四节 离散无记忆的扩展信源
其中:
12( ) ( ) ( ),,, ( )i i i iNP P a P a P a? ?
根据信息熵的定义:
( ) ( ) l o g ( )
N
N N N
X
H X P X P X?? ?
可以证明,对于离散无记忆的扩展信源
( ) ( )NH X N H X?
例, 离散无记忆信源的 N次扩展信源
离散无记忆信源为,X:{a1,a2,a3}; P(X):{1/4,1/2,1/4}
2次扩展信源为,2X,{A1… A9}
信源的 9个符号为:
A1=a1a1 A2=a1a2 A3=a1a3
A4=a2a1 A5=a2a2 A6=a2a3
A7=a3a1 A8=a3a2 A9=a3a3
第四节 离散无记忆的扩展信源
第四节 离散无记忆的扩展信源
其概率关系为,
A1 A2 A3 A4 A5 A6 A7 A8 A9
1/16 1/8 1/16 1/8 1/4 1/8 1/16 1/8 1/16
计算可知 2( ) 3H X bit?
( ) 1,5H X b it?
2( ) 2 ( )H X H X?
第五节 离散平稳信源
一般来说,信源的前后消息之间有前后依赖关系,
可以用随机矢量描述:
12(,.,,,,..,,..,)iX X X X?信源在某一时刻发出什么样的值取决于两方面
1、这一时刻该变量的分布概率
2、这一时刻以前发出的消息
如一个人讲话
我们现在讨论 平稳的 随机序列,所谓平稳是指
序列的统计性质与时间的推移无关 (俩个任意时
刻信源发出符号的概率分布完全相同)。
1、离散平稳信源的数学定义
第五节 离散平稳信源
2、二维平稳信源及其信息熵
最简单的平稳信源 —— 二维平稳信源,信源发出序
列中只有前后两个符号间有依赖关系,我们可以对其二
维扩展信源进行分析。
信源的概率空间,
连续两个信源符号出现的联合概率分布为:
12
12
,,,( ) 1
( ),( ),,( )()
q
i
q
a a aX pa
p a p a p aPX
???? ??
????
?? ?? ?
q
i=1
且
1
( ) ( ) 1
qq
i j i j
j
P a a P a a
?
???
i=1
且
第五节 离散平稳信源
已知符号 出现后,紧跟着 出现的条件概率为:ia
ja
()( | )
()
ij
ji
i
P a aP a a
Pa?
由二维离散信源的发出符号序列的特点可以把其分
成每两个符号一组,每组代表新信源 中的一个
符号。并假设组与组之间是统计独立的,互不相关的。
12X X X?
得到一个新的离散无记忆信源,其联合概率空间为:
12XX
12
12()
XX
P x x
??
????
1 1 1 2 1,,.,,,,
( ) ( ) ( | )
q q q q
i j i j i
a a a a a a a a
P a a P a P a a
????
???
??
第五节 离散平稳信源
12
11
( ) ( ) l og ( )
qq
i j i j
ij
H X X P a a P a a
??
?? ??
根据信息熵的定义,可得:
( 1) 联合熵
可以表征信源输出长度为 2的平均不确定性,或所含
有的信息量。因此可以用 作为二维平稳信
源的信息熵的近似值
121 / 2 ( )H X X
第五节 离散平稳信源
(2)条件熵
21
1
( | ) ( | ) l og ( | )
q
i j i j i
j
H X X a P a a P a a
?
? ? ? ?
则:
2 1 2 1
1
( | ) ( ) ( | )q ii
i
H X X P a H X X a
?
???
11
( ) ( | ) l og ( | )
qq
i j i j i
ij
P a P a a P a a
??
?? ??
11
( ) l o g ( | )
qq
i j j i
ij
P a a P a a
??
?? ??
第五节 离散平稳信源
另外还可以得到,21( | ) ( )H X X H X?
1 2 1 2( ) ( ) ( ) 2 ( )H X X H X H X H X? ? ?
只有信源统计独立时等号成立。
可以证明:
1 2 1 2 1( ) ( ) ( | )H X X H X H X X??
[例 2-15] 设某二维离散信源的原始信源的信源空间
X={x1,x2,x3}; P(X)={1/4,1/4,1/2},一维条件概率为:
p(x1/x1)=1/2; p(x2/x1)=1/2; p(x3/x1)=0;
p(x1/x2)=1/8; p(x2/x2)=3/4; p(x3/x2)=1/8;
p(x1/x3)=0; p(x2/x3)=1/4; p(x3/x3)=3/4;
原始信源的熵为,H(X)=1.5 bit/符号
条件熵,H(X2/X1)=1.4 bit/符号
可见,H(X2/X1)<H(X)
二维信源的熵,H(X1,X2)=H(X1)+H(X2/X1)=2.9 bit/消息
每个信源符号提供的平均信息量为:
H2(X1,X2)=H(X1,X2)/2=1.45 bit/符号。
第五节 离散平稳信源
第五节 离散平稳信源
我们现在有两种方法去近似信源的实际熵,一种是
为 1.45bit,但这种方法不太准确,因为它把两个消息
看成一组,认为两组之间是统计独立的,实际上它们
之间是有关联的;另一种是我们可以用条件熵来近似,
为 1.4bit,到底那一种正确呢?我们可以通过对一般
离散平稳信源的分析来找到这个答案。
121 / 2 ( )H X X
分析:我们用 2()HX 来近似信源的实际熵
第五节 离散平稳信源
3、离散平稳信源的极限熵
平均符号熵
12
1( ) (,.,)
NNH X H X X XN?
条件熵 1 2 1( |,.,)NNH X X X X ?有以下几点性质
( 1)条件熵随 N的增加是非递增的
( 2) N给定时,平均符号熵大于等于条件熵
( 3)平均符号熵随 N的增加是非递增的
( 4)
1 2 1l i m ( ) l i m ( |,,, )N N NNNH H X H X X X X??? ? ? ???
H?称 为 极限熵 。
第五节 离散平稳信源
可以证明,对于二维离散平稳信源,条件熵等于极
限熵,因此条件熵就是二维离散平稳信源的真实熵
对于一般信源,求出极限熵是很困难的,然而,一
般来说,取 N不大时就可以得到与极限熵非常接近的条
件熵和平均符号熵,因此可以用条件熵和平均符号熵
来近似极限熵
第六节 马尔可夫信源
在很多信源的输出序列中,符号之间的依赖关系是
有限的,任何时刻信源符号发生的概率只与前边已经发
出的若干个符号有关,而与更前面的符号无关。
为了描述这类信源除了信源符号集外还要引入状态
集。这时,信源输出消息符号还与信源所处的状态有关。
若一个信源满足下面两个条件,则称为马尔可夫信源:
( 1)某一时刻信源输出的符号的概率只与当前所处的
状态有关,而与以前的状态无关;
( 2)信源的下一个状态由当前状态和下一刻的输出唯
一确定。
第六节 马尔可夫信源
( 1)某一时刻信源输出的符号的概率只与当前所处的状态有
关,而与以前的状态无关。即
111( |,,,) ( | )l k l i l k l j l k l iP x a s E x a s E P x a s E??? ? ? ? ? ? ?
当符号输出概率与时刻 L无关,称为具有时齐性。即
( | ) ( | ),( | ) 1
k
l k l i k i k i
aA
P x a s E P a E P a E
?
? ? ? ??
第六节 马尔可夫信源
( 2)信源的下一个状态由当前状态和下一刻的输出唯一确定。
条件( 2)表明,若信源处于某一状态,当它发出
一个符号后,所处的状态就变了,一定转移到另一状态。
状态的转 移依赖于发出的信源符号,因此任何时刻信源处
在什么状态完全由前一时刻的状态和发出的符号决定。
iE
第六节 马尔可夫信源
例:二阶马尔可夫信源,原始符号集为 {1,0},
条件概率定为,P(0|00)=P(1|11)=0.8
P(1|00)=P(0|11)=0.2
P(0|01)=P(0|10)=P(1|01)=P(1|10)=0.5
由此可见,信源共有 2^2=4种状态
E,{e1=00,e2=01,e3=10,e4=11}
第六节 马尔可夫信源
状态之间有转移概率,
p(e2/e1)=p(e3/e4)=0.2
p(e2/e4)=p(e1/e3)=p(e2/e3)=p(e3/e2)=0.5
P(e1/e1)=p(e4/e4)=0.8
其状态转移图如下页。在状态转换图中,把信源的每一种状
态用圆圈表示,用有向箭头表示信源发出某一符号后由一种
状态到另一状态的转移。
第六节 马尔可夫信源
01 10
0:0.51:0.2
0:0.2
00
0:0.8
11
1:0.8
1:0.5
0:0.5
1:0.5
由上例可知,m阶马尔可夫信源符号集共有 q个符号,则
信源共有 个不同状态。信源在某一时刻时,必然处于某
一种状态,等到下一个字符输出时,转移到另外一个状态。
mq
举 例
[例 2.2.3] 设信源符号 X∈ {x1,x2,x3},信源所处的状态 S∈ {e1,
e2,e3,e4,e5} 。各状态之间的转移情况由图 2.2.1给出。
? 将图中信源在 ei状态下发符号 xk的条件概率 p(xk /ei)用矩阵表示
? 由矩阵看出:
? 由图中看出:
? 由图中可得状态的一步转移概率:
? 该信源满足马尔可夫信源定义。
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
2
1
4
1
2
1
4
1
4
1
4
3
2
1
4
1
4
1
2
1
5
4
3
2
1
321
001
0
0
e
e
e
e
e
xxx
?? ??3 1 5,4,3,2,1,1)/(k ik iexp
?
?
?
?
??
?
?
?
????
????
????
????
?
?
?
?
?
0),/(
1),/(
1),/(
0),/(
1123
1122
1111
1112
eSxXeSP
eSxXeSP
eSxXeSP
eSxXeSP
lll
lll
lll
lll
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
4
1
4
3
4
1
4
3
2
1
2
1
4
1
4
1
2
1
5
4
3
2
1
000
00000
000
000
00
54321
e
e
e
e
e
eeee
第六节 马尔可夫信源
定义 为各状态的极限概率,则时齐、遍历的马尔
可夫信源的熵为
()iQE
1
( ) ( | )J ii
i
H Q E H X E?
?
? ?
11
( ) ( | ) l og ( | )qJ i k i k i
ik
Q E P a E P a E
??
? ??
第六节 马尔可夫信源
马尔可夫信源的熵:
这里这给出结论:
1 1 2( |,., )mmH H X X X X???
表明 m阶马尔可夫信源的极限熵等于 m阶条件熵。
根据求条件熵公式还可得到
1
11
( ) ( | ) l o g ( | )
mmqq
m i j i j i
ij
H H p e p e e p e e??
??
? ? ? ??
(3) 举 例
[例 2.2.4] 二元 2阶 马尔可夫信源,原始信号 X的符号集为 {X1=0,
X2=1},其状态空间共有 nm=22=4个不同的状态 e1,e2,e3,e4,即
E,{e1=00,e2=01,e3=10,e4=11}
状态转移图见右图所示。
解,p(e1/e1)= p(x1/e1)=p(0/00)=0.8
p(e2/e1)= p(x2/e1)=p(1/00)=0.2
p(e3/e2)= p(x1/e2)=p(0/01)=0.5
p(e4/e2)= p(x2/e2)=p(1/01)=0.5
p(e1/e3)= p(x1/e3)=p(0/10)=0.5
p(e2/e3)= p(x2/e3)=p(1/10)=0.5
p(e3/e4)= p(x1/e4)=p(0/11)=0.2
? 由二元信源 X∈ {0,1}得到的状态空间 (e1,e2,e3,e4)和相应的一
步转移概率构成的 2阶 马尔可夫信源模型为
? 求出稳定状态下的 p(ej),称为 状态极限概率 。
? 将一步转移概率代入上式得
p(e1)=0.8 p(e1)+0.5 p(e3)
p(e2)=0.2 p(e1)+0.5 p(e3)
p(e )=0.5 p(e )+0.2 p(e )
4,3,2,1)/()()(
0)(,1)/(
4,3,2,1,
)/(
4
1
4
1
4321
??
??
?
?
?
?
?
?
?
?
?
?
?
jeepepep
epeep
ji
eep
eeee
i
ijij
i
j
ij
ij
由
且
? 解方程组得
p(e1)= p(e4)=5/14
p(e2)= p(e3)=2/14
? 计算极限熵
)/(8.0)/(l o g)/()( 24
1
4
112
符号比特???? ? ?
? ??? iji j iji
eepeepepHH
第六节 马尔可夫信源
例:一个二元二阶马尔可夫信源,信源符号集 A={0,1}。
信源开始时,它以概率 p(0)=p(1)=0.5发出随机变量 X1。
然后,下一单位时间输出的随机变量 X2与 X1有依赖关
系,由条件概率 p(x2|x1)表示:
再下一单元时间输出随机变量 X3,而 X3依赖于前面变
量。依赖关系由条件概率 p(x3|x1x2)表示:
x1 x1
x2 0 1
0 0.3 0.4
1 0.7 0.6
第六节 马尔可夫信源
由从第四单位时间开始,任意时刻信源发出的随机变量 Xi
只与前面二个单位时间的随机变量有关,
根据提议可得信源的状态转移图:
x1x2 x1x2 x1x2 x1x2
X3 00 01 10 11
0 0.4 0.2 0.3 0.4
1 0.6 0.8 0.7 0.6
2 1 3 1 2( | ) ( | ) ( 3 )i i iP x x x P x x x i?? ??
第六节 马尔可夫信源
00
01
10
11
0E
1E
2E
3E
4E
5E
6E
第六节 马尔可夫信源
0E
3E
4E
5E
6E
0.5
0.5
0.4
0.8
0.3
0.6
0.2
0.7
0.6
0.4
第六节 马尔可夫信源
解得:
代入式 ( 2.137) 得
= 0.8956
当马尔可夫信源达到稳定后, 符号 0和 1的分布概率可根据下式计算
因此得:
3 3 5
4 3 5
3 4 6
3 4 6
3 4 5 6
( ) 0,4 ( ) 0,3 ( )
( ) 0,6 ( ) 0,7 ( )
( ) 0,2 ( ) 0,4 ( )
( ) 0,8 ( ) 0,6 ( )
( ) ( ) ( ) ( ) 1
Q E Q E Q E
Q E Q E Q E
Q E Q E Q E
Q E Q E Q E
Q E Q E Q E Q E
???
?
??
?
?
???
? ??
?
? ? ? ? ??
45( ) ( ) 2 / 9Q E Q E?? 3( ) 1 / 9QE ?6( ) 4 / 9QE ?
3 4 5 6( ) ( 0, 4,0, 6 ) ( ) ( 0, 2,0, 8 ) ( ) ( 0, 3,0, 7 ) ( ) ( 0, 4,0, 6 )H Q E H Q E H Q E H Q E H? ? ? ? ?
1
( ) ( ) ( / )Jk i k i
i
P a Q E P a E
?
? ?
3 4 5 6
3 2 5 6
(0 ) 0, 4 ( ) 0, 2 ( ) 0, 3 ( ) 0, 4 ( ) 1 / 3
(0 ) 0, 6 ( ) 0, 8 ( ) 0, 7 ( ) 0, 6 ( ) 2 / 3
P Q E Q E Q E Q E
P Q E Q E Q E Q E
? ? ? ? ?
? ? ? ? ?
第七节 信源剩余度与自然语言的熵
0 1 1 1 2 1 1l o g ( ) ( ) ( ) ( ) ( )mq H x H x H x H x H x H? ? ? ?? ? ? ? ? ? ?
1、关于离散信源熵的总结:
实际信源可能是非平稳的有记忆随机序列信源;
其极限熵是不存在的;解决的方法是假设其为离散平
稳随机序列信源,极限熵存在,但求解困难;进一步
假设其为 m阶 Markov信源,用其 m阶条件熵近似;
再进一步假设为一阶 Markov信源,用其一阶条件熵
来近似;最简化的信源是离散无记忆信源,其熵为
H(x);
最后可以假定为等概的离散无记忆信源,其熵 H(x);
它们之间的关系可以表示为:
1mH?
logq
2 2 1()H x x
第七节 信源剩余度与自然语言的熵
2、熵的 相对率
0
H
H?
?? 0 logHq?
3、信源剩余度
0
11 HH?? ?? ? ? ?
第七节 信源剩余度与自然语言的熵
4、自然语言的熵
( 1)对于英文字母
0
1.41 1 1 0.71
l og 27
H
H??
?? ? ? ? ? ? ?
( 2)对于中文
4
0
9.7331 1 1 0.2 64
l og 10
H
H??
?? ? ? ? ? ? ?
我们可以压缩剩余度来压缩信源,提高通信的
可靠性。
第一节 信源的数学模型及分类
第二节 离散信源的信息熵
第三节 信息熵的基本性质
第四节 离散无记忆的扩展信源
第五节 离散平稳信源
第六节 马尔可夫信源
第七节 信源剩余度与自然语言的熵
第一节 信源的数学模型及分类
在通信系统中,收信者在未收到信息以前,
对信源发出什么样的消息是不确定的,是随机的,
所以可以用随机变量、随机矢量或随机过程来描
述信源输出的消息,或者说用一个 样本空间 及其
概率测度 来描述信源。
不同的信源根据其输出消息的不同的随机性
质进行分类。
第一节 信源的数学模型及分类
1、离散信源
数学模型如下:
12
12
...
...
q
n
a a xX
p p pP
???? ?
?????? ??
1
1
q
i
i
p
?
??
集合 X中,包含该信源包含的所有可能输出
的消息,集合 P中包含对应消息的概率密度,各
个消息的输出概率总和应该为 1。
例:天气预报
第一节 信源的数学模型及分类
2、连续信源
数学,模型如下:
(,)
( ) ( )
X a b
p x p x
? ? ? ??
? ? ? ?? ? ? ? ( ) 1ba p x d x ??
每次只输出一个消息,但消息的可能数目是无穷
多个。
例:电压、温度等。
第二节 离散信源的信息熵
1、自信息
我们认为,一个字符它所携带的信息量是和该字符
出现的概率有关,概率可以表征自信息量的大小
( ) [ ( ) ]iiI a f P a?
根据客观事实和人们的习惯概念,应满足
以下条件,
第二节 离散信源的信息熵
( 2)当 ( ) 1iPa ? 时 ( ) 0ifP ?
()ifP ??( 3)当 时( ) 0iPa ?
( 4)两个独立事件的联合信息量应等于它们分别的信息量
之和。
(1) 应是先验概率的单调递减函数,
即当 时
()ifp
1 1 2 2( ) ( )P a P a?
12( ) ( )f P f P?
第二节 离散信源的信息熵
根据上述条件可以从数学上证明这种函数形式是
对数函数,即:
1( ) lo g
()i iIa Pa?
()iIa 有 两个含义,
1、当事件发生前,表示该事件发生的不确定性;
2、当事件发生后,标是该事件所提供的信息量.
自信息量的单位取决于对数所取的底,若以 2
为底,单位为 比特,以 e为底,单位为 奈特,以
10为底,单位为 哈特,通常取比特为单位
第二节 离散信源的信息熵
例:设天气预报有两种消息,晴天和雨天,出现的概率
分别为 1/4和 3/4,我们分别用 来表示晴天,以 来表
示雨天,则我们的信源模型如下:
1a 2a
1,2
() 1 / 4,3 / 4
aaX
px
???? ?
?????? ??
1( ) lo g 4 2Ia ??
2
4( ) l o g 0, 4 1 5
3
Ia ??
第二节 离散信源的信息熵
我们定义自信息的数学期望为信源的平均信息量
1
1( ) [ l og ] ( ) l og ( )
()
q
ii
ii
H X E P a P apa
?
? ? ? ?
信息熵具有以下两种物理含义:
1、表示信源输出前信源的平均不确定性
2、表示信源输出后,每个符号所携带的
平均信息量
2、信息熵
例:天气预报,有两个信源
1,21
() 1 / 4,3 / 4
aaX
px
????
? ????
?? ??
1,22
() 1 / 2,1 / 2
aaX
px
????
? ????
?? ??
1
1 3 4( ) l o g 4 l o g 0, 8 0 9
4 4 3HX ? ? ?
2
11( ) l o g 2 l o g 2 1
22HX ? ? ?
则:
说明第二个信源的平均不确定性更大一些
第二节 离散信源的信息熵
第三节 信息熵的基本性质
熵函数可以表示为:
H X H p p p p pn i i
i
n
( ) (,) l o g? ? ?
?
?1 2
1
?
p p i ni
i
n
i
?
? ? ? ?
1
1 0 1 2,(,,.,,,)
第三节 信息熵的基本性质
性质 1:非负性
H(X)≥0
由于 0≤pi≤1,所以 logpi≤0
logpi≥0,则总有 H(X)≥0。
性质 2:对称性
H p p p H p p p pn n n(,,.,, ) (,,,.,, )1 2 1 2 1? ?
根据加法交换律可以证明,当变量交换顺序时熵函数的
值不变。
信源的熵只与概率空间的总体结构有关,而与个概率分
量对应的状态顺序无关;
第三节 信息熵的基本性质
性质 3:确定性;
H H H(,) (,) (,,,.,, )1 0 0 1 1 0 0 0 0? ? ?
当信源 X的信源空间 [X,P]中。任一个概率分量等于 1,
根据完备空间特性,其它概率分量必为 0,这时信源为
一个确知信源,其熵为 0。
如果一个信源的输出符号几乎必然为某一状态,那么这
个信源没有不确定性,信源输出符号后不提供任何信息
量。
第三节 信息熵的基本性质
性质 4:扩展性
1 1 2 1 20l i m (,,.,,,,) (,,.,,,)q q q qH p p p H p p p? ???? ??
这说明信源空间中增加某些概率很小的符号,虽
然当发出这些符号时,提供很大的信息量,但由于其
概率接近于 0,在信源熵中占极小的比重,使信源熵
保持不变。
第三节 信息熵的基本性质
性质 5,极值性
12(,,...,) ( 1 /,1 /,...,1 / ) l ogqH p p p H q q q q??
上式表明,对于具有 q个符号的离散信源,只有在
q个信源符号等可能出现的情况下,信源熵才能达到
最大值,这也表明等概分布的信源的平均不确定性最
大,这是一个很重要得结论,称为 最大离散熵定理
例:对于一个二元信源
H(X)=H(1/2,1/2)=log2=1bit
第四节 离散无记忆的扩展信源
实际信源输出的消息往往是时间上或空间上的一
系列符号,如电报系统,序列中前后符号间一般是有
统计依赖关系的。
我们先讨论离散无记忆信源,此时,信源序列的
前后符号之间是统计独立的
如在二元系统中,我们可以把两个二元数字看成
一组,会出现四种可能情况,00,01,10和 11,我们
可以把这四种情况看成一个新的信源称为 二元无记忆
信源的二次扩展信源,相应的,如果把 N个二元数字看
成一组,则新的信源称为 二元无记忆信源的 N此扩展信
源。
第四节 离散无记忆的扩展信源
一般情况
设一个离散无记忆信源为:
pi
i
n
?
?
? 1
1
12
12
...
( ) ( ),,, ( )
N
N
N
q
q
X
p p pP
???
? ? ?
????
? ????
?? ??
则该信源的 N次扩展信源为:
12
12
...
...
q
n
a a xX
p p pP
???? ?
?????? ??
第四节 离散无记忆的扩展信源
其中:
12( ) ( ) ( ),,, ( )i i i iNP P a P a P a? ?
根据信息熵的定义:
( ) ( ) l o g ( )
N
N N N
X
H X P X P X?? ?
可以证明,对于离散无记忆的扩展信源
( ) ( )NH X N H X?
例, 离散无记忆信源的 N次扩展信源
离散无记忆信源为,X:{a1,a2,a3}; P(X):{1/4,1/2,1/4}
2次扩展信源为,2X,{A1… A9}
信源的 9个符号为:
A1=a1a1 A2=a1a2 A3=a1a3
A4=a2a1 A5=a2a2 A6=a2a3
A7=a3a1 A8=a3a2 A9=a3a3
第四节 离散无记忆的扩展信源
第四节 离散无记忆的扩展信源
其概率关系为,
A1 A2 A3 A4 A5 A6 A7 A8 A9
1/16 1/8 1/16 1/8 1/4 1/8 1/16 1/8 1/16
计算可知 2( ) 3H X bit?
( ) 1,5H X b it?
2( ) 2 ( )H X H X?
第五节 离散平稳信源
一般来说,信源的前后消息之间有前后依赖关系,
可以用随机矢量描述:
12(,.,,,,..,,..,)iX X X X?信源在某一时刻发出什么样的值取决于两方面
1、这一时刻该变量的分布概率
2、这一时刻以前发出的消息
如一个人讲话
我们现在讨论 平稳的 随机序列,所谓平稳是指
序列的统计性质与时间的推移无关 (俩个任意时
刻信源发出符号的概率分布完全相同)。
1、离散平稳信源的数学定义
第五节 离散平稳信源
2、二维平稳信源及其信息熵
最简单的平稳信源 —— 二维平稳信源,信源发出序
列中只有前后两个符号间有依赖关系,我们可以对其二
维扩展信源进行分析。
信源的概率空间,
连续两个信源符号出现的联合概率分布为:
12
12
,,,( ) 1
( ),( ),,( )()
q
i
q
a a aX pa
p a p a p aPX
???? ??
????
?? ?? ?
q
i=1
且
1
( ) ( ) 1
i j i j
j
P a a P a a
?
???
i=1
且
第五节 离散平稳信源
已知符号 出现后,紧跟着 出现的条件概率为:ia
ja
()( | )
()
ij
ji
i
P a aP a a
Pa?
由二维离散信源的发出符号序列的特点可以把其分
成每两个符号一组,每组代表新信源 中的一个
符号。并假设组与组之间是统计独立的,互不相关的。
12X X X?
得到一个新的离散无记忆信源,其联合概率空间为:
12XX
12
12()
XX
P x x
??
????
1 1 1 2 1,,.,,,,
( ) ( ) ( | )
q q q q
i j i j i
a a a a a a a a
P a a P a P a a
????
???
??
第五节 离散平稳信源
12
11
( ) ( ) l og ( )
i j i j
ij
H X X P a a P a a
??
?? ??
根据信息熵的定义,可得:
( 1) 联合熵
可以表征信源输出长度为 2的平均不确定性,或所含
有的信息量。因此可以用 作为二维平稳信
源的信息熵的近似值
121 / 2 ( )H X X
第五节 离散平稳信源
(2)条件熵
21
1
( | ) ( | ) l og ( | )
q
i j i j i
j
H X X a P a a P a a
?
? ? ? ?
则:
2 1 2 1
1
( | ) ( ) ( | )q ii
i
H X X P a H X X a
?
???
11
( ) ( | ) l og ( | )
i j i j i
ij
P a P a a P a a
??
?? ??
11
( ) l o g ( | )
i j j i
ij
P a a P a a
??
?? ??
第五节 离散平稳信源
另外还可以得到,21( | ) ( )H X X H X?
1 2 1 2( ) ( ) ( ) 2 ( )H X X H X H X H X? ? ?
只有信源统计独立时等号成立。
可以证明:
1 2 1 2 1( ) ( ) ( | )H X X H X H X X??
[例 2-15] 设某二维离散信源的原始信源的信源空间
X={x1,x2,x3}; P(X)={1/4,1/4,1/2},一维条件概率为:
p(x1/x1)=1/2; p(x2/x1)=1/2; p(x3/x1)=0;
p(x1/x2)=1/8; p(x2/x2)=3/4; p(x3/x2)=1/8;
p(x1/x3)=0; p(x2/x3)=1/4; p(x3/x3)=3/4;
原始信源的熵为,H(X)=1.5 bit/符号
条件熵,H(X2/X1)=1.4 bit/符号
可见,H(X2/X1)<H(X)
二维信源的熵,H(X1,X2)=H(X1)+H(X2/X1)=2.9 bit/消息
每个信源符号提供的平均信息量为:
H2(X1,X2)=H(X1,X2)/2=1.45 bit/符号。
第五节 离散平稳信源
第五节 离散平稳信源
我们现在有两种方法去近似信源的实际熵,一种是
为 1.45bit,但这种方法不太准确,因为它把两个消息
看成一组,认为两组之间是统计独立的,实际上它们
之间是有关联的;另一种是我们可以用条件熵来近似,
为 1.4bit,到底那一种正确呢?我们可以通过对一般
离散平稳信源的分析来找到这个答案。
121 / 2 ( )H X X
分析:我们用 2()HX 来近似信源的实际熵
第五节 离散平稳信源
3、离散平稳信源的极限熵
平均符号熵
12
1( ) (,.,)
NNH X H X X XN?
条件熵 1 2 1( |,.,)NNH X X X X ?有以下几点性质
( 1)条件熵随 N的增加是非递增的
( 2) N给定时,平均符号熵大于等于条件熵
( 3)平均符号熵随 N的增加是非递增的
( 4)
1 2 1l i m ( ) l i m ( |,,, )N N NNNH H X H X X X X??? ? ? ???
H?称 为 极限熵 。
第五节 离散平稳信源
可以证明,对于二维离散平稳信源,条件熵等于极
限熵,因此条件熵就是二维离散平稳信源的真实熵
对于一般信源,求出极限熵是很困难的,然而,一
般来说,取 N不大时就可以得到与极限熵非常接近的条
件熵和平均符号熵,因此可以用条件熵和平均符号熵
来近似极限熵
第六节 马尔可夫信源
在很多信源的输出序列中,符号之间的依赖关系是
有限的,任何时刻信源符号发生的概率只与前边已经发
出的若干个符号有关,而与更前面的符号无关。
为了描述这类信源除了信源符号集外还要引入状态
集。这时,信源输出消息符号还与信源所处的状态有关。
若一个信源满足下面两个条件,则称为马尔可夫信源:
( 1)某一时刻信源输出的符号的概率只与当前所处的
状态有关,而与以前的状态无关;
( 2)信源的下一个状态由当前状态和下一刻的输出唯
一确定。
第六节 马尔可夫信源
( 1)某一时刻信源输出的符号的概率只与当前所处的状态有
关,而与以前的状态无关。即
111( |,,,) ( | )l k l i l k l j l k l iP x a s E x a s E P x a s E??? ? ? ? ? ? ?
当符号输出概率与时刻 L无关,称为具有时齐性。即
( | ) ( | ),( | ) 1
k
l k l i k i k i
aA
P x a s E P a E P a E
?
? ? ? ??
第六节 马尔可夫信源
( 2)信源的下一个状态由当前状态和下一刻的输出唯一确定。
条件( 2)表明,若信源处于某一状态,当它发出
一个符号后,所处的状态就变了,一定转移到另一状态。
状态的转 移依赖于发出的信源符号,因此任何时刻信源处
在什么状态完全由前一时刻的状态和发出的符号决定。
iE
第六节 马尔可夫信源
例:二阶马尔可夫信源,原始符号集为 {1,0},
条件概率定为,P(0|00)=P(1|11)=0.8
P(1|00)=P(0|11)=0.2
P(0|01)=P(0|10)=P(1|01)=P(1|10)=0.5
由此可见,信源共有 2^2=4种状态
E,{e1=00,e2=01,e3=10,e4=11}
第六节 马尔可夫信源
状态之间有转移概率,
p(e2/e1)=p(e3/e4)=0.2
p(e2/e4)=p(e1/e3)=p(e2/e3)=p(e3/e2)=0.5
P(e1/e1)=p(e4/e4)=0.8
其状态转移图如下页。在状态转换图中,把信源的每一种状
态用圆圈表示,用有向箭头表示信源发出某一符号后由一种
状态到另一状态的转移。
第六节 马尔可夫信源
01 10
0:0.51:0.2
0:0.2
00
0:0.8
11
1:0.8
1:0.5
0:0.5
1:0.5
由上例可知,m阶马尔可夫信源符号集共有 q个符号,则
信源共有 个不同状态。信源在某一时刻时,必然处于某
一种状态,等到下一个字符输出时,转移到另外一个状态。
mq
举 例
[例 2.2.3] 设信源符号 X∈ {x1,x2,x3},信源所处的状态 S∈ {e1,
e2,e3,e4,e5} 。各状态之间的转移情况由图 2.2.1给出。
? 将图中信源在 ei状态下发符号 xk的条件概率 p(xk /ei)用矩阵表示
? 由矩阵看出:
? 由图中看出:
? 由图中可得状态的一步转移概率:
? 该信源满足马尔可夫信源定义。
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
2
1
4
1
2
1
4
1
4
1
4
3
2
1
4
1
4
1
2
1
5
4
3
2
1
321
001
0
0
e
e
e
e
e
xxx
?? ??3 1 5,4,3,2,1,1)/(k ik iexp
?
?
?
?
??
?
?
?
????
????
????
????
?
?
?
?
?
0),/(
1),/(
1),/(
0),/(
1123
1122
1111
1112
eSxXeSP
eSxXeSP
eSxXeSP
eSxXeSP
lll
lll
lll
lll
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
4
1
4
3
4
1
4
3
2
1
2
1
4
1
4
1
2
1
5
4
3
2
1
000
00000
000
000
00
54321
e
e
e
e
e
eeee
第六节 马尔可夫信源
定义 为各状态的极限概率,则时齐、遍历的马尔
可夫信源的熵为
()iQE
1
( ) ( | )J ii
i
H Q E H X E?
?
? ?
11
( ) ( | ) l og ( | )qJ i k i k i
ik
Q E P a E P a E
??
? ??
第六节 马尔可夫信源
马尔可夫信源的熵:
这里这给出结论:
1 1 2( |,., )mmH H X X X X???
表明 m阶马尔可夫信源的极限熵等于 m阶条件熵。
根据求条件熵公式还可得到
1
11
( ) ( | ) l o g ( | )
mmqq
m i j i j i
ij
H H p e p e e p e e??
??
? ? ? ??
(3) 举 例
[例 2.2.4] 二元 2阶 马尔可夫信源,原始信号 X的符号集为 {X1=0,
X2=1},其状态空间共有 nm=22=4个不同的状态 e1,e2,e3,e4,即
E,{e1=00,e2=01,e3=10,e4=11}
状态转移图见右图所示。
解,p(e1/e1)= p(x1/e1)=p(0/00)=0.8
p(e2/e1)= p(x2/e1)=p(1/00)=0.2
p(e3/e2)= p(x1/e2)=p(0/01)=0.5
p(e4/e2)= p(x2/e2)=p(1/01)=0.5
p(e1/e3)= p(x1/e3)=p(0/10)=0.5
p(e2/e3)= p(x2/e3)=p(1/10)=0.5
p(e3/e4)= p(x1/e4)=p(0/11)=0.2
? 由二元信源 X∈ {0,1}得到的状态空间 (e1,e2,e3,e4)和相应的一
步转移概率构成的 2阶 马尔可夫信源模型为
? 求出稳定状态下的 p(ej),称为 状态极限概率 。
? 将一步转移概率代入上式得
p(e1)=0.8 p(e1)+0.5 p(e3)
p(e2)=0.2 p(e1)+0.5 p(e3)
p(e )=0.5 p(e )+0.2 p(e )
4,3,2,1)/()()(
0)(,1)/(
4,3,2,1,
)/(
4
1
4
1
4321
??
??
?
?
?
?
?
?
?
?
?
?
?
jeepepep
epeep
ji
eep
eeee
i
ijij
i
j
ij
ij
由
且
? 解方程组得
p(e1)= p(e4)=5/14
p(e2)= p(e3)=2/14
? 计算极限熵
)/(8.0)/(l o g)/()( 24
1
4
112
符号比特???? ? ?
? ??? iji j iji
eepeepepHH
第六节 马尔可夫信源
例:一个二元二阶马尔可夫信源,信源符号集 A={0,1}。
信源开始时,它以概率 p(0)=p(1)=0.5发出随机变量 X1。
然后,下一单位时间输出的随机变量 X2与 X1有依赖关
系,由条件概率 p(x2|x1)表示:
再下一单元时间输出随机变量 X3,而 X3依赖于前面变
量。依赖关系由条件概率 p(x3|x1x2)表示:
x1 x1
x2 0 1
0 0.3 0.4
1 0.7 0.6
第六节 马尔可夫信源
由从第四单位时间开始,任意时刻信源发出的随机变量 Xi
只与前面二个单位时间的随机变量有关,
根据提议可得信源的状态转移图:
x1x2 x1x2 x1x2 x1x2
X3 00 01 10 11
0 0.4 0.2 0.3 0.4
1 0.6 0.8 0.7 0.6
2 1 3 1 2( | ) ( | ) ( 3 )i i iP x x x P x x x i?? ??
第六节 马尔可夫信源
00
01
10
11
0E
1E
2E
3E
4E
5E
6E
第六节 马尔可夫信源
0E
3E
4E
5E
6E
0.5
0.5
0.4
0.8
0.3
0.6
0.2
0.7
0.6
0.4
第六节 马尔可夫信源
解得:
代入式 ( 2.137) 得
= 0.8956
当马尔可夫信源达到稳定后, 符号 0和 1的分布概率可根据下式计算
因此得:
3 3 5
4 3 5
3 4 6
3 4 6
3 4 5 6
( ) 0,4 ( ) 0,3 ( )
( ) 0,6 ( ) 0,7 ( )
( ) 0,2 ( ) 0,4 ( )
( ) 0,8 ( ) 0,6 ( )
( ) ( ) ( ) ( ) 1
Q E Q E Q E
Q E Q E Q E
Q E Q E Q E
Q E Q E Q E
Q E Q E Q E Q E
???
?
??
?
?
???
? ??
?
? ? ? ? ??
45( ) ( ) 2 / 9Q E Q E?? 3( ) 1 / 9QE ?6( ) 4 / 9QE ?
3 4 5 6( ) ( 0, 4,0, 6 ) ( ) ( 0, 2,0, 8 ) ( ) ( 0, 3,0, 7 ) ( ) ( 0, 4,0, 6 )H Q E H Q E H Q E H Q E H? ? ? ? ?
1
( ) ( ) ( / )Jk i k i
i
P a Q E P a E
?
? ?
3 4 5 6
3 2 5 6
(0 ) 0, 4 ( ) 0, 2 ( ) 0, 3 ( ) 0, 4 ( ) 1 / 3
(0 ) 0, 6 ( ) 0, 8 ( ) 0, 7 ( ) 0, 6 ( ) 2 / 3
P Q E Q E Q E Q E
P Q E Q E Q E Q E
? ? ? ? ?
? ? ? ? ?
第七节 信源剩余度与自然语言的熵
0 1 1 1 2 1 1l o g ( ) ( ) ( ) ( ) ( )mq H x H x H x H x H x H? ? ? ?? ? ? ? ? ? ?
1、关于离散信源熵的总结:
实际信源可能是非平稳的有记忆随机序列信源;
其极限熵是不存在的;解决的方法是假设其为离散平
稳随机序列信源,极限熵存在,但求解困难;进一步
假设其为 m阶 Markov信源,用其 m阶条件熵近似;
再进一步假设为一阶 Markov信源,用其一阶条件熵
来近似;最简化的信源是离散无记忆信源,其熵为
H(x);
最后可以假定为等概的离散无记忆信源,其熵 H(x);
它们之间的关系可以表示为:
1mH?
logq
2 2 1()H x x
第七节 信源剩余度与自然语言的熵
2、熵的 相对率
0
H
H?
?? 0 logHq?
3、信源剩余度
0
11 HH?? ?? ? ? ?
第七节 信源剩余度与自然语言的熵
4、自然语言的熵
( 1)对于英文字母
0
1.41 1 1 0.71
l og 27
H
H??
?? ? ? ? ? ? ?
( 2)对于中文
4
0
9.7331 1 1 0.2 64
l og 10
H
H??
?? ? ? ? ? ? ?
我们可以压缩剩余度来压缩信源,提高通信的
可靠性。