信息论与编码数学与计算机科学学院 朱西平
(xpzhu188@163.com )
课程参考教材
靳蕃,信息论与编码方法在计算机 ·通信中的应用,
西南交通大学出版社,1992
曲炜,朱诗兵,信息论基础及应用,清华大学出版社,2005
ROBERT J.MCELIECE,信息论与编码理论(第
2版),电子工业出版社,2003
RANJAN BOSE著,武传坤译,信息论、编码与密码学,机械工业出版社,2005
傅祖芸,信息论与编码,电子工业出版社,2004
一、信息论发展简史
信息论是在长期通信工程的实践中,由通信技术与概率论、
随机过程和数理统计相结合而逐步发展起来的一门科学。
奈魁斯特:他在 1924年研究影响电报传递速度的因素时,就察觉到信息传输速度和频带宽度有关系 ;
哈特莱 (Hartley):他在 1928年用概率的观点来分析信息传输问题 ;
仙农( Claude E.Shannon),1948年发表《通信的数学理论,(A Mathematical Theory of Communication),为创立信息论作出了决定性的贡献 ;
维纳 (N,Wiener)等:为信息论的进一步发展和拓展作了大量工作 ;主要在通信的统计理论与滤波器理论方面二、信息的概念和度量
1、信息论中,信息,与其他概念的区别
2、仙农关于,信息,的定义
3、信息的度量
4、仙农关于信息定义和度量的优点和局限信息论中,信息,与其他概念的区别
,信息,是信息论中最基本、最重要的概念,它是一个既抽象又复杂的概念;
,信息,不同于消息
在现代信息论形成之前,信息一直被看作是通信中消息的同义词,没有严格的数学含义;
所谓消息,是用文字、符号、数据、语言、图片、图像等能够被人们感觉器官所感知的形式,把客观事物运动和主观思维活动的状态表达出来;
消息是信息的载体;消息是表现形式,信息是实质;
,信息,不同于情报
情报往往是军事学、文献学方面的习惯用词,它的含义比
,信息,窄的多,一般只限于特殊的领域,是一类特殊的信息;
,情报,是人们对于某个特定对象所见、所闻、所理解产生的知识;
信息论中,信息,与其他概念的区别 (续 )
,信息,不同于知识
知识是人们根据某种目的,从自然界收集得来的数据中整理、概括、提取得到的有价值的信息,
是一种高层次的信息;
知识是信息,但不等于信息的全体;
,信息,不同于信号
把消息变换成适合信道传输的物理量,就是信号;信号是承载消息的物理量;
仙农关于,信息,的定义
关于信息的科学定义,目前已有百余种流行的说法,它们从不同的侧面和层次来揭示信息的本质;
仙农从研究通信系统传输的实质出发,对信息做出了科学的定义;
仙农注意到:收信者在收到消息之前是不知道消息的具体内容的。通信系统消息的传输对收信者来说,是一个从不知到知的过程,或者从知之甚少到知之甚多的过程,或是从不确定到部分确定或全部确定的过程。
因此,对于收信者来说,通信过程是消除事物状态的不确定性的过程,不确定性的消除,就获得了信息,原先的不确定性消除的越多,获得的信息就越多;
,信息,是事物运动状态或存在方式的不确定性的描述,
这就是仙农关于信息的定义 。
信息的度量
信息的度量(信息量)和不确定性消除的程度有关,消除了多少不确定性,就获得了多少信息量;
不确定性就是随机性,可以用概率论和随机过程来测度不确定性的大小,出现概率小的事件,其不确定性大,反之,不确定性小;
由以上两点可知,概率小 ——> 信息量大,
即信息量是概率的单调递减函数;
此外,信息量应该具有可加性;
信息的度量(续)
由于信息量与概率成反比,并且具有可加性,
可以证明,信息量的计算式为其中 Pk是事件 Xk发生的概率,这也是先农关于 (自 )信息量的度量 (概率信息 );
自信息量 I(xk) 的含义
当事件 xk发生以前,表示事件 xk发生的不确定性;
当事件 xk发生以后,表示事件 xk所提供的信息量;
k
k
k PpxI 22 lo g
1lo g)(
信息的度量(续)
计算信息量主要要注意有关事件发生概率的计算;
例:从 26个英文字母中,随即选取一个字母,
则该事件的自信息量为
I = -log2 (1/26) = 4.7 比特
例:设 m比特的二进制数中的每一个是等概率出现的 (这样的数共有 2m个 ),则任何一个数出现的自信息为,
I = -log2 (1/ 2m) = m 比特 /符号信息的度量(续)
自信息量的单位
自信息量的单位取决于对数的底;
底为 2,单位为,比特( bit),;
底为 e,单位为,奈特( nat),;
底为 10,单位为,哈特( hat),;
1 nat = 1.44bit,1 hat = 3.32 bit;
先农关于信息定义和度量的优点
优点
它是一个科学的定义,有明确的数学模型和定量计算;
它与日常生活中关于信息的理解不矛盾;
它排除了对信息一词某些主观性的含义,是纯粹形式化的概念;
先农关于信息定义和度量的局限
局限
这个定义的出发点是假设事物的状态可以用一个以经典集合论为基础的概率模型来描述,然而实际存在的某些事物运动状态很难用一个合适的经典概率模型来描述,甚至在某些情况下不存在这样的模型;
这个定义和度量没有考虑收信者的主观性和主观意义,也抛开了事物本身的具体含义、用途、
重要程度和引起的后果等,这与实际不完全一致。
三、平均信息量 — 熵
1、熵 (Entropy)的概念
2、熵的计算
3、熵的含义
4、熵的性质
5、剩余度 ΔH
熵 (Entropy)的概念
通常研究单独一个事件或单独一个符号的信息量是不够的,往往需要研究整个事件集合或符号序列 (如信源 )的平均的信息量 (总体特征 ),这就需要引入新的概念;
熵 (Entropy)的概念(续)
假设离散事件集合的概率特性由以下数学模型表示:
则如果将自信息量看为一个随机变量,其平均信息量为自信息量的数学期望,其定义为:
由于这个表达式和统计物理学中热熵的表达式相似,
且在概念上也有相似之处,因此借用,熵,这个词,
把 H(X)称为信息,熵,;
)(......)()(
......
)( 21
21
n
n
aPapap
aaa
xp
X?

n
i iaP1 1)(
n
i iii
apapapEXH
1
)(lo g*)()(1lo g)(
熵的计算
例:设某信源输出四个符号,其符号集合的概率分布为:
则其熵为:





8
1
8
1
4
1
2
1
4321
4321
4321 ssss
pppp
ssssS
符号比特 /75.18l o g824l o g412l o g21l o g)( 4
1

i
ii ppSH
熵的含义
熵是从整个集合的统计特性来考虑的,它是从平均意义上来表征集合的总体特征的。
熵表示事件集合中事件发生后,每个事件提供的平均信息量;
熵表示事件发生前,集合的平均不确定性;
例:有 2个集合,其概率分布分别为:
分别计算其熵,则:
H(X)=0.08 bit /符号,H(Y)=1bit / 符号





01.099.0)(
21 aa
XP
X





5.05.0)(
21 aa
YP
Y
熵的性质
连续性,当某事件 Ek的概率 Pk稍微变化时,
H函数也只作连续的不突变的变化;
对称性,熵函数对每个 Pk 对称的。该性质说明熵只与随机变量的总体结构有关,与事件集合的总体统计特性有关;
非负性,H>=0;
确定性,即:
H(1,0)=H(1,0,0)=H(1,0,0…,0)=0,即当某一事件为确定事件时,整个事件集合的熵为 0;
熵的性质(续)
极值性,即当所有事件等概率出现时,平均不确定性最大,从而熵最大,即:
nnnnHPPPH n lo g)1,...,1,1(),...,,( 21
熵的性质(续)
可加性,设有一事件的完全集合 {E1,E2,…,En},其熵为
H1(p1,p2,…,pn)。 现设其中一事件 En又划分为 m个子集,即:
这时构成的三个概率空间分别具有熵函数:
这说明对集合的进一步划分会使它的不确定性增加,即熵总是往大增加。
1..}{,,21
1 1


n
m
kk
m
k
m
k
knkn p
qqqqFpqpFE 则有;?
312
1
1112211
*
).,,(3);,.,,,;,.,,,();,.,,,,(
HpHH
p
q
p
qHqqppHpppH
n
n
m
n
mnn

它们之间具有关系:
熵的性质(续)
例子,设事件 A1,A2构成全集,p(A1)=p1=3/15,
p(A2)=p2=12/15,现将事件 A2又进一步划分为 2个子集 B和 C,且 p(B)=q1=4/15,p(C)=q2=8/15,则:
312
2
2
2
1
3
2112
211
*
15
12
)103l o g15(
15
1
),(
)323l o g125l o g15(
15
1
),;(
)245l o g15(
15
1
)
15
12
l o g
15
12
15
3
l o g
15
3
(),(
HHH
p
q
p
q
H
qqpH
ppH




显然,其结果满足:
剩余度 ΔH
剩余度刻画了事件集合中符号的相关性程度,
其定义为:
ΔH=H0 - H
其中,H0为熵的最大值,H为熵的实际值;
剩余度 ΔH (续 )
例:英文字母表
由 27个元素构成的集合的熵的最大值为:
H0=log27=4.75 bit/符号 (当 27个元素等概率分布时 )
对于实际的有意义英文来说,由于受到英语构词法等规则的限制,其字母不是等概率出现的,而呈现一定的分布(如下表)。由此可以计算出实际英文字母表 (26字母 +1空格 )的熵为,H(x)=4.03bits/字母;
因此,英文字母表的剩余度 ΔH=4.75-4.03=0.72
以上结论仅仅从英文字母的概率分布得出。一般认为,如果考虑到英语的所有特点,则实际英文字母表的熵为 H=1.4bits/字母;也就是说,英语的冗余是很大的。
0
2
4
6
8
10
12
14
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
剩余度 ΔH (续 )
正是因为原始的信息都有冗余,才有可能对信息进行压缩,以尽量减少冗余,提高每个符号携带的信息量;但另一方面,冗余信息可以提高信息的抗干扰能力,如果信息的某部分在传输中被损坏,则通过冗余有可能将其恢复。
(冗余小,有效 ) (冗余大,可靠 )
中国? 中华人民共和国
从提高信息传输效率的角度出发,总是希望减少剩余度(压缩),这是信源编码的作用;从提高信息抗干扰能力来看,总是希望增加或保留剩余度,这是信道编码的作用;
四、二维离散概率量的熵
1、研究意义
2、联合事件集合和概率矩阵
3、边际熵和联合熵
4、条件概率和条件熵
5、从通信系统角度看熵的意义
6、熵间的相互关系研究意义
二维的系统能表达通信系统发送和接收的关系,也能表达存储系统的存取关系,二维的结果还可以向多维系统推广,因此这个研究具有重要的意义。
联合事件集合和概率矩阵边际概率?

m
j jii yxpxP 1 ),()(
n
j jij yxpyP 1 ),()(



mnnn
m
m
FEFEFE
FEFEFE
FEFEFE
EF
...
............
...
...
21
22212
12111
两个事件集合 E,F的联合事件集合



),(...)2,()1,(
............
),2(...)2,2()1,2(
),1(...)2,1()1,1(
),(
mnpnpnp
mppp
mppp
YXP
ni mj jip1 1 1),(
用 X,Y表示 E,F对应的随机变量,则其联合概率矩阵为边际熵和联合熵通过熵的定义,可以得到:
边际熵?

n
i ii xpxpXH 1 )(lo g)()(
mj jj ypypYH 1 )(lo g)()(
联合熵
),(lo g),(),( 1 1 jini mj ji yxpyxpYXH
条件概率和条件熵条件概率 )( ),()|(
j
ji
ji yp
yxpyxp?并且 1)|(
1
n
i ji yxp
当已知特定事件 yj 出现时,下一个出现的是 xi 的不确定性为:
)|(lo g ji yxp?
对集合 X 中所有元素统计平均,其熵为:
ni jijij yxpyxpyXH 1 )|(lo g)|()|(
条件概率和条件熵上述熵值再对集合 Y中的元素做统计平均,得条件 熵,






m
j
n
i
jiji
m
j
ji
n
i
jij
ji
n
i
ji
m
j
j
m
j
jj
yxpyxpyxpyxpyp
yxpyxpypyXHypYXH
1 11 1
111
)|(l o g),()|(l o g)|()(
)|(l o g)|()()|()()|(
同理可得:



n
i
m
j
ijji xypyxpXYH
1 1
)|(l o g),()|(
例子
例:掷两个均匀的六面体,六面体的每一面上分别有 1,2,3,…,
6个点,求各个熵。
将两个六面体出现点数的事件用 X 和 Y 表示,每个六面体有 6种可能的点数,两个共有 36种组合,每种出现的概率为 1/36,即:
p(xi,yj)=1/36,p(xi)=1/6,p(yj)=1/6.
p(yj|xi)= p(xi,yj)/ p(xi)=1/6,p(xi|yj)=1/6,
3l o g1)(l o g)()(,3l o g1)(l o g)()( 6
1
6
1

i iii ii
ypypYHxpxpXH
边际熵
)3l o g1(2),(l o g),(),( 6
1
6
1


ji
i j
ji yxpyxpYXH
联合熵
)|(3l o g1)|(l o g),()|( 6
1
6
1
XYHyxpyxpYXH
j i jiji


条件熵从通信系统角度看熵的意义
H(X),表示信源边每个符号的平均信息量(信源熵);
H(Y),表示信宿边每个符号的平均信息量(信宿熵);
H(X|Y):信道疑义度 (含糊度 ),表示在输出端接收到
Y后,发送端 X尚存的平均不确定性。这个对 X尚存的不确定性是由于干扰引起的。
H(Y|X):信道散布度,表示在已知 X后,对于输出 Y
尚存的平均不确定性;
H(X,Y):表示整个信息传输系统的平均不确定性;
熵间的相互关系
H(X,Y) = H(X) + H(Y|X)
H(X,Y) = H(Y) + H(X|Y)
H(X) >= H(X|Y)
H(Y) >= H(Y|X)
H(X,Y) <= H(X) + H(Y)
五、信道的干扰特性
1、信道的分类
2、离散无记忆信道数学模型
3、信道矩阵
4、离散无干扰信道
5、输入输出相互独立的信道信道的分类
根据信道用户的多少,分为:
单用户信道
多用户信道
根据输入输出信号的特点,分为:
离散信道
连续信道
根据信道的统计特性,分为:
无干扰信道
有干扰无记忆信道
有干扰有记忆信道离散无记忆信道数学模型
x
1
x
2
x
n
y
1
y
2
y
m
p(y
1
|x
1
)
p(y
m
|x
n
)
X=(x
1
,x
2
,....,x
n
),输入符号集
Y=(y
1
,y
2
,....,y
m
),输出符号集其中,P(xi)表示输入某符号的概率,ni ixp1 1)(
P(yj)表示输出某符号的概率,?

m
j jyp1 1)(
mj ij xyp1 1)|(P(yj|xi)表示发送 xi 而接收到 yj 概率 (转移概率 ),
信道矩阵将所有转移概率以矩阵方式列出,得:

)|(...)|()|(
............
)|(...)|()|(
)|(...)|()|(
)|(
21
22221
11211
nmnn
m
m
xypxypxyp
xypxypxyp
xypxypxyp
XYP
其中 0)|(?ij xyp 1)|(1mj ij xyp
该矩阵完全描述了信道在干扰作用下的统计特性,称为信道矩阵。
信道矩阵(续)
则不难证明下面的关系:
)()|()( 2 YPXYPXP),()|()( 1 YXPXYPXP


),(..),(),(
........
),(..),(),(
),(..),(),(
),(
)(..)()()(
)(..00
........
0..)(0
0..0)(
)(
21
22212
12111
212
2
1
1
mnnn
m
m
n
n
yxpyxpyxp
yxpyxpyxp
yxpyxpyxp
YXP
xpxpxpXP
xp
xp
xp
XP,,
如果设例子
某个信道的信源符号出现的概率为 P(X)=(1/3,1/3,1/3),其信道矩阵为,

2/14/14/1
4/12/14/1
4/14/12/1
)|( XYP
3/13/13/1
2/14/14/1
4/12/14/1
4/14/12/1
3/13/13/1)]([?
YP


6/112/112/1
12/16/112/1
12/112/16/1
2/14/14/1
4/12/14/1
4/14/12/1
3/100
03/10
003/1
)|()]([)],([ 1 XYPXPYXP则离散无干扰信道 x1 y1p(y1|x1)=1
x2 y2
p(y2|x2)=1
x
n
y
n
p(y
n
|x
n
)=1

信道模型


ji
jixyp
ij 0
1)|(

1..00
........
0..10
0..01
)|( XYP
这种信道的输入和输出是一一对应的,即,
离散无干扰信道(续)
因此不难证明,
H(X,Y) = H(X) = H(Y),
H(X|Y) = H(Y|X) = 0
在这种无干扰信道中,对应于输入符号有唯一的接收符号,接收端的平均不确定程度和发送端的平均不确定程度相同;
在这种信道中,信息被无损地传输,故又称为,无损信道,;
输入输出相互独立的信道信道模型
x1
x2
x
n
y1
y2
y
m
p(y
n
|x
1
)=1/m
p(y1|x1)=1/m
p(y2|x1)=1/m
这种信道的干扰很强,以至任意一个输入符号 xi 可能等概率地被接收成任意一个 yj,即

mn
mmm
mmm
mmm
XYP
/1.../1/1
......
/1.../1/1
/1.../1/1
)|(
输入输出相互独立的信道(续)
mmmXYPxpxpxp
XYPXpYP
n /1.../1/1)]|([)(...)()(
)]|([)]([)]([
21

因此可得
)()|(,/1)|(,/1)( ijiijj xpyxpmxypmyp

)()|( YHXYH?
所以
)()(
1
)(l o g)(
1
)|(l o g)|()()|(
11 1
1 1
XHXH
m
xpxp
m
yxpyxpypYXH
m
j
m
j
i
n
i
i
m
j
ji
n
i
jij






输入输出相互独立的信道(续)
这种信道的输入和输出符号没有关系,Y 知道后关于 X 的不确定性 H(X|Y) 和没有 Y 时的不确定性 H(X) 完全一样,信息无法传输,
称为,全损信道,;
六、互信息量
1,互信息量定义
2、平均互信息量定义
3、信息处理定理互信息量定义
互信息量表示先验的不确定性减去尚存的不确定性,这就是收信者获得的信息量;
互信息量可能为正数、负数,0;
对于无干扰信道,I(xi;yj) = I(xi);
对于全损信道,I(xi;yj) = 0;
xi yj信道
p(xi),发送端发送 xi 的概率;
P(xi|yj),接收端收到 yj 后,发送端发送 xi 的概率
)(
)|(lo g
)|(
1lo g
)(
1lo g);(
i
ji
jii
ji xp
yxp
yxpxpyxI
定义,
平均互信息量
定义
与其他熵的关系
I(X;Y) = H(X) - H(X|Y)
I(X;Y)=H(Y) - H(Y|X)
I(X;Y)=H(X)+H(Y)-H(X,Y)
表达平均互信息量的熵 I(X;Y),是确定通过信道的信息量的多少,因此称它为信道传输率或传信率。
)(
)|(lo g),();(),();(
i
ji
j i jijij i ji xp
yxpyxpyxIyxpYXI
平均互信息量(续)
平均互信息量的性质
非负性:即 I(X;Y) >= 0
极值性:即 I(X;Y) <= H(X)
对称性:即 I(X;Y) = I(Y;X)
对于无损信道,有
I(X; Y) = H(X) = H(Y) = H(X,Y)
对于全损信道,有
I(X; Y) = 0
各类熵与集合图的类比
H(X) H(Y)
H(X|Y) H(Y|X)
I(X;Y)
H(X,Y)
A B
A∩B’ A’∩B
A∩B
A∪ B
信道中熵的信息流图
H(Y|X),信道散布度;
H(X|Y),信道含糊度;
它们都是由于噪声干扰的存在而存在的。信道中存在噪声干扰,是减低信道传信能力的基本原因。
H(X) H(Y)I(X;Y)
H(X|Y)
H(Y|X)
信息处理定理
已知
对所观测采集的数据集 Z 作处理变换 Y=f(Z),有
H(X|Z) <= H( X | f(Z) ) = H( X|Y )
I(X;Z) >= I( X ; f(Z) ) = I( X;Y )
仅当每个 z∈ Z有唯一的 y∈ Y与之对应时等号成立。
信息处理定理说明,对于观测采集到的数据做任何加工和处理,只会造成有用信息的损失,或不确定性的增加。因此,由计算机系统对输入数据进行处理,绝对不会增加信息量,要减少信息处理过程中信息的损失,就需要增加计算处理的工作量,或采用较为复杂的处理设备。
系统 1 系统 2X
Z Y
七、离散信道的信道容量
1、定义
2、信道容量的计算信道容量的定义
对于一切可能的输入信号的概率分布来说,信道传输率 I(X;Y) 所能达到的最大值,称为信道容量:
其中 max下的 {P(x)}表示对所有可能的输入信号的概率分布来取最大值。使信道传输率达到最大的输入概率分布称为最佳输入分布。
如果每个符号的传送时间为 T,则每秒钟有 1/T 个符号被传送,因此每秒钟最大信道传输率或信道容量为:
)};({ma x)( YXIC XP? 比特 /符号
T
CC
T? Bit/s
信道剩余度
信道剩余度绝对剩余度 = C – I(X; Y)
相对剩余度 = [C – I(X; Y)] / C
可以用信道剩余度来衡量信道利用率的高低;
信道容量的计算
通常计算一个信道的信道容量是比较麻烦的,
甚至是不可能精确计算出来的,这是因为需要对所有可能的输入信号的概率分布来计算
I(X;Y),从中找出最大可能的一个作为信道容量 ;
二进对称信道的信道容量
二进对称信道 BSC(Binary Symmetric Channel)的模型 0
1
0
1
X Y
p
p
1-p
1-p
设输入符号的概率分布为 p(0)=a,p(1)=1-a,
条件概率 p(0|0)=p(1|1)=p,p(1|0)=p(0|1)=1-p,
则有



)1()1)(1(
)1(
),(
1
1
)|(,1)(
apap
appa
YXP
pp
pp
XYPaaXP
二进对称信道的信道容量从而可以计算出:
H(Y|X) = -( p*logp + (1-p) * log(1-p) ),
max I(X;Y) = max(H(Y) – H(Y|X) )
= max(H(Y)) – H(Y|X)
但是 max(H(Y)) = 1,它发生在 p(1)=p(0)=1/2
下,故 BSC的信道容量为:
C = max I(X;Y)=1+ p*logp + (1-p) * log(1-p)