§ 9.4 信息的度量与应用
怎么度量信息
首先分析一下问题的认识过程
1.对一问题毫无了解,对它的认识是不确定的
2,通过各种途径获得信息,逐渐消除不确定性
3,对这一问题非常的了解,不确定性很小
黑箱
不确定度 A
灰箱
不确定度 B
白箱
不确定度 C
信息 I 信息 II
对于系统,可以利用守恒
关系有 A+I=B,得 I=B-A。
可否用消除不确定性的多少来度量信息!
几个例子:
例 12 当你要到大会堂去找某一个人时,甲告诉你两条消息:
( 1)此人不坐在前十排,( 2)他也不坐在后十排;乙只告
诉你一条消息:此人坐在第十五排。问谁提供的信息量大?
乙虽然只提供了一条消息,但这一条消息对此人在什么
位置上这一不确定性消除得更多,所以后者包含的信息量应
比前者提供的两条消息所包含的总信息量更大
例 13 假如在盛夏季节气象台突然预报, 明天无雪, 的消
息。在明天是否下雪的问题上,根本不存在不确定性,所
以这条消息包含的信息量为零。
是否存在信息量的度量公式
基于前面的观点,美国贝尔实验室的学者香农( Shannon)
应用 概率论知识和逻辑方法 推导出了信息量的计算公式
In his words
"I just wondered how
things were put together."
Claude Elwood Shannon
(April 30,1916 - February 24,
2001) has been called "the
father of information theory",
Shannon提出的四条 基本性质 (不妨称它们为公理 )
公理 1 信息量是该事件发生概率的连续函数
公理 2 如果事件 A发生必有事件 B发生,则得知事件 A发生
的信息量大于或等于得知事件 B发生的信息量。
公理 3 如果事件 A和事件 B的发生是相互独立的,则获知
A,B事件将同时发生的信息量应为单独获知两事件
发生的信息量之和。
公理 4 任何信息的信息量均是有限的。
将某事件发生的信息记为 M,该事件发生的概率记为 p,记
M的信息量为 I( M)。
上述公理怎样推出信息量的计算公式呢
定理 11.2
满足公理 1— 公理 4的信息量计算公式为 I(M)=- Clogap,
其中 C是任意正常数,对数之底 a可取任意为不为 1的正实
数。
证明,
由公理 1 I(M)=f(p),函数 f连续 。
由公理 2 若 A发生必有 B发生,则 pA≤pB,
有 f(pA)≥f(PB),故函数 f是单调不增的 。
由公理 3 若 A,B是两个独立事件,则 A,B同时发生
的概率为 pApB,有 f(PAPB)=f(pA)+f(pB)。
先作变量替换 令 p=a-q,即 q=- logaP 记
)( BA qqBA epp ???)()()( qgefpf q ?? ?
)()()( BABA qgqgqqg ???
,又 有:
,g亦为连续函数 。
g(x+y)=g(x)+g(y)的连续函数有怎样的性质
首先,由 g(0)=g(0+0)=2g(0)得出 g(0)=0或 g(0)=∞。
但由公理 4,后式不能成立,故必有 g(0)=0。
记 g(1)=C,容易求得 g(2)=2C,g(3)=3C,…,一般地,
有 g(n)=nC。进而
,可得 。
于是对一切正有理数 m/n,g(m/n) =(m/n)C。
????????????? ??? nngnngg 111)1( ? )1(
11 g
nng ???
??
?
?
由 连续性 可知:对一切非负实数 x,有 g(x)=Cx
当 x取负实数时,由 g(x)+g(- x)=g(0)=0,可得
出 g(x)=―g(―x)=cx 也成立,从而 对一切实数 x,g(x)=Cx,
故 g(q)=Cq。
现作逆变换 q=- logap,
得 I(M)=f(P)=- ClogaP ( 11.3)
证毕 。
各种信息量单位
若取 a=2,C=1,此时信息量单位称为比特
若取 a=10,C=1,此时信息量单位称为迪吉特
若取 a=e,C=1,此时信息量单位称为奈特
例 14 设剧院有 1280个座位,分为 32排,每排 40座。现欲从
中找出某人,求以下信息的信息量。( i)某人在第十排;
( ii)某人在第 15座;( iii)某人在第十排第 15座。
解, 在未知任何信息的情况下,此人在各排的概率可以认
为是相等的,他坐在各座号上的概率也可以认为是相等的,故
( i)“某人在第十排”包含的信息量为
(比特)5
32
1lo g
2 ??
( ii)“某人在第 15座”包含的信息量为
(比特)32.5
40
1lo g
2 ??
( iii)“某人在第十排第 15座”包含的信息量为
(比特) 32.10
1280
1lo g
2 ??
5bit+5.32bit=10.32bit
这一例子反映了对完全独立的
几条信息,其总信息量等于各
条信息的信息量之和。
对于相应不独立的信息,要计算
在已获得某信息后其余信息的信
息量时,需要用到条件概率公式,
可以参阅信息论书籍。
至此,我们已经引入了信息度量的定量公式。如前
所述,它是信息对消除问题的不确定性的度量。这种讲
法似乎有点难以为人们所接受,其实,这只是人们的习
惯在起作用。这里,我们不妨来作一比较。在人们搞清
热的奥秘以前,温度也是一个较为抽象的概念,因它实
质上是物体分子运动平均速度的一种映。人们天生就知
道冷和热,但如何来度量它却曾经是一个难题。只有在
解决了这一问题以后,以定量分析为主的热力学才能得
到飞速的发展。信息问题也是这样,人们对各种信息包
含的实质“内容”究竟有多少往往也有一个直观的感觉,
但用什么方法来度量它,却比“今天 15度”这样的讲法
更不易理解,因为它是通过较为抽象的概率来计算的。
平均信息量(熵)问题
设某一实验可能有 N种结果,它们出现的概率分别为 p1,…,p N,则
事先告诉你将出现第 i种结果的信息,其信息量为- log2pi,而该
实验的不确定性则可用这组信息的平均信息量(或熵)
来表示?
?
??
N
i
ii ppH
1
2lo g
例 15 投掷一枚骼子的结果有六种,即出现 1— 6点、出现每
种情况的概率均为 1/6,故熵 H=log26≈2.585(比特)。
投掷一枚硬币的结果为正、反面两种,出现的概率均
为 1/2,故熵 H=log22=1(比特)。
向石块上猛摔一只鸡蛋,其结果必然是将鸡蛋摔破,出
现的概率为 1,故熵 H=log21=0
从例子可以看出,熵实质上反映的是问题的,模糊度,,熵为
零时问题是完全清楚的,熵越大则问题的模糊程度也越大
离散型概率分布的随机试验,熵的定义为,
( 11.5)?
?
??
N
i
ii ppH
1
2lo g
连续型概率分布的随机试验,熵的定义为,
( 11.6)? ??
???? dxxpxppH )(l o g)()( 2
熵具有哪些有趣的性质
定理 11.3 若实验仅有有限结果 S1,…,S n,其发生的概率分别为
P1,…,P n,则当
时,此实验具有最大熵。
npp n
1
1 ??? ?
此定理既可化为条件极值问
题证明之,也可以利用凸函
数性质来证明,请大家自己
去完成
定理 9.4 若实验是连续型随机试验,其概率分布 P(x)在 [a,b]
区间以外均为零,则当 P(x)平均分布时具有最大熵。
定理 9.5 对于一般连续型随机试验,在方差一定的前提下,正
态分布具有最大的熵。
定理 9.6 最大熵原理,即受到相互独立且均匀而小的随机因素
影响的系统,其状态的概率分布将使系统的熵最大。
上述结果并非某种巧合。根据概率论里的中心极限定理,若试
验结果受到大量相互独立的随机因素的影响,且每一因素的影
响均不突出时,试验结果服从正态分布。最大熵原理则说明,
自然现象总是不均匀逐步趋于均匀的,在不加任何限止的情况
下,系统将处于熵最大的均匀状态。
例 16 有 12个外表相同的硬币,已知其中有一个是假的,可能
轻些也可能重些。现要求用没有砝码的天平在最少次数中找出
假币,问应当怎样称法。
解 假币可轻可重,每枚硬币都可能是假币。故此问题共有
24种情况,每种情况的概率为 1/24。所以此问题的熵为 log224。
确定最少次数的下界
实验最多可能出现 三种结果, 根据定理 11.3,这种实验在可
能出现的各种事件具有相等的概率时,所提供的平均信息量
最大,故实验提供的平均信息量不超过 log23。
设最少需称 k次,则这 k次实验提供的总信息量
不超过 klog23=log23k,又问题的模糊度(熵)为 log224
必要条件, log23k≥log224,得 k≥3。
称三次足够了吗?
实验方法,使每次实验 提供尽可能大的平均信息量。
第一次,将 12枚硬币平分成三堆,取两堆称,出现两中情况
情况 1 两堆重量相等
假币在未秤的 4枚中。任取其中的 3枚加上从已秤过的 8
枚中任取的 1枚,平分成两堆称。出现两种情况
情况 1.1 两堆重量相等
最后剩下的一枚是假币,再
称一次知其比真币轻还是重。
情况 1.2 两堆重量不相等
设右重左轻,并设真币在左边,
若假币在右边,则比真币重,若
在左边,则轻。取右边两个称 。
情况 2 两堆重量不相等
设右边较重 。先从左边取出两枚,再将右边的取两枚
放到左边,将原来左边的两枚中取出一枚放于右边
情况 2.1 两堆重量相等
取出的两枚中轻的为假币,
再称一次即可找出假币。
情况 2.2 两堆重量不相等
若右边较重,则假币在右边原来
的两枚及左边未动过的一枚中
(若为前者,则假币偏重;若为
后者,则假币偏轻),于是再称
一次即可找出假币。若第二次称
时左边较重,则假币必在交换位
置的三枚中,可类似区分真伪 。
三次是最少次数!
英文的熵是多少呢?
例 17 在人类活动中,大量信息是通过文字或语言来表达的,
而文学或语言则是一串符号的组合。据此,我们可以计算出每
一语种里每一符号的平均信息量。例如,表 11-2、表 11-3、表
11-4分别是英语、德语和俄语中每一符号(字母与空格,标点
符号不计)在文章中出现的概率的统计结果(汉语因符号繁多,
难以统计)
表 11-2(英语)


i
Pi 符号
i
Pi 符号 Pi 符号 Pi
空格
E
T
O
A
N
I
0.2
0.105
0.072
0.0654
0.063
0.059
0.065
R
S
H
D
L
C
F
0.054
0.052
0.047
0.035
0.029
0.023
0.0225
U
M
P
Y
W
G
V
0.0225
0.021
0.0175
0.012
0.012
0.011
0.008
B
K
X
J
Q
Z
0.005
0.003
0.002
0.001
0.001
0.001
表 11-3(德语)


i
Pi 符号
i
Pi 符号 Pi 符号 Pi
空格
E
N
S
I
R
A
0.144
0.144
0.0865
0.0646
0.0628
0.0622
0.0594
D
T
U
H
L
C
G
0.0546
0.0536
0.0422
0.0361
0.0345
0.0255
0.0236
O
M
B
W
Z
V
F
0.0211
0.0172
0.0138
0.0113
0.0092
0.0079
0.0078
K
P
J
J
Q
Y
0.0071
0.0067
0.0028
0.0008
0.0005
0.0000
表 11-4(俄语)


i
Pi 符号
i
Pi 符号 Pi 符号 Pi
空格
O
E Ё
A
И
T
H
C
0.175
0.090
0.072
0.062
0.062
0.053
0.053
0.045
P
B
Л
К
М
Д
П
у
0.040
0.038
0.035
0.028
0.026
0.025
0.023
0.021
Я
Ы
э
ъь
Б
Г
Ч
й
0.018
0.016
0.016
0.014
0.014
0.013
0.012
0.010
Х
Ж
Ю
Щ
Ц
Ш
Э
Ф
0.009
0.007
0.006
0.006
0.004
0.003
0.003
0.002
以 英文 为例,可计算得:
?
?
???
27
1
2 03.4l o g
i
ii PPH
(比特 /每符号)
对于有 27个符号的信息源,可能达到的最大平均信息量为:
75.427l o g 2m a x ??H (比特 /每符号)
由此可计算出英语表达的 多余度 为:
15.0
m a x
m a x ??
H
HH (即 15%)
英文的多余度
事实上,英语在表达意思上的确存在着富余。
例如 Q后出现 U的概率几乎是 1,T后出现 H的概率
也很大,等等。这种多余是完全必要的,没有多
余度的语言是死板的,没有文采的,它是存在语
法的必要条件。但对于电报编码、计算机文字处
理来讲,这种多余度的存在常常会造成浪费。有
人在上述讨论的基础上研究了符号编码问题,使
得每一符号的平均信息量达到十分接近 Hmax的程
度,但由于译电过于复杂,这种方法尚未实际应
用。
信息通道的容量问题
问题背景:
信息的传递是需要时间的。用 n个符号 S1,…, Sn来表达信
息,各符号传递所需时间是各不相同的,设分别为 t1,…, tn,
并设各符号出现的概率分别为 p1,…, pn。这样,就出现了两方
面的问题。
一,pi是确定的,如何缩短传递确定信息所需的时间。
二,ti是确定的,如何使单位时间传递的平均信息量最大 。
单位时间内信息通道能够传递的最大平均信息量
称为此 信息通道的容量
如何求信息通道的容量?
每一符号的平均信息量为:
?
?
??
n
i
ii ppH
1
2lo g每一符号所需的平均时间为:
?
?
n
i
iitp
1
故单位时间内传递的平均信息量应为:
t
H
tp
pp
n
i
ii
n
i
ii
?
?
?
?
?
?
1
1
2lo g
问题化为,
?
?
?
?
?
?
n
i
ii
n
i
ii
p
tp
pp
t
H
i
1
1
2l o g
m ax
?
?
?
n
i
iptS
1
1.
( 11.7)
利用 拉格朗日乘子法,( 11.7)式可化为 无约束极值问题,
?
?
?
?
?
?
?
?
?
?
?
?
??
?
?
?
?
?
?
?
n
i
in
i
ii
n
i
ii
p
p
tp
pp
i 1
1
1
2
)1(
l o g
m a x ?( 11.8)
记( 11.8)式的目标函数为 f(p,λ),即求解方程组:
?
?
?
??
?
?
?
?
?
??
?
?
0
,,1,0
?
f
ni
p
f
i
?
( 11.9)
方程组( 11.9)的解为,
H
t
t
i
i
p
t
e ??? 2,l o g 2?
由于 是与 pi有关的量, 方程组的解仍无法算出
为此, 记
?
?
?
n
i
iitpt
1
t
H
A 2?
iti Ap ?? ?
?
?
n
i
ip
1
1
则,又 得方程 ?
?
? ?
n
i
tiA
1
1
( 11.10)
?
?
??
n
i
tiAAg
1
)(
记, g( 0+) =+∞,g( +∞) =0及 g’( A)< 0,
知( 11.10)式有且仅有一个正根,此根容易用牛顿法求
出,进而求出最佳的 。*
ip
例 18 为简单起见,设符号只有四种,S1,S2,S3和 S4,在利用
这些符号传递信息时,这些符号分别需要 1,2,3,4单位传递
时间,试求出此信息通道的容量及相应的最佳 pi值。
解:
求解方程,得唯一正根 A=1.92。14321 ???? ???? AAAA
由 A的定义可以求出此信息通道容量,
94.0l o gm a x 2 ??? AtHC
(比特 /单位时间)
07.0,14.0,27.0,52.0 4*43*32*21*1 ???????? ???? ApApApAp而
货币是人们拥有财富的一种信息,它具有各种面
值(相当于例 11.18中的符号),各种面值的平
均花费时间是不等的(相当于例 18中的时间),
于是,如何控制各种面值的比例以便使货币流通
的容量最大显然是一个十分有意义的问题。日本
东京工业大学的国泽清典教授基于上述方法计算
了 100日元与 500日元信用券应保持的比例,并与
市场实际调查作了对比,发现两者完全一致。市
场多次调查结果均为 100日元占 75%,500日元占
25%,而计算结果如下:以百元为单位,令
t1=1,t2=5,求解方程
求得正根 A≈1.327
信息通道容量为 log2A≈0.408 (比特 /每单位)
151 ?? ?? AA
2 3 4.0,7 5 4.0 5*21*1 ???? ?? ApAp