定义2-1:设离散信源X,其概率空间为:
则其中事件ai的自信息为:
定义2-2:信源输出各消息的自信息量I(ai)的数学期望为信源的平均自信息量,即:
又称为信源X的信息熵或熵。
定义2-3:联合集XY上每对元素xiyj的自信息量的概率加权平均值定义为联合熵。
定义2-3:联合集XY上条件自信息量的概率加权平均值定义为条件熵。
N次扩展信源的数学模型:
例:已知DMS:
二次扩展信源:
例:有一连续信源,其输出信号的概率分布密度曲线如图例2所示,现将信号等间隔采样,并量化为3个电平,则该连续信源转换成三元离散信源,其符号间的条件概率分布如表例2-1所示。求该离散信源熵。
P(aj| ai)
ai=0
ai=1
ai=2
aj=0
9/11
1/8
0
aj=1
2/11
3/4
2/9
aj=2
0
1/8
7/9
离散二维平稳信源:
二维联合概率为:
P(ai aj)
ai=0
ai=1
ai=2
aj=0
1/4
1/18
0
aj=1
1/18
1/3
1/18
aj=2
0
1/18
7/36
法一:分组法
二次扩展信源:
思考题(猜数游戏):
设A从[0,1,…,63]中选中一数字, B通过“是-否”问答方式进行猜测,问B至少须几次问答才能猜中此数?定理2-1:对于离散平稳信源,当H1(X)<∞时,有:
条件熵H(XN|X1,…,XN-1)随N的增加是非递增的,即:
H(XN|X1,…XN-1)≤H(XN-1|X1,…XN-2)≤…≤H(X2|X1)≤H(X1)
N给定时,平均符号熵大于条件熵,即:HN(X)≥H(XN|X1,…XN-1)
平均符号熵随N的增加是非递增的,
即:0≤HN(X) ≤HN-1(X) )≤…≤H2(X) ≤H1(X) ≤∞
4)
称H∞为平稳信源的极限熵或极限信息量。
最大离散熵定理:
一个有q个符号的DMS,必满足:
H(P1,P2,…,Pq)≤H(1/q, 1/q, …1/q)=logq
英语字母概率表
字母
概率
字母
概率
空格
0.1859
N
0.0574
A
0.0642
O
0.0632
B
0.0127
P
0.0152
C
0.0218
Q
0.0008
D
0.0317
R
0.0484
E
0.1031
S
0.0514
F
0.0208
T
0.0796
G
0.0152
U
0.0228
H
0.0467
V
0.0083
I
0.0575
W
0.0175
J
0.0008
X
0.0013
K
0.0049
Y
0.0164
L
0.0321
Z
0.0005
M
0.0198
英文语言模型
英文字母序列的第零次近似
XPOWL RXKHRJFF JUJ ZLPWCFWKCYJ FFJEYVKCQ SGHYD QPAAMKBZAACIBZLHJQD
英文字母序列的第一次近似
OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA THEEI ALHENHTTPA OOBTTVA NAH BRL
英文字母序列的第二次近似
ON IE ANTSOUTINYS ARE INCTORE ST BE S DEAMY ACHIN D ILONASIVE TUCOOWE AT TEASON ARE FUSO TIZIN ANDY TOBE SEACE CTISBE
英文字母序列的第三次近似
IN NO IST LAT WHE CRATICT FROURE BIRS GROCID PONDENOME OF DEMONSTURES OF THE REPTAGIN IS REGOACTION OF CRE