第三章:信源、熵率及冗余度杨杰信源信息论对信源研究的内容:
信源的建模:用恰当的随机过程来描述信号
关心角度:信号中携带的信息
信源输出信号中携带信息的效率的计算
熵率、冗余度
信源输出信息的有效表示
信源编码信源信源的特性与分类实际信源举例信源特性与分类信源的统计特性
1) 什么是信源?
信源是信息的来源,实际通信中常见的信源有:语音,
文字,图像,数据 … 。 在信息论中,信源是产生 消息
( 符号 ),消息 ( 符号 ) 序列 以及 连续消息 的来源,
数学上,信源是产生 随机变量 U,随机序列 U和 随机过程 U(t,ω)的源 。
2) 信源的主要特性
信源的最基本的特性是具有统计不确定性,它可用概率统计特性来描述 。
信源特性与分类信源的描述与分类
单消息 ( 符号 ) 信源:
离散信源
连续变量信源
平稳信源
无 /有记忆信源
马尔可夫信源
随机波形信源实际信源信源特性与分类单消息 ( 符号 ) 信源
它是最简单也是最基本的信源,是组成实际信源的基本单元 。 它可以用信源取值随机变量的范围
U和对应概率分布 P(u)共同组成的二元序对
[U,P(u)]来表示 。
当信源给定,其相应的概率空间就已给定;反之,
如果概率空间给定,这就表示相应的信源已给定 。
所以,概率空间能表征这离散信源的统计特性,
因此有时也把这个概率空间称为信源空间 。
单消息(符号)信源--离散信源这些信源可能输出的消息数是有限的或可数的,而且每次只输出其中一个消息 。 因此,可以用一个离散型随机变量 X来描述这个信源输出的消息 。 这个随机变量 X的样本空间就是符号集 A;而 X的概率分布就是各消息出现的先验概率,信源的概率空间必定是一个完备集 。
在实际情况中,存在着很多这样的信源 。 例如投硬币,书信文字,计算机的代码,电报符号,阿拉伯数字码等等 。 这些信源输出的都是单个符号 (或代码 )的消息,它们符号集的取值是有限的或可数的 。
我们可用一维 离散型随机变量 X来描述这些信源的输出 。 它的数学模型就是离散型的概率空间:
单消息(符号)信源--离散信源对离散信源例:对于二进制数据,数字信源,U={0,1},
则有






2
1,
2
1
1,0
,
1,0 2
1p
10
11
10 p
pp
uu
P
U 当





ni
ni
ppp
uUuUuU
P
U


1
1
单消息(符号)信源--连续变量信源有的信源虽输出是单个符号 (代码 )的消息,但其可能出现的消息数是不可数的无限值,即输出消息的符号集 A的取值是连续的,或取值是实数集 (-∞,∞)。
例如,语音信号、热噪声信号某时间的连续取值数据,遥控系统中有关电压、温度、压力等测得的连续数据。这些数据取值是连续的,但又是随机的。
我们可用一维的 连续型随机变量 X来描述这些消息。
这种信源称为连续信源,其数学模型是连续型的概率空间:
单消息(符号)信源--连续变量信源






up
ba
P
U,
其中, 的概率密度为连续变量 u,01 upRUu
对于连续变量信源平稳信源很多实际信源输出的消息往往是由一系列符号序列所组成的 。 可以把这种信源输出的消息看做时间上或空间上离散的一系列随机变量,即为随机矢量 。 这时,
信源的输出可用 N维 随机矢量 X=( X1,X2 … XN)来描述,其中 N可为有限正整数或可数的无限值 。 这 N维随机矢量 X有时也称为随机序列 。
一般来说,信源输出的随机序列的统计特性比较复杂,分析起来也比较困难 。
为了便于分析,我们假设信源输出的是平稳的随机序列,也就是序列的统计性质与时间的推移无关 。 很多实际信源也满足这个假设 。
若信源输出的随机序列 X= (X 1,X 2,…,X N )中,每个随机变量
Xi (i=1,2,…,N)都是取值离散的离散型随机变量,即每个随机变量 Xi的可能取值是有限的或可数的 。 而且随机矢量 X的各维概率分布都与时间起点无关,也就是在任意两个不同时刻随机矢量 X的各维概率分布都相同 。 这样的信源称为离散平稳信源 。 如中文自然语言文字,离散化平面灰度图像都是这种离散型平稳信源 。
无记忆信源在某些简单的离散平稳信源情况下,信源先后发出的一个个符号彼此是统计独立的 。 也就是说信源输出的随机矢量 X=(X1 X2 … XN ) 中,各随机变量 Xi
(i=1,2,… N)之间是无依赖的,统计独立的,则 N维随机矢量的联合概率分布满足 P(X)=P1 ( X 1 ) P2
( X 2 ) … PN ( X N )
我们称由信源空间 [ X,P(x)] 描述的信源 X为离散无记忆信源 。 这信源在不同时刻发出的符号之间是无依赖的,彼此统计独立的 。
离散无记忆信源 X的 N次扩展信源我们把这信源 X所输出的随机矢量 X所描述的信源称为离散无记忆信源 X的 N次扩展信源 。 可见,N次扩展信源是由离散无记忆信源输出 N长的随机序列构成的信源 。
离散无记忆信源的 N次扩展信源的数学模型是 X信源空间的 N重空间。
有记忆信源一般情况下,信源在不同时刻发出的符号之间是相互依赖的 。 也就是信源输出的平稳随机序列 X中,
各随机变量 Xi之间是有依赖的 。 例如,在汉字组成的中文序列中,只有根据中文的语法,习惯用语,
修辞制约和表达实际意义的制约所构成的中文序列才是有意义的中文句子或文章 。 所以,在汉字序列中前后文字的出现是有依赖的,不能认为是彼此不相关的 。 其他如英文,德文等自然语言都是如此 。
这种信源称为有记忆信源 。
我们需在 N维随机矢量的联合概率分布中,引入条件概率分布来说明它们之间的关联 。
马尔可夫信源表述有记忆信源要比表述无记忆信源困难得多 。 实际上信源发出的符号往往只与前若干个符号的依赖关系强,而与更前面的符号依赖关系弱 。 为此,可以限制随机序列的记忆长度 。
当记忆长度为 m+1时,称这种有记忆信源为 m阶马尔可夫信源 。 也就是信源每次发出的符号只与前 m
个符号有关,与更前面的符号无关 。
时齐马尔可夫信源设马尔可夫信源各时刻随机变量X k 的取值为 xk,
xk∈ Xk,k=1,2,…,i-1,i,i+1,… N,则描述随机序列中各随机变量之间依赖关系的条件概率为
P(xi|… xi+2 xi+1 xi-1 xi-2 xi-3 … xi-m … x1)
=P ( xi|… xi-1 xi-2 x-3 … xi-m) ( i=1,2,… N)
i无关,即信源输出的符号序列可看成为时齐马尔可夫链,则此信源称为时齐马尔可信源 。
离散序列信源总结时齐马氏链信源平稳序列信源离散有记忆信源平稳无记忆一般无记忆离散无记忆信源离散序列信源随机 波形信源更一般地说,实际信源输出的消息常常是时间和取值都是连续的。例如,语音
X(t)、热噪声信号 n(t)、电视图像信号 X(x0,y0,t)等时间连续函数。同时,
在某一固定时间 t0,它们的可能取值又是连续的和随机的。对于这种信源输出的消息,可用 随机过程 来描述。称这类信源为随机波形信源。
分析一般随机波形信源比较复杂和困难。常见的随机波形信源输出的消息是时间上或频率上为有限的随机过程。根据取样定理,只要是时间上或频率上受限的随机过程,都可以把随机过程用一系列时间 (或频率 )域上离散的取样值来表示,而每个取样值都是连续型随机变量。这样,就可把随机过程转换成时间 (或频率 )上离散的随机序列来处理。甚至在某种条件下可以转换成随机变量间统计独立的随机序列。如果随机过程是平稳的随机过程,时间离散化后可转换成平稳的随机序列。这样,随机波形信源可以转换成连续平稳信源来处理。若再对每个取样值 (连续型的 )经过分层 (量化 ),就可将连续的取值转换成有限的或可数实际信源实际信源在离散情况下是消息序列信源,在连续情况下是随机过程信源,它们分别代表数字与模拟信源 。
离散序列信源其中,i=1,2,… n为每个消息 ( 符号 ) 取值的种类数
l=1,2,… L为消息 ( 符号 ) 序列的长度应注意的是 i和 l是代表两个不同范畴的变量,表示不同的概念,切勿混淆 。

Ll
iLilii
UUUU
UUUUU


21
21
简记
i=1,2,… n
l=1,2,… L
离散序列信源信源输出是一组随机序列 ( 矢量 ),
其样值为:
对应概率为:
由于每个随机变量 U={1,2,… n}有 n种取值,则 有 种可能取值 。
维取值范围LUUUUU LLl1
LlL uuuu1?
LlL uuupup1?
Ln
LU
离散序列信源例:最简单 L=3的三位 PCM信源:这时 L=3,
n=2,即 i={0,1},则有:


8
1
8
1
8
1
8
1
2
1
3
11
2
0
3
0
3
,,,,
111,,010,001,000
,,
111,,001,000
)(
10
时当 pp
pppp
UUU
up
U
连续信源在实际的连续信源中,可以采用两种方法进行分析
一类是将连续信源离散化随机序列信源
另一类是仍然采用随机过程来分析什么样的信源可以进行离散化处理?
实际上,只要满足一个非常宽松的条件,即满足限时 (T),限频 (F)的连续消息信源,即满足物理可实现条件下,均可离散化为随机序列 。
实际信源举例
1) 图像信源图像信源一般可以引用一个五元的随机场来表示:
( 简化 )
主要统计特性,初步可以认为是一个近似的平稳遍历过程
),(),,,,( txUtzyxU 扫描时
实际信源举例对于数字型图像信号,可以采用马氏链模型而 为相邻像素之间的相关系数 。

1
1
1
1
1
2
12
2
N
N
xX


实际信源举例
2) 语音信源可以近似用一个一维随机过程 U(ω,t)表示 。
严格的讲,它是一个非平稳过程,但是对于短时段 (5-50ms)可认为是平稳的,且某些是随机噪声 ( 清辅音 ) 而某些时段则呈现周期性特征 ( 浊音 ),还有一些短时段是二者的混合 。
熵率对于离散平稳信源,考察其输出信息量例,p44例 2。 6
X
P( x)

0 1 2
11/36 4/9 1/4
aj ai
0 1 2
0 1/4 1/18 0
1 1/18 1/3 1/18
2 0 1/18 7/36
aj ai
0 1 2
0 9/11 1/8 0
1 2/11 3/4 2/9
2 0 1/8 7/9
P(ai,aj) P(ai/aj)
当信源符号间无依赖性时:
542.1)(lo g)()()()( 3
121

ii i
apapXHXHXH
当考虑信源符号间的依赖性时:
870.0)|(lo g),()|( 3
1
3
112

ijji j i
aapaapXXH条件熵:
联合熵,41.2),(lo g),()( 3
1
3
121

jiji j i
aapaapXXH
可见,)|()()(
12121 XXHXHXXH
且,)|()(
12 XXHXH?
考察信源符号间有依赖性时联合信源的平均符号熵:
2.1)()( 21212 XXHXH
可见,)()(
2 XHXH?
比特 /符号比特 /符号比特 /二个符号比特 /符号分析,)()(
2 XHXH?
)|()( 12 XXHXH?
结论:符号间的相关性使得信源的平均符号熵减少,即每个符号平均携带的信息量减少。
问题,H2(X)和 H(X2|X1)哪一个值更能接近实际二维平稳信源的熵?即:用哪一个值来表示二维平稳信源每个符号平均携带的信息量?比特 /符号考察,离散平稳有记忆?信源符号之间的依赖长度为 N的 信源
X
P( x)

a1 a2 … a n
p1 p2 … p n
定义,N长的信源符号序列的 平均符号熵 即平均每个信源符号所携带的信息量为
)()( 211 NNN XXXHXH 比特 /符号当 时,存在以下性质:
条件熵 随 N的增加是非递增的
平均符号熵 随 N的增加是非递增的
N给定时,平均符号熵 >=条件熵。即:
存在,且:
)(1 XH
)|( 121?NN XXXXH?
)( 211 NN XXXH?
)|()( 121 NNN XXXXHXH?
)(lim XHH NN )|(lim)(lim 121 NNNNN XXXXHXHH?
结论,对于有限记忆长度的平稳信源可用有限记忆长度的 条件熵 来对平稳信源进行信息测度。
熵率对于 离散平稳信源,考察其输出信息量
假设字母序列长度为 N,则有限长度的序列可看成随机矢量
( )的熵,可用联合熵表示,平均每个字母 的熵可以表示为当 时,若 存在,则:
定义,为该平稳信源的 熵率,又称平稳信源的 极限熵 或 极限信息量对于一般的 平稳信源,可以证明,极限 一定存在。
Nuuu,...,,21
)...()( 211 NNN UUUHUH?
N )(lim UHH
NN
)(UH?
)(UH?
冗余度- 1
它表征信源信息率的多余程度,是描述信源客观统计特性的一个物理量 。
由广义 Shannon不等式有:
可见对于有记忆信源,最小单个消息熵应为,即从理论上看,对有记忆信源只需传送 即可 。
但是这必需要掌握信源全部概率统计特性 。 这显然是不现实的 。 实际上,往往只能掌握有限的维,这时需传送,那么与理论值 相比,就多传送了 。
0)()/(lim...)/()()(lo g 111210 UHUUHUUHUHUHn LLL
)(UH?
)(UH?
)(UHL
)()( UHUH L
)(UH?
冗余度- 2
为了定量描述信源有效性,可 定义,
信源效率:
信源冗余度,( 相对剩余 )
或者定义:
冗余度= logK-
相对冗余度= 1- /logK
LHH /
L
LL
H
HHHHR?
/11?
)(UH?
)(UH?
冗余度- 3
正由于信源存在着冗余度,即存在着不必要传送的信息,因此信源也就存在进一步压缩信息率的可能性 。 冗余度越大,压缩潜力也就越大 。 可见它是信源编码,数据压缩的前提与理论基础 。
字母 字母 字母空格
E
T
O
A
N
I
R
0.2
0.105
0.072
0.0654
0.063
0.059
0.055
0.054
S
H
D
L
C
F.U
M
P
0.0502
0.047
0.035
0.029
0.023
0.0225
0.021
0.0175
Y.W
G
B
V
K
X
J.Q
Z
0.012
0.011
0.0105
0.008
0.003
0.002
0.001
0.001
冗余度- 4( 举例:计算英文文字信源的冗余度)
首先给出英文字母 ( 含空格 ) 出现概率如下:
iP iPiP
冗余度- 5( 举例:计算英文文字信源的冗余度)
首先求得独立等概率情况,即其次,计算独立不等概率情况,
再次,若仅考虑字母有一维相关性,求,
最后,利用统计推断方法求出,由于采用的逼近的方法和所取的样本的不同,推算值也有不同,这里采用 Shannon的推断值 。
0H b itH 76.427lo g 20
1H b itppH
i
ii 03.4lo g
27
1
1
2H b itH 32.32?
b itH 4.1 71.0,29.0 R?
冗余度- 6
这一结论说明,英文信源,从理论上看 71% 是多余成分 。
直观地说 100页英文书,理论上看仅有 29页是有效的,
其余 71页是多余的 。 正是由于这一多余量的存在,才有可能对英文信源进行压缩编码 。
冗余度- 7
对于其它文字,也有不少人作了大量的统计工作,
现简述如下:
英文法文德文西班牙文中文
( 按 8千汉字计算 )
RHHHHH...3210
71.029.04.11.332.303.47.4
37.063.037.4
77.023.008.17.4
58.042.097.17.4
685.0315.01.47.71.841.913?
冗余度- 8
至于其它类型信源,比如话音,图象等,它们大部分属于限失真信源,其冗余度与理论压缩可能性,将在率失真函数中讨论 。
信源编码- 1
目的:提高通信系统有效性,实现信源与通信系统间的统计匹配 。
分类:
语音、图像信源;—限失真信源编码,
文字、文件信源;—无失真信源编码,
分类作业
1、对于离散平稳信源,若,则存在,且有:
)(1 UH )(UH?
)...|(lim)( 121 NNN UUUUHUH