信息论第2章(信息量熵及互信息量).

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

[解]由定义有：
H
(
X
)

2

1
4
log
1 4

2

1 8
log
1 8

4

116log
1 16

2.75(比特/符号)
我们再回过头来看一下例3中两个信源熵分
别是多少，结果反映了一个怎样的事实？ [例3解答]由定义有：
HX 0.5log0.5 0.5log0.5 1 HY 0.99log0.99 0.01log0.01 0.08
110
1/16
0
0
0
x7
111
1/16
0
0
0
I (x3 ;011) log
p(x3 011) p(x3 )
单位为比特
log
1 1
8
3
熵是信源平均不确定性的度量, 一般情况下,它并不等于信宿所获得的平均信息量,只有在无噪情况下,二者才相等.为此我们需要学习条件熵. 同时我们由条件熵引出平均互信息量的概念,其可以用来衡量一个信道的好坏.
信息论基础
The Basis of Information Theory
主题No2：信息量、熵和互信息量
在上一次课中我们提到香农对信息定性的定义——事物运动状态或存在方式的不确定性的描述。事实上，香农对信息不仅作了定性描述，而且还进行了定量分析。
信源发出的消息常常是随机的，具有不确定性。如果信源中某一消息的不确定性越大，一旦发生，并为收信者收到，消除的不确定性就越大，获得的信息也就越大。同时事件发生的不确定性与事件发生的概率有关，概率越小，不确定性就越大。
当我们发出消息x,它是否收到y也有一定的不确定性p(y|x)，其大小为条件自信息量:
I(y|x)=-log p(y|x)
两者之间的差也是我们通过这一次通信所获得到的信息量的大小。
互信息量
很显然，从通信的角度来看，上述两个差值应该相等，即：
I(x) I(x | y) I(y) I(y | x)
xi P(xi) I(xi)
单位：比特
0 1/3 log3
1 1/6 log6
2 1/2 log2
自信息量的涵义
自信息量代表两种含义：一、事件x发生以前，I(x)表示事件x发生的不确定性；二、当事件x发生以后，I(x)表示事件x所提供的信息量（在无噪情况下)。
在通信系统模型中，不仅可以用自信息量来研究信源中的每个消息，对信宿也可同样可以。
事实上，由概率论概率的乘积公式有：
p(x, y) p(x) p( y | x) p( y) p(x | y)
故：
I (x) I (x | y) log p(x | y) log p( y | x) I ( y) I ( y | x)
p(x)
p( y)
这样，用I（x;y）或I（y;x）记该差式，称为x与y之间的互信息量，单位也为比特。
(2)信息量应具有可加性：对于两个独立事件，其信息量应等于各自信息量之和； (3)当p(x)=1时，I(x)=0：表示确定事件发生得不到任何信息； (4)当p(x)=0时，I(x)=∞:表示不可能事件一旦发生，信息量将无穷大。
自信息量的计算公式
综合上述条件，在概率上已经严格证明了
def I(x) log p(x)
I(x)=-log p(x)
当我们收到消息y，它是否由x发出也有一定的不确定性p(x|y)，其大小为条件自信息量:
I(x|y)=-log p(x|y)
两者之间的差就是我们通过这一次通信所获得到的信息量的大小。
同样，收到的消息为y具有不确定性p(y)，其大小为y的自信息量：
I(y)=-log p(y)
（4）极值性——最大离散熵定理:设|X|为信源消息的个数,则有H(X)小于等于log|X|，等号当且仅当信源X中各消息等概率时成立，即各消息等概率分布时( p=1/|X|),信源熵最大.
计算熵的例子
例4 计算下面一个信源的熵：
xi 000 001 010 011 100 101 110 111 q(xi) 1/4 1/4 1/8 1/8 1/16 1/16 1/16 1/16
息量的概念。设消息x发出的先验概率为p(x)，收到消
息y是由x发出的条件概率为p(x|y),则在收到y
是由x发出的条件自信息量I(x|y)定义为：
def
I (x y) log p(x y)
（比特）
计算条件自信息量的例子
例5 在二进制对称信道BSC中，若信道转移概
率矩阵为：
x/ y 0
1
py x 0 0.875 0.125
yi
0
1
P(yi) 0.99 0.01
在现实中，能找到很多类似的模型，我们想知道这两个信源本质的区别在哪里？
平均自信息量——熵的定义
设X是一个集合（即信息系统如信源或信道），其概率模型为{xi,p(xi)}，则定义系统X 的平均自信息量——熵为：
def
H X p(xi )I (xi ) p(xi )log p(xi )
x,y
2 0.45log 0.9 2 0.05log 0.1 0.469
H (Y | X )
结果表明，虽然每个字符的错误率只有 0.1，可导致整个信宿对信源的平均不确定性达到了0.469，将近一半。可见通信系统对信道的要求非常高。
[解答]由已知条件得：
p(0,0) q(0) p(0 | 0) 0.5 0.9 0.45 p(1,1) p(0,1) q(0) p(1 | 0) 0.5 0.1 0.05 p(1,0)
由条件熵的定义有：
H X Y p(x, y) log (x y)
自信息量计算的应用
例2：假设一条电线上串联了8个灯泡x1,x2,…,x8, 这8个灯泡损坏的可能性是等概率的,假设有也只
有一个灯泡损坏,用万用表去测量,获得足够的信
息量,才能获知和确定哪个灯泡xi损坏。下面就来看我们最少需要获得多少信息量才能判断出。
[解]第一次测量获得的信息量：
1
1
I ( p1(x)) I ( p2 (x)) log p1(x) log p2 (x) 3 2 1(bit)
第二次测量获得的信息量：
I ( p2 (x))

I ( p3(x))

log
1 p2 (x)

log
1 p3 ( x)

2
1 1(bit)
第三次测量获得的信息量：
1
1
I ( p3(x)) I ( p4 (x)) log p3(x) log p4 (x) 1 0 1(bit)
故共需要3bit信息量.
信源熵
前面我们根据信源或信宿的概率模型，通过自信息量的计算，能得到信源以及信宿中每个消息的不确定性。然而，事实上，人们往往关注的并不紧紧是每个消息的不确定性，而是整个系统的不确定性的统计特性即整个信源自信息量的统计平均值——熵。
我们先来看一个例子：例3 有两个信源X和Y：
xi 0 1 P(xi) 0.5 0.5
其中p(x)为消息的先验概率。自信息量的单位：若这里的对数底取2，则
单位为比特bit，由于在计算机上是二进制，我们一般都采用比特。其他单位以及相互之间转换关系查阅教材。
计算自信息量的例子
例1：信源消息X={0,1,2} 的概率模型如下：
xi
0
1
2
P(xi) 1/3
1/6
1/2
则该信源各消息的自信息量分别为：
图,试求当我们收到011所能获取到的信息量,
即计算互信息量I(x3;011).
消息后验概率信源消息码字先验概率
收到0后收到01后收到011后
x0
000
1/4
1/3
0
0
x1
001
1/4
1/3
0
0
X2
010
1/8
1/6
1/2
0
X3
011
ห้องสมุดไป่ตู้
1/8
1/6
1/2
1
X4
100
1/16
0
0
0
X5
101
1/16
互信息量的性质
一、对称性：I(x;y)=I(y;x),其通信意义表示发出x收到y所能提供给我们的信息量的大小；
二、当x与y统计独立时,I(x;y)=I(y;x)=0, 表示这样一次通信不能为我们提供任何信息.
上述两条性质与我们实际情况非常吻合.
计算互信息量的例子
例5 设信源中含有8个消息，其先验概率如下
0
0
0
X6
110
1/16
0
0
0
x7
111
1/16
0
0
0
I (x3;011) I (x3;0) I (x3;10) I (x3;101)
log p(x3 0) log p(x3 01) log p(x3 011)
p(x3 )
p(x3 0)
p(x3 01)
1
1
log 6 log 2 log
p( y 1| x 1) 7 . 8
由条件自信息
量的定义得
I (x 0 | y 1) log 8 3, I ( y 1| x 0) log 8 3, I ( y 1| x 1) log 8 log 7.
单位为比特
我们知道,在通信之前,消息x具有不确定性p(x),其大小为x的自信息量:
0
0
0
X6
110
1/16
0
0
0
x7
111
1/16
0
0
0
[解法一]由互信息量的含义得：
信源消息
码字
先验概率
收到0后
消息后验概率收到01后收到011后
x0
000
1/4
1/3
0
0
x1
001
1/4
1/3
0
0
X2
010
1/8
1/6
1/2
0
X3
011
1/8
1/6
1/2
1
X4
100
1/16
0
0
0
X5
101
1/16
1 0.125
0.875
计算下列条件自信息量(若p(0)=p(1)=1)：
I (x 0 | y 1), I ( y 1| x 0), I ( y 1| x 1)
[解答]由已知条件可得：
p(x 0 | y 1) 1 , 8
p( y 1| x 0) 1 , 8
xi X
xi
熵的单位是比特/符号.
我们知道，I(xi)是唯一确定xi所需要的信息量，那么H(X)就是唯一确定X中任一事件所需的平均信息量。它反映了X中事件xi出现的平均不确定性。
熵的几条性质
(1)对称性：熵只和分布有关，不关心某一具体事件对应哪个概率； (2)非负性：H(X)≥0；
(3)确定性:若离散事件是确定事件,则H(X)＝0
研究通信系统的目的就是要找到信息传输过程的共同规律，以提高信息传输的可靠性、有效性、保密性和认证性，以达到信息传输系统最优化。
离散集自信息量的性质
因此，某事件x发生所提供的信息量I(x) 应该是该事件发生的先验概率p(x)的函数:
I(x)=f(p(x))
且应满足以下四点：
(1)I(x)应该是事件概率p(x)的单调递减函数；
1
log 8 3
1
1
1
8
6
2
单位为比特
[解法二]直接计算得：
信源消息
码字
消息后验概率先验概率
收到0后收到01后收到011后
x0
000
1/4
1/3
0
0
x1
001
1/4
1/3
0
0
X2
010
1/8
1/6
1/2
0
X3
011
1/8
1/6
1/2
1
X4
100
1/16
0
0
0
X5
101
1/16
0
0
0
X6
I(X;Y) H(X ) H(X | Y) H(Y) H(Y | X )
I(X;Y)是一个用来衡量信道好坏的非常好的工具。
计算条件熵的例子
例6 设一个二进制对称信道BSC：
p(
y
x)

0.9 0.1
0.1 0.9
其先验概率为p(0)=p(1)=1/2，试计算条件熵.
显然,H(X)>>H(Y),这表示信源X的平均不稳定性远远大于信源Y的平均不稳定性。
条件自信息量
前面我们引入自信息量以及熵的概念，用
以描述信源或信宿，事实上，信宿收到的消息
是与信源发出的消息密切相关。并且接受信息
与发送信息之间的关系往往是判定一个信道的
好坏的最佳标准。所以，我们需要引入互信息
量。在学习互信息量之前我们先来了解条件信
条件熵的定义
设X是信源的消息集,Y是信宿消息集, 对条件自信息量I(x|y)取统计平均值得到条件熵H(X|Y),即：
H
X
Y
def

p(x,
y)I (x
y)

p(x,
y) log
p(x
y)
xy
xy
其中p（x,y）为联合概率,p（x|y）为条件概率.
平均互信息量的定义
很显然,信源X的熵H(X)与条件熵H(X|Y) 的差值和信宿Y的熵H(Y)与条件熵H(Y|X)的差值相等,我们称为X与Y的平均互信息量, 记为：