第二部分信息量和熵

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

变量X的各事件自信息量值的“数学期望”。（2）定义H(X)时，允许某个qk=0。（此时将qkloga(1/qk) 通盘
考虑）此时补充定义qkloga(1/qk)=0。这个定义是合理的，因为
lim
q0
qloga
1 q
0
熵
例2.2.1 离散型随机变量X有两个事件x1和x2， P(X=x1)=p，P(X=x2)=1-p。
I(xk
;
yj
)
log
p(xk | yj q(xk )
)
log 1 q(xk
)
logq(xk
)
定义：给定集合｛X, q(xk)｝,事件xk∈X的自信息量定义为：
I(xk)logq(1xk)logq(xk)
非平均自信息的性质
非负性体现先验不确定性大小
I(xk; yj ) I(xk ) I(xk; yj ) I(yj )
I(xk; yj)=I(yj; xk)。（2）当rkj=qkwj时I(xk; yj)=0。（当两个事件相互独
立时，互信息量为0）。（3）当rkj>qkwj时I(xk; yj)>0，当rkj<qkwj时I(xk; yj)<0。
（当两个事件正相关时，互信息量为正值，当两个事件负相关时，互信息量为负值）。
非平均互信息量
例2.1.1
输入消息码字
X1
000
X2
001
X3
010
X4
011
X5
100
X6
101
X7
110
x8
111
p(xk)
1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8
收到0
1/4 1/4 1/4 1/4 0 0 0 0
收到01
0 0 1/2 1/2 0 0 0 0
收到011
第二章信息量和熵
输入，输出空间定义
输入空间X={xk,k=1,2,…,K},概率记为q(xk)
输出空间Y={yj,j=1,2,…,J},概率记为ω(yj)
联合空间XY={xkyj ;k=1,2,…,K;j=1,2,…,J}, 概率为p(xkyj)
p(xkyj)= p(xk|yj)ω(yj)= p(yj|xk)q(xk)
I(xk;yj3|yj1yj2)
wenku.baidu.com
非平均互信息量
定义2.1.1(非平均互信息量) 给定一个二维离散型随机变量{(X, Y), (xk, yj), rkj, k=1~K; j=1~J}（因此就给定了两个离散型随机变量
{X, xk, qk, k=1~K}和{Y, yj, wj, j=1~J}）。事件 xk∈X与事件yj∈Y的互信息量定义为
收到011
0 0 0 1 0 0 0 0
非平均互信息量
例2.1.2
输入消息码字
X1
000
X2
111
p(xk)
1/2 1/2
收到0
1-p p
1-p 0
p
p
1 1-p
收到01
1/2 1/2
收到011
1-p p
0
1
非平均互信息量
I(x k;yj)f(q (x k)p ,(x k|yj)) I(xk;yj)I(xk;yj1)I(xk;yj2|yj1)
条件互信息和联合事件互信息
三个事件集的条件互信息定义为
I(u 1 ;u 2 |u 3 ) lo p p (u (u 1 g 1 |u |u 2 u 3 ) 3 ) lo p (u 1 g p |( u u 3 1 u )2 p |(u u 2 3 ) |u 3 )
可以推广到任意有限多个空间情况
则X的平均自信息量（熵）为 H(X)=ploga(1/p)+(1-p)loga(1/(1-p)) 。
观察H(X)（它是p的函数，图2.2.1给出了函数图象，该图象具有某种对称性），有
当p=0或p=1时，H(X)=0。（随机变量X退化为常数时，熵为0 ）
当0<p<1时，H(X)>0。p越靠近1/2， H(X)越大。（X是真正的随机变量时，总有正的熵。随机性越大，熵越大）
当p=1/2时，H(X)达到最大。（随机变量X的随机性最大时，熵最大。特别如果底数a=2，则H(X)=1比特）
条件熵（定义2.2.2）
H (X |Y ) p (x)lyo p (x g |y )
xy
关于定 2.2义 .2的注解：
J
K
H(X|Y) wj P(Xxk
j1 k1
|Yyj)l
I(xk)
I(yj)
I(xk ;yj)
2.2 离散集的平均自信息量－熵
熵
(平均自信息量——熵) 离散型随机变量{X,
xk, qk, k=1~K}的平均自信息量（又称为熵）定义为如下的H(X)，其中底数a是大于1的
常数。
K
H(X) qk
k1
loga q1k
集X中事件出现的平均不确定性
熵
注意：（1）事件xk的自信息量值为I(xk)=loga(1/qk)，因此H(X)是随机
0 0 0 1 0 0 0 0
非平均互信息量
输入消息码字
X1
000
X2
001
X3
010
X4
011
X5
100
X6
101
X7
110
x8
111
p(xk)
1/8 1/4 1/8 1/4 1/16 1/16 1/16 1/16
收到0
1/6 1/3 1/6 1/3 0 0 0 0
收到01
0 0 1/3 2/3 0 0 0 0
互信息的可加性
u1
u2 u3
系统
u1
u2
系统
u3
I(u1;u2u3)I(u1;u2)I(u1;u3|u2) I(u1;u3)I(u1;u2|u3)
互信息量特性：
对称性
可加性
互信息量的值域： -infinite ~ +infinite, 即全体实数
离散变量的非平均自信息量
ifp(xk | yj)1
条件自信息和联合自信息
I(u 1 |u 2 ) lo p (u g 1 |u 2 )
I(xkyj)lopg (xkyj)
I (xk ; y j ) I (xk ) I (xk | y j ) I ( y j ) I ( y j | xk )
自信息、条件自信息和互信息
I(x k ;y j) I(x k ) I(y j) I(x k y j)
I(xk;yj)loga
P(XP(Xxk|Yxk)yj)loga
P(Yyj |Xxk) P(Yyj)
logaP P((X (X,Yx)k)P((xYk,yyj)j))logaqkrkw j j
非平均互信息量
其中底数a是大于1的常数。常用a=2或a=e，当a=2 时互信息量的单位为“比特”。
几点说明：（1）I(xk; yj)=loga(rkj/(qkwj))。因此有对称性：