第二部分信息量和熵
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
变量X的各事件自信息量值的“数学期望”。 (2)定义H(X)时,允许某个qk=0。(此时将qkloga(1/qk) 通盘
考虑)此时补充定义qkloga(1/qk)=0。这个定义是合理的, 因为
lim
q0
qloga
1 q
0
熵
例2.2.1 离散型随机变量X有两个事件x1和x2, P(X=x1)=p,P(X=x2)=1-p。
I(xk
;
yj
)
log
p(xk | yj q(xk )
)
log 1 q(xk
)
logq(xk
)
定义:给定集合{X, q(xk)},事件xk∈X的 自信息量定义为:
I(xk)logq(1xk)logq(xk)
非平均自信息的性质
非负性 体现先验不确定性大小
I(xk; yj ) I(xk ) I(xk; yj ) I(yj )
I(xk; yj)=I(yj; xk)。 (2)当rkj=qkwj时I(xk; yj)=0。(当两个事件相互独
立时,互信息量为0)。 (3)当rkj>qkwj时I(xk; yj)>0,当rkj<qkwj时I(xk; yj)<0。
(当两个事件正相关时,互信息量为正值,当两 个事件负相关时,互信息量为负值)。
非平均互信息量
例2.1.1
输入消息 码字
X1
000
X2
001
X3
010
X4
011
X5
100
X6
101
X7
110
x8
111
p(xk)
1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8
收到0
1/4 1/4 1/4 1/4 0 0 0 0
收到01
0 0 1/2 1/2 0 0 0 0
收到011
第二章 信息量和熵
输入,输出空间定义
输入空间X={xk,k=1,2,…,K},概率记为q(xk)
输出空间Y={yj,j=1,2,…,J},概率记为ω(yj)
联合空间XY={xkyj ;k=1,2,…,K;j=1,2,…,J}, 概率 为p(xkyj)
p(xkyj)= p(xk|yj)ω(yj)= p(yj|xk)q(xk)
I(xk;yj3|yj1yj2)
wenku.baidu.com
非平均互信息量
定义2.1.1(非平均互信息量) 给定一个二维离 散型随机变量{(X, Y), (xk, yj), rkj, k=1~K; j=1~J}(因此就给定了两个离散型随机变量
{X, xk, qk, k=1~K}和{Y, yj, wj, j=1~J})。事件 xk∈X与事件yj∈Y的互信息量定义为
收到011
0 0 0 1 0 0 0 0
非平均互信息量
例2.1.2
输入消息 码字
X1
000
X2
111
p(xk)
1/2 1/2
收到0
1-p p
1-p 0
p
p
1 1-p
收到01
1/2 1/2
收到011
1-p p
0
1
非平均互信息量
I(x k;yj)f(q (x k)p ,(x k|yj)) I(xk;yj)I(xk;yj1)I(xk;yj2|yj1)
条件互信息和联合事件互信息
三个事件集的条件互信息定义为
I(u 1 ;u 2 |u 3 ) lo p p (u (u 1 g 1 |u |u 2 u 3 ) 3 ) lo p (u 1 g p |( u u 3 1 u )2 p |(u u 2 3 ) |u 3 )
可以推广到任意有限多个空间情况
则X的平均自信息量(熵)为 H(X)=ploga(1/p)+(1-p)loga(1/(1-p)) 。
观察H(X)(它是p的函数,图2.2.1给出了函数图象,该图象具 有某种对称性),有
当p=0或p=1时,H(X)=0。(随机变量X退化为常数时,熵为0 )
当0<p<1时,H(X)>0。p越靠近1/2, H(X)越大。 (X是真正的 随机变量时,总有正的熵。随机性越大,熵越大)
当p=1/2时,H(X)达到最大。(随机变量X的随机性最大时, 熵最大。特别如果底数a=2,则H(X)=1比特)
条件熵(定义2.2.2)
H (X |Y ) p (x)lyo p (x g |y )
xy
关于定 2.2义 .2的注解:
J
K
H(X|Y) wj P(Xxk
j1 k1
|Yyj)l
I(xk)
I(yj)
I(xk ;yj)
2.2 离散集的平均自信 息量-熵
熵
(平均自信息量——熵) 离散型随机变量{X,
xk, qk, k=1~K}的平均自信息量(又称为熵) 定义为如下的H(X),其中底数a是大于1的
常数。
K
H(X) qk
k1
loga q1k
集X中事件出现的平均不确定性
熵
注意: (1)事件xk的自信息量值为I(xk)=loga(1/qk),因此H(X)是随机
0 0 0 1 0 0 0 0
非平均互信息量
输入消息 码字
X1
000
X2
001
X3
010
X4
011
X5
100
X6
101
X7
110
x8
111
p(xk)
1/8 1/4 1/8 1/4 1/16 1/16 1/16 1/16
收到0
1/6 1/3 1/6 1/3 0 0 0 0
收到01
0 0 1/3 2/3 0 0 0 0
互信息的可加性
u1
u2 u3
系统
u1
u2
系统
u3
I(u1;u2u3)I(u1;u2)I(u1;u3|u2) I(u1;u3)I(u1;u2|u3)
互信息量特性:
对称性
可加性
互信息量的值域: -infinite ~ +infinite, 即全体实数
离散变量的非平均自信息量
ifp(xk | yj)1
条件自信息和联合自信息
I(u 1 |u 2 ) lo p (u g 1 |u 2 )
I(xkyj)lopg (xkyj)
I (xk ; y j ) I (xk ) I (xk | y j ) I ( y j ) I ( y j | xk )
自信息、条件自信息和互信息
I(x k ;y j) I(x k ) I(y j) I(x k y j)
I(xk;yj)loga
P(XP(Xxk|Yxk)yj)loga
P(Yyj |Xxk) P(Yyj)
logaP P((X (X,Yx)k)P((xYk,yyj)j))logaqkrkw j j
非平均互信息量
其中底数a是大于1的常数。常用a=2或a=e,当a=2 时互信息量的单位为“比特”。
几点说明: (1)I(xk; yj)=loga(rkj/(qkwj))。因此有对称性:
考虑)此时补充定义qkloga(1/qk)=0。这个定义是合理的, 因为
lim
q0
qloga
1 q
0
熵
例2.2.1 离散型随机变量X有两个事件x1和x2, P(X=x1)=p,P(X=x2)=1-p。
I(xk
;
yj
)
log
p(xk | yj q(xk )
)
log 1 q(xk
)
logq(xk
)
定义:给定集合{X, q(xk)},事件xk∈X的 自信息量定义为:
I(xk)logq(1xk)logq(xk)
非平均自信息的性质
非负性 体现先验不确定性大小
I(xk; yj ) I(xk ) I(xk; yj ) I(yj )
I(xk; yj)=I(yj; xk)。 (2)当rkj=qkwj时I(xk; yj)=0。(当两个事件相互独
立时,互信息量为0)。 (3)当rkj>qkwj时I(xk; yj)>0,当rkj<qkwj时I(xk; yj)<0。
(当两个事件正相关时,互信息量为正值,当两 个事件负相关时,互信息量为负值)。
非平均互信息量
例2.1.1
输入消息 码字
X1
000
X2
001
X3
010
X4
011
X5
100
X6
101
X7
110
x8
111
p(xk)
1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8
收到0
1/4 1/4 1/4 1/4 0 0 0 0
收到01
0 0 1/2 1/2 0 0 0 0
收到011
第二章 信息量和熵
输入,输出空间定义
输入空间X={xk,k=1,2,…,K},概率记为q(xk)
输出空间Y={yj,j=1,2,…,J},概率记为ω(yj)
联合空间XY={xkyj ;k=1,2,…,K;j=1,2,…,J}, 概率 为p(xkyj)
p(xkyj)= p(xk|yj)ω(yj)= p(yj|xk)q(xk)
I(xk;yj3|yj1yj2)
wenku.baidu.com
非平均互信息量
定义2.1.1(非平均互信息量) 给定一个二维离 散型随机变量{(X, Y), (xk, yj), rkj, k=1~K; j=1~J}(因此就给定了两个离散型随机变量
{X, xk, qk, k=1~K}和{Y, yj, wj, j=1~J})。事件 xk∈X与事件yj∈Y的互信息量定义为
收到011
0 0 0 1 0 0 0 0
非平均互信息量
例2.1.2
输入消息 码字
X1
000
X2
111
p(xk)
1/2 1/2
收到0
1-p p
1-p 0
p
p
1 1-p
收到01
1/2 1/2
收到011
1-p p
0
1
非平均互信息量
I(x k;yj)f(q (x k)p ,(x k|yj)) I(xk;yj)I(xk;yj1)I(xk;yj2|yj1)
条件互信息和联合事件互信息
三个事件集的条件互信息定义为
I(u 1 ;u 2 |u 3 ) lo p p (u (u 1 g 1 |u |u 2 u 3 ) 3 ) lo p (u 1 g p |( u u 3 1 u )2 p |(u u 2 3 ) |u 3 )
可以推广到任意有限多个空间情况
则X的平均自信息量(熵)为 H(X)=ploga(1/p)+(1-p)loga(1/(1-p)) 。
观察H(X)(它是p的函数,图2.2.1给出了函数图象,该图象具 有某种对称性),有
当p=0或p=1时,H(X)=0。(随机变量X退化为常数时,熵为0 )
当0<p<1时,H(X)>0。p越靠近1/2, H(X)越大。 (X是真正的 随机变量时,总有正的熵。随机性越大,熵越大)
当p=1/2时,H(X)达到最大。(随机变量X的随机性最大时, 熵最大。特别如果底数a=2,则H(X)=1比特)
条件熵(定义2.2.2)
H (X |Y ) p (x)lyo p (x g |y )
xy
关于定 2.2义 .2的注解:
J
K
H(X|Y) wj P(Xxk
j1 k1
|Yyj)l
I(xk)
I(yj)
I(xk ;yj)
2.2 离散集的平均自信 息量-熵
熵
(平均自信息量——熵) 离散型随机变量{X,
xk, qk, k=1~K}的平均自信息量(又称为熵) 定义为如下的H(X),其中底数a是大于1的
常数。
K
H(X) qk
k1
loga q1k
集X中事件出现的平均不确定性
熵
注意: (1)事件xk的自信息量值为I(xk)=loga(1/qk),因此H(X)是随机
0 0 0 1 0 0 0 0
非平均互信息量
输入消息 码字
X1
000
X2
001
X3
010
X4
011
X5
100
X6
101
X7
110
x8
111
p(xk)
1/8 1/4 1/8 1/4 1/16 1/16 1/16 1/16
收到0
1/6 1/3 1/6 1/3 0 0 0 0
收到01
0 0 1/3 2/3 0 0 0 0
互信息的可加性
u1
u2 u3
系统
u1
u2
系统
u3
I(u1;u2u3)I(u1;u2)I(u1;u3|u2) I(u1;u3)I(u1;u2|u3)
互信息量特性:
对称性
可加性
互信息量的值域: -infinite ~ +infinite, 即全体实数
离散变量的非平均自信息量
ifp(xk | yj)1
条件自信息和联合自信息
I(u 1 |u 2 ) lo p (u g 1 |u 2 )
I(xkyj)lopg (xkyj)
I (xk ; y j ) I (xk ) I (xk | y j ) I ( y j ) I ( y j | xk )
自信息、条件自信息和互信息
I(x k ;y j) I(x k ) I(y j) I(x k y j)
I(xk;yj)loga
P(XP(Xxk|Yxk)yj)loga
P(Yyj |Xxk) P(Yyj)
logaP P((X (X,Yx)k)P((xYk,yyj)j))logaqkrkw j j
非平均互信息量
其中底数a是大于1的常数。常用a=2或a=e,当a=2 时互信息量的单位为“比特”。
几点说明: (1)I(xk; yj)=loga(rkj/(qkwj))。因此有对称性: