中小学课件信息量和熵.ppt

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2.3 离散集的平均互信息量
平均互信息量
I ( X ;Y )
xy
p(xy) log
p(x | y) q(x)
1. 非负性 2. 对称性
3. I (X ;Y ) H (X ) H (X | Y ) H (Y ) H (Y | X ) H ( X ) H (Y ) H ( X | Y )
平均互信息量
4. I(X;Y)≤H(X) ,I(X;Y)≤H(Y) H(X)
H(X|Y)
I(X;Y)
H(Y)
H(Y|X)
条件互信息
I ( X ;Y
|
Z)
xyz
p(xyz) log
p(xy | z) p(x | z)
I(X ;Y | Z) H(X | Z) H(X | YZ)
I ( X ;YZ ) I ( X ;Y ) I ( X ; Z | Y ) I(X;Z) I(X;Y | Z)
X1
000
X2
111
p(xk)
1/2 1/2
收到0
1-p p
1-p 0
p
p
1 1-p
收到01
1/2 1/2
收到011
1-p p
0
1
非平均互信息量
I (xk ; y j ) f (q(xk ), p(xk | y j ))
I (xk ; y j ) I (xk ; y j1) I (xk ; y j2 | y j1)
• 输出空间Y={yj,j=1,2,…,J},概率记为ω(yj)
• 联合空间XY={xkyj ;k=1,2,…,K;j=1,2,…,J}, 概率为 p(xkyj)
p(xkyj)= p(xk|yj)ω(yj)= p(yj|xk)q(xk)
非平均互信息量
• 例2.1.1
输入消息码字
X1
000
X2
001
I (xk ; y j3 | y j1 y j2 )
I (xk ; y j ) loga
p(xk | y j ) q(xk )
loga
p( y j | xk )
( y j )
I ( y j ; xk )
条件互信息和联合事件互信息
• 三个事件集的条件互信息定义为
I (u1;u2
| u3)
log
信息处理定理
X
Y
系统1
Z 系统2
• Z出现情况下，X和Y独立
p(xy | z) p(x | z) p( y | z) I(X;Y | Z) 0 H(X | YZ) H(H | Z)
信息处理定理
H(X | Z) H(X |Y) I(X;Z) I(X;Y)
2.4 连续随机变量的互信息和相对熵
第二章信息量和熵
信息量和熵
• 2.1 离散变量的非平均信息量 • 2.2 离散集的平均自信息量－熵 • 2.3 离散集的平均互信息量 • 2.4 连续随机变量的互信息和熵 • 2.5 凸函数和互信息的凸性
2.1 离散变量的非平均信息量
输入，输出空间定义
• 输入空间X={xk,k=1,2,…,K},概率记为q(xk)
条件自信息和联合自信息 I (u1 | u2 ) log p(u1 | u2 )
I (xk y j ) log p(xk y j )
I (xk ; y j ) I (xk ) I (xk | y j ) I ( y j ) I ( y j | xk )
自信息、条件自信息和互信息
I (xk ; y j ) I (xk ) I ( y j ) I (xk y j )
X3
010
X4
011
X5
100
X6
101
X7
110
x8
111
p(xk)
1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8
收到0
1/4 1/4 1/4 1/4 0 0 0 0
收到01
0 0 1/2 1/2 0 0 0 0
收到011
0 0 0 1 0 0 0 0
非平均互信息量
输入消息码字 p(xk)
收到0
X1
000
1/8
1/6
X2
001
1/4
1/3
X3
010
1/8
1/6
X4
011
1/4
1/3
X5
100 1/16
0
X6
101 1/16
0
X7
110 1/16
0
x8
111
1/16
0
收到01
0 0 1/3 2/3 0 0 0 0
收到011
0 0 0 1 0 0 0 0
非平均互信息量
• 例2.1.2
输入消息码字
q11 p1 q12
p2
q13
q14
p3
p4
熵的极值性
• 引理1: lnx≤x-1 • 引理2：
H ( p1,, pK ) pk log qk k 1
• H(X|Y) ≤H(X) • H(U1…UN)
≤H(U1)+…+H(UN)
熵的凸性
• H(P)是P的上凸函数
H (P1 (1 )P2 ) H (P1) (1 )H (P2 )
p(u1 | u2u3 ) p(u1 | u3 )
log
p(u1u2 | u3 ) p(u1 | u3 ) p(u2 | u3 )
• 可以推广到任意有限多个空间情况
互信息的可加性
u1
u2 u3
系统
u1
u2
系统
u3
I (u1;u2u3) I (u1;u2 ) I (u1;u3 | u2 ) I (u1;u3) I (u1;u2 | u3)
离散变量的非平均自信息量
I (来自百度文库k ;
yj)
log
p(xk | y j ) q(xk )
log
1 q( xk
)
log
q( xk
)
I (xk )
log
1 q( xk
)
log
q(xk )
非平均自信息的性质
• 非负 • 体现先验不确定性大小
I (xk ; y j ) I (xk ) I (xk ; y j ) I ( y j )
H ( XY) H ( X ) H (Y | X ) H (Y ) H ( X | Y )
熵的性质
• 对称性 • 非负性 • 确定性 • 扩展性 • 可加性 • 极值性 • 是H(P)上凸函数
熵的性质－可加性
• H(p1q11,p1q12,…,p4q44)=H(p1…,p 4)+p1H(q11,…,q14)+…+p4H(q41,… ,q44)
I(xk)
I(yj)
I(xk ;yj)
2.2 离散集的平均自信息量－熵
熵
H(x) q(x)log q(x)
集X中事件出现的平均不确定性例2.2.1 H(p) 例2.2.2
条件熵和联合熵
H(X | Y) p(xy)log p(x | y)
xy
XY独立时有H(X|Y)=H(X)
H ( XY) p(xy) log p(xy) xy