最新二章信息量和熵
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
熵函数的值只与概率分布或将1分割成的 K个实数的取值有关,而与这K个实数和 K个事件采取何种一一对应方式无关
熵的性质-非负性
HK(P) = HK(p1, p2, …, pK) ≥0 可由单个事件自信息量的非负性得到
熵的性质-确定性
若事件集X中有一个事件为必然事件,其余事 件为不可能事件,则此集合的熵值为0
(当两个事件正相关时,互信息量为正值,当两 个事件负相关时,互信息量为负值)。
条件互信息和联合事件互信息
三个事件集的条件互信息定义为
I(u 1 ;u 2 |u 3 ) lo p p (u (u 1 g 1 |u |u 2 u 3 ) 3 ) lo p (u 1 g p |( u u 3 1 u )2 p |(u u 2 3 ) |u 3 )
可以推广到任意有限多个空间情况
互信息的可加性
u1
u2 u3
系统
u1
u2
系统
u3
I(u1;u2u3)I(u1;u2)I(u1;u3|u2) I(u1;u3)I(u1;u2|u3)
互信息量特性:
对称性
可加性
互信息量的值域: -infinite ~ +infinite, 即全体实数
离散变量的非平均自信息量
1
P(Xxk |Yyj)
J
wjH(X|Yyj) j1
XY独立时有H(X|Y)=H(X)
联合熵
H(XY) p(xy)logp(xy)
xy
H(XY)H(X)H(Y| X) H(Y)H(X|Y)
熵的性质
对称性 非负性 确定性 扩展性 可加性 极值性 是H(P)上凸函数
熵是概率矢量的函数
熵的性质-扩展性
l i m 0 H K 1 ( p 1 ,p 2 ,...,p K ,) H K ( p 1 ,p 2 ,...,p K )
熵的性质-可加性
HM(p1q11, p1q21,..., p1qm11, p2q12, p2q22,...,
K
HK(p1,p2,...,pK) pklogpk k1
P当=K(pp1k,
p2,
1,
…,
pk
1p,k常)可称以作看是作概是率K矢维量矢;量,
k 1
故的H函K数(P)=HK(p1, p2, …, pk)是概率矢量P
熵的性质-对称性
矢量的各分量p1,p2,…pk的次序任意改变 时,熵值不变
非平均互信息量
其中底数a是大于1的常数。常用a=2或a=e,当a=2 时互信息量的单位为“比特”。
几点说明: (1)I(xk; yj)=loga(rkj/(qkwj))。因此有对称性:
I(xk; yj)=I(yj; xk)。 (2)当rkj=qkwj时I(xk; yj)=0。(当两个事件相互独
立时,互信息量为0)。 (3)当rkj>qkwj时I(xk; yj)>0,当rkj<qkwj时I(xk; yj)<0。
ifp(xk | yj)1
I(xk
;
yj
)
log
p(xk | yj q(xk )
)
log 1 q(xk
)
logq(xk
)
定义:给定集合{X, q(xk)},事件xk∈X的 自信息量定义为:
I(xk)logq(1xk)logq(xk)
非平均自信息的性质
非负性 体现先验不确定性大小
I(xk; yj ) I(xk ) I(xk; yj ) I(yj )
二章信息量和熵
信息量和熵
2.1 离散变量的非平均信息量 2.2 离散集的平均自信息量-熵 2.3 离散集的平均互信息量 2.4 连续随机变量的互信息和熵 2.5 凸函数和互信息的凸性
非平均互信息量
定义2.1.1(非平均互信息量) 给定一个二维离 散型随机变量{(X, Y), (xk, yj), rkj, k=1~K; j=1~J}(因此就给定了两个离散型随机变量
变量X的各事件自信息量值的“数学期望”。 (2)定义H(X)时,允许某个qk=0。(此时将qkloga(1/qk) 通盘
考虑)此时补充定义qkloga(1/qk)=0。这个定义是合理的, 因为
lim
q0
qloga
1 q
0
熵
例2.2.1 离散型随机变量X有两个事件x1和x2, P(X=x1)=p,P(X=x2)=1-p。
条件自信息和联合自信息
I(u 1 |u 2 ) lo p (u g 1 |u 2 )
I(xkyj)lopg (xkyj)
I (xk ; y j ) I (xk ) I (xk | y j ) I ( y j ) I ( y j | xk )
自信息、条件自信息和互信息
I(x k ;y j) I(x k ) I(y j) I(x k y j)
则X的平均自信息量(熵)为 H(X)=ploga(1/p)+(1-p)loga(1/(1-p)) 。
观察H(X)(它是p的函数,图2.2.1给出了函数图象,该图象具 有某种对称性),有
当p=0或p=1时,H(X)=0。(随机变量X退化为常数时,熵为0 )
当0<p<1时,H(X)>0。p越靠近1/2, H(X)越大。 (X是真正的 随机变量时,总有正的熵。随机性越大,熵越大)
{X, xk, qk, k=1~K}和{Y, yj, wj, j=1~J})。事件 xk∈X与事件yj∈Y的互信息量定义为
I(xk;yj)loga
P(XP(Xxk|Yxk)yj)loga
P(Yyj |Xxk) P(Yyj)
logaP P((X (X,Yx)k)P((xYk,yyj)j))logaqkrkw j j
当p=1/2时,H(X)达到最大。(随机变量X的随机性最大时, 熵最大。特别如果底数a=2,则H(X)=1比特)
条件熵(定义2.2.2)
H (X |Y ) p (x)lyo p (x g |y )
xy
关于定 2.2义 .2的注解:
Jห้องสมุดไป่ตู้
K
H(X|Y) wj P(Xxk
j1 k1
|Yyj)l
og
I(xk)
I(yj)
I(xk ;yj)
2.2 离散集的平均自信 息量-熵
熵
(平均自信息量——熵) 离散型随机变量{X,
xk, qk, k=1~K}的平均自信息量(又称为熵) 定义为如下的H(X),其中底数a是大于1的
常数。
K
H(X) qk
k1
loga q1k
集X中事件出现的平均不确定性
熵
注意: (1)事件xk的自信息量值为I(xk)=loga(1/qk),因此H(X)是随机
熵的性质-非负性
HK(P) = HK(p1, p2, …, pK) ≥0 可由单个事件自信息量的非负性得到
熵的性质-确定性
若事件集X中有一个事件为必然事件,其余事 件为不可能事件,则此集合的熵值为0
(当两个事件正相关时,互信息量为正值,当两 个事件负相关时,互信息量为负值)。
条件互信息和联合事件互信息
三个事件集的条件互信息定义为
I(u 1 ;u 2 |u 3 ) lo p p (u (u 1 g 1 |u |u 2 u 3 ) 3 ) lo p (u 1 g p |( u u 3 1 u )2 p |(u u 2 3 ) |u 3 )
可以推广到任意有限多个空间情况
互信息的可加性
u1
u2 u3
系统
u1
u2
系统
u3
I(u1;u2u3)I(u1;u2)I(u1;u3|u2) I(u1;u3)I(u1;u2|u3)
互信息量特性:
对称性
可加性
互信息量的值域: -infinite ~ +infinite, 即全体实数
离散变量的非平均自信息量
1
P(Xxk |Yyj)
J
wjH(X|Yyj) j1
XY独立时有H(X|Y)=H(X)
联合熵
H(XY) p(xy)logp(xy)
xy
H(XY)H(X)H(Y| X) H(Y)H(X|Y)
熵的性质
对称性 非负性 确定性 扩展性 可加性 极值性 是H(P)上凸函数
熵是概率矢量的函数
熵的性质-扩展性
l i m 0 H K 1 ( p 1 ,p 2 ,...,p K ,) H K ( p 1 ,p 2 ,...,p K )
熵的性质-可加性
HM(p1q11, p1q21,..., p1qm11, p2q12, p2q22,...,
K
HK(p1,p2,...,pK) pklogpk k1
P当=K(pp1k,
p2,
1,
…,
pk
1p,k常)可称以作看是作概是率K矢维量矢;量,
k 1
故的H函K数(P)=HK(p1, p2, …, pk)是概率矢量P
熵的性质-对称性
矢量的各分量p1,p2,…pk的次序任意改变 时,熵值不变
非平均互信息量
其中底数a是大于1的常数。常用a=2或a=e,当a=2 时互信息量的单位为“比特”。
几点说明: (1)I(xk; yj)=loga(rkj/(qkwj))。因此有对称性:
I(xk; yj)=I(yj; xk)。 (2)当rkj=qkwj时I(xk; yj)=0。(当两个事件相互独
立时,互信息量为0)。 (3)当rkj>qkwj时I(xk; yj)>0,当rkj<qkwj时I(xk; yj)<0。
ifp(xk | yj)1
I(xk
;
yj
)
log
p(xk | yj q(xk )
)
log 1 q(xk
)
logq(xk
)
定义:给定集合{X, q(xk)},事件xk∈X的 自信息量定义为:
I(xk)logq(1xk)logq(xk)
非平均自信息的性质
非负性 体现先验不确定性大小
I(xk; yj ) I(xk ) I(xk; yj ) I(yj )
二章信息量和熵
信息量和熵
2.1 离散变量的非平均信息量 2.2 离散集的平均自信息量-熵 2.3 离散集的平均互信息量 2.4 连续随机变量的互信息和熵 2.5 凸函数和互信息的凸性
非平均互信息量
定义2.1.1(非平均互信息量) 给定一个二维离 散型随机变量{(X, Y), (xk, yj), rkj, k=1~K; j=1~J}(因此就给定了两个离散型随机变量
变量X的各事件自信息量值的“数学期望”。 (2)定义H(X)时,允许某个qk=0。(此时将qkloga(1/qk) 通盘
考虑)此时补充定义qkloga(1/qk)=0。这个定义是合理的, 因为
lim
q0
qloga
1 q
0
熵
例2.2.1 离散型随机变量X有两个事件x1和x2, P(X=x1)=p,P(X=x2)=1-p。
条件自信息和联合自信息
I(u 1 |u 2 ) lo p (u g 1 |u 2 )
I(xkyj)lopg (xkyj)
I (xk ; y j ) I (xk ) I (xk | y j ) I ( y j ) I ( y j | xk )
自信息、条件自信息和互信息
I(x k ;y j) I(x k ) I(y j) I(x k y j)
则X的平均自信息量(熵)为 H(X)=ploga(1/p)+(1-p)loga(1/(1-p)) 。
观察H(X)(它是p的函数,图2.2.1给出了函数图象,该图象具 有某种对称性),有
当p=0或p=1时,H(X)=0。(随机变量X退化为常数时,熵为0 )
当0<p<1时,H(X)>0。p越靠近1/2, H(X)越大。 (X是真正的 随机变量时,总有正的熵。随机性越大,熵越大)
{X, xk, qk, k=1~K}和{Y, yj, wj, j=1~J})。事件 xk∈X与事件yj∈Y的互信息量定义为
I(xk;yj)loga
P(XP(Xxk|Yxk)yj)loga
P(Yyj |Xxk) P(Yyj)
logaP P((X (X,Yx)k)P((xYk,yyj)j))logaqkrkw j j
当p=1/2时,H(X)达到最大。(随机变量X的随机性最大时, 熵最大。特别如果底数a=2,则H(X)=1比特)
条件熵(定义2.2.2)
H (X |Y ) p (x)lyo p (x g |y )
xy
关于定 2.2义 .2的注解:
Jห้องสมุดไป่ตู้
K
H(X|Y) wj P(Xxk
j1 k1
|Yyj)l
og
I(xk)
I(yj)
I(xk ;yj)
2.2 离散集的平均自信 息量-熵
熵
(平均自信息量——熵) 离散型随机变量{X,
xk, qk, k=1~K}的平均自信息量(又称为熵) 定义为如下的H(X),其中底数a是大于1的
常数。
K
H(X) qk
k1
loga q1k
集X中事件出现的平均不确定性
熵
注意: (1)事件xk的自信息量值为I(xk)=loga(1/qk),因此H(X)是随机