第二章 信息量和熵
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章信息量和熵
一、离散变量的非平均信息量
1、离散变量的非平均自信息量
集合{X;p(x)}中某个事件x的自信息量定义为:
=—log p(x) ——表达式是唯一的;
I(x)=log1
()
p x
其中,p(x)为事件x发生的概率。
含义:完全确定事件x所必需的信息量;
事件x中固有(包含)的信息量;
事件x出现的先验不确定性大小。
2、联合概率事件的非平均自信息量
联合空间{XY,p(xy)}中任一事件xy,x∈X和y∈Y的联合自信息量定义为:
I(xy)=—log p(xy)
同理:I(xyz)=—log p(xyz) 。
3、离散变量的非平均条件信息量
联合空间{XY,p(xy)}中,事件x∈X和y∈Y,事件x在事件y 给定(已知)时的条件信息量定义为:
I(x/y)=—log(/)
p x y
含义:已知y时事件x所具有的不确定性;
给定y时事件x中还剩余的信息量;
给定y条件下完全确定事件x所必需的信息量。
4、离散事件的非平均互信息量
两个离散事件集{X ,p(x)}和{Y ,p(y)}中,事件y ∈Y 的出现给出关于事件x ∈X 的信息量定义为: I (x ;y )=log
(/)
()
p x y p x 含义:事件x 和y 之间的互信息量;
从事件y 中可获得关于事件x 的信息量。 5、离散事件的非平均条件互信息量
对于三个离散事件集的联合概率空间{XYZ ,p(xyz )},给定事件
z Z ∈条件下,事件x X ∈和事件y Y ∈之间的条件互信息量定义为:
I (x ;y /z )=log
(/)(/)p x yz p x z =log (/)
(/)(/)
p xy z p x z p y z 注:I (x ;y /z )应理解为:I{(x ;y )/z}
含义:已知事件z 的条件下,从事件y 中可获得关于事件x 的信息量。
6、离散事件非平均信息量的性质 ● 非平均自信息量非负; I (x )=—log p(x)≥0; I (x/y )=—log (/)p x y ≥0 。 ● 非平均互信息量具有对称性; I (x ;y )= I (y ;x ); I (x ;y /z )= I (y ;x /z )。
注:非平均互信息量有可能为负值,如何理解?
x 和y 相互独立时,I (x ;y )=0;P(xy)=P(x)P(y),P(x/y)=p(x) 事件y 出现有益于事件x 的出现时,I (x ;y )≥0; 事件y 出现使事件x 出现的可能性减小时,I (x ;y )≤0。 ● 互信息量和条件自信息量不大于非条件自信息量: I (x ;y )≤I (x ) I (x ;y )≤I (y ) I (x/y )≤I (x ) ● 可加性:
I (xy )= I (x )+I (x/y ) = I (y )+I (y/x )
= I (x )+ I (y )—I (x ;y )
I (xyz )=I (x )+I (y/x )+I (z/xy ) I (x ;yz )=I (x ;y )+I (x ;z/y )
I{(u 1;u 2);u 3}=I (u 1)+ I (u 2)+ I (u 3)—I (u 1 u 2) —I (u 2 u 3)—I (u 1 u 3)+ I (u 1 u 2 u 3) I (u 1;u 2;u 3;…;u N )
=()i I u ∑—()i j I uu ∑+()i j k I uuu ∑—…+
(-1)N-1
I (u 1 u 2… u N ) 可加性几何解释:
I(x ;y)=0
二、熵——离散集的平均自信息量 1、熵的定义
集{X;q(x)}的平均自信息量定义为: H (X )=∑∈X
x q(x)I (x )=-∑∈X
x q(x)log q(x)
(1) 确定事件的信息量为0;
(2) 不可能事件的信息量为∞;但根据lim 0
→z z logz =0,它对熵的贡献为
0;
(3) 熵为集X 中一个事件出现的平均不确定性,既确定集X 中一个
事件出现平均所需的信息量。
(4) 例子:X{x1,x2}中,q(x1)=P, q(x2)=1-P ,则 H(X)=-PlogP-(1-P)log(1-P)
2. 条件熵
(1)H(X/y)=∑x
P(x/y)I(x/y)=-∑x
P(x/y)log P(x/y)
(2) 在集{Y ,ω(y )}上对H(X/y)求均值,有 H(X/Y)= ∑y
ω(y )H(X/y)=-∑x
∑y
P(xy) log P(x/y)
注:集X 和集Y 统计独立时,P(xy)=p(x)P(y),即P(x/y)=P(x) 有:H(X/Y)=H(X) 3. 集X 和集Y 的联合熵
P
H(XY)= -∑x
∑y
P(xy) log P(xy)
4. 熵的性质
(1)对称性:熵值与概率矢量P=(P 1,P 2,…,P k )的次序无关,仅与概率分布有关; (2)非负;
(3)确定性: 概率空间中又确定事件时,其它事件为不可能事件,则熵为0;
(4)扩展性:lim 0
→εH k (P 1,P 2,…,P k ,ε)= H k (P 1,P 2,…,P k )
(5)可加性:H M (p 1q 11, p 1q 21,…,p 1q m 1,1, p 2q 12, p 2q 22,…,p 2q m 2,2, …, p K q 1K ,p K q 2K , …,p K q mK,K )
=H K (p 1, p 2,…, p K )+∑=K
k 1p k H mk (q 1k , q 2k , …,q mK,K )
其中∑=K k 1
p k =1, p k ≥0; ∑=K
j 1
q jk =1, q jk ≥0;M=∑=K
k 1
m k
(5) 极值性:最大离散熵定理 H K (p 1, p 2,…, p K )≤H K (
K 1,K 1 ,…, K
1
)=logK (6) H K (P )是概率矢量P=( p 1, p 2,…, p K )的上凸函数,即对于θ,
0≤θ≤1,和矢量P 1、P 2有:
H(θP 1+(1-θ) P 2)>θH (P 1)+(1-θ) H (P 2)
(7) 熵的唯一性定理:熵函数的定义表达式是唯一的,不可能有其
它形式的函数来表示熵。
(8)条件熵不大于无条件熵:H(X/Y) ≤H(X)