联合熵与条件熵 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第6讲联合熵与条件熵

信息熵H(X)反映了随机变量X 的取值不确定性。当X 是常量时，其信息熵最小，等于0；当X 有n 个取值时，当且仅当这些取值的机会均等时，信息熵H(X)最大，等于log n 比特。我们拓展信息熵H(X)的概念，考虑两个随机变量X 和Y 的联合熵H(XY)和条件熵H(Y|X)。

1. 联合熵

设X ，Y 是两个随机变量，则(X,Y)是二维随机变量，简写为XY 。二维随机变量XY 的联合概率分布记为p (xy )，即 (){}Pr ,p xy X x Y y === 根据信息熵的定义可知，XY 的信息熵为 ,,1

()()()()log

()

x y

H XY p xy I xy p xy p xy ==∑∑

定义二维随机变量XY 的信息熵H(XY)称为X 与Y 的联合熵（joint entropy ）。它反映了二维随机变量XY 的取值不确定性。我们把它理解为X 和Y 取值的总的不确定性。练习：

假设有甲乙两只箱子，每个箱子里都存放着100个球。甲里面有红蓝色球各50个，乙里面红、蓝色的球分别为99个和1个。试计算H(XY)

我们将联合熵概念推广到任意多离散型随机变量上。定义一组随机变量12,,

,N X X X 的联合熵定义为

121212,,,12

()()() N

N N N x x x H X X p x x x I x X x x =

∑

注：为了简化记号，我们有时把12N X X X 记为X N ，把12N x x x 记为x N 。

物理意义：（1）12

()N X H X X 是这一组随机变量平均每一批取值

1212,{,

}N N x X x X X x ===

所传递的信息量。

（2）若N-维随机变量12

N X X X 表示某信源产生的任意一条长度为N 的消息，则

12()N X H X X 是平均每条长度为N 的消息的信息量。因此，若该信源产生一个长度为N 的消息，则在不知道其它条件的情况下，对该消息所含信息量的最优估计为N-维信息熵

12

()N X H X X 。

联合熵的性质：

联合熵熵函数的一种特殊形式，所以熵函数的任何数学性质都适用于联合熵，包括：非负性、可加性、严格上凸性和最大离散熵原理，等等。

当然，联合熵还有自己的特殊性质。定理（联合熵的独立界）2

121()()()()N N H X X H X H X H X X ≤+++

其中等号成立的充要条件是所有随机变量相互独立。

证明：这里仅证明()()()H Y X X H H Y ≤+，一般情形可类似证明。设对于XY 的联合分布为p (xy )，X 和Y 的概率分布简记为p (x )，p (y )。由于

()()()(),, ,y

x

p x p x y p y p x y ==∑∑

我们有

()(),-=

log

()

()x y

p x x x p y y p y p ∑左右

注意，()()p x p y 构成一个概率分布。应用信息不等式可得

()(),()

0()

log

x y

p x p y p x p x y y ≤∑

其中等号成立的充要条件是()()()p xy p x p y =，即X 与Y 相互独立。证毕 2. 条件熵

条件自信息：1

(|)log

(|)

I y x p y x =

对于任何取值x ，|Y X x =是一个带条件的随机变量，其信息熵为

(|)(|)log (|)y

H Y X x p y x p y x ==-∑

再对所有x 求熵的平均值可得如下条件熵：

定义设X ,Y 是两个离散型随机变量，联合分布为p (xy )。X 相对于Y 的条件熵H (X|Y ) 定义为条件自信息I (X|Y )的期望，即

,(|)()(|) x y

H X Y p xy I x y =∑

物理意义：H (X|Y )表示在已知Y 取值的前提下，X 取值的不确定性，亦即X 的每个取值平均所提供的与Y 无关的信息量。

定理（条件熵非负性）对于任何离散型随机变量X 与Y ，都有H(Y|X) ≥0，其中等号成立当且仅当Y 是X 的函数，即X 的取值可确定Y 的取值。证明根据定义

,(|)()log (|)0

x y

H Y X p xy p y x =-≥∑

简记为

12?

() N

N H X H H H =++⋯+ 其中H 1=H (X 1)，H 2=H ( X 2|X 1)，…，H N =H (X N |X 1X 2 …X N-1)。

证明：首先根据定义直接可得

H (XY )= H (X )+H (Y|X )

应用上述等式，对N 用归纳法可证明熵的链法则。细节略。证毕意义：将多个随机变量的联合熵转化为这些随机变量的条件熵之和，可简化计算。注：链法则与熵的可加性是等价的。思考：

下列不等式是否成立，其中各等号成立的充要条件是什么？

112123()()()H X H X X H X X X ≤≤

这个性质说明什么？请读者尝试命名该性质。

定理（条件熵递减性）对于任何随机变量X 和Y ，有

H (Y |X )≤ H (Y )

其中等号成立的充要条件是Y 与X 相互独立。证明一：根据链法则，

H (XY )=H (X )+H (Y |X )

再根据联合熵的独立界定理，立刻可得

H (Y |X )≤ H (Y )

其中等号成立的充要条件是X 与Y 统计独立。证毕在条件熵中，条件越少，熵值越大。相反，条件越多，熵值越小。这可理解为，我们知道的越多，则事物的不确定性越小。

证明二：应用Jessen 不等式证明。证毕

3. 计算公式

令X ，Y 为离散的随机变量。