联合熵与条件熵

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第6讲 联合熵与条件熵

信息熵H(X)反映了随机变量X 的取值不确定性。当X 是常量时,其信息熵

最小,等于0;当X 有n 个取值时,当且仅当这些取值的机会均等时,信息熵

H(X)最大,等于log n 比特。我们拓展信息熵H(X)的概念,考虑两个随机变量X

和Y 的联合熵H(XY)和条件熵H(Y|X)。

1. 联合熵

设X ,Y 是两个随机变量, 则(X,Y)是二维随机变量,简写为XY 。

二维随机变量XY 的联合概率分布记为p (xy ),即

根据信息熵的定义可知,XY 的信息熵为

定义1.1 二维随机变量XY 的信息熵H(XY)称为X 与Y 的联合熵(joint entropy )。

它反映了二维随机变量XY 的取值不确定性。我们把它理解为X 和Y 取值的总

的不确定性。

练习:

假设有甲乙两只箱子,每个箱子里都存放着100个球。甲里面有红蓝色球各

50个,乙里面红、蓝色的球分别为99个和1个。试计算H(XY)

我们将联合熵概念推广到任意多离散型随机变量上。

定义1.2 一组随机变量12,,,N X X X L 的联合熵定义为

注:为了简化记号,我们有时把12N X X X L 记为X N ,把12N x x x L 记为x N 。

物理意义:

(1)12()N X H X X L 是这一组随机变量平均每一批取值

所传递的信息量。

(2)若N-维随机变量12N X X X L 表示某信源产生的任意一条长度为N 的消息,则

12()N X H X X L 是平均每条长度为N 的消息的信息量。因此,若该信源产生一个长

度为N 的消息,则在不知道其它条件的情况下,对该消息所含信息量的最优估计

为N-维信息熵12()N X H X X L 。

联合熵的性质:

联合熵熵函数的一种特殊形式,所以熵函数的任何数学性质都适用于联合熵,

包括:非负性、可加性、严格上凸性和最大离散熵原理,等等。

当然,联合熵还有自己的特殊性质。

定理1.4(联合熵的独立界)2121()()()()N N H X X H X H X H X X ≤+++L L

其中等号成立的充要条件是所有随机变量相互独立。

证明:这里仅证明()()()H Y X X H H Y ≤+,一般情形可类似证明。

设对于XY 的联合分布为p (xy ),X 和Y 的概率分布简记为p (x ),p (y )。

由于

我们有

注意,()()p x p y 构成一个概率分布。应用信息不等式可得

其中等号成立的充要条件是()()()p xy p x p y =,即X 与Y 相互独立。 证毕

2. 条件熵 条件自信息:1(|)log (|)

I y x p y x = 对于任何取值x ,|Y X x =是一个带条件的随机变量,其信息熵为

再对所有x 求熵的平均值可得如下条件熵:

定义2.1 设X ,Y 是两个离散型随机变量,联合分布为p (xy )。X 相对于Y 的条件熵

H (X|Y )

定义为条件自信息I (X|Y )的期望,即

物理意义:H (X|Y )表示在已知Y 取值的前提下,X 取值的不确定性,亦即X 的每

个取值平均所提供的与Y 无关的信息量。

定理2.2(条件熵非负性)对于任何离散型随机变量X 与Y ,都有H(Y|X) ≥0,其

中等号成立当且仅当Y 是X 的函数,即X 的取值可确定Y 的取值。

证明 根据定义

由于上述加式中各加项都≤0,所以该加式=0的充要条件是各加项=0,即对于任何

x 和y ,p (y |x )=1或者p (y |x )=0,亦即对于任何x ,P (Y |x )是退化分布。这表明当X

的取值确定时,Y的取值随即确定,即Y是X的函数。证毕

定理2.3(熵的链法则)对于随机变量序列X1,X2,…和任何N≥1

简记为

其中H1=H(X1),H2=H( X2|X1),…,H N=H(X N|X1X2…X N-1)。

证明:首先根据定义直接可得

H(XY)= H(X)+H(Y|X)

应用上述等式,对N用归纳法可证明熵的链法则。细节略。

证毕

意义:将多个随机变量的联合熵转化为这些随机变量的条件熵之和,可简化计算。注:链法则与熵的可加性是等价的。

思考:

下列不等式是否成立,其中各等号成立的充要条件是什么?

这个性质说明什么?请读者尝试命名该性质。

定理2.4(条件熵递减性)对于任何随机变量X和Y,有

H(Y|X)≤ H(Y)

其中等号成立的充要条件是Y与X相互独立。

证明一:根据链法则,

H(XY)=H(X)+H(Y|X)

再根据联合熵的独立界定理,立刻可得

H(Y|X)≤ H(Y)

其中等号成立的充要条件是X与Y统计独立。

证毕

在条件熵中,条件越少,熵值越大。相反,条件越多,熵值越小。这可理解为,

我们知道的越多,则事物的不确定性越小。

证明二:应用Jessen不等式证明。证毕

3.计算公式

令X,Y为离散的随机变量。

公式1. (|)()()

=-

H Y X H XY H X

公式2. (|)()((|))

=

H Y X P X H P Y X

其中P(X)是X的概率分布,为行向量,P(Y|X)是X到Y的条件概率矩阵,((|))

H P Y X

是条件概率矩阵中各个行分布(|)

H Y x所组成的列向量。

P Y x的熵(|)

证明:

证毕

例3.1设()(0.4,0.6)

P X=且

记号:以后对于任何N,我们将N维随机向量X1,X2,…X N简记为X N。

注:上述条件熵概念可以推广到多个随机变量熵,例如

H(Y|X1X2…X N)

是在已知随机向量X1,X2,…X N取值的前提下,随机变量Y的不确定性,亦即Y的每个取值可以提供的与X1,X2,…X N取值无关的新信息量。

练习3.2设p(xy)如下表所示。

相关文档
最新文档