信息论第五讲

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2.2.4 费诺（Fano ）不等式

我们曾借助于前已给出的通信模型，问从收到的Y 可以得到关于X 多少信息，从而定义了平均互信息的概念。这实际上是一个在给定条件下对关心的随机变量进行估值的问题。在现实问题中常会遇到这种现象，例如，我们想知道某种产品的长度X ，就用尺子去测量，得到读数Y 。不同产品的长度是在一定范围内的随机变量，由于测量误差我们也测不出被测产品的真实长度，所以，这也是根据Y 来估计X 的问题。

我们做过的一个习题说，当且仅当X 是Y 的单值函数时，随机变量X 的条件熵H(X|Y)=0，推而广之，我们希望条件熵H(X|Y) 较小时，能以较低的误差概率估计出X 。费诺不等式量化了这个想法。

设待估计的随机变量X ：n x x x ,,,21 具有分布)(x p ，我们观察与X 相关联的随机变量Y ，它关于X 的条件分布是)|(x y p 。由Y 计算函数)(Y g 作为X 的估值)(Y g X =∧

，现在要对X X ≠∧

的概率做出限定。定义误差概率为

}{X X P P e ≠=∧

(2-49) 注意∧

→→X Y X 构成马尔可夫链。费诺不等式表述如下。

定理2.11

)|()1log()(Y X H n P P H e e ≥-+ (2-50)

其中n 是随机变量个数。式(2-50)可以减弱为

)|(log 1Y X H n P e ≥+ (2-51)

证明首先定义一个误差随机变量

⎪⎩

⎪⎨⎧

=≠=∧

∧X X

X E X 如果如果01 然后根据熵的链式法则将)|,(Y X E H 以两种方式展开

),|()|()|,(Y X E H Y X H Y X E H += (2-52)

),|()|()|,(Y E X H Y E H Y X E H += (2-53)

因为E 是X 和g(Y ) 的函数，所以（2-52）中第二项0),|(=Y X E H ；因为条件作用使熵减少，所以（2-53）中第一项)()|(E H Y E H ≤，又因为E 是一个二值随机变量，所以)()(e P H E H =，于是得到：

(|)()(|,)e H X Y H P H X E Y ≤+ (2-54) 而根据熵是统计平均的概念：

)1,|()1()0,|()0(),|(==+===E Y X H E P E Y X H E P Y E X H r r

E=0意味着没有估计误差，知道Y 就完全确定了X ，所以H(X|Y,E=0)=0。当E=1

时，估值)(Y g X =∧

能取X 中其它n-1个值，根据定理 2.11，)1log()1,|(-≤=n E Y X H ，将这些结果代入式（2-54），得到

(|)()(0)0(|,1) ()log(1)

e r e e e H X Y H P P E P H X Y E H P P n ≤+=⨯+=≤+-

费诺不等式得证。

如果没有任何关于Y 的知识，只能在毫无信息的情况下估计X ，对X 的最

佳估计是，

i x X =∧

其中n i j x p x p j i ,,2,1,()( =≥ )，此时的误差概率为)(1i e x p P -=，而费诺不等式变为)()1log()(X H n P P H e e ≥-+。

2.2.5 渐近均分性

在通信过程中，信源往往要发出很长的消息，例如发出一份中文稿件，相当于一个汉字的序列，如果把单个汉字看成是一个随机变量的实现，整个稿件就是对随机变量序列的一次观测。

我们注意到，上例中每个字都来源于同一个字库，而且一般地认为前后两个字互相独立，也就是说，这个随机变量序列是独立同分布的（i.i.d.）。概率论中的大数定律指出，对于独立同分布的随机变量序列，当n 很大时，∑

=n i i

X n

1近似

等于期望值EX 。渐近均分性与此类似，其正式描述是：

定理2.12 （AEP ）如果n X X X ,,,21 为i.i.d.序列，而且服从)(x p ，则依概率有

(2-55) 所谓依概率趋近)(X H ，即对任意0>ε，有

1|)(),,,(log 1|lim 21=⎪⎭

⎫

⎝⎛<--∞→εX H X X X p n P n n (2-56) 证明因为i X 是独立同分布的，所以

)(),,,(1

21i n

i n X p X X X P ∏

，∑=-

=-n

i i

n X p n

X X X p n 1

21)(log 1

),,,(log 1 。

当∞→n 时，依概率有)(log )(log 11

X p E X p n

i i -→-

∑

=)(X H =

这意味着),,,(21n X X X p 会以很高的概率接近于)(2X nH -。

例2.13 设随机变量)1,0{∈X ，其概率密度为P(1)＝P(0)=1/2，现信源发出随机序列，问序列（1,0,1,1,0,1）出现的可能性有多大？

解 =)(X H 1，所以，依概率1)1,0,1,1,0,1(log 61→-p ，64

12)1,0,1,1,0,1(6

=-p 6位二进制序列共有64个，如果0\1等概出现，则序列（1,0,1,1,0,1）出现的可能性是1/64当然是合理的。如果q P p P ==)0(,)1( ，则q q p p X H log log )(--=，

序列出现的概率就成为)

(62)1,0,1,1,0,1(X H p -=。

渐近均分定理又叫序列分组定理，因为利用它可以把随机变量序列的集合分为两个子集：典型集和非典型集。根据对数的意义把式（2-55）稍加变换，就得到典型集的的定义：

定义2.11 满足如下性质的序列Ω∈),,,(21n x x x 的集合叫做p(x)的典型集)

(n E A ：

))((21)

)((2),,,(2

εε--+-≤≤X H n n X H n x x x p (2-57) 典型集具有如下性质： (1) 如果)

(21),,,(n E n A x x x ∈ ，则

εε+≤-≤-)(),,,(log 1

)(21X H x x x p n

X H n

(2) 当n 充分大时，有ε->1}{)

(n E A P

(3) )

)(()(2||ε+≤X H n n E A ，其中|A|表示集合A 中的元素个数 (4) 当n 充分大时，有))(()(2)1(||εε--≥X H n n E A

我们略去这些性质的证明，重点说明它们的意义（证明并不困难，有兴趣的读者可以作为练习）。

性质(1) 、(2)说明，对任意小的ε，只要n 足够大，随机变量序列都属于典型集。性质(3)、(4)说明了典型集包含的随机变量序列的个数，由于 ε非常小，所以

)()(2||X nH n E A → (2-58)

这就是说，从平均意义上讲，用nH(X)比特就可以表示序列n X 。

2.2.6 随机过程的熵率

渐近均分性表明，在平均意义下使用nH(X) 比特足以描述n 个独立同分布的随机变量序列，如果随机变量不独立，尤其是平稳随机过程，情况将会怎样？我们在下面引出随机过程熵率的概念。