信息论第五讲

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2.2.4 费诺(Fano )不等式

我们曾借助于前已给出的通信模型,问从收到的Y 可以得到关于X 多少信息,从而定义了平均互信息的概念。这实际上是一个在给定条件下对关心的随机变量进行估值的问题。在现实问题中常会遇到这种现象,例如,我们想知道某种产品的长度X ,就用尺子去测量,得到读数Y 。不同产品的长度是在一定范围内的随机变量,由于测量误差我们也测不出被测产品的真实长度,所以,这也是根据Y 来估计X 的问题。

我们做过的一个习题说,当且仅当X 是Y 的单值函数时,随机变量X 的条件熵H(X|Y)=0,推而广之,我们希望条件熵H(X|Y) 较小时,能以较低的误差概率估计出X 。费诺不等式量化了这个想法。

设待估计的随机变量X :n x x x ,,,21 具有分布)(x p ,我们观察与X 相关联的随机变量Y ,它关于X 的条件分布是)|(x y p 。由Y 计算函数)(Y g 作为X 的估值)(Y g X =∧

,现在要对X X ≠∧

的概率做出限定。 定义误差概率为

}{X X P P e ≠=∧

(2-49) 注意∧

→→X Y X 构成马尔可夫链。费诺不等式表述如下。

定理2.11

)|()1log()(Y X H n P P H e e ≥-+ (2-50)

其中n 是随机变量个数。式(2-50)可以减弱为

)|(log 1Y X H n P e ≥+ (2-51)

证明 首先定义一个误差随机变量

⎪⎩

⎪⎨⎧

=≠=∧

∧X X

X E X 如果如果01 然后根据熵的链式法则将)|,(Y X E H 以两种方式展开

),|()|()|,(Y X E H Y X H Y X E H += (2-52)

),|()|()|,(Y E X H Y E H Y X E H += (2-53)

因为E 是X 和g(Y ) 的函数,所以(2-52)中第二项0),|(=Y X E H ;因为条件作用使熵减少,所以(2-53)中第一项)()|(E H Y E H ≤,又因为E 是一个二值随机变量,所以)()(e P H E H =,于是得到:

(|)()(|,)e H X Y H P H X E Y ≤+ (2-54) 而根据熵是统计平均的概念:

)1,|()1()0,|()0(),|(==+===E Y X H E P E Y X H E P Y E X H r r

E=0意味着没有估计误差,知道Y 就完全确定了X ,所以H(X|Y,E=0)=0。当E=1

时,估值)(Y g X =∧

能取X 中其它n-1个值,根据定理 2.11,)1log()1,|(-≤=n E Y X H ,将这些结果代入式(2-54),得到

(|)()(0)0(|,1) ()log(1)

e r e e e H X Y H P P E P H X Y E H P P n ≤+=⨯+=≤+-

费诺不等式得证。

如果没有任何关于Y 的知识,只能在毫无信息的情况下估计X ,对X 的最

佳估计是 ,

i x X =∧

其中n i j x p x p j i ,,2,1,()( =≥ ),此时的误差概率为)(1i e x p P -=,而费诺不等式变为)()1log()(X H n P P H e e ≥-+。

2.2.5 渐近均分性

在通信过程中,信源往往要发出很长的消息,例如发出一份中文稿件,相当于一个汉字的序列,如果把单个汉字看成是一个随机变量的实现,整个稿件就是对随机变量序列的一次观测。

我们注意到,上例中每个字都来源于同一个字库,而且一般地认为前后两个字互相独立,也就是说,这个随机变量序列是独立同分布的(i.i.d.)。概率论中的大数定律指出,对于独立同分布的随机变量序列,当n 很大时,∑

=n i i

X n

1

1近似

等于期望值EX 。渐近均分性与此类似,其正式描述是:

定理2.12 (AEP )如果n X X X ,,,21 为i.i.d.序列,而且服从)(x p ,则依概率有

(2-55) 所谓依概率趋近)(X H ,即对任意0>ε,有

1|)(),,,(log 1|lim 21=⎪⎭

⎝⎛<--∞→εX H X X X p n P n n (2-56) 证明 因为i X 是独立同分布的,所以

)(),,,(1

21i n

i n X p X X X P ∏

==

,∑=-

=-n

i i

n X p n

X X X p n 1

21)(log 1

),,,(log 1 。

当∞→n 时,依概率有)(log )(log 11

X p E X p n

n

i i -→-

=)(X H =

这意味着),,,(21n X X X p 会以很高的概率接近于)(2X nH -。

例2.13 设随机变量)1,0{∈X ,其概率密度为P(1)=P(0)=1/2,现信源发出随机序列,问序列(1,0,1,1,0,1)出现的可能性有多大?

解 =)(X H 1,所以,依概率1)1,0,1,1,0,1(log 61→-p ,64

12)1,0,1,1,0,1(6

=

=-p 6位二进制序列共有64个,如果0\1等概出现,则序列(1,0,1,1,0,1)出现的可能性是1/64当然是合理的。如果q P p P ==)0(,)1( ,则q q p p X H log log )(--=,

序列出现的概率就成为)

(62)1,0,1,1,0,1(X H p -=。

渐近均分定理又叫序列分组定理,因为利用它可以把随机变量序列的集合分为两个子集:典型集和非典型集。根据对数的意义把式(2-55)稍加变换,就得到典型集的的定义:

定义2.11 满足如下性质的序列Ω∈),,,(21n x x x 的集合叫做p(x)的典型集)

(n E A :

))((21)

)((2),,,(2

εε--+-≤≤X H n n X H n x x x p (2-57) 典型集具有如下性质: (1) 如果)

(21),,,(n E n A x x x ∈ ,则

εε+≤-≤-)(),,,(log 1

)(21X H x x x p n

X H n

(2) 当n 充分大时,有ε->1}{)

(n E A P

(3) )

)(()(2||ε+≤X H n n E A ,其中|A|表示集合A 中的元素个数 (4) 当n 充分大时,有))(()(2)1(||εε--≥X H n n E A

我们略去这些性质的证明,重点说明它们的意义(证明并不困难,有兴趣的读者可以作为练习)。

性质(1) 、(2)说明,对任意小的ε,只要n 足够大,随机变量序列都属于典型集。性质(3)、(4)说明了典型集包含的随机变量序列的个数,由于 ε非常小,所以

)()(2||X nH n E A → (2-58)

这就是说,从平均意义上讲,用nH(X)比特就可以表示序列n X 。

2.2.6 随机过程的熵率

渐近均分性表明,在平均意义下使用nH(X) 比特足以描述n 个独立同分布的随机变量序列,如果随机变量不独立,尤其是平稳随机过程,情况将会怎样?我们在下面引出随机过程熵率的概念。

相关文档
最新文档