信息论第五讲
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.2.4 费诺(Fano )不等式
我们曾借助于前已给出的通信模型,问从收到的Y 可以得到关于X 多少信息,从而定义了平均互信息的概念。这实际上是一个在给定条件下对关心的随机变量进行估值的问题。在现实问题中常会遇到这种现象,例如,我们想知道某种产品的长度X ,就用尺子去测量,得到读数Y 。不同产品的长度是在一定范围内的随机变量,由于测量误差我们也测不出被测产品的真实长度,所以,这也是根据Y 来估计X 的问题。
我们做过的一个习题说,当且仅当X 是Y 的单值函数时,随机变量X 的条件熵H(X|Y)=0,推而广之,我们希望条件熵H(X|Y) 较小时,能以较低的误差概率估计出X 。费诺不等式量化了这个想法。
设待估计的随机变量X :n x x x ,,,21 具有分布)(x p ,我们观察与X 相关联的随机变量Y ,它关于X 的条件分布是)|(x y p 。由Y 计算函数)(Y g 作为X 的估值)(Y g X =∧
,现在要对X X ≠∧
的概率做出限定。 定义误差概率为
}{X X P P e ≠=∧
(2-49) 注意∧
→→X Y X 构成马尔可夫链。费诺不等式表述如下。
定理2.11
)|()1log()(Y X H n P P H e e ≥-+ (2-50)
其中n 是随机变量个数。式(2-50)可以减弱为
)|(log 1Y X H n P e ≥+ (2-51)
证明 首先定义一个误差随机变量
⎪⎩
⎪⎨⎧
=≠=∧
∧X X
X E X 如果如果01 然后根据熵的链式法则将)|,(Y X E H 以两种方式展开
),|()|()|,(Y X E H Y X H Y X E H += (2-52)
),|()|()|,(Y E X H Y E H Y X E H += (2-53)
因为E 是X 和g(Y ) 的函数,所以(2-52)中第二项0),|(=Y X E H ;因为条件作用使熵减少,所以(2-53)中第一项)()|(E H Y E H ≤,又因为E 是一个二值随机变量,所以)()(e P H E H =,于是得到:
(|)()(|,)e H X Y H P H X E Y ≤+ (2-54) 而根据熵是统计平均的概念:
)1,|()1()0,|()0(),|(==+===E Y X H E P E Y X H E P Y E X H r r
E=0意味着没有估计误差,知道Y 就完全确定了X ,所以H(X|Y,E=0)=0。当E=1
时,估值)(Y g X =∧
能取X 中其它n-1个值,根据定理 2.11,)1log()1,|(-≤=n E Y X H ,将这些结果代入式(2-54),得到
(|)()(0)0(|,1) ()log(1)
e r e e e H X Y H P P E P H X Y E H P P n ≤+=⨯+=≤+-
费诺不等式得证。
如果没有任何关于Y 的知识,只能在毫无信息的情况下估计X ,对X 的最
佳估计是 ,
i x X =∧
其中n i j x p x p j i ,,2,1,()( =≥ ),此时的误差概率为)(1i e x p P -=,而费诺不等式变为)()1log()(X H n P P H e e ≥-+。
2.2.5 渐近均分性
在通信过程中,信源往往要发出很长的消息,例如发出一份中文稿件,相当于一个汉字的序列,如果把单个汉字看成是一个随机变量的实现,整个稿件就是对随机变量序列的一次观测。
我们注意到,上例中每个字都来源于同一个字库,而且一般地认为前后两个字互相独立,也就是说,这个随机变量序列是独立同分布的(i.i.d.)。概率论中的大数定律指出,对于独立同分布的随机变量序列,当n 很大时,∑
=n i i
X n
1
1近似
等于期望值EX 。渐近均分性与此类似,其正式描述是:
定理2.12 (AEP )如果n X X X ,,,21 为i.i.d.序列,而且服从)(x p ,则依概率有
(2-55) 所谓依概率趋近)(X H ,即对任意0>ε,有
1|)(),,,(log 1|lim 21=⎪⎭
⎫
⎝⎛<--∞→εX H X X X p n P n n (2-56) 证明 因为i X 是独立同分布的,所以
)(),,,(1
21i n
i n X p X X X P ∏
==
,∑=-
=-n
i i
n X p n
X X X p n 1
21)(log 1
),,,(log 1 。
当∞→n 时,依概率有)(log )(log 11
X p E X p n
n
i i -→-
∑
=)(X H =
这意味着),,,(21n X X X p 会以很高的概率接近于)(2X nH -。
例2.13 设随机变量)1,0{∈X ,其概率密度为P(1)=P(0)=1/2,现信源发出随机序列,问序列(1,0,1,1,0,1)出现的可能性有多大?
解 =)(X H 1,所以,依概率1)1,0,1,1,0,1(log 61→-p ,64
12)1,0,1,1,0,1(6
=
=-p 6位二进制序列共有64个,如果0\1等概出现,则序列(1,0,1,1,0,1)出现的可能性是1/64当然是合理的。如果q P p P ==)0(,)1( ,则q q p p X H log log )(--=,
序列出现的概率就成为)
(62)1,0,1,1,0,1(X H p -=。
渐近均分定理又叫序列分组定理,因为利用它可以把随机变量序列的集合分为两个子集:典型集和非典型集。根据对数的意义把式(2-55)稍加变换,就得到典型集的的定义:
定义2.11 满足如下性质的序列Ω∈),,,(21n x x x 的集合叫做p(x)的典型集)
(n E A :
))((21)
)((2),,,(2
εε--+-≤≤X H n n X H n x x x p (2-57) 典型集具有如下性质: (1) 如果)
(21),,,(n E n A x x x ∈ ,则
εε+≤-≤-)(),,,(log 1
)(21X H x x x p n
X H n
(2) 当n 充分大时,有ε->1}{)
(n E A P
(3) )
)(()(2||ε+≤X H n n E A ,其中|A|表示集合A 中的元素个数 (4) 当n 充分大时,有))(()(2)1(||εε--≥X H n n E A
我们略去这些性质的证明,重点说明它们的意义(证明并不困难,有兴趣的读者可以作为练习)。
性质(1) 、(2)说明,对任意小的ε,只要n 足够大,随机变量序列都属于典型集。性质(3)、(4)说明了典型集包含的随机变量序列的个数,由于 ε非常小,所以
)()(2||X nH n E A → (2-58)
这就是说,从平均意义上讲,用nH(X)比特就可以表示序列n X 。
2.2.6 随机过程的熵率
渐近均分性表明,在平均意义下使用nH(X) 比特足以描述n 个独立同分布的随机变量序列,如果随机变量不独立,尤其是平稳随机过程,情况将会怎样?我们在下面引出随机过程熵率的概念。