数据处理中信息的变化

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• 说明
(1) 当信源任意一个符号几乎必然出现时, 其它符号几乎不可能出现,这个信源是一个确知信源.在发符号前,不存在不确定性;在发符号后,不提供任何信息量.
(2) 当任意一个概率分量等于1时,才能使信源信息熵等于0.
4．香农辅助定理
• 对于任意两个n维概率矢量P=（p1，p2，…， pn）和Q=（q1，q2，…，qn），如下不等式成立:
2.2.4 数据处理中信息的变化
数据处理定理 : 当消息通过多级处理器时，随着处理器数
目的增多，输人消息与输出消息之间的平均互信息量趋于变小。
X
Y 第一级处理器
输入
Z 第二级处理器
图2-2-4 级联处理器
• 证明:
图中：X是输入消息集合
Y是第一级处理器的输出消息集合
Z为第二级处理器的输出消息集合
综合(1)、(2)得： I(X;Z) I(X;Y)
将 I(YZ;X)＝I(Y;X)＋I(Z;X/Y) 中的X代替Y、Y代替 Z、Z代替X得 I(XY;Z)＝I(X;Z)＋I(Y;Z/X) （＊）
再将式（＊）右边的X和Y互换得： I(XY;Z)＝I(Y;Z)＋I(X;Z/Y) （＊＊）
由式（＊）和（＊＊）得： I(X;Z)＋I(Y;Z/X) =I(Y;Z)＋I(X;Z/Y)
证明：
（1）因为 0p(xi)1，且在熵函数中，对
数的底总是取大于1的数，则logp(xi)〈=0， -logp(xi) >=0，（i=1,2,…,n）,
所以 H (X ) p (xi)lop (g xi)0
i
在熵函数中，当 n=1 时, p(x1)=1, log p(x1)=0, H(X)=H(x1)=p(x1) log p(x1)=0
证明:
• 按条件极值的数学求解方法，做辅助函数（约束 n 条件 pi 1 ) i 1 F(p1,p2,…pn) = H(p1,p2,…,pr)+λ[∑pi–1]
= -∑pi㏒pi +λ[∑pi –1]
其中， λ 为待定常数，对辅助函数 F(p1,p2,…pn) 中的n 个变量pi（i=1,2,…,n）分别求偏导，并置之为零，得n个稳定点方程
(2) 概率空间的总体结构(概率分量数n)相同的信源,不论其信源符号是否相同,也不论其概率分量与信源符号的对应关系是否一致,其信源的信息熵均相等.
分析
• 概率分量数都等于3,概率空间都是由 1/2,1/3,1/6这三个分量构成。由于这三个信源的概率空间的总体结构相同,所以他们的信息熵相等. 即 H(1/3,1/2,1/6)=H(1/3,1/6,1/2) =H(1/2,1/3,1/6) =1.4592 比特/信源符号
ZP1z1/2
z2 1/3
z3 1/6
证明：由
H (X ) H ( x 1 ,x 2 ,.x n . ) . ,p ( x i)lo p ( x i) g
• 根据加法交换律，熵函数所i有变元顺序可以任意互换，而熵函数的值不变。
说明
(1)熵函数的对称性表明,信源的信息熵只与信源的概率空间的总体结构有关,而与各概率分量和各信源符号的对应关系,乃至各信源符号本身无关.
所以，有 I(X;Z)=I(Y;Z)＋I(X;Z/Y) -I(Y;Z/X)
综合(1)、(2)得：
I(X;Z) I(Y;Z)
证毕。
结论：数据处理过程中只会失掉一些信息，绝不会创造出新的信息，所谓信息不增性。 ■
2.2.5 熵函数的代数性质
1. 非负性 H（X）＝H（x1，x2，…，xn）>=0 其中：等号只有在n=1时成立。
证毕。
说明：
（i）这就是熵函数的非负性。表明，从总体平均意义上讲，信源在发送符号以前，总是存在一定的不确定性；在发送符号后，总可以提供一定的信息量。
（ii）从数学角度上看，信息熵具有非负性的关键，在于信息函数中对数的底取大于1的数。熵的非负性并非必要条件。这种非负性对于离散信源的信息熵是合适的，但对于连续信源来讲，在相对熵的概念下，就可能出现负值。
3. 确定性
• 若信源X的概率空间中任意一概率分量等于1时, 其它所有概率分量均等于零,即
P X0x1
x2 ...xi..x.n 0 ...1. ..0.
则信源X的信息熵一定等于0,即 H(x) = H(0,0,…,1,…,0)
= -{0log0+0log0+…+1log1+…+0log0} =0
n
n
H (p1,p2,.p .n). , pilopig piloqig
i 1
i 1
该式表明，对任意概率分布pi，它对其他概率分布qi的自信息量-logqi取数学期望时，必不小于 pi本身的熵。等号仅当 P=Q时成立。
5．最大离散信源熵定理
• 给定离散无记忆信源输出n个不同的信息符号，离散信源的 n 个概率分量 p1, p2,…,pn , 当且仅当各个符号出现概率相等时（即pi＝l／n）熵最大。 H（X）<= H(1/n,1/n,…,1/n) = logn
假设：在Y条件下X与Z相互独立
Hale Waihona Puke Baidu
可得：
I(xi;zk/yj)lo
g p(xi /yjzk) p(xi /yj)
log p(xi / yj )
p(xi / yj )
log1 0
即得 (1) I(X;Z/Y)0
{ 而且 (2)
I(X;Y/Z)0 I(Y;Z/X)0
又由 I(X;YZ)＝I(X;Y)＋I(X;Z/Y) 和 I(X;YZ)＝I(X;ZY)＝I(X;Z)＋I(X;Y/Z) 得: I(X;Z)= I(X;Y)＋I(X;Z/Y) - I(X;Y/Z)
-（1+ ㏒pi）+λ=0 （i=1,2,…,n）
• 由稳定点方程可解得 pi=2(λ-1) （i=1,2,…,n）
将上式代入约束方程，有
∑pi =∑2 (λ-1)=n• 2(λ-1)=1 即得 2(λ-1)=1/n 解大的分布信得值源使，符熵即号函熵x数函i （H数i(=pH11(,,pp21,2…,,p…2,,np…）n)p取相n) 得的应条最的件大概极值率
2．对称性 • 熵函数所有变元顺序可以任意互换，而熵函数
的值不变。即
H（x1，x2，…，xn）＝ H（x2，x1，…，xn）＝ H（xn，x1，…，x2）＝…
因为熵函数只与随机变量的总体结构有关，例如下列信源的熵都是相等的：
PX1x/13
x2 1/2
x3 1/6
YP1y/13
y2 1/6
y3 1/2