几个基本概念自信息量定义其出现概率对数的负值。随机
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
H(X/Y) p(xi y j ) log p(xi / y j )
i, j
在给定X(即各个xi)条件下,Y集合的条件 熵H(Y/X)定义为
H(Y/X)
2020/3/14
p(xi yj )log p(yj / xi )
2
i, j
5) 联合熵定义
联合熵是联合符号集合 XY上的每个元素对 xiyj的自信息量的概率加权统计平均值。定义 为
2020/3/14
28
• 给定下列概率:p(u0)=1/2, p(v0/u0) =3/4,p(v0/u1)=1/2,求
(1)已知发出一个“0”,收到符号后得到的 信息量;
(2)已知发出的符号,收到符号后得到的信 息量;
(3)知道发出的和收到的符号能得到的信息 量;
(4)已知收到的符号,被告知发出的符号得 到的信息量。
2020/3/1讲4 ,在相对熵的概念下,就可能出现负值。 10
2.对称性 • 熵函数所有变元顺序可以任意互换,而熵函数
的值不变。即
H(x1,x2,…,xn)= H(x2,x1,…,xn) = H(xn,x1,…,x2) =…
因为熵函数只与随机变量的总体结构有关,例 如下列信源的熵都是相等的:
X P
证明: 由 I(X;Y)= H(X)一H(X/Y) 知 I(X;Y)>= 0, 所以, H(X)一 H(X/Y)>= 0 H(X)>= H(X/Y)
2020/3/14
21
2) 两个条件下的条件熵小于一个条件下的 条件熵:
H(Z/X Y)<= H(Z/Y)。
当且仅当p(z/xy)=p(z/y)时取等号。 证明:
2020/3/14
I (xi / y j ) log p(xi / y j ) 1
3) 离散信源熵(平均不确定度/平均信息量/平均 自信息量/)定义:
H (X ) p(xi )I (xi ) p(xi ) log p(xi )
i
i
4) 条件熵定义
在给定Y(即各个yj)条件下,X集合的条件 熵H(X/Y)定义为
= -∑pi㏒pi +λ[∑pi –1]
其 中 , λ 为 待 定 常 数 , 对 辅 助 函 数 F(p1,p2,…pn) 中的n 个变量pi(i=1,2,…,n)分别求偏导,并置 之为零,得n个稳定点方程
2020/3/14
-(1+ ㏒pi)+λ=0 (i=1,2,…,n) 18
• 由稳定点方程可解得 pi=2(λ-1) (i=1,2,…,n)
H(XY)max = H(X)+H(Y)。
2020/3/14
23
证明:
由 H(XY)=H(X)+H(Y/X)
H(XY)=H(Y)+H(X/Y)
有
2 H(XY)=H(X)+ H(Y) + H(Y/X)
+H(X/Y)
(i)
由 I(X;Y)=H(X)一H(X/Y)
I(Y;X)= H(Y)一 H(Y/X)
将 I(YZ;X)=I(Y;X)+I(Z;X/Y) 中的X代替Y、Y代替 Z、Z代替X得
I(XY;Z)=I(X;Z)+I(Y;Z/X) (*)
再将式(*)右边的X和Y互换得:
2020/3/14
I(XY;Z)=I(Y;Z)+I(X;Z/Y)
(* *) 7
由式(*)和( * *)得: I(X;Z)+I(Y;Z/X) =I(Y;Z)+I(X;Z/Y)
H(XY) p(xi y j ) log p(xi y j )
i, j
2020/3/14
3
回顾内容
• 什么叫互信息量?
I(xi;yj)=log
p(xi / y j p(xi )
)
• 什么叫平均互信息量?
I(X ;Y)
i, j
p(xi y j ) log
p(xi / y j ) p(xi )
H0(p1,p2,…pn)=H(1/n,1/n,…,1/n) = –∑1/n㏒1/n =㏒ n
在一般情况下,离散信源的熵函数不会 超过上式所示的最大值,即有
H(p1,p2,…pn) ≤㏒ n
2020/3/14
20
6.条件熵小于无条件熵
1) 条件熵小于信源熵:H(X/Y) <= H(X)。当且 仅当X和Y相互独立时,p(x/y)=p(x),取等 号。
2020/3/14
29
解:设U={u0,u1},V={v0,v1}, (1)先求出
p(v1/u0)=1 – p(v0/u0)=1/4 所以
• 给定离散无记忆信源输出n个不同的信息 符 号 , 离 散 信 源 的 n 个 概 率 分 量 p1, p2,…,pn , 当且仅当各个符号出现概率相 等时(即pi=l/n)熵最大。 H(X)<= H(1/n,1/n,…,1/n) = logn
2020/3/14
17
证明:
• 按条件极值的数学求解方法,做辅助函数(约束 n 条件 pi 1 ) i 1 F(p1,p2,…pn) = H(p1,p2,…,pr)+λ[∑pi–1]
所以,有 I(X;Z)=I(Y;Z)+I(X;Z/Y) -I(Y;Z/X)
综合(1)、(2)得:
I(X;Z) I(Y;Z)
证毕。
结论:数据处理过程中只会失掉一些信息,绝 不会创造出新的信息,所谓信息不增性。 ■
2020/3/14
8
2.2.5 熵函数的代数性质
1. 非负性
H(X)=H(x1,x2,…,xn)>=0 其中:等号只有在n =1时成立。
H(X)+ H(Y) >= H(XY)
2020/3/14
25
互信息量与熵之间的关系图
H(X)
H(Y)
H(X/Y) I(X;Y)
H(Y/X)
H(XY)
2020/3/14
26
从图中可得到如下关系
H(XY)= H(X)+H(Y/X)
= H(Y)+H(X/Y)
H(X) H(X/Y),H(Y) H(Y/X)
x1 1/ 3
x2 1/ 2
x3 1/ 6
Y P
y1 1/ 3
y2 1/ 6
y3
1/ 2
Z P
z1 1/
2
z2 1/3
z3 1/ 6
2020/3/14
11
证明:由
H ( X ) H (x1, x2 ,..., xn ) p(xi ) log p(xi )
Z为第二级处理器的输出消息集合
假设:在Y条件下X与Z相互独立
可得:
I (xi ; zk
/ y j ) log
p(xi / y j zk ) p(xi / y j )
log p(xi / y j )
p(xi / y j )
log1 0
即得 (1) I ( X ; Z / Y ) 0
概率分量与信源符号的对应关系是否一致,其信
Hale Waihona Puke Baidu
2020源/3/14的信息熵均相等.
12
分析
• 概率分量数都等于3,概率空间都是由 1/2,1/3,1/6这三个分量构成。由于这三个 信源的概率空间的总体结构相同,所以他 们的信息熵相等. 即 H(1/3,1/2,1/6)=H(1/3,1/6,1/2) =H(1/2,1/3,1/6) =1.4592 比特/信源符号
2020/3/14
4
2.2.4 数据处理中信息的变化
数据处理定理 : 当消息通过多级处理器时,随着处理器数
目的增多,输人消息与输出消息之间的平均 互信息量趋于变小。
X
Y 第一级处理器
输入
Z 第二级处理器
2020/3/14
图2-2-4 级联处理器
5
• 证明:
图中:X是输入消息集合
Y是第一级处理器的输出消息集合
2020/3/14
14
• 说明
(1) 当信源任意一个符号几乎必然出现时, 其它符号几乎不可能出现,这个信源是 一个确知信源.在发符号前,不存在不确 定性;在发符号后,不提供任何信息量.
(2) 当任意一个概率分量等于1时,才能使信 源信息熵等于0.
2020/3/14
15
4.香农辅助定理
• 对于任意两个n维概率矢量P=(p1,p2,…, pn)和Q=(q1,q2,…,qn),如下不等式成 立:
2020/3/14
13
3. 确定性
• 若信源X的概率空间中任意一概率分量等于1时, 其它所有概率分量均等于零,即
X P
x1 0
x2 ... xi ...xn
0
....1
...0
则信源X的信息熵一定等于0,即 H(x) = H(0,0,…,1,…,0)
= -{0log0+0log0+…+1log1+…+0log0} =0
由 I(Z;Y)=H(Z)-H(Z/Y)
所以 I(Z/Y;X)=H(Z/Y)-H(Z/YX)
又有 I(Z/Y;X) ≥0 所以 H(Z)-H(Z/XY) ≥0
H(Z/XY) <= H(Z/Y)
2020/3/14
22
3) 联合熵小于信源熵之和:
H(XY) H(X)+H(Y)。当且仅当
两个集合相互独立时取等号,此时可得 联合熵的最大值,即
回顾上一讲的主要内容
• 几个基本概念:
1) 自信息量定义: 其出现概率对数的负值。随机事件的自信息 量定义为
I (xi ) log p(xi )
2) 条件自信息量定义: 在事件yj出现的条件下,随机事件xi发生的条 件概率p(xi / yj ),则它的条件自信息量定义 为条件概率对数的负值:
将上式代入约束方程,有
∑pi =∑2 (λ-1)=n• 2(λ-1)=1 即得 2(λ-1)=1/n 解大 的 分布信得值源使,符熵即号函熵x数函i (H数i(=pH11(,,pp21,2…,,p…2,,np…)n)p取相n) 得的应条最的件大概 极值率
pi=1/n
2020/3/14
19
• 由此,求得熵函数的最大值
证明:
(1)因为 0 p(xi ) 1 ,且在熵函数中,对
数的底总是取大于1的数,则logp(xi)〈=0, -logp(xi) >=0,(i=1,2,…,n),
所以 H ( X ) p(xi ) log p(xi ) 0
i
2020/3/14
9
在熵函数中,当 n=1 时, p(x1)=1, log p(x1)=0, H(X)=H(x1)=p(x1) log p(x1)=0
• 根据加法交换律,熵函数所i 有变元顺序可以任
意互换,而熵函数的值不变。
说明
(1)熵函数的对称性表明,信源的信息熵只与 信源的概率空间的总体结构有关,而与各概率分 量和各信源符号的对应关系,乃至各信源符号本 身无关.
(2) 概率空间的总体结构(概率分量数n)相
同的信源,不论其信源符号是否相同,也不论其
I(X;Y)= H(X)- H(X/Y)
= H(Y)- H(Y/X)
= H(X)+H(Y)-H(XY)
H(XY) H(X)+H(Y)
• 如果X与Y互相独立,则I(X;Y)=0
此时:H(XY)=H(X)+H(Y)
H(X)=H(X/Y)
2020/3/14 H(Y)=H(Y/X)
27
例2-2-6
• 二进制通信系统用符号“0”和“1”,由 于存在失真,传输时会产生误码,用符 号表示下列事件:u0:发出一个“0”;u1: 发出一个“1”;v0:收到一个“0”;v1: 收到一个“1”。
2020/3/14
6
{ 而且 (2)
I(X;Y / Z) 0 I (Y; Z / X ) 0
又由 I(X;YZ)=I(X;Y)+I(X;Z/Y)
和 I(X;YZ)=I(X;ZY)=I(X;Z)+I(X;Y/Z)
得: I(X;Z)= I(X;Y)+I(X;Z/Y) - I(X;Y/Z)
综合(1)、(2)得: I(X;Z) I(X;Y)
n
n
H ( p1, p2 ,..., pn ) pi log pi pi log qi
i1
i 1
该式表明,对任意概率分布pi,它对其他概率 分布qi的自信息量-logqi取数学期望时,必不小 于 pi本身的熵。等号仅当 P=Q时成立。
2020/3/14
16
5.最大离散信源熵定理
证毕。
说明:
(i)这就是熵函数的非负性。表明,从总体平 均意义上讲,信源在发送符号以前,总是存在 一定的不确定性;在发送符号后,总可以提供 一定的信息量。
(ii)从数学角度上看,信息熵具有非负性的关 键,在于信息函数中对数的底取大于1的数。 熵的非负性并非必要条件。这种非负性对于离 散信源的信息熵是合适的,但对于连续信源来
I(Y;X) = I(X;Y)
有
2I(X;Y)= H(X)+ H(Y) - H(Y/X)
- H(X/Y)
(ii)
2020/3/14
24
由(i)和(ii)知: 2 H(XY)+ 2I(X;Y)=2H(X)+ 2H(Y) 所以
I(X;Y) =H(X)+ H(Y) - H(XY) 又 I(X;Y) >=0 所以
i, j
在给定X(即各个xi)条件下,Y集合的条件 熵H(Y/X)定义为
H(Y/X)
2020/3/14
p(xi yj )log p(yj / xi )
2
i, j
5) 联合熵定义
联合熵是联合符号集合 XY上的每个元素对 xiyj的自信息量的概率加权统计平均值。定义 为
2020/3/14
28
• 给定下列概率:p(u0)=1/2, p(v0/u0) =3/4,p(v0/u1)=1/2,求
(1)已知发出一个“0”,收到符号后得到的 信息量;
(2)已知发出的符号,收到符号后得到的信 息量;
(3)知道发出的和收到的符号能得到的信息 量;
(4)已知收到的符号,被告知发出的符号得 到的信息量。
2020/3/1讲4 ,在相对熵的概念下,就可能出现负值。 10
2.对称性 • 熵函数所有变元顺序可以任意互换,而熵函数
的值不变。即
H(x1,x2,…,xn)= H(x2,x1,…,xn) = H(xn,x1,…,x2) =…
因为熵函数只与随机变量的总体结构有关,例 如下列信源的熵都是相等的:
X P
证明: 由 I(X;Y)= H(X)一H(X/Y) 知 I(X;Y)>= 0, 所以, H(X)一 H(X/Y)>= 0 H(X)>= H(X/Y)
2020/3/14
21
2) 两个条件下的条件熵小于一个条件下的 条件熵:
H(Z/X Y)<= H(Z/Y)。
当且仅当p(z/xy)=p(z/y)时取等号。 证明:
2020/3/14
I (xi / y j ) log p(xi / y j ) 1
3) 离散信源熵(平均不确定度/平均信息量/平均 自信息量/)定义:
H (X ) p(xi )I (xi ) p(xi ) log p(xi )
i
i
4) 条件熵定义
在给定Y(即各个yj)条件下,X集合的条件 熵H(X/Y)定义为
= -∑pi㏒pi +λ[∑pi –1]
其 中 , λ 为 待 定 常 数 , 对 辅 助 函 数 F(p1,p2,…pn) 中的n 个变量pi(i=1,2,…,n)分别求偏导,并置 之为零,得n个稳定点方程
2020/3/14
-(1+ ㏒pi)+λ=0 (i=1,2,…,n) 18
• 由稳定点方程可解得 pi=2(λ-1) (i=1,2,…,n)
H(XY)max = H(X)+H(Y)。
2020/3/14
23
证明:
由 H(XY)=H(X)+H(Y/X)
H(XY)=H(Y)+H(X/Y)
有
2 H(XY)=H(X)+ H(Y) + H(Y/X)
+H(X/Y)
(i)
由 I(X;Y)=H(X)一H(X/Y)
I(Y;X)= H(Y)一 H(Y/X)
将 I(YZ;X)=I(Y;X)+I(Z;X/Y) 中的X代替Y、Y代替 Z、Z代替X得
I(XY;Z)=I(X;Z)+I(Y;Z/X) (*)
再将式(*)右边的X和Y互换得:
2020/3/14
I(XY;Z)=I(Y;Z)+I(X;Z/Y)
(* *) 7
由式(*)和( * *)得: I(X;Z)+I(Y;Z/X) =I(Y;Z)+I(X;Z/Y)
H(XY) p(xi y j ) log p(xi y j )
i, j
2020/3/14
3
回顾内容
• 什么叫互信息量?
I(xi;yj)=log
p(xi / y j p(xi )
)
• 什么叫平均互信息量?
I(X ;Y)
i, j
p(xi y j ) log
p(xi / y j ) p(xi )
H0(p1,p2,…pn)=H(1/n,1/n,…,1/n) = –∑1/n㏒1/n =㏒ n
在一般情况下,离散信源的熵函数不会 超过上式所示的最大值,即有
H(p1,p2,…pn) ≤㏒ n
2020/3/14
20
6.条件熵小于无条件熵
1) 条件熵小于信源熵:H(X/Y) <= H(X)。当且 仅当X和Y相互独立时,p(x/y)=p(x),取等 号。
2020/3/14
29
解:设U={u0,u1},V={v0,v1}, (1)先求出
p(v1/u0)=1 – p(v0/u0)=1/4 所以
• 给定离散无记忆信源输出n个不同的信息 符 号 , 离 散 信 源 的 n 个 概 率 分 量 p1, p2,…,pn , 当且仅当各个符号出现概率相 等时(即pi=l/n)熵最大。 H(X)<= H(1/n,1/n,…,1/n) = logn
2020/3/14
17
证明:
• 按条件极值的数学求解方法,做辅助函数(约束 n 条件 pi 1 ) i 1 F(p1,p2,…pn) = H(p1,p2,…,pr)+λ[∑pi–1]
所以,有 I(X;Z)=I(Y;Z)+I(X;Z/Y) -I(Y;Z/X)
综合(1)、(2)得:
I(X;Z) I(Y;Z)
证毕。
结论:数据处理过程中只会失掉一些信息,绝 不会创造出新的信息,所谓信息不增性。 ■
2020/3/14
8
2.2.5 熵函数的代数性质
1. 非负性
H(X)=H(x1,x2,…,xn)>=0 其中:等号只有在n =1时成立。
H(X)+ H(Y) >= H(XY)
2020/3/14
25
互信息量与熵之间的关系图
H(X)
H(Y)
H(X/Y) I(X;Y)
H(Y/X)
H(XY)
2020/3/14
26
从图中可得到如下关系
H(XY)= H(X)+H(Y/X)
= H(Y)+H(X/Y)
H(X) H(X/Y),H(Y) H(Y/X)
x1 1/ 3
x2 1/ 2
x3 1/ 6
Y P
y1 1/ 3
y2 1/ 6
y3
1/ 2
Z P
z1 1/
2
z2 1/3
z3 1/ 6
2020/3/14
11
证明:由
H ( X ) H (x1, x2 ,..., xn ) p(xi ) log p(xi )
Z为第二级处理器的输出消息集合
假设:在Y条件下X与Z相互独立
可得:
I (xi ; zk
/ y j ) log
p(xi / y j zk ) p(xi / y j )
log p(xi / y j )
p(xi / y j )
log1 0
即得 (1) I ( X ; Z / Y ) 0
概率分量与信源符号的对应关系是否一致,其信
Hale Waihona Puke Baidu
2020源/3/14的信息熵均相等.
12
分析
• 概率分量数都等于3,概率空间都是由 1/2,1/3,1/6这三个分量构成。由于这三个 信源的概率空间的总体结构相同,所以他 们的信息熵相等. 即 H(1/3,1/2,1/6)=H(1/3,1/6,1/2) =H(1/2,1/3,1/6) =1.4592 比特/信源符号
2020/3/14
4
2.2.4 数据处理中信息的变化
数据处理定理 : 当消息通过多级处理器时,随着处理器数
目的增多,输人消息与输出消息之间的平均 互信息量趋于变小。
X
Y 第一级处理器
输入
Z 第二级处理器
2020/3/14
图2-2-4 级联处理器
5
• 证明:
图中:X是输入消息集合
Y是第一级处理器的输出消息集合
2020/3/14
14
• 说明
(1) 当信源任意一个符号几乎必然出现时, 其它符号几乎不可能出现,这个信源是 一个确知信源.在发符号前,不存在不确 定性;在发符号后,不提供任何信息量.
(2) 当任意一个概率分量等于1时,才能使信 源信息熵等于0.
2020/3/14
15
4.香农辅助定理
• 对于任意两个n维概率矢量P=(p1,p2,…, pn)和Q=(q1,q2,…,qn),如下不等式成 立:
2020/3/14
13
3. 确定性
• 若信源X的概率空间中任意一概率分量等于1时, 其它所有概率分量均等于零,即
X P
x1 0
x2 ... xi ...xn
0
....1
...0
则信源X的信息熵一定等于0,即 H(x) = H(0,0,…,1,…,0)
= -{0log0+0log0+…+1log1+…+0log0} =0
由 I(Z;Y)=H(Z)-H(Z/Y)
所以 I(Z/Y;X)=H(Z/Y)-H(Z/YX)
又有 I(Z/Y;X) ≥0 所以 H(Z)-H(Z/XY) ≥0
H(Z/XY) <= H(Z/Y)
2020/3/14
22
3) 联合熵小于信源熵之和:
H(XY) H(X)+H(Y)。当且仅当
两个集合相互独立时取等号,此时可得 联合熵的最大值,即
回顾上一讲的主要内容
• 几个基本概念:
1) 自信息量定义: 其出现概率对数的负值。随机事件的自信息 量定义为
I (xi ) log p(xi )
2) 条件自信息量定义: 在事件yj出现的条件下,随机事件xi发生的条 件概率p(xi / yj ),则它的条件自信息量定义 为条件概率对数的负值:
将上式代入约束方程,有
∑pi =∑2 (λ-1)=n• 2(λ-1)=1 即得 2(λ-1)=1/n 解大 的 分布信得值源使,符熵即号函熵x数函i (H数i(=pH11(,,pp21,2…,,p…2,,np…)n)p取相n) 得的应条最的件大概 极值率
pi=1/n
2020/3/14
19
• 由此,求得熵函数的最大值
证明:
(1)因为 0 p(xi ) 1 ,且在熵函数中,对
数的底总是取大于1的数,则logp(xi)〈=0, -logp(xi) >=0,(i=1,2,…,n),
所以 H ( X ) p(xi ) log p(xi ) 0
i
2020/3/14
9
在熵函数中,当 n=1 时, p(x1)=1, log p(x1)=0, H(X)=H(x1)=p(x1) log p(x1)=0
• 根据加法交换律,熵函数所i 有变元顺序可以任
意互换,而熵函数的值不变。
说明
(1)熵函数的对称性表明,信源的信息熵只与 信源的概率空间的总体结构有关,而与各概率分 量和各信源符号的对应关系,乃至各信源符号本 身无关.
(2) 概率空间的总体结构(概率分量数n)相
同的信源,不论其信源符号是否相同,也不论其
I(X;Y)= H(X)- H(X/Y)
= H(Y)- H(Y/X)
= H(X)+H(Y)-H(XY)
H(XY) H(X)+H(Y)
• 如果X与Y互相独立,则I(X;Y)=0
此时:H(XY)=H(X)+H(Y)
H(X)=H(X/Y)
2020/3/14 H(Y)=H(Y/X)
27
例2-2-6
• 二进制通信系统用符号“0”和“1”,由 于存在失真,传输时会产生误码,用符 号表示下列事件:u0:发出一个“0”;u1: 发出一个“1”;v0:收到一个“0”;v1: 收到一个“1”。
2020/3/14
6
{ 而且 (2)
I(X;Y / Z) 0 I (Y; Z / X ) 0
又由 I(X;YZ)=I(X;Y)+I(X;Z/Y)
和 I(X;YZ)=I(X;ZY)=I(X;Z)+I(X;Y/Z)
得: I(X;Z)= I(X;Y)+I(X;Z/Y) - I(X;Y/Z)
综合(1)、(2)得: I(X;Z) I(X;Y)
n
n
H ( p1, p2 ,..., pn ) pi log pi pi log qi
i1
i 1
该式表明,对任意概率分布pi,它对其他概率 分布qi的自信息量-logqi取数学期望时,必不小 于 pi本身的熵。等号仅当 P=Q时成立。
2020/3/14
16
5.最大离散信源熵定理
证毕。
说明:
(i)这就是熵函数的非负性。表明,从总体平 均意义上讲,信源在发送符号以前,总是存在 一定的不确定性;在发送符号后,总可以提供 一定的信息量。
(ii)从数学角度上看,信息熵具有非负性的关 键,在于信息函数中对数的底取大于1的数。 熵的非负性并非必要条件。这种非负性对于离 散信源的信息熵是合适的,但对于连续信源来
I(Y;X) = I(X;Y)
有
2I(X;Y)= H(X)+ H(Y) - H(Y/X)
- H(X/Y)
(ii)
2020/3/14
24
由(i)和(ii)知: 2 H(XY)+ 2I(X;Y)=2H(X)+ 2H(Y) 所以
I(X;Y) =H(X)+ H(Y) - H(XY) 又 I(X;Y) >=0 所以