第3讲——条件熵、联合熵及熵的性质
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
H (Y | X ) p( xi , y j ) log p( y j | xi )
ij
1 3 1 1 1 1 1 1 log log log log 0.88bit 2 4 6 4 6 2 6 2
例题
• 联合熵H(XY)
H(XY)=H(X)+H(Y|X)=1.8bit/符号 • 信源输出熵H(Y) 由
定理:1. H(X/Y) ≤H(X) (条件熵不大于无条件熵) 2. H(XY) ≤H(X)+H(Y) 证明: H ( X / Y ) p( xi y j ) log2 p( xi / y j )
i j
p ( y j ) p ( xi / y j ) log2 p ( xi / y j ) j i p ( y j ) p ( xi / y j ) log2 p ( xi ) j i p ( y j ) p ( xi / y j ) log2 p ( xi ) i j p ( xi ) log2 p ( xi )
H ( X ) log 2 2 1bit – 即用 1比特就可表示该事件。 • 如果以两个符号出现(L=2的序列)为一事件,则随机序 列X∈(00,01,10,11),信源的序列熵
H (X 2 ) log 2 4 2bit – 即用2比特才能表示该事件。 • 信源的符号熵
1 H 2 (X) H (X 2 ) 1bit 2
概率矢量
非负性
非负性 H(X)≥0 由于0≤pk≤1, 所以logpk≤0,-logpk≥0, 则总有H(X)≥0。
对称性
对称性
H ( p1 , p2 ,...pK ) H ( pK , p1 , p2 ,...pK 1 )
根据加法交换律可以证明,当变量交换顺序 时熵函数的值不变, 即信源的熵只与概率空间 的总体结构有关,而与各概率分量对应的状 态顺序无关。
H (X L ) LH ( X )
平均符号熵
1 H L (X) H (X L ) H ( X ) L
?
离散无记忆信源的序列熵
H ( X l ) p( xi ) log p( xil )
i
H ( X1 ) p( xi ) log p( xi1 ) p( xi ) log p( xi1 )
j
证明: H ( XY ) p( xi y j ) log 2 p( xi y j )
p ( xi y j ) log 2 [ p ( xi ) p ( y j / xi )]
i j i j i j
p ( xi ) p ( y j / xi ) log 2 p ( xi ) p ( xi y j ) log 2 p ( y j / xi p ( xi ) log 2 p ( xi ) p ( y j / xi ) H (Y / X ) i j H ( X ) H (Y / X ) 利用 : p ( xi y j ) p ( xi ) p ( y j / xi )
H(XY) ≤H(X)+H(Y)
H (U1U 2 U N ) H (U n )
n 1 N
2.1.5 离散序列信源的熵
离散无记忆信源
设信源输出的随机序列为 X =(X1X2…Xl…XL)
序列中的变量Xl∈{x1,x2,… xn}
p(xi ) p( xi1 , xi2 ,, xiL ) p( xi1 ) p( xi2 | xi1 ) p( xi3 | xi1 xi2 ) p( xiL | xi1 xi2 xiL1 )
i
H (X ) 其中, p ( y j ) p ( xi / y j ) p ( xi y j ) p ( xi )
j j
基本定理推广
H(X/Y) ≤H(X)
H (U n U n1U n2 U ns H (U n U n1 U nm )
1 s m n N
2.1.4 熵的基本性质
熵的基本性质
X x1 P p 1 x2 p2
pk 0
xK pK
p
k 1
K
k
1,
(k 1,2,...,K )
K
H ( X ) H ( p1 , p2 pK ) pk log pk
k 1
例题
• 条件熵H(X|Y)
由 p( xi | y j ) n p( xi y j ) p( xi y j )
p( xi y j )
i 1
p( y j )
p( x1 y0 ) p( x0 y0 ) 1 / 2 0 1 p ( x1 | y0 ) 得 p( x0 | y0 ) p ( y0 ) 1/ 2 p ( y0 )
i
L
L
L
ห้องสมุดไป่ตู้
L
p( xi1 ) p( xi2 ) p( xi3 ) p( xiL ) log p( xi1 )
i1 1 i2 1 i3 1 L iL 1
L
L
L
L
i1 1 i2 1 i3 1
iL 1
p( xi1 ) log p( xil ) p( xi2 ) p( xi3 ) p( xiL )
1/2
2 1 2 2 1 1 H ( X ) H ( , ) log log 0.92bit 3 3 3 3 3 3
例题
• 条件熵H(Y|X) 由 p( xi y j ) p( xi ) p( y j / xi ) p( y j ) p( xi / y j ) 得联合概率: p(x0y0) = p(x0) p(y0 |x0) = 2/3×3/4 = 1/2 p(x0y1) = p(x0) p(y1 |x0) = 0 p(x0y2) = p(x0) p(y2 |x0) = 2/3×1/4 = 1/6 p(x1y0) = p(x1) p(y0 |x1) = 0 p(x1y1) = p(x1) p(y1 |x1) = 1/3×1/2=1/6 p(x1y2) = p(x1) p(y2 |x1) = 1/3×1/2=1/6
p( xi ) log p( xil ) p( xi ) log p( xil ) H ( X l )
i l 1 l 1 i l 1
L
L
L
进一步化简
H (X L ) LH ( X )
平均符号熵
1 H L (X) H (X L ) H ( X ) L
?
离散无记忆:
p(xi ) p( xi1 , xi2 , , xiL ) p( xi1 ) p( xi2 ) p( xi3 ) p( xiL ) p( xil )
l 1 L
离散无记忆信源的序列熵
信源的序列熵
H (X L ) p( xi ) log p( xi )
i 1 nL
要用联合 概率加权
p( xi y j ) log p ( xi / y j )
j 1 i 1
m
H (Y / X ) E[ I ( y j / xi )] p( xi y j ) log2 p( y j / xi )
i 1 j 1
n
条件熵是一个确定值,表示信宿在收到Y后,信源X仍然存 在的不确定度。这是传输失真所造成的。有时称H(X/Y)为 信道疑义度,也称损失熵。称条件熵H(Y/X)为噪声熵。
p( y
j
j
/ xi ) 1
极值性
极值性——最大离散熵定理
H ( X ) log2 K
信源X中包含K个不同离散消息时,信源 熵 H ( X ) log2 K,当且仅当X中各个消息 出现的概率全相等时,上式取等号。 表明等概信源的不确定性最大,具有最 大熵,为 log2 K
基本定理
H ( XY ) H ( X ) H (Y X ) H (Y ) H ( X Y )
例题
• 一个二进信源X发出符号集{0,1},经过离散无记忆信道传 输,信道输出用Y表示.由于信道中存在噪声,接收端除收 到0和1的符号外,还有不确定符号“2” X Y 3/4 • 已知X的先验概率: 0 0 p(x0)=2/3, p(x1)= 1/3, 1/4 2 • 符号转移概率: 1/2 p(y0|x0)=3/4, p(y2|x0)=1/4 1 1 p(y1|x1)=1/2, p(y2|x1)=1/2, • 信源熵H(X)
确定性
确定性
H (1,0) H (0,1) H (1,0,0,...0) 0
当信源 X的信源空间 [X,P]中,任一概率 分量等于 1 ,根据完备空间特性,其它概 率分量必为 0 ,这时信源为一个确知信源, 其熵为0。
扩展性
扩展性
lim H K ( p1 , p2 , , pK , ) H K ( p1 , p2 ,, pK )
离散无记忆信源的序列熵
信源的序列熵
H (X L ) p( xi ) log p( xi )
i 1 nL
p( xi ) log p( xil ) p( xi ) log p( xil ) H ( X l )
i l 1 l 1 i l 1
L
L
L
进一步化简
联合熵
• 联合离散符号集合XY上的每个元素对 自信息量的数学期望。
n m n m
( xi y j )
的联合
H ( XY ) p( xi y j )I ( xi y j ) p( xi y j ) log2 p( xi y j )
i 1 j 1 i 1 j 1
熵、条件熵、联合熵关系
第二章
信源及其信息熵
2.1.3 条件熵及联合熵
条件熵
条件熵是在联合符号集合XY上的条件自信息量的数学期望。 在已知随机变量Y的条件下,随机变量X的条件熵定义为:
H ( X / Y ) E[ I ( xi / y j )] p ( xi y j )I ( xi / y j )
j 1 i 1 m n m n
同理 p(x0 |y1)=0 ; p(x1 |y1)=1 p(x0 |y2)=1/2; p(x1 |y2)=1/2
ij
H ( X | Y ) p( xi , y j ) log p( xi | y j ) 0.33bit
或 H(X|Y)= H(XY)-H(Y)=1.8-1047=0.33bit/符号
i1 1 L i2 1 i3 1 iL 1
L
L
L
p( xi1 ) log p( xi1 ) H ( X )
i1 1
H (X L ) H ( X l ) LH ( X )
l 1
L
离散无记忆信源实例
例:有一个无记忆信源随机变量X∈(0,1),等概率分布,若以 单个符号出现为一事件,则此时的信源熵:
p( x y
i 1 i
n
j
) p( y j ), p( xi y j ) p( xi )
j 1
m
得 p(y0) =∑ p(xiy0) = p(x0y0) +p(x1y0) =1/2+0 = 1/2 p(y1) =∑ p(xiy1) = p(x0y1) +p(x1y1) = 0+1/6 =1/6 p(y2) =∑ p(xiy2) = p(x0y2) +p(x1y2) = 1/6+1/6=1/3 1 1 1 H (Y ) H ( , , ) 2 3 6 1 1 1 1 1 1 log log log 1.47bit 2 2 3 3 6 6
0
这说明信源空间中增加某些概率很小的 符号,虽然当发出这些符号时,提供很大的 信息量,但由于其概率接近于0,在信源熵中 lim log 2 0 ,使信源熵保 占极小的比重, 0 持不变。
可加性
可加性
i
H ( XY ) H ( X ) H (Y / X ) H ( XY ) H (Y ) H ( X / Y )
ij
1 3 1 1 1 1 1 1 log log log log 0.88bit 2 4 6 4 6 2 6 2
例题
• 联合熵H(XY)
H(XY)=H(X)+H(Y|X)=1.8bit/符号 • 信源输出熵H(Y) 由
定理:1. H(X/Y) ≤H(X) (条件熵不大于无条件熵) 2. H(XY) ≤H(X)+H(Y) 证明: H ( X / Y ) p( xi y j ) log2 p( xi / y j )
i j
p ( y j ) p ( xi / y j ) log2 p ( xi / y j ) j i p ( y j ) p ( xi / y j ) log2 p ( xi ) j i p ( y j ) p ( xi / y j ) log2 p ( xi ) i j p ( xi ) log2 p ( xi )
H ( X ) log 2 2 1bit – 即用 1比特就可表示该事件。 • 如果以两个符号出现(L=2的序列)为一事件,则随机序 列X∈(00,01,10,11),信源的序列熵
H (X 2 ) log 2 4 2bit – 即用2比特才能表示该事件。 • 信源的符号熵
1 H 2 (X) H (X 2 ) 1bit 2
概率矢量
非负性
非负性 H(X)≥0 由于0≤pk≤1, 所以logpk≤0,-logpk≥0, 则总有H(X)≥0。
对称性
对称性
H ( p1 , p2 ,...pK ) H ( pK , p1 , p2 ,...pK 1 )
根据加法交换律可以证明,当变量交换顺序 时熵函数的值不变, 即信源的熵只与概率空间 的总体结构有关,而与各概率分量对应的状 态顺序无关。
H (X L ) LH ( X )
平均符号熵
1 H L (X) H (X L ) H ( X ) L
?
离散无记忆信源的序列熵
H ( X l ) p( xi ) log p( xil )
i
H ( X1 ) p( xi ) log p( xi1 ) p( xi ) log p( xi1 )
j
证明: H ( XY ) p( xi y j ) log 2 p( xi y j )
p ( xi y j ) log 2 [ p ( xi ) p ( y j / xi )]
i j i j i j
p ( xi ) p ( y j / xi ) log 2 p ( xi ) p ( xi y j ) log 2 p ( y j / xi p ( xi ) log 2 p ( xi ) p ( y j / xi ) H (Y / X ) i j H ( X ) H (Y / X ) 利用 : p ( xi y j ) p ( xi ) p ( y j / xi )
H(XY) ≤H(X)+H(Y)
H (U1U 2 U N ) H (U n )
n 1 N
2.1.5 离散序列信源的熵
离散无记忆信源
设信源输出的随机序列为 X =(X1X2…Xl…XL)
序列中的变量Xl∈{x1,x2,… xn}
p(xi ) p( xi1 , xi2 ,, xiL ) p( xi1 ) p( xi2 | xi1 ) p( xi3 | xi1 xi2 ) p( xiL | xi1 xi2 xiL1 )
i
H (X ) 其中, p ( y j ) p ( xi / y j ) p ( xi y j ) p ( xi )
j j
基本定理推广
H(X/Y) ≤H(X)
H (U n U n1U n2 U ns H (U n U n1 U nm )
1 s m n N
2.1.4 熵的基本性质
熵的基本性质
X x1 P p 1 x2 p2
pk 0
xK pK
p
k 1
K
k
1,
(k 1,2,...,K )
K
H ( X ) H ( p1 , p2 pK ) pk log pk
k 1
例题
• 条件熵H(X|Y)
由 p( xi | y j ) n p( xi y j ) p( xi y j )
p( xi y j )
i 1
p( y j )
p( x1 y0 ) p( x0 y0 ) 1 / 2 0 1 p ( x1 | y0 ) 得 p( x0 | y0 ) p ( y0 ) 1/ 2 p ( y0 )
i
L
L
L
ห้องสมุดไป่ตู้
L
p( xi1 ) p( xi2 ) p( xi3 ) p( xiL ) log p( xi1 )
i1 1 i2 1 i3 1 L iL 1
L
L
L
L
i1 1 i2 1 i3 1
iL 1
p( xi1 ) log p( xil ) p( xi2 ) p( xi3 ) p( xiL )
1/2
2 1 2 2 1 1 H ( X ) H ( , ) log log 0.92bit 3 3 3 3 3 3
例题
• 条件熵H(Y|X) 由 p( xi y j ) p( xi ) p( y j / xi ) p( y j ) p( xi / y j ) 得联合概率: p(x0y0) = p(x0) p(y0 |x0) = 2/3×3/4 = 1/2 p(x0y1) = p(x0) p(y1 |x0) = 0 p(x0y2) = p(x0) p(y2 |x0) = 2/3×1/4 = 1/6 p(x1y0) = p(x1) p(y0 |x1) = 0 p(x1y1) = p(x1) p(y1 |x1) = 1/3×1/2=1/6 p(x1y2) = p(x1) p(y2 |x1) = 1/3×1/2=1/6
p( xi ) log p( xil ) p( xi ) log p( xil ) H ( X l )
i l 1 l 1 i l 1
L
L
L
进一步化简
H (X L ) LH ( X )
平均符号熵
1 H L (X) H (X L ) H ( X ) L
?
离散无记忆:
p(xi ) p( xi1 , xi2 , , xiL ) p( xi1 ) p( xi2 ) p( xi3 ) p( xiL ) p( xil )
l 1 L
离散无记忆信源的序列熵
信源的序列熵
H (X L ) p( xi ) log p( xi )
i 1 nL
要用联合 概率加权
p( xi y j ) log p ( xi / y j )
j 1 i 1
m
H (Y / X ) E[ I ( y j / xi )] p( xi y j ) log2 p( y j / xi )
i 1 j 1
n
条件熵是一个确定值,表示信宿在收到Y后,信源X仍然存 在的不确定度。这是传输失真所造成的。有时称H(X/Y)为 信道疑义度,也称损失熵。称条件熵H(Y/X)为噪声熵。
p( y
j
j
/ xi ) 1
极值性
极值性——最大离散熵定理
H ( X ) log2 K
信源X中包含K个不同离散消息时,信源 熵 H ( X ) log2 K,当且仅当X中各个消息 出现的概率全相等时,上式取等号。 表明等概信源的不确定性最大,具有最 大熵,为 log2 K
基本定理
H ( XY ) H ( X ) H (Y X ) H (Y ) H ( X Y )
例题
• 一个二进信源X发出符号集{0,1},经过离散无记忆信道传 输,信道输出用Y表示.由于信道中存在噪声,接收端除收 到0和1的符号外,还有不确定符号“2” X Y 3/4 • 已知X的先验概率: 0 0 p(x0)=2/3, p(x1)= 1/3, 1/4 2 • 符号转移概率: 1/2 p(y0|x0)=3/4, p(y2|x0)=1/4 1 1 p(y1|x1)=1/2, p(y2|x1)=1/2, • 信源熵H(X)
确定性
确定性
H (1,0) H (0,1) H (1,0,0,...0) 0
当信源 X的信源空间 [X,P]中,任一概率 分量等于 1 ,根据完备空间特性,其它概 率分量必为 0 ,这时信源为一个确知信源, 其熵为0。
扩展性
扩展性
lim H K ( p1 , p2 , , pK , ) H K ( p1 , p2 ,, pK )
离散无记忆信源的序列熵
信源的序列熵
H (X L ) p( xi ) log p( xi )
i 1 nL
p( xi ) log p( xil ) p( xi ) log p( xil ) H ( X l )
i l 1 l 1 i l 1
L
L
L
进一步化简
联合熵
• 联合离散符号集合XY上的每个元素对 自信息量的数学期望。
n m n m
( xi y j )
的联合
H ( XY ) p( xi y j )I ( xi y j ) p( xi y j ) log2 p( xi y j )
i 1 j 1 i 1 j 1
熵、条件熵、联合熵关系
第二章
信源及其信息熵
2.1.3 条件熵及联合熵
条件熵
条件熵是在联合符号集合XY上的条件自信息量的数学期望。 在已知随机变量Y的条件下,随机变量X的条件熵定义为:
H ( X / Y ) E[ I ( xi / y j )] p ( xi y j )I ( xi / y j )
j 1 i 1 m n m n
同理 p(x0 |y1)=0 ; p(x1 |y1)=1 p(x0 |y2)=1/2; p(x1 |y2)=1/2
ij
H ( X | Y ) p( xi , y j ) log p( xi | y j ) 0.33bit
或 H(X|Y)= H(XY)-H(Y)=1.8-1047=0.33bit/符号
i1 1 L i2 1 i3 1 iL 1
L
L
L
p( xi1 ) log p( xi1 ) H ( X )
i1 1
H (X L ) H ( X l ) LH ( X )
l 1
L
离散无记忆信源实例
例:有一个无记忆信源随机变量X∈(0,1),等概率分布,若以 单个符号出现为一事件,则此时的信源熵:
p( x y
i 1 i
n
j
) p( y j ), p( xi y j ) p( xi )
j 1
m
得 p(y0) =∑ p(xiy0) = p(x0y0) +p(x1y0) =1/2+0 = 1/2 p(y1) =∑ p(xiy1) = p(x0y1) +p(x1y1) = 0+1/6 =1/6 p(y2) =∑ p(xiy2) = p(x0y2) +p(x1y2) = 1/6+1/6=1/3 1 1 1 H (Y ) H ( , , ) 2 3 6 1 1 1 1 1 1 log log log 1.47bit 2 2 3 3 6 6
0
这说明信源空间中增加某些概率很小的 符号,虽然当发出这些符号时,提供很大的 信息量,但由于其概率接近于0,在信源熵中 lim log 2 0 ,使信源熵保 占极小的比重, 0 持不变。
可加性
可加性
i
H ( XY ) H ( X ) H (Y / X ) H ( XY ) H (Y ) H ( X / Y )