2.2 熵函数的性质、随机变量序列的熵率

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

引理1:一个常用不等式: 1 − 一个常用不等式: 一个常用不等式
1 ≤ ln x ≤ x − 1 x
引理2:香农辅助定理
H K ( p1 , p2 , L, pK ) ≤ −∑ pk log qk , ∑ pk = 1 , ∑ qk = 1
K
K
K
Leabharlann Baidu
k =1
k =1
k =1
证明: :
H K ( p1 , p2 , L, p K ) + ∑ pk log qk = −∑ pk log pk + ∑ pk log qk
统计独立信源 和 的联合信源的熵等于信源 统计独立信源X和Y的联合信源的熵等于信源 信源 X和Y各自的熵之和。 各自的熵之和。 和 各自的熵之和 H(XY) = H(X)+ H(Y)
可加性是熵函数的一个重要特性, 可加性是熵函数的一个重要特性,正因具 有可加性,才使熵函数的形式是唯一的。 有可加性,才使熵函数的形式是唯一的。
i =1
复习
熵函数的性质H(p1,p2,…, pn) 对称性 非负性 极值性 连续性 扩展性 可加性
H q1 p11 , q1 p12 ,..., q1 p1m1 , q2 p21 , q2 p22 ,..., q2 p2 m2 , ..., qn qn1 , qn pn 2 ,..., qn pnmn = H ( q1 , q2 ,..., qn ) + ∑ qi H pi1 , pi 2 ,..., pimn
H ( X / y j ) 与H ( X ) 大小比较?
H ( X / y j ) 与H ( X ) 大小比较?
x\ y 1 2 1 2 1/ 8 1/ 8 5 / 8 1/ 8
离散无记忆信源
设信源输出的随机序列为 X =(X1X2…Xl…XL) 序列中的变量Xl∈{x1,x2,… xn} 序列中的变量
m
n
j
)I ( x i / y j )
半条件熵
m
= − ∑ ∑ p ( x i y j ) log p ( x i / y j )
m
H ( X / y j ) = ∑ p ( xi / y j ) I ( xi / y j ) = −∑ p ( xi / y j ) log p ( xi / y j )
i =1 i =1
联合熵
H ( XY ) = ∑∑ p( xi y j )I ( xi y j ) = −∑∑ p( xi y j )log2 p( xi y j )
i =1 j =1 i =1 j =1 n m n m
复习
链式法则
H (XY ) = H
n
(X )+
H
(Y
| X
)
H ( X 1 X 2 ... X n ) = H ( X 1 ) + H ( X 2 / X1 ) + H ( X 3 / X 1 X 2 ) + ... + H ( X n / X 1 X 2 ... X n−1 ) = ∑ H ( X i / X 1 X 2 ... X i −1 )
复习
信源熵(信息熵) 信源熵(信息熵)
– 定义:自信息的数学期望 定义:
– 与联合熵、条件熵之间的关系 与联合熵、条件熵之间的关系l
{
H ( X ) = E [ I ( xi )]
H ( X Y ) = E I ( xi / y j ) H ( XY ) = E I ( xi y j )
i =1
ε →0 q
所以, 所以,上式成立
• 性质说明:信源的取值数增多时,若这些取值对应的概率 性质说明:信源的取值数增多时, 很小(接近于零 则信源的熵不变。 接近于零), 很小 接近于零 ,则信源的熵不变。
5、 可加性 、
H ( X Y ) = H ( X ) + H (Y / X ) H ( X Y ) = H (Y ) + H ( X / Y ) H ( X Y | Z ) = H ( X | Z ) + H (Y / X Z )
ε →0
因为
ε →0
lim H q +1 ( p1, p2 ,⋅ ⋅ ⋅, pq − ε , ε )
= lim{−∑ pi log pi − ( pq − ε ) log( pq − ε ) − ε log ε }
q −1 i =1
= −∑ pi log pi =H q ( p1 , p2 ,⋅ ⋅ ⋅, pq )
H (U1U 2U 3 ) = H (U1 ) + H (U 2U 3 U1 ) = H (U1 ) + H (U 2 U1 ) + H (U 3 U1U 2 )
H (U1U 2 LU N ) = H (U1 ) + H (U 2 U1 ) + H (U 3 U1U 2 ) + L + H (U N U1U 2 LU N −1 ) = ∑ H (U n U1U 2 LU n −1 )
k =1 K
K
K
k =1
k =1
K qk q = ∑ pk log = log e∑ pk ln k pk pk k =1 k =1
K qk K ≤ log e∑ pk − 1 = log e ∑ qk − ∑ pk = 0 k =1 k =1 k =1 pk K
K
令 qk = 1 K ,即可得到最大熵为 log 2 K。
定理:1. H(X/Y) ≤H(X) 2. H(XY) ≤H(X)+H(Y)
证明:
H ( X / Y ) = −∑
i

j
p ( x i y j ) log 2 p ( x i / y j )
= − ∑ p ( y j ) ∑ p ( x i / y j ) log 2 p ( x i / y j ) j i ≤ − ∑ p ( y j ) ∑ p ( x i / y j ) log 2 p ( x i ) j i = H (X )
可加性证明
H ( XY ) = −∑∑ p ( xi y j ) log 2 p ( xi y j )
i j
= − ∑∑ p ( xi y j ) log 2 [q ( xi ) p ( y j / xi )]
i j
= − ∑∑ p( xi y j )log2q( xi ) − ∑∑ p( xi y j )log2 p( y j / xi )
1、对称性: 、对称性: H(P) 的取值与分量 p1, p2 , ··· , pq的顺序无关。 的顺序无关。 • 一个例子: 一个例子:
x a1 a2 a3 P( x) = 1/ 3 1/ 6 1/ 2, y a1 a2 a3 z a1 a2 a3 P( y) = 1/ 6 1/ 2 1/ 3, P( z) = 1/ 3 1/ 2 1/ 6
熵函数
X x1 P = p 1 x2 L xK p2 L pK
pk ≥ 0 (k = 1,2,..., K )
K
∑p
k =1
K
k
= 1,
H ( X ) = H ( p1, p2 L pK ) = −∑ pk log pk
k =1
熵函数
概率矢量
性质: 性质:
p(Xi ) = p(xi1 , xi2 ,L, xiL ) = p(xi1 ) p(xi2 | xi1 ) p(xi3 | xi1 xi2 )Lp(xiL | xi1 xi2 LxiL−1 )
离散无记忆: 离散无记忆:
p(Xi ) = p(xi1 , xi2 ,L, xiL ) = p(xi1 ) p(xi2 ) p(xi3 )Lp(xiL ) = ∏ p(xil )
– 这种非负性合适于离散信源的熵,对连续信源 这种非负性合适于离散信源的熵, 来说这一性质并不存在。 来说这一性质并不存在。以后可看到在相对熵 的概念下,可能出现负值。 的概念下,可能出现负值。
非负性体现信息是非负的。 非负性体现信息是非负的。
4、扩展性 、
lim H q +1 ( p1 , p 2 ,..., p q − ε , ε ) = H q ( p1 , p 2 ,..., p q )
1 1 1 H ( X ) = H ( , , ) = 1.459bit 3 6 2 1 1 1 H (Y ) = H ( , , ) = 1.459bit 6 2 3 1 1 1 H ( Z ) = H ( , , ) = 1.459bit 3 2 6
H( X ) = H(Y) = H(Z)
2、确定性:H(1,0)=H(1,0,0)=H(1,0,0…,0)=0 、确定性: • 性质说明:这个信源是一个确知信源,其熵等 性质说明:这个信源是一个确知信源, 于零。 于零。 3、非负性: H(P) ≥ 0 、非负性: • 说明: 说明:
i =1 n
(
)
(
)
H ( XY ) = H ( X ) + H (Y | X ) = H ( X ) + ∑ q ( x ) H (Y | x )
x∈ X
二进制信源是离散信源的一个特例 该信源符号只有二个,设为“ 和 该信源符号只有二个,设为“0”和“1”。符号输 。 出的概率分别为“ 出的概率分别为“ω”和“1- ω”,即信源的概率空 , 间为: 间为: 1 x 0 p (x ) = ω ω = 1 − ω H(X) = -ωlogω –(1-ω) log(1-ω) =H(ω) ω ω ω ω ω 即信息熵H(x)是ω的函数。 是 的函数。 即信息熵 取值于[0, 区间 区间, ω取值于 ,1]区间,可 画出熵函数H(ω 的曲线来, 画出熵函数 ω) 的曲线来, 如右图所示。 如右图所示。
复习
熵 条件熵
K 1 H r ( X ) = E ( I ( x ) ) = E log r = −∑ p ( xi ) log r p( xi ) p( xi ) i =1
H ( X / Y ) = E [ I ( x i / y j )] =
∑ ∑ p( x y
j =1 i =1 m i n j = 1 i =1
i j i j
= −∑log2 q( xi ) ∑ p( xi y j ) + H (Y / X ) i j = H ( X ) + H (Y / X ) 利用: p( xy) = q( x) p( y / x)
∑ p( y / x) = 1
y
同理 H ( XY | Z ) = H ( X | Z ) + H (Y / XZ )
c Z 1 p( z ) = 1 nm c2 1 nm ... cnm 1 ... nm
乙信源为
它们的联合信源是
可计算得联合信源的联合熵: 可计算得联合信源的联合熵: H(Z) = H(XY) = log (nm) = log m + log n = H(X) + H(Y)
n =1 N
6、极值性 、 • 等概率分布时,离散信源熵值达到最大。 等概率分布时 离散信源熵值达到最大。
1 H ( P , P2 ,..., Pq ) ≤ H ( , 1 q H ( X ) ≤ log X 1 1 , ... , ) = log q q q
• 最大离散熵定理。 最大离散熵定理。 证明: 因为对数是∩型凸函数 型凸函数, 证明: 因为对数是 型凸函数,满足詹森不等式 E[log Y] ≤ log E[Y],则有: ,则有:
q 1 1 H ( p1 , p2 ,..., pq ) = ∑ pi log ≤ log( ∑ pi ) = log q pi pi i =1 i =1 q
唯一性
香农指出,存在这样的不确定性的度量, 香农指出,存在这样的不确定性的度量,它是概率 分布 p1 , p 2 , L , p K 的函数 f ( p 1 , p 2 , L , p K ) ,且该 函数应满足: 函数应满足: – 对称性 – 极值性 – 可加性 – 扩展性 它的形式是唯一的。 它的形式是唯一的。
例如,甲信源为 例如,
a2 ... an X a1 p ( x ) = 1 / n 1 / n ... 1 / n b2 ... bm Y b1 p ( y ) = 1 / m 1 / m ... 1 / m
相关文档
最新文档