3第二章2-熵的性质
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
i =1 i =1 q q
∑ P(a ) = 1
i =1 i
q
•定义自信息的数学期望为平均自信息量H(X),称为信息熵: 定义自信息的数学期望为平均自信息量 信息熵: 定义自信息的数学期望为平均自信息量 ,称为信息熵
我们用概率矢量 来表示 率分布P(x): 来表示概 我们用概率矢量P来表示概率分布 :
4、扩展性 、
lim H q +1 ( p1 , p 2 ,..., p q − ε , ε ) = H q ( p1 , p 2 ,..., p q )
ε →0
因为
ε →0
lim H q +1 ( p1, p2 ,⋅ ⋅ ⋅, pq − ε , ε )
= lim{−∑ pi log pi − ( pq − ε ) log( pq − ε ) − ε log ε }
∑p
i =1
n
i
= 1,
∑q
j =1
m
j
=1
∑∑ p q
i =1 j =1 i
n
m
j
=1
p ( xi y j ) = p ( xi ) p ( y j ) = pi q j
可加性是熵函数的一个重要特性。 可加性是熵函数的一个重要特性。
证明: 证明:
H nm ( p1 q1 , p1 q 2 ,..., p1 q m , p 2 q1 ,..., p n q m )
q −1 i =1
= −∑ pi log pi =H q ( p1 , p2 ,⋅ ⋅ ⋅, pq )
i =1
ε →0 q
lim ε log ε = 0
ε →0
所以, 所以,上式成立
性质说明:信源的取值数增多时, 性质说明:信源的取值数增多时,若这些取值对应的概率 很小(接近于零 则信源的熵不变。 接近于零), 很小 接近于零 ,则信源的熵不变。
H (Y / X ) = −∑∑ p ( xi ) p ( y j | xi ) log p ( y j | xi )
j =1 i =1 n m n
= −∑∑ p ( xi y j ) log p ( y j | xi )
j =1 i =1
m
H(XY)=H(X)+ H(Y/X)的证明: ( ) ( ) ( )的证明:
... cnm 1 ... nm
乙信源为
它们的联合信源是
可计算得联合信源的联合熵: 可计算得联合信源的联合熵: H(Z) = H(XY) = log (nm) = log m + log n = H(X) + H(Y)
6、强可加性 两个互相关联的信源X和 的联合信源的熵等于信 两个互相关联的信源 和Y的联合信源的熵等于信 的熵加上在X已知条件下信源 的条件熵。 源X的熵加上在 已知条件下信源 的条件熵。 的熵加上在 已知条件下信源Y的条件熵 H(XY)=H(X)+ H(Y/X) ( ) ( ) ( ) H(Y/X)表示信源 X 输出一符号的条件下, ( 输出一符号的条件下, ) 信源Y再输出一符号所能提供的平均信息量 再输出一符号所能提供的平均信息量, 信源 再输出一符号所能提供的平均信息量, 称为条件熵 条件熵。 称为条件熵。
= −∑ p ( xi ) log p ( xi ) ∑ p ( y j | xi ) + H (Y | X ) i j
= H ( X ) + H (Y | X )
p ( xi y j ) = p ( xi ) p ( y j | xi )
∑ p( y
j
j
| xi ) = 1
7、极值性 、 在离散信源情况下,信源各符号等概率分布 等概率分布时 在离散信源情况下,信源各符号等概率分布时, 熵值达到最大。 熵值达到最大。
熵函数H(P)是一种特殊函数,具有以下性质。 是一种特殊函数,具有以下性质。 熵函数 是一种特殊函数
性质: 性质:
说明: 说明:
1、对称性: 、对称性: H(P) 的取值与分量 p1, p2 , ··· , pq的顺序无关。 的顺序无关。 从数学角度: H(P)=∑ pi · log pi 中的和式满足交换率; 从数学角度: ∑ 中的和式满足交换率; 从随机变量的角度:熵只与随机变量的总体统计特性有关。 从随机变量的角度:熵只与随机变量的总体统计特性有关。 一个例子: 一个例子:
P = ( P(a1),P(a2 ),⋅ ⋅ ⋅, P(aq )) = ( p1, p2 ,⋅ ⋅ ⋅, pq )
∑ pi = 1, pi ≥ 0 (i = 1,2,⋅ ⋅ ⋅, q)
i =1
q
信息熵H(X)是概率矢量 或它的分量p 信息熵H(X)是概率矢量P或它的分量p1,p2,…,pq的函数H(P) 。 是概率矢量P
2、确定性:H(1,0)=H(1,0,0)=H(1,0,0…,0)=0 、确定性: 性质说明:从总体来看,信源虽然有不同的输出符号, 性质说明:从总体来看,信源虽然有不同的输出符号, 但它只有一个符号几乎必然出现, 但它只有一个符号几乎必然出现,而其它符号则是几 乎不可能出现,那么,这个信源是一个确知信源, 乎不可能出现,那么,这个信源是一个确知信源,其 熵等于零。 熵等于零。 3、非负性: H(P) ≥ 0 、非负性: 说明: 说明:
连续两个信源符号出现的联合概率分布为pa由于只有两个符号有关联且其关联与时间无关则我们可把这个信源输出的随机序列分成每二个符号一组因为相邻的两个符号才有关联每组构成新信源的一个符号并假设组与组之间统计无关实际上组尾的符号与下一组组头的符号是有关的
第二章 信源及其熵
本章介绍
信源的统计特性和数学模型 各类信源的信息测度----熵及其性质 各类信源的信息测度 熵及其性质 引入信息理论的一些基本概念和重要结论
离散信源的数学模型可抽象为: 离散信源的数学模型可抽象为
... ... a2 a3 aq X a1 P( x) = P(a ) P(a ) P(a ) ... ... P(a ) 1 2 3 q
H ( X ) = −∑ P(ai ) logP(ai ) = −∑ pi log pi
随机变量X的概率分布满足0 随机变量X的概率分布满足0<pi<1,当取对数的底大 于1时,log(pi) <0,-pilog(pi ) >0,即得到的熵为正 只有当随机变量是一确知量时熵才等于零。 值。只有当随机变量是一确知量时熵才等于零。 这种非负性合适于离散信源的熵, 这种非负性合适于离散信源的熵,对连续信源来说这一 性质并不存在。以后可看到在相对熵的概念下, 性质并不存在。以后可看到在相对熵的概念下,可能出 现负值。 现负值。 非负性体现信息是非负的。 非负性体现信息是非负的。
x-1 log x 0 1 x
∑
i i
1 q( xi )( − 1) q( xi )M
∑
1 − M
∑q(x ) =1−1= 0
i i
图2-6 logx ≤ x–1关系曲线 1
证明方法二:利用 证明方法二:利用log x的∩型凸函数性质 的
詹森不等式: 詹森不等式:
函数的均值
≤
均值的函数
1 H(X)-log M = q( xi ) log q( xi )M i 1 ≤ log q( xi ) q( xi ) M i
5、可加性
统计独立信源 和 的联合信源的熵等于信源 等于信源X 统计独立信源X和Y的联合信源的熵等于信源 信源 各自的熵之和。 和Y各自的熵之和。 各自的熵之和 H(XY) = H(X)+ H(Y)
H nm ( p1 q1 , p1 q 2 ,..., p1 q m , p 2 q1 ,..., p n q m ) = H n ( p1 , p 2 ,..., p n ) + H m (q1 , q 2 ,..., q m )
x a1 a2 a3 y a1 a2 a3 z a1 a2 a3 P( x) = 1/ 3 1/ 6 1/ 2, P( y) = 1/ 6 1/ 2 1/ 3, P( z) = 1/ 3 1/ 2 1/ 6 1 1 1 H ( X ) = H ( , , ) = 1.459( Bit / Symbol) 3 6 2 1 1 1 H( X ) = H(Y) = H(Z) H (Y ) = H ( , , ) = 1.459( Bit / Symlob) 6 2 3 1 1 1 H ( Z ) = H ( , , ) = 1.459( Bit / Symbol ) 3 2 6
H ( XY ) = −∑∑ p ( xi y j ) log p ( xi y j )
i j
= −∑∑ p(xi y j ) log p(xi ) p( y j | xi )
i j
i j
[
]
i j
= −∑∑ p( xi ) p ( y j | xi ) log p( xi ) − ∑∑ p( xi y j ) log p( y j | xi )
1 x 0 p (x ) = ω ω = 1 − ω
H(X) = -ωlogω –(1-ω) log(1-ω) =H(ω) ω ω ω ω ω 即信息熵H(x)是ω的函数。 是 的函数。 即信息熵 等概率分布的二元序列, 等概率分布的二元序列 ,可 取值于[0, 区间 区间, ω取值于 ,1]区间,每 个二元符号将提供1 个二元符号将提供 的曲线来, 画出熵函数H(ω 1 的曲线来 画出熵函数 ω) 比特的信 , 息量。 息量。 如右图所示。 如右图所示。
n
n
m
i =1
i =1
j =1
= −∑ pi log pi − ∑ q j log q j
i =1 j =1
m
= H n ( p1 , p 2 ,..., p n ) + H m (q1 , q 2 ,..., q m )
例如,甲信源为 例如,
a2 ... an X a1 p ( x ) = 1 / n 1 / n ... 1 / n b2 Y b1 p ( y ) = 1 / m 1 / m c c2 Z 1 1 p( z ) = 1 nm nm bm ... 1 / m ...
= −∑∑ pi q j log pi q j = −∑ ∑ pi q j log pi − ∑∑ pi q j log q j
i =1 j =1 m i =1 j =1 n i =1 j =1 n m n m
n
m
= −∑ q j ∑ pi log pi − ∑ pi ∑ q j log q j
j =1
1 H ( P , P2 ,..., Pq ) ≤ H ( , 1 q 1 1 , ... , ) = log q q q
性质表明等概率分布信源的平均不确定性为最大。 性质表明等概率分布信源的平均不确定性为最大。 等概率分布信源的平均不确定性为最大 这是一个很重要的结论,称为最大离散熵定理 最大离散熵定理。 这是一个很重要的结论,称为最大离散熵定理。
∑
∑
i
= log
∑
1 M
= log 1 = 0 证毕
上面两种证明方法是信息论中 经常用到的证明方法
二进制信源是离散信源的一个特例。 二进制信源是离散信源的一个特例。 该信源符号只有二个,设为“ 和 该信源符号只有二个,设为“0”和“1”。符号输 。 出的概率分别为“ 出的概率分别为“ω”和“1- ω”,即信源的概率空 , 间为: 间为:
熵函数
我们用下述表示方法: 我们用下述表示方法:
H ( P) = −∑ pi log pi
i =1
q
H(P)是概率矢量 的函数,称为熵函数。 是概率矢量P的函数 称为熵函数。 是概率矢量 的函数,
表示以离散随机变量x描述的信源的信息熵; 描述的信源的信息熵 用H(x) 表示以离散随机变量x描述的信源的信息熵; 用H(P) 或 H(p1, p2 , … , pq )表示概率矢量为 表示概率矢量为 P = (p1, p2 , … , pq )的q个符号信源的信息熵。 的 个符号信源的信息熵。 若当 q =2 时,因为 p1+p2 = 1, 所以将两个符号的熵函数写 成H(p1)或H(p2)。 或 。
最大离散熵定理证明
证明方法一:利用不等式 证明方法一:利用不等式log x ≤ x - 1
等号在x 1时成立 时成立( 等号在 = 1时成立(见图 2-6) )
H ( X ) − log M =
∑
i
1 q ( x i ) log − q( xi )
∑ q ( x ) log M
i i
=
≤ =
∑
i1 q Leabharlann x i ) log q( xi )M
回忆上次课内容
信源的分类
单符号信源 平稳随机序列信源
离散无记忆平稳信源( 次扩展信源 次扩展信源) 离散无记忆平稳信源(N次扩展信源) 有记忆信源 m阶马尔科夫信源 阶马尔科夫信源
随机波形信源
信源的数学模型 离散信源的信息熵
自信息量、 自信息量、单位 信息熵、 信息熵、熵的含义
三、信息熵的基本性质
∑ P(a ) = 1
i =1 i
q
•定义自信息的数学期望为平均自信息量H(X),称为信息熵: 定义自信息的数学期望为平均自信息量 信息熵: 定义自信息的数学期望为平均自信息量 ,称为信息熵
我们用概率矢量 来表示 率分布P(x): 来表示概 我们用概率矢量P来表示概率分布 :
4、扩展性 、
lim H q +1 ( p1 , p 2 ,..., p q − ε , ε ) = H q ( p1 , p 2 ,..., p q )
ε →0
因为
ε →0
lim H q +1 ( p1, p2 ,⋅ ⋅ ⋅, pq − ε , ε )
= lim{−∑ pi log pi − ( pq − ε ) log( pq − ε ) − ε log ε }
∑p
i =1
n
i
= 1,
∑q
j =1
m
j
=1
∑∑ p q
i =1 j =1 i
n
m
j
=1
p ( xi y j ) = p ( xi ) p ( y j ) = pi q j
可加性是熵函数的一个重要特性。 可加性是熵函数的一个重要特性。
证明: 证明:
H nm ( p1 q1 , p1 q 2 ,..., p1 q m , p 2 q1 ,..., p n q m )
q −1 i =1
= −∑ pi log pi =H q ( p1 , p2 ,⋅ ⋅ ⋅, pq )
i =1
ε →0 q
lim ε log ε = 0
ε →0
所以, 所以,上式成立
性质说明:信源的取值数增多时, 性质说明:信源的取值数增多时,若这些取值对应的概率 很小(接近于零 则信源的熵不变。 接近于零), 很小 接近于零 ,则信源的熵不变。
H (Y / X ) = −∑∑ p ( xi ) p ( y j | xi ) log p ( y j | xi )
j =1 i =1 n m n
= −∑∑ p ( xi y j ) log p ( y j | xi )
j =1 i =1
m
H(XY)=H(X)+ H(Y/X)的证明: ( ) ( ) ( )的证明:
... cnm 1 ... nm
乙信源为
它们的联合信源是
可计算得联合信源的联合熵: 可计算得联合信源的联合熵: H(Z) = H(XY) = log (nm) = log m + log n = H(X) + H(Y)
6、强可加性 两个互相关联的信源X和 的联合信源的熵等于信 两个互相关联的信源 和Y的联合信源的熵等于信 的熵加上在X已知条件下信源 的条件熵。 源X的熵加上在 已知条件下信源 的条件熵。 的熵加上在 已知条件下信源Y的条件熵 H(XY)=H(X)+ H(Y/X) ( ) ( ) ( ) H(Y/X)表示信源 X 输出一符号的条件下, ( 输出一符号的条件下, ) 信源Y再输出一符号所能提供的平均信息量 再输出一符号所能提供的平均信息量, 信源 再输出一符号所能提供的平均信息量, 称为条件熵 条件熵。 称为条件熵。
= −∑ p ( xi ) log p ( xi ) ∑ p ( y j | xi ) + H (Y | X ) i j
= H ( X ) + H (Y | X )
p ( xi y j ) = p ( xi ) p ( y j | xi )
∑ p( y
j
j
| xi ) = 1
7、极值性 、 在离散信源情况下,信源各符号等概率分布 等概率分布时 在离散信源情况下,信源各符号等概率分布时, 熵值达到最大。 熵值达到最大。
熵函数H(P)是一种特殊函数,具有以下性质。 是一种特殊函数,具有以下性质。 熵函数 是一种特殊函数
性质: 性质:
说明: 说明:
1、对称性: 、对称性: H(P) 的取值与分量 p1, p2 , ··· , pq的顺序无关。 的顺序无关。 从数学角度: H(P)=∑ pi · log pi 中的和式满足交换率; 从数学角度: ∑ 中的和式满足交换率; 从随机变量的角度:熵只与随机变量的总体统计特性有关。 从随机变量的角度:熵只与随机变量的总体统计特性有关。 一个例子: 一个例子:
P = ( P(a1),P(a2 ),⋅ ⋅ ⋅, P(aq )) = ( p1, p2 ,⋅ ⋅ ⋅, pq )
∑ pi = 1, pi ≥ 0 (i = 1,2,⋅ ⋅ ⋅, q)
i =1
q
信息熵H(X)是概率矢量 或它的分量p 信息熵H(X)是概率矢量P或它的分量p1,p2,…,pq的函数H(P) 。 是概率矢量P
2、确定性:H(1,0)=H(1,0,0)=H(1,0,0…,0)=0 、确定性: 性质说明:从总体来看,信源虽然有不同的输出符号, 性质说明:从总体来看,信源虽然有不同的输出符号, 但它只有一个符号几乎必然出现, 但它只有一个符号几乎必然出现,而其它符号则是几 乎不可能出现,那么,这个信源是一个确知信源, 乎不可能出现,那么,这个信源是一个确知信源,其 熵等于零。 熵等于零。 3、非负性: H(P) ≥ 0 、非负性: 说明: 说明:
连续两个信源符号出现的联合概率分布为pa由于只有两个符号有关联且其关联与时间无关则我们可把这个信源输出的随机序列分成每二个符号一组因为相邻的两个符号才有关联每组构成新信源的一个符号并假设组与组之间统计无关实际上组尾的符号与下一组组头的符号是有关的
第二章 信源及其熵
本章介绍
信源的统计特性和数学模型 各类信源的信息测度----熵及其性质 各类信源的信息测度 熵及其性质 引入信息理论的一些基本概念和重要结论
离散信源的数学模型可抽象为: 离散信源的数学模型可抽象为
... ... a2 a3 aq X a1 P( x) = P(a ) P(a ) P(a ) ... ... P(a ) 1 2 3 q
H ( X ) = −∑ P(ai ) logP(ai ) = −∑ pi log pi
随机变量X的概率分布满足0 随机变量X的概率分布满足0<pi<1,当取对数的底大 于1时,log(pi) <0,-pilog(pi ) >0,即得到的熵为正 只有当随机变量是一确知量时熵才等于零。 值。只有当随机变量是一确知量时熵才等于零。 这种非负性合适于离散信源的熵, 这种非负性合适于离散信源的熵,对连续信源来说这一 性质并不存在。以后可看到在相对熵的概念下, 性质并不存在。以后可看到在相对熵的概念下,可能出 现负值。 现负值。 非负性体现信息是非负的。 非负性体现信息是非负的。
x-1 log x 0 1 x
∑
i i
1 q( xi )( − 1) q( xi )M
∑
1 − M
∑q(x ) =1−1= 0
i i
图2-6 logx ≤ x–1关系曲线 1
证明方法二:利用 证明方法二:利用log x的∩型凸函数性质 的
詹森不等式: 詹森不等式:
函数的均值
≤
均值的函数
1 H(X)-log M = q( xi ) log q( xi )M i 1 ≤ log q( xi ) q( xi ) M i
5、可加性
统计独立信源 和 的联合信源的熵等于信源 等于信源X 统计独立信源X和Y的联合信源的熵等于信源 信源 各自的熵之和。 和Y各自的熵之和。 各自的熵之和 H(XY) = H(X)+ H(Y)
H nm ( p1 q1 , p1 q 2 ,..., p1 q m , p 2 q1 ,..., p n q m ) = H n ( p1 , p 2 ,..., p n ) + H m (q1 , q 2 ,..., q m )
x a1 a2 a3 y a1 a2 a3 z a1 a2 a3 P( x) = 1/ 3 1/ 6 1/ 2, P( y) = 1/ 6 1/ 2 1/ 3, P( z) = 1/ 3 1/ 2 1/ 6 1 1 1 H ( X ) = H ( , , ) = 1.459( Bit / Symbol) 3 6 2 1 1 1 H( X ) = H(Y) = H(Z) H (Y ) = H ( , , ) = 1.459( Bit / Symlob) 6 2 3 1 1 1 H ( Z ) = H ( , , ) = 1.459( Bit / Symbol ) 3 2 6
H ( XY ) = −∑∑ p ( xi y j ) log p ( xi y j )
i j
= −∑∑ p(xi y j ) log p(xi ) p( y j | xi )
i j
i j
[
]
i j
= −∑∑ p( xi ) p ( y j | xi ) log p( xi ) − ∑∑ p( xi y j ) log p( y j | xi )
1 x 0 p (x ) = ω ω = 1 − ω
H(X) = -ωlogω –(1-ω) log(1-ω) =H(ω) ω ω ω ω ω 即信息熵H(x)是ω的函数。 是 的函数。 即信息熵 等概率分布的二元序列, 等概率分布的二元序列 ,可 取值于[0, 区间 区间, ω取值于 ,1]区间,每 个二元符号将提供1 个二元符号将提供 的曲线来, 画出熵函数H(ω 1 的曲线来 画出熵函数 ω) 比特的信 , 息量。 息量。 如右图所示。 如右图所示。
n
n
m
i =1
i =1
j =1
= −∑ pi log pi − ∑ q j log q j
i =1 j =1
m
= H n ( p1 , p 2 ,..., p n ) + H m (q1 , q 2 ,..., q m )
例如,甲信源为 例如,
a2 ... an X a1 p ( x ) = 1 / n 1 / n ... 1 / n b2 Y b1 p ( y ) = 1 / m 1 / m c c2 Z 1 1 p( z ) = 1 nm nm bm ... 1 / m ...
= −∑∑ pi q j log pi q j = −∑ ∑ pi q j log pi − ∑∑ pi q j log q j
i =1 j =1 m i =1 j =1 n i =1 j =1 n m n m
n
m
= −∑ q j ∑ pi log pi − ∑ pi ∑ q j log q j
j =1
1 H ( P , P2 ,..., Pq ) ≤ H ( , 1 q 1 1 , ... , ) = log q q q
性质表明等概率分布信源的平均不确定性为最大。 性质表明等概率分布信源的平均不确定性为最大。 等概率分布信源的平均不确定性为最大 这是一个很重要的结论,称为最大离散熵定理 最大离散熵定理。 这是一个很重要的结论,称为最大离散熵定理。
∑
∑
i
= log
∑
1 M
= log 1 = 0 证毕
上面两种证明方法是信息论中 经常用到的证明方法
二进制信源是离散信源的一个特例。 二进制信源是离散信源的一个特例。 该信源符号只有二个,设为“ 和 该信源符号只有二个,设为“0”和“1”。符号输 。 出的概率分别为“ 出的概率分别为“ω”和“1- ω”,即信源的概率空 , 间为: 间为:
熵函数
我们用下述表示方法: 我们用下述表示方法:
H ( P) = −∑ pi log pi
i =1
q
H(P)是概率矢量 的函数,称为熵函数。 是概率矢量P的函数 称为熵函数。 是概率矢量 的函数,
表示以离散随机变量x描述的信源的信息熵; 描述的信源的信息熵 用H(x) 表示以离散随机变量x描述的信源的信息熵; 用H(P) 或 H(p1, p2 , … , pq )表示概率矢量为 表示概率矢量为 P = (p1, p2 , … , pq )的q个符号信源的信息熵。 的 个符号信源的信息熵。 若当 q =2 时,因为 p1+p2 = 1, 所以将两个符号的熵函数写 成H(p1)或H(p2)。 或 。
最大离散熵定理证明
证明方法一:利用不等式 证明方法一:利用不等式log x ≤ x - 1
等号在x 1时成立 时成立( 等号在 = 1时成立(见图 2-6) )
H ( X ) − log M =
∑
i
1 q ( x i ) log − q( xi )
∑ q ( x ) log M
i i
=
≤ =
∑
i1 q Leabharlann x i ) log q( xi )M
回忆上次课内容
信源的分类
单符号信源 平稳随机序列信源
离散无记忆平稳信源( 次扩展信源 次扩展信源) 离散无记忆平稳信源(N次扩展信源) 有记忆信源 m阶马尔科夫信源 阶马尔科夫信源
随机波形信源
信源的数学模型 离散信源的信息熵
自信息量、 自信息量、单位 信息熵、 信息熵、熵的含义
三、信息熵的基本性质