信息论与编码-第4讲-第2章信源及信息度量(修改最新)

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1) 如果二进制信源的输出是确定的(p=1)，则该信源不提供任何信息；
2) 当二进制信源符号0和1等概率发生时，信源的熵达到最

大值，等于1比特信息

3) 二元数字是二进制信源的输出。在具有等概率的二进制信源输出的二进制数字序列中，每一个二元数字提供1比特的信息量。如果符号不是等概率分布，则每一个二元数字所提供的平均信息量总是小于1比特。这也进一步说明了 “二元数字”（计算机术语称“比特”）与信息量单位 “比特”的关系。

p(a1|b2)=0.75
p(a2|b1)=0.75

p(a2|b2)=0.25
根据条件熵的计算表达式可得
H(X|Y)=－p(a1,b1) logp(a1|b1)－p(a1,b2) logp(a1|b2) －p(a2,b1) logp(a2|b1)－p(a2，b2) logp(a2|b2) =0.406比特/符号
以熵H(X)≥0；

只有当随机变量是一确知量时，熵H(X)=0。这种非负性对于离散信源的熵是合适的，但对连续信源来说这一性质并不存在。
(2) 对称性
① 定义：当变量p(x1),p(x2),…,p(xn) 的顺序任意互换时，熵
函数的值不变，即
H[ p( x1 ), p( x2 ),, p( xn )] H[ p( xi1 ), p( xi2 ),, p( xin )] ，其中i1, i2 ,in 1,2,, n
H ( X ) E[log p (1xi ) ] p( xi ) log p (1xi )
i 1
r
为了求得整个信源所提供的平均信息量，首先
，我们应当了解数学中有关三种不同类型的平均方
法以及它们各自的计算公式。这三种平均方法分别
是算术平均、统计平均和几何平均。
(2-8)
式中，Pi=Ni/N(i=1，2，„，r)为对应的随
P( X ) p 1 p

二进制信源的信息熵为 H ( X ) [ p log2 p (1 p) log2 (1 p)] 这时信息熵H(X)是p的函数。p取值于[0,1]区间，我们可以画出熵函数H(p)的曲线。
从图中可以得出熵函数的一些性质：

Y y 1 ,y 2 0.5 P(Y ) 0.5,
信息熵分别为 H(X)=-0.99log0.99-0.01log0.01=0.08 比特/符号 H(Y)=-0.5log0.5-0.5log0.5=1 比特/符号
可见 H(Y)>H(X)

本例结论
1、信源Y的二个输出消息是等可能性的，所以在信源没有
② 含义：该性质说明熵只与随机变量的总体结构有关，与
信源的总体统计特性有关。如果某些信源的统计特性相同（含有的符号数和概率分布相同），那么这些信源的熵就相同。
③举例
下面三个信源的概率空间为
X x1 , x2 , x3 P( X ) 1 , 1 , 1 3 6 2
1）信源熵—平均信息量

2）信源熵的三种物理含义

1）信源熵—平均信息量
自信息是一个随机变量：自信息是指某一信源发
出某一消息所含有的信息量。所发出的消息不同，它们所
含有的信息量也就不同。

平均信息量—信源熵：自信息的数学期望。也称为
信源的信息熵/信源熵/香农熵/无条件熵/熵函数/熵。
信息熵的数学表达式：

例：已知信源X取自符号集{a1=0，a2=1}，信源Y取自符
号集{b1=0，b2=1}，联合集合{X，Y}的联合概率密度为
计算条件熵H(X|Y)。
解
由全概率公式
可得
p(b1)=p(a1，b1)+p(a2，b1)=0.5 p(b2)=p(a1，b2)+p(a2，b2)=0.5
由概率公式p(ai，bj)=p(ai)p(bj|ai)=p(bj)p(ai|bj)(i，j=1，2)，可以求出
Y x1 , x2 , x3 P (Y ) 1 , 1 , 1 6 2 3
Z y1 , y2 , y3 P( Z ) 1 , 1 , 1 3 6 2
x1—红 x2 —黄 x3 —蓝 y1—晴 y2 —雾 y3 —雨
H[p(x1),p(x2),…,p( xn) ]≤H(1/n,1/n,…,1/n)=log2n 出现任何符号的可能无记忆信源输出n个不同的信息符号，
举例

二进制信源是离散信源的一个特例。设该信源符号只有二个：0和1 设符号输出的概率分别为p和1-p 信源的概率空间为 X 0 1

2）信源熵的三种物理含义
信源熵是从平均意义上来表征信源的总体特性的一个
量。因此信源熵有以下三种物理含义。

1) 信源熵H(X)是表示信源输出后每个消息/符号所提供的平均信息量； 2) 信源熵H(X)是表示信源输出前，信源的平均不确定性；

3) 用信源熵H(X)来表征变量X的随机性。
举例1
(4) 扩展性
证明
根据定义
由对数函数的性质知道
而
显然第二项
而第一项
由于
归纳起来

本性质说明，信源的取值增多时，若这些取值
对应的概率很小（接近于零），则信源的熵不变。
虽然概率很小的事件出现后，给予收信者较多的

信息。但从总体来考虑时，因为这种概率很小的
事件几乎不会出现，所以它在熵的计算中占的比重很小。这也是熵的总体平均性的一种体现。
可加性是熵函数的一个重要特性，正因为具有可加性，所以可以证明熵函数的形式是唯一的，不可能有其它形式存在。
(7) 极值性/香农辅助定理

对任意两个消息数相同的信源
n
X Y P( X ) P(Y ), i 1,2, ，n
1 p ( xi )
有
1 p ( yi )
I(x i | yj)=－log p(xi | yj) 集合X的条件熵为：
在给定Y（即各个yj）条件下，集合X的条件熵定义为

信道疑义度—H(X/Y)：表示信宿在收到Y后，信源X仍然存在的不确定度。是通过有噪信道
传输后引起的信息量的损失，
是传输失真造成的，故也可称为损失熵。

噪声熵—H(Y/X)：表示在已知X 的条件下，对于符号集Y尚存在的不确定性（疑义），这完全是由于信道中噪声引起的。
信息论与编码理论基础
第4讲信息熵及熵的基本性质
主讲
刘巧平
延安大学物电学院
本讲主要内容：
1、信源熵
2、条件熵
3、联合熵
4、熵的基本性质和定理
本讲重点：
1、掌握信息熵的物理含义及数学表达式 2、熟悉条件熵和联合熵的定义 3、掌握信息熵的基本性质及定理
本讲难点：
信息熵的定义及熵的基本性质及定理
1 信源熵
3、联合熵

定义—是联合离散符号集合XY上的每个元素对的联合自信息量的数学期望，也叫共熵。用H(XY)表示。
4 熵的基本性质和定理
熵函数H(X)：熵H是p(x1),p(x2),„,p(xn)的n元函数
(1) (2) (3) (4) (5) (6) (7) (8) 非负性对称性最大离散熵定理扩展性确定性可加性极值性上凸性
H ( X ) H p( x1 ), p( x2 ),, p( xn )
n
p( x ) log
i i 1
n
1 p ( xi )
p( x ) 1和0 p( x ) 1(i 1,2,, n)
i i i 1
(1) 非负性
H(X)≥0

因为随机变量X的所有取值的概率分布满足0≤p(xi)≤1；当取对数的底大于1时log p(xi)≤0，而- p(xi) log p(xi)≥0，所
H n p( x1 ), p( x2 ),, p( xn ) p( xi ) log2 其中

p ( x ) p ( y ) 1
i i i i
i 1
p( xi ) log2
i 1
n
上式含义：任一概率分布p(xi)，它对其它概率分布p(yi)的自信息 [log2

有一布袋内放100个球，其中80个球是红色的，20个球是白色的。随便摸出一个球，猜测是什么颜色，其概率空间为
X x1 , x2 P( X ) 0.8,0.2

x1：表示摸出的是红球
x2：表示摸出的是白球
举例2

有两个信源，其概率空间分别为
X x 1 ,x 2 0.01 P(X ) 0.99,
机变量xi出现的概率(或称为频数)。即
(2-9)
(2-10)
根据有关统计平均的定义，可求得信源X自
信息量的统计平均值，我们把这个统计平均值
记为H(X),即
(2-9)
(2-10)
信息熵的数学表达式
信息熵的单位：取决于对数选取的底。一般选用以
2为底，其单位为比特/符号。
信息熵的意义：信源的信息熵H是从整个信源的统计特性来考虑的。它是从平均意义上来表征信源的总体特性的。对于某特定的信源，其信息熵只有一个。不同的信源因统计特性不同，其熵也不同。
2 条件熵

定义：条件熵是在联合符号集合XY上的条件自信息的数学期望。在已知Y时，X的条件熵为
H ( X / Y ) E[ I ( xi / y j )] p( xi y j ) I ( xi / y j )
j 1 i 1 m n
p( xi y j ) log2
j 1 i 1
i 1 2 p ( xi )
p ( xi y j ) log2
p( y j / xi ) H (Y / X ) j
H ( X ) H (Y / X ) 其中 p( xi y j ) p ( xi ) p( y j / xi )
p( y
j
j
/ xi ) 1
只要信源符号表中有一个符号出现概率为1，信源熵就等于0。在概率空间中，如果有两个基本事实，其中一个是必然事件，另一个则是不可能事件，因此没有不确定性，熵必为0。当然可以类推到n个基本事件构成的概率空间。
(6) 可加性
H(XY)=H(X)+H(Y/X) 证明第一个式子：
H ( XY ) p( xi y j ) log2
(5) 确定性
H(1,0)=H(1,0,0)=H(1,0,0,0)=…=H(1,0, …,0)=0
在概率矢量P(X)=[p(x1),p(x2),…,p(xn)]中
当p(xi)=1时，-p(xi)log2p(xi)=0；其余变量p(xj)=0(j≠i)，
p ( x j ) 0
lim
p ( x j ) log2 p ( x j ) 0
输出消息以前，事先猜测哪一个消息出现的不确定性要大；

2、信源Y比信源X的平均不确定性大； 3、信源X的二个输出消息不是等概率的，事先猜测x1和x2
哪一个出现，虽然具有不确定性，但大致可以猜出x1会出
现，因为x1出现的概率大。所以信源X的不确定性要小；

4、信息熵反映的就是信源输出前平均不确定程度的大小。
m
n
1 p ( xi / y j )

已知X时，Y的条件熵为
H (Y / X ) E[ I ( y j / xi )]
为什么要用联合概率？
1 2 p ( y j / xi )
p( x y ) log
i j i 1 j 1
n
m
证明：在给定 y j 条件下，x i 的条件自信息量为：
i j i j 1 p ( xi y j ) i
H(XY)=H(Y)+H(X/Y)
p( xi y j ) log2
j 1 p ( xi ) i j 1 p ( xi ) p ( y j / xi ) 1 p ( y j / xi )
p( xi ) p( y j / xi ) log2 p( xi ) log
① X与Z信源的差别：它们所选择的具体消息/符号其含义不同； ② X与Y信源的差别：它们选择的某同一消息的概率不同； ③ 但它们的信息熵是相同的。这三个信源总的统计特性是相同的。所以熵表征信源总的统计特性，总体的平均不确定性。
(3) 最大离散熵定理
当且仅当各个符号出现概率相等时(即p(xi)=1/n)，熵最大。