第5讲 信息熵
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
第5讲 随机变量的信息熵
在概率论和统计学中,随机变量表示随机试验结果的观测值。随机变量的取值是不确定的,但是服从一定的概率分布。因此,每个取值都有自己的信息量。平均每个取值的信息量称为该随机变量的信息熵。
信息熵这个名称是冯诺依曼向香农推荐的。在物理学中,熵是物理系统的状态函数,用于度量一个物理系统内部状态和运动的无序性。物理学中的熵也称为热熵。信息熵的表达式与热熵的表达式类似,可以视为热熵的推广。香农用信息熵度量一个物理系统内部状态和运动的不确定性。
信息熵是信息论的核心和基础概念,具有多种物理意义。香农所创立的信息论是从定义和研究信息熵开始的。这一讲我们学习信息熵的定义和性质。
1. 信息熵
我们这里考虑离散型随机变量的信息熵,连续型随机变量的信息熵以后有时间再讨论,读者也可以看课本上的定义,先简单地了解一下。 定义1.1 设离散型随机变量X 的概率空间为
1
21
2
......n n x x x X p p p P ⎡⎤
⎡⎤=⎢⎥⎢⎥⎣⎦⎣⎦
我们把X 的所有取值的自信息的期望称为X 的平均自信息量,通常称为信息熵,简称熵(entropy ),记为H(X),即
1
1
()[()]log
n
i i i
H X E I X p p ===
∑ (比特)
信息熵也称为香农熵。
注意,熵H (X )是X 的概率分布P 的函数,因此也记为H (P )。
定义1.2 信息熵表达式中的对数底可取任何大于等于2的整数r ,所得结果称为r-进制熵,记为H r (X ),其单位为“r-进制单位”。 我们有
2
()()
log r X H H r
X =
注意,在关于熵的表达式中,我们仍然约定
0log 00 0log
00
x
==, 信息熵的物理意义:
信息熵可从多种不同角度来理解。
(1) H(X)是随机变量X 的取值所能提供的平均信息量。
(2) 统计学中用H(X)表征随机变量X 的不确定性,也就是随机性的大小。
例如,假设有甲乙两只箱子,每个箱子里都存放着100个球。甲里面有红蓝色球各50个,乙里面红、蓝色的球分别为99个和1个。显然,甲里面球的颜色更具有不确定性。从两个箱子各摸出一个球,甲里面摸出的球更不好猜。
(3) 若离散无记忆信源的符号概率分布为P ,则H(P)是该信源的所有无损编码的“平均
码长”的极限。
令X 是离散无记忆信源的符号集,所有长度为n 的消息集合为
{1,2,,}n M X =L
每个消息i 在某个无损编码下的码字为w i ,码字长为l i 比特。假设各消息i 出现的概率为p i ,则该每条消息的平均码长为
1
M
n i i i L p l ==∑
因此,平均每个信源符号的码长为
1
1M
n i i i L p l n n ==∑ 这个平均每个信源符号的码长称为该编码的平均码长,其量纲为(码元/信源)。 我们有
() lim () n n n L L
H X H X n
n →∞≥=且
这是信源编码定理的推论。
3
例1.3 课本第26页例2.4. 天气预报的平均信息量。 练习:
在电脑主板上,串行接口(Serial Interface )用于向外设输出数据,每次输出1比特符号,若某段时间内输出符号的概率分布为
11/32/3X p ⎡⎤⎡⎤=⎢⎥⎢⎥⎣⎦⎣⎦
求此时段内该串行接口的信息率,即平均每符号所传递的信息(单位为“比特/符号”)。
4
练习解答:输出0所传递的信息为
1
(0)log log3 (3
I =-=比特) 输出1所传递的信息为
2
(1)log
log3 1 (3
I =-=-比特) 因此,输出符号的信息熵为
122
()log3(log31)log3333
H X =+-=-≈0.919(比特) 于是所求的信息速率为0.919比特每符号。
说明:上述信息熵H (X )反映了串行接口传输信息的速率,称为该接口的信息率。
2. 熵函数H(P)的性质 性质1. 非负性和确定性 H (P )≥0
其中H(P)=0 当且仅当P 为退化分布。
一个随机变量的概率分布为退化分布,当且仅当该随机变量是常量,即取值唯一(所以其取值是确定的)。
性质2. 对称性
11(,,,,,,)(,,,,,,)i j n j i n H p p p p H p p p p =L L L L L L 性质3. 连续性
1(,,)n H p p L 对于其中任何变量i p 是连续的。
性质4. 扩展性
5
可扩展性1:
11(,,,0)(,,)n n H p p H p p =L L 可扩展性2:
证明:由连续性和可扩展性1立即可得。 证毕
意义:可扩展性表明,一个小概率事件对于熵的影响很小,可以忽略不计。 在熵的计算中,可以忽略其中一部分小概率事件。
例2.1 《中华字海》中收录了85000多个汉字,而常用汉字仅有3000个左右。(据统计现代汉语中这2400个汉字在一般书刊文章中所占的字数比例是99%)在计算汉字的熵时,大部分汉字都可以忽略不计,仅统计常用汉字出现的频率,以此作为这些汉字出现的概率,从而计算出汉字的熵。
性质5. 可加性
注意:即课本第31页的“递增性”。课本上的“可加性”事实上是联合熵的链法则,涉及到条件熵,放在此处不妥,后面再讨论。我们将赋予“递增性”更贴切的含义。 定理2.2(可加性公式)
其中令12n m p q q q =+++L
证明:可用熵函数的定义证明,细节留给读者完成。 证毕 可加性公式让我们不断降低信息熵中概率分布的维度,将高维计算简化为低维计算。有的教材称可加性为递推性。 例2.3 应用熵函数的可加性计算
1111
(,,,)3366
H 解:
121211212(,,,,,,,)(,,,),,,m n m n n n n
n q q q H p p p q q q H p p p p H p p p -⎛⎫
=+ ⎪
⎝⎭L L L L 12112210
lim (,,,,,)(,,,,,)
n n n n n H p p p p H p p p p p εεε---→-=L L