第5讲 信息熵

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1

第5讲 随机变量的信息熵

在概率论和统计学中,随机变量表示随机试验结果的观测值。随机变量的取值是不确定的,但是服从一定的概率分布。因此,每个取值都有自己的信息量。平均每个取值的信息量称为该随机变量的信息熵。

信息熵这个名称是冯诺依曼向香农推荐的。在物理学中,熵是物理系统的状态函数,用于度量一个物理系统内部状态和运动的无序性。物理学中的熵也称为热熵。信息熵的表达式与热熵的表达式类似,可以视为热熵的推广。香农用信息熵度量一个物理系统内部状态和运动的不确定性。

信息熵是信息论的核心和基础概念,具有多种物理意义。香农所创立的信息论是从定义和研究信息熵开始的。这一讲我们学习信息熵的定义和性质。

1. 信息熵

我们这里考虑离散型随机变量的信息熵,连续型随机变量的信息熵以后有时间再讨论,读者也可以看课本上的定义,先简单地了解一下。 定义1.1 设离散型随机变量X 的概率空间为

1

21

2

......n n x x x X p p p P ⎡⎤

⎡⎤=⎢⎥⎢⎥⎣⎦⎣⎦

我们把X 的所有取值的自信息的期望称为X 的平均自信息量,通常称为信息熵,简称熵(entropy ),记为H(X),即

1

1

()[()]log

n

i i i

H X E I X p p ===

∑ (比特)

信息熵也称为香农熵。

注意,熵H (X )是X 的概率分布P 的函数,因此也记为H (P )。

定义1.2 信息熵表达式中的对数底可取任何大于等于2的整数r ,所得结果称为r-进制熵,记为H r (X ),其单位为“r-进制单位”。 我们有

2

()()

log r X H H r

X =

注意,在关于熵的表达式中,我们仍然约定

0log 00 0log

00

x

==, 信息熵的物理意义:

信息熵可从多种不同角度来理解。

(1) H(X)是随机变量X 的取值所能提供的平均信息量。

(2) 统计学中用H(X)表征随机变量X 的不确定性,也就是随机性的大小。

例如,假设有甲乙两只箱子,每个箱子里都存放着100个球。甲里面有红蓝色球各50个,乙里面红、蓝色的球分别为99个和1个。显然,甲里面球的颜色更具有不确定性。从两个箱子各摸出一个球,甲里面摸出的球更不好猜。

(3) 若离散无记忆信源的符号概率分布为P ,则H(P)是该信源的所有无损编码的“平均

码长”的极限。

令X 是离散无记忆信源的符号集,所有长度为n 的消息集合为

{1,2,,}n M X =L

每个消息i 在某个无损编码下的码字为w i ,码字长为l i 比特。假设各消息i 出现的概率为p i ,则该每条消息的平均码长为

1

M

n i i i L p l ==∑

因此,平均每个信源符号的码长为

1

1M

n i i i L p l n n ==∑ 这个平均每个信源符号的码长称为该编码的平均码长,其量纲为(码元/信源)。 我们有

() lim () n n n L L

H X H X n

n →∞≥=且

这是信源编码定理的推论。

3

例1.3 课本第26页例2.4. 天气预报的平均信息量。 练习:

在电脑主板上,串行接口(Serial Interface )用于向外设输出数据,每次输出1比特符号,若某段时间内输出符号的概率分布为

11/32/3X p ⎡⎤⎡⎤=⎢⎥⎢⎥⎣⎦⎣⎦

求此时段内该串行接口的信息率,即平均每符号所传递的信息(单位为“比特/符号”)。

4

练习解答:输出0所传递的信息为

1

(0)log log3 (3

I =-=比特) 输出1所传递的信息为

2

(1)log

log3 1 (3

I =-=-比特) 因此,输出符号的信息熵为

122

()log3(log31)log3333

H X =+-=-≈0.919(比特) 于是所求的信息速率为0.919比特每符号。

说明:上述信息熵H (X )反映了串行接口传输信息的速率,称为该接口的信息率。

2. 熵函数H(P)的性质 性质1. 非负性和确定性 H (P )≥0

其中H(P)=0 当且仅当P 为退化分布。

一个随机变量的概率分布为退化分布,当且仅当该随机变量是常量,即取值唯一(所以其取值是确定的)。

性质2. 对称性

11(,,,,,,)(,,,,,,)i j n j i n H p p p p H p p p p =L L L L L L 性质3. 连续性

1(,,)n H p p L 对于其中任何变量i p 是连续的。

性质4. 扩展性

5

可扩展性1:

11(,,,0)(,,)n n H p p H p p =L L 可扩展性2:

证明:由连续性和可扩展性1立即可得。 证毕

意义:可扩展性表明,一个小概率事件对于熵的影响很小,可以忽略不计。 在熵的计算中,可以忽略其中一部分小概率事件。

例2.1 《中华字海》中收录了85000多个汉字,而常用汉字仅有3000个左右。(据统计现代汉语中这2400个汉字在一般书刊文章中所占的字数比例是99%)在计算汉字的熵时,大部分汉字都可以忽略不计,仅统计常用汉字出现的频率,以此作为这些汉字出现的概率,从而计算出汉字的熵。

性质5. 可加性

注意:即课本第31页的“递增性”。课本上的“可加性”事实上是联合熵的链法则,涉及到条件熵,放在此处不妥,后面再讨论。我们将赋予“递增性”更贴切的含义。 定理2.2(可加性公式)

其中令12n m p q q q =+++L

证明:可用熵函数的定义证明,细节留给读者完成。 证毕 可加性公式让我们不断降低信息熵中概率分布的维度,将高维计算简化为低维计算。有的教材称可加性为递推性。 例2.3 应用熵函数的可加性计算

1111

(,,,)3366

H 解:

121211212(,,,,,,,)(,,,),,,m n m n n n n

n q q q H p p p q q q H p p p p H p p p -⎛⎫

=+ ⎪

⎝⎭L L L L 12112210

lim (,,,,,)(,,,,,)

n n n n n H p p p p H p p p p p εεε---→-=L L

相关文档
最新文档