第二章:信息论的基本概念
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
f ( p1, p2 ,L
, pn1, pn )
pn
f
(
q1 pn
,
q2 pn
,L
, qm ) pn
q1 q2 ...qm pn
熵的定义
X为一随机变量 样本空间X={x1,x2,….xn} pi或p(xi)是输出为xi的概率
定义
n
n
H (X) p(xi ) log p(xi ) pi log pi
事件出现的可能性愈小,概率愈小; – 该事件是否会出现的不确定性就愈大
事件出现的可能性愈大,概率愈大 – 该事件是否会出现的不确定性就愈小
– 信息量与消息出现的概率有关。
§2.1.1 熵的引入-3
研究思路一:
– 自信息--概率空间的平均自信息--熵
研究思路二:
– 直接定义
自信息:
研究思路一
分析信息的特征,信息量(消息)关系式应反映如下规律:
不确定性=携载的信息
“信息是事物运动状态或存在方 式的不确定性的描述”
--香农
信息是随机的 可用随机变量的不确定性或随机性作为信息的表示
§2.1.1 熵的引入-2
问题2:
如何度量信息?如何计算消息的信息量?
– 某些消息比另外一些消息传递了更多的信息。
– 类似于火车运输货物多少用“货运量”衡量
消息信号传输信息多少用“信息量”衡量 – 概率论知识:
第二次测量后:
X2
12 3 4 5 678
P(x2) = 1/2 1/2 0 0 0 0 0 0
H(x2) = log2 = 1(bit/符号)
第三次
H(x1) - H(x2) =1 --获得1bit信息量
测量后:
P(X3x3)=
1 1
2 0
3 0
45 00
678 000
H(x3) = log1 = 0(bit/符号) H(x2) - H(x3) =1 --获得1bit信息量
➢ 平均信息量—信源熵:自信息的数学期望。也称为信源的
信息熵/信源熵/香农熵/无条件熵/熵函数/熵。
n
H (X )
E[log
] 1
p( xi )
p(xi ) log
1 p( xi )
i 1
➢ 信息熵的单位:取决于对数选取的底。一般选用以2为底,
其单位为比特/符号。
➢ 信息熵的意义:信源的信息熵H是从整个信源的统计特性来
认为:当x=0时 xlog(1/x)=0 通信:信息速率—单位时间内信息的数量
§2.1.2 香农熵与热力学中热熵的关系
熵
这个名词是香农从物理学中的统计热力学借用过来的,
在物理学中称它为热熵,是表示分子混乱程度的一个
物理量,这里,香农引用它来描述随机变量的平均不 确定性,含义是类似的。但是在热力学中,任何孤立 系统的演化,热熵只能增加不能减少;而在信息论中, 信息熵正相反,只会减少,不会增加。所以有人称信
X
A BCD E
P(x)
= 0.2
0.2
0.2 0.2 0.2
H(X) = 5(-0.2log0.2) =2.32(比特)
X’
A B C DE
P(x’)
= 0.25
0.25
0.25 0.25
0
H(X’) =4(-0.25log0.25) =2(比特)
甲获得的信息 = H(X)-H(X’)=0.32(比特) 还需要的信息=2.32-0.32=2(比特)
I (xi )
lg
1 哈特
p( xi )
1奈特=1.44比特 1哈特=3.32比特
一般都采用以“2”为底的对数,为了书写简洁,有时把底数2略去不写。
➢ 信息论中“比特”与 计算机术语中“比特”区别
如果p(xi)=1/2,则I(xi)=1比特。所以1比特信息量就是两个 互不相容的等可能事件之一发生时所提供的信息量。
0.99 a2 H(Y) = -0.5log0.5-0.5log0.5 =1(比特/符号) 0.5
Z
= a1 a2 a3 a4 a5
P(z)
0.2 0.2 0.2 0.2 0.2
H(Z) = 5(-0.2log0.2) =2.32(比特/符号)
熵的物理含义
熵是随机变量的随机性的描述。
– 变量Y、Z等概,随机性大,变量X不等概,则随机性小 – 等概情况下,可取值越多,随机性越大 – H()是描述随机变量所需的比特数
自信息的测度单位及其换算关系
如果取以2为底,则信息量单位称为比特(binary unit)
I(xi ) log2
1 比特
p(xi )
如果取以e为底,则信息量单位称为奈特(nature unit)
I (xi
)
ln
1 p( xi )
奈特
如果取以10为底,则信息量单位称为哈特(Hart unit)
(1) 信息量是概率的非负函数, 即
I=f[P(x)]
(2) P(x)越小, I越大; 反之, I越小, 且
P(x)→1时, I→0
P(x)→0时, I→∞
(3) 若干个互相独立事件构成的消息, 所含信息量等于各独 立事件信息量之和,也就是说,信息具有相加性, 即
I[P(x1)P(x2)…]=I[P(x1)]+I[P(x2)]+…
考虑的。它是从平均意义上来表征信源的总体特性的。对于 某特定的信源,其信息熵只有一个。不同的信源因统计特性 不同,其熵也不同。
研究思路二
熵( Entropy)的直接引入
一个离散随机变量X,以不同的取值概率有N个可能取值,
X
a1 a2 … aN
=
P(x)
p1 p2 … pN
信息论关心:X的不确定性
不确定性--大,获取的信息量--多
2、等概时为单调增函数:f
(
1 N
,
1 N
,...,
1 N
)
g(N
)
是N的增函数
3、可加性条件:当随机变量的取值不是通过一次试验而是若干 次试验确定取值时,X在各次试验中的不确定性可加。
结论:唯一的形式:
N
f ( p1, p2 , , pn ) C pn log pn
n 1
C=常数>0, 即:
自信息:
可以用泛函分析方法解得满足条件的函数形式为
f
[ p(xi )]
log
1 p( xi )
用概率测度定义信息量:
设离散信源X,其概率空间为
X P( X
)
xp1(, x1),
x2 , p(x2
,xn ),, p(xn )
如果知道事件xi已发生,则该事件所含有的自信息定义为
熵是随机变量平均不确定性的描述
– X试验中发生a1,获得的自信息为-log0.01=6.64(bit) – Y试验中发生a1,获得的自信息为-log0.5=2.32(bit) – H()反映的是平均的不确定性
例2.3 设某班学生在一次考试中获优(A)、良(B)、中 (C)、及格(D)和不及格(E)的人数相等。当教师 通知某甲:“你没有不及格”,甲获得了多少比特信息? 为确定自己的成绩,甲还需要多少信息?
自信息:
➢ 信息量的直观定义:
收到某消息获得的信息量=不确定性减少的量 =(收到此消息前关于某事件发生的不确定性) -(收到此消息后关于某事件发生的不确定性)
在无噪声时,通过信道的传输,可以完全不失真地收到所发的消息, 收到此消息后关于某事件发生的不确定性完全消除,此项为零。因 此得 收到某消息获得的信息量 =收到此消息前关于某事件发生的不确定性 =信源输出的此消息中所含有的信息量
熵的引入
不确定性分析:
随机变量X、Y、Z
X
a1 a2
=
小
P(X)
0.01 0.99
Y
a1
a2
P(Y) = 0.5
0.5
Z P(Z)
= a1 0.2
a2 0.2
a3 a4 a5 0.2 0.2 0.2
大
问题:1、能否度量?
2、如何度量??
香农指出:存在熵函数 满足先验条件
1、连续性条件:f ( p1, p2 , , pn ) 是 pn 的连续函数
I (xi )
log
1 p( xi )
自信息含义
➢ 当事件xi发生以前:表示事件xi发生的不确定性。 ➢ 当事件xi发生以后:表示事件xi所含有(或所提供)的信
息量。在无噪信道中,事件xi发生后,能正确无误地传输到 收信者,所以I(xi)可代表接收到消息xi后所获得的信息量。 这是因为消除了I(xi)大小的不确定性,才获得这么大小的信 息量。
熵H(X)--通过观测随机变量X所获得的平均信息量
进一步理解: 平均--统计平均(区别与算术平均) 单位--抽象的信息单位,无量纲(量纲≠单位) 比特--不同于计算机中的“比特” 计算机:代表一个二元数字(binary digit) 信息:对数取2为底时信息量的单位 关系:每一个二元数字所能提供的最大平均信息量为1比特
H (P) 0
熵函数的性质--非负性
证明二:0
x
1
有:log
x
x 1
或:log
1 x
1
x
4
3.5
3
2.5
图示为y x与z 2x1
2
1Βιβλιοθήκη Baidu5
两条曲线对比
1
0.5
0
§2.1.4 熵函数的性质
香农熵是概率矢量的非负的上凸函数
– 性质1:非负性 – 性质2:上凸性 – 性质3:唯一性(连续性、可加性、等概单调增)
熵函数的性质--非负性
证明一: 因为:
则: 所以:
N
H ( p1, p2 ,..., pN ) pn log pn n1 0 pn 1 log pn 0
息熵为负热熵。
二者还有一个重大差别:热熵是有量纲的,而香农熵 是无量纲的。
§2.1.3 熵可以作为信息的量度
对于随机变量而言:
试验前-- 各取值的概率分布 (不确定性)
试验后--
多次试验后--
一定的确切性 确切取值
(不确定性)
(0)
通过试验--消除了不确定性--获得了信息
信息量=获得的信息的数量= 熵的差值
例2.1: 试验前:
试验后:
X
12 3 4 5 6
=
P(x)
1/6 1/6 1/6 1/6 1/6 1/6
H(x) = log6 = 2.58bits = 1.79nats
X1
12 3 4 5 6
P(x1) = 0
1
0
00
0
H(x1) = 0 H(x) - H(x1) = log6
例2.2:
1 2345678
32
1
试验前:
X P(x)
=
1 1/8
2 1/8
3 1/8
4 1/8
5 1/8
678 1/8 1/8 1/8
第一次
H(x) = log8 = 3(bit/符号)
测量后:
P(X1x1)=
1 1/4
2 1/4
3 1/4
4 1/4
5 0
678 000
H(x1) = log4 = 2(bit/符号)
H(x) - H(x1) = 1--获得1bit信息量
信息论中“比特”是指抽象的信息量单位; 计算机术语中“比特”是代表二元符号(数字);
这两种定义之间的关系是:每个二元符号所能提供的最大 平均信息量为1比特。
信源熵—平均信息量
➢ 自信息是一个随机变量:自信息是指某一信源发出某一消
息所含有的信息量。所发出的消息不同,它们所含有的信息
量也就不同。
H(X)表示在获知哪个灯泡是坏的情况前,关于哪个灯泡已损坏的 平均不确定性,即要确定哪个灯泡是坏的,至少需要获得3个bit 的信息量,才能完全消除不确定性。
熵的物理含义
观察随机变量X、Y、Z
X P(x) =
Y P(y) =
a1 0.01 a1 0.5
a2 H(X) = -0.01log0.01-0.99log0.99 =0.08(比特/符号)
N
H ( p1, p2 ,..., pN ) pn log pn
n1
可加性条件进一步说明:当随机变量的取值不是通过一次试 验而是若干次试验确定取值时,随机变量在各次试验中的不 确定性可加,且其和始终与通过一次试验取得结果的不确定 程度相同。
f ( p1, p2 ,L , pn1, q1, q2 ...qm )
第二章:信息论的基本概念
本章的主要问题
信息如何表示?如何度量?
§2.1 离散随机变量的熵
–2.1.1 熵的引入 –2.1.2 香农熵与热力学熵的关系 –2.1.3 熵可以作为信息的度量(熵的物理意义) –2.1.4 熵函数的性质 –2.1.5 联合熵和条件熵
§2.1.1 熵的引入-1
问题1: 信息无处不在,但:信息用什么表示?如何表示?
i 1
i 1
为随机变量的熵函数
含义:
(1)通过观测随机 变量X所获得的 平均信息量
(2)对随机变量X的 “不确定性”、 “随机性”的度量
熵的单位
与前面介绍自信息的单位时相同,信息熵的单位也与公式中 的对数取底有关。 通信与信息中最常用的是以2为底,这时单位为比特(bit); 理论推导中用以e为底较方便,这时单位为奈特(Nat); 工程上用以10为底较方便,这时单位为哈特利(Hartley)。 它们之间可以引用对数换底公式进行互换。比如: 1 bit = 0.693 Nat = 0.301 Hartley