第二章:信息论的基本概念

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
I (Y; X ) H (Y ) H (Y | X )
离散互信息
I ( X ;Y ) = I (Y ; X ) 证明略。
I ( X ;Y ) 和I (Y; X ) 是随机变量X和Y之间相互提供的信 息量--称为互信息是完全确切的
一般情况下: 0 I ( X ;Y ) min( H ( X ), H (Y ))
熵的物理含义
观察随机变量X、Y、Z
X =
P(x)
a1 0.01
a2 0.99
H(X) =
-0.01log0.01-0.99log0.99 =0.08(比特/符号)
Y P(z)
Z P(y)
a1
a2

0.5
0.5
a1 a2 a3 a4 a5 =
0.2 0.2 0.2 0.2 0.2
H(Y) = -0.5log0.5-0.5log0.5 =1(比特/符号)
X3
12 3 4 5 678
P(x3)= 1 0 0
00 000
H(x2) - H(x3) =1 --获得1bit信息量
H(x1) = log4 = 2(bit/符号)
H(x2) = log2 = 1(bit/符号)
H(x3) = log1 = 0(bit/符号)
H(X)表示在获知哪个灯泡是坏的情况前,关于哪个灯泡已损坏的平均不确定性,即要确定哪个灯 泡是坏的,至少需要获得3个bit的信息量,才能完全消除不确定性。??必须测3次吗??
p(ak , bj ) log
p(ak ,b j ) p(bj )
k 1 j1
k 1 j1
KJ

p(ak , bj ) log
p(ak ,b j ) p(ak ) p(bj )
k 1 j1
这里:
J
K
p(ak ) p(ak ,bj ); p(bj ) p(ak ,bj )
f [p (1 )q] f ( p) (1 ) f (q)
ap
p (1 )q
qb
p
熵函数的性质—上凸性
上凸性: 熵函数具有凸性,即H(P)是P的上凸函数。 证明:作业一
熵函数的性质
定理2.1 对于离散随机变量,当其可能的取值等概分 布时,其熵达到最大值。即:
max H (X ) log N
连续性
等概时单调增函数性
可加性
则此函数必为
N
f ( p1, p2 ,, pn ) C pn log pn
n 1
证明:作业二
熵函数的性质--唯一性
唯一性--限制条件
D.A.Fadiev:
连续性 可加性 对称性
A.I.Khinchin:
连续性 可加性 极值条件:等概 事件集合中零概率事件不影响确定性
其它熵
联合熵与条件熵
一个随机变量----两个随机变量----多个随机变量

条件熵:
物理含义:
已知一随机变量的情况下,对 另一随机变量不确定性的量 度
观测Y以后,仍保留的关于X的 不确定量。
联合熵与条件熵
联合熵
物理意义:二元随机变量 不确定性的量度
联合熵、条件熵的关系:
H (XY) H (X ) H (Y / X ) H (Y ) H (X /Y)
X1
12 3 4 5 6

P(x1)
0 1 0 00 0
H(x1) = 0
H(x) - H(x1) = log6
例1.2:
1
2
3
4
5
6
7
8
3
2
1
试验前:
X= P(x)
12 1/8 1/8
3 1/8
4 1/8
5 1/8
678 1/8 1/8 1/8
H(x) = log8 = 3(bit/符号)
第一次 测量后:
H(Z) = 5(-0.2log0.2) =2.32(比特/符号)
熵的物理含义
熵是随机变量的随机性的描述。
变量Y、Z等概,随机性大,变量X不等概,则随机性小 等概情况下,可取值越多,随机性越大 H()是描述随机变量所需的比特数
熵是随机变量平均不确定性的描述
X试验中发生a1,获得的自信息为-log0.01=6.64(bit) Y试验中发生a1,获得的自信息为-log0.5=2.32(bit) H()反映的是平均的不确定性
信息论的基本概念

熵的引入 香农熵与热力学熵的关系 熵可以作为信息的度量 熵函数的性质 联合熵和条件熵
• 互信息
•互信息的定义 •多个随机变量下的互信息 •互信息函数的性质
• 连续随机变量下 的熵与互信息
信息无处不在,但:
不确定性=携载的信息
信息用什么表示?如何表示?
可用随机变量的不确定性 或随机性作为信息的表示
香农熵与热力学中热熵的关系

这个名词是仙农从物理学中的统计热力学借用过来
的,在物理学中称它为热熵是表示分子混乱程度的
一个物理量,这里,仙农引用它来描述信源的平均 不确定性,含义是类似的。但是在热力学中已知任 何孤立系统的演化,热熵只能增加不能减少;而在 信息论中,信息熵正相反,只会减少,不会增加。
第二次 测量后:
第三次 测量后:
X1
12 3 4 5
P(x1)= 1/4 1/4 1/4 1/4 0
678 000
H(x) - H(x1) = 1--获得1bit信息量
X2
12 3 4 5 678
P(x2)= 1/2 1/2 0 0 0 0 0 0
H(x1) - H(x2) =1 --获得1bit信息量
考察、分析信息的特征
非负性 连续性 可加性 等概时与取值空间N的关系(单调增) 与发生的概率P的关系(单调减)
熵的引入
一个离散随机变量X,以不同的取值概率有N个可能取值,
X P(x)
a1 a2 … aN =
p1 p2 … pN
信息论关心:X的不确定性
不确定性--大,获取的信息--多
熵的引入
不确定性分析:
熵函数的性质
香农熵是概率矢量的非负的上凸函数
性质1:非负性 性质2:上凸性 性质3:唯一性(连续性、可加性、等概单调增)
熵函数的性质--非负性
证明一: 而: 故:
所以:
N
H ( p1, p2 ,..., pN ) pn log pn n1 0 pn 1
log pn 0
X
a1
a2


随机变量X、Y、Z
P(x)
0.01 0.99
Y
a1
a2

P(z)
0.5
0.5
Z
a1 a2 a3 a4 a5

P(y)
0.2 0.2 0.2 0.2 0.2

问题:能否度量、如何度量??
香农指出:存在熵函数 满足先验条件
f 1、连续性条件: ( p1, p2 ,, pn ) 是 pn 的连续函数
当X,Y相互独立时,有: p(ak , b j ) p(ak ) p(b j ) p(ak | b j ) p(ak ) p(b j | ak ) p(b j )
于是有:
H ( XY ) H ( X ) H (Y ) H(X |Y) H(X ) H (Y | X ) H (Y )
其中:N为X可能取值得个数。
例1.3:二元熵函数是对0-1分布的随机变量所求的熵:
X
0
1

P(x)
p
1-p
则: H(X) = -plogp-(1-p)log(1-p)=H(p)
而: H’(X) = -logp-p/p+log(1-p)+(1-p)/(1-p)=log(1-p)/p 可以证明,p=1/2时,H(p)取最大值,为log2=1。 而p=0或1时,H(p)=0,故二元熵函数的曲线如图所示:
H (P) 0
熵函数的性质--非负性
证明二:
x 0
有: log x x 1
或:
log
1 x

1
x
所以:
N
N
H (P)
pn
log
1 pn

pn (1 pn ) 0
n1
n1
熵函数的性质--上凸性
凸性的概念:若对区域D中任意两点 和 , D, D 均有:
H(p)/bit 1.0
等概时(p=0.5):
随机变量具有最大的
不确定性,
p=0,1时:
随机变量的不确定性
消失。
0
0.5
1.0
p
二元熵函数曲线
熵函数的性质--唯一性
定理2.2 设离散随机变量的概密矩阵为
X
a1 a2 … aN

P(x)
p1 p2 … pN
函数 件
f
(
p1,
p2
,,
pn
)是随机变量不确定性的量度,若此函数满足条
所以有人称信息熵为负热熵。
二者还有一个重大差别:热熵是有量纲的,而香农 熵是无量纲的。
熵可以作为信息的量度
对于随机变量而言:
试验前-- 各取值的概率分布 (不确定性)
试验后-- 一定的确切性
(不确定性)
多次试验后-- 确切取值
(0)
通过试验--消除了不确定性--获得了信息--信息的数量= 熵
对于单个消息随机变量U,出现某个消息,对应概率为 , 这时可获得的信息量为I ( pi ),则有:
理解:了解一事物总对另一事物的了解有所帮助
离散互信息
当随机变量X和Y之间有确定的关系时
1、X可以唯一确定Y,
此时: H (Y | X ) 0
2、 Y 可以唯一确定X ,
此时: H ( X | Y ) 0
故: I ( X ;Y ) H (Y ) 故: I ( X ;Y ) H ( X )
pi , I ( pi ) ; pi 0, I ( pi ) I是pi的递降函数
pi , I ( pi ) ; pi 1, I ( pi ) 0
解释:
小概率事件,一当出现必然使人感到意外,因此产生的信息量就大; 几乎不可能事件一旦出现,将是一条爆炸性的新闻,一鸣惊人。
q(b j |ak )
大概率事件,是预料之中的,即使发生,也没什么信息量,特别是当 必然事件发生了,它不会给人以任何信息量。
注:I--自信息
例1.1: 试验前:
试验后:
X P(x)
12 3 4 5 6 =
1/6 1/6 1/6 1/6 1/6 1/6
H(x) = log6 = 2.58bits = 1.79nats
n1
熵的单位
信息熵的单位与公式中的对数取底有关。 通信与信息中最常用的是以2为底,这时单位 为比特(bit);理论推导中用以e为底较方 便,这时单位为奈特(Nat);工程上用以10 为底较方便,这时单位为笛特(Det)。它们 之间可以引用对数换底公式进行互换。比如: 1 bit = 0.693 Nat = 0.301 Det
(1 ) D,0 1
则称:区域D是凸域。
理解:若两点 和 在凸域D内,则和 之间的线段也整个在区域D内。
在[a,b]上定义的下凸函数
f ( p) (1 ) f (q) f [p (1 )q]
ap
p (1 )q
qb
p
在[a,b]上定义的上凸函数

熵的引入 香农熵与热力学熵的关系 熵可以作为信息的度量 熵函数的性质 联合熵和条件熵
• 互信息
•互信息的定义 •多个随机变量下的互信息 •互信息函数的性质
• 连续随机变量下 的熵与互信息
离散互信息
I ( X ;Y )
定义:离散随机变量X和Y之间的互信息
I(X;Y) H(X ) H(X |Y)
I (Y ; X )是对X和Y之间统计依存程度的信息量度
离散互信息
另一种定义:
I(X;Y) H(X ) H(X |Y)
K
KJ
= p(ak ) log p(akHale Waihona Puke Baidu)+
p(ak , bj ) log p(ak | bj )
k 1
k 1 j1
KJ
KJ

p(ak , bj ) log p(ak ) +
j 1
k 1
变换得到互信息的另一种表达式:I(X;Y)是随机变量X的概率矢量p 和条件概率矩阵Q的函数
p(ak , bj ) p(ak )q(bj | ak )
p(ak ,b j )
p(ak ) p(bj )
p(ak )q(b j |ak ) p(ak ) p(bj )
q(b j |ak ) K
理解:当随机变量相互独立时,其联合熵等于单个随机变量的熵之和,而条件熵等 于无条件熵。
联合熵、条件熵的关系:
一般情况下
H ( XY ) H ( X ) H (Y ) H(X |Y) H(X ) H (Y | X ) H (Y )
理解:表明一般情形下:条件熵总是小于无条件熵。
注意:这是平均意义上的
2、等概时为单调增函数:
f
(
1 N
,
1 N
,...,
1 N
)

g(N )是N的增函数
3、可加性条件:多次试验确定取值时,X在各次试验中的不确定性可加。
结论:唯一的形式:
N
f ( p1, p2 ,, pn ) C pn log pn n 1
C=常数>0, 即:
N
H ( p1, p2 ,..., pN ) pn log pn
相关文档
最新文档