第二章:信息论的基本概念
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
X
= P(x) p1 p2 … pN
a1 a2
…
aN
信息论关心:X的不确定性
不确定性--大,获取的信息--多
熵的引入
不确定性分析:
随机变量X、Y、Z
X = P(x) 0.01 a1 = P(z) 0.5 a1 = P(y) 0.2 0.2 0.2 0.2 0.2 大 a2 a3 0.5 a4 a5 0.99 a2 a1 a2 小
熵的物理含义
观察随机变量X、Y、Z
X = P(x) 0.01 a1 = P(z) Z = a1 0.5 a2 a3 0.5 a4 a5 0.99 a2 a1 a2 H(X) = -0.01log0.01-0.99log0.99 =0.08(比特/符号)
Y
H(Y) = -0.5log0.5-0.5log0.5 =1(比特/符号) H(Z) = 5(-0.2log0.2) =2.32(比特/符号)
于是有:
H ( XY ) H ( X ) H (Y ) H (X |Y) H (X ) H (Y | X ) H (Y )
理解:当随机变量相互独立时,其联合熵等于单个随机变量的熵之和,而条件熵等 于无条件熵。
联合熵、条件熵的关系:
一般情况下
H ( XY ) H ( X ) H (Y ) H (X |Y) H (X ) H (Y | X ) H (Y )
例1.2:
试验前:
第一次 测量后:
1 3
2 2
3
4 1
5
6
7
8
X = P(x)
1
2
3 1/8 3 1/4
4 1/8 4 1/4
5 1/8 5 0
6
7
8
1/8 1/8
1/8 1/8 1/8 6 0 7 0 8 0
H(x) = log8 = 3(bit/符号) H(x1) = log4 = 2(bit/符号)
log pn 0
所以:
H ( P) 0
熵函数的性质--非负性
证明二:
x 0
有: 所以:
log x x 1
或:
log 1 1 x x
N
H ( P) pn log
n 1
N
1 pn
pn (1 pn ) 0
n 1
熵函数的性质--上凸性
和 , D, D 均有:
• 连续随机变量下 的熵与互信息
信息无处不在,但: 信息用什么表示?如何表示?
不确定性=携载的信息
可用随机变量的不确定性 或随机性作为信息的表示
考察、分析信息的特征
非负性 连续性 可加性 等概时与取值空间N的关系(单调增) 与发生的概率P的关系(单调减)
熵的引入
一个离散随机变量X,以不同的取值概率有N个可能取值,
第三次
测量后:
X3 = P(x3)
1
1
2
0
3
0
4
0
5
0
6
0
7
0
8
0
H(x3) = log1 = 0(bit/符号)
H(x2) - H(x3) =1 --获得1bit信息量
H(X)表示在获知哪个灯泡是坏的情况前,关于哪个灯泡已损坏的平均不确定性,即要确定哪个灯 泡是坏的,至少需要获得3个bit的信息量,才能完全消除不确定性。??必须测3次吗??
I ( X ;Y ) H ( X ) H ( X | Y )
I (Y ; X ) H (Y ) H (Y | X )
离散互信息
I ( X ;Y )
=
I (Y ; X )
证明略。
I ( X ; Y ) 和I (Y ; X ) 是随机变量X和Y之间相互提供的信 息量--称为互信息是完全确切的
而p=0或1时,H(p)=0,故二元熵函数的曲线如图所示:
H(p)/bit 1.0
等概时(p=0.5):
随机变量具有最大的 不确定性,
p=0,1时:
随机变量的不确定性 消失。
0
0.5 二元熵函数曲线
1.0
p
熵函数的性质--唯一性
定理2.2 设离散随机变量的概密矩阵为
X P(x) = a1 a2 p1 p2 … … aN pN
注:I--自信息
例1.1: 试验前:
X = P(x)
1
2
3 1/6
4 1/6
5 1/6
6 1/6
1/6 1/6
H(x) = log6 = 2.58bits = 1.79nats 试验后:
X1 P(x1) = 0 1 0 0 0 0 1 2 3 4 5 6
H(x1) = 0 H(x) - H(x1) = log6
K
J
p(ak , b j ) log p(ak | b j )
K J p ( a k ,b j ) p (b j )
p(ak , b j ) log p(ak ) + p(ak , b j ) log
k 1 j 1 p ( a k ,b j ) p ( ak ) p ( b j )
一般情况下:
0 I ( X ; Y ) min( H ( X ), H (Y ))
理解:了解一事物总对另一事物的了解有所帮助
离散互信息
当随机变量X和Y之间有确定的关系时
1、X可以唯一确定Y, 此时:
H (Y | X ) 0 H(X |Y) 0
故:
I ( X ; Y ) H (Y ) I ( X ;Y ) H ( X )
理解:表明一般情形下:条件熵总是小于无条件熵。
注意:这是平均意义上的
熵
熵的引入 香农熵与热力学熵的关系 熵可以作为信息的度量 熵函数的性质 联合熵和条件熵
• 互信息
•互信息的定义 •多个随机变量下的互信息 •互信息函数的性质
• 连续随机变量下 的熵与互信息
离散互信息
I ( X ;Y )
定义:离散随机变量X和Y之间的互信息
P(y)
0.2 0.2 0.2 0.2 0.2
熵的物理含义
熵是随机变量的随机性的描述。
变量Y、Z等概,随机性大,变量X不等概,则随机性小 等概情况下,可取值越多,随机性越大 H()是描述随机变量所需的比特数 X试验中发生a1,获得的自信息为-log0.01=6.64(bit) Y试验中发生a1,获得的自信息为-log0.5=2.32(bit) H()反映的是平均的不确定性
香农熵与热力学中热熵的关系
熵
这个名词是仙农从物理学中的统计热力学借用过来 的,在物理学中称它为热熵是表示分子混乱程度的 一个物理量,这里,仙农引用它来描述信源的平均 不确定性,含义是类似的。但是在热力学中已知任 何孤立系统的演化,热熵只能增加不能减少;而在 信息论中,信息熵正相反,只会减少,不会增加。 所以有人称信息熵为负热熵。 二者还有一个重大差别:热熵是有量纲的,而香农 熵是无量纲的。
结论:唯一的形式:
f ( p1 , p2 , , pn ) C pn log pn
n 1
N
C=常数>0, 即:
H ( p1 , p2 ,..., p N ) pn log pn
n 1
N
熵的单位
信息熵的单位与公式中的对数取底有关。 通信与信息中最常用的是以2为底,这时单位 为比特(bit);理论推导中用以e为底较方 便,这时单位为奈特(Nat);工程上用以10 为底较方便,这时单位为笛特(Det)。它们 之间可以引用对数换底公式进行互换。比如: 1 bit = 0.693 Nat = 0.301 Det
定理2.1 对于离散随机变量,当其可能的取值等概分 布时,其熵达到最大值。即:
max H ( X ) log N
其中:N为X可能取值得个数。
例1.3:二元熵函数是对0-1分布的随机变量所求的熵:
X P(x) = 0 p 1 1-p
则: H(X) = -plogp-(1-p)log(1-p)=H(p) 而: H’(X) = -logp-p/p+log(1-p)+(1-p)/(1-p)=log(1-p)/p 可以证明,p=1/2时,H(p)取最大值,为log2=1。
熵是随机变量平均不确定性的描述
熵函数的性质
香农熵是概率矢量的非负的上凸函数
性质1:非负性
性质2:上凸性 性质3:唯一性(连续性、可加性、等概单调增)
熵函数的性质--非负性
证明一: 而: 故:
H ( p1 , p2 ,..., p N ) pn log pn
n 1
N
0 pn 1
a
p
p (1 )q
q
b
p
在[a,b]上定义的上凸函数
f [p (1 )q ] f ( p ) (1 ) f (q )
a
p
p (1 )q
q
b
p
熵函数的性质—上凸性
上凸性:
熵函数具有凸性,即H(P)是P的上凸函数。
证明:作业一
熵函数的性质
凸性的概念:若对区域D中任意两点
(1 ) D, 0 1
则称:区域D是凸域。
理解:若两点 和 在凸域D内,则和 之间的线段也整个在区域D内。
在[a,b]上定义的下凸函数
f ( p ) (1 ) f (q )
f [p (1 )q ]
2、 Y 可以唯一确定X ,
此时: 故:
I (Y ; X )是对X和Y之间统计依存程度的信息量度
离散互信息
另一种定义:
I ( X ;Y ) H ( X ) H ( X | Y )
= =
K
p(a
k 1 j 1
K
k 1 K J
k
) log p(ak ) +
k 1 j 1
pi , I ( pi ) ; pi 0, I ( pi ) I是pi的递降函数 pi , I ( pi ) ; pi 1, I ( pi ) 0
,
解释:
小概率事件,一当出现必然使人感到意外,因此产生的信息量就大; 几乎不可能事件一旦出现,将是一条爆炸性的新闻,一鸣惊人。 大概率事件,是预料之中的,即使发生,也没什么信息量,特别是当 必然事件发生了,它不会给人以任何信息量。
函数 件
f ( p1 , p2 ,, pn ) 是随机变量不确定性的量度,若此函数满足条
连续性 等概时单调增函数性 可加性 则此函数必为
f ( p1 , p2 ,, pn ) C pn log pn
n 1
N
证明:作业二
ቤተ መጻሕፍቲ ባይዱ
熵函数的性质--唯一性
唯一性--限制条件 D.A.Fadiev:
X1 1 2 = P(x1) 1/4 1/4
H(x) - H(x1) = 1--获得1bit信息量 第二次 测量后: X2 1 2 = P(x2) 1/2 1/2 3 0 4 0 5 0 6 0 7 0 8 0
H(x2) = log2 = 1(bit/符号)
H(x1) - H(x2) =1 --获得1bit信息量
Y
Z
问题:能否度量、如何度量??
香农指出:存在熵函数 满足先验条件
1、连续性条件:
f ( p1 , p2 ,, pn ) 是 pn
的连续函数
2、等概时为单调增函数:
1 1 1 是N的增函数 f ( N , N ,..., N ) g ( N )
3、可加性条件:多次试验确定取值时,X在各次试验中的不确定性可加。
连续性 可加性 对称性
A.I.Khinchin:
连续性 可加性 极值条件:等概 事件集合中零概率事件不影响确定性
其它熵
联合熵与条件熵
一个随机变量----两个随机变量----多个随机变量
则
条件熵:
物理含义:
已知一随机变量的情况下,对 另一随机变量不确定性的量 度 观测Y以后,仍保留的关于X的 不确定量。
上节课内容回顾
信息、信息科学与信息论
信息、信息技术、信息科学、信息理论
信息论研究的对象、目的和内容
信息论发展简史与现状
信息论的形成与发展 信息论方法的应用及其取得的成果
信息论的基本概念
杨杰
熵
熵的引入 香农熵与热力学熵的关系 熵可以作为信息的度量 熵函数的性质 联合熵和条件熵
• 互信息
•互信息的定义 •多个随机变量下的互信息 •互信息函数的性质
联合熵与条件熵
联合熵
物理意义:二元随机变量 不确定性的量度
联合熵、条件熵的关系:
H ( XY ) H ( X ) H (Y / X ) H (Y ) H ( X / Y )
当X,Y相互独立时,有:
p (ak , b j ) p (ak ) p (b j )
p ( ak | b j ) p ( a k ) p (b j | ak ) p (b j )
熵可以作为信息的量度
对于随机变量而言:
试验前-- 试验后--
多次试验后--
各取值的概率分布 (不确定性) 一定的确切性 (不确定性)
确切取值
(0)
熵
通过试验--消除了不确定性--获得了信息--信息的数量=
对于单个消息随机变量U,出现某个消息,对应概率为 这时可获得的信息量为 I ( pi ),则有:
= P(x) p1 p2 … pN
a1 a2
…
aN
信息论关心:X的不确定性
不确定性--大,获取的信息--多
熵的引入
不确定性分析:
随机变量X、Y、Z
X = P(x) 0.01 a1 = P(z) 0.5 a1 = P(y) 0.2 0.2 0.2 0.2 0.2 大 a2 a3 0.5 a4 a5 0.99 a2 a1 a2 小
熵的物理含义
观察随机变量X、Y、Z
X = P(x) 0.01 a1 = P(z) Z = a1 0.5 a2 a3 0.5 a4 a5 0.99 a2 a1 a2 H(X) = -0.01log0.01-0.99log0.99 =0.08(比特/符号)
Y
H(Y) = -0.5log0.5-0.5log0.5 =1(比特/符号) H(Z) = 5(-0.2log0.2) =2.32(比特/符号)
于是有:
H ( XY ) H ( X ) H (Y ) H (X |Y) H (X ) H (Y | X ) H (Y )
理解:当随机变量相互独立时,其联合熵等于单个随机变量的熵之和,而条件熵等 于无条件熵。
联合熵、条件熵的关系:
一般情况下
H ( XY ) H ( X ) H (Y ) H (X |Y) H (X ) H (Y | X ) H (Y )
例1.2:
试验前:
第一次 测量后:
1 3
2 2
3
4 1
5
6
7
8
X = P(x)
1
2
3 1/8 3 1/4
4 1/8 4 1/4
5 1/8 5 0
6
7
8
1/8 1/8
1/8 1/8 1/8 6 0 7 0 8 0
H(x) = log8 = 3(bit/符号) H(x1) = log4 = 2(bit/符号)
log pn 0
所以:
H ( P) 0
熵函数的性质--非负性
证明二:
x 0
有: 所以:
log x x 1
或:
log 1 1 x x
N
H ( P) pn log
n 1
N
1 pn
pn (1 pn ) 0
n 1
熵函数的性质--上凸性
和 , D, D 均有:
• 连续随机变量下 的熵与互信息
信息无处不在,但: 信息用什么表示?如何表示?
不确定性=携载的信息
可用随机变量的不确定性 或随机性作为信息的表示
考察、分析信息的特征
非负性 连续性 可加性 等概时与取值空间N的关系(单调增) 与发生的概率P的关系(单调减)
熵的引入
一个离散随机变量X,以不同的取值概率有N个可能取值,
第三次
测量后:
X3 = P(x3)
1
1
2
0
3
0
4
0
5
0
6
0
7
0
8
0
H(x3) = log1 = 0(bit/符号)
H(x2) - H(x3) =1 --获得1bit信息量
H(X)表示在获知哪个灯泡是坏的情况前,关于哪个灯泡已损坏的平均不确定性,即要确定哪个灯 泡是坏的,至少需要获得3个bit的信息量,才能完全消除不确定性。??必须测3次吗??
I ( X ;Y ) H ( X ) H ( X | Y )
I (Y ; X ) H (Y ) H (Y | X )
离散互信息
I ( X ;Y )
=
I (Y ; X )
证明略。
I ( X ; Y ) 和I (Y ; X ) 是随机变量X和Y之间相互提供的信 息量--称为互信息是完全确切的
而p=0或1时,H(p)=0,故二元熵函数的曲线如图所示:
H(p)/bit 1.0
等概时(p=0.5):
随机变量具有最大的 不确定性,
p=0,1时:
随机变量的不确定性 消失。
0
0.5 二元熵函数曲线
1.0
p
熵函数的性质--唯一性
定理2.2 设离散随机变量的概密矩阵为
X P(x) = a1 a2 p1 p2 … … aN pN
注:I--自信息
例1.1: 试验前:
X = P(x)
1
2
3 1/6
4 1/6
5 1/6
6 1/6
1/6 1/6
H(x) = log6 = 2.58bits = 1.79nats 试验后:
X1 P(x1) = 0 1 0 0 0 0 1 2 3 4 5 6
H(x1) = 0 H(x) - H(x1) = log6
K
J
p(ak , b j ) log p(ak | b j )
K J p ( a k ,b j ) p (b j )
p(ak , b j ) log p(ak ) + p(ak , b j ) log
k 1 j 1 p ( a k ,b j ) p ( ak ) p ( b j )
一般情况下:
0 I ( X ; Y ) min( H ( X ), H (Y ))
理解:了解一事物总对另一事物的了解有所帮助
离散互信息
当随机变量X和Y之间有确定的关系时
1、X可以唯一确定Y, 此时:
H (Y | X ) 0 H(X |Y) 0
故:
I ( X ; Y ) H (Y ) I ( X ;Y ) H ( X )
理解:表明一般情形下:条件熵总是小于无条件熵。
注意:这是平均意义上的
熵
熵的引入 香农熵与热力学熵的关系 熵可以作为信息的度量 熵函数的性质 联合熵和条件熵
• 互信息
•互信息的定义 •多个随机变量下的互信息 •互信息函数的性质
• 连续随机变量下 的熵与互信息
离散互信息
I ( X ;Y )
定义:离散随机变量X和Y之间的互信息
P(y)
0.2 0.2 0.2 0.2 0.2
熵的物理含义
熵是随机变量的随机性的描述。
变量Y、Z等概,随机性大,变量X不等概,则随机性小 等概情况下,可取值越多,随机性越大 H()是描述随机变量所需的比特数 X试验中发生a1,获得的自信息为-log0.01=6.64(bit) Y试验中发生a1,获得的自信息为-log0.5=2.32(bit) H()反映的是平均的不确定性
香农熵与热力学中热熵的关系
熵
这个名词是仙农从物理学中的统计热力学借用过来 的,在物理学中称它为热熵是表示分子混乱程度的 一个物理量,这里,仙农引用它来描述信源的平均 不确定性,含义是类似的。但是在热力学中已知任 何孤立系统的演化,热熵只能增加不能减少;而在 信息论中,信息熵正相反,只会减少,不会增加。 所以有人称信息熵为负热熵。 二者还有一个重大差别:热熵是有量纲的,而香农 熵是无量纲的。
结论:唯一的形式:
f ( p1 , p2 , , pn ) C pn log pn
n 1
N
C=常数>0, 即:
H ( p1 , p2 ,..., p N ) pn log pn
n 1
N
熵的单位
信息熵的单位与公式中的对数取底有关。 通信与信息中最常用的是以2为底,这时单位 为比特(bit);理论推导中用以e为底较方 便,这时单位为奈特(Nat);工程上用以10 为底较方便,这时单位为笛特(Det)。它们 之间可以引用对数换底公式进行互换。比如: 1 bit = 0.693 Nat = 0.301 Det
定理2.1 对于离散随机变量,当其可能的取值等概分 布时,其熵达到最大值。即:
max H ( X ) log N
其中:N为X可能取值得个数。
例1.3:二元熵函数是对0-1分布的随机变量所求的熵:
X P(x) = 0 p 1 1-p
则: H(X) = -plogp-(1-p)log(1-p)=H(p) 而: H’(X) = -logp-p/p+log(1-p)+(1-p)/(1-p)=log(1-p)/p 可以证明,p=1/2时,H(p)取最大值,为log2=1。
熵是随机变量平均不确定性的描述
熵函数的性质
香农熵是概率矢量的非负的上凸函数
性质1:非负性
性质2:上凸性 性质3:唯一性(连续性、可加性、等概单调增)
熵函数的性质--非负性
证明一: 而: 故:
H ( p1 , p2 ,..., p N ) pn log pn
n 1
N
0 pn 1
a
p
p (1 )q
q
b
p
在[a,b]上定义的上凸函数
f [p (1 )q ] f ( p ) (1 ) f (q )
a
p
p (1 )q
q
b
p
熵函数的性质—上凸性
上凸性:
熵函数具有凸性,即H(P)是P的上凸函数。
证明:作业一
熵函数的性质
凸性的概念:若对区域D中任意两点
(1 ) D, 0 1
则称:区域D是凸域。
理解:若两点 和 在凸域D内,则和 之间的线段也整个在区域D内。
在[a,b]上定义的下凸函数
f ( p ) (1 ) f (q )
f [p (1 )q ]
2、 Y 可以唯一确定X ,
此时: 故:
I (Y ; X )是对X和Y之间统计依存程度的信息量度
离散互信息
另一种定义:
I ( X ;Y ) H ( X ) H ( X | Y )
= =
K
p(a
k 1 j 1
K
k 1 K J
k
) log p(ak ) +
k 1 j 1
pi , I ( pi ) ; pi 0, I ( pi ) I是pi的递降函数 pi , I ( pi ) ; pi 1, I ( pi ) 0
,
解释:
小概率事件,一当出现必然使人感到意外,因此产生的信息量就大; 几乎不可能事件一旦出现,将是一条爆炸性的新闻,一鸣惊人。 大概率事件,是预料之中的,即使发生,也没什么信息量,特别是当 必然事件发生了,它不会给人以任何信息量。
函数 件
f ( p1 , p2 ,, pn ) 是随机变量不确定性的量度,若此函数满足条
连续性 等概时单调增函数性 可加性 则此函数必为
f ( p1 , p2 ,, pn ) C pn log pn
n 1
N
证明:作业二
ቤተ መጻሕፍቲ ባይዱ
熵函数的性质--唯一性
唯一性--限制条件 D.A.Fadiev:
X1 1 2 = P(x1) 1/4 1/4
H(x) - H(x1) = 1--获得1bit信息量 第二次 测量后: X2 1 2 = P(x2) 1/2 1/2 3 0 4 0 5 0 6 0 7 0 8 0
H(x2) = log2 = 1(bit/符号)
H(x1) - H(x2) =1 --获得1bit信息量
Y
Z
问题:能否度量、如何度量??
香农指出:存在熵函数 满足先验条件
1、连续性条件:
f ( p1 , p2 ,, pn ) 是 pn
的连续函数
2、等概时为单调增函数:
1 1 1 是N的增函数 f ( N , N ,..., N ) g ( N )
3、可加性条件:多次试验确定取值时,X在各次试验中的不确定性可加。
连续性 可加性 对称性
A.I.Khinchin:
连续性 可加性 极值条件:等概 事件集合中零概率事件不影响确定性
其它熵
联合熵与条件熵
一个随机变量----两个随机变量----多个随机变量
则
条件熵:
物理含义:
已知一随机变量的情况下,对 另一随机变量不确定性的量 度 观测Y以后,仍保留的关于X的 不确定量。
上节课内容回顾
信息、信息科学与信息论
信息、信息技术、信息科学、信息理论
信息论研究的对象、目的和内容
信息论发展简史与现状
信息论的形成与发展 信息论方法的应用及其取得的成果
信息论的基本概念
杨杰
熵
熵的引入 香农熵与热力学熵的关系 熵可以作为信息的度量 熵函数的性质 联合熵和条件熵
• 互信息
•互信息的定义 •多个随机变量下的互信息 •互信息函数的性质
联合熵与条件熵
联合熵
物理意义:二元随机变量 不确定性的量度
联合熵、条件熵的关系:
H ( XY ) H ( X ) H (Y / X ) H (Y ) H ( X / Y )
当X,Y相互独立时,有:
p (ak , b j ) p (ak ) p (b j )
p ( ak | b j ) p ( a k ) p (b j | ak ) p (b j )
熵可以作为信息的量度
对于随机变量而言:
试验前-- 试验后--
多次试验后--
各取值的概率分布 (不确定性) 一定的确切性 (不确定性)
确切取值
(0)
熵
通过试验--消除了不确定性--获得了信息--信息的数量=
对于单个消息随机变量U,出现某个消息,对应概率为 这时可获得的信息量为 I ( pi ),则有: