第二章 信息的度量
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
获得信息
2.1.2
互信息
def 对于联合事件(多维随机变量): def p( xi |y j ) I ( xi ) I ( xi |y I ( xi ;y j ) I ( xi ) II((x xii ;|y jj ) log 条件互信息量: 在联合集XYZ中,在给定 zk的条件下, xi与yj之间的 p( xi )
2.1 自信息和互信息
2.1.1 自信息
定义 一个事件(消息)本身所包含的信息,它是由事件 的不确定性决定的。 自信息量 一个事件(消息)本身所包含的信息量,记为I ( xi ) 。 自信息量为概率 p( xi ) 的函数。
2.1.1 自信息
根据客观事实和人们的习惯概念,自信息量应满足以下条 件(公理化条件):
1 I ( xi | y j ) log log p( xi | y j ) p( xi | y j )
2.1.2
互信息
定义: 一个事件 y j 所给出关于另一个事件 x i 的信息定义为互信
息,用 I ( xi ; y j )表示。
def
I ( xi ;y j ) I ( xi ) I ( xi |y j ) log
I ( x1 ) I ( x2 ) , 1. I ( xi ) 是p( xi ) 的严格递减函数。当p( x1 ) p( x2 ) 时, 概率越小,事件发生的不确定性越大,事件发生以后所包含的自信 息量越大。 I ( xi ) =0。 2.极限情况下当p( xi ) =0时, I ( xi ) ;当 p( xi ) =1时, 3.另外,从直观概念上讲,由两个相对独立的不同的消息所提供的 信息量应等于它们分别提供的信息量之和。
I [ P( x3 )] log2
1 1(bit) P ( x3 )
第二次测量获得的信息量 = I [P (x2)] - I [P (x3)]=1(bit) 第三次测量获得的信息量 = I [P (x3)] =1(bit) 故:至少要获得3个比特的信息量就可确切知道哪个灯泡已坏了。
2.1.1 自信息
p( xi |y j ) p( xi )
含义:互信息 I ( xi ; y j )是已知事件 y j 后所消除的关于事件 x i 的不确 定性,它等于事件 x i本身的不确定性 I ( xi ) 减去已知事件 y j 后对 x i仍然存在的不确定性 I ( xi | y j ) 。
2.1.2
理解:
2.1.1 自信息
结论:
证明?
设有两事件a和b: (1) 若相互独立,则I(ab)=I(a)+I(b); (2) 若不为相互独立,则I(ab)<I(a)+I(b).
2.1.1 自信息
[例2] 8个串联的灯泡x1,x2,„,x8,其损坏的可能性是等 概率的,现假设其中有一个灯泡已损坏,问总共需要多少次 测量才能获知和确定哪个灯泡已损坏。
已知8个灯泡等概率损坏,所以先验概率P (x1)=1/8 ,即
I [ P( x1 )] log2 1 3(bit) P ( x1 )
一次测量后,剩4个灯泡,等概率损坏,P (x2)=1/4
1 I [ P( x2 )] log2 2(bit) P ( x2 )
第一次测量获得的信息量 = I [P (x1)] - I [P (x2)]=1(bit) 经过二次测量后,剩2个灯泡,等概率损坏,P (x3)=1/2
[例2]
8个串联的灯泡x1,x2,„,x8,其损坏的可能性是 等概率的,现假设其中有一个灯泡已损坏,问每进行一次测 量可获得多少信息量?总共需要多少次测量才能获知和确定 哪个灯泡已损坏。
解: 收到某消息获得的信息量(即收到某消息后获得关于某事件发生的信息量) =不确定性减少的量 =(收到此消息前关于某事件发生的不确定性) - (收到此消息后关于某事件发生的不确定性)
p( x i ) p( x i | y j z k ) p( x i | y j )
log
log
I ( xi ; y j ) I ( xi ; zk | y j )
回顾
自信息
自信息量 条件自信息量 联合自信息量
I xi
I ( xi | y j )
1 I ( xi y j ) l og l og p( xi y j ) p( xi y j )
1)求收到y1后,各种天气的后验概率。
则:
px1 y1 px1 y1 0 p y1
1 4
px2 y1
p y1
px2 y1 p y1
p x2 y1
p x2 y1
1 1 1 1 4 8 8 2
1 2
2.1.2
同理:
互信息
I xi ; y j
自信息量与互信息量的联系
I(x i y j ) I(x i ) I(y j|xi ) I(x i y j ) I(y j ) I(x i|y j )
I(xi ;y j ) I(xi ) I(xi|yj )
p(x i y j ) p(x i )p(y j|xi ) p(y j )p(x i|y j )
def
p( xi |y j ) p( xi )
2.1.2
互信息
消息 信道
p( xi )
特例(无干扰信道):
信源 信宿 =1
p xi y j
xi
I ( xi )
yj
I ( xi | y j )
=0
因此,已知事件 y j 后所消除的关于事件 x i 的不确定性为:
I xi I xi y j I xi
信源中每个消息信息量的统计平均值。
平均自信息量又称为:信源熵、信息熵或熵。
I a I c 9.742
相互独立事件积事件的信息量为各事件信息量的和。
2.1.1 自信息
(3)假定前后字母出现不是独立的,当“a”出现后,“c“出现 的概率为0.04,计算“a”出现后,“c”出现的自信息量。 解:
I c a log0.04 4.644
(4)比较(3)中计算出的信息量,并与“c“的信息量进行比较 解:和分析。
可以证明,满足以上公理化条件的函数形式是对数形式。
2.1.1 自信息
定义: 随机事件的自信息量定义为该事件发生概率的对数的负值。
设事件 x i 的概率为 p( xi ) ,则它的自信息定义为
I ( xi ) log p( xi ) log
def
1 p( xi )
由图可见:上述信息量的定义正 是满足上述公理性条件的函数形式。
px3 y1 14 log 1bit px3 18
I x 4;y1 log
px 4 y1 14 log 1bit px 4 18
[例4]
设某班学生在一次考试中获优(A)、良(B)、中(C) 、及格(D)和不及格(E)的人数相等。当教师通知某甲 :“你没有不及格”,甲获得了多少比特信息?为确定自己 的成绩,甲还需要多少信息? 解: 总的需要 令 P(a)表示“得到老师通知前甲的成绩的不确定性(概率)” 信息 P(a|b)表示“得到老师通知后甲的成绩的不确定性(概率)” 剩余信息 则 P(a)=1/5, P(a|b)=1/4
单位换算关系:
1奈特= log2 e比特=1.443比特 1哈特莱= log2 10比特=3.322比特
1r进制单位=
log2 r比特
2.1.1 自信息
[例1]
(1)英文字母中“a”出现的概率为0.064,“c”出现的概率 为0.022,分别计算他们的自信息量。
(2)假定前后两字母出现是互相独立的,求“ac”的自信息量。
pc a 0.04
pc 0.022
I c a log0.04 4.644
I c log0.022 5.506
可见, “a”出现后,“c”出现的概率增大,其不确定性则变小。 (前后字母出现不是独立的,“a”出现给出了“c”的部分信息, 故“a”出现后,“c” 的不确定性则变小。 )
p x3 y1
互信息
1 4 p x4 y1 1 4
2)根据互信息量定义,计算收到y1与各种天气的互信息。 则:
I x1;y1 log px1 y1 px1
I x 2;y1 log
I x3;y1 log
px 2 y1 12 log 1bit px 2 14
I(xi ;y j ) log p(xi|y j ) p(xi )
I(xi ;yj ) I(xi ) I(y j ) I(xi y j )
2.2 平均自信息(信源熵,信息熵,熵)
2.2.1 平均自信息的概念
引出: 信源不确定性的度量(信源信息的度量) 不可行 1)自信息量 2)平均自信息量
wenku.baidu.com
I (a) log2 p(a) log2 (1 / 5) 2.3219 (bit) I (a | b) log2 p(a | b) log2 (1 / 4) 2 (bit) I (a; b) I (a) I (a | b) 2.3219 - 2 0.3219 (bit)
(3)假定前后字母出现不是独立的,当“a”出现后,“c“出 现的概率为0.04,计算”a“出现后,”c”出现的自信息量。 (4)比较(3)中计算出的信息量,并与“c“的信息量进行比 较和分析。
2.1.1 自信息
[例1]
(1)英文字母中“a”出现的概率为0.064,“c”出现的概率为 0.022,分别计算他们的自信息量。
解: I a log0.064 3.966 I c log0.022 5.506 (2)假定前后两字母出现是互相独立的,求“ac”的自信息量。 解:
字母出现相互独立,pac pa pc 0.064 0.022
I ac log0.064 0.022 log0.064 log0.022
对于联合事件(多维随机变量):
联合自信息量: 二维联合集XY上元素( xi yj )的自信息量定义为
1 I ( xi y j ) log log p( xi y j ) p( xi y j )
其中,xiyj 是积事件; p(xiyj) 是二维联合概率。 条件自信息量: 若事件xi在事件yj给定条件下的概率为p(xi| yj),则其 条件自信息量定义为
I ( xi 含义: )
1)当事件发生以前,等于事件发生的不确定性的大小; 2)当事件发生以后,表示事件所含有或所能提供的信息量。
2.1.1 自信息
自信息量的单位:与所用对数的底a有关。
a=2 a=e a=10 a=r I= -log2P I= -ln P I= -lg P I= -logrP 单位为比特(bit) I= - logP 单位为奈特(nat) 单位为哈特莱(hartley) 单位为r进制信息单位
即: I xi ; y j I xi
2.1.2
[例3]
互信息
某地二月份天气出现的概率分别为:晴1/2,阴1/4,雨1/8,雪 1/8。某一天有人告诉你:今天不是晴天,把这句话作为接收的消息 y1,求收到y1后, y1与各种天气的互信息量。 解: 记: x1(晴),x2(阴),x3(雨),x4(雪)
信源
互信息
干扰或噪声 消息 信道
p( xi )
信宿
xi
I ( xi )
yj
p xi y j
I ( xi | y j )
因此,已知事件 y j 后所消除的关于事件 x i 的不确定性为:
I xi I xi y j
即:
I ( xi ;y j ) I ( xi ) I ( xi |y j ) log
互信息量定义为条件互信息量。其定义式为:
I ( xi ; y j | zk ) log
p( xi | y j zk ) p( xi | zk )
i j k
联合互信息: 联合事件 {Y=yj ,Z=zk}与事件{X=xi}之间的联合互信 息为: p( x | y z )
I ( x i ; y j z k ) log p( x i | y j ) p( x i )
2.1.2
互信息
def 对于联合事件(多维随机变量): def p( xi |y j ) I ( xi ) I ( xi |y I ( xi ;y j ) I ( xi ) II((x xii ;|y jj ) log 条件互信息量: 在联合集XYZ中,在给定 zk的条件下, xi与yj之间的 p( xi )
2.1 自信息和互信息
2.1.1 自信息
定义 一个事件(消息)本身所包含的信息,它是由事件 的不确定性决定的。 自信息量 一个事件(消息)本身所包含的信息量,记为I ( xi ) 。 自信息量为概率 p( xi ) 的函数。
2.1.1 自信息
根据客观事实和人们的习惯概念,自信息量应满足以下条 件(公理化条件):
1 I ( xi | y j ) log log p( xi | y j ) p( xi | y j )
2.1.2
互信息
定义: 一个事件 y j 所给出关于另一个事件 x i 的信息定义为互信
息,用 I ( xi ; y j )表示。
def
I ( xi ;y j ) I ( xi ) I ( xi |y j ) log
I ( x1 ) I ( x2 ) , 1. I ( xi ) 是p( xi ) 的严格递减函数。当p( x1 ) p( x2 ) 时, 概率越小,事件发生的不确定性越大,事件发生以后所包含的自信 息量越大。 I ( xi ) =0。 2.极限情况下当p( xi ) =0时, I ( xi ) ;当 p( xi ) =1时, 3.另外,从直观概念上讲,由两个相对独立的不同的消息所提供的 信息量应等于它们分别提供的信息量之和。
I [ P( x3 )] log2
1 1(bit) P ( x3 )
第二次测量获得的信息量 = I [P (x2)] - I [P (x3)]=1(bit) 第三次测量获得的信息量 = I [P (x3)] =1(bit) 故:至少要获得3个比特的信息量就可确切知道哪个灯泡已坏了。
2.1.1 自信息
p( xi |y j ) p( xi )
含义:互信息 I ( xi ; y j )是已知事件 y j 后所消除的关于事件 x i 的不确 定性,它等于事件 x i本身的不确定性 I ( xi ) 减去已知事件 y j 后对 x i仍然存在的不确定性 I ( xi | y j ) 。
2.1.2
理解:
2.1.1 自信息
结论:
证明?
设有两事件a和b: (1) 若相互独立,则I(ab)=I(a)+I(b); (2) 若不为相互独立,则I(ab)<I(a)+I(b).
2.1.1 自信息
[例2] 8个串联的灯泡x1,x2,„,x8,其损坏的可能性是等 概率的,现假设其中有一个灯泡已损坏,问总共需要多少次 测量才能获知和确定哪个灯泡已损坏。
已知8个灯泡等概率损坏,所以先验概率P (x1)=1/8 ,即
I [ P( x1 )] log2 1 3(bit) P ( x1 )
一次测量后,剩4个灯泡,等概率损坏,P (x2)=1/4
1 I [ P( x2 )] log2 2(bit) P ( x2 )
第一次测量获得的信息量 = I [P (x1)] - I [P (x2)]=1(bit) 经过二次测量后,剩2个灯泡,等概率损坏,P (x3)=1/2
[例2]
8个串联的灯泡x1,x2,„,x8,其损坏的可能性是 等概率的,现假设其中有一个灯泡已损坏,问每进行一次测 量可获得多少信息量?总共需要多少次测量才能获知和确定 哪个灯泡已损坏。
解: 收到某消息获得的信息量(即收到某消息后获得关于某事件发生的信息量) =不确定性减少的量 =(收到此消息前关于某事件发生的不确定性) - (收到此消息后关于某事件发生的不确定性)
p( x i ) p( x i | y j z k ) p( x i | y j )
log
log
I ( xi ; y j ) I ( xi ; zk | y j )
回顾
自信息
自信息量 条件自信息量 联合自信息量
I xi
I ( xi | y j )
1 I ( xi y j ) l og l og p( xi y j ) p( xi y j )
1)求收到y1后,各种天气的后验概率。
则:
px1 y1 px1 y1 0 p y1
1 4
px2 y1
p y1
px2 y1 p y1
p x2 y1
p x2 y1
1 1 1 1 4 8 8 2
1 2
2.1.2
同理:
互信息
I xi ; y j
自信息量与互信息量的联系
I(x i y j ) I(x i ) I(y j|xi ) I(x i y j ) I(y j ) I(x i|y j )
I(xi ;y j ) I(xi ) I(xi|yj )
p(x i y j ) p(x i )p(y j|xi ) p(y j )p(x i|y j )
def
p( xi |y j ) p( xi )
2.1.2
互信息
消息 信道
p( xi )
特例(无干扰信道):
信源 信宿 =1
p xi y j
xi
I ( xi )
yj
I ( xi | y j )
=0
因此,已知事件 y j 后所消除的关于事件 x i 的不确定性为:
I xi I xi y j I xi
信源中每个消息信息量的统计平均值。
平均自信息量又称为:信源熵、信息熵或熵。
I a I c 9.742
相互独立事件积事件的信息量为各事件信息量的和。
2.1.1 自信息
(3)假定前后字母出现不是独立的,当“a”出现后,“c“出现 的概率为0.04,计算“a”出现后,“c”出现的自信息量。 解:
I c a log0.04 4.644
(4)比较(3)中计算出的信息量,并与“c“的信息量进行比较 解:和分析。
可以证明,满足以上公理化条件的函数形式是对数形式。
2.1.1 自信息
定义: 随机事件的自信息量定义为该事件发生概率的对数的负值。
设事件 x i 的概率为 p( xi ) ,则它的自信息定义为
I ( xi ) log p( xi ) log
def
1 p( xi )
由图可见:上述信息量的定义正 是满足上述公理性条件的函数形式。
px3 y1 14 log 1bit px3 18
I x 4;y1 log
px 4 y1 14 log 1bit px 4 18
[例4]
设某班学生在一次考试中获优(A)、良(B)、中(C) 、及格(D)和不及格(E)的人数相等。当教师通知某甲 :“你没有不及格”,甲获得了多少比特信息?为确定自己 的成绩,甲还需要多少信息? 解: 总的需要 令 P(a)表示“得到老师通知前甲的成绩的不确定性(概率)” 信息 P(a|b)表示“得到老师通知后甲的成绩的不确定性(概率)” 剩余信息 则 P(a)=1/5, P(a|b)=1/4
单位换算关系:
1奈特= log2 e比特=1.443比特 1哈特莱= log2 10比特=3.322比特
1r进制单位=
log2 r比特
2.1.1 自信息
[例1]
(1)英文字母中“a”出现的概率为0.064,“c”出现的概率 为0.022,分别计算他们的自信息量。
(2)假定前后两字母出现是互相独立的,求“ac”的自信息量。
pc a 0.04
pc 0.022
I c a log0.04 4.644
I c log0.022 5.506
可见, “a”出现后,“c”出现的概率增大,其不确定性则变小。 (前后字母出现不是独立的,“a”出现给出了“c”的部分信息, 故“a”出现后,“c” 的不确定性则变小。 )
p x3 y1
互信息
1 4 p x4 y1 1 4
2)根据互信息量定义,计算收到y1与各种天气的互信息。 则:
I x1;y1 log px1 y1 px1
I x 2;y1 log
I x3;y1 log
px 2 y1 12 log 1bit px 2 14
I(xi ;y j ) log p(xi|y j ) p(xi )
I(xi ;yj ) I(xi ) I(y j ) I(xi y j )
2.2 平均自信息(信源熵,信息熵,熵)
2.2.1 平均自信息的概念
引出: 信源不确定性的度量(信源信息的度量) 不可行 1)自信息量 2)平均自信息量
wenku.baidu.com
I (a) log2 p(a) log2 (1 / 5) 2.3219 (bit) I (a | b) log2 p(a | b) log2 (1 / 4) 2 (bit) I (a; b) I (a) I (a | b) 2.3219 - 2 0.3219 (bit)
(3)假定前后字母出现不是独立的,当“a”出现后,“c“出 现的概率为0.04,计算”a“出现后,”c”出现的自信息量。 (4)比较(3)中计算出的信息量,并与“c“的信息量进行比 较和分析。
2.1.1 自信息
[例1]
(1)英文字母中“a”出现的概率为0.064,“c”出现的概率为 0.022,分别计算他们的自信息量。
解: I a log0.064 3.966 I c log0.022 5.506 (2)假定前后两字母出现是互相独立的,求“ac”的自信息量。 解:
字母出现相互独立,pac pa pc 0.064 0.022
I ac log0.064 0.022 log0.064 log0.022
对于联合事件(多维随机变量):
联合自信息量: 二维联合集XY上元素( xi yj )的自信息量定义为
1 I ( xi y j ) log log p( xi y j ) p( xi y j )
其中,xiyj 是积事件; p(xiyj) 是二维联合概率。 条件自信息量: 若事件xi在事件yj给定条件下的概率为p(xi| yj),则其 条件自信息量定义为
I ( xi 含义: )
1)当事件发生以前,等于事件发生的不确定性的大小; 2)当事件发生以后,表示事件所含有或所能提供的信息量。
2.1.1 自信息
自信息量的单位:与所用对数的底a有关。
a=2 a=e a=10 a=r I= -log2P I= -ln P I= -lg P I= -logrP 单位为比特(bit) I= - logP 单位为奈特(nat) 单位为哈特莱(hartley) 单位为r进制信息单位
即: I xi ; y j I xi
2.1.2
[例3]
互信息
某地二月份天气出现的概率分别为:晴1/2,阴1/4,雨1/8,雪 1/8。某一天有人告诉你:今天不是晴天,把这句话作为接收的消息 y1,求收到y1后, y1与各种天气的互信息量。 解: 记: x1(晴),x2(阴),x3(雨),x4(雪)
信源
互信息
干扰或噪声 消息 信道
p( xi )
信宿
xi
I ( xi )
yj
p xi y j
I ( xi | y j )
因此,已知事件 y j 后所消除的关于事件 x i 的不确定性为:
I xi I xi y j
即:
I ( xi ;y j ) I ( xi ) I ( xi |y j ) log
互信息量定义为条件互信息量。其定义式为:
I ( xi ; y j | zk ) log
p( xi | y j zk ) p( xi | zk )
i j k
联合互信息: 联合事件 {Y=yj ,Z=zk}与事件{X=xi}之间的联合互信 息为: p( x | y z )
I ( x i ; y j z k ) log p( x i | y j ) p( x i )