信息论第2章信息的度量
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
q
H ( X ) pi log pi H ( p1, p2, , pq ) H (p) i 1
熵函数H(P)具有以下性质: 对称性
H ( p1, p2 , , pq ) H ( p2 , p1, , pq )= = H ( pq , p1, , pq1)
说明熵函数仅与信源的总体统计特性有关。
结论:在极端情况2下,甲地比乙地提供更多的信息量。 因为,甲地可能出现的消息数比乙地可能出现的消息数多。
2.2.2 熵函数的性质
信息熵H(X)是随机变量X的概率分布的函数,所以 又称为熵函数。如果把概率分布p(xi),i=1,2,…,q,记 为 p1,p2,…,pq , 则 熵 函 数 又 可 以 写 成 概 率 矢 量 P=(p1,p2,…,pq)的函数的形式,记为H(P) 。
2.1.1 自信息
随函数机,事并件且的应自该信满息足量以I(下xi)公是理该化事条件件发:生概率p(xi)的
I大I((x,x1i))>事,是I(件x2p发)(x,生i)的概以严率后格越所递小包减,含函的事数自件。信发当息生p量的(x1越不)<大确p(。x定2)性时越,
时极,限情I(x况i) 下=0当。p(xi) =0时, I(xi) →∞ ;当p(xi) =1 另外,从直观概念上讲,由两个相对独立的不同
乙地极端情况:
极端情况1:晴天概率=1
Y P( y)
晴
1
小雨
0
H (Y ) 1 log1 0 log 0 0(bit / 符号)
极端情况2:各种天气等概率分布
Y P( y)
晴 1/2
阴 1/2
H (Y ) log 1 1(bit / 符号) 2
若取自然对数(对数以e为底),自信息量的单
位为奈特(nat,natural 特=1.443比特
unit)。
1奈特=log2e比
工程上用以10为底较方便。若以10为对数底,则 自信息量的单位为哈特莱(Hartley)。1哈特莱 =log210比特=3.322比特
制如单果位取以1rr进为制底单的位对=数lo(gr2>r比1),特则I(xi)=-logrp(xi)进
两个信源
X 晴 阴 大雨 小雨
P(x) 1/2 1/ 4 1/ 8
1/
8
Y P( y)
晴 7 /8
小雨
1/
8
解:甲地天气预报构成的信源空间为:
X P(x)
晴 1/2
阴 1/ 4
大雨 1/ 8
小雨
1/
8
则其提供的平均信息量即信源的信息熵:
2.2 平均自信息
2.2.1 平均自信息(信息熵)的概念
自信息量是信源发出某一具体消息所含有的信息量, 发出的消息不同,所含有的信息量也不同。因此自信 息量不能用来表征整个信源的不确定度。定义平均 自信息量来表征整个信源的不确定度。平均自信息 量又称为信息熵、信源熵,简称熵。
因为信源具有不确定性,所以我们把信源用随机变 量来表示,用随机变量的概率分布来描述信源的不 确定性。通常把一个随机变量的所有可能的取值和 这些取值对应的概率 [X,P(X)] 称为它的概率空间。
连续性
lim H
0
( p1,
p2 ,
, pq1 ,pq ) H ( p1, p2,
, pq )
即信源概率空间中概率分量的微小波动,不会 引起熵的变化。
2.2.2 熵函数的性质
递增性
H ( p1, p2,
, pn1, q1, q2 ,
, qm ) H ( p1, p2,
[例] 8个串联的灯泡x1,x2,…,x8,其损坏的可能性是等概 率的,现假设其中有一个灯泡已损坏,问每进行一次测量可 获得多少信息量?最少需要多少次测量才能获知和确定哪个 灯泡已损坏。
解:收到某消息获得的信息量(即收到某消息后获得关于某事 件发生的信息量) =不确定性减少的量 =(收到此消息前关于某事件发生的不确定性) - (收到此消息后关于某事件发生的不确定性)
晴
1
阴 0
大雨 0
小雨
0
H (X ) 1 log1 0 log 0 0 log 0 0 log 0
lim log 0 H (X ) 0(bit / 符号) 0
极端情况2:各种天气等概率分布
X 晴 阴 大雨 小雨
X P(
X
)
a1 0.8
a2 0.2
如果被告知摸出的是红球,那么获得的信息量是:
I (a1) =-log p(a1) =-log0.8= 0.32 (比特)
如被告知摸出来的是白球,所获得的信息量应为:
I (a2) = -log p(a2) = -log0.2 = 2.32 (比特)
已知8个灯泡等概率损坏,所以先验概率P (x1)=1/8 ,即
I[P( x1 )]
log 2
P
1 ( x1 )
3(bit)
一次测量后,剩4个灯泡,等概率损坏,P (x2)=1/4
I[P(x2 )]
log 2
P
1 (x2 )
2(bit)
第一次测量获得的信息量 = I [P (x1)] - I [P (x2)]=1(bit)
4
H (X ) P(ai )logP(ai )
i 1
1 log 1 1 log 1 1 log 1 1 log 1 1.75(bit / 符号) 2 24 48 88 8
乙地天气预报的信源空间为:
Y 晴 小雨
P( y) 7 /8
1/
X P(
x)
a1 0.99
a2 0.01
YP(
y)
a1 0.5
a2 0.5
计算其熵,得:H(X)=0.08( bit /符号)
H(Y)=1(bit / 符号)
H(Y)>H(X),因此信源Y比信源X的平均不确定性要大。
[例] 设甲地的天气预报为:晴(占4/8)、阴(占2/8)、大雨(占 1/8)、小雨(占1/8)。又设乙地的天气预报为:晴 (占7/8), 小雨(占1/8)。试求两地天气预报各自提供的平均信息量。若 甲地天气预报为两极端情况,一种是晴出现概率为1而其余为0。 另一种是晴、阴、小雨、大雨出现的概率都相等为1/4。试求 这两极端情况所提供的平均信息量。又试求乙地出现这两极端 情况所提供的平均信息量。
从图2.1种可以看到上述信 息量的定义正是满足上述 公理性条件的函数形式。 I(xi)代表两种含义:当事 件发生以前, 等于事件发
生的不确定性的大小;当 事件发生以后,表示事件 所含有或所能提供的信息 量。
图2.1 自信息量
2.1.1 自信息
自信息量的单位
常取对数的底为2,信息量的单位为比特(bit, b概in率ar等y 于un1i/t2)的。事当件具p(x有i)=11比/2特时的,自I(信xi)息=1量比。特,即
2.2.2 熵函数的性质
确定性
H (1, 0) H (1, 0, 0) H (1, 0, 0, 0) H (1, 0, , 0) 0
在概率矢量中,只要有一个分量为1,其它分量 必为0,它们对熵的贡献均为0,因此熵等于0。 也就是说确定信源的不确定度为0。 非负性
H (p) H ( p1, p2 , , pq ) 0
不同,可以是比特/符号、奈特/符号、哈特莱/符号或者 是r进制单位/符号。通常用比特/符号为单位。 一般情况下,信息熵并不等于收信者平均获得的信息量, 收信者不能全部消除信源的平均不确定性,获得的信息量将 小于信息熵。
熵的计算[例]: 有一布袋内放l00个球,其中80个球是红色的,20个球是白
色的。随便摸出一个球,猜测是什么颜色,那么其概率空间为:
互信息:一个事件所给出关于另一个事件的信息量,比 如今天下雨所给出关于明天下雨的信息量。
平均自信息(信息熵):事件集(用随机变量表示)所 包含的平均信息量,它表示信源的平均不确定性。比如 抛掷一枚硬币的试验所包含的信息量。
平均互信息:一个事件集所给出关于另一个事件集的平 均信息量,比如今天的天气所给出关于明天的天气的信 息量。
第2章 信息的度量
重庆交通大学信息与工程学院 通信工程系 李益才
2012月
第2章 信息的度量
2.1 自信息和互信息 2.2 平均自信息 2.3 平均互信息
2.1 自信息和互信息
几个重要概念
自信息:一个事件(消息)本身所包含的信息量,它是 由事件的不确定性决定的。比如抛掷一枚硬币的结果是 正面这个消息所包含的信息量。
经过二次测量后,剩2个灯泡,等概率损坏,P (x3)=1/2
I[P(x3)]
log 2
P
1 ( x3 )
1(bit)
ห้องสมุดไป่ตู้
第二次测量获得的信息量 = I [P (x2)] - I [P (x3)]=1(bit)
第三次测量获得的信息量 = I [P (x3)] =1(bit)
至少要获得3个比特的信息量就可确切知道哪个灯泡已坏了。
平均摸取一次所能获得的信息量为 :
H(X)= p(a1) I (a1) + p(a2) I (a2) =0.72(比特/符号)
熵的含义
熵是从整个集合的统计特性来考虑的,它从平均意义上来 表征信源的总体特征。
在信源输出后,信息熵H(X)表示每个消息提供的平均信 息量;
在信源输出前,信息熵H(X) 表示信源的平均不确定性; 信息熵H(X) 表征了变量X的随机性。 例如,有两信源X、Y,其概率空间分别为:
2.2.1 平均自信息(信息熵)的概念
定义2.3 随机变量X的每一个可能取值的自信息I(xi)的统计平 均值定义为随机变量X的平均自信息量:
q
H ( X ) E I (xi ) p(xi ) log p(xi ) i 1
这里q为的所有X可能取值的个数。 熵的单位也是与所取的对数底有关,根据所取的对数底
2.1.2 互信息
定义2.2 一个事件yj所给出关于另一个事件xi的信息定义为互 信息,用I(xi;yj)表示。
I (xi
def
;y j )
I (xi ) I (xi
|y j )
log
p(xi |y j ) p(xi )
互信息I(xi;yj)是已知事件yj后所消除的关于事件xi的不确定性, 它等于事件xi本身的不确定性I(xi)减去已知事件yj后对 仍然 存在的不确定性I(xi|yj) 。 互信息的引出,使信息得到了定量的表示,是信息论发展的 一个重要的里程碑。
P(x) 1/4 1/4 1/4
1/4
H (X ) 1 log 1 1 log 1 1 log 1 1 log 1 2(bit / 符号) 4 44 44 44 4
结论:等概率分布时信源的不确定性最大,所 以信息熵(平均信息量)最大。
8
H (Y ) 7 log 7 1 log 1 log 1 7 log 7 0.544(bit / 符号)
8 88 8
88
结论:甲地天气预报提供的平均信息量大于乙地,因为乙地 比甲地的平均不确定性小。
甲地极端情况:
极端情况1:晴天概率=1
X P(x)
,
pn )
pn H
q1 pn
,
q2 , pn
,
qm pn
这性质表明,假如有一信源的n个元素的概率分布为
(p1,p2,…,pn),其中某个元素xn又被划分成m个元素,这m
个元素的概率之和等于元素的概率,这样得到的新信源
对确定信源,等号成立。信源熵是自信息的数 学期望,自信息是非负值,所以信源熵必定是非 负的。
2.2.2 熵函数的性质
扩展性
lim
0
Hq1
(
p1,
p2 ,
, pq , ) Hq ( p1, p2,
, pq )
这个性质的含义是增加一个基本不会出现的小 概率事件,信源的熵保持不变。
的消息所提供的信息量应等于它们分别提供的信 息量之和。
可以证明,满足以上公理化条件的函数形式是对数 形式。
2.1.1 自信息
定义2.1 随机事件的自信息量定义为该事件发生概率的对数
的负值。设事件xi的概率为p(xi),则它的自信息定义为
def
I (xi ) log
p(xi )
log
1 p(xi )
H ( X ) pi log pi H ( p1, p2, , pq ) H (p) i 1
熵函数H(P)具有以下性质: 对称性
H ( p1, p2 , , pq ) H ( p2 , p1, , pq )= = H ( pq , p1, , pq1)
说明熵函数仅与信源的总体统计特性有关。
结论:在极端情况2下,甲地比乙地提供更多的信息量。 因为,甲地可能出现的消息数比乙地可能出现的消息数多。
2.2.2 熵函数的性质
信息熵H(X)是随机变量X的概率分布的函数,所以 又称为熵函数。如果把概率分布p(xi),i=1,2,…,q,记 为 p1,p2,…,pq , 则 熵 函 数 又 可 以 写 成 概 率 矢 量 P=(p1,p2,…,pq)的函数的形式,记为H(P) 。
2.1.1 自信息
随函数机,事并件且的应自该信满息足量以I(下xi)公是理该化事条件件发:生概率p(xi)的
I大I((x,x1i))>事,是I(件x2p发)(x,生i)的概以严率后格越所递小包减,含函的事数自件。信发当息生p量的(x1越不)<大确p(。x定2)性时越,
时极,限情I(x况i) 下=0当。p(xi) =0时, I(xi) →∞ ;当p(xi) =1 另外,从直观概念上讲,由两个相对独立的不同
乙地极端情况:
极端情况1:晴天概率=1
Y P( y)
晴
1
小雨
0
H (Y ) 1 log1 0 log 0 0(bit / 符号)
极端情况2:各种天气等概率分布
Y P( y)
晴 1/2
阴 1/2
H (Y ) log 1 1(bit / 符号) 2
若取自然对数(对数以e为底),自信息量的单
位为奈特(nat,natural 特=1.443比特
unit)。
1奈特=log2e比
工程上用以10为底较方便。若以10为对数底,则 自信息量的单位为哈特莱(Hartley)。1哈特莱 =log210比特=3.322比特
制如单果位取以1rr进为制底单的位对=数lo(gr2>r比1),特则I(xi)=-logrp(xi)进
两个信源
X 晴 阴 大雨 小雨
P(x) 1/2 1/ 4 1/ 8
1/
8
Y P( y)
晴 7 /8
小雨
1/
8
解:甲地天气预报构成的信源空间为:
X P(x)
晴 1/2
阴 1/ 4
大雨 1/ 8
小雨
1/
8
则其提供的平均信息量即信源的信息熵:
2.2 平均自信息
2.2.1 平均自信息(信息熵)的概念
自信息量是信源发出某一具体消息所含有的信息量, 发出的消息不同,所含有的信息量也不同。因此自信 息量不能用来表征整个信源的不确定度。定义平均 自信息量来表征整个信源的不确定度。平均自信息 量又称为信息熵、信源熵,简称熵。
因为信源具有不确定性,所以我们把信源用随机变 量来表示,用随机变量的概率分布来描述信源的不 确定性。通常把一个随机变量的所有可能的取值和 这些取值对应的概率 [X,P(X)] 称为它的概率空间。
连续性
lim H
0
( p1,
p2 ,
, pq1 ,pq ) H ( p1, p2,
, pq )
即信源概率空间中概率分量的微小波动,不会 引起熵的变化。
2.2.2 熵函数的性质
递增性
H ( p1, p2,
, pn1, q1, q2 ,
, qm ) H ( p1, p2,
[例] 8个串联的灯泡x1,x2,…,x8,其损坏的可能性是等概 率的,现假设其中有一个灯泡已损坏,问每进行一次测量可 获得多少信息量?最少需要多少次测量才能获知和确定哪个 灯泡已损坏。
解:收到某消息获得的信息量(即收到某消息后获得关于某事 件发生的信息量) =不确定性减少的量 =(收到此消息前关于某事件发生的不确定性) - (收到此消息后关于某事件发生的不确定性)
晴
1
阴 0
大雨 0
小雨
0
H (X ) 1 log1 0 log 0 0 log 0 0 log 0
lim log 0 H (X ) 0(bit / 符号) 0
极端情况2:各种天气等概率分布
X 晴 阴 大雨 小雨
X P(
X
)
a1 0.8
a2 0.2
如果被告知摸出的是红球,那么获得的信息量是:
I (a1) =-log p(a1) =-log0.8= 0.32 (比特)
如被告知摸出来的是白球,所获得的信息量应为:
I (a2) = -log p(a2) = -log0.2 = 2.32 (比特)
已知8个灯泡等概率损坏,所以先验概率P (x1)=1/8 ,即
I[P( x1 )]
log 2
P
1 ( x1 )
3(bit)
一次测量后,剩4个灯泡,等概率损坏,P (x2)=1/4
I[P(x2 )]
log 2
P
1 (x2 )
2(bit)
第一次测量获得的信息量 = I [P (x1)] - I [P (x2)]=1(bit)
4
H (X ) P(ai )logP(ai )
i 1
1 log 1 1 log 1 1 log 1 1 log 1 1.75(bit / 符号) 2 24 48 88 8
乙地天气预报的信源空间为:
Y 晴 小雨
P( y) 7 /8
1/
X P(
x)
a1 0.99
a2 0.01
YP(
y)
a1 0.5
a2 0.5
计算其熵,得:H(X)=0.08( bit /符号)
H(Y)=1(bit / 符号)
H(Y)>H(X),因此信源Y比信源X的平均不确定性要大。
[例] 设甲地的天气预报为:晴(占4/8)、阴(占2/8)、大雨(占 1/8)、小雨(占1/8)。又设乙地的天气预报为:晴 (占7/8), 小雨(占1/8)。试求两地天气预报各自提供的平均信息量。若 甲地天气预报为两极端情况,一种是晴出现概率为1而其余为0。 另一种是晴、阴、小雨、大雨出现的概率都相等为1/4。试求 这两极端情况所提供的平均信息量。又试求乙地出现这两极端 情况所提供的平均信息量。
从图2.1种可以看到上述信 息量的定义正是满足上述 公理性条件的函数形式。 I(xi)代表两种含义:当事 件发生以前, 等于事件发
生的不确定性的大小;当 事件发生以后,表示事件 所含有或所能提供的信息 量。
图2.1 自信息量
2.1.1 自信息
自信息量的单位
常取对数的底为2,信息量的单位为比特(bit, b概in率ar等y 于un1i/t2)的。事当件具p(x有i)=11比/2特时的,自I(信xi)息=1量比。特,即
2.2.2 熵函数的性质
确定性
H (1, 0) H (1, 0, 0) H (1, 0, 0, 0) H (1, 0, , 0) 0
在概率矢量中,只要有一个分量为1,其它分量 必为0,它们对熵的贡献均为0,因此熵等于0。 也就是说确定信源的不确定度为0。 非负性
H (p) H ( p1, p2 , , pq ) 0
不同,可以是比特/符号、奈特/符号、哈特莱/符号或者 是r进制单位/符号。通常用比特/符号为单位。 一般情况下,信息熵并不等于收信者平均获得的信息量, 收信者不能全部消除信源的平均不确定性,获得的信息量将 小于信息熵。
熵的计算[例]: 有一布袋内放l00个球,其中80个球是红色的,20个球是白
色的。随便摸出一个球,猜测是什么颜色,那么其概率空间为:
互信息:一个事件所给出关于另一个事件的信息量,比 如今天下雨所给出关于明天下雨的信息量。
平均自信息(信息熵):事件集(用随机变量表示)所 包含的平均信息量,它表示信源的平均不确定性。比如 抛掷一枚硬币的试验所包含的信息量。
平均互信息:一个事件集所给出关于另一个事件集的平 均信息量,比如今天的天气所给出关于明天的天气的信 息量。
第2章 信息的度量
重庆交通大学信息与工程学院 通信工程系 李益才
2012月
第2章 信息的度量
2.1 自信息和互信息 2.2 平均自信息 2.3 平均互信息
2.1 自信息和互信息
几个重要概念
自信息:一个事件(消息)本身所包含的信息量,它是 由事件的不确定性决定的。比如抛掷一枚硬币的结果是 正面这个消息所包含的信息量。
经过二次测量后,剩2个灯泡,等概率损坏,P (x3)=1/2
I[P(x3)]
log 2
P
1 ( x3 )
1(bit)
ห้องสมุดไป่ตู้
第二次测量获得的信息量 = I [P (x2)] - I [P (x3)]=1(bit)
第三次测量获得的信息量 = I [P (x3)] =1(bit)
至少要获得3个比特的信息量就可确切知道哪个灯泡已坏了。
平均摸取一次所能获得的信息量为 :
H(X)= p(a1) I (a1) + p(a2) I (a2) =0.72(比特/符号)
熵的含义
熵是从整个集合的统计特性来考虑的,它从平均意义上来 表征信源的总体特征。
在信源输出后,信息熵H(X)表示每个消息提供的平均信 息量;
在信源输出前,信息熵H(X) 表示信源的平均不确定性; 信息熵H(X) 表征了变量X的随机性。 例如,有两信源X、Y,其概率空间分别为:
2.2.1 平均自信息(信息熵)的概念
定义2.3 随机变量X的每一个可能取值的自信息I(xi)的统计平 均值定义为随机变量X的平均自信息量:
q
H ( X ) E I (xi ) p(xi ) log p(xi ) i 1
这里q为的所有X可能取值的个数。 熵的单位也是与所取的对数底有关,根据所取的对数底
2.1.2 互信息
定义2.2 一个事件yj所给出关于另一个事件xi的信息定义为互 信息,用I(xi;yj)表示。
I (xi
def
;y j )
I (xi ) I (xi
|y j )
log
p(xi |y j ) p(xi )
互信息I(xi;yj)是已知事件yj后所消除的关于事件xi的不确定性, 它等于事件xi本身的不确定性I(xi)减去已知事件yj后对 仍然 存在的不确定性I(xi|yj) 。 互信息的引出,使信息得到了定量的表示,是信息论发展的 一个重要的里程碑。
P(x) 1/4 1/4 1/4
1/4
H (X ) 1 log 1 1 log 1 1 log 1 1 log 1 2(bit / 符号) 4 44 44 44 4
结论:等概率分布时信源的不确定性最大,所 以信息熵(平均信息量)最大。
8
H (Y ) 7 log 7 1 log 1 log 1 7 log 7 0.544(bit / 符号)
8 88 8
88
结论:甲地天气预报提供的平均信息量大于乙地,因为乙地 比甲地的平均不确定性小。
甲地极端情况:
极端情况1:晴天概率=1
X P(x)
,
pn )
pn H
q1 pn
,
q2 , pn
,
qm pn
这性质表明,假如有一信源的n个元素的概率分布为
(p1,p2,…,pn),其中某个元素xn又被划分成m个元素,这m
个元素的概率之和等于元素的概率,这样得到的新信源
对确定信源,等号成立。信源熵是自信息的数 学期望,自信息是非负值,所以信源熵必定是非 负的。
2.2.2 熵函数的性质
扩展性
lim
0
Hq1
(
p1,
p2 ,
, pq , ) Hq ( p1, p2,
, pq )
这个性质的含义是增加一个基本不会出现的小 概率事件,信源的熵保持不变。
的消息所提供的信息量应等于它们分别提供的信 息量之和。
可以证明,满足以上公理化条件的函数形式是对数 形式。
2.1.1 自信息
定义2.1 随机事件的自信息量定义为该事件发生概率的对数
的负值。设事件xi的概率为p(xi),则它的自信息定义为
def
I (xi ) log
p(xi )
log
1 p(xi )